一种基于Hadoop的自适应RK‑means算法的制作方法

文档序号:12365694阅读:来源:国知局

技术特征:

1.一种基于Hadoop的自适应RK-means算法,其特征在于:包括以下步骤:

S1:根据业务需求,输入待聚类的数据集;

S2:运用基于Hadoop的自适应聚类中心算法获取聚类中心点及数目;

S3:将上一步的结果作为算法的初始聚类中心,输入到基于Hadoop的RK-means算法中,获取全局最优的聚类簇;

S4:输出聚类结果。

2.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S1具体包括:

S11:确定业务需求;

S12:根据业务需求准备数据;

S13:数据预处理;

S14:得到待聚类的数据集。

3.根据权利要求2所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S13中的数据预处理通过分析数据、异常值处理、数据的抽取及数据的转换,直接作为算法的输入数据。

4.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S2具体包括:

S21:将数据集X读入,估计数据集内随机观测值的空间距离,按照升序排列,随机选取一观测点作为初始中心点,聚类数目设置为1,设定两观测值相似性阈值;

S22:估计其余观测点与初始聚类中心间的空间距离,将观测点的id作为map函数的key,观测点与初始聚类中心点的空间距离设为value输出到Combine函数中;

S23:Combine函数选取所有观测点中最小的空间距离,取该距离与两观测值相似性阈值进行比较:若偏大,则聚类数量进1,将该观测值的id作为key,该观测值的属性记为value输出到Reduce中;若偏小,则将初始中心点的id作为key,该观测值的属性记为value输出到Reduce;

S24:通过Reduce函数更新两观测值相似性阈值;

S25:判断数据集中所有数据是否都已分类完毕:若是,则输出聚类中心;反之,则重复执行S22至S24。

5.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S3具体包括:

S31:根据每个对象到初始聚类中心的距离,将对象分配给最近的聚类中心;

S32:Map函数中,key表示该类簇所属聚类中心类别,value表示类别及其对象的属性;

S33:Reduce函数读取Map函数写入的中间结果,即context.write(key,value);

S34:获取每个簇的平均值;

S35:根据各对象到每个簇中心的距离,采用增加随机项的更新算法更新聚类中心,将它们重新分配给距离最近的簇;

S36:输出不同的簇,其中key为各个簇的编号,value为各个簇中每个对象对应的属性,最后的输出就是RK-means聚类的结果。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1