1.一种基于Hadoop的自适应RK-means算法,其特征在于:包括以下步骤:
S1:根据业务需求,输入待聚类的数据集;
S2:运用基于Hadoop的自适应聚类中心算法获取聚类中心点及数目;
S3:将上一步的结果作为算法的初始聚类中心,输入到基于Hadoop的RK-means算法中,获取全局最优的聚类簇;
S4:输出聚类结果。
2.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S1具体包括:
S11:确定业务需求;
S12:根据业务需求准备数据;
S13:数据预处理;
S14:得到待聚类的数据集。
3.根据权利要求2所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S13中的数据预处理通过分析数据、异常值处理、数据的抽取及数据的转换,直接作为算法的输入数据。
4.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S2具体包括:
S21:将数据集X读入,估计数据集内随机观测值的空间距离,按照升序排列,随机选取一观测点作为初始中心点,聚类数目设置为1,设定两观测值相似性阈值;
S22:估计其余观测点与初始聚类中心间的空间距离,将观测点的id作为map函数的key,观测点与初始聚类中心点的空间距离设为value输出到Combine函数中;
S23:Combine函数选取所有观测点中最小的空间距离,取该距离与两观测值相似性阈值进行比较:若偏大,则聚类数量进1,将该观测值的id作为key,该观测值的属性记为value输出到Reduce中;若偏小,则将初始中心点的id作为key,该观测值的属性记为value输出到Reduce;
S24:通过Reduce函数更新两观测值相似性阈值;
S25:判断数据集中所有数据是否都已分类完毕:若是,则输出聚类中心;反之,则重复执行S22至S24。
5.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法,其特征在于:所述步骤S3具体包括:
S31:根据每个对象到初始聚类中心的距离,将对象分配给最近的聚类中心;
S32:Map函数中,key表示该类簇所属聚类中心类别,value表示类别及其对象的属性;
S33:Reduce函数读取Map函数写入的中间结果,即context.write(key,value);
S34:获取每个簇的平均值;
S35:根据各对象到每个簇中心的距离,采用增加随机项的更新算法更新聚类中心,将它们重新分配给距离最近的簇;
S36:输出不同的簇,其中key为各个簇的编号,value为各个簇中每个对象对应的属性,最后的输出就是RK-means聚类的结果。