一种基于Hadoop的自适应RK‑means算法的制作方法

文档序号：12365694阅读：来源：国知局

技术特征：

1.一种基于Hadoop的自适应RK-means算法，其特征在于：包括以下步骤：

S1：根据业务需求，输入待聚类的数据集；

S2：运用基于Hadoop的自适应聚类中心算法获取聚类中心点及数目；

S3：将上一步的结果作为算法的初始聚类中心，输入到基于Hadoop的RK-means算法中，获取全局最优的聚类簇；

S4：输出聚类结果。

2.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法，其特征在于：所述步骤S1具体包括：

S11：确定业务需求；

S12：根据业务需求准备数据；

S13：数据预处理；

S14：得到待聚类的数据集。

3.根据权利要求2所述的一种基于Hadoop的自适应RK-means算法，其特征在于：所述步骤S13中的数据预处理通过分析数据、异常值处理、数据的抽取及数据的转换，直接作为算法的输入数据。

4.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法，其特征在于：所述步骤S2具体包括：

S21：将数据集X读入，估计数据集内随机观测值的空间距离，按照升序排列，随机选取一观测点作为初始中心点，聚类数目设置为1，设定两观测值相似性阈值；

S22：估计其余观测点与初始聚类中心间的空间距离，将观测点的id作为map函数的key，观测点与初始聚类中心点的空间距离设为value输出到Combine函数中；

S23：Combine函数选取所有观测点中最小的空间距离，取该距离与两观测值相似性阈值进行比较：若偏大，则聚类数量进1，将该观测值的id作为key，该观测值的属性记为value输出到Reduce中；若偏小，则将初始中心点的id作为key，该观测值的属性记为value输出到Reduce；

S24：通过Reduce函数更新两观测值相似性阈值；

S25：判断数据集中所有数据是否都已分类完毕：若是，则输出聚类中心；反之，则重复执行S22至S24。

5.根据权利要求1所述的一种基于Hadoop的自适应RK-means算法，其特征在于：所述步骤S3具体包括：

S31：根据每个对象到初始聚类中心的距离，将对象分配给最近的聚类中心；

S32：Map函数中，key表示该类簇所属聚类中心类别，value表示类别及其对象的属性；

S33：Reduce函数读取Map函数写入的中间结果，即context.write(key，value)；

S34：获取每个簇的平均值；

S35：根据各对象到每个簇中心的距离，采用增加随机项的更新算法更新聚类中心，将它们重新分配给距离最近的簇；

S36：输出不同的簇，其中key为各个簇的编号，value为各个簇中每个对象对应的属性，最后的输出就是RK-means聚类的结果。

完整全部详细技术资料下载

当前第2页1 2 3