数据挖掘中基于密度的k中心点划分聚类方法

文档序号：8445674阅读：865来源：国知局

数据挖掘中基于密度的k中心点划分聚类方法
【技术领域】
[0001] 本发明涉及一种聚类方法，尤其是一种数据挖掘中基于密度的K中心点划分聚类方法，属于聚类分析的技术领域。
【背景技术】
[0002] 数据挖掘是当今计算机研宄的热题之一，聚类分析作为一种无监督的机器学习方法，是指对于一个数据对象集合，研宄如何自动把数据对象划分到不同的簇中，让相同簇内的对象在某种衡量标准下具有较高的相似性，而不同簇中的数据对象具有低的相似性。聚类分析被广泛的应用在机器学习、数据挖掘、语音识别、图像分割、商业分析和生物信息处理等前沿领域。目前，传统的聚类算法主要包括五类，他们分别是：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类算法。
[0003] 在聚类算法当中，K均值算法属于基于划分的聚类算法，它简洁而快速，以高效而著称。但原始的K均值算法存在一些缺陷：1)、原始算法要求使用者给出K值，即类簇的个数，这个值主要由经验得来，所以确定K值的难度较大；2)、算法对初始聚类中心敏感，初始中心选择的优劣，会影响聚类结果，影响算法运行的效率；3)、该算法对异常数据较为敏感，会导致结果陷入局部最优解。
[0004] 目前，一些学者已对初始中心点问题做出了些改进，如为防止结果陷入局部最优，通常是选择距离较远的比较分散的点作为初始中心点。但若仅仅考虑距离因素，则容易选到异常点，进而影响到聚类效果。学者也都考虑到这些问题，进而从密度的角度出发，来过滤掉异常点。还有一个问题是初始中心点有可能会被选成同一个类簇中的点，即尽管某个点的密度比较大，但是该点对应的类簇中已经有点被选做中心点了，此时应该选择其它类中的有代表性的点，否则，也会导致结果容易陷入局部最优解。

【发明内容】

[0005] 本发明的目的是克服现有技术中存在的不足，提供一种数据挖掘中基于密度的K 中心点划分聚类方法，其能够选出高质量的中心点，然后将数据对象聚类，而不需要像K均值算法中的后续迭代更新步骤，其降低计算复杂度，提高分类的准确率，稳定性高，提高运算效率。
[0006] 按照本发明提供的技术方案，一种数据挖掘中基于密度的K中心点划分聚类方法，所述聚类方法包括如下步骤：
[0007] 步骤1、给定所需的数据集，并确定聚类个数K;
[0008] 步骤2、计算数据集内所有数据对象的密度，并根据得到数据对象的密度计算数据集的平均密度；
[0009] 步骤3、计算数据集内每个数据对象的最小密度距离值；
[0010] 步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数K，从大到小选择K个与最小密度距离值对应并且密度大于平均密度的数据对象作为聚类中心；
[0011] 步骤5、根据上述获得的聚类中心，将数据集内的数据对象分配到与所述数据对象距离最近的初始聚类中心，得到聚类结果。
[0012] 对于数据集X=IxiIi= 1，2,…，n}，数据对象具有m维特征，则数据对象的密度为
【主权项】
1. 一种数据挖掘中基于密度的K中心点划分聚类方法，其特征是，所述聚类方法包括如下步骤：步骤1、给定所需的数据集，并确定聚类个数K; 步骤2、计算数据集内所有数据对象的密度，并根据得到数据对象的密度计算数据集的平均密度；步骤3、计算数据集内每个数据对象的最小密度距离值；步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数 K，从大到小选择K个与最小密度距离值对应并且密度大于平均密度的数据对象作为聚类中心；步骤5、根据上述获得的聚类中心，将数据集内的数据对象分配到与所述数据对象距离最近的初始聚类中心，得到聚类结果。
2. 根据权利要求1所述的数据挖掘中基于密度的K中心点划分聚类方法，其特征是：对于数据集X = Ixi I i = 1，2,…，η}，数据对象具有m维特征，则数据对象的密度为
其中，d(Xi，xp为数据对象Xi与数据对象^之间的欧式距离，
，i = 1，2,…，η ; j = 1，2,…，n ;R为数据对象Xi的邻域半径。
【专利摘要】本发明涉及一种数据挖掘中基于密度的K中心点划分聚类方法，其包括如下步骤：步骤1、给定所需的数据集，并确定聚类个数K；步骤2、计算数据对象的密度及平均密度；步骤3、计算数据集内每个数据对象的最小密度距离值；步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数K，从大到小选择K个与最小密度距离值对应并且密度大于平均密度的数据对象作为聚类中心；步骤5、将数据集内的数据对象分配到与所述数据对象距离最近的初始聚类中心，得到聚类结果。本发明能够选出高质量的中心点，而不需要像K均值算法中的后续迭代更新步骤，其降低计算复杂度，提高分类的准确率，稳定性高，提高运算效率。
【IPC分类】G06F17-30
【公开号】CN104765879
【申请号】CN201510208624
【发明人】袁启龙, 史海波, 周晓锋
【申请人】无锡中科泛在信息技术研发中心有限公司
【公开日】2015年7月8日
【申请日】2015年4月28日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁启龙;史海波;周晓锋;
技术所有人：无锡中科泛在信息技术研发中心有限公司;
我是此专利的发明人

上一篇：一种用户数据的查询方法及装置的制造方法
上一篇：一种适用于多模态信息的稀疏编码算法及其应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。