数据挖掘中基于密度的k中心点划分聚类方法

文档序号:8445674阅读:753来源:国知局
数据挖掘中基于密度的k中心点划分聚类方法
【技术领域】
[0001] 本发明涉及一种聚类方法,尤其是一种数据挖掘中基于密度的K中心点划分聚类 方法,属于聚类分析的技术领域。
【背景技术】
[0002] 数据挖掘是当今计算机研宄的热题之一,聚类分析作为一种无监督的机器学习方 法,是指对于一个数据对象集合,研宄如何自动把数据对象划分到不同的簇中,让相同簇内 的对象在某种衡量标准下具有较高的相似性,而不同簇中的数据对象具有低的相似性。聚 类分析被广泛的应用在机器学习、数据挖掘、语音识别、图像分割、商业分析和生物信息处 理等前沿领域。目前,传统的聚类算法主要包括五类,他们分别是:基于划分的聚类算法、基 于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类算法。
[0003] 在聚类算法当中,K均值算法属于基于划分的聚类算法,它简洁而快速,以高效而 著称。但原始的K均值算法存在一些缺陷:1)、原始算法要求使用者给出K值,即类簇的个 数,这个值主要由经验得来,所以确定K值的难度较大;2)、算法对初始聚类中心敏感,初始 中心选择的优劣,会影响聚类结果,影响算法运行的效率;3)、该算法对异常数据较为敏感, 会导致结果陷入局部最优解。
[0004] 目前,一些学者已对初始中心点问题做出了些改进,如为防止结果陷入局部最优, 通常是选择距离较远的比较分散的点作为初始中心点。但若仅仅考虑距离因素,则容易选 到异常点,进而影响到聚类效果。学者也都考虑到这些问题,进而从密度的角度出发,来过 滤掉异常点。还有一个问题是初始中心点有可能会被选成同一个类簇中的点,即尽管某个 点的密度比较大,但是该点对应的类簇中已经有点被选做中心点了,此时应该选择其它类 中的有代表性的点,否则,也会导致结果容易陷入局部最优解。

【发明内容】

[0005] 本发明的目的是克服现有技术中存在的不足,提供一种数据挖掘中基于密度的K 中心点划分聚类方法,其能够选出高质量的中心点,然后将数据对象聚类,而不需要像K均 值算法中的后续迭代更新步骤,其降低计算复杂度,提高分类的准确率,稳定性高,提高运 算效率。
[0006] 按照本发明提供的技术方案,一种数据挖掘中基于密度的K中心点划分聚类方 法,所述聚类方法包括如下步骤:
[0007] 步骤1、给定所需的数据集,并确定聚类个数K;
[0008] 步骤2、计算数据集内所有数据对象的密度,并根据得到数据对象的密度计算数据 集的平均密度;
[0009] 步骤3、计算数据集内每个数据对象的最小密度距离值;
[0010] 步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个 数K,从大到小选择K个与最小密度距离值对应并且密度大于平均密度的数据对象作为聚 类中心;
[0011] 步骤5、根据上述获得的聚类中心,将数据集内的数据对象分配到与所述数据对象 距离最近的初始聚类中心,得到聚类结果。
[0012] 对于数据集X=IxiIi= 1,2,…,n},数据对象具有m维特征,则数据对象的密度 为
【主权项】
1. 一种数据挖掘中基于密度的K中心点划分聚类方法,其特征是,所述聚类方法包括 如下步骤: 步骤1、给定所需的数据集,并确定聚类个数K; 步骤2、计算数据集内所有数据对象的密度,并根据得到数据对象的密度计算数据集的 平均密度; 步骤3、计算数据集内每个数据对象的最小密度距离值; 步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个数 K,从大到小选择K个与最小密度距离值对应并且密度大于平均密度的数据对象作为聚类 中心; 步骤5、根据上述获得的聚类中心,将数据集内的数据对象分配到与所述数据对象距离 最近的初始聚类中心,得到聚类结果。
2. 根据权利要求1所述的数据挖掘中基于密度的K中心点划分聚类方法,其特征是: 对于数据集X = Ixi I i = 1,2,…,η},数据对象具有m维特征,则数据对象的密度为
其中,d(Xi,xp为数据对象Xi与数据对象^之间的欧式距离,
,i = 1,2,…,η ; j = 1,2,…,n ;R为数据对象Xi的邻域半径。
【专利摘要】本发明涉及一种数据挖掘中基于密度的K中心点划分聚类方法,其包括如下步骤:步骤1、给定所需的数据集,并确定聚类个数K;步骤2、计算数据对象的密度及平均密度;步骤3、计算数据集内每个数据对象的最小密度距离值;步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个数K,从大到小选择K个与最小密度距离值对应并且密度大于平均密度的数据对象作为聚类中心;步骤5、将数据集内的数据对象分配到与所述数据对象距离最近的初始聚类中心,得到聚类结果。本发明能够选出高质量的中心点,而不需要像K均值算法中的后续迭代更新步骤,其降低计算复杂度,提高分类的准确率,稳定性高,提高运算效率。
【IPC分类】G06F17-30
【公开号】CN104765879
【申请号】CN201510208624
【发明人】袁启龙, 史海波, 周晓锋
【申请人】无锡中科泛在信息技术研发中心有限公司
【公开日】2015年7月8日
【申请日】2015年4月28日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1