一种基于非负局部坐标分解的聚类方法

文档序号:6350621阅读:279来源:国知局
专利名称:一种基于非负局部坐标分解的聚类方法
一种基于非负局部坐标分解的聚类方法技术领域
本发明属于数据处理技术领域,具体涉及一种基于非负局部坐标分解的聚类方法。
背景技术
聚类是机器学习和数据挖掘中一种常见的多元统计分析方法,它讨论的对象是大量的样品,要求能按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。目前,作为一种有效地数据分析手段,聚类方法被广泛应用于各大领域在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库上趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型, 价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。
常见的聚类分析方法主要包括如下几种
(1)分裂法,又称划分方法,首先创建K个划分,K为要创建的划分的个数;然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有Kmeans、Kmedoids 禾口 CLARA (Clustering LARge Application)等。
( 层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)、CURE (Clustering Using REprisentatives)禾P CHEMALOEN 等。
(3)基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有DBSCAN(Densit-based Spatial Clustering of Application with Noise)禾口 OPTICS(Ordering Points To Identity the Clustering Structure)0
(4)基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。
(5)基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。
这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题,但是由于实际应用中数据的复杂性,在处理许多高维数据时经常失效。因为传统聚类方法对高维数据集中进行聚类时,主要遇到两个问题(1)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;( 高维带来的维度灾难使得某些聚类算法的实用性几乎为零。
针对以上两个问题,也就是为了解决维数灾难和消除数据中对于聚类来说不必要的冗余信息,在进行聚类之前,先进行数据降维是必要的。目前主要的降维方法有
(1)主成分分析(Principal Component Analysis, PCA)经典的无监督线性降维方法。其是一种掌握事物主要特征的方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。
(2)线性判别分析(Linear DiscriminantAnalysis, LDA)经典的有监督降维方法。这种方法能够在低维子空间中保持类的相关结构,适用于以分类和识别为目的的降维, 但重构效果不如PCA方法。
(3)非负矩阵分解(Nonnegative Matrix Factorization, NMF)非负矩阵分解法通过将数据矩阵分解为基矩阵U和系数矩阵V来达到降维的目的,在矩阵分解过程中非负矩阵分解保持了基矩阵和系数矩阵的非负性。
PCA是传统而经典的无监督降维方法,目前已经广泛应用于各种应用,该方法可以有效地找出数据的主要特征,但是不能有效地提取出数据的类别特征;LDA作为一种有监督的降维方法,尽管效果不错,但该方法需要大量的含有标签信息的数据作为训练数据,故其只适合于作为分类的降维手段,并不适合于作为聚类分析的降维手段;NMF作为一种基本的降维框架,其降维得到的数据具有良好的可解释性而成为目前的热点,但其降维后进行聚类分析,效果并不理想,聚类分析时的判别能力仍有提高的空间。发明内容
针对现有技术所存在的上述技术缺陷,本发明提供了一种基于非负局部坐标分解的聚类方法,能够改善聚类分析的效果,提高聚类分析的判别能力。
一种基于非负局部坐标分解的聚类方法,包括如下步骤
(1)获取样本集合,进而构建样本集合的样本特征矩阵;
(2)根据所述的样本特征矩阵,通过非负局部坐标分解迭代算法求解出样本集合的低维稀疏矩阵;
(3)对所述的低维稀疏矩阵进行聚类。
所述的步骤O)中,通过以下迭代方程组,求解出样本集合的低维稀疏矩阵;
权利要求
1.一种基于非负局部坐标分解的聚类方法,包括如下步骤(1)获取样本集合,进而构建样本集合的样本特征矩阵;(2)根据所述的样本特征矩阵,通过非负局部坐标分解迭代算法求解出样本集合的低维稀疏矩阵;(3)对所述的低维稀疏矩阵进行聚类。
2.根据权利要求1所述的基于非负局部坐标分解的聚类方法,其特征在于所述的步骤O)中,通过以下迭代方程组,求解出样本集合的低维稀疏矩阵;t = t-1 (Χ^^^ + μΣΙΙ,Χ^ΑΓ1)^u(j,p) = u(i.P) (ut-ivt-i(vt-i)T + μUt-1Af1)(jjP)t2(μ+D((Uyx)^i)(P》-(ρ,ι) (2們丁齊卜1 + μ(: + μΝ)(ρ )(||Xi _ UMII2 + “tjvUIIK - Xill2) < P其中X为样本特征矩阵,U为基矩阵,V为系数矩阵^和Vt分别为t次迭代后的基矩阵和系数矩阵,u°和v°分别为随机非负初始化的基矩阵和系数矩阵,Utap)为Ut中第j行第 P列的元素值,vfp,i)为Vt中第P行第i列的元素值;At1 = diagf^f-K—1为Vt-1中的第i列向量,4为Ut中的第P列向量,XiSx中的第i列向量;μ为稀疏因子,1为元素值均为 1的列向量,P为收敛阈值;C和Dt均为矩阵,其中,C中的行向量均为CT,C = diag(XTX), Dt中的列向量均为ClSdt = Cliag((Ut)1Ut);当迭代收敛或达到最大迭代次数,则对应的Vt即为样本集合的低维稀疏矩阵。
3.根据权利要求1所述的基于非负局部坐标分解的聚类方法,其特征在于所述的步骤(3)中,对低维稀疏矩阵进行聚类的过程为分析低维稀疏矩阵每一列向量中的最大元素值,若第i列向量中的最大元素值为第P行,则第i列向量所对应的样本归属于第P类。
全文摘要
本发明公开了一种基于非负局部坐标分解的聚类方法,包括(1)构建样本特征矩阵;(2)迭代输出低维稀疏矩阵;(3)对低维稀疏矩阵聚类分析。本发明通过在NMF过程中引入稀疏编码的理念,对高维样本特征矩阵进行非负局部坐标分解,使分解得到的系数矩阵作为高维样本特征矩阵的低维表示,对该低维矩阵进行聚类分析,可使得聚类分析变得简单而有效;同时本发明降维后的数据具有良好的可解释性,且相对于现有技术的降维方法,能够使得聚类分析的判别能力得到进一步的提高。
文档编号G06F17/30GK102495876SQ20111039468
公开日2012年6月13日 申请日期2011年12月2日 优先权日2011年12月2日
发明者何晓飞, 陈琰 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1