一种基于降维和抽样的数据聚类方法
【专利摘要】一种基于降维和抽样的数据聚类方法,所述方法首先通过分段均值法对数据集进行降维处理,然后构造随机函数从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,并在工作集上进行k?means聚类,得到随机抽样聚类结果,最后通过衡量剩下的聚类样本与已经得到的抽样聚类结果的关系,对剩余样本进行分类。本发明采用降维和抽样的方法减少参与迭代的数据集样本的数目和维度,在保持良好聚类效果的情况下,大大降低了k?means算法的复杂度,从而实现了大规模数据的高效聚类。
【专利说明】
一种基于降维和抽样的数据聚类方法
技术领域
[0001] 本发明涉及一种能够对大规模数据进行高效聚类的方法,属于数据处理技术领 域。
【背景技术】
[0002] 目前,常用的数据聚类方法有经典k-means,FCM,层次聚类和自组织神经映射等, 其中,k-means是一种最为经典,使用最为广泛的划分聚类方法。K-means聚类方法通过动态 地迭代调整聚类中心,根据样本到每个子类中心的相似度进行不断迭代来得到聚类结果。 但是,由于k-means需要反复地计算每个样本到中心的相似度,算法的复杂度会随着数据集 维数的增加而成指数级增长(时间复杂度:〇(tkmn),空间复杂度:0((m+k)n)。其中,t为迭代 次数,k为簇的数目,m为记录数,n为维数),当样本规模较大时无法进行有效的处理。因此, 如何采用k-means聚类方法解决大规模数据的聚类问题一直是聚类分析领域的研究人员所 面临的难题。
【发明内容】
[0003] 本发明的目的在于针对现有技术之弊端,提供一种基于降维和抽样的数据聚类方 法,以降低k-means算法复杂度,实现大规模数据的高效聚类。
[0004] 本发明所述问题是以下述技术方案实现的:
[0005] -种基于降维和抽样的数据聚类方法,所述方法首先通过分段均值法对数据集进 行降维处理,然后构造随机函数从大规模的聚类数据集中进行随机抽样,得到规模较小的 工作集,并在工作集上进行k-means聚类,得到随机抽样聚类结果,最后通过衡量剩下的聚 类样本与已经得到的抽样聚类结果的关系,对剩余样本进行分类。
[0006] 上述基于降维和抽样的数据聚类方法,所述方法包括以下步骤:
[0007] a.对待聚类的数据集X进行平均分段得到数据集Y:
[0008] 设数据集为X= {xi,X2,"_,xm},X的第i个样本对象为Xi= (Xil,Xi2,…,Xin),数据 集¥={71,72,"_,7111},¥的第;[个样本对象为71=(711,712,~,7"),1/=11八,¥表示分段间隔, 则:
[0010] b.从数据集Y随机抽取m/s个样本构成样本集Y' ;
[0011] c?从样本集Y'中任意选择k个样本{wi,W2,"_,wk}作为初始聚类中心,其中Wj = yi,j G {1,2,…,k},i = {l,2,…,m/s};
[0012] d.计算Y'中每个样本与簇Cj(k个簇中的第j个簇Cj的初始聚类中心为Wj)的聚类中 心1的距离 ,i = { 1,2,…,m / s },j G { 1,2,…,k },若 办J,,),./ = j,2,…,々丨,则xiGCj;
[0013] e.更新簇的平均值即聚类中心; k 2
[0014] f.计算平方误差准则函数五尸-,其中,k是聚类数即簇的个数,p是 卢丨eQ 空间中的点(PeCj,意思是Cj中的每一样本与聚类中心〃_/的距离的平方的和)Je;:是簇Cj 的平均值(P和?>'&都是多维的);
[0015] g.判断是否满足迭代终止条件:若E值收敛,则进行步骤h;否则返回步骤c;
[0016] h.停止迭代计算,得到随机抽样聚类结果0={&,(:2,~&}和各个簇的聚类中心;
[0017] i.计算剩余样本集中任意一个样本与随机抽样聚类的聚类中心的相似性,并根据 最小邻近准则进行分类,得到聚类结果C = {Cf' Cf「,???,
[0018] 本发明采用降维和抽样的方法减少参与迭代的数据集样本的数目和维度,在保持 良好聚类效果的情况下,大大降低了k-means算法的复杂度,从而实现了大规模数据的高效 聚类。
【附图说明】
[0019] 图1是基于降维和抽样的数据聚类方法的流程图。
[0020] 文中各符号为:X为待聚类的数据集,Y为对X进行平均分段得到数据集,Y'为从数 据集Y随机抽取m/s个样本得到的样本集,v表示分段间隔,是簇&的平均值y〇^>' cp为 样本y i与簇Cj的聚类中心>'4的距离,E为平方误差准则函数,p是空间中的点,C = {&,C2,… &}为随机抽样聚类结果。
【具体实施方式】
[0021] 下面结合附图对本发明作进一步说明。
[0022] 本发明提供了一种具有数据聚类分析能力的快速大规模数据聚类分析方法,该方 法首先通过分段均值法对数据集进行降维处理,其次构造随机函数从大规模的聚类数据集 中进行随机抽样,得到规模较小的工作集,并在工作集上进行传统k-means聚类,得到聚类 中心,完成抽样过程,得到抽样结果。然后通过衡量剩下的聚类样本与已经得到的抽样结果 的关系,对剩余样本进行分类。由于该方法通过随机抽样大大地减小了参与k-means聚类的 问题规模,因此有效提高了聚类效率。
[0023] 设数据集乂={1142,"_4111},第:[个样本对象11=匕1#2,...#11),设分段间隔为 v即每v个点取平均,抽样因子为s,则维数降为n/v,记录数减少为m/s。可将m X n大小的特征 参数矩阵降维为(m + s)X(n + v)大小的参数矩阵。时间复杂度变为0(tkmn/(sv)),空间复 杂度变为 0((m/s+k)(n/v))。
[0024] 为达到上述目的,本发明采用的技术方案包括以下步骤:
[0025] 输入:数据集X={X1,X2,…,Xm},分段间隔为V,抽样因子为s,聚类个数为k
[0026] 输出:k个簇Ck
[0027] 步骤1:对数据集进行平均分段得到数据集Y。其中第i个样本对象yi=(yil,yl2,…, y W ),n' = n/v,v表示分段间隔即每v个点取平均,
[0028] 步骤2:从数据集Y随机抽取m/s个样本构成样本集Y' ;
[0029] 步骤3:从样本集Y'中任意选择k个样本{wi,W2,h_,wk}作为初始聚类中心,其中Wj = yi,jG U,2,…,k},i = {1,2,…,m/s};
[0030] 步骤4:计算Y'中每个样本与簇Cj的聚类中心化的距离办.V,,.VC/),i = {1,2,…,m/
[0031] 步骤5:更新簇的平均值即聚类中心; k 2
[0032] 步骤6:计算平方误差准则函数丑9其中,k是聚类数即簇的个数, P是空间中的点是簇的平均值(p和3^.,都是多维的);
[0033] 步骤7:若E值收敛,则进行步骤8;否则返回步骤3;
[0034] 步骤8:得到随机抽样聚类结果0={&,(:2,一&}和各个簇的聚类中心;
[0035]步骤9:计算剩余样本集中任意一个样本与随机抽样聚类的聚类中心的相似性,并 根据最小邻近准则进行分类,得到聚类结果C = {C/Wf,…,}。
[0036]本发明计算简便、速度快,实用性强,具有良好的数据聚类分析能力,适于大规模 数据的快速聚类分析。本发明方法不但可以在保持聚类准确度基本不降低的情况下,通过 更小数据集和更少的维度,达到降低算法复杂度和高效聚类的目的,同时还可以获取详细 的聚类结果,包括各个子类的聚类中心、所含数据对象数目、具体数据对象构成等信息。
【主权项】
1. 一种基于降维和抽样的数据聚类方法,其特征是,所述方法首先通过分段均值法对 数据集进行降维处理,然后构造随机函数从大规模的聚类数据集中进行随机抽样,得到规 模较小的工作集,并在工作集上进行k-means聚类,得到随机抽样聚类结果,最后通过衡量 剩下的聚类样本与已经得到的抽样聚类结果的关系,对剩余样本进行分类。2. 根据权利要求1所述的一种基于降维和抽样的数据聚类方法,其特征是,所述方法包 括W下步骤: a. 对待聚类的数据集X进行平均分段得到数据集Y: 设数据集为X={xl,X2,???,Xm},X的第i个样本对象为Xi=(Xil,Xi2,...,Xin),数据集Y = {yi,y2,...,ym},Y的第i个样本对象为yi=(yii,yi2,...,yin'),n' =n/v,v表示分段间隔,则:b. 从数据集Y随机抽取m/s个样本构成样本集Y ' ; C .从样本集Y'中任意选择k个样本Iwi,W2,…,wk}作为初始聚类中屯、,其中Wj = yi,j G {l,2,...,k},i = {l,2,...,m/s}; d. 计算Y'中每个样本与簇Cj的聚类中屯、>吗的距离d(.v,',.Vc,),i = {I,2,…,m/s},j G {I,2,...,k},若V,')=…in.!(/(乃,"r,'/).,'/ 二:U:'..,巧,则Xi G Cj; e. 更新簇的平均值即聚类中屯、; f. 计算平方误差准则函I痒中,k是聚类数即簇的个数,P是空间中 的点,y勺是簇C撕平均值,9和^>苗都是多维的; g. 判断是否满足迭代终止条件:若E值收敛,则进行步骤h;否则返回步骤C; h. 停止迭代计算,得到随机抽样聚类结果C=促,C2,一Ck巧日各个簇的聚类中屯、; i. 计算剩余样本集中任意一个样本与随机抽样聚类的聚类中屯、的相似性,并根据最小 邻近准则进行分类,得到聚类结果C = {Cf",Cff,…,Cff)。
【文档编号】G06K9/62GK105913077SQ201610213963
【公开日】2016年8月31日
【申请日】2016年4月7日
【发明人】张铁峰, 李中, 顾明迪
【申请人】华北电力大学(保定)