一种k均值社团结构挖掘方法及装置的制造方法
【技术领域】
[0001] 本发明设及网络技术领域,尤其设及一种Κ均值社团结构挖掘方法及装置。
【背景技术】
[0002] 现实世界中的许多复杂系统都可W被抽象为由节点和节点间连边组成的复杂网 络。例如,Internet网络中的网页可W看做复杂网络中的节点,页面间的超链接可W被看作 节点间的连边,从而将整个Internet抽象为复杂网络;在线社交网络中,各虚拟用户可W被 抽象为网络节点,虚拟用户之间的关注、互加好友等操作可W被视为网络之间的连边,在此 基础上,整个在线社交网络可W用复杂网络表示;国家公共交通网络中,将各城市之间的站 点作为网络节点,城市之间的交通路线作为连边,可W得到一个国家公共交通网络的抽象 网络图;生物蛋白质网络将不同生物蛋白作为网络节点并用连边掲示不同蛋白之间的相互 影响。因此,作为研究复杂系统的有效工具,复杂网络的各种性质已经引起了各界学者的广 泛关注。
[0003] 诸多科学家研究表明,复杂网络具有诸多拓扑结构性质。其中,社团结构便是复杂 网络的一个重要的拓扑特性。在复杂网络中,社团结构将复杂网络中的节点分为若干个子 集,使得社团内部的节点之间连边较为紧密而社团之间的连边则较为稀疏。运种高内聚的 网络结构可W很好的掲示复杂系统中的结构特点、功能特性W及组织特征。例如在互联网 中的社团结构反应了讨论共同话题的一些网站,而在线社交网络中的社团结构则表示了 拥有共同兴趣爱好的人组成的一个团体。因此,复杂网络中社团结构的挖掘对于分析网络 的特性和功能具有十分重要的现实意义。近些年,面对越来越多的复杂系统被抽象为复杂 网络,高精度的挖掘复杂网络中的社团结构对于分析复杂系统的物理特性具有重要的意 义。但是目前的挖掘社团精度不高,从而影响了后续对系统分析的准确性。
【发明内容】
[0004] 鉴于上述的分析,本发明旨在提供一种K均值社团结构挖掘方法及装置,用W解决 现有技术中挖掘社团精度不高的问题。
[0005] 本发明主要是通过W下技术方案实现的:
[0006] 本发明一方面提供了一种K均值社团结构挖掘方法,该方法包括:
[0007] 基于局部扩展的种子筛选法选择K个初始种子社团,并计算各个初始种子社团的 中屯、节点作为初始种子节点,所述中屯、节点坐标作为K均值聚类种子节点的坐标值,其中,K E[2,N-1];
[000引将所述初始种子节点的坐标作为输入参数进行K均值聚类,获取在当前K值下的社 团结构划分;
[0009]获取在不同K值下的社团结构划分,计算不同参数值K下社团划分结果的模块度 值,选取能使模块度值最大的初始种子节点聚类结果作为最佳划分结果,将最佳划分结果 中属于同一类的初始种子节点作为一个社团结构,得到最终划分结果。
[0010] 优选地,该方法还包括:
[0011] 根据复杂网络G的邻接矩阵A计算各网络节点对之间的相同直接邻居节点的数目 并组成相似度矩阵S,根据相似度矩阵计算网络中各网络节点间的距离矩阵D;
[0012]其中,所述邻接矩阵A为具有N个节点VI的复杂网络图G,构造一个NXN的矩阵,当 节点Vi和节点Vj之间有边相连时,aij = 1;当节点巧日j之间无直接连边时,aij = 0,其中,aij为 邻接矩阵A中的各元素,具体表示节点间的连边关系,i = l,2,. . .,N,j = l,2,. . .,N;当i = j 时,au = 0;所述的相似度矩阵S为具有N个节点vi的复杂网络图G,构造一个NXN的矩阵,当 节点Vi和节点vj之间有边相连时,sij = (Ai.,Aj.);当节点i和j之间无直接连边时,sij = 0,其 中sij为S中的各元素 ,i = l,2,. . .,N,j = l,2,. . .,N;当i = j时,sij = 0;Ai.表示矩阵A的第i
行元素组成的向量, 所述的离矩阵D为具有N个节点Vi的复杂网络图G,构 造 1'^NXN的矩阵,dij = (sii+sj广2sij)l/2,其中,sij为S中的各兀素 ,i = l,2,...,N,j = l, 2,...,Ν;
[0013] 利用多维标度法MDS将各网络节点映射为低维欧氏空间中的节点坐标;所述多维 标度法MDS具体包括:利用D = UAIJT对矩阵D进行分解,其中,八= diag{Ai,A2, . . .,λΝ}为一 个对角矩阵,且每个元素 λι表示矩阵D的特征值,不失一般性的,令λι含λ2含...含λΝ,即将特 征值按降序排列,矩阵U中的第i列为特征值λι对应的特征向量,若在λι含λ2含...含λΝ中,存 在Ρ个特征值大于零,ρΕ [1 ,Ν],则选择Ρ个特征值对应的特征向量记为ui,U2,...,叫,并将 其组成矩阵P的列,取矩阵P的N个行向量对应网络中N个节点在P维空间中的坐标,即(XI, X2, . . . ,Χν);
[0014] 所述基于局部扩展的种子筛选法选择Κ个初始种子社团,并计算各个初始种子社 团的中屯、节点作为初始种子节点具体包括:
[0015] 基于局部扩展的种子筛选法选择Κ个初始种子社团,并根据网络节点的欧氏坐标 计算各个初始种子社团的中屯、坐标作为各个初始种子社团的初始种子节点。
[0016] 优选地,所述基于局部扩展的种子筛选法选择Κ个初始种子社团,并根据网络节点 的欧氏坐标计算各个初始种子社团的中屯、坐标作为各个初始种子社团的初始种子节点具 体包括:
[0017]将复杂网络G中的每个节点均设置一个标志位Si(i = l,2, . . .,Ν),0表示该节点未 被标识,1表示该节点已被标识;
[0018] 查找该网络中的所有完全子图,根据
计算查找到的每个完全子图中 权值的平均值,并按照从大到小的顺序排序,用Gi>G2> . . . >Gm表示;
[0019] 在当前节点标志位为0的节点中选择度数最大的节点,设该节点为a,在Gi,G2, ..., Gm中选择包含节点a的完全子图组成子集{啤,巧,,…,.巧,}:,r为从巧IjM之间的任意自然数,并 在该子集中选取符合条件(1)和条件(2)的完全子图Gi,将其中屯、节点坐标作为一个初始的 种子节点:
[0020] 条件(1) :Gi中的所有节点的标志位均为0;
[0021 ]条件(2) :Gi > Gj,对于任意(J/ 居.Kj,.|?";;
[0022] 初始化节点子集Ω = 0,W选择的初始种子社团G 1作为核屯、,根据
扩展Gi的范围,其中,α和β为取值范围在0至1之间的实数,对于Gi的直接 邻居节点V,设将V加入子图Gi后的子图用Gi+v表示,根据公式
得到的子 图连边紧密度为巧?+,,若,则将节点V加入子图Gi,否则,不将节点V加入子图Gi中, 将凡是能够使得子图Gi的连边密度增大的邻居节点均放入节点子集Ω中,直到公式
不再增大为止,并将集合Ω中的各节点的标志位均设置为1;
[0023] 若K个种子社团均已初始化完毕,或者Gi,G2, ...,Gm中不再存在未被标示的完全子 图,且若当前已查找到的种子节点数目Θ小于K,则采用相互距离最远原则选择剩余的种子 节点;
[0024] 所述相互距离最远原则具体包括:设当前已查到0/ (0/ Ε[Θ + 1,Κ])个种子节点的 坐标为yi,y2,...,ye',网络中除种子节点之外的节点的坐标为〇1,〇2,...,〇Ν-θ',则采用相互 距离最远原则选择的剩余种子节点0的坐标为网络中除了yi,y2,...,ye'之外的节点坐标 中,符合下式
的节点,〇/ E {〇1,〇2, . . .,ΟΝ-θ< },计算K个种子社团中 各节点通过MDS映射后的中屯、坐标,作为Κ均值的初始种子节点的坐标{χΛκ^,... yd ;
[0025] 所述的各初始种子社团中屯、坐标的计算方式为:对于已查找到的种子社团Gi,i = 1,2, . . .,Κ,设其包含g个节点,各节点坐标为yi,y2, . . .,yg,则种子社团中屯、坐标为
[0026] 优选地,所述将所述初始种子节点的坐标作为输入参数进行K均值聚类,获取在当 前K值下的社团结构划分具体包括:
[0027] 步骤(1),将(x/,X2/,...,χ/κ)作为初始聚类中屯、,将K个集合Zi设置为空集,其中 i = 1,2,. . . ,Κ,设置为至集;
[00%]步骤(2),循环(3巧ΙΚ4)直到每个聚类不再发生变化为止;
[0029] 步骤(3),在第t次迭代中,对网络中的任一节点坐标X"按如下的方法把它调整到Κ 个类别中的某一类别中去,对于某一类别1,其中1 = 1,2,...,1(,若所有的_]'辛1,其中〇 = 1,2,...,Κ,如果 l<llx"-x/j| I,则 x"EZi,其中,t 为从1 开始的自然数,I |a-b| 为坐标a与b之间的欧氏距离,设a和b均为P维向量;
[0030] 步骤(4),由第(3)步计算第i类的新中屯、坐标的第j个分量
式中, Zi|为Zi类中元素的数目。则第i类的中屯、坐标为:^/11,义/12,...,义/11()。根据新得到的中屯、 坐标计算J'的值为:
若|户-引<8,则退出程序,输出聚类结果21 (i = l,2,. . .,Κ),反之,令J = J',转步骤(3)。
[0031] 优选地,所述获取在不同K值下的社团结构划分,计算不同参数值K下社团划分结 果的模块度值,选取能使模块度值最大的初始种子节点聚类结果作为最佳划分结果,将最 佳划分结果中属于同一类的初始种子节点作为一个社团结构,得到最终划分结果具体包 括:
[0032] 对复杂网络图G进行社团划分C,记C=ki,C2, . . .,cp},其中,P为从1开始到N之间 的任意自然数,Cia = l,2,...,p)为复杂网络图G中若干节点组成的集合,计算当前社团划 分下的模块度
为网络节点Vi与网络中 其他节点的连边数目,其中,i = l,2, . . .,N,M为网络连边的数目,Cm和Cn分别为节点VI和Vj 所属的社团的编号,其中,me[l,p],ne[l,p],
[0033] 本发明另一方面还提供了一种K均值社团结构挖掘装置,该装置包括:
[0034] 计算单元,用于基于局部扩展的种子筛选法选择K个初始种子社团,并计算各个初 始种子社团的中屯、节点作为初始种子节点,所述中屯、节点坐标作为K均值聚类种子节点的 坐标值,其中,Ke[2,N-l];
[0035] 获取单元,用于将所述初始种子节点的坐标作为输入参数进行K均值聚类,获取在 当前K值下的社团结构划分;
[0036] 处理单元,用于获取在不同K值下的社团结构划分,计算不同参数值K下社团划分 结果的模块度值,选取能使模块度值最大的初始种子节点聚类结果作为最佳划分结果,将 最佳划分结果中属于同一类的初始种子节点作为一个社团结构,得到最终划分结果。
[0037] 优选地,该装置还包括:映射单元;
[0038] 所述映射单元,用于根据复杂网络G的邻接矩阵A计算各网络节点对之间的相同直 接邻居节点的数目并组成相似度矩阵S,根据相似度矩阵计算网络中各网络节点间的距离 矩阵D;其中,所述邻接矩阵A为具有N个节点VI的复杂网络图G,构造一个NXN的矩阵,当节 点Vi和节点vj之间有边相连时,au = l;当节点巧Pj之间无直接连边时,au = 0,其中,aij为邻 接矩阵A中的各元素,具体表示节点间的连边关系,i = l,2, ...,N,j = l,2,...,N;当i = j 时,au = 0;所述的相似度矩阵S为具有N个节点VI的复杂网络图G,构造一个NXN的矩阵,当 节点Vi和节点Vi之间有边相连时,sij = (Ai.,Aj.);当节点i和j之间无直接连边时,sij = 0,其 中sij为S中的各元素 ,i = l,2,. . .,N,j = l,2,. . .,N;当i = j时,sij = 0;Ai.表示矩阵A的第i 行元素组成的向量:
所述的离矩阵D为具有N个节点VI的复杂网络图G,构 造 1'^NXN的矩阵,dij = (sii+sj广2sij)l/2,其中,sij为S中的各兀素 ,i = l,2,...,N,j = l, 2, ...,N;利用多维标度法MDS将各网络节点映射为低维欧氏空间中的节点坐标;所述多维 标度法MDS具体包括:利用D = UAIJT对矩阵D进行分解,其中,八= dia