一种基于随机游走的标签传播社区发现方法
【技术领域】
[0001] 本发明涉及通信技术领域,涉及一种基于随机游走模型的标签传播社区发现算 法。
【背景技术】
[0002] 社区广泛的存在于具有网络结构的系统中,从生物、计算机科学、工程、经济、政 治。例如在蛋白质与蛋白质的交互网络中,社区就是细胞中具有相同特定功能的蛋白质群; 在万维网中、社区就是那些具有相同或者相关主题的网页,在新陈代谢网络中社区就是那 些循环、通路的功能团。
[0003] 在社会中广泛存在着一些群体组织如家庭、工作或朋友圈、村庄、国家等,随着近 些年由于互联网的兴起和社会媒体的应用,社区成员之间的地理限制逐渐被消除,因而产 生了许多虚拟群体如在线社区等,社区成员之间的地理限制逐渐被消除,社交网络关系变 得复杂。社区发现技术被应用于消除这些复杂性,从社交网络节点属性中挖掘其中的隐藏 结构,其社区的发现是基于社会成员之间的交互。但是随着大规模在线社交网络的出现如 FacebooKQQ等,社交网络中的节点拥有成百上千万,社区之间的差异和大小变得更加的复 杂和多样性。许多算法如一些层次聚类算法在一些小规模网络上取得了较好的社区发现结 果,但是这类算法需要一个全局的视野,需要优化功能函数(模块度)来促使算法的运行, 具有较高的时间复杂度,难以扩展到大规模的复杂网络中。如何快速并精确的发现大规模 网络中社区变成了一个亟待解决的难题。
[0004] 随后,Raghavan、Albert等提出了一种接近线性复杂度用于发现大规模网络中的 社区的经典标签传播的社区发现算法。算法的优点是简单,具有趋近于线性的时间复杂度, 不需要社区数目、大小等先验性信息,社区发现的进行不需要通过优化目标函数,可以应用 到大规模网络的社区发现。但是算法具有较高的随机性:网络中节点的标签具有相同的权 重,因而在社区发现过程中会出现多个最优的标签情况,算法只是随机的选择其中的一个 标签;加上算法随机的遍历节点,进行标签更新,导致社区发现的结果不能收敛,多次重复 实验不能得到相同结果。
[0005] 因此一种适用于大规模网络的、稳定精确的社区发现算法将会有非常重要的意义 和广阔的应用前景。
【发明内容】
[0006] 针对以上现有技术中的不足,本发明的目的在于提供一种稳定精确的社区发现方 法,本发明的技术方案如下:一种基于随机游走的标签传播社区发现方法,其包括以下步 骤:
[0007] /101、创建随机游走模型:获取网络拓扑图并生成邻接矩阵,通过节点的度结合邻 接矩阵计算该节点到其他节点的转移概率,最后得出转移矩阵P,其中转移矩阵P中的每一 行数值代表的是游走者从本节点位置上转移到其他节点的概率,定义一个行向量I表示游 走者当前的位置概率分布,则游走者游走一步后的位置概率分布就表示为IXP;
[0008] 102、通过计算游走者t步之后的位置概率分布1,,1,表示节点的重要性分布,计算 出网络中每个节点的权重值,则^中的每一个元素则代表相应节点的权重值;
[0009] 103、根据步骤102中得出的网络中每个节点的权重值,筛选出中心节点,并对网 络中的节点进行初步的划分,初始化节点标签,生成子社区;
[0010] 104、从中心节点开始进行标签传播和更新,形成社区,完成社区发现。
[0011] 进一步的,步骤102中的通过计算游走者游走t步之后的位置概率分布来得出节 点的权重值,具体步骤是:计算游走者随机选择一个节点出发,沿着网络中的边,进行不停 的随机游走,t步之后到达稳态的位置概率分布,用公式表示如下:
[0012] It=I0XPt
[0013]
【主权项】
1. 一种基于随机游走的标签传播社区发现方法,其特征在于:包括以下步骤: 101、 创建随机游走模型:获取网络拓扑图并生成邻接矩阵,通过节点的度结合邻接矩 阵计算该节点到其他节点的转移概率,最后得出转移矩阵P,其中转移矩阵P中的每一行数 值代表的是游走者从本节点位置上转移到其他节点的概率,定义一个行向量I表示游走者 当前的位置概率分布,则游走者游走一步后的位置概率分布就表示为IXP; 102、 通过计算游走者t步之后的位置概率分布It,1,表示节点的重要性分布,计算出网 络中每个节点的权重值,则^中的每一个元素则代表相应节点的权重值; 103、 根据步骤102中得出的网络中每个节点的权重值,筛选出中心节点,并对网络中 的节点进行初步的划分,初始化节点标签,生成子社区; 104、 从中心节点开始进行标签传播和更新,形成社区,完成社区发现。
2. 根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于: 步骤102中的通过计算游走者游走t步之后的位置概率分布来得出节点的权重值,具体步 骤是:计算游走者随机选择一个节点出发,沿着网络中的边,进行不停的随机游走,t步之 后到达稳态的位置概率分布,用公式表示如下: It= I0XPt
仁表示的是t步之后游走者的位置概率分布,I Jij是初始时游走者的位置概率分布。
3. 根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于: 在步骤103中确定中心节点的步骤为:设置一个阈值r作为中心节点的门限值,权重值 P多r则作为中心节点的候选节点。
4. 根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于: 在步骤104中标签的传播和更新具体为:选择标签邻居节点中标签权重最大的标签作为自 己的标签:公式如下:
Cx表示的是节点X的标签,N 1 (X)是节点X邻居节点标签集,这里节点X也是自 己的邻居,Li表示的是标签i的权重。
5. 根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于: 在步骤104中,中心节点开始进行标签传播和更新,节点更新标签的顺序不再是随机的,而 是从第一个中心节点出发进行一轮广度优先遍历中心节点的邻居,依照标签更新条件判断 节点是否更新标签,若更新则按照公式更新标签,否则什么也不做,并且在一个时间段内更 新完一层后,跳转到下一个中心节点进行相同的更新,直到所有的节点标签不再发生变化。
【专利摘要】本发明请求保护一种基于随机游走的标签传播社区发现算法,包括以下步骤:1)构建转移矩阵:根据网络拓扑图生成邻接矩阵,通过节点的度结合邻接矩阵计算该节点到其他节点的转移概率,最后得出转移矩阵;2)计算节点的权重值:定义游走者的位置概率分布,根据转移矩阵计算游走者游走t步到达稳态以后的位置概率分布,此时的位置概率分布中的值则为节点的权重值;3设置中心节点的门限值,根据节点权重的降序排序完成中心节点的筛选,初步生成子社区;4)初始化节点标签,从中心节点出发进行标签传播,相互连接比较紧密的节点标签逐渐趋于一致,最后持有相同标签的节点形成一个社区。该方法消除了经典标签传播算法中更新节点标签顺序的随机性问题,从而有效的提高了算法的精确度。
【IPC分类】G06Q50-00
【公开号】CN104657901
【申请号】CN201510018509
【发明人】苏畅, 余跃, 谢显中, 吴琪, 贾小陶, 张步涛
【申请人】重庆邮电大学
【公开日】2015年5月27日
【申请日】2015年1月14日