一种异质网络社团发现方法及系统

文档序号:29497423发布日期:2022-04-06 15:58阅读:223来源:国知局
一种异质网络社团发现方法及系统

1.本发明属于网络技术领域,更具体地,涉及一种异质网络社团发现方法及系统。


背景技术:

2.自无标度网络和小世界网络发现以来,复杂网络一直是学术界研究的热点。将复杂系统抽象为复杂网络并研究,可以深入了解复杂系统的特性,指导人们优化、控制和使用复杂系统。在传统的研究中,通常将复杂系统抽象为同质的复杂网络,即节点和边均是同一属性的。同质复杂网络的研究目前较为广泛,其处理方式也较为方便。然而,随着人们的研究深入,发现将复杂系统抽象为同质网络在许多情况下并不符合事实,这种抽象也过于简单,例如,在引文网络中,节点分为作者、文章以及期刊等三类。因此,目前已有众多学者开始研究异质网络,用于发现真实复杂系统的性质。
3.社团结构是复杂网络演化出的重要结构。社团结构通常具有以下特征:社团内部节点连接较为紧密,社团之间连接较为疏松。发现和研究社团结构能够很好的解决现实中的诸多问题。例如,研究社交网络中的社团结构,能够发现相同兴趣的人员团体;研究蛋白质网络中的社团结构,能够发现具有相同功能的蛋白质。因此,目前已有众多学者提出了各种各样的社团探测算法,以确保能够精确有效的探测出网络中的社团结构。这些社团探测算法大多是针对同质复杂网络,即在探测社团时,将网络中的节点和边认定是相同的。这种假设能够大幅降低社团探测算法的难度,同时也有助于提高算法的效率。
4.目前,针对异质网络社团探测的研究较少,通常采用以下两种手段:一是忽略网络节点和边的异质性,直接采用同质网络的社团探测算法进行社团探测;二是以某一类节点为种子节点,采用同质社团探测算法对种子节点进行社团探测,产生种子社团,随后将其他类节点吸收进入种子社团,得到最终的全网社团结构。上述两种算法均存在问题:第一种方法直接忽略了网络的异质性,使网络中重要信息丢失,造成了探测结果的失真失效;第二种方法必须选定合适的种子节点,种子节点的选取不同,社团探测的最终结果不同,难以得到唯一的探测结果。并且,采用先种子节点,后其他节点的探测方式,割裂了不同类型节点之间的联系,而这种联系恰恰是某些网络异质性的产生原因。综上,目前现有的技术手段,仍然难以有效应对复杂异质网络的社团探测。


技术实现要素:

5.针对现有技术的至少一个缺陷或改进需求,本发明提供了一种异质网络社团发现方法及系统,从异质网络形成的交互链出发,能够有效处理异质网络的异质性,探测出符合异质网络实际意义的社团结构。
6.为实现上述目的,按照本发明的第一方面,提供了一种异质网络社团发现方法,包括步骤:
7.搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
8.计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
9.确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
10.进一步地,所述预设条件是交互链中心性和交互链相似性需满足的条件,交互链相似性是描述两个节点共享交互链情况的值。
11.进一步地,所述预设条件是种子节点的交互链中心性大于其相连节点的交互链中心性,并且种子节点与其相连节点的交互链相似性大于预设阈值。
12.进一步地,交互链中心性的计算公式为:
[0013][0014]
其中,c
x
为x节点的交互链中心性,是通过x节点的第j条交互链,是描述交互链质量的函数。
[0015]
进一步地,交互链相似性的计算公式为:
[0016][0017]
其中,sim(x,y)是x和y节点的交互链相似性,是描述交互链质量的函数,是描述交互链质量的函数,是通过x节点的第j条交互链,是通过y节点的第j条交互链。
[0018]
进一步地,所述根据所有节点的标签确定社团是将具有相同标签的节点归为同一社团。
[0019]
按照本发明的第二方面,提供了一种异质网络社团发现系统,包括:
[0020]
交互链确定模块,用于搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
[0021]
种子节点确定模块,用于计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
[0022]
标签确定模块,用于确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
[0023]
总体而言,本发明与现有技术相比,具有有益效果:
[0024]
(1)本发明从异质网络形成的交互链出发,能够有效处理异质网络的异质性,探测出符合异质网络实际意义的社团结构。
[0025]
(2)本发明将种子扩散算法和标签传播算法相结合,能够稳定有效的探测社团,避免了传统标签算法的随机性。
[0026]
(3)本发明在种子扩散时,每个节点可以收到多个标签,能够探测出重叠社团。
附图说明
[0027]
图1是本发明实施例的交互链示意图;
[0028]
图2是本发明实施例的一种异质网络社团发现方法的流程图;
[0029]
图3是本发明实施例的一种异质网络社团发现方法与其他现有算法的效果对比图。
具体实施方式
[0030]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0031]
本发明实施例提出异质网络交互链的概念,交互链是异网络中各节点交互形成的链路,是网络异质性形成的根本原因,交互链是研究异质网络性质的重要工具。
[0032]
异质网络的异质性,包括节点的异质性以及边的异质性,其中节点的异质性由节点的类型决定,边的异质性则由不同节点交互产生。在异质网络中,这种交互通常是网络异质性产生原因。也正是因为交互的需求,产生了异质网络。例如,在引文网络中,作者节点、论文节点和期刊节点也形成了紧密的链路,作者从期刊节点获取最新的前沿成果,撰写论文,随后投稿至期刊,形成了从期刊节点出发、至作者节点、到论文节点、最后又达到期刊节点的链路。本发明实施例定义这些链路为异质网络交互链,图1示出了引文网络中的交互链,其中j表示期刊节点,a表示作者节点,p表示论文节点。可以看到,异质网的存在正是为了服务交互链路,交互链路同时也满足了节点交互的需求,是网络异质性形成的根本源头。
[0033]
进一步地,本发明实施例提出了两个重要参数:交互链中心性和交互链相似性。
[0034]
其中,交互链中心性是描述一个异质网络中通过某个节点的交互链的数量以及质量的值,可以表示为:
[0035][0036]
其中,c
x
为x节点的交互链中心性,是通过x节点的第j条交互链,是描述交互链质量的函数,对于不同的异质网络,其具体表现形式不同。例如,在引文网中,组成交互链的期刊、作者的质量通常反应了交互链的质量。
[0037]
交互链相似性是描述两个节点共享交互链情况的值,两个节点交互链相似性越高,则表明两个节点共享越多的高质量交互链,则两个节点在异质网中关系更为亲密。交互链中心性可以表示为:
[0038][0039]
其中,sim(x,y)是x和y节点的交互链相似性,是描述交互链质量的函数,是描述交互链质量的函数,是通过x节点的第j条交互链,是通过y节点的第j条
交互链。式(2)的定义方法更强调了y节点对x节点的依存关系,sim(x,y)越大,则表明y节点经过的交互链与x节点所经过的交互链相同,x节点对y节点的影响力越大,y节点更应该与x节点分配到同一社团。
[0040]
如图2所示,本发明实施例的一种异质网络社团发现方法,包括步骤:
[0041]
s1,搜索并记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路。
[0042]
搜索并记录网络中所有的交互链的具体方式是:采用深度优先算法搜索并记录网络中所有交互链。深度优先算法的过程是深入到异质网络的每一个可能的分支路径,直到不能再进一步,每个节点只能访问一次。从每个可能的交互链的起点开始,使用深度优先算法,便可得到以此为起点的交互链。当遍历所有起点后,则能得到整个网络中的交互链。
[0043]
s2,计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大。
[0044]
具体地,统计并记录网络中各个节点所通过的交互链,然后根据(1)式计算每个节点的交互链中心性c
x
,对于某个节点,若该节点与其相连的每个节点相比交互链中心性最大,则该节点为种子节点,对网络中的每个节点都进行判断,找出网络中所有的种子节点。
[0045]
s3,确定种子节点的标签,并由种子节点向其相连的且满足预设条件的节点扩散自身的标签,其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
[0046]
种子节点的标签是节点的序号。网络中的所有节点都有唯一的序号,种子节点的标签就是种子节点的序号。
[0047]
进一步地,预设条件是交互链中心性和交互链相似性需满足的条件。
[0048]
进一步地,预设条件为以下公式:
[0049]cseed
》c
neighbor
ꢀꢀꢀ
(3)
[0050]
sim(seed,neighbor)》thershold
ꢀꢀꢀ
(4)
[0051]
其中,c
seed
为种子节点seed的交互链中心性,c
seed
为种子节点相连节点neighbor的交互链中心性,sim(seed,neighbor)为种子节点seed与相连节点neighbor的交互链相似性,为预设阈值thershold。
[0052]
上述预设条件表示种子节点的交互链中心性大于周围的节点,并且种子节点和邻居节点的交互链相似性大于一定的阈值。其中(3)式说明种子节点对周围节点具有较强的控制能力和影响力,周围节点能够很好地被种子节点所控制或影响。(4)式说明周围节点与种子节点共享了较多的交互链,两个节点在网络中合作非常紧密。种子扩散时,每个节点保留所有收到的标签。
[0053]
周围获得标签的节点继续按照(3)式和(4)式,向该节点周围的节点扩散标签,直到网络中所有节点都获得标签。
[0054]
然后根据所有节点的标签确定社团,可将具有相同标签的节点归为同一社团。
[0055]
进一步地,本方法在种子扩散时,由于节点没有标签数量的限制,每个节点可以收到多个标签。由于具有相同标签的节点归为同一社团,当某个节点有多个标签时,则该节点属于多个社团。具有多个标签的节点,就是社团的重叠部分。因此,得到的某些社团是重叠
的,即本算法可以探测出重叠社团。
[0056]
将本发明实施例的异质网络社团发现方法(称为illpa算法)与三种现有技术中的算法lzlpa、slpa、modularity应用于某异质网络,并对网络进行社团探测,通过对比来验证算法效果。如图3所示,图3(a)为异质网络,该图中的s节点因为网络的异质性,作为信息流的末端,无法参加ooda循环,因此从网络实际运转来看,无法与其他节点配合,不该被分配至任何一个社团。图3(b)为本发明实施例的异质网络社团发现方法的社团发现结果,可以看出本方法可以精确识别出该节点应该属于独立的节点,不属于任何社团。图3(c)(d)(e)分别是其他三种算法lzlpa、slpa和modularity的社团发现结果,可以看出它们均无法发现该节点为独立节点,并将其该节点归入其他社团。因此,本发明实施例的异质网络社团发现方法能够很好处理网络的异质性,找到符合网络实际运行规律的异质网络社团结构。
[0057]
本发明实施例的一种异质网络社团发现系统,包括:
[0058]
交互链确定模块,用于记录异质网络中所有的交互链,交互链是该网络中各节点交互形成的链路;
[0059]
种子节点确定模块,用于计算该网络中每个节点的交互链中心性,交互链中心性是描述通过某个节点的交互链的数量以及质量的值,选择区域内交互链中心性最大的节点作为种子节点,区域内交互链中心性最大是指某个节点与其相连的节点相比交互链中心性最大;
[0060]
标签确定模块,用于确定种子节点的标签,并由种子节点向与其相连的且满足预设条件的节点扩散自身的标签,与其相连的获得标签的节点再继续扩展自身的标签,直至该网络中所有节点获得标签,根据所有节点的标签确定社团。
[0061]
进一步地,所述预设条件是交互链中心性和交互链相似性需满足的条件,交互链相似性是描述两个节点共享交互链情况的值。
[0062]
进一步地,所述预设条件是种子节点的交互链中心性大于其相连节点的交互链中心性,并且种子节点与其相连节点的交互链相似性大于预设阈值。
[0063]
进一步地,所述根据所有节点的标签确定社团是将具有相同标签的节点归为同一社团。
[0064]
系统的实现原理、技术效果与上述方法类似,此处不再赘述。
[0065]
必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
[0066]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1