一种基于凝聚熵的动态影响力最大化方法与流程

文档序号:23987988发布日期:2021-02-20 12:36阅读:157来源:国知局
一种基于凝聚熵的动态影响力最大化方法与流程

[0001]
本发明涉及社交网络技术领域,特别是涉及一种基于凝聚熵的动态影响力最大化方法。


背景技术:

[0002]
随着网络技术的发展,各种社交软件成为了人们线上交流的主流形式,如facebook,youtube,twitter等。由此触发了海量的网络数据,使得影响力最大化的研究前景更加广阔并重要。影响最大化是指在社交网络中选择一组种子节点,根据特定的扩散模型使其对网络中其他节点的整体影响达到最大化的问题。一个被广泛应用的营销策略中通过口碑效应产生连锁反应让自己的商品被更多人购买,但如何以最小开销获得最好的宣传效果,即初始用户集的选择是影响力最大化问题面临的挑战。
[0003]
影响力最大化的目标是确定k个有影响力的种子节点,复杂网络的特性使得这项工作非常复杂。节点在网络中的自身属性和结构特征在种子选择过程中起着关键性的作用,而社区结构正是因这些特征而存在,利用社区体现用户的拓扑特点是一个合理选择,同时社区中特殊用户也可为信息的扩散提供良好开端,因此社区划分的精确度直接影响着种子集的效果。目前有关社区划分的工作中包括,通过节点对邻居节点所属社区的隶属度大小判断划分社区结果,通过自组织节点间吸引力划分社区结构,通过预算分配确定社区并通过预算转移确定种子节点等。但这些算法缺乏对用户间社交距离的量化从而影响社区划分结果,而且得到的社区结构为非重叠社区,显然这不太符合现实。如何得到一个精准的社区结构并将次融入影响力最大化过程中,使结果更加理想并提高算法效率是一个值得研究的方向。
[0004]
影响力最大化领域中的经典传播模型——独立级联模型和线性阈值模型,由此发展出了多个模型。但大多数算法存在一定的局限性,没有考虑到真实社交网络中扩散过程的不确定性,忽略了由个体的自主性导致的选择分享对象的权利。在现实中,用户可以主观选择分享信息的对象,对于挚友可能无话不谈,但对于同事可能只有工作上的交流。用户决定与何人进行资源共享是信息扩散的起点。从空间角度观察社交网络中每个用户,以其为中心呈放射状构成多条路径,信息沿路径流动至其他用户。由于用户自主选择信息流动经过点,使得以该用户为起点的传播路径的长度和方向具有不确定性。根据以上特点,如何将由个体自主性导致的传播路径动态性问题进行建模是一个挑战。


技术实现要素:

[0005]
本发明的目的是提供一种基于凝聚熵的动态影响力最大化方法,以解决上述现有技术存在的问题,使网络中的边缘节点被过滤掉,种子节点选择范围缩小,个体自主性被保留,信息传播过程更加真实。
[0006]
为实现上述目的,本发明提供了如下方案:
[0007]
本发明提供一种基于凝聚熵的动态影响力最大化方法,包括以下步骤:
[0008]
s1.提构建cecopra算法:利用节点的局部拓扑信息,用凝聚熵的概念定义了用户间的亲疏程度,并进行重叠社区划分;
[0009]
s2.为了减小种子节点的选择范围,利用社区结构筛选出候选种子集,所述候选种子集为有潜力成为种子的节点集,具体包括:
[0010]
在大型网络中选择的聚集桥;在每个社区中选择的聚集焦点;
[0011]
s3.构建可选择动态影响力传播算法:加入了传播控制因子α,用于表示传播条件的下限,结合自信息熵和凝聚熵的凝聚力判断用户能否能成为可传播先驱而去影响他人,当凝聚力达到阈值时传播者才有机会去表达自己的观点,否则影响扩散结束;
[0012]
s4.通过多个数据集上的多次实验,验证deim算法能否在不同场景中使理想数量的用户被成功影响。
[0013]
进一步地,所述步骤s1中的凝聚熵是度量两个节点间关于邻域信息分布的相似性,将节点自身的属性放在首位,将局域区域内节点间连边的紧密度作为辅助属性,构成节点的邻域结构信息计算节点间的凝聚熵,节点i和节点j的凝聚熵ce
ij
计算公式定义如下:其中,r
ij
为节点i和节点j邻域信息分布的相对熵之和,即分散度。
[0014]
进一步地,所述步骤s2中的聚集桥定义为:把每个社区视为一个聚集区,重叠节点所在位置为聚集相交区,聚集桥在此区域内产生,聚集桥n
hinge
是跨多个领域的用户代表集合,定义为:
[0015][0016]
其中代表社区i内同时位于六个及以上社区的节点或节点集,这些点紧密连接多个聚集区,所属社区数量的规定能保证聚集桥中的用户有足够的机会尝试影响他人,确保一定数量的影响扩散路径。
[0017]
进一步地,所述步骤s2中的聚集焦点定义为:每个社区的非重叠节点组成了社区的集中聚集区,其中度中心性最大的节点在该区域内与其他节点具有最紧密的联系,称其为聚集焦点,表示为:
[0018]
其中代表使d(v)最大的节点v。
[0019]
进一步地,所述步骤s3中的自信息熵定义为:节点自身携带的信息量,该值与节点的扩散量成正相关,公式:其中m是整个网络中边的总数,d
u
代表节点u的度数,信息熵是对信息的量化,所述自信息熵通过节点度和总边数的比值衡量节点所携带信息量的多少。
[0020]
进一步地,所述步骤s3中的可传播先驱定义为:在网络g(v,e)中,v是节点集,e是边集,对于边(u,v)∈e,当节点u与节点v的凝聚力达到传播控制因子α的值时,节点u就具备了尝试影响节点v的能力,即节点u就成为了节点v的可传播先驱,然后尝试去影响节点v。
[0021]
本发明公开了以下技术效果:
[0022]
1.提出了cecopra算法,利用节点的局部拓扑信息,用凝聚熵的概念定义了用户间的亲疏程度,并进行重叠社区划分。一定程度上消除由于忽略用户间关系和阈值选择不当
产生的随机性的影响,选出聚集桥和聚集焦点作为潜力种子节点,使得效率可以大幅度提高。
[0023]
2.提出了可选择动态影响力传播算法,加入了传播控制因子α,用于表示传播条件的下限,即用于调节这个过程。并提出了结合自信息熵和凝聚熵的凝聚力判断用户能否成为可传播先驱从而去影响他人,当凝聚力达到阈值时传播者才有机会去表达自己的观点,否则影响扩散结束。使真正传播路径更符合现实,同时该条件的提出也可以提高效率,避免了利用大量时间进行不必要的扩散尝试。
[0024]
3.在四个数据集上进行了多次试验,结果表明利用社区结构进行有条件的传播,可以明显提高时间效率,并保证了可接受的精度损失。
附图说明
[0025]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]
图1为网络结构,其中a)为一个网络的例子显示在子图,b)为节点的邻域结构展示如子图;
[0027]
图2为基于社区结构选择候选种子集的例子;
[0028]
图3为可传播先驱例子;
[0029]
图4为四个数据集上不同算法的影响力传播范围,其中(a)为dblp,(b)为facebook,(c)为wiki-vote,(d)为ca-hepph;
[0030]
图5为四个数据集上不同算法的运行时间,其中(a)为dblp,(b)为facebook,(c)为wiki-vote,(d)为ca-hepph;
[0031]
图6为四个数据集上不同传播控制因子的影响力传播范围,其中(a)为dblp,(b)为facebook,(c)为wiki-vote,(d)为ca-hepph;
[0032]
图7为四个数据集上不同传播控制因子的运行时间,其中(a)为dblp,(b)为facebook,(c)为wiki-vote,(d)为ca-hepph。
具体实施方式
[0033]
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
[0034]
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
[0035]
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所
有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
[0036]
在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。
[0037]
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
[0038]
本发明中所述的“份”如无特别说明,均按质量份计。
[0039]
实施例1
[0040]
影响力最大化应用场景十分广泛,包括病毒营销,推荐系统,信息扩散,时间探测,专家发现,链接预测等。给定一个社交网络图g=(v,e),v是图中节点的集合,代表各个用户,e代表图中边的集合,代表用户之间的关系。
[0041]
1.1.1邻域内凝聚熵的计算
[0042]
社交网络中的用户都具备自身的特性,用户之间也因此存在差异性,相对而言也存在相似性。相似性越大,用户间的联系可能越密切,这种不同程度的联系使得网络中有了社区的出现。相对熵是度量概率分布之间差异性的计算,正适用于节点间差异性的衡量,进而得到相似性,对于提高社区划分精度有重要意义。文献中提出相对熵用于计算网络中节点相似度,利用节点的局部拓扑结构,即自身和所有邻居节点的度分布情况,研究节点之间的结构相似性,但这并没有区分节点自身属性和邻居节点属性的重要程度。表征节点主要依靠其自身属性,相邻节点起到的是辅助作用。此外,邻居节点的度数也不能准确表征局部结构的特性,部分邻居节点的边与表征节点并没有关系。本申请构建了新的节点邻域结构并提出了求节点之间相似性的方法。
[0043]
首先给出节点邻域结构的具体组成。节点i的完整邻域结构由表示,其中为节点及其邻居节点构成的集合,代表邻域内的结构信息分布,是中各个节点与中其他节点之间连边数量的占比分布。图1(b)给出了具体的邻域结构例子。节点邻域结构的信息分布如公式(1):
[0044][0045]
其中m=d(i)+1,l∈{1,

,b,

,m}为邻域内各个节点的符号表示
[0046][0047]
由于相对熵公式是将两个概率集中元素一一对应计算并将结果累计,所以信息分布中各元素的顺序会影响差异性度量的准确度,这里将节点邻域内的元素按降序排序。已排序的邻域信息分布如公式(2):
[0048][0049]
其中p(i,1)=p'(i,1),它代表表征节点的自身属性,是相似性计算中的主要属
性,位置并未发生变化,仍位于首位。如图1(b)所示,其中,对应局部区域内的度大小为[2,1,4,2,1],因此
[0050]
在本申请中以相对熵公式为基础对节点的拓扑结构进行相似度分析,而非之前的欧氏距离公式。这是因为在社交网络中,用户间的相似实则是携带信息的相似程度,相对熵公式的输入正是信息分布,更加适合于社交网络信息相似计算。节点相似度的量化可以看作是节点拓扑结构差异性的计算,也即找出局部结构信息之间的差异。故使用相对熵公式来量化每一对节点之间的差异。如果两个节点的差异很小,那么它们的相似度就很大,反之则反。接下来给出具体的利用相对熵得到节点间相近程度的概念。
[0051]
定义1(凝聚熵):凝聚熵是度量两个节点间关于邻域信息分布的相似性。将节点自身的属性放在首位,将局域区域内节点间连边的紧密度作为辅助属性,构成节点的邻域结构信息计算节点间的凝聚熵。节点i和节点j的凝聚熵ce
ij
计算公式定义如下:
[0052][0053]
其中,r
ij
为节点i和节点j邻域信息分布的相对熵之和,即分散度。由于相对熵是非对称性度量,而每一对节点的相似程度应该是相等的,通过变量r
ij
使两个节点的差异性为对称值。该值越大,说明两个节点的局部结构差异性越大,计算公式定义如下:
[0054][0055]
其中,d
kl
为相对熵计算公式,表示如下:
[0056][0057]
其中b=min(d(i)+1,d(j)+1),确保两个信息分布规模相同。
[0058]
用凝聚熵衡量用户间的关系,先将节点间的相似性转换成差异性计算,再将节点的邻域信息分布作为相对熵的输入,得到节点的邻域信息差异,即分散度。如果分散度很小,则凝聚熵很大,反之则反。当两个节点的邻域结构信息相同时,它们的分散度为0,则凝聚熵为1;当两个节点的邻域结构信息差异很大时,它们的分散度接近1,则凝聚熵接近为0。
[0059]
1.1.2基于凝聚熵的重叠社区发现
[0060]
现有技术中提出copra算法研究重叠社区的发现,其主要思想是一个节点的所属社区由邻居节点的社区分布数量决定,即节点与所有邻居节点的亲密距离和影响程度相同。然而现实中不同用户间传递和接受的信息量并不相同,关系亲密的用户间分享信息显然比普通用户的概率要高,同时被影响用户也更加信赖与自己有相似喜好的用户。此外,由于邻居节点中属于不同社区的节点个数很可能相同,算法中的随机策略大大降低了结果的准确性,因此利用凝聚熵区分不同邻居带来的影响更加合理。凝聚熵计算过程中考虑了节点自身属性和与之紧密相关的周围环境因素,而且信息分布被用到了相对熵公式中,可以把内部因素的信息差异一一体现并累加,结果更加精确。因此提出cecopra算法。
[0061]
cecopra算法的时间复杂度与网络中节点的数量和节点的邻居数量有关。邻居的数量与节点的度大小有关,所以该算法的时间复杂度为o(nd),其中n是网络中节点的总数量,d是网络中度数最大的值。
[0062]
1.2候选种子节点的选取
[0063]
候选种子集的构建是为了从整个网络的节点集中选出有潜力成为种子节点的个体,剔除不重要节点以缩小种子节点的搜索范围。社区结构可以帮助评价节点重要性,综合考虑节点在社区中或社区间的位置以及节点间的关系,得到节点影响力大小。本申请在基于社区结构的网络中同时考虑节点的属性和位置,挑选出潜力节点构成候选节点集。
[0064]
定义2(聚集桥):本申请把每个社区视为一个聚集区,重叠节点所在位置为聚集相交区,聚集桥在此区域内产生,聚集桥n
hinge
是跨多个领域的用户代表集合,定义为:
[0065][0066]
其中代表社区i内同时位于六个及以上社区的节点或节点集,这些点紧密连接多个聚集区,所属社区数量的规定可以保证聚集桥中的用户有足够的机会尝试影响他人,确保一定数量的影响扩散路径。为了避免社区数量过少,社区规模过大的情况,根据小世界特性规定在社区划分时每个节点最多属于六个社区,所以聚集桥内节点最多同时属于六个社区。
[0067]
定义3(聚集焦点):每个社区的非重叠节点组成了社区的集中聚集区,其中度中心性最大的节点在该区域内与其他节点具有最紧密的联系,称其为聚集焦点,表示为:
[0068][0069]
其中代表使d(v)最大的节点v,图2是一个候选种子选择的例子。图中社交网络已经划分为三个社区,其中节点8和节点16的度为6(由于例子中的网络较小,聚集桥的标准降低为跨多个社区节点中度最大的节点。在大型现实网络中,满足聚集桥要求的节点普遍存在),构成聚集桥{8,16}。对于每个社区,分别选择聚集焦点,而对于第三个社区,除去重叠节点,其余节点度都是1,对于大型网络这种情况并不常见,如果发生则从重叠节点中选择度中心性最大的节点作为聚集焦点,则整个网络的聚集焦点为n
core
={3,4,12,16}。最后社交网络候选种子集为{3,4,8,12,16}。
[0070]
基于以上概念,候选种子集由candidate seeds set based on two key regions(tkrcs)算法产生。
[0071]
算法时间复杂度为o(nc),其中n是网络中节点的总数量,c是社区数量。
[0072]
1.3可选择动态影响力传播算法
[0073]
已经完成候选种子集的选择,选出了有潜力成为种子的节点。在此基础上,构建可选择动态影响力传播算法(odp算法),基于贪心思想和ic模型确定最具影响力的节点集。考虑到用户的自主性,有权利选择分享对象,同时倾向于与亲密距离的朋友联系,而选择其他社会距离用户的概率较小。因此所述算法为传播过程加入传播控制因子α,表示传播条件的下限,满足条件时节点才具备传染能力,然后尝试激活他的邻居节点。而在ic模型中,活跃
状态的用户尝试影响他人时是不需要前提条件的。如果用户间的关系比较疏远,彼此处于一种不信任的状态,那么这种尝试是没有意义的。
[0074]
定义4(自信息熵):节点自身携带的信息量,该值与节点的扩散量成正相关,公式如下:
[0075][0076]
其中m是整个网络中边的总数,d
u
代表节点u的度数。信息熵是对信息的量化,所述自信息熵通过节点度和总边数的比值衡量节点所携带信息量的多少。
[0077]
定义5(凝聚力):对于节点u∈v和他的邻居节点w,二者之间的凝聚力如公式(9)所示:
[0078][0079]
其中h
u
是待成为传播节点的自信息熵,ce
uw
是节点u和节点w的凝聚熵。凝聚力越大,二者关系越密切。
[0080]
定义6(可传播先驱):网络g(v,e)中,对于边(u,v)∈e,当节点u与节点v的凝聚力达到传播控制因子α的值时,节点u就具备了尝试影响节点v的能力,即节点u就成为了节点v的可传播先驱,然后尝试去影响节点v。例子如图3所示,其中,节点12已被成功激活,其有可能影响的节点有5个,分别计算凝聚力大小,此处假设α=0.1。cp
12,10
,cp
12,11
,cp
12,16
的值超过α,所以节点12继续以用户间影响概率尝试激活他们。而节点8和节点13与节点12的凝聚力未达到α,所以两条传播路径就此终止。
[0081]
不同于以往的传播算法,加入阈值α表示允许传播下界,当两个用户间的凝聚力达到值α时,一个用户可以成为另一个用户的可传播先驱,即具备了尝试影响另一个节点的能力,影响力继续向外扩散。本申请中用户间的激活概率为被激活节点度数倒数的大小。
[0082]
算法所用的时间与当前节点的邻居数量相关,即与当前节点的度数相关。算法时间复杂度为o(d2),其中d是网络中度数最大的值。
[0083]
1.4基于凝聚熵的动态影响力最大化算法
[0084]
本申请提出的deim算法是一个基于社区结构的融合用户动态选择分享对象过程的影响力最大化算法.现实中的社交网络具有复杂性和多样性等特征,从而导致从中选择种子集的工作及其困难费时。首先为了提高效率,本申请在社区结构的基础上,提出凝聚熵来量化用户间的社会距离,再结合标签传播算法提出了基于凝聚熵的重叠社区发现算法,利用节点位置信息缩小种子选择范围。接着,为了体现用户自主选择分享对象的动态过程,本申请提出了可选择性的动态影响传播算法评估节点影响力,分析因用户间亲密程度不同导致的影响效果差异,进而确定种子集。不仅有效减少时间开销,还体现了用户传播过程中的自主性和动态性。
[0085]
综合各个阶段,算法的总时间为:o(nd+nc+c'd2),其中n代表网络中节点的总数量,c是划分后社区的数量,d是网络中度数最大的值,c'代表候选种子集中节点的个数并且c'是远远小于节点数量n的。
[0086]
2实验
[0087]
2.1实验设置
[0088]
在四个大小不同的数据集上进行了实验,对于每一个数据集分别研究了以下三方面的问题,实验结果见4.2节。所有评估实验的扩散模型均采用ic模型,其中每条边的影响概率设置为该条边终点节点度数的倒数。
[0089]
a)与其它算法的种子影响扩散范围对比
[0090]
b)不同算法进行种子选择所用时间对比
[0091]
c)传播控制因子α的设置
[0092]
数据集:
[0093]
1)dblp数据集是计算机科学书目提供的计算机科学研究论文的综合列表。它建立了一个联合作者网络,共有954个节点,3798条边。如果两个作者共同发表至少一篇论文,他们就被连接在一起。
[0094]
2)facebook数据集来源于社交软件facebook的朋友列表,共有4024个用户,87887条连边,连边代表互为好友关系。
[0095]
3)wiki-vote维基百科是一个由世界各地的志愿者合作编写的免费百科全书,网络中的节点表示wikipedia用户,边表示用户间的投票,共7115个节点,103689条边。所有数据集的属性如表1所示。
[0096]
4)ca-hepph协作网络来自于arxiv的电子出版物,涵盖了提交到高能物理-现象学范畴的作者论文之间的科学合作。
[0097]
表1
[0098][0099]
将deim算法分别和启发式算法和贪心式算法进行对比,证明所述算法既具有贪心式算法的效果优势,又具有启发式算法的效率优势。对比算法分别为:
[0100]
1)greedy:一种经典的种子选择策略,与最优解的近似度已知,可以称为影响力最大化算法的准则之一。该算法每一步选择拥有最大边际增益的节点加入种子集,它使用蒙特卡罗模拟来计算每个节点的影响,具有比较高精度;
[0101]
2)degree:一种经典的利用网络节点中心性的启发式算法,该算法选择网络中拥有最大度的节点作为种子节点,是一种衡量节点影响力最直观、最简单的指标;
[0102]
3)pagerank:也是一种比较经典的启发式算法,用来对各个节点在网络中的重要程度排序,阻尼系数取值为0.85。最初用于google的网页排序算法,也可以用来在社交网路中寻找具有影响力的种子节点;
[0103]
4)imm:先进的取样方法之一,利用反向可达集寻找种子节点。
[0104]
2.2与其它算法的种子影响扩散范围对比
[0105]
在四个特征迥异的数据集上把所述deim算法与其他四个经典算法在种子传播效果方面进行了对比,其中deim算法设置α=0.001。结果如图4所示,可以看出所述算法整体表现良好,影响力传播表现优于其他算法。
[0106]
在数据集dblp中,如图4(a)所示,随着种子数量的增加,各个算法得到的影响力大小都随之稳定增长,其中deim算法表现突出,始终高于其他算法。而对于数据集facebook、viki-vote以及ca-hepph,如图4(b)、(c)、(d)所示,deim算法在种子数量较少时就可以找到奠定全局的种子集,且效果始终优于其他算法。这是由于deim在确定种子之前将网络边缘节点已剔除,而且考虑到了用户选择性分享信息的情况,结果只会产生概率高的传播路径,因此在种子用户散播信息时在这些路径表现明显好于对比算法。imm算法的表现不稳定,可能是由于随机选择节点来生成反向可达集的原因。简单启发式算法pagerank算法和degree算法对于小数据集表现不错,但随着数据集规模的增加,网络的无标度性质逐步加强,它们挑选的种子可能呈现聚集现象,效果逐渐下降。deim算法表现比较稳定,说明对于不同类型和大小的网络来说,deim算法具有普适性。
[0107]
2.3不同算法进行种子选择所用时间对比
[0108]
图5显示了在四个数据集上不同算法选择不同数量的种子时对应的运行时间,其中deim算法设置α=0.001。
[0109]
图5可以看出在选择目标数量少时deim算法在效率上具有明显优势,结果不逊色于启发式算法。这是由于候选种子集合大大缩小了种子的选择范围,剔除了影响力小的网络边缘节点。随着种子数量的增加,运行时间增多,但仍然少于贪心算法和imm算法。基于贪心思想的算法中要对所有候选种子集中的节点进行影响传播模拟得到影响力大小,随着种子数量的增长,影响力模拟计算次数增加,算法也就越来越耗时。从整体看,deim算法时间效率明显高于greedy算法,但与两个启发式算法相比似乎并没有优势,因为degree算法和pagerank算法中只考虑了网络中某一特性,而没有考虑实际传播中的问题,不能给出理论保证的种子集合。然而随着数据集规模的增大,这两个算法的运行时间也会大幅度上升,如图5(b)和图5(c)。
[0110]
2.4传播控制因子α的设置
[0111]
传播控制因子α是在影响扩散阶段判断用户是否分享消息的参数,决定影响扩散路径的长度。α可以约束节点影响力传播的区域,从而影响最终种子集的扩散范围,同时也会直接影响算法的运行时间。根据各个网络中的节点凝聚力的分布,分别为α取值。图6,图7展示了α为不同取值时的结果,实验分别从效果和效率两方面进行对比。
[0112]
图6(a)中α取值分别为0.01,0.001,0.0001和0.00001。其中α=0.01和α=0.001时表现较好,此时节点间的传播控制要求相对比较高,需要用户间凝聚力比较大。α=0.0001和α=0.00001时影响范围相比较低,可能进行了多余的激活尝试。(b)(c)(d)中α取值分别为0.001,0.0001,0.00001和0.000001。从图6(b)(c)可以看出,在每个数据集上,依然是当α较大的值时表现较好,情况与(a)中相似。而在图6(d)中,α为最大值和最小值时,影响效果显著,α为中间值0.0001和0.00001时表现较差。α=0.000001时,相对要求最低,影响力尝试扩散的范围会比较大,激活机会比较多,但容易产生不必要尝试,使运行时间增加。
[0113]
阈值α的大小直接影响节点的扩散路径长度,也会使得算法时间存在明显区别,如
图7所示。当α取值较大时会明显缩短扩散路径长度,避免了重复的部分路径的激活尝试,大幅度减少运行时间,对于稠密网络此现象会愈加明显。
[0114]
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1