基于关系强度计算的社交网络用户影响力分析方法与流程

文档序号:29208252发布日期:2022-03-12 02:55阅读:311来源:国知局
基于关系强度计算的社交网络用户影响力分析方法与流程

1.本发明涉及社交网络数据分析技术领域,更为具体的,涉及基于关系强度计算的社交网络用户影响力分析方法。


背景技术:

2.随着各种社交网络的诞生和发展,使得世界各地的人们可以利用各种不同的虚拟身份随时分享、评论或讨论任何话题,人们在社交网络中不仅仅是信息的使用者,更是信息的缔造者。社交网络数据的爆炸式增长给数据挖掘和知识发现带来了很多机会,大量社交网络的相关研究逐渐兴起,包括网络社区发现、用户影响力评估和网络信息传播等。
3.社交网络中用户影响力分析是其中一个至关重要的研究点。它旨在评估各用户在该社交网络中对其他用户的影响力大小,并选择出最有利于影响力传播的一批用户重点关注,在节约资源分配、加速信息扩散、抑制具有煽动性的有误信息传播等多种应用中都发挥着重要作用。
4.综上所述,开展对社交网络用户影响力的相关分析,对现实生活具有一定的科研价值和研究意义。


技术实现要素:

5.本发明的目的在于克服现有技术的不足,提供基于关系强度计算的社交网络用户影响力分析方法,能较好地发现网络中用户对之间的亲疏关系、联系强弱关系,进而在传统的leaderrank算法中融入该强度信息,能更好的计算用户的社交网络影响力,提高了算法的准确性。
6.本发明的目的是通过以下方案实现的:
7.基于关系强度计算的社交网络用户影响力分析方法,包括步骤:
8.s1,关系强度计算,从社交网络中虚拟身份之间的互动行为类型、互动行为类型发生次数以及互动行为时间三个维度来计算社交网络用户的关系强度,利用计算得到的关系强度发现社交网络中用户之间的亲疏关系和情感倾向;
9.s2,将步骤s1计算得到的社交网络用户之间的关系强度与leaderrank算法结合,计算得到社交网络用户的社交网络影响力。
10.进一步地,在步骤s1中,根据互动行为类型,构建如下公式计算第一关系强度
[0011][0012]
其中g是各互动行为类型对关系强度的影响值,g
max
是用户ui和用户uj之间最强烈的互动行为对关系强度的影响值,其中ω是常量。
[0013]
进一步地,在步骤s1中,根据互动行为类型发生次数构建如下公式计算该互动行为类型下的第二关系强度
[0014][0015]
进一步地,在步骤s1中,根据互动行为时间t
i,j
,构建如下公式计算第三关系强度
[0016][0017]
其中year(t
i,j
)表示互动行为发生年份,year_base表示当前年份,表示在某一年份中用户间各互动类型发生次数。
[0018]
进一步地,包括步骤:
[0019]
计算出不同年份不同类型的互动行为对关系强度的影响后,通过累计得出两用户间的关系强度r
i,j
,表达式如下:
[0020][0021]
在上述表达式的基础上,融入最后一次互动行为发生的时间,用于反应用户之间是否还在联系,最后一次互动行为发生时间越近,关系强度越强,表达式如下:
[0022][0023]
其中是最后一次互动行为发生时间对关系强度影响。
[0024]
进一步地,在步骤s2中,按照如下公式计算节点vi在t时刻的pr值为:
[0025][0026]
其中,t表示时间,参数w
ji
为有向加权图中节点vi指向节点vj边的权值,其值等于计算得到的社交网络用户的关系强度r
i,j
,为节点vj的出度;a
ji
表示是否有j指向i的边,如果有,则a
ji
=1,否则a
ji
=0,lri(t)表示第t时刻的leaderrank分数值。
[0027]
本发明的有益效果是:
[0028]
本发明构造的用户关系强度计算公式,能较好地发现网络中用户对之间的亲疏关系、联系强弱关系,进而在传统的leaderrank算法中融入该强度信息,能更好的计算用户的社交网络影响力,提高了算法的准确性。
附图说明
[0029]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0030]
图1为本发明的方法步骤流程图。
具体实施方式
[0031]
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
[0032]
如图1所示,基于关系强度计算的社交网络用户影响力分析方法,包括步骤:
[0033]
s1,关系强度计算,从社交网络中虚拟身份之间的互动行为类型、互动行为类型发生次数以及互动行为时间三个维度来计算社交网络用户的关系强度,利用计算得到的关系强度发现社交网络中用户之间的亲疏关系和情感倾向;
[0034]
s2,将步骤s1计算得到的社交网络用户之间的关系强度与leaderrank算法结合,计算得到社交网络用户的社交网络影响力。
[0035]
本发明提出了一种基于用户之间的交互信息计算用户在社交网络影响力的方法。该方法深入研究用户之间的互动行为,面向社交网络中的各类用户拟制、发放调查问卷,基于搜集的真实用户打分数据构造用户关系强度函数,能较好地发现网络中用户对之间的亲疏关系、联系强弱关系,进而在传统的leaderrank算法中融入该强度信息,计算出用户在群体中的影响力。该方法主要包括以下两个模块。
[0036]
1、社交网络用户关系强度计算模块
[0037]
社交网络账号是人们在网络中建立可用于表达自己、连接和共享彼此信息的虚拟身份。社交网络身份用户关系强度计算模块通过分析网络虚拟身份的信息发布属性中蕴含的回复、评论、转发、点赞等互动信息进行人物聚类等社会群体挖掘,并结合真实用户打分数据,从虚拟身份的互动行为类型、互动行为次数以及互动行为时间三个维度,分析社交网络用户对之间的关系强度。以下构造的所有表达式均是基于大量用户调研数据拟合而来,符合真实数据分布。该模块中可以观测到三种决定性的互动信息:
[0038]
互动行为类型
[0039]
互动行为越强烈,虚拟身份的关系强度越强。如a用户评论了b用户的状态较之a用户赞了b用户的状态是一种更加主动、更有针对性的行为,这种更强烈的互动行为预示着两名用户间关系强度越强。因此用户ui和用户uj的关系强度r
i,j
的值依赖于互动行为类型g
i,j

[0040]
通过分析各社交网络的操作特点,可以发现对于同一条状态用户间有以下几种互动:评论、转发、点赞、@对方用户等。本发明为每种互动行为定义了一个强度等级,如下表所示:
[0041]
表1用户间互动行为类型
[0042][0043][0044]
若两个用户之间只存在“不强烈”互动行为,如对同一条状态点赞等,可能这两名用户之间并不熟识或者并不认识,只是有共同好友或者关注了相同的话题等。而另外一组用户若既存在更强烈的互动行为如转发、@对方用户等,也存在“不强烈”互动行为,说明该组用户在社交网络中更加亲密,也更有可能在现实中是亲密关系。
[0045]
因此本发明不仅只关注两个用户单次的互动行为类型,也关注这两个用户之间最亲密的互动行为类型。最亲密的互动行为越强烈,他们之间的互动行为对关系强度的影响就越大。根据互动行为类型计算关系强度表达式如下:
[0046]
[0047]
其中g是各互动行为类型对关系强度的影响值,g
max
是用户ui和用户uj之间最强烈的互动行为对关系强度的影响值,其中ω是常量,此处设为0.25。计算出的关系强度值在0到1之间。
[0048]
互动行为次数
[0049]
用户之间的互动行为越频繁,他们的关系强度就越强。因此用户ui和用户uj之间的互动行为次数n
i,j
影响了关系强度值r
i,j

[0050]
本发明通过统计用户间各互动类型发生次数计算该互动类型下的关系强度表达式如下:
[0051][0052]
互动行为时间
[0053]
用户间的关系强度不是一成不变的,而是随着时间在不断变化。例如10年前的互动行为对关系强度的影响就明显弱于近段时间的互动行为。因此互动行为发生的时间t
i,j
也影响着关系强度值r
i,j
。本发明在计算表达式中0加入时间因素,如下:
[0054][0055]
其中year(t
i,j
)表示互动行为发生年份,year_base表示当前年份。表示在某一年份中用户间各互动类型发生次数。
[0056]
关系强度
[0057]
计算出不同年份不同类型的互动行为对关系强度的影响后,通过累计得出两用户间的关系强度r
i,j
,表达式如下:
[0058][0059]
在该表达式基础上,本发明融入最后一次互动行为发生的时间,用于反应用户之间是否还在联系。最后一次互动行为发生时间越近,关系强度越强。表达式如下:
[0060][0061]
其中是最后一次互动行为发生时间对关系强度影响。
[0062]
2、社交网络用户影响力计算模块
[0063]
社交网络的用户关系是有向的,因此其网络结构可以用一个有向加权图表示。每个用户是图中的节点,用户之间的关系是图中的边,上个模块计算出的关系强度是边上的权值。如果用户u对于用户v的关注度越高即关系强度值越大,那么u将会把自身的影响力赋予v,如果u的影响力高,则v得到u的影响力也就相对多了。基于此,本模块对传统的leaderrank影响力排序算法进行改进,融入了用户的情感倾向,进一步提高了算法的准确性。
[0064]
pagerank
[0065]
pagerank是一种基于网页的链接结构的经典网页排序算法,该算法有这样一个认知:万维网中一个页面的重要性取决于指向它的其他页面的数量和质量,若一个页面被很多高质量页面指向,则这个页面的质量也高。初始时刻,每个节点(网页)被赋予相同的pr值,然后进行迭代,每一次迭代把每个节点当前的pr值平分给它所指向的所有节点。每个节点新的pr值为它所获得的所有pr值之和,于是节点vi在t时刻的pr值为:
[0066][0067]
其中为节点vj的出度。a
ji
表示是否有j指向i的边,如果有,则a
ji
=1,否则a
ji
=0。c是跳转概率,当一个用户访问一个页面时,以概率c通过地址栏随机跳到其他网页,以概率1-c通过网页中的超链接跳转到其他页面。上述公式经过不断迭代直到每个节点的pr值都达到稳定时为止。
[0068]
leaderrank
[0069]
pagerank算法中,每一个节点的随机跳转概率都是相同的,即从任意网页出发,采用输入网址来访问其他网页的概率相等。然而现实中这种操作却不符合人们的日常习惯,人们往往在内容丰富的热门网页上浏览的时候选择使用地址栏跳转页面的概率要远小于信息量少的网页。为了有效地解决该问题,leaderrank算法在有向网络的随机游走过程中,通过添加一个背景节点(ground node)以及该节点与网络中所有节点的双向边来代替pagerank算法中的跳转概率c,从而得到一个无参数且形式上更加简单优美的算法。
[0070]
初始时刻,网络中除背景节点vg以外的其他节点分配单位资源,即lri(0)=1;lra(0)=0。经过以下的迭代过程直到稳态:
[0071][0072]
注意,迭代过程中邻接矩阵为n+1阶(包含背景节点)。稳态时将背景节点的分数值lrg(tc)平分给其他n个节点,于是得到节点vi的最终leaderrank分数值为:
[0073][0074]
leaderrank算法在评估社交网络中节点的影响力等方面有非常优异的表现,因此得名。leaderrank算法与传统的pagerank相比,其优越性主要体现在:(1)背景节点的加入减小了整个网络的半径,与pagerank相比收敛更快;(2)能够更好的识别网络中有影响力的节点,挖掘出的重要节点能够将网络流传播的更快更广;(3)在抵抗垃圾用户攻击和随机干扰方面相比pagerank有更强的鲁棒性。这些优点使得leaderrank算法广受关注。
[0075]
然而,原始的leaderrank算法只考虑节点之间的关系(0或1),即网络的结构,每个节点的lr值被平均分配给该节点所关注的节点,并没有对用户之间的情感倾向进行考量,进而可能导致计算出的影响力排名有误差。
[0076]
改进的leaderrank
[0077]
用户情感倾向即用户之间的关系强度对于计算网络中用户的影响力排名是不可或缺的重要因素,因此,针对传统leaderrank算法的不足,本发明将用户之间的关系强度与传统的leaderrank结合,进一步提升了算法的准确性。于是改进的leaderrank计算节点vi在t时刻的pr值为:
[0078][0079]
其中,新增的参数w
ji
为有向加权图中节点vi指向节点vj边的权值,其值等于上个模块中计算出的用户关系强度r
i,j

[0080]
本发明实施例的数据集来源于facebook爬取的15个公共主页、12个个人主页以及这些个人用户的好友主页的推文信息,包括推文内容、网址、时间、名称、id、分享次数、@用户、评论、点赞信息等。数据库选用neo4j图数据库。
[0081]
针对社交网络用户关系强度估算模块,本技术根据数据库中用户之间的互动行为类型、互动行为次数和互动行为时间,计算出用户对的关系强度值。两个虚拟身份之间可能存在两条有向线条并且上面的关系强度分值可能不一样。这是因为两虚拟身份之间关系强度具有不对称性。举个例子:a所发布的每一条推文,b都有评论、点赞或转发。但是b发布的推文a从没有任何互动行为。那么可以看出a对b的影响力很大,关系强度也就大。但是b对a却没什么影响,关系强度也就小。
[0082]
针对社交网络用户影响力估算模块,本技术在爬取的facebook数据上分别使用pagerank、leaderrank以及基于改进的leaderrank对用户的影响力进行排名,下表为影响力前10的排名结果。
[0083]
表2三种方法计算出的影响力排序结果
[0084]
[0085]
表中第一行第二列表示使用pagerank算法得到的影响力排名第一的用户id为

100019059701459’,其他列以此类推。观察表格可知,三种方法得出的排名有重叠的区域,包括{

100019059701459’,

611202736’,

100001718256387’,

100000300156957’}。此外也有非重叠区域,例如改进的leaderrank算法计算出前十的用户id{

100001868401625’,

100004316735963’,

125474120835697’}由其他两种算法无法得到。针对上述现象,专门查看了造成此差异的原因,发现{

100001868401625’,

100004316735963’}用户与{

100000300156957’,

100001718256387’}用户相比和其他用户有较强烈的互动类型且互动频次更高,当然他们在社交网络中拥有更大的影响力,由此可证明将用户的交互信息考虑在内的改进的leaderrank算法能更好的计算社交网络的用户影响力。
[0086]
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
[0087]
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(random access memory,ram)、随机存取存储器(random access memory,ram)等。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1