本发明涉及网络技术领域,尤其涉及一种基于潜在传播集的社交网络信息传播跟踪方法。
背景技术:
近年来,随着网络的飞速发展,在线社交服务(SNS)例如微博、Twitter和Facebook等已经渗透到人们日常生活的方方面面,成为现代人们获取和传播新鲜信息的一个重要途径。由于在这些平台上信息的发布和接收异常的简便和迅速,许多热点问题会以″爆炸式″的速度迅速扩散开来,在短时间内就能达到″世人皆知″的地步。而在当今社会,群众舆论已经成为一股不可小觑的无形力量,它们能在一定程度上左右热点事件的演化方向,并对有关部门在事件的应对、裁判及处理上造成一定的影响。因此,如何描述社交网络中的信息传播行为、揭示信息传播的特性和规律,具有非常重要的理论研究价值和实际应用价值,同时也是当前的研究热点之一。
在最近几年里,有不少学者针对社交网络中的信息传播问题展开了大量的研究工作,他们的研究主要集中在传染病模型、网络拓扑模型以及基于统计推理的传播模型。其中,由于信息传播的表现与传染病传播非常相像,所以现在大多数的信息模型都是以传染病模型为基础。而在基于传染病模型方面,大多数研究者都是以SIR模型为基础。
SIR模型,即susceptible-infective-removed模型,该模型根据节点状态,将社交网络上的节点分为三类:具备传播信息能力的传播节点I、从未听说过消息的健康节点S以及对消息不感兴趣因此不具备传播能力的免疫节点R。在单位时间内,每个传播节点以概率β与其他所有状态的节点接触,并且以概率γ治愈从而成为免疫节点;如果传播节点的传播行为中与健康节点接触,则该健康节点会变成传播节点。若用N表示网络中的节点总数,S(t)、I(t)、R(t)分别表示在t时刻S、I、R三类状态的节点总数,则原始SIR传播模型的耦合非线性方程组可以表示为
现有模型中,因为没有考虑到可能有多个传播节点影响到同一个健康节点S的情况,也就是说,这一修正仍然是把每个传播节点独立看待,而没有考虑到整个网络的实际构型,所以在较密集的网络中计算所有传播节点的影响总量时,所得出的结果会远远大于实际值。因此,在ΔI+=β<k>I(t)S(t)/N或类似处理的模型中,前期传播节点I的数量会飞速增长且很快就会突破节点上限,同时健康节点S的数量也会急剧下降到负值,这显然与实际情况不符。此外,即使在较为稀疏的网络中,虽然传播节点I不会疯狂增长,但是这些模型的方程解析结果也无法与实际情况相吻合。这些原因导致了这些模型只能被当作仅供参考的理论模型,其解析结果也不能被实际应用到信息传播情况的预测与分析上,该模型的利用价值也因而大打折扣。
技术实现要素:
鉴于上述的分析,本发明旨在提供一种基于潜在传播集的社交网络信息传播跟踪方法,用以解决现有基于传统SIR模型的社交网络信息传播跟踪方法中存在的对传播节点增量的计算大量重复的问题。
本发明的目的主要是通过以下技术方案实现的:
一种基于潜在传播集的社交网络信息传播跟踪方法,包括以下步骤:
步骤S1、在传统SIR模型中加入潜在传播节点PS类节点,建立基于潜在传播集的SIR模型;
步骤S2、从社交网络中获取网络消息并进行聚类,划分其消息类型,根据消息类型进行分组;每一组中的消息再按照当前热度排序,建立网络热点消息的分类数据库;
步骤S3、从建立的网络热点消息的分类数据库中选取网络热点消息,对社交网络进行采样,获取所选取的网络热点消息的基于潜在传播集的SIR模型的传播参数;
步骤S4、对社交网络进行监测,获取新的网络热点消息,将其与网络热点消息的分类数据库进行对比,选择最接近的网络热点消息类型,并提取步骤S3中获取的传播参数作为新的网络热点消息的基于潜在传播集的SIR模型的参考传播参数;
步骤S5、对获得的参考传播参数进行调整,进一步预测所述网络热点消息的传播情况;
步骤S6、根据所述网络热点消息的传播情况,对其传播进行人工干预。
步骤S3中所述对社交网络进行采样进一步包括:以指定信息作为输入,从社交网络的服务器中爬取所述指定信息的不同用户状态的用户数据。
所述用户状态包括:是否转发了相应热点消息;邻居中是否有用户转发了相应热点消息;转发的热点消息是否再次被其邻居转发。
根据所述用户状态确定S、I、R、PS四类的数量,定时进行爬取统计。
根据社交网络的网络拓扑结构和定时统计获得的S、I、R、PS四类用户的数量变化情况和步骤S1中建立的基于潜在传播集的SIR模型,反推传播参数β和γ。
通过对新的网络热点消息提取关键词,判断其关键词在搜索引擎中的被搜索次数,与其所划分到的消息类型中的热点消息的关键词的被搜索次数进行比较,根据两者被搜索次数的比例关系,对步骤S4中获得的参考传播参数进行调整。
所述步骤S5进一步包括,根据调整后的参考传播参数,结合步骤S1中建立的加入潜在传播节点PS后的SIPR模型进行仿真。
所述步骤S6进一步包括:
若是希望其传播的正面网络热点消息,且通过预测发现该热点消息在将来的影响范围不会很广,在早期多加强宣传;
若是不希望其传播的恶意谣言网络热点消息,且通过预测发现该热点消息在将来的影响范围会很广泛,在早期及时进行屏蔽、辟谣。
所述SIR模型中包括:
传播节点I:对应一类已知相应的热点消息并对其进行了转发的用户;
健康节点S:对应一类尚未得知相应热点消息的用户,与其邻居中是否存在I类用户无关;
免疫节点R:对应一类已知相应的热点消息并对其进行了转发,但其邻居不再转发其热点消息。
对于任一健康节点S,若其邻居节点中至少含有一个传播节点I,则该健康节点S是潜在传播节点PS节点。
本发明有益效果如下:
本发明提出了一种基于潜在传播集的社交网络信息传播跟踪方法,所谓潜在传播集,就是与一个或多个传播节点I直接相邻的健康节点S的集合。在经典SIR模型中,由于只有I->S这一唯一传播途径,所以对于所有在下一时刻t+1有可能变成传播节点I的健康节点S,它必然属于PS集,因此才称它为潜在传播集PSS,即使多个传播节点I连接到同一个健康节点S上,那这个健康节点也只会被标记一次,这样就避免了重复计算的问题。通过引入潜在传播集PSS这一概念,建立了新的SIPR方程组,解决了传统方程中I(t)在t时刻的增量部分ΔI+存在的问题。本方法运用在不同规模的人工网络与现实网络中,由SIPR方程组生成的S、I、R三类曲线与仿真模拟情况中三类曲线吻合度很高,均表现出了良好的效果。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为基于潜在传播集的社交网络信息传播跟踪方法流程图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
根据本发明的一个具体实施例,公开了一种基于潜在传播集的社交网络信息传播跟踪方法,如图1所示,具体包括以下步骤:
步骤S1、在传统SIR模型中加入潜在传播节点PS类节点,建立基于潜在传播集的SIR模型;
定义1社交网络上的节点分为三类:具备传播信息能力的传播节点I、从未听说过消息的健康节点S以及对消息不感兴趣因此不具备传播能力的免疫节点R。
传播节点I:对应一类已知相应的热点消息并对其进行了转发的用户。
健康节点S:对应一类尚未得知相应热点消息的用户,与其邻居(即好友或关注的用户)中是否存在I类用户无关。
免疫节点R:对应一类已知相应的热点消息并对其进行了转发,但其邻居(即好友或被关注的用户)不再转发其热点消息(不再具有传播能力)。
定义2潜在传播节点PS(Potential Spreader)对于任一健康节点,若其邻居节点中至少合有一个传播节点I,则该健康节点是PS节点(同时仍为S节点):对应一类其好友或者关注的人中有人转发了热点消息,即邻居中存在I类用户。PS节点仍属于S类节点,只不过是S类节点被多赋予了一个PS节点的身份。PS可以是与单个I节点相邻,也可以是与多个I节点相邻。因此,通过PS去计算ΔI+时就不会出现重复计算被感染节点的情况。
定义3潜在传播集PSS(Potential Spreader Set)由所有潜在传播节点组成的集合即为潜在传播集。
在经典SIR模型中,在下一时刻可能出现状态变化的包括通过免疫事件成为R节点的I节点和通过传播事件成为I节点的S节点。而这些S节点只能是通过与I节点的接触才可能发生传播事件,那么这些S节点至少要与一个I节点相连,则这些节点必然是潜在传播节点即PS节点,也就是说下一时刻产生的所有新传播节点均属于潜在传播集。
定义4ΔI+指在下一时刻,健康节点S通过传播行为变成传播节点I的节点总数。
ΔI+表示的是传播节点I在下一时刻的增量部分。在引入潜在传播集PSS后,对ΔI+的计算是去除重复计算的关键部分。
定义5 SIPR方程组
N表示网络中总结点数,S、I、R、PS分别表示t时刻四类节点的总数量;<k〉表示网络中的平均度,C表示网络的聚集系数;β表示传染病模型中的传播概率,γ表示传染病模型中的治愈概率。
对于一个PS节点,其邻居中可能只有一个I节点也可能有多个I节点,根据平均场理论,可以求得一个PS节点平均连接的I节点个数为
ΔI+=PS*(1-β′) (5)
上式中的β′表示一个PS节点在t+1时刻不被感染的概率。由于平均每个PS节点邻居中I节点的个数为<PS_I〉个,
真实传播率β′=(1-β)(PS_I) (6)
综合(5)、(6),可以得到
ΔI+=PS*[1-(1-β)(PS_I)] (7)
根据(5),在原SIR方程组(1)-(3)上引入PS改进ΔI+后得到的新微分方程组为
其中,由(4)、(7),得到
现在我们来看在下一时刻t+1时,PS的变化情况。
1.PS->I事件
(1)新I节点的诞生是通过PS节点的减少得到的结果,新I节点的集合即为ΔI+,并且都是由PS转化而来。因此有
(2)新I节点的诞生同时会导致新PS节点的出现,新诞生的I节点会使得其邻居之前为S类的节点变为PS节点,其邻居为非S类型的节点则不会受到影响。由传染概率β,可以得到对于每一个标注为的节点(即属于ΔI+的节点),通过传播事件可以使原S类邻居节点发生变化的数目为
然而,新诞生的I节点必然会和某个I节点相连(否则它不成为PS节点),该I节点其邻居节点中必然不存在非PS的S节点。根据聚集系数C,新诞生的I节点的邻居内会有(<k>-1)C个节点同时也是该I节点的邻居,而这一部分中并不会存在PS节点,所以应该去除的数目为
此外,对于从S变化为PS的节点,其与两个新诞生的I节点相连,这代表了另一种会被重复计算的情况——即多个新诞生的I节点可能会连接到同一个节点上。通过计算,得到这类新诞生的PS节点平均连接新诞生I节点的个数为
根据(13)、(14)、(15),我们得到
2.I->R事件
该事件会导致一部分PS节点由于其邻居中的I节点全部消失从而不再是PS节点。
只有当PS周围的I节点全部变成R时,该PS节点才会变为S节点(这里的S节点表示不具备PS属性的S节点)。若某PS节点的邻居中有I节点变成了R节点,但是该PS节点的邻居中还有其他I节点,则该PS节点不会受到影响。
根据(10),下一时刻会变成R类节点的节点总数为γI个,它们一共能够影响的节点有γI<k>个,再根据这些节点中PS节点所占的比值,可以得到
由(12)、(16)、(17),得到PS的变化情况如下
由于网络中的总节点数N通常很大,所以用N代替上述公式中的N-1和N-2。根据(8)、(9)、(10)、(11)、(18),得到加入潜在传播节点PS后的SIPR模型的微分方程组为
其中
易知,在传播开始时,也就是t=1时,有S(1)=N-1,I(1)=1,R(1)=0,PS(1)=<k>。
步骤S2、从社交网络中获取网络消息并进行聚类,划分其消息类型,根据消息类型进行分组,每一组中的消息再按照当前热度排序,建立网络热点消息的分类数据库。
优选地,获取的网络消息的样本足够大,在短时间内样本数量不会发生大的变化;
具体地,根据消息类型可从娱乐、体育、财经、军事等不同方面对网络消息进行分组;
优选地,对消息类型的分组可进一步细化,例如针对娱乐消息,可细化到不同的演员、电视剧、电影;
在本实施例中,选择微博的文本作为数据处理对象,首先计算微博文本之间的语义相关性,然后根据微博文本之间的相似度提取那些相似度较大的文本进行聚类,进而统计聚类后的微博文本的转发数、评论数、支持数,计算该微博的转发率、评论率和支持率,加权求和,作为微博热度值,根据微博热度值进行排序,将排序前n位的微博作为网络热点消息。
步骤S3、从建立的网络热点消息的分类数据库中选取网络热点消息,对社交网络进行采样,获取所选取的网络热点消息的基于潜在传播集的SIR模型的传播参数;
具体地,以指定信息作为输入,从社交网络的服务器中爬取所述指定信息的不同用户状态的用户数据,所述用户状态包括:1.是否转发了相应热点消息、2.邻居中是否有用户转发了相应热点消息、3.转发的热点消息是否再次被其邻居转发,即不同时刻S、I、R、PS四类节点的数量;
优选地,根据所述用户状态确定S、I、R、PS四类的数量,每隔一定时间(例如10分钟或者半小时等)进行一次爬取统计。
根据社交网络的网络拓扑结构(网络中总结点数N,网络中的平均度<k>,网络的聚集系数C都可以直接计算)和定时统计获得的S、I、R、PS四类用户的数量变化情况,根据步骤S1中建立的基于潜在传播集的SIR模型对传播参数β和γ进行反推,具体推算方式如下:
记第i次爬取统计获得的S、I、P和PS四类用户的数量分别为S(ti)、I(ti)、P(ti)和PS(ti),则根据这些数据和网络拓扑数据,我们可以计算出对应情况下的传播参数β和γ的估计值分别为:
步骤S4、对社交网络进行监测,定时获取新的网络热点消息,将其与网络热点消息的分类数据库进行对比,选择最接近的网络热点消息类型,并提取步骤S3中获取的传播参数作为新的网络热点消息的基于潜在传播集的SIR模型的参考传播参数。
步骤S5、对获得的参考传播参数进行调整,进一步预测所述网络热点消息的传播情况。
具体地,通过对新的网络热点消息提取关键词,判断其关键词在特定时间段中在搜索引擎中的被搜索次数,与其所划分到的消息类型中的热点消息的关键词的被搜索次数进行比较,根据两者被搜索次数的比例关系,对步骤S4中获得的参考传播参数进行调整,进一步预测所述网络热点消息的传播情况。
优选地,根据调整后的参考传播参数,结合步骤S1中建立的加入潜在传播节点PS后的SIPR模型的微分方程组进行仿真。
步骤S6、根据所述网络热点消息的传播情况,通知相关人员对其传播进行人工干预。
具体地,可以分两种情况:
若是希望其传播的正面网络热点消息,且通过预测发现该热点消息在将来的影响范围不会很广,可以在早期多加强宣传;
若是不希望其传播的恶意谣言网络热点消息,且通过预测发现该热点消息在将来的影响范围会很广泛,可以在早期及时进行屏蔽、辟谣等操作。
综上所述,本发明实施例提供了一种引入潜在传播集的社交网络信息传播跟踪方法,所谓潜在传播集,就是与一个或多个传播节点I直接相邻的健康节点S的集合。在经典SIR模型中,由于只有I->S这一唯一传播途径,所以对于所有在下一时刻t+1有可能变成传播节点I的健康节点S,它必然属于PS集,因此才称它为潜在传播集PSS,即使多个传播节点I连接到同一个健康节点S上,那这个健康节点也只会被标记一次,这样就避免了重复计算的问题。通过引入潜在传播集PSS这一概念,建立了新的SIPR方程组,解决了传统方程中I(t)在t时刻的增量部分ΔI+存在的问题。本方法运用在不同规模的人工网络与现实网络中,由SIPR方程组生成的S、I、R三类曲线与仿真模拟情况中三类曲线吻合度很高,均表现出了良好的效果。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。