基于图像复原技术和谣言辟谣信息的话题传播预测方法

文档序号:28530936发布日期:2022-01-19 12:49阅读:90来源:国知局
基于图像复原技术和谣言辟谣信息的话题传播预测方法

1.本发明属于网络舆情分析领域,涉及用户转发分析,尤其是有向社交网络中的谣言和辟谣信息共同传播的分析,具体涉及基于图像复原技术和谣言辟谣信息的话题传播预测方法。


背景技术:

2.谣言作为一种古老的传播媒介,在人类历史上经历了漫长而又复杂的演变过程。从传统社会中的口口相传到新媒体时代的病毒式蔓延,技术的发展与变迁令谣言呈现出越发顽强的生命力。尤其是在网络空间逐渐渗透现实生活的背景下,以微博、微信等为代表的社会化媒体降低了信息准入门槛,成为社会信息交换的重要渠道,随着这些传播媒介的更迭与信息的实时流通不仅没有消灭谣言的土壤,反而日益扩大了其影响范围。
3.近年来,国内外的学者在社交网络谣言传播领域进行了深入的研究。一方面以社会网络分析和数学建模为基础,考虑网络拓扑结构对话题传播规律的影响,另一方面使用机器学习和深度学习等方法在传播特征方面进行展开,一部分学者从用户个体层面出发,基于用户历史传播记录和用户的基本特征解决用户行为预测问题;另一部分学者基于消息传播和转发的特点对用户行为进行预测。
4.虽然众多学者对话题传播预测模型进行了大量的研究,并取得了相当不错的成果,但仍存在一些挑战:
5.1.话题网络像素化:话题网络属于非欧几何数据,具有大规模和稀疏性,这种特点使传统网络表示方法不仅计算效率低下且无法有效表现出用户之间的关系。
6.2.话题图像数据补偿:虽然在话题网络中已有海量数据,但由于谣言话题在传播过程中部分用户通过学习识别并删除已经传播的谣言,导致得到的话题图像中有效样本稀少并难以挖掘。
7.3.话题图像数据恢复:考虑到谣言和辟谣消息在话题传播空间中的时效性和对抗性,如何量化谣言和辟谣消息在不同时刻的影响,给“谣言话题图像”中数据的恢复带来了一定难度。


技术实现要素:

8.针对以上挑战,本发明提出了基于图像复原技术和谣言辟谣信息的话题传播预测方法,该方法包括以下步骤:
9.s1、从现有的基于web的研究型推荐系统下载或者利用成熟的社交平台的公共api获取数据源;
10.s2、根据获取到的数据源,提取出参与用户的相关属性,包括提取出用户的内部属性特征和外部属性特征;
11.s3、综合参与用户的内部属性特征和外部属性特征,使用rumor2pixel算法,将用户传播空间映射到像素空间,生成话题图像;
12.s4、通过无监督的对抗生成网络对生成的话题图像进行数据补偿;
13.s5、根据演化博弈理论,构建一种基于卷积神经网络的谣言-辟谣话题传播预测模型,将进行数据补偿的历史数据输入模型进行训练,通过训练完成后的模型实时预测用户是否会参与该话题的讨论。
14.进一步的,获取的数据源信息包括话题被转发、评论的时间;参与用户的基本信息、参与用户的关注信息和被关注信息;用户历史所转发和评论的信息。
15.进一步的,用户的内部属性特征包括用户个人属性和用户历史活跃度,其分别表示为:
16.用户个人属性userattr(ui):
17.userattr(ui)=[gender(ui),fansnum(ui),frinum(ui)]
[0018]
用户历史活跃度useract(ui):
[0019]
useract(ui)=α*originalnum(ui)+(1-α)*retweetnum(ui)
[0020]
其中,gender(ui)代表用户的性别,fansnum(ui)代表用户的粉丝数量,frinum(ui)代表用户的好友数量;originalnum(ui)表示用户原创微博数量,retweetnum(ui)为用户转发微博数量。α∈[0,1]为调节因子,用来调整originalnum(ui)与retweetnum(ui)之间的权重;
[0021]
用户的外部特征属性包括用户与好友关联度、话题热度和用户消息感知度,其分别表示为:
[0022]
用户与好友关联度friinflu(ui):
[0023][0024]
话题热度topicpop(t):
[0025][0026]
用户消息感知度topicsens(ui):
[0027][0028]
其中,uj表示参与转发用户ui发布微博的用户,forwardednum(uj)表示用户uj转发用户ui微博的数量,n为用户ui的好友数量;retweetnum(t-1)指用户ui在t-1时刻转发该话题的数量,指该话题自产生到t-1时刻转发的总数量,k为超参数,t0为统计数据的初始时刻;表示话题向量,表示用户历史微博信息向量。
[0029]
进一步的,使用rumor2pixel算法,将用户传播空间映射到像素空间,生成话题图像,包括以下步骤:
[0030]
s31、采用sdne算法获取用户节点的邻接表示,通过t-sne非线性降维方法在保持用户节点相对关系的情况下,将用户节点向量降至二维空间,并对用户节点进行矢量化表
达;
[0031]
s32、在保持用户节点之间相对位置的前提下,采用包括切割、扩散的方式得到话题图像像素化矩阵;
[0032]
s33、根据得到的话题图像像素矩阵,将用户的历史行为数据填充到对应的像素点,得到话题图像rec
t

[0033]
进一步的,根据sdne算法获取用户节点的邻接表示,通过1阶相似度和2阶相似度得到用户的网络结构,并采用损失函数进行优化,得到最优的用户邻接矩阵,1阶损失函数、2阶损失函数以及最终优化目标分别表示为:
[0034]
2阶损失函数:
[0035]
1阶损失函数:
[0036]
整体优化目标:l
mix
=l
1st
+αl
2nd
+vl
reg
[0037]
其中,l
reg
是正则化项,α为控制2阶损失的参数,v为控制正则化项的参数,为重构后的邻接矩阵,xi是节点i的邻接矩阵,是节点降维后的向量。
[0038]
进一步的,基于最大似然估计,通过无监督的对抗生成网络对生成的话题图像进行数据补偿,对话题图像进行数据补偿表示为:
[0039]
目标函数:
[0040]
其中,p
data
(x)表示真实图片集的分布,x为话题图像真实图片,pg(x;θ)表示对抗生成网络生成的分布,g是生成器,d是一个话题特征序列判别模型。
[0041]
进一步的,根据演化博弈理论,定义博弈策略包括:
[0042]
依据博弈理论定义转发谣言信息和转发辟谣信息两种博弈策略,且两种策略的收益函数分别是:
[0043]
pro
rumor
(ui)=p1×
inf
rumor
(ui)
[0044]
pro
anti_rumor
(ui)=p1×
inf
anti_rumor
(ui)
[0045]
利用演化博弈理论构建谣言-辟谣互影响力模型,量化谣言互影响力,即经过相互影响之后的谣言和辟谣信息影响力:
[0046][0047][0048]
其中,用p1、p2分别表示好友中转发谣言和转发辟谣信息的比例,p1+p2=1,;inf
rumor
(ui)、inf
anti_rumor
(ui)分别为谣言信息和辟谣信息的影响力函数,mut
rumor
(ui)、mut
anti_rumor
(ui)分别表示经过相互影响之后的谣言和辟谣信息对用户ui传播行为的影响力。
[0049]
进一步的,一种基于图像复原技术和谣言-辟谣信息的话题传播预测模型包括卷积神经网络预测模型和逻辑回归预测模型:
[0050]
使用卷积神经网络预测模型预测下一时刻用户是否参与话题,即输入当前t时刻
的前n个时刻话题图像输出下一时刻即t+1时刻用户是否参与话题的结果p
t+1
;采用cnn_model表示卷积神经网络,即
[0051]
对于通过卷积神经网络预测模型预测得到的下一时刻用户是否参与话题结果,逻辑回归预测模型将谣言互影响力和预测结果融合,再次判断用户是否参与该话题,表示为:
[0052][0053]
其中,logistic()为逻辑回归公式,mut(ui)表示谣言或辟谣信息对用户ui传播行为的影响力,表示卷积神经网络预测模型预测的用户ui在t+1时刻是否参与话题的预测结果,θ0、θ1为超参数,b是用户行为的预测值,(b|ui)表示在卷积神经网络预测模型预测的用户转发结果上融合谣言互影响力。
[0054]
本发明的有益效果:
[0055]
1.本发明考虑到话题网络像素化问题,提出rumor2pixel算法,首先,利用sdne算法获取网络节点结构,保持节点局部和全局的特征,通过节点采样解码等方法将用户节点进行矢量化表达;其次,在保持用户节点之间相对位置的前提下,通过切割、扩散等方式得到话题图像像素化矩阵;最后,将用户的历史行为数据填充到对应的像素点,得到话题图像。提升了计算效率的同时有效表现出用户之间的关系。
[0056]
2.对抗生成网络gan在图像数据补偿方面具有很强的优势,因此本发明针对谣言话题图像中数据稀疏的问题引入对抗生成网络深入挖掘谣言与辟谣消息在话题传播过程中的潜在关系,对生成的话题图像进行数据补偿,得到高质量的话题图像数据。
[0057]
3.本发明考虑了谣言与辟谣信息的对抗性,提出基于演化博弈理论的谣言-辟谣互影响力模型mut,量化经过相互影响之后的谣言和辟谣信息影响力,有效降低了话题图像数据恢复的难度。
[0058]
4.本发明通过模型预测用户最终是否会参与该谣言-辟谣话题的讨论,可应用于社交网络中谣言的传播和扩散,相关部门可以更准确地掌握网络谣言事件的发酵和传播,并加以引导和管控。也可以应用于企业产品和服务的推广,有助于掌握群体行为特性分布,分析潜在客户群体,因此获得良好的经济、社会效益。
附图说明
[0059]
图1为本发明提出的基于图像复原技术和谣言辟谣信息的话题传播预测模型;
[0060]
图2为本发明的用户转发预测示例;
[0061]
图3为本发明的算法rumor2pixel流程示例;
[0062]
图4为本发明的话题图像补偿示例。
具体实施方式
[0063]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0064]
在一个实施例中,基于图像复原技术和谣言辟谣信息的话题传播预测方法,该方法至少包括以下步骤:
[0065]
第一步:获取参与话题讨论的用户数据源信息。
[0066]
第二步:提取用户的相关属性。
[0067]
第三步:建立基于图像复原技术和谣言-辟谣信息的话题传播预测模型,预测用户最终是否会参与该话题的讨论。
[0068]
在另一个优选实施例中,基于图像复原技术和谣言-辟谣信息的话题传播预测方法,如图1-2所示,该方法包括以下步骤:
[0069]
s1、从现有的基于web的研究型推荐系统下载或者利用成熟的社交平台的公共api获取数据源;
[0070]
s2、根据获取到的数据源,提取出参与用户的相关属性,包括提取出用户的内部属性特征和外部属性特征;
[0071]
s3、综合参与用户的内部属性特征和外部属性特征,使用rumor2pixel算法,将用户传播空间映射到像素空间,生成话题图像;
[0072]
s4、通过无监督的对抗生成网络对生成的话题图像进行数据补偿;
[0073]
s5、根据演化博弈理论,定义博弈策略,结合进行数据补偿后的话题图像和谣言-辟谣互影响力因素,构建一种基于卷积神经网络的谣言-辟谣话题传播预测模型,从而预测用户最终是否会参与该话题的讨论。
[0074]
上述步骤s1获取数据源,还可主要分以下2个步骤:
[0075]
s11:获取原始数据。通过社交网络公共api或直接下载现有数据源都可以得到原始数据。
[0076]
s12:简单的数据清洗。通常获取的原始数据都是非结构化的,不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化。例如,删除重复数据、清理无效节点等。
[0077]
获取的数据源信息包括话题被转发、评论的时间;参与用户的基本信息、参与用户的关注信息和被关注信息;用户历史所转发和评论的信息。
[0078]
在另一个实施例中,用户的相关属性包括分别从用户、好友、信息三方面来提取相关属性。
[0079]
具体地,所述相关属性包括以下内容:
[0080]
在社交网络中,用户对谣言和辟谣信息的传播行为受多方面因素影响,比如:用户的个人兴趣、好友的传播行为及谣言和辟谣信息在传播过程中的相互影响等等。基于此,本发明从用户的内部属性特征和外部属性特征出发,定义影响用户传播行为的因素,具体如下:
[0081]
用户的内部属性特征包括:
[0082]
用户个人属性userattr(ui):
[0083]
userattr(ui)=[gender(ui),fansnum(ui),frinum(ui)]
[0084]
用户个人属性分为基础属性和社交属性。基础属性包括:用户性别、用户昵称和用户所在城市等,社交属性包括:用户粉丝数、用户好友数等。在基础属性中用户性别对话题
是否感兴趣有一定的影响。在社交属性中用户的粉丝数和用户好友数代表对用户的支持度,支持度越高则用户的影响力就越大。
[0085]
其中,gender(ui)代表用户的性别,fansnum(ui)代表用户的粉丝数量,frinum(ui)代表用户的好友数量;
[0086]
用户历史活跃度useract(ui):
[0087]
useract(ui)=α*originalnum(ui)+(1-α)*retweetnum(ui)
[0088]
用户的历史活跃度与参与谣言话题的可能性呈正相关,在一定程度上体现用户在社交平台的活动状态。
[0089]
其中,originalnum(ui)表示用户原创微博数量,retweetnum(ui)为用户转发微博数量;α∈[0,1]为调节因子,用来调整originalnum(ui)与retweetnum(ui)之间的权重;
[0090]
用户的外部特征属性包括:
[0091]
用户与好友关联度friinflu(ui):
[0092][0093]
其中,uj表示参与用户ui发布微博的用户,forwardednum(uj)表示用户uj转发用户ui微博的数量,n为用户ui的好友数量;
[0094]
关联度指该用户的行为对其好友行为的影响程度,对好友的影响力越高,联系越紧密则转发该条消息的概率就越大,则其好友转发谣言话题的可能性就越大。
[0095]
话题热度topicpop(t):
[0096]
话题热度指当前话题所处的状态。由于话题的强时效性,已经发布的话题的热度会随着时间先迅速呈指数式增加而后逐渐衰减,直至趋近于零热度。这种随着时间衰减的过程与牛顿冷却定律很类似,因此引入牛顿冷却定律。
[0097][0098]
其中,retweetnum(t-1)指在t-1时刻该话题的转发量,指在该话题自产生时刻到t-1时刻转发的总数量,k为超参数;
[0099]
用户消息感知度topicsens(ui):
[0100]
依据用户的兴趣短时间内不会改变,用户是否会转发该条微博受其兴趣所驱动的特点,将用户历史微博内容视为该用户的伪文档,通过将话题进行向量表示计算文本相似度.具体计算公式如下:
[0101][0102]
其中,表示话题向量,表示用户历史微博信息向量。
[0103]
在一个实施例中,综合参与用户的内部属性特征和外部属性特征,使用
rumor2pixel算法,将用户传播空间映射到像素空间,生成话题图像,如图3所示,包括:
[0104]
s31、采用sdne算法获取用户的邻接表示,通过t-sne非线性降维方法在保持用户节点相对关系的情况下,将用户节点向量降至二维空间,并对用户节点进行矢量化表达;
[0105]
s32、在保持用户节点之间相对位置的前提下,采用包括切割、扩散的方式得到话题图像像素化矩阵;
[0106]
s33、根据得到的话题图像像素矩阵,将用户的历史行为数据填充到对应的像素点,得到话题图像rect。
[0107]
在步骤s31中,由于传统的网络表示学习不能捕捉高度非线性的网络结构特征,本文使用sdne算法获取网络节点结构,保持节点局部和全局的特征。该方法使用一个自动编码器结构来同时优化1阶相似度和2阶相似度,学习得到的向量表示能够保留局部和全局结构,并且对稀疏网络具有鲁棒性。
[0108]
2阶相似度用于捕捉网络全局结构,基于两个节点共享的邻域连接来捕捉节点的相似性,2阶优化目标可以定义为:
[0109][0110]
输入的是图的邻接矩阵,对于第i个顶点,有xi=si,每一个si都包含了顶点i的邻居结构信息,这样的重构过程能够使得结构相似的顶点具有相似的embedding表示向量。但由于图的稀疏性,邻接矩阵s中的非零元素是远远少于零元素的,因此使用带权损失函数,对于非零元素具有更高的惩罚系数。修正后的损失函数为:
[0111][0112]
其中

为逐元素积,如果s
i,j
=0,那么b
i,j
=1,否则b
i,j
=β>1。
[0113]
1阶相似度捕捉局部网络,基于节点间的边连接,损失函数定义如下:
[0114][0115]
则整体的优化目标为:
[0116]
l
mix
=l
1st
+αl
2nd
+vl
reg
[0117]
其中,l
reg
是正则化项,α为控制2阶损失的参数,v为控制正则化项的参数,为重构后的邻接矩阵,xi是节点i的邻接矩阵,是节点降维后的向量。利用损失函数来优化1阶相似度和2阶相似度,优化过程中使损失函数越来越小,到最后得到一个最优的用户邻接矩阵。
[0118]
上述步骤s32,在保持用户节点之间相对位置的前提下,采用包括切割、扩散的方式得到话题图像像素化矩阵包括:
[0119]
用户节点在二维空间处于连续分布,本发明通过以下两步方法在尽可能保留节点与节点之间相对位置的前提下将用户二维分布转化为用户像素阵列,即话题图像像素化矩阵。首先,用一定距离纵横切割二维空间,切割形成网格空间,每个网格中会包含零个或多
个用户节点;然后,对于存在多个用户节点的网格,只保留其中一个节点,将其它节点扩散到周围网格中。
[0120]
以中心点为例,可选择扩散的区域有:左上,左,右上,右,右下,下,左下,左。扩散时应遵循的原则:
[0121]
一、优先扩散到没有节点的网格中;
[0122]
二、扩散时要从内向外扩散,而不是从外到内;
[0123]
三、若相邻的网格中都有节点存在,此时应该按照参照点的相对位置向外层进行逐层扩散。
[0124]
当扩散完成后,网格中的每一个节点代表谣言传播话题下的一个用户,我们将这些节点看作是一个像素点,为空的网格看作是打了马赛克的像素点,此时我们得到话题图像像素化矩阵。
[0125]
在一个实施例中,通过无监督的对抗生成网络对生成的话题图像进行数据补偿,如图4所示,包括:
[0126]
对抗生成网络gan在图像数据补偿方面具有很强的优势,因此本文针对谣言话题图像中数据稀疏的问题引入对抗生成网络深入挖掘谣言与辟谣消息在话题传播过程中的潜在关系,并生成高质量的话题图像数据,如图4所示。
[0127]
本发明中真实图片集的分布可表示为p
data
(x),x为话题图像真实图片,对抗生成网络gan包括包括话题样本生成器g和话题特征序列判别器d,g生成的分布假设为pg(x;θ),这是一个由θ控制的分布,θ是这个分布的参数(如果是高斯混合模型,那么θ就是每个高斯分布的平均值和方差),我们想让g生成真实图片的概率最大,于是就变成了求最大似然估计的问题:
[0128][0129]
z表示对话题图像rect特征序列随机采样后的数据,话题样本生成器g将随机采样数据z生成为话题特征数据。对任意的输入特征序列x,d会输出一个0-1之间的实数,这个实数表示该组特征序列来自真实采集样本数据的概率。p
data
和pg分别表示真实话题图像数据与生成话题数据的分布,则整个模型的需要优化的目标函数为:
[0130][0131]
在社交网络中,用户对信息的传播行为受到多方面因素影响,我们将这些因素分为用户内部和外部因素,并构造信息影响力函数inf(ui)。首先,我们从用户个人属性、用户活跃度和用户历史转发率三个方面构建内部影响因素f
in
(ui),从好友带动力、信息与用户关联度和信息传播影响力三个方面构建外部影响因素f
out
(ui),如下:
[0132]fin
(ui)=[att(ui)0,att(ui)1,att(ui)2,useract(ui)]
[0133]fout
(ui)=[friinflu(ui),topicpop(ui),topicsens(ui)]
[0134]
然后,综合用户内部和外部因素,使用多元线性回归算法,构造谣言和辟谣信息的影响力函数,如下:
[0135]
[0136][0137]
ρ0、ρ1、ρ2是使用多元线性回归算法训练得到的偏回归系数,ρ1、ρ2反应后各因素在信息影响力中所占的比重,分别表示谣言和辟谣信息对用户ui的外部影响因素。
[0138]
在社交网络中,用户可能会同时接收到谣言和辟谣信息,辟谣消息指陈述事实真相、驳斥谣言的消息。由于谣言与辟谣信息的对抗性,用户在传播一条信息时需要考虑到另一条信息的影响。因此本发明基于演化博弈理论提出谣言-辟谣互影响力模型mut,量化经过相互影响之后的谣言和辟谣信息影响力,即为谣言互影响力。
[0139]
首先,依据博弈理论定义两种博弈策略:“转发谣言信息”和“转发辟谣信息”。用p1、p2分别表示好友中转发谣言和转发辟谣信息的比例,在好友中两种策略都不参与的节点不对其他用户的策略选择产生影响,因此本发明不对其考虑,所以p1+p2=1。两种策略的收益函数为:
[0140]
pro
rumor
(ui)=p1×
inf
rumor
(ui)
[0141]
pro
anti_rumor
(ui)=p1×
inf
anti_rumor
(ui)
[0142]
然后,利用演化博弈理论度量谣言互影响力:
[0143][0144][0145]
其中,mut
rumor
(ui)、mut
anti_rumor
(ui)分别表示经过相互影响之后的谣言和辟谣信息对用户ui传播行为的影响力。
[0146]
结合话题图像和谣言互影响力因素提出一种基于图像复原技术和谣言-辟谣信息的话题传播群体行为预测模型。本发明将传播预测任务定义为一个二分类问题,即给定一条信息和用户ui,预测其在t+1时刻传播或不传播该信息。具体的模型由卷积神经网络预测模型和逻辑回归预测模型两部分组成:
[0147]
卷积神经网络预测模型:考虑到谣言传播的动态时限性,而单个用户转发图像不能体现时间特征,因此本发明将历史n个时刻的用户转发图像,即话题图像叠加成三维用户转发图像,即增加第三维度:时间维度。针对三维用户转发图像包含用户转发、用户关系和时间信息的时空特性,我们利用卷积神经网络较强的局部时空特征学习能力,达到对用户群体行为预测的目的。
[0148]
使用卷积神经网络预测模型预测下一时刻用户是否参与话题,即输入当前t时刻的前n个时刻话题图像输出下一时刻即t+1时刻用户是否参与话题的结果p
t+1
;采用cnn_model表示卷积神经网络,即
[0149]
逻辑回归预测模型:考虑到谣言和辟谣信息在传播过程中的相互影响,利用逻辑回归算法,将谣言互影响力与卷积神经网络预测模型预测的用户转发结果相融合,实现对用户群体行为更准确的预测。其逻辑回归函数形式为:
[0150][0151]
其中,mut(ui)表示谣言或辟谣信息对用户ui传播行为的影响力,表示卷积神经网络预测模型预测的用户ui的传播行为,θ0、θ1为超参数,b是用户行为的预测值,(b|ui)表示在卷积神经网络预测模型预测的用户转发结果上融合谣言互影响力。
[0152]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1