本发明涉及虚假新闻检测领域,具体为一种基于情感-风格去偏的多领域虚假新闻检测方法。
背景技术:
1、近年来,随着社交媒体的快速发展,民众获取新闻的途径也从纸质媒体转移到社交媒体,与此同时,虚假新闻夹杂在社交媒体中广泛传播,这种传播严重地威胁到社会经济地良性发展。因此,虚假新闻的自动检测对于维持在线新闻生态系统的稳定至关重要。
2、基于机器学习以及深度学习的方法从新闻文本中提取特征并利用分类模型对虚假新闻进行检测。然而,现实场景下虚假新闻涵盖多个领域,训练和测试数据分布具有差异性,如果不区分领域差异会导致模型泛化能力低。因此,研究者尝试构建多领域虚假新闻检测数据集,通过建模领域差异或者利用对抗训练混淆不同领域,尝试解决在不同领域中检测虚假新闻的问题。但是仅从新闻文本提取内容特征检测导致模型预测效果不佳。考虑到新闻存在显著的领域差异,如词汇、情绪、风格等。各个领域的写作风格、词汇用法、情绪的分布会有很大的不同。有研究者结合情感以及风格特征,基于多视角提取文本特征,并利用领域适配器建模不同特征之间的差异。但这种方法存在着无意中捕获甚至放大情感以及风格偏差的风险。因此,有必要提出设计良好的多领域模型来缓解领域差异带来的影响。情感特征和风格特征在不同领域之间和标签之间的相关性是不同的。因此,如果一个模型倾向于根据有偏差的统计信息不公平地预测包含这些辅助特征的新闻到特定的真实性标签,那么在应用于其他领域的数据时,模型泛化能力会变差。
3、综上所述,虚假新闻检测是一个重要的研究方向,可以通过基于内容、基于社交上下文、多领域和基于情感等多种方法来进行。这些方法可以分别或结合使用来提高虚假新闻检测的准确性和泛化性能。未来,虚假新闻检测的研究将继续发展,同时也需要不断地探索新的技术和方法,以应对新的虚假新闻的挑战。
技术实现思路
1、本发明的目的是针对现有技术的缺陷,提供一种基于情感-风格去偏的多领域虚假新闻检测方法,以解决上述背景技术提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种基于情感-风格去偏的多领域虚假新闻检测方法,按如下步骤完成判断该新闻是否为虚假新闻:
3、s1:接收新闻内容输入,将输入新闻内容经过bert模型处理,获得词嵌入向量;
4、s2:将词嵌入向量通过双向lstm处理,提取新闻的顺序特征;
5、s3:使用语义网络和领域网络分别处理新闻内容,得到新闻的语义特征和领域特定特征;
6、s4:通过混合专家系统处理低级语义特征,情感特征以及风格特征,获得进一步的语义特征rsem,风格特征rstl以及情感特征remo;
7、s5:将语义特征、情感特征和风格特征输入跨视角融合模块实现自适应跨视图表示;
8、s6:根据跨视角表示,通过检测模型判断新闻的真假性;
9、s7:对情感特征remo进行平均融合得到femo,并且得到情感对于新闻的预测值;对风格特征rstl进行平均融合得到fstl,并且得到风格对于新闻的预测值;
10、s8:利用对抗训练去除情感特征和风格特征与新闻之间的虚假相关性,获得无偏的虚假新闻检测模型;
11、作为本发明的一种优选技术方案:所述虚假新闻检测问题的建模包含以下步骤:
12、k1:将新闻p的文本内容使用bert预训练模型编码为长度为t的标记序列;
13、k2:从新闻p中提取情感特征e和风格特征s,其中情感特征e和风格特征s都是数值特征;
14、k3:将新闻p的域标签g作为输入,结合情感特征e和风格特征s,使用多任务学习的方法,训练一个多领域虚假新闻检测模型;
15、k4:对于新闻p,输入其文本标记序列、情感特征e和风格特征s,结合其域标签g,使用训练好的多领域虚假新闻检测模型,输出其真假标签y;
16、k5:对于多个域标签,重复步骤k3和k4,得到每个域下的真假标签y,最终将多个域下的真假标签y结合起来,得到新闻p的最终真假标签;
17、k6:对于新闻p的每个域标签,使用一组混指标准确率、召回率、f1分数等,评估该域下的虚假新闻检测性能。
18、作为本发明的一种优选技术方案:所述多视角协同的具体提取流程包含如下步骤:
19、(a):设置超参数t,表示专家网络中的专家个数;
20、(b):构建混合专家网络,包括语义网络、情感网络、风格网络和领域网络;
21、(c):将输入新闻文本转换为词向量w;
22、(d):对于每个专家网络执行以下操作:
23、(d1):确定各个专家网络模型结构以及其中的可学习参数θi;
24、(d2):利用词向量w和可学习参数θi,计算专家网络的输出表示ri;
25、(e):根据各个专家网络的输出表示ri,获得输入新闻文本的多视角特征表示;
26、其中,每个专家网络都有自己擅长的领域,善于提取某一领域的特征。
27、作为本发明的一种优选技术方案:所述s5中跨视角融合的具体流程步骤为:
28、s51:接收多个视图的输入数据,其中每个视图表示一个特定的数据特征,包括但不限于语义、情感和风格;
29、s52:为每个视图计算对应的权重系数,其中wsem,wemo和wstl分别表示语义、情感和风格视图的权重系数;
30、s53:计算跨视图交互表示z,通过将不同视图的权重系数与对应的视图表示相乘并求和得到,其中计算公式为:
31、
32、其中ksem,kemo,kstl分别代表语义网络,情感网络以及风格网络中的专家个数,语义特征为情感特征为风格特征为
33、s54:设置多头跨视角融合,每个头自适应地学习一种跨视图表示,生成一组跨视图表示集合其中h代表跨视图表示的数量;
34、s55:根据生成的跨视图表示集合对输入数据进行分类或回归任务处理并输出结果。
35、作为本发明的一种优选技术方案:所述s6中检测器模块的具体特征为:
36、s61:采用不同的专家网络获取新闻文章的跨视图表示;
37、s62:将领域标签输入领域门,以建模领域差异,得到权重分数,权重函数表示为softmax(mlp(g));
38、s63:根据计算得到的权重分数聚合跨视图表示,公式为:w=softmax(mlp(g));
39、s64:将聚合后的跨视图表示输入一个具有softmax输出层的多层感知分类器,进行虚假新闻的二分类。
40、作为本发明的一种优选技术方案:所述s7中去偏模块的具体工作流程为:
41、s71:通过平均融合将混合专家获得的一组情感特征进行融合得到融合特征femo;
42、s72:利用多层感知机(mlp)作为情感的去偏预测器来估计依赖性ye=mlpe(femo)。
43、s73:通过平均融合将混合专家获得的一组风格特征进行融合得到融合特征fstl。;
44、s74:使用另一个mlp作为风格特征的去偏预测器来获得风格依赖性ys=mlps(fstl)。
45、作为本发明的一种优选技术方案:所述s8中对抗训练的具体工作流程为:
46、s81:使用梯度反转层减轻情感以及风格内容与真假新闻标签之间的虚假相关性。
47、s82:利用交叉熵函数计算虚假新闻检测损失lo,le,ls,并利用三类损失构建总体损失l。
48、s83:利用总体损失l,对模型参数进行更新。
49、本发明所述一种基于情感-风格去偏的多领域虚假新闻检测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
50、本发明的有益效果是:本发明提出的一种基于情感-风格的多领域虚假新闻检测方法,可以更好地利用领域信息,同时去除情感以及风格带来的偏差,实现在多领域场景下的虚假新闻检测。通过专家网络对多视角特征进行提取,引入领域门户网络学习领域与视角之间的关系,并利用多视角融合和bilstm模块有效地捕捉新闻的多视角特征表示。通过两个去偏模块去除情感与风格的偏差,经过与多种虚假新闻检测方法的比较,试验证明了该方法的有效性和优良性。本发明的效果是提高了虚假新闻检测的准确率和可靠率,可以在新闻媒体、社交网络等场景下进行多领域虚假新闻检测,减少虚假新闻对公众和社会的影响影响,保护信息安全和社会稳定。