一种结合知识图谱与注意力机制的虚假新闻识别方法

文档序号:41145592发布日期:2025-03-04 17:23阅读:1来源:国知局
一种结合知识图谱与注意力机制的虚假新闻识别方法

本发明属于自然语言处理技术和自动文本真实性验证领域,具体涉及一种结合知识图谱与注意力机制的虚假新闻识别方法。


背景技术:

1、自动虚假新闻识别是自然语言处理研究中的一个重要分支,对于维护信息真实性、保障社会舆论健康具有重大意义和广泛的应用前景。传统的虚假新闻检测方法主要依赖于文本内容的语义特征和上下文信息,但由于忽略了新闻实体间深层的知识层级关系,使得这类方法在面对复杂和模糊的实体引用时,识别精度受限。此外,现有的深度学习模型虽然在文本理解上有显著的进步,但在处理新闻内容时并未充分调动外部知识库的支持,尤其是知识图谱中蕴含的实体关系和背景知识。

2、随着深度学习技术的普及,自然语言处理领域也渐渐开始把其应用到虚假新闻检测中。刚开始,学术界普遍使用transformer大模型进行文章文本内容的文本特征提取,从而进行虚假新闻的检测;而后又使用了变分自动编码器vae(variational auto encoder)自编码文本信息的方式得到新闻文本的嵌入表示,并且将得到的新闻向量进行多任务学习,提升了检测模型的效果。而后又基于内容风格,发现虚假新闻发布者通常具有恶意意图,以传播扭曲和误导性的信息并影响群众,因此需要特定的写作风格来吸引和说服广泛的群众,而这在真实新闻中是看不到的,因此要让机器学习辨别虚假新闻的写作风格,通过对抗学习以此增强识别能力。接着,也有研究利用用户的发文历史来识别用户的可信度,同时检测用户的互动指数,利用二者进行综合判别共同进行虚假新闻检测。2018年,香港中文大学马晶博士基于新闻传播行为将谣言的传播过程建模为树形结构,该工作构建了一个自底向上传播树,又构建了一个自顶向下传播树,并使用递归神经网络对树中的节点进行建模,对虚假新闻进行分类。后来,有学者提出了一种简洁而有效的多领域虚假新闻检测模型,通过利用社交媒体上的用户投票和评论等信息,作为集体智慧的参考,提高虚假新闻检测的效果,以此采用用户集体知识的反馈来构建的一套相应的知识库。

3、尽管如此,现有的许多技术仍然存在一定的局限性,它们通常独立处理文本片段,忽视了词汇在上下文中的含义变化,以及两个文本片段之间可能存在的复杂语义关联,也依然未能充分利用知识图谱中的实体知识以及实体间的关系网络来指导虚假新闻的识别过程。


技术实现思路

1、为解决以上现有技术存在的问题,本发明提出一种结合知识图谱与注意力机制的虚假新闻识别方法,其特征在于,包括如下步骤:实时获取新闻数据,对新闻数据进行预处理;将预处理后的数据输入到训练好的虚假新闻检测模型中,得到新闻为假的概率,根据概率输出新闻真假的判断结果;所述假新闻检测模型包括知识图谱实体对比模块、以及多头注意力机制模块;

2、训练虚假新闻检测模型的过程包括:

3、s1:获取原始新闻数据集,将原始新闻数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;

4、s2:将预处理后的数据分别提取句子、主题、实体,并输入到transformer编码器中,生成新闻内容中每个句子、主题、实体的嵌入表示数据;

5、s3:设计句子-主题注意力和句子-实体注意力机制,分别计算新闻句子与主题以及实体的语义相似度,从而生成新闻的句子-主题嵌入向量和句子-实体嵌入向量;

6、s4:从知识图谱中提取实体及其实体上下文信息,并使用门控机制得到基于知识图谱的实体嵌入数据;

7、s5:将s4得到的基于知识图谱的实体嵌入数据和s3得到的嵌入数据进行加权聚合。

8、s6:采用relu非线性激活函数计算聚合后特征的假新闻概率得分;设置迭代次数的初始值;

9、s7:采用交叉熵损失函数训练模型;

10、s8:采用adam算法优化模型,即在训练过程中调整transformer编码器和注意力机制模块中的参数;

11、s9:判断迭代次数是否达到最大迭代次数,如果达到,则完成假新闻检测模型的训练,否则返回步骤s7,迭代次数加1。

12、这种基于知识图谱和注意力机制的虚假新闻检测方法,对数据进行处理的过程包括:

13、将文本中的实体进行提取,获得实体序列:

14、e={e1,e2,··,em}

15、其中,e表示实体的集合,ei表示分割出的实体,m是实体的数量。

16、使用lda从所有句子中挖掘出潜在主题:

17、t={t1,t2,··,tk}

18、其中,t表示主题的集合,ti表示提取出的主题,k是主题的数量。

19、并将新闻划分为句子集合:

20、s={s1,s2,··,sn}

21、其中,s表示句子的集合,si表示划分的句子,n是句子的数量。

22、进一步的,将提取的句子、主题、实体进行文本编码:

23、句子内容表示p的计算过程如下:

24、步骤1:从上述给定的句子集合s={s1,s2,··,sn}中,将每个句子si从句子嵌入矩阵m∈rv*d投影到一个固定长度的句子嵌入s′i中,其中v是句子的长度,d是嵌入维度。然后,得到句子向量集合s′={s′1,s′2,··,s′n},其中s′∈rn*d。

25、步骤2:使用位置编码并结合句嵌入:

26、ut=w′t+post

27、其中,post是句子中第t个句子的位置编码,本发明将u=u0,··,un∈rn*d表示为transformer编码器底部的输入编码。

28、步骤3:使用单层transformer编码器来处理输入编码u:

29、

30、其中,multiheadattention(u)表示多头注意力机制,输入u首先由多头自注意力机制的子层转换得到表示层归一化,结果输出a;feedforwardnetwork(a)表示将输出a被发送到逐点前馈神经网络层,得到表示层归一化,即将前馈网络的输出与经过多头自注意力机制和归一化处理后的向量a相加;最终构造出句子表示p。

31、主题表示q′的计算过程与上述步骤1、步骤2和步骤3类似,只需将输入换成主题集合t={t1,t2,··,tk}。

32、实体表示r′的计算过程与上述步骤1、步骤2和步骤3类似,只需将输入换成实体集合e={e1,e2,··,em}。

33、进一步的,将提取的句子表示p、主题表示q′、实体r′表示进行多层注意力感知:

34、本发明设计的基于多头注意力的注意力网络,允许模型考虑不同位置的不同表示子空间的信息。计算注意力的公式如下:

35、

36、multihead(q,k,v)=concat(attn1,……,attnh)

37、其中q、k、v分别为查询矩阵、键矩阵和值矩阵,dk是查询和键矩阵的维度,其中,concat(attn1,……,attnh)表示将各个自注意力矩阵进行拼接,h是注意力头的数量。

38、本发明将新闻内容嵌入表示的一部分设计为句子-主题注意力,以衡量每个主题对句子内容的重要性。在句子-主题注意力机制中,通过句子表示p以及来自主题编码q′的键和值,得出相应的查询结果。通过计算句子与其对应的主题之间的语义相似性,每个实体分配一个权重αi来表示其重要性:

39、q=wqp

40、k=wkq′

41、v=wvq′

42、

43、其中q为主题表示,wq、wk和wv是参数矩阵,α表示注意力分布。

44、此外,为了考虑实体的相对重要性,本发明提出了句子-实体注意力的机制,以根据句子及其实体之间的关系来衡量每个实体的重要性。在句子-实体注意力机制中,查询来自句子表示p,键来自主题编码q′,值来自实体编码r′。通过计算句子与其对应的实体之间的语义相似性,根据对应实体的重要性为每个实体上下文分配权重βi:

45、q=wqp

46、k=wkq′

47、v=wvr′

48、

49、综上,得到了句子内容表示p、句子-主题表示q、句子-实体表示r。

50、进一步的,使用知识图谱嵌入方法来获得结构化实体嵌入.

51、本发明采用transe从知识图谱的三元组中学习实体表示es∈rm,并采用lstm对文本中已提取的实体序列e={e1,e2,··,em}的词向量进行编码,得到文本嵌入ed∈rm。

52、同时使用可学习的门控函数来整合得到的结构嵌入es和文本嵌入ed:

53、ekb=ge⊙es+(1-ge)⊙ed

54、其中ge∈rm是一个门控向量,用于权衡来自两个嵌入的信息,其值在[0,1]区间内,⊙表示元素乘法;门控向量ge表示es和ed的每个维度由不同的权重相加。此外,为了约束门控向量的值在[0,1]区间内,本发明使用sigmoid函数计算门控向量ge:

55、

56、其中是一个实值向量,并在训练过程中学习。

57、在将这两种类型的嵌入与门控函数融合后,本发明获得了最终的基于知识图谱的实体嵌入ekb∈rm,该嵌入对来自知识图谱中的实体描述的三元组和文本信息的结构进行了编码。

58、最后,将上述得到的所有嵌入表示进行连接,得到新闻的最终表示z。

59、新闻的最终表示z可以通过连接句子内容表示p、句子-主题表示q、句子-实体表示r和实体嵌入ekb来获得。

60、之后,将z送入一个全连接层,使softmax函数来预测目标上新闻标签的分布p:

61、p=softmax(woz+bo)

62、通过下列公式进行训练以最小化交叉熵损失函数:

63、

64、其中d表示整体训练语料库,ci表示新闻i的真实标签,pi(ci)表示真实标签的概率,θ表示模型的参数,λ是l2正则化器的系数。

65、本发明通过结合知识图谱和注意力机制,解决了以往方法仅仅关注文本表面含义,实现了对新闻内容与知识库实体信息的精细比较与聚合;最后,依据实体比较结果,模型得出新闻真伪的预测分数,从而准确筛选出潜在的虚假新闻报道。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1