一种基于新闻-评论关联性分析的虚假新闻识别方法与流程

文档序号:22129958发布日期:2020-09-08 12:44阅读:173来源:国知局
一种基于新闻-评论关联性分析的虚假新闻识别方法与流程

本发明属于新闻检测领域,更具体地,涉及一种基于新闻-评论关联性分析的虚假新闻识别方法。



背景技术:

网络技术的蓬勃发展使得信息的获取成本越来越低,网络技术无处不在也为社交网络的兴起提供了基础。用户可以轻松便捷的从社交网络中获取和发布信息,这种便利性降低了虚假新闻产生和传播的门槛。虚假新闻会利用信息披露的不及时性,通过社交网络的疯狂传播造成严重的舆论压力和社会恐慌。虚假新闻严重影响社交网络环境,制造群体焦虑,因此对于社交网络中虚假新闻的有效识别是当前社会背景下亟待解决的问题。

虚假新闻的识别工作主要针对新闻文本。主要涉及两方面,(1)对新闻中所涉及到的知识提取,与知识图库进行比较;(2)对文本语句进行语法分析,对其中涉及到的表述是否经常出现不确定的描述来进行判断。随着社交网络的兴起,如何合理的利用社交网络信息,提高新闻真实性识别能力,成为了最值得探讨的问题。所以最近开始有分析方法将重点放在传播过程或评论文本上,(1)从宏观和微观领域分析传播过程,根据其传播规模推断新闻真实性;(2)根据传播路径中用户的受信任程度,获得传播网络中用户质量的评级,进而判断新闻的真实性;(3)根据评论中观点的冲突程度分析新闻的真实性,引发激烈讨论且具有冲突意见的观点能够让人对信息的真实性产生足够的怀疑,通过模仿人类理解信息的过程,获得了一定的效果。

然而现有方法只注重新闻文本或只关注传播过程的形式,它过于依赖于新闻内容本身,而且对于当前知识匮乏的全新领域,很难有良好的适应性。社交机器人的出现会对传播网络的构建具有一定的干扰性,它增强的曝光率会增强整个网络中用户的传播行为,所以抛开新闻自身,只关注传播过程的方法也具有一定的局限性。



技术实现要素:

本发明提供一种基于新闻-评论关联性分析的虚假新闻识别方法,用以解决现有虚假新闻识别中片面倚重新闻文本或传播网络而造成识别精度低的技术问题。

本发明解决上述技术问题的技术方案如下:一种基于新闻-评论关联性分析的虚假新闻识别方法,包括:

s1、基于待识别新闻的内容构建其新闻特征矩阵,以及基于待识别新闻的每条评论的内容构建该条评论的特征向量;同时根据评论间回复关系,将每条初始评论作为根节点、每条回复评论作为子节点构建多个评论树;

s2、将每个评论树中每个节点的所述特征向量与其父节点的上下文关联特征向量相关联,通过递归计算得到该评论树所有叶子节点的上下文关联特征向量并进行加权计算,得到该评论树的特征向量;

s3、匹配所述新闻特征矩阵与所有评论树的特征向量之间的关联性,得到考虑评论的新闻子句间注意力权重,用于对所述新闻特征矩阵中各文本子句对应的向量之间进行加权得到新闻特征向量,以及得到考虑新闻的评论树间注意力权重,用于对各评论树的特征向量之间进行加权得到评论特征向量,基于新闻特征向量和评论特征向量判断新闻的真实性。

本发明的有益效果是:本方法充分利用新闻和评论信息中引发讨论的内容作为识别新闻真实性的关键内容,基于两者核心观点的匹配程度推断出新闻文本的真实性。其中,构建每条初始评论的评论树,每条初始评论作为根节点、每个回复评论作为子节点,每条评论信息都依赖于其父节点中所包含的语境信息,因此通过将每个评论树中每个节点的特征向量与其父节点的关联上下文信息的特征向量相结合,以计算该节点的关联上下文信息的特征向量,又由于每个叶子节点代表一次讨论的结束,因此,对每个评论树中所有叶子节点的关联上下文信息的特征向量之间进行加权计算,最终得到该评论树(也即每条初始评论)的一维特征向量,该方法得到的每个初始评论的一维特征向量充分融合了该次讨论的关键信息,信息利用率高,以保证了新闻判断的精确性。另外,本方法还对新闻特征矩阵与所有评论树特征向量之间的关联性进行匹配,将两者充分匹配考虑,以分别产生考虑评论的新闻子句间注意力权重以及考虑新闻的评论树间注意力权重,使得最终得到的新闻特征向量和评论特征向量能够有效用于新闻识别。本方法克服现有技术片面倚重新闻文本或传播网络的现象,可以结合评论中的关键信息,尤其是评论回复讨论过程中引入的更多关键信息,新闻判断精确度高,且能够适应大规模社交网络中的虚假新闻识别。

上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述新闻特征矩阵的构建方法具体为:

获取待识别新闻的文本内容并对其分句分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所述分句得到的每个子句所对应的所有所述隐状态向量进行加权,将该子句表示为一维特征向量,所有子句的特征向量构成待识别新闻的二维新闻特征矩阵。

本发明的进一步有益效果是:循环神经网络能够通过迭代的形式有效保留语境信息,使得单词之间都能相互关联。对于语义的理解过程,文本序列中的不同信息有不同程度的影响,注意力机制能够在较长的文本序列中从不同的角度进行观察,发现文本序列中最关键的信息并赋予更高的权重,使其在后续的表征向量中起到更重要的作用,因此,利用循环神经网络和注意力机制能够更精准的获得文本中所表达的信息,提升模型的预测效果。

进一步,所述基于待识别新闻的每条评论的内容构建该条评论的一维特征向量,具体为:

获取每条评论的文本内容并对其分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所有所述隐状态向量进行加权,将该条评论表示成一维特征向量。

本发明的进一步有益效果是:由于评论信息相对新闻文本长度较短,因此不再进行句子级别的拆分,直接将评论看作一句将评论文本转化成向量表示,用于后续的新闻与评论的关联。

进一步,所述s1中,所有所述循环神经网络为双向长短期记忆网络。

本发明的进一步有益效果是:双向长短期记忆网络能够有效获取到上下文语境信息,同时拥有选择记忆和选择遗忘的能力,能够更好地保留距离较远的关键语境信息。在输入文本序列较长的训练模型中,长短期记忆网络能够有效的解决梯度消失问题,获得更好的训练效果,保证本发明方法能够适应大规模社交网络中的虚假新闻识别。

进一步,所述s2中,采用门循环单元通过递归计算,得到所述所有叶子节点的上下文关联特征向量。

本发明的进一步有益效果是:相较于其它循环神经网络方法,在树状结构层次较深时也即讨论量大时,门循环单元能够利用重置门控与更新门控有效解决模型训练时的梯度消失问题,有利于本发明方法能够适应大规模社交网络中的虚假新闻识别。同时它利用两个门控就能有效获取评论树中的有效讨论信息,减少模型参数,有效提高训练速度。

进一步,所述s2中,每个评论树的特征向量构建方法为:

基于门循环单元,对每个评论树自顶向下,将当前节点的所述特征向量与其父节点的隐状态向量相结合,计算该节点的用于保留父节点部分隐状态信息的重置门控以及用于调节父节点隐状态信息保留比例的更新门控,通过递归处理,计算出该评论树中所有节点的隐状态向量;使用池化方法处理该评论树所有叶子节点的隐状态向量,得到该评论树的特征向量。

本发明的进一步有益效果是:计算重置门控用于保留父节点部分隐状态信息,计算更新门控用于调节父节点隐状态信息保留比例,基于这两个参数保证每个节点与其父节点的融合程度,能够用于计算较为合理准确的各节点上下文关联特征向量,另外采用池化方法做归一化加权,简单方便

进一步,所述重置门控ri计算公式为:ri=σ(wrci+urhp(i)),所述更新门控zi计算公式为:zi=σ(wzci+uzhp(i)),式中,wr、wz均为参数矩阵,ur、uz均为参数向量,σ为激活函数,hp(i)为第i个节点的父节点隐状态向量。

进一步,所述s3包括:

采用协同注意力网络,对所述新闻特征矩阵与评论特征矩阵之间的关联性进行匹配,构建相似性矩阵,其中,所述评论特征矩阵由所有评论树的特征向量构成;

使用相似性矩阵,将所述新闻特征矩阵与所述评论特征矩阵进行关联,以更新所述新闻特征矩阵与所述评论特征矩阵,而获得融合评论信息的新新闻特征矩阵、融合新闻信息的新评论特征矩阵;

基于所述新新闻特征矩阵计算得到新闻子句间协同注意力权重,基于所述新评论特征矩阵计算得到评论树间协同注意力权重;

采用新闻子句间协同注意力权重,对更新前的所述新闻特征矩阵中各文本子句对应的向量之间进行加权得到新闻特征向量,采用评论树间协同注意力权重,对更新前的所述评论特征矩阵中各评论树的特征向量之间进行加权得到评论特征向量;

将新闻特征向量与评论特征向量进行全连接,以判断新闻的真实性。

本发明的进一步有益效果是:采用协同注意力网络,将两个矩阵进行关联,以计算融合评论的新闻子句间协同注意力权重以及融合新闻的评论树间协同注意力权重,可靠性高。

进一步,所述新闻特征矩阵的更新公式为:hs=tanh(wss+(wcc)f),所述评论特征矩阵的更新公式为:hc=tanh(wcc+(wss)ft),式中,hs为更新后的新新闻特征矩阵,hc为更新后的新评论特征矩阵,s为更新前的所述新闻特征矩阵,c为更新前的所述评论特征矩阵,f为相似性矩阵,wc、ws均为参数矩阵。

本发明还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的任一种基于新闻-评论关联性分析的虚假新闻识别方法。

附图说明

图1为本发明实施例提供的一种基于新闻-评论关联性分析的虚假新闻识别方法的流程框图;

图2为本发明实施例提供的一种基于新闻-评论关联性分析的虚假新闻识别示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种基于新闻-评论关联性分析的虚假新闻识别方法100,如图1所示,包括:

步骤110、基于待识别新闻的内容构建其新闻特征矩阵,以及基于待识别新闻的每条评论的内容构建该条评论的特征向量;同时根据评论间回复关系,将每条初始评论作为根节点、每条回复评论作为子节点构建多个评论树;

步骤120、将每个评论树中每个节点的特征向量与其父节点的上下文关联特征向量相关联,通过递归计算得到该评论树所有叶子节点的上下文关联特征向量并进行加权计算,得到该评论树的特征向量;

步骤130、匹配新闻特征矩阵与所有评论树的特征向量之间的关联性,得到考虑评论的新闻子句间注意力权重,用于对新闻特征矩阵中各文本子句对应的向量之间进行加权得到新闻特征向量,以及得到考虑新闻的评论树间注意力权重,用于对各评论树的特征向量之间进行加权得到评论特征向量,基于新闻特征向量和评论特征向量判断新闻的真实性。

本方法中,构建每条初始评论的评论树,每条初始评论作为根节点、每个回复评论作为子节点,每条评论信息都依赖于其父节点中所包含的语境信息,因此通过将每个评论树中每个节点的特征向量与其父节点的关联上下文信息的特征向量相结合,以计算该节点的关联上下文信息的特征向量,又由于每个叶子节点代表一次讨论的结束,因此,对每个评论树中所有叶子节点的关联上下文信息的特征向量之间进行加权计算,最终得到该评论树(也即每条初始评论)的一维特征向量,该方法得到的每个初始评论的一维特征向量充分融合了该次讨论的关键信息,信息利用率高,以保证了新闻判断的精确性。另外,本方法还对新闻特征矩阵与所有评论树特征向量之间的关联性进行匹配,将两者充分匹配考虑,以分别产生考虑评论的新闻子句间注意力权重以及考虑新闻的评论树间注意力权重,使得最终得到的新闻特征向量和评论特征向量能够有效用于新闻识别。

因此,本实施例方法是一种新的社交网络中虚假新闻识别方法,包括数据收集与处理、新闻文本处理、评论文本处理、新闻-评论协同处理以及关联性结果分析五个过程,主要首先充分利用新闻和评论信息中引发讨论的内容作为识别新闻真实性的关键内容,之后基于两者核心观点的匹配程度推断出新闻文本的真实性。本方法使用基于新闻和评论中关键内容的相似性这一新的角度进行真实性判断,充分利用新闻文本及其在社交网络传播过程中产生的信息,克服现有技术片面倚重新闻文本或传播网络的现象。不仅能够缓解过分依赖新闻文本导致的信息片面问题,同时可以结合评论中的关键信息,尤其是评论回复讨论过程中引入的更多关键信息,为真实性判断提供有力的帮助,能够适应大规模社交网络中的虚假新闻识别,能够解决新闻内容难以自动验证的问题。

优选的,步骤110中,分别采用循环神经网络和注意力机制,基于待识别新闻中各文本子句的内容构建该新闻的二维新闻特征矩阵,以及根据待识别新闻的各条评论的内容构建该条评论的一维特征向量。步骤120中,采用循环神经网络,将每个评论树中当前节点的所述特征向量与其父节点的隐状态向量相结合,计算当前节点的隐状态向量,对该评论树所有叶子节点的隐状态向量池化处理,得到该评论树的特征向量。步骤130中,采用协同注意力网络,匹配新闻特征矩阵与由所有评论树的特征向量构成的评论特征矩阵之间的关联性,得到新闻子句间协同注意力权重和评论树间协同注意力权重。

本方法首先获取新闻文本内容,对于整篇新闻文本获取其向量表示,具体的,先对其单词级别的向量使用循环神经网络和注意力机制,获得每个句子的特征表示。再对句子级别的特征向量使用循环神经网络,使每个句子获得与之相近的上下文信息。通过分层注意力模型的使用,将新闻文本中的关键特征信息转换为文本信息的特征向量表示。

另外,获取评论文本内容,对于评论文本的特征向量表示,先使用单词级别的循环神经网络和注意力机制,获得每个评论的特征表示。评论相互之间具有关联性,根据评论的回复关系,构建出树形评论结构(即评论树),通过树状结构将回复信息与被回复信息关联,能够更加充分地理解每条评论的语境信息。

使用树形神经网络获得评论树的向量表示,具体的,将每个评论树结构中的最初评论作为根节点、每个节点的回复作为当前节点的子节点,由于评论采用了树状结构,每条评论信息都依赖于其父节点中所包含的语境信息,每个叶子节点代表一次讨论的结束,因此本方法采用自顶向下的方法处理评论树中的信息,使用循环神经网络进行计算,将父节点的隐状态向量hp(i)与当前节点的评论信息(即评论的一维特征向量)ci相结合计算当前节点的隐状态向量hi

将新闻文本的特征向量表示与评论树的向量表示输入到协同注意力网络中。使用该协同注意力网络可以结合评论和文本信息的相关性,生成新闻各文本句子间的协同注意力权重,再对新闻文本进行加权。同时它也会生成各评论树的权重关系,对评论树进行加权。通过新闻文本与评论树的之间的相关性,构建新闻文本-评论树的引导向量,可将该引导向量输入全连接层,判断新闻的真实性标签。

其中,上述涉及到的新闻文本和评论信息,都需要使用将其进行向量化表示。将相关领域的文本信息,使用分词工具将其拆分成独立的单词。按照出现的频率排序后,构建词汇-索引及索引-词汇的映射关系。将词汇及其上下文窗口中的出现的位置构建一个共现矩阵,根据词汇与共现矩阵之间的相似性,通过迭代训练获得词向量表示w。这种预训练方法能够通过向量的形式体现出词汇间的关联性和相似性,通过这样的方式,词向量中捕捉到了一些语义特征,可以通过对向量的运算更加方便的将词汇信息利用起来。

需要说明的是,新闻文本信息主要是新闻正文部分的内容,对于正文中提到的超链接需要在处理时进行统一替换。新闻评论信息主要是通过在社交网络中,搜索新闻标题获取到相关的社交网络评论内容的文本信息,再通过评论之间的相互回复过程,获得评论的树形结构,树形结构中包含了一定的传播网络的信息。

优选的,所述新闻特征矩阵的构建方法具体为:

获取待识别新闻的文本内容并对其分句分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所述分句得到的每个子句所对应的所有所述隐状态向量进行加权,将该子句表示为一维特征向量,所有子句的特征向量构成待识别新闻的二维新闻特征矩阵。

具体的,如图2所示,由新闻文本按照标点分句,将分句之后得到子句,子句再使用分词工具转换为独立的单词,将分词后的单词进行词向量转换。将所有的向量拼接起来可得到向量矩阵其中代表拼接操作,新闻文本s由n个子句构成,si表示新闻文本中第i个子句。而对于每个子句由m个单词构成,其中wj表示子句中第j个词向量表示,这样就将新闻文本转化成三维向量表示。将三维向量输入到双向长短期记忆网络中,获取每一个词汇的隐状态其中表示第i个子句的第j个单词的隐状态,分别由前向和后向长短期记忆网络组成,得到子句中每个单词的关联上下文信息表示。将子句中所有单词的隐状态与其单词注意力权重相结合,获得子句的向量表示。通过计算单词注意力权重其中结合隐向量表示得到子句的表示结果将文本中所有的子句向量表示输入到双向长短期记忆网络中,获取每个子句的隐状态其中si表示第i个子句的隐状态,分别由前向和后向长短期记忆网络组成,得到文本中每个子句的关联上下文信息表示。

优选的,所述根据待识别新闻的各条评论的内容构建该条评论的一维特征向量,具体为:

获取每条评论的文本内容并对其分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所有所述隐状态向量进行加权,将该条评论表示成一维特征向量。

由于将每条评论信息及其对应的回复内容,构建评论树,通过树状结构将回复信息与被回复信息关联,能够更加充分地理解每条评论的语境信息,再次基础上,对于每一条信息再使用分词工具转换为独立的单词,再将分词后的单词进行词向量转换。t=c1⊙c2⊙…⊙ci⊙…⊙cp,其中t表示一棵评论树由p条评论信息构成,⊙代表关联构建评论树操作,ci表示评论树中中第i条评论信息。而对于每个评论ci由q个单词构成,其中wj表示评论信息中第j个词向量表示,由于评论信息对比新闻文本长度较短,所以不再进行句子级别的拆分,这样就将评论文本转化成向量表示。将评论向量输入到双向长短期记忆网络中,获取每一个词汇的隐状态其中表示第i个子句的第j个单词的隐状态,分别由前向和后向长短期记忆网络组成,得到子句中每个单词的关联上下文信息表示。将评论信息中所有单词的隐状态与其单词注意力权重相结合,获得评论信息的向量表示。通过计算单词注意力权重其中结合隐向量表示得到第i条评论信息的表示结果

优选的,步骤110中,所有循环神经网络为双向长短期记忆网络。

优选的,步骤120中的循环神经网络采用门循环单元。

优选的,步骤120中,每个评论树的特征向量构建方法为:

基于门循环单元,对每个评论树自顶向下,将当前节点的特征向量与其父节点的隐状态向量相结合,计算该节点的用于保留父节点部分隐状态信息的重置门控以及用于调节父节点隐状态信息保留比例的更新门控,通过递归处理,计算出该评论树中所有节点的隐状态向量;使用池化方法处理该评论树所有叶子节点的隐状态向量,得到该评论树的特征向量。

具体的,将每个评论树结构中的最初评论作为根节点,彼此之间的回复作为子节点。基于门循环单元(gru)提出一种评论树信息处理方法,使用p(i)表示第i个节点的父节点,首先计算重置门控ri=σ(wrci+urhp(i)),再计算更新门控zi=σ(wzci+uzhp(i)),使用重置门控保留父节点的部分隐状态信息,利用更新门控调节父节点信息的保留比例式中w*、u*均为参数矩阵和参数向量,σ表示激活函数。通过递归处理评论树结构后计算出所有叶子结点的隐状态hi,再使用池化方法处理所有叶子节点的隐状态,获得每个评论树的特征表示ti

优选的,步骤130包括:

采用协同注意力网络,对新闻特征矩阵与评论特征矩阵之间的关联性进行匹配,构建相似性矩阵;使用相似性矩阵,将新闻特征矩阵与评论特征矩阵进行关联,以更新新闻特征矩阵与评论特征矩阵,而获得融合评论信息的新新闻特征矩阵、融合新闻信息的新评论特征矩阵;基于新新闻特征矩阵计算得到新闻子句间协同注意力权重,基于新评论特征矩阵计算得到评论树间协同注意力权重;采用新闻子句间协同注意力权重,对更新前的新闻特征矩阵中各文本子句对应的向量之间进行加权得到新闻特征向量,采用评论树间协同注意力权重,对更新前的评论特征矩阵中各评论树的特征向量之间进行加权得到评论特征向量;将新闻特征向量与评论特征向量进行全连接,以判断新闻的真实性。

使用新闻的协同注意力权重应用到新闻文本的特征矩阵中,获得新闻表征,将评论的协同注意力权重应用到评论的特征矩阵中,获得评论表征;将新闻表征与评论表征进行全连接,判断新闻的真实性标签。

具体的,将每条新闻的文本向量与评论向量之间,使用协同注意力机制将它们之间的关联性进行匹配,捕获其中相互匹配的关键信息,构建相似性矩阵。其中文本为s={s1,…,sn},评论为c={t1,…,tp},可获得f=tanh(ctwls)的相似性矩阵。使用相似性矩阵将新闻文本和评论进行关联,分别获得融合评论的新闻信息与融合新闻的评论信息,hs=tanh(wss+(wcc)f),hc=tanh(wcc+(wss)ft),最终获得新闻的协同注意力权重和评论的协同注意力权重式中w*与w*均为参数矩阵。将新闻的协同注意力权重应用到s1.4获得的新闻表示向量中,获得新闻表征将评论的协同注意力权重应用到s2.4获得的评论树表示向量中,获得评论表征将新闻表征与评论表征进行全连接,使用获得(1×2)大小的向量,两个数值分别代表模型预测新闻真假的概率。

通过上述步骤能够获得一次预测的结果,其中权重矩阵w*和偏置参数b*,是通过神经网络学习得到的,它们最开始是随机初始化的,通过对训练集的不断训练迭代,神经网络能够学习到合理的参数配置。而使用softmax函数归一化后,能够更加直观的得出神经网络对于新闻真实性判断结果的精确性。

实施例二

一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上实施例一所述的一种基于新闻-评论关联性分析的虚假新闻识别方法。

相关技术方案同实施例一,在此不再赘述。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1