本发明涉及人工智能,尤其涉及一种虚假新闻检测方法及装置。
背景技术:
1、在人工智能领域中,虚假新闻检测是一项关键任务,旨在识别和辨别出社交媒体、新闻网站等平台上的虚假信息。随着信息传播的快速发展,虚假新闻的数量和影响力日益增长,对公众舆论和社会稳定造成了严重影响。虚假新闻检测任务涉及多个技术领域,包括自然语言处理、多模态、机器学习和数据挖掘等,通过分析文本内容、多模态内容、用户行为和社交网络结构等特征,来识别虚假信息。该任务的挑战包括信息来源的多样性、多模态内容的多义性以及虚假信息与真实信息之间的微小差异。解决这一问题不仅需要高效的算法和模型,还需要大规模的真实数据集和专业领域知识的支持。虚假新闻检测的成功将有助于维护信息生态的健康发展,保护公众免受虚假信息的误导和欺骗。
2、相关技术中,主要是专注于利用模型识别的方法,从单模态和多模态这两个角度来进行虚假新闻检测。单模态主要依赖某一类特征,例如文本内容特征、用户特征或者图像信息等;多模态则依赖多类具有相关性的特征,例如文本和图像特征、图像和视频特征等。
3、从虚假新闻检测的通用性来讲,虚假新闻往往会呈现出不同的虚假错误原因,例如图片的篡改、文本内容的篡改、图文不一致、外部知识与新闻内容不一致等。现有的单模态方法忽略了多个模态之间的交互,使得模型缺失了部分模态的信息,导致其准确率欠佳。现有的多模态方法往往忽略了引入外部知识来辅助虚假新闻检测的重要性,导致其模型无法识别出一些实时性的错误。
技术实现思路
1、本发明提供一种虚假新闻检测方法及装置,用以解决现有技术中的通过单模态角度进行虚假新闻检测只依赖于某一类特征,通过多模态角度进行虚假新闻检测忽略了多个模态之间的交互,使得模型缺失了部分模态的信息,均会导致其准确率欠佳的缺陷。
2、本发明提供一种虚假新闻检测方法,包括如下步骤。
3、提取新闻的文本实体和图像实体,并基于预设的实体知识库分别对所述文本实体以及所述图像实体进行实体查找,确定分别与所述文本实体以及图像实体匹配的目标实体及其对应的目标三元组;其中,所述实体知识库中包括多个实体,每两个实体及其关系构成三元组;将新闻中的文本、图像、所述目标实体及其对应的目标三元组输入至虚假新闻检测模型中,分别进行特征提取得到文本特征向量、图像特征向量以及知识特征向量,并将所述文本特征向量、图像特征向量以及知识特征向量进行融合,得到融合特征向量,根据所述融合特征向量进行分类,得到虚假新闻检测结果;
4、其中,所述虚假新闻检测模型为通过新闻样本进行训练得到。
5、根据本发明提供的一种虚假新闻检测方法,所述虚假新闻检测模型包括:文本编码器、图像编码器以及知识模态编码器;
6、将新闻中的文本、图像、所述目标实体及其对应的目标三元组输入至虚假新闻检测模型中,分别进行特征提取得到文本特征向量、图像特征向量以及知识特征向量,包括:
7、将新闻中的文本输入至所述文本编码器中,提取到文本特征向量;
8、将新闻中的图像输入至所述图像编码器中,提取到图像特征向量;
9、将所述目标实体及其对应的目标三元组生成超图结构,将所述超图结构输入至所述知识模态编码器中进行深度特征学习,提取到知识特征向量。
10、根据本发明提供的虚假新闻检测方法,所述虚假新闻检测模型包括:分类器;根据所述融合特征向量进行分类,得到虚假新闻检测结果,包括:将所述融合特征向量输入至所述分类器中进行分类,得到所述虚假新闻检测结果。
11、根据本发明提供的虚假新闻检测方法,基于预设的实体知识库分别对所述文本实体以及所述图像实体进行实体查找,确定分别与所述文本实体以及图像实体匹配的目标实体及其对应的目标三元组,包括:
12、将所述文本实体与预设的实体知识库中的实体进行实体对齐,得到与所述文本实体对应的目标文本实体及其目标三元组;
13、分别对所述文本实体和所述图像实体进行特征提取,得到文本特征和图像特征;
14、将所述文本特征和所述图像特征映射至同一个向量空间中,通过计算文本特征和图像特征的向量点积的方式,得到每个文本实体与每个图像实体的相似度;
15、将与每个所述图像实体相似度最高的文本实体作为外部知识,并将该文本实体对应的目标文本实体及其目标三元组确定为所述图像实体对应的目标文本实体及其目标三元组。
16、根据本发明提供的虚假新闻检测方法,所述文本编码器包括多个依次连接的文本编码层;
17、将新闻中的文本输入至文本编码器中,提取到文本特征向量,包括:将所述新闻中的文本进行分词,得到多个词单元;将多个词单元生成初步词表示向量;将所述初步词表示向量输入至第一个文本编码层中,并依次经由多个所述文本编码层进行编码处理,将最后一个文本编码层输出的向量作为所述文本特征向量。
18、根据本发明提供的虚假新闻检测方法,所述图像编码器包括多个依次连接的图像编码层;
19、将新闻中的图像输入至图像编码器中,提取到图像特征向量,包括:将所述新闻中的图像进行分块处理,得到多个图像块;将多个图像块生成初步图像表示向量;将所述初步表示向量输入至第一个图像编码层中,并依次经由多个所述图像编码层进行编码处理,将最后一个图像编码层输出的向量作为所述图像特征向量。
20、根据本发明提供的虚假新闻检测方法,所述目标三元组包括目标实体、目标实体相关联的其他实体以及目标实体与其他实体的关系;
21、将所述目标实体及其对应的目标三元组生成超图结构,将所述超图结构输入至所述知识模态编码器中进行深度特征学习,提取到知识特征向量,包括:
22、将所述目标实体及其对应的目标三元组生成超图结构,其中,所述超图结构包括节点和边,所述节点代表目标实体或与目标实体相关联的其他实体,所述边代表目标实体与其他实体的关系;
23、将所述超图结构输入至所述知识模态编码器中,聚合与每一条边连接的节点得到的特征向量,作为所述边的特征向量;
24、聚合与每一个节点连接的边对应的特征向量,作为所述节点的特征向量,并将所述超图结构包括的节点的特征向量作为所述知识特征向量。
25、根据本发明提供的虚假新闻检测方法,所述新闻样本包括真实新闻样本和虚假新闻样本,所述真实新闻样本和所述虚假新闻样本均包括样本文本和样本图像;
26、所述虚假新闻检测模型包括:文本编码器、图像编码器、知识模态编码器以及分类器;
27、所述虚假新闻检测模型的预训练任务包括:
28、文本掩码学习任务:将所述样本文本中的部分词单元随机替换为特殊词单元,然后将未被替换的词单元输入至文本编码器,预测出所述特殊词单元对应的原词单元,并计算文本掩码学习损失;
29、图像多实体分类任务:提取所述样本图像中的样本图像实体,将提取到的样本图像实体作为分类任务的标签;其中,0代表所述样本图像实体未出现在当前的所述样本图像中,1代表所述样本图像实体出现在当前的所述样本图像中;将样本图像实体以及标签输入至知识模态编码器中执行分类训练,并计算图像多目标分类损失;
30、图像和文本对比学习任务:通过知识模态编码器计算新闻样本中的图像-文本对的相似度以及文本-图像对的相似度,其中,真实新闻样本中的图像-文本对为正样本对,虚假新闻样本的图像与真实新闻样本的文本构成的图像-文本对为负样本对;根据图像-文本对的相似度以及文本-图像对的相似度求平均交叉熵损失;
31、外部知识学习任务:通过知识模态编码器计算新闻样本以及外部知识的文本相似度,其中,所述新闻样本以及与新闻样本关联的外部知识的文本对为正样本对,所述新闻样本以及与新闻样本非关联的外部知识的文本对为负样本对;根据所述新闻样本-外部知识的文本相似度以及外部知识-新闻样本的文本相似度求平均交叉熵损失;
32、根据文本掩码学习损失、图像多目标分类损失、平均交叉熵损失以及交叉熵损失及其各自的权重计算总损失,对所述虚假新闻检测模型进行参数调整;
33、对参数调整后的虚假新闻检测模型输入新闻样本,通过所述分类器的分类结果,以及新闻样本的真实性标签计算交叉熵损失,以对所述分类器进行分类训练;其中,所述真实性标签为0代表新闻样本为虚假新闻样本,为1代表所述新闻样本为真实新闻样本。
34、本发明还提供一种虚假新闻检测装置,包括:
35、实体查找模块,用于提取新闻的文本实体和图像实体,并基于预设的实体知识库分别对所述文本实体以及所述图像实体进行实体查找,确定分别与所述文本实体以及图像实体匹配的目标实体及其对应的目标三元组;其中,所述实体知识库中包括多个实体,每两个实体及其关系构成三元组;
36、虚假新闻检测模块,用于将新闻中的文本、图像以及所述目标实体及其对应的目标三元组输入至虚假新闻检测模型中,分别进行特征提取得到文本特征向量、图像特征向量以及知识特征向量,并将所述文本特征向量、图像特征向量以及知识特征向量进行融合,得到融合特征向量,根据所述融合特征向量进行分类,得到虚假新闻检测结果;
37、其中,所述虚假新闻检测模型为通过新闻样本进行训练得到。
38、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚假新闻检测方法。
39、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述虚假新闻检测方法。
40、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述虚假新闻检测方法。
41、本发明提供的虚假新闻检测方法及装置,通过提取新闻的文本实体和图像实体,基于预设的实体知识库分别对所述文本实体以及所述图像实体进行实体查找,确定与文本实体以及图像实体匹配的目标实体及其对应的目标三元组,然后将新闻中的文本、图像以及目标实体及其对应的目标三元组输入至虚假新闻检测模型中分别进行特征提取,不仅考虑了单模态的文本特征向量和图像特征向量,同时也考虑了多模态的知识特征向量,将三者进行融合得到融合特征向量后进行分类,得到虚假新闻检测结果,从而实现单模态和多模态的角度对虚假新闻进行检测,以提升虚假新闻检测模型的准确率。