融合多粒度视觉与文本特征的多模态情感分析方法及系统

文档序号:35535831发布日期:2023-09-21 23:10阅读:43来源:国知局
融合多粒度视觉与文本特征的多模态情感分析方法及系统

本发明属于自然语言处理领域,具体涉及一种融合多粒度视觉与文本特征的多模态情感分析方法及系统。


背景技术:

1、情感分析旨在有效地分析和挖掘数据中的情感信息,是自然语言处理领域的一项重要任务。与文本级情感分析不同,方面级情感分析不是简单地分析整个文档或句子,并识别其情感极性,而是根据句子中所描述的实体的多个方面,分别预测出方面词位置及其对应的不同的情感极性。例如,给出“价格合理,但服务很差”的评论,方面词分别是“价格”、“服务”,对应的情感极性分别是积极、消极。多模态情感分析是指,根据文字、图片、视频、音频在内的多模态数据,从不同的模态切换,找到关键的情感信息,并将它们相互关联,从而预测出更为准确的方面词及其对应的情感极性。相较于局限于文本的情感分析问题,多模态数据为情感分析任务提供更为多样的信息源,此外,人类在处理和分析情感时,主要依靠自己的情感推理能力,从不同的模态切换,找到关键的情感信息,并将它们相互关联。因此,多模态情境下的情感分析更接近人类的推理模式。然而,仅通过文本提取情感信息会忽略其它模态的信息,而如果多种模态信息没有融合恰当则会引入噪声,因此,对于不同模态的情感特征的提取和融合方式对于最后的情感词提取和情感极性预测任务至关重要。

2、近年来,处理多模态数据中细粒度情感表达的关键是从不同模态(如文本和图像)中找到重要的方面相关信息,然后利用不同模态之间的联系与这些信息进行交互,以帮助模型进一步识别情感信息。因此,为了更好地探索文本模态与图像模态之间的联系,研究者采用深度神经网络(如cnn、rnn、gnn)结合注意力机制来解决这一问题,也取得了显著的效果。但是,上述工作仍然存在一定的局限性。比如,不同模态下信息不相关或者冗余信息导致的噪声问题。多数研究是直接将图片的信息用预训练模型提取后和原有文本信息做交互,这样不可避免得导致了图片信息噪声的引入。减少噪声的有效方式之一就是减小多模态信息的提取粒度,然而,大多数研究都没有考虑到这点。其次,大多数现有的图像-文本数据多模态模型都忽略了方面词的作用。现有研究通过引入多通道图注意力网络等方式来捕获整个数据集的全局特征的文本和图像信息,或者应用多头注意力机制来深度融合文本和图像之间的信息。然而,对于多模态方面情感分析任务,却缺少了针对方面词使用多模态信息增强的策略和方法,忽略了方面词在多模态任务中的特殊作用。对于不同的方面词拥有不同的情感极性,而图片信息中对于不同的方面词也应提取不同的、针对于该方面的情感信息。第三,由于句法依赖信息代表了句中词与词之间的句法依赖关系,被前人证明有效,并且常和图注意力网络配合使用,将句法依赖关系作为图中不同节点的连接关系。但是,这种方式容易引入情感噪声,导致错误的情感信息传播,影响最终的情感预测精度。

3、综上,图注意力网络在融合文本和图片信息中取得了一定的成就,但在图片信息噪声的控制和针对方面词使用多模态信息增强等方面依旧存在不足,容易在构图过程中由于句法依赖信息的引入和产生噪声。通过分析人类情感判断过程可知,人们在阅读时会先看文本信息,再有针对性得提取方面信息,结合图片中和关键信息相关的信息,得出最终的正确答案。


技术实现思路

1、本发明的目的在于提供一种融合多粒度视觉与文本特征的多模态情感分析方法及系统,该方法及系统有利于提高情感极性预测精度。

2、为实现上述目的,本发明采用的技术方案是:一种融合多粒度视觉与文本特征的多模态情感分析方法,包括以下步骤:

3、步骤a:使用预训练模型初始化图节点文本表示,并且使用resnet初步提取图片特征表示;

4、步骤b:依据句法依赖关系、成分树结构确定图注意力网络中边关系邻接矩阵;使用多模态注意力机制,分别获得单词级、短语级、句子级的联合文本视觉特征表示;借助多层图注意力网络融合单词级、短语级、句子级的联合文本视觉特征表示,最终获得多粒度文本-视觉融合特征表示;根据多层图注意力网络输出的文本-视觉联合特征表示,预测方面词位置并形成方面词表示;依据方面词位置使用anp解析器解析出最相关的anp对,并依据方面词在句法依赖关系中的邻接关系,构建方面图;

5、步骤c:根据方面图的输出作为方面词情感表示,预测该方面词对应的情感极性。

6、进一步地,所述步骤b具体包括以下步骤:

7、步骤b1:将数据集文本进行句法依赖解析,获得不同节点之间的句法依赖关系a1;借助成分树解析构建基于文本的成分树结构a2,获得不同子句的文本划分,具体表现在于单词级、中间层的短语级、句子级文本使用句法依赖关系a1和成分树结构a2融合获得图注意力网络不同层的边关系邻接矩阵

8、步骤b2:利用步骤b1获得的多层图注意力网络的边关系邻接矩阵,获得不同粒度的文本表示逐层输入多模态注意力网络获得特定于该层的联合文本视觉特征表示完成多粒度的文本特征和图片特征的交互;最终输出多粒度文本-视觉融合特征表示

9、步骤b3:使用步骤b2获得的多粒度文本-视觉融合特征表示分别计算每个位置是方面词的起始和结束位置的概率pstart、pend,根据概率选择最有可能的方面词起始和结束位置(indexstart,indexend);

10、步骤b4:根据步骤b3标记的方面词位置(indexstart,indexend)和步骤b2获得的多粒度文本-视觉融合特征表示得到最终的方面词表示ai;

11、步骤b5:使用步骤b1得到的单词级邻接矩阵以步骤b3获得的方面词位置(indexstart,indexend)为中心,取直接相连的边作为方面图ga的边关系,基于此构建方面图ga的邻接矩阵

12、步骤b6:根据步骤a中获得的图片特征表示,由anp解析器解析出与图片最相关的top-k个(名词n,形容词adja)对,根据步骤b4获得的方面词表示ai及其直接相连的单词表示,分别计算与anp中的名词之间的余弦相似度;并选择余弦相似度最高的k个(名词n,形容词adja)对作为方面图ga的补充节点,增强步骤b4中的邻接矩阵

13、步骤b7:使用图注意力网络,获得方面图ga的融合特征表示sentia;建立mask矩阵,应用方面图ga的融合特征表示sentia,保留方面词的情感表示aspectw;基于获得的方面词的情感表示aspectw,计算该方面词的情感极性。

14、进一步地,所述步骤b1具体包括以下步骤:

15、步骤b11:将数据集文本进行句法依赖解析,获得不同节点之间的句法依赖关系a1;借助成分树解析构建基于文本的成分树结构a2,获得不同子句的文本划分,具体表现在于单词级、中间层的短语级、句子级

16、

17、

18、其中,是句法依赖关系a1中位置(i,j)的数值,是成分树结构a2中位置(i,j)的数值;dep.tree表示句法依赖关系;con.tree表示成分树结构;

19、步骤b12:以步骤b11得到的成分树子句划分策略为标准,剔除句法依赖关系中跨子句的依赖关系,实现依赖关系降噪;

20、步骤b13:将步骤b12得到的降噪后的句法依赖关系a1和成分树各层的邻接关系a2融合,作为图注意力网络的边关系邻接矩阵

21、

22、其中,表示图注意力网络的边关系邻接矩阵中位置(i,j)的数值。

23、进一步地,所述步骤b2具体包括以下步骤:

24、步骤b21:使用预训练模型获得的单词表示t和图片做交互,使用多模态注意力网络完成文本特征和图片特征的交互,以此获得单词粒度的联合文本视觉特征表示

25、

26、

27、

28、其中,q为当前计算的节点i的单词表示t,k和v为resnet输出的图片表示,mh(·)是多头注意力;

29、

30、

31、其中,q为当前计算的节点i的单词表示t,mimage是文本对应的图片表示,ln(·)是层归一化,ffn(·)是前馈神经网络;

32、步骤b22:借助步骤b1中图注意力网络的边关系邻接矩阵和步骤b21中提取的单词粒度的联合文本视觉特征表示初步构建第一层的图注意力网络,输出词粒度文本-视觉融合表示

33、

34、

35、

36、其中,是步骤b1中word粒度的边关系邻接矩阵中的邻接节点,是图注意力网络第一层的最终输出fc是全连接层,是词节点经过掩蔽自注意力机制后的结果,||表示向量拼接,z是注意力头的数量,б是激活函数;是第z个注意力头的第l层的可训练参数,f(·)是衡量两个词的相关性的函数;通过堆叠多个gat层,将上一层作为下一层的输入,并在层与层中间融合图片信息;

37、步骤b23:将步骤b1中划分的短语分组以及步骤b22中输出的词粒度文本-视觉融合表示做平均池化,结果作为短语级别多模态交互的文本输入,使用多模态注意力机制完成短语级文本特征和图片特征的交互

38、

39、

40、其中,q为步骤b22中输出的词粒度文本-视觉融合表示按照步骤b1中划分的短语分组做平均池化的结果,mimage是文本对应的图片表示,ln(·)是层归一化,ffn(·)是前馈神经网络;

41、步骤b24:使用步骤b23输出的短语级文本特征和图片特征的交互和步骤b22的词粒度文本-视觉融合表示融合,基于步骤b1中获得的图注意力网络的边关系邻接矩阵做图注意力输出短语粒度文本-视觉融合表示

42、步骤b25:重复步骤b24直到到达句子级文本划分级别;

43、步骤b26:将步骤b25得到的顶层短语粒度文本-视觉融合表示平均池化,作为句子粒度级别的文本特征,并且输入多模态注意力机制模块,完成句子级文本特征和图片特征的交互,获得其融合表示

44、

45、

46、其中,q为步骤b22中输出的短语粒度文本-视觉融合表示按照步骤b1中句子分组做平均池化的结果,mimage是文本对应的图片表示,ln(·)是层归一化,ffn(·)是前馈神经网络;

47、步骤b27:将步骤b26获得句子级文本-图片特征融合表示和图注意力网络各个位置的输出词向量平均池化,得到多粒度文本-视觉融合特征表示

48、进一步地,所述步骤b3具体包括以下步骤:

49、步骤b31:使用步骤b2获得的多粒度文本-视觉融合特征表示分别计算每个位置是方面词的起始和结束位置的概率pstart、pend:

50、

51、

52、其中,wstart、bstart、wend、bend均为可训练参数;

53、步骤b32:根据概率选择最有可能的方面词起始和结束位置(indexstart,indexend):

54、

55、

56、其中,l表示句子中最大的单词下标。

57、进一步地,所述步骤b4中,方面表示ai的计算公式如下:

58、

59、其中,l表示句子中最大的单词下标。

60、进一步地,所述步骤b5具体包括以下步骤:

61、步骤b51:设图为方面图ga=(v,e),其中,v为图节点集,e为图中的边关系集合;使用步骤b1获得的单词级邻接矩阵

62、

63、步骤b52:取中和方面词直接相连的边作为方面图ga的边关系,基于此构建方面图ga的邻接矩阵

64、

65、其中,表示方面图ga的邻接矩阵在位置(i,j)的数值。

66、进一步地,所述步骤b6具体包括以下步骤:

67、步骤b61:根据步骤a中获得的图片特征表示,由anp解析器解析出top-k个最相关的(名词n,形容词adja)对;

68、

69、其中,anps是top-k个最相关的(名词n,形容词adja)对的集合;

70、步骤b62:根据步骤b4获得的方面词表示ai及方面图ga中直接相连的单词表示wi,分别计算与anp对的名词之间的余弦相似度或者

71、

72、

73、其中,表示方面词ai和anp对中名词之间的余弦相似度,表示与方面词ai直接相连的词wi和anp对中名词之间的余弦相似度;

74、步骤b63:基于步骤b62获得的余弦相似度,使用top-k算法筛选出与该单词最相关的k个(名词n,形容词adja)对:

75、

76、其中,scorei表示步骤b61计算出的余弦相似度;是最相关的anp对的名词集合;

77、步骤b64:获得步骤b63中筛选出的(名词n,形容词adja)对中对应的形容词adja:

78、

79、其中,是最相关的在anp对中对应的形容词;

80、步骤b65:将步骤b64中筛选出的作为方面图ga中的节点,和其对应单词之间建立边关系,增强步骤b4中的邻接矩阵

81、

82、其中,i和j分别表示邻接矩阵中的横坐标和纵坐标;wi表示下标为i的词,wj表示下标为j的词。

83、进一步地,所述步骤b7具体包括以下步骤:

84、步骤b71:使用图注意力网络,获得方面图ga的融合特征表示sentia;

85、

86、其中,sential表示第l层的特征表示,当l=1时,sential-1为步骤b2获得的多粒度图片信息的文本表示wl和bl是第l层的权重和偏置值,relu是激活函数,是步骤b6获得的方面图ga的邻接矩阵;

87、步骤b72:建立mask矩阵,应用于方面图ga的融合特征表示sentia,保留方面词的情感表示aspectw;

88、

89、基于获得的方面词的情感表示aspectw,计算该方面词的情感极性。

90、本发明还提供了一种融合多粒度视觉与文本特征的多模态情感分析系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。

91、与现有技术相比,本发明具有以下有益效果:本发明首先针对不同模态下信息不相关或者冗余信息导致的噪声问题,不直接加入整张图片的信息,而是采用多粒度的联合视觉文本特征表示,减少冗余信息导致的噪声问题。利用成分树中天然的短语分组,多个单词组成更高的语义表示,使短语比单个词(如形容词)更易察觉。使用多层gat,由成分树和依赖树构成邻接矩阵,去除跨子句的依赖,融合文本信息,并在不同层的融合过程中,加入不同粒度的视觉特征表示,初始加入融合过的word-level联合视觉特征表示,在中间层加入短语级联合视觉特征表示,在顶层加入sentence-level的联合视觉特征表示。探索文本和图像间的不同层次交互。另外,本发明通过anp,针对方面词使用多模态信息增强的策略和方法,借助与方面词最相关的anp对对应的情感词为桥梁,引入该方面词对应的多模态情感信息,帮助模型提高情感极性预测精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1