本发明涉及情感分析,尤其涉及基于双模多粒度交互的多模态情感分析方法、设备及介质。
背景技术:
1、为支持设计制造运维一体化平台服务质量提升,需要基于客户对服务评价数据对客户对服务质量的感受进行分析,因此,对设计制造运维一体化平台中存在的包含图像,文本和视频的评论数据进行情感分析是平台提供商了解服务质量的重要途径。
2、因此,情感分析是设计制造运维一体化平台运行服务的关键环节,是平台提供商对用户做出快速反馈的重要途径。然而,区别于微博、淘宝、京东等生活类社区,该平台具有领域性,专业性等特点,且涉及的范围广,数据量大,内容复杂,给设计制造运维平台中的情感分析及后续服务工作带来巨大的挑战。此外,平台中产生的数据包含了视频、图像、音频和文字,针对这些海量的多模态数据,现有的单模态情感分类方法存在分类准确率和效率低的问题,难以支持平台提供商快速、高效的判断用户群体对其提供服务的感受、态度和市场的口碑,同时仅依赖单一文本模态的信息对情感进行分析,未能充分利用其他模态的信息,对情感的分类具有片面性,而当前的特征融合方法中存在模态重要性难以体现、模态间特征融合不充分、融合方法不具有针对性和融合粒度单一等问题。因此,需要进行改进。
技术实现思路
1、本发明提供了一种基于双模多粒度交互的多模态情感分析方法、设备及介质。
2、第一方面,本发明提供了一种基于双模多粒度交互的多模态情感分析方法,包括如下步骤:
3、对运维反馈多模态评论数据进行预处理;
4、将多模态评论数据中的文本输入bert预训练模型提取特征,对问题文本的特征进行基于字符级别的强抽取;将音频输入开源模型covaper中,提取声学特征;将图像特征输入resnet网络中,提取图相特征,提取局部特征和全局特征;
5、将文本特征和图像特征输入多粒度融合模块,将文本特征和音频特征和输入细粒度融合模块,分别融合文本-图像特征,文本-音频特征,最后通过加权求和得到融合三种模态的特征向量;
6、通过全连接层输出情感分类结果。
7、进一步地,对运维反馈多模态评论数据进行预处理的过程为:首先对运维反馈评论文本进行清洗、去噪、分词、去停用词和标准化;然后对音频数据进行预加重、分帧和加窗;最后对图像数据进行去噪、统一通道数和统一像素值。
8、进一步地,将多模态平均数据中的文本输入brrt预训练模型提取特征的过程如下:
9、位置编码:标记单词在输入文本序列中的绝对位置信息,首先将单词在文本序列中的位置进行one-hot编码,然后利用位置矩阵将位置的one-hot编码转化为位置编码,具体过程如式(1)所示。
10、xp=wep (1)
11、其中w表示可训练的位置嵌入矩阵;
12、利用多头自注意力层对文本序列的特征提取,具体计算方式如式(2)所示。
13、
14、其中,q表示查询矩阵,k表示键矩阵,v表示值矩阵,softmax表示表示归一化函数,dk表示特征向量的维度;
15、求和与层归一化:通过残差连接将输入的词向量和多头注意力机制提取的特征向量相加,然后利用层归一化将向量数值限制在标准正态分布以内,具体计算方法如式(3),(4)所示。
16、x=xattention+xembedding (3)
17、
18、其中μ和σ表示按向量矩阵的行求得的均值和方差,γ和β表示缩放和平移的参数,ε是一个极小的数,为防止分母为0;
19、求和与归一化的向量经过两层全连接神经网络和激活函数,使特征向量的维度与输入向量的维度保持一致。具体过程如式(5),activate表示激活函数,fc(2)表示两层全连接神经网络;
20、x=activate(fc(2)(x)) (5);
21、从位置编码到求和与层归一化的步骤表示一个transformer的特征提取过程,bert由12个transformer模块组成,即完整过程可以表示为:
22、xh=transformer(12)(x) (6)
23、其中xh表示文本序列最终的特征表示,transformer(12)表示12transformer个模块。
24、进一步地,covaper提取工具,以30帧/秒的速度提取音频数据的声学特征,其中包括峰值斜率参数,梅尔频率倒光谱系数,涵盖了频谱,音质和韵律学特征与情感分类相关的特征;
25、resnet模型中,残差块用于构建深度网络,计算方式如下:
26、x'=f(x)+x (7)
27、其中,f(x)表示处理输入x的神经网络。
28、进一步地,采用如下融合模型,将文本特征和图像特征输入多粒度融合模块,将文本特征和音频特征和输入细粒度融合模块,分别融合文本-图像特征,文本-音频特征,最后通过加权求和得到融合三种模态的特征向量:
29、(1)特征对齐层
30、获得的图像特征和音频特征,采用两种模式特异性的单向来捕捉这些模态的时间特征,具体计算如式(8)、(9)所示。
31、x′i=i_lstm(xi,θi) (8)
32、x'a=a_lstm(xa,θa) (9)
33、其中,i_lstm和a_lstm表示单向长短期记忆网络,x′i和x'a为i_lstm和a_lstm隐藏层的输出序列,表示对应模态在时间维度上的特征表示,θi和θa表示单向长短期记忆网络的隐藏层的参数;
34、由于音频特征和图像特征的维度小于文本特征的维度,使用一个全连接神经网络层将其调整到同一维度,具体计算如式(10)所示。
35、
36、其中,θ{xt,x′i,x'a}表示文本、图像和音频模态的全连接层神经元的参数。
37、与和相比,在训练过程中,的值将大于和为了防止点乘后的结果数量级变大,将softmax推向梯度非常小区域,将文本,图像和音频的特征从和扩展到和具体计算如式(10)、(11)、(12)所示。
38、
39、
40、
41、(2)特征融合层
42、在获得和后,为使文本分别与音频和图像信息充分融合,首先将文本和音频输入到细粒度交互多头注意力机制融合模块(fine granularity multi-headcross attention mechanism,fgmh-cam)中得到融合特征向量,将文本和图像输入到多粒度交互多头注意力机制融合模块(multi-granularity multi-head cross attentionmechanism,mgmh-cam)中得到融合特征向量;
43、具体而言,对于两个不同向量空间中的文本特征和图像特征首先将两种模态分别投影到两个不同的特征空间得到文本和图像的查询向量和键向量具体计算过程如式(14)、(15)所示;
44、
45、
46、其中和表示线性映射的参数矩阵;
47、然后根据对应的查询向量和键向量得到相应模态的注意力矩阵和具体计算过程如式(16)、(17)所示;
48、
49、
50、其中m表示掩蔽矩阵,其作用是使包含两种粒度的特征矩阵只与对应粒度的向量进行注意力分数的计算;
51、为了能够使文本模态和图像模态交互融合,将两种模态不同特征空间的权重矩阵以排列组合的方式按权值相加,进而得到融合两种模态的权重矩阵,具体计算如式(18)、(19)所示;
52、
53、
54、其中表示文本模态的第1个权重矩阵和图像模态的第i(i=1,2)个权重矩阵按权值相加得到的权重矩阵,同理,αt和βi表示可训练的权重参数,b表示偏置;
55、通过将文本和图像模态不同特征空间的权重矩阵按权值相加,得到两种不同模态的4个交互融合的特征矩阵d,k表示融合权重矩阵的维度。首先将这四个特征矩阵在通道维进行拼接,得到拼接后的矩阵wti∈4×d×v,然后使用1×1的卷积神经网络(cnn)在通道维进行特征提取,具体计算如式(20)所示;
56、w′ti=cnn1×1(wti,θ) (20)
57、其中,θ表示cnn的参数;
58、通过的卷积神经网络,将分布在不同的特征空间的特征融合矩阵通过特征选择的方式映射到同一特征空间。然后通过注意力打分函数softmax,得到注意力分布矩阵具体计算如式(21)所示;
59、
60、最后,使用融合了图像信息的注意力分布矩阵调整文本单词的权重,得到输出xti,具体计算如式(22)所示;
61、
62、其中,xt表示bert最后一个隐藏层的输出;
63、同理,通过文本、音频特征融合模块fgmh-cam融合文本和音频的信息,此时文本的输入为,音频输入为,fgmh-cam模块整体架构与mgmh-cam相同,但文本和音频的输入并不包含全局信息,所以无需添加掩蔽注意力矩阵,即将文本音频融合框架中根据对应的查询向量和键向量得到相应模态的注意力矩阵的计算方式(16)、(17)替换为式(23)、(24)进行计算;
64、
65、
66、最后,得到融合音频信息的输出特征xta;
67、在得到文本-图像的融合特征和文本-音频融合特征后,使用残差连接来保持数据的原始结构,最后,可以得到最后一个线性层的输出和因为第一个标记和的表示是根据全局信息学习的,将eta和eti按权值相加得到多种模态融合的特征向量etai,具体计算如式(25)所示;
68、etai=αeta+βeti (25)
69、其中,α,β表示可训练的权值参数;
70、(3)输出层
71、通过特征融合层得到融合三种模态的特征向量etai,将融合向量输出一个全连接神经网络进行情感类型的划分并输出情感类别yi,具体计算如式(26)所示:
72、yi=softmax(mlp(etai)) (26)
73、其中,mlp表示全连接神经网络,softmax表示分类函数。
74、第三方面,本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
75、所述存储器用于存储计算机程序;
76、所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述一种基于双模多粒度交互的多模态情感分析方法。
77、第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的一种基于双模多粒度交互的多模态情感分析方法。
78、本发明公开了一种基于双模多粒度交互的多模态情感分析方法,首先对各个模态的数据进行特征提取,然后对各个模态的数据进行融合,最后将融合向量输入分类层进行情感类型划分,提升了支持设计制造运维一体化平台的情感分类准确率。