基于Wav2vec2.0和BERT的多级融合多模态情感识别的方法及系统

文档序号：31875140发布日期：2022-10-21 21:18阅读：来源：国知局

技术特征：
1.一种基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，包括：步骤s1：利用wav2vec 2.0模型提取输入语音的帧级语音特征向量；步骤s2：利用输入文本与输入语音对帧级语音特征向量进行词级强制对齐得到词级语音特征向量；步骤s3：利用输入文本与输入语音对帧级语音特征向量进行音素级强制对齐得到音素级语音特征向量；步骤s4：利用输入文本与输入语音对帧级语音特征向量进行音节级强制对齐得到音节级语音特征向量；步骤s5：利用bert模型提取输入文本的文本特征向量；步骤s6：使用语音特征向量，词级语音特征向量，音素级语音特征向量，音节级语音特征向量分别与文本特征向量分别通过共同注意力模型后拼接得到特征向量，将拼接得到的特征向量通过线性模型进行融合得到前期融合各个情感类别的概率分布；步骤s7：使用语音特征向量，词级语音特征向量，音素级语音特征向量，音节级语音特征向量以及文本特征向量分别通过线性模型得到更新后的特征向量，对更新后的特征向量求平均，再通过线性模型进行融合得到后期融合各个情感类别的概率分布；步骤s8：对前期融合各个情感类别的概率分布和后期融合各个情感类别的概率分布求平均，得到前后期组合融合概率分布；所述输入文本是输入的语音对应的文本形式内容。2.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s1采用：固定wav2vec 2.0模型参数，将语音输入wav2vec 2.0模型，提取wav2vec 2.0模型中预设数量的transformer编码层每层的隐状态，并对不同层求加权平均，公式如下：其中，表示输入的第n个语音样本；w表示wav2vec 2.0模型；f表示帧级特征；其中，表示帧级语音特征向量的第l层的权重，表示u
f,n
的第l层的第f帧；ln表示层归一化操作。3.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s2采用：利用输入文本与输入音频得到词级强制对齐标注，利用词级强制对齐标注分割帧级语音特征向量，得到词级语音特征向量，并对不同层求加权平均，公式如下：其中，表示第n个样本的第l层词级语音特征向量的第k部分，s表示起始帧，e表示结束帧，表示u
f,n
的第l层的第f帧；
其中，表示词级语音特征向量的第l层的权重；ln表示层归一化操作。4.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s3采用：利用输入文本与输入音频得到音素级强制对齐标注，利用音素级强制对齐标注分割帧级语音特征向量，得到音素级语音特征向量，并对不同层求加权平均，公式如下：其中，表示第n个样本的第l层音素级语音特征向量的第k部分；s表示起始帧，e表示结束帧；表示u
f,n
的第l层的第f帧；其中，表示音素级语音特征向量的第l层的权重；ln表示层归一化操作。5.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s4采用：利用输入文本与输入音频得到音节级强制对齐标注，利用音节级强制对齐标注分割帧级语音特征向量，得到音节级语音特征向量，并对不同层求加权平均，公式如下：其中，表示第n个样本的第l层音节级语音特征向量的第k部分；s表示起始帧；e表示结束帧；表示u
f,n
的第l层的第f帧；其中，表示词音节语音特征向量的第l层的权重；ln表示层归一化操作。6.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s5采用：固定bert模型参数，将文本输入bert模型，提取bert模型中预设数量的transformer编码层每层的隐状态，并对不同层求加权平均，公式如下：其中，表示输入的第n个文本样本；b表示bert模型；t表示文本特征；
其中，表示文本特征向量的第l层的权重；表示u
t,n
的第l层的第k部分；ln表示层归一化操作。7.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s6采用：步骤s6.1：分别将音素级语音特征向量，词级语音特征向量，音节级语音特征向量，帧级语音特征向量与文本特征向量分别通过四个共同注意力模型并通过全局平均，得到了融合文本信息的音素级语音特征向量，词级语音特征向量，音节级语音特征向量，帧级语音特征向量；步骤s6.2：拼接融合文本信息的音素级语音特征向量，词级语音特征向量，音节级语音特征向量以及帧级语音特征向量，并通过线性模型进行融合并输出预测概率分布；其中，代表拼接操作；c
n
表示含有文本，四种语音信息的特征向量；c
p,n
表示第n个样本融合文本信息的音素级语音特征向量，c
w,n
表示表示第n个样本融合文本信息的词级语音特征向量，c
s,n
表示表示第n个样本融合文本信息的音节级语音特征向量，c
f,n
表示表示第n个样本融合文本信息的帧级语音特征向量；拼接后送入线性模型：g
n
＝ln(relu(w7c
n
+b7)+c
n
)其中，g
n
表示线性变化后的含有文本与四种语音信息的特征向量，w7，w8表示权重参数；b7，b8表示偏置参数；表示前期融合步骤得到的情感预测概率分布。8.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s7采用：步骤s7.1：分别将音素级语音特征向量，词级语音特征向量，音节级语音特征向量，帧级语音特征向量以及文本特征向量通过线性模型得到更新的音素级语音特征向量，词级语音特征向量，音节级语音特征向量，帧级语音特征向量以及文本特征向量；音特征向量，音节级语音特征向量，帧级语音特征向量以及文本特征向量；其中，p，w，s，f，t分别代表音素级，词级，音节级，帧级，文本；relu代表relu非线性函数，w和b均为参数；表示第n个样本模态i一次线性变化后的特征向量的第k部分，表示表示第n个样本模态i二次线性变化后的特征向量的第k部分；步骤s7.2：分别对所述音素级语音特征向量，词级语音特征向量，音节级语音特征向量，帧级语音特征向量，文本特征向量使用全局平均来融合不同部分的特征得到代表所有部分的音素级语音特征向量，词级语音特征向量，音节级语音特征向量，帧级语音特征向量，文本特征向量；
其中，l
i,n
为句长，p，w，s，f，t分别代表音素级，词级，音节级，帧级，文本；步骤s7.3：将所述音素级语音特征向量，词级语音特征向量，音节级语音特征向量，帧级语音特征向量，文本特征向量通过线性模型进行融合并输出预测概率分布；其中w和b均为参数，p，w，s，f，t分别代表音素级，词级，音节级，帧级，文本；softmax代表softmax函数；表示后期融合步骤得到的情感预测概率分布，为权重参数，表示偏置参数。9.根据权利要求1所述的基于wav2vec2.0和bert的多级融合多模态情感识别的方法，其特征在于，所述步骤s8采用：所述前后期组合融合步骤为取前期融合步骤输出与后期融合步骤输出平均值，公式如下：10.一种基于wav2vec2.0和bert的多级融合多模态情感识别的系统，其特征在于，包括：模块m1：利用wav2vec 2.0模型提取输入语音的帧级语音特征向量；模块m2：利用输入文本与输入语音对帧级语音特征向量进行词级强制对齐得到词级语音特征向量；模块m3：利用输入文本与输入语音对帧级语音特征向量进行音素级强制对齐得到音素级语音特征向量；模块m4：利用输入文本与输入语音对帧级语音特征向量进行音节级强制对齐得到音节级语音特征向量；模块m5：利用bert模型提取输入文本的文本特征向量；模块m6：使用语音特征向量，词级语音特征向量，音素级语音特征向量，音节级语音特征向量分别与文本特征向量分别通过共同注意力模型后拼接得到特征向量，将拼接得到的特征向量通过线性模型进行融合得到前期融合各个情感类别的概率分布；模块m7：使用语音特征向量，词级语音特征向量，音素级语音特征向量，音节级语音特征向量以及文本特征向量分别通过线性模型得到更新后的特征向量，对更新后的特征向量求平均，再通过线性模型进行融合得到后期融合各个情感类别的概率分布；模块m8：对前期融合各个情感类别的概率分布和后期融合各个情感类别的概率分布求平均，得到前后期组合融合概率分布；所述输入文本是输入的语音对应的文本形式内容。

技术总结
本发明提供了一种基于Wav2vec 2.0和BERT的多级融合多模态情感识别的方法和系统，包括：利用语音大规模预训练模型Wav2vec 2.0提取语音帧级特征向量；分别利用词级，音素级，音节级强制对齐对语音帧级特征向量提取语音词级，音素级，音节级特征向量；利用文本大规模预训练BERT提取文本特征向量；融合语音帧级特征向量，语音词级特征向量，语音音素级特征向量，语音音节级特征向量，文本特征向量的前期融合决策与后期融合决策；融合前期融合决策和后期融合决策的前后期组合融合决策。本发明利用大规模预训练模型分别提取语音和文本的特征向量，并提出多级融合策略，实现更准确的多模态情感识别。情感识别。情感识别。

技术研发人员：赵子涵王延峰王钰
受保护的技术使用者：上海交通大学
技术研发日：2022.07.04
技术公布日：2022/10/20

完整全部详细技术资料下载

当前第2页1 2