基于多标签纠正和时空协同融合的语音情感识别方法

文档序号：34733416发布日期：2023-07-12 17:13阅读：32来源：国知局

本发明属于人工智能领域，特别涉及一种基于多标签纠正和时空协同融合的语音情感识别方法。

背景技术：

1、语音是人类自然交流的主要媒介之一，不仅传达了说话人的目的信息，还表现了说话人的情感状态。利用计算机从语音中识别说话人情感状态的过程被称为语音情感识别。它是人机交互中的一项重要任务，可以帮助智能语音交互系统理解用户的潜在意图，为产品带来更好的用户体验。比如呼叫中心的语音接听助手，智慧家居的语音服务，智能驾驶的情感检测系统、医疗保健的情感辅助治疗等。随着这些应用需求的高涨，语音情感识别引起了越来越多研究者的关注。

2、常见的语音情感识别是基于单标签训练的，即一条语音对应一个固定的真实标签，代表该语音只包含了一种情感。然而，现实生活中大多数语音情感是模糊的，往往掺杂了多种情感，比如情感为伤心的语音表达中会夹杂着愤怒和失望的情感表现。此外，情感专家们可能会根据自身文化和个性的不同，而对模糊的情感呈现出不同的看法，即对情感感知具有主观性。结合上述，以单标签表示语音的真实情感，不仅缺乏情感的混合表达能力，还忽略了情感专家们对情感感知的主观性。

3、注意到这些问题，基于多标签的方法被提出，从标签定义上表示出情感的模糊性和情感感知的主观性。多标签包含两种类型，一种是计算情感专家对各类情感的投票比例来描述情感的模糊性，但这种固定的情感比例并不代表大多数人所认可的真正比例；另一种则不受比例限制，仅仅根据情感专家是否对此类情感投票来估计情感存在或缺失，但仍依赖于部分情感专家所赋予的情感认知，且不具有明确的情感偏向。

4、于是，一些更有效的模糊处理训练方式继而被开发，比如联合学习、元学习、情感轮廓提炼、多分类器交互等，旨在结合模型本身知识，以避免单标签和多标签方法依赖情感专家所赋予标签的问题。然而，这些方法均只考虑了只具有单标签的语音样本，即可以得到大多数情感专家共识的样本，没有利用数据集中无标签的语音样本。然而，语音情感的模糊性主要体现于这些无标签样本中。因为无标签样本是由于情感专家对该语音的情感判断无法达成共识造成的，这表明该样本的情感模糊，导致人类难以辨认。并且，在实际环境中的语音并不是每一句都具有大多数认同的情感。因而，这些没有利用无标签语音样本的方法，并没有完全考虑到真正具有情感模糊性的语音样本。

技术实现思路

1、有鉴于此，本发明提出一种基于多标签纠正和时空协同融合的语音情感识别方法，构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络，采用单标签语音对该网络进行预训练优化，利用预训练的时空协同融合网络修改歧义语音的情感标签，再混合标签纠正后的歧义语音和单标签语音，重新训练优化时空协同融合网络，完成优化的时空协同融合网络对语音进行情感识别，过程具体包括以下步骤：

2、s1、根据语音频谱的空间特性和语音波形的时序特性，利用卷积神经网络和wav2vec模型分别从语音的空间域和时间域提取情感特征，并采用协同融合方法实现时空特征交互，构成时空协同融合网络；

3、s2、初始化时空协同融合网络，将具有单个情感标签的语音作为第一训练集，用于预训练时空协同融合网络，将此得到的预训练网络称为mp；

4、s3、将歧义语音输入完成预训练的时空协同融合网络mp，预测得到输入样本的生成情感标签；

5、s4、将歧义语音的生成情感标签与原始多标签结合进行标签纠错，得到具有纠正标签的歧义语音样本；

6、s5、将具有单个情感标签的语音和具有纠正标签的歧义语音作为第二训练集，重新训练优化时空协同融合网络，并将该网络称为mf；

7、其中，歧义语音是指具有多个情感标签的语音样本。

8、进一步的，时空协同融合网络包括：

9、101、在时域模块，利用wav2vec模型从语音信息的原始波形中获取时间域情感特征；

10、102、在空域模块，利用卷积神经网络对语音消息的频域进行处理，得到语音消息的空间域情感特征；

11、103、在协同融合模块利用一个全连接层，将空间域情感特征转换为空间情感权重，将空间情感权重与时间域情感特征相乘进行融合，得到附有空间情感信息的时间情感特征；

12、104、将附有空间情感信息的时间情感特征输入分类模块，得到情感分类结果。

13、进一步的，将具有单个情感标签的样本作为第一训练集，输入时空协同融合网络进行预训练的损失函数表示为：

14、

15、其中，n表示情感数据集的样本总数量，表示为语音的单个情感标签，表示预训练时空协同融合网络mp的预测输出，xi表示输入网络的第i个样本。

16、进一步的，语音的单个情感标签表示为：

17、

18、其中，表示情感数据集中第i个样本是否存在第j个情感类别，n表示情感数据集的样本总数量，k表示分类的情感类别数。

19、进一步的，将具有单个情感标签的样本和具有纠正标签的歧义样本作为第二训练集对时空协同融合网络进行训练时采用的损失函数表示为：

20、

21、其中，n表示情感数据集的样本总数量，表示纠正标签，表示网络mf的预测输出，xi表示输入网络的第i个样本。

22、进一步的，得到纠正标签的过程包括：

23、

24、其中，表示歧义样本进行纠错后得到的标签，xi表示输入网络的第i个样本，mp表示预训练的时空协同融合网络；为歧义样本的原始标签；为预训练时空协同融合网络mp的生成标签，λ∈[0,1]表示平衡因子。

25、进一步的，歧义样本的原始标签为多个独热向量相加所得的多标签形式，表示为：

26、

27、其中，表示表示情感数据集中第i个样本是否存在第j种情感类别，n表示情感数据集的样本总数量，k表示情感的类别数量。

28、进一步的，生成标签可分为多标签和单标签这两种形式，多标签形式的生成标签为网络mp对输入样本xi的预测输出，表示为：

29、

30、单标签形式的生成标签需进一步从网络mp输出的概率分布向量中选取概率最大的类别，以独热向量的形式表示为：

31、

32、

33、其中，表示预训练时空协同融合网络mp的预测输出的概率分布向量，xi表示输入网络的第i个样本；j,k∈[1,k]为整数，表示的第k个情感类别的值，为的第j个情感类别的值。

34、本发明的有益效果在于：

35、1)构建了一种时空协同融合网络，以语音频谱所得的空间域情感信息协同融合于语音波形进行的时间域情感分类，提高了语音情感识别性能。

36、2)提供了一种探索和处理语音情感模型性的参考方法，用于标签具有歧义的语音样本，并表明存在情感注释者歧义的样本仍有助于网络建立情感认知。

37、3)提出了一种有效的标签纠正策略，通过预训练时空协同融合网络的生成标签修改无情感偏向的多标签，使模型训练不完全依赖于少数情感专家的情感认知，并通过平衡因子使修正的标签具有明确情感偏向。

38、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：甘臣权王可欣祝清意
技术所有人：重庆邮电大学
我是此专利的发明人

上一篇：使用掩模进行选择性EMI屏蔽的半导体器件和方法与流程
上一篇：一种苍黄拟无枝酸菌GB5-8及其在防治瓜列当中的应用