基于深度神经网络的高性能抗噪语音情感识别方法

文档序号:25356897发布日期:2021-06-08 14:58阅读:249来源:国知局
基于深度神经网络的高性能抗噪语音情感识别方法

1.本发明涉及一种语音情感识别方法,适用于多媒体信号处理领域。


背景技术:

2.语音情感识别技术在各种智能系统中的应用具有很大的潜力,包括数字广告业务,在线游戏,客户反馈评估,医疗行业等。
3.传统的语音情感识别使用的手工特征有韵律特征、频谱特征、声音质量特征等,主要常用的是韵律特征和频谱特征。2001年,nogueiras等人利用音调和能量以及它们包络作为特征,使用半连续的markov模型实现了对六种基本情感的识别。schuller等人提出了两种方法:在第一种方法使用gmm高斯混合模型,对语音的原始基音和能量轮廓特征的全局统计进行分类。在第二种方法中,采用了连续隐马尔可夫模型和短时特征而不是全局统计特征。2012年,pan等人利用支持向量机结合基音、能量、mfcc、lpcc、medc特征对berlin数据库及其自建的中文情感数据库进行分类。他们对不同的特征组合训练了不同的svm分类器,对于中文数据库最好的结果是使用mfcc、medc、能量特征。
4.与传统的使用手工特征的语音情感识别方法相比,基于深度神经网络的语音情感识别方法减轻了提取手工特征的负担,它可以自动学习一个层级的特征表示。深度神经网络的优势在于可以直接处理原始数据,并自动化特征提取和选择的过程。将时间序列的样本输入网络,在每次非线性变换之后,生成前一层输入的隐式表示,最终形成特征表示的层级结构。trigeorgis等人提出了cnn

lstm网络系统,cnn用于直接从原始时间序列中自动学习语音信号的最佳描述特征。与传统的设计特征相比,该方法明显提高了检测的准确率。2019年,zhao等人对比了一维和二维cnn

lstm网络。一维cnn用于学习语音的局部及全局情感特征,而二维cnn用于学习mel特征谱。总体而言,二维网络的性能优于一维网络。
5.然而当前的基于深度神经网络的语音情感识别方法的问题在于识别准确率和系统稳定性不理想。由于男女之间表达情感的语音特征有所区别,在情感识别的过程中加入性别的区分可以有效的提升情感识别的准确率。同时,语音采集的过程中不可避免的会受到噪声影响,从而扭曲有效的语音特征,对情感识别系统造成干扰。


技术实现要素:

6.发明目的:针对上述现有技术,提出一种基于深度神经网络的高性能抗噪语音情感识别方法,解决现有语音情感识别方法识别准确率和稳定性不理想的问题。
7.技术方案:基于深度神经网络的高性能抗噪语音情感识别方法,包括以下步骤:
8.步骤1:利用ravdess数据集叠加随机噪声训练语音增强网络,将带噪语音信号输入到语音增强网络获得干净的语音信号;
9.步骤2:对增强后的语音数据进行预处理,提取语音数据的mel特征谱作为语音片段的特征,送入性别

情感类别识别网络;
10.步骤3:利用语音数据的mel特征谱训练性别

情感类别的多任务分类网络,输出为
对应语音数据的发言人所属的性别和情感类别。
11.进一步的,所述步骤1包括如下具体步骤:
12.步骤1.1:使用ravdess数据集,将干净语音信号与噪声按照不同信噪比叠加获得含噪语音信号;
13.步骤1.2:系统的采样率为8khz,按照帧长度为256个采样点,帧平移为128点进行分帧,加窗处理所使用的窗函数为汉明窗;
14.步骤1.3:对应的干净语音信号与带噪语音信号进行相同的步骤1.2处理后进行短时傅里叶分析,通过对系数取模值求取对数得到对数stft幅值训练对作为训练样本;将带噪语音信号的对数stft幅值送入由三层lstm级联网络组成的语音增强网络中,将lstm级联网络的输出与干净语音的对数stft幅值计算均方误差作为损失函数;
15.步骤1.4:将带噪语音送入训练后的语音增强网络,得到处理后的干净语音的对数stft幅值,与带噪语音信号的对数stft相位叠加后进行istft变换得到处理后的干净语音信号。
16.进一步的,所述步骤2包括如下具体步骤:
17.步骤2.1:对语音数据帧计算短时能零积以及于标准噪声帧的功率谱交叉熵,利用短时能零积与交叉熵进行双重端点检测,即在短时能零积判断为语音帧的情况下,如果当前尚未进入有音区,通过交叉熵法再次核验是否为语音帧,得到语音区的起点终点列表后截取其中有效的语音区部分,丢弃无音区;
18.步骤2.2:进行fft变换,将fft得到的线性尺度的频谱通过mel滤波器组转换到更适合人耳听觉的mel尺度,再通过dct变换得到对应的mel特征谱。
19.进一步的,所述步骤3中,训练性别

情感类别的多任务分类网络包括如下步骤:
20.步骤3.1:利用ravdess数据集提供的性别标注对数据标签进行处理:音频文件名中最后两位的受试者id,男性使用单数id,女性使用双数id,通过性别的标注对数据标签进行处理,将7种情感类别标签转换成14种性别

情感复合标签;
21.步骤3.2:使用滑动窗口在得到的mel特征谱上采样,采样的窗口大小为256点,帧平移为128点作为语音帧的输入特征;
22.步骤3.3:将采样得到的语音帧的mel特征谱送入深度神经网络中,提取高层次的抽象特征,作为帧级别的深度学习特征表示;
23.步骤3.4:帧级别的深度学习特征表示送入lstm网络中学习语音帧之间的上下文关联;lstm网络中,信息从第一个lstm节点传递到最后一个lstm节点中,相当于对不同时间节点的信息进行聚合,将帧级别的深度学习特征表示聚合成为视频序列级的深度学习特征表示;
24.步骤3.5:将视频序列级的深度学习特征表示输入到全连接网络中,然后将全连接网络的输出输入到softmax层,利用softmax将网络的输出压缩到0到1之间,并且输出的和为1,表征发言人性别和所属情感类别的概率;
25.步骤3.6:将步骤3.5得到的概率通过交叉熵损失函数得到网络的损失值,损失包括发言人性别的分类损失和所属情感类别的分类损失两个部分,将两类损失加权获得最后的全局损失函数;
26.步骤3.7:在测试过程中,将由步骤2得到的mel特征谱送入性别

情感类别的多任
务分类网络后,得到语音片段对应的发言人性别和情感类别的两个概率向量;最大概率值所对应的情感类别即为语音片段的预测情感类别。
27.进一步的,所述步骤1.1中,将白噪声以6种信噪比

5db,

3db,0db,3db,5db,10db和干净语音信号混合获得带噪语音。
28.有益效果:针对现有语音情感识别方法识别准确率和稳定性不理想的问题,本发明方法基于cnn

lstm深度时空网络的基础上,加入了用于语音增强的前端模块,降低了环境噪音对语音特征的扭曲,提高了系统在低信噪比条件下的鲁棒性。同时将情感分类网络改进成性别

情感类别的多任务分类网络,利用性别分类和情感分类的相关性提升了系统情感识别的准确率。
附图说明
29.图1为本发明基于深度神经网络的高性能抗噪语音情感识别方法流程图;
30.图2为本发明语音增强模块示意图;
31.图3为本发明性别

情感类别分类网络结构示意图;
32.图4为训练过程准确率曲线图;
33.图5为本发明与原始模型在ravdess测试集上的平均识别准确率对比统计图。
具体实施方式
34.下面结合附图对本发明做更进一步的解释。
35.如图1所示,一种基于深度神经网络的高性能抗噪语音情感识别方法,通过前端增加语音增强模块提升了系统在低信噪比条件下的鲁棒性,通过性别区分提升了系统的识别准确率,具体包括如下步骤:
36.步骤1:利用ravdess数据集叠加随机噪声训练语音增强网络(speech enhancement net),将带噪语音信号输入到语音增强网络获得干净的语音信号,具体为:
37.步骤1.1:使用ravdess数据集,将干净语音信号与噪声按照不同信噪比叠加获得含噪语音信号。具体的,将白噪声以6种信噪比

5db,

3db,0db,3db,5db,10db和干净语音信号混合获得带噪语音信号。
38.步骤1.2:系统的采样率为8khz,按照帧长度为256个采样点,帧平移为128点进行分帧,加窗处理所使用的窗函数为汉明窗。
39.步骤1.3:如图2所示,将对应的干净语音信号与带噪语音信号进行相同的步骤1.2处理后进行短时傅里叶分析(stft),通过对系数取模值求取对数得到对数stft幅值训练对(干净语音的对数stft幅值,带噪语音的对数stft幅值)作为训练样本。将带噪语音信号的对数stft幅值送入由三层lstm级联网络组成的语音增强网络中,将lstm网络的输出与干净语音的对数stft幅值计算均方误差作为损失函数。
40.步骤1.4:如图2所示将带噪语音送入训练后的语音增强网络,得到处理后的干净语音的对数stft幅值,与带噪语音信号的对数stft相位叠加后进行istft变换得到处理后的干净语音信号。
41.步骤2:对增强后的语音数据进行预处理,提取语音数据的mel特征谱作为语音片段的特征,送入性别

情感类别识别网络,具体为:
42.步骤2.1:对语音数据帧计算短时能零积以及于标准噪声帧的功率谱交叉熵,利用短时能零积与交叉熵进行双重端点检测,即在短时能零积判断为语音帧的情况下,如果当前尚未进入有音区,通过交叉熵法再次核验是否为语音帧。得到语音区的起点终点列表后截取其中有效的语音区部分,丢弃无音区。
43.步骤2.2:进行快速傅里叶变换(fft),将fft得到的线性尺度的频谱通过mel滤波器组转换到更适合人耳听觉的mel尺度,再通过离散余弦变换(dct)得到对应的mel特征也即mfcc特征图。
44.步骤3:利用语音数据的mel特征谱训练性别

情感类别的多任务分类网络,输出为对应语音数据的发言人所属的性别和情感类别,具体为:
45.步骤3.1:利用ravdess数据集提供的性别标注对数据标签进行处理。音频文件名中最后两位的受试者id,男性使用单数id,女性使用双数id,通过性别的标注对数据标签进行处理,将7种情感类别标签转换成14种性别

情感复合标签。
46.步骤3.2:如图3使用滑动窗口在得到的mel特征谱上采样,采样的窗口大小为256点,帧平移为128点作为语音帧的输入特征。
47.步骤3.3:将采样得到的语音帧的mel特征谱送入深度神经网络中,提取高层次的抽象特征,作为帧级别的深度学习特征表示。
48.步骤3.4:如图3所示,将帧级别的深度学习特征表示送入lstm(long short

termmemory)网络中学习语音帧之间的上下文关联。lstm网络中,信息从第一个lstm节点传递到最后一个lstm节点中,相当于对不同时间节点的信息进行了聚合,将帧级别的深度学习特征表示聚合成为视频序列级的深度学习特征表示。
49.步骤3.5:将视频序列级的深度学习特征表示输入到全连接网络中,然后将全连接网络的输出输入到softmax层,利用softmax将网络的输出压缩到0到1之间,并且输出的和为1,表征发言人性别和所属情感类别的概率。
50.步骤3.6:将步骤3.5得到的概率通过交叉熵损失函数得到网络的损失值(loss),损失包括发言人性别的分类损失和所属情感类别的分类损失两个部分,将两类损失加权获得最后的全局损失函数。
51.步骤3.7:在测试过程中,将由步骤2得到的mel特征谱送入性别

情感类别的多任务分类网络后,会得到语音片段对应的发言人性别和情感类别的两个概率向量。最大概率值所对应的情感类别即为语音片段的预测情感类别。
52.如图4所示,整个迭代过程为100次迭代,大约在80次迭代左右模型准确率开始保持稳定,最终在测试集上得到的平均识别准确率在77.61%。如图5所示为加入语音增强模块和进行性别区分对系统的平均识别准确率的提升。可以看出,相比于原始模型,本发明在所有信噪比条件下的平均识别准确率均有所提升,尤其是在低信噪比条件下,提升了越15个百分点左右。本发明从整体上提高了语音情感识别的准确率和系统在低信噪比条件下的鲁棒性,性能达到了较高水平。
53.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1