一种结合局部与全局信息的语音情感特征提取方法
【专利摘要】本发明公开了一种结合局部与全局信息的语音情感特征提取方法,能提取三类特征,属于语音信号处理处理和模式识别【技术领域】。其步骤是:(1)将语音信号分帧,(2)对每一帧进行傅立叶变换,(3)使用Mel滤波器对傅立叶变换结果滤波,对滤波结果求能量,并对能量取对数,(4)对取得的对数结果使用局部Hu运算,获得第1类特征,(5)对局部Hu运算后的每一帧进行离散余弦变换,获得第2类特征,(6)对第3步计算的对数结果进行差分运算,然后对差分结果的每一帧进行离散余弦变换获得第3类特征。本发明可快速有效地表达各类情感的语音,应用范围包括语音检索、语音识别、情感计算等领域。
【专利说明】一种结合局部与全局信息的语音情感特征提取方法
【技术领域】
[0001]本发明涉及一种语音信号处理和模式识别技术,特别涉及一种结合局部与全局信息的语音情感特征提取方法。
【背景技术】
[0002]随着信息技术的不断发展,社会发展对情感计算提出了更高的要求。例如在人机交互方面,一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并能有效减轻人们使用电脑的挫败感,甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中,感受到的压力水平等,并做出相对反应。此外,情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中,以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况,情感计算的应用可以有效地帮助人们避免不良情绪,保持乐观健康的心理。
[0003]人的面部表情,语音,生理指标等都能在一定程度上反映人类的情感。本发明涉及基于语音的情感识别中的语音特征抽取问题。目前使用在语音情感识别中的特征有很多,广泛使用的是MFCC特征。但是MFCC忽略了 Mel滤波器内部的能量分布信息以及每一帧不同滤波器结果之间的局部分布信息,对噪音敏感,为此本发明提出一种同时考虑这两类信息的语音情感特征提取方法。
【发明内容】
[0004]本发明的目的在于克服现有技术的缺点与不足,提供一种结合局部与全局信息的语音情感特征提取方法,该方法简单,易于实现。
[0005]本发明的目的通过下述技术方案实现:一种结合局部与全局信息的语音情感特征提取方法,包括以下步骤:
[0006][I]将语音信号分巾贞;
[0007][2]对每一帧进行傅立叶变换;
[0008][3]使用Mel滤波器对傅立叶变换结果滤波,并对滤波结果取对数;
[0009][4]对取得的对数结果使用局部Hu运算,获得第I类特征,称为HuLFPC特征;
[0010][5]对局部Hu运算后的每一帧进行离散余弦变换,获得第2类特征,称为HuMFCC特征;
[0011][6]对第[3]步计算的对数结果进行差分运算,然后对差分运算结果的每一帧进行离散余弦变换,获得第3类特征,称为DMFCC特征。
[0012]所述的步骤[4],对步骤[3]计算的对数结果使用局部Hu运算,获得第I类特征,称为HuLFPC特征。
[0013]所述的步骤[5],对局部Hu运算后的每一帧进行离散余弦变换,获得第2类特征,称为HuMFCC特征。
[0014]所述的步骤[6],对步骤[3]计算的对数结果在一个窗口内进行差分运算,然后对差分运算结果的每一帧进行离散余弦变换,获得第3类特征,称为DMFCC特征。
[0015]本发明提取以下三类特征:
[0016]第I类特征:用于提取每个Mel滤波器内部的能量分布信息,称为HuLFPC特征,其首先将语音信号分帧,并对每一帧进行傅立叶变换;然后对傅立叶变换结果使用Mel滤波器滤波,对滤波结果求能量,并对能量取对数;再对取得的对数结果在局部窗口内求Hu矩,获得HuLFPC特征。
[0017]第2类特征:用于提取每个Mel滤波器内部的能量分布信息,称为HuMFCC特征,其方法是获得HuLFPC特征之后,对每一帧的HuLFPC特征系数进行一维DCT变换,获得HuMFCC特征。
[0018]第3类特征:用于提取每一帧不同滤波器结果之间的局部分布信息,称为DMFCC特征,其方法,首先将语音信号分帧,并对每一帧进行傅立叶变换;然后对傅立叶变换结果使用Mel滤波器滤波,对滤波结果求能量,并对能量取对数;再对取对数结果在局部窗口内求差分;最后对每一帧的差分系数进行一维DCT变换,获得DMFCC特征。
[0019]本发明的工作原理:语音情感不同时,发音清晰度、基音变化程度、发音强度、语速都会发生相应的变化,这些变化将改变语谱图能量的集中程度,如发音比较清晰、发音强度高时语谱图能量比较集中。而Hu的一阶矩恰好能够评价数据能量集中到数据重心的程度,这样能够很好的提取语音情感变化时导致语谱图上能量集中度发生的变化。另外目前大部分研究都只将导数应用到语谱图的时间轴上,以此提取能量发生变化的程度,但是情感发生变化时会改变语音信号的频率分布,从而在语谱图的频率轴上发生变化,所以本文使用频率轴上的导数来提取这些变化。
[0020]本发明相对于现有技术具有如下的优点及效果:
[0021]1、方法简单,整个特征提取框架简单,易于实现。
[0022]2、算法复杂度低,所有特征提取方法中没有计算复杂度高的公式。
[0023]3、HuLFPC具有局部旋转、平移不变性,能够突出共振峰、清音的整体能量分布信息,并且能够部分克服各种噪声。
[0024]4,HuMFCC将每一帧的各HuLFPC系数从时域转化到频域,除了具有第三个效果外,相对MFCC它能减弱基音的变化带来的能量整体偏移的影响。
[0025]5、DMFCC突出了语音能量变化剧烈的地方,减小了语音全局能量变化带来的系数偏移,同时使语谱图的能量走向更突出。
[0026]6、从附图2,3,6,7中可以看到,HuLFPC与已有的MLFPC特征相差较大;从附图4,5,8,9, 10, 11中可以看到,DMFCC、HuMFCC与已有的MFCC相差也很大,所以新提出来的三类语音特征对MFCC,MLFPC等传统语音特征有着很好的互补作用,效果明显。
【专利附图】
【附图说明】
[0027]图1是为本发明语音情感特征提取方法提取三类特征的流程图。
[0028]图2 “就是下雨也去”的MLFPC特征可视化结果。
[0029]图3 “职员完成任务”的MLFPC特征可视化结果。
[0030]图4 “就是下雨也去”的MFCC特征可视化结果。
[0031]图5 “职员完成任务”的MFCC特征可视化结果。[0032]图6 “就是下雨也去”的HuLFPC特征可视化结果。
[0033]图7 “职员完成任务”的HuLFPC特征可视化结果。
[0034]图8 “就是下雨也去”的HuMFCC特征可视化结果。
[0035]图9 “职员完成任务”的HuMFCC特征可视化结果。
[0036]图10 “就是下雨也去”的DMFCC特征可视化结果。
[0037]图11 “职员完成任务”的DMFCC特征可视化结果。
[0038]图12是语音情感识别系统结构图。
【具体实施方式】
[0039]下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0040]实施例
[0041]如图1所示,一种结合局部与全局信息的语音情感特征提取方法,包括以下步骤:
[0042]第一步:对语音信号进行分帧与加窗获得Sk(N)。采取如下两式进行分帧,其中N表示帧长,inc表示下一帧偏离的采样点个数,fix (X)求离X最近的整数,fs为语音信号的采样率,来自语音数据,bw为在语谱图中的频率分辨率,k表示第k帧,本发明取60HZ。加窗函数为Hamming窗口。
[0043]N=fix(l.81*fs/bw), (I)
[0044]inc=l.81/(4*bw), (2);
[0045]第二步:对Sk (N)执行短时傅立叶变换Fk (N),并对Fk (N)使用(3)式获得Mel频率Gk (N)。
[0046]Mel(f)=2595*lg (l+f/700), (3);
[0047]第三步:首先使用式(4)定义一个有M个滤波器的滤波器组,每个滤波器为三角滤波器,M在计算HuLFPC,HuMFCC时取160,在计算DMFCC时取40。然后使用式(5)计算第m个滤波器对第k帧滤波后的能量Ek (m)。获得的E为K*M的矩阵,其中K为一段语音的帧数。
【权利要求】
1.一种结合局部与全局信息的语音情感特征提取方法,其特征在于,包括以下步骤: [1]将语音信号分帧; [2]对每一帧进行傅立叶变换; [3]使用Mel滤波器对傅立叶变换结果滤波,并对滤波结果取对数; [4]对取得的对数结果使用局部Hu运算,获得第I类特征; [5]对局部Hu运算后的每一帧进行离散余弦变换,获得第2类特征; [6]对步骤[3]计算的对数结果进行差分运算,然后对差分运算结果的每一帧进行离散余弦变换,获得第3类特征。
2.根据权利要求1所述的结合局部与全局信息的语音情感特征提取方法,其特征在于,所述步骤[4]包括以下步骤: ①将E分成不重叠的窗口,每个窗口为3X 3大小的矩阵数据E (r, c); ②对所有E(r, c)计算Hu特征获得HuLFPC,其维度为:
(K-2) X (M-2), 其中,Hu特征计算过程如下: 首先,对二维数据E(r,c),使用以下的(6)式、(7)式和(8)式计算p+q阶几何矩mM,p+q阶中心距μ M,p+q阶归一化的中心距npq:
3.根据权利要求1所述的结合局部与全局信息的语音情感特征提取方法,其特征在于,在步骤[5]中,对每一帧的HuLFPC执行DCT算法,取第二个系数到最后一个系数组成(K-2) X (M-3)维的 HuMFCC 特征。
4.根据权利要求1所述的结合局部与全局信息的语音情感特征提取方法,其特征在于,所述步骤[6]包括以下步骤: I、对E分成重叠的3 X 3窗口,每个窗口相对前一个窗口滑动一个像素,对所有窗口使用(11)式计算差分获得DLFPC:
5.根据权利要求1所述的结合局部与全局信息的语音情感特征提取方法,其特征在于,所述步骤[I]中,采取(I)式和(2)式进行分帧:
6.根据权利要求1所述的结合局部与全局信息的语音情感特征提取方法,其特征在于,所述步骤[2]中,对Sk(N)执行短时傅立叶变换Fk(N),并对Fk(N)使用(3)式获得Mel频率Gk (N):
7.根据权利要求1所述的结合局部与全局信息的语音情感特征提取方法,其特征在于,所述步骤[3]包括以下步骤: (i )定义一个有M个滤波器的滤波器组,每个滤波器为三角滤波器; (ii )使用式(5)计算第m个滤波器对第k帧滤波后的能量Ek(m),获得的E为KXM的矩阵,其中K为一段语音的帧数:
【文档编号】G10L25/63GK103531206SQ201310460191
【公开日】2014年1月22日 申请日期:2013年9月30日 优先权日:2013年9月30日
【发明者】文贵华, 孙亚新 申请人:华南理工大学