基于多层增强hmm的语音-视觉融合的情感识别方法

文档序号:6616017阅读:407来源:国知局
专利名称:基于多层增强hmm的语音-视觉融合的情感识别方法
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种多层增强HMM(Multilayer Boosted ΗΜΜ,ΗΜΜ)的语音_视觉融合的情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio - Visual Affective Expression Recognition Through Multistream FusedHMM》(IEEE TRANSACTIONS ON MULTIMEDIA, vol. 10, no. 4, June 2008)中提出了一种多流融合HMM (MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量 HMM。他们接着在文献《Training Combination Strategy of Multi-StreamFused Hidden Markov Model for Audio-Visual Affect Recognition》(Proc. 14th ACMInt,I Conf. Multimedia (Multimedia,06), pp. 65-68, 2006.)中扩展了该框架,米用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献〈〈Audiovisual Discrimination between Laughter and Speech)) (IEEE Int’ I Conf.Acoustics, Speech, and Signal Processing(ICASSP), pp. 5117-5120, 2008.)中使用神经网络来合并语音-视觉通道的信息。这些方法的缺点是这些方法在使用某个模态的特征流训练分类器时,没有对用其它模态的特征难于识别的样本进行重点训练,在使用同一模态的样本进行训练时,也未对同一模态的样本中难于识别的样本进行重点训练,从而造成识别率不高。本发明中涉及到的重要已有技术有隐马尔可夫模型;AdaBoost方法。(I)隐马尔可夫模型隐马尔可夫模型是一种有效的描述存在于离散时间段上的具有关联关系的数据序列的统计学方法。隐马尔科夫模型的理论基础是在1970年前后由Baum等人建立起来的,随后有CMU的Baker和IBM的Jelinek等人将其应用到语音识别之中,由于Bell实验室Rabiner等人在80年代中期对隐马尔科夫模型的深入浅出的介绍,才逐渐使隐马尔科夫模型为世界各
1国从事语音处理的研究员所了解和熟悉,进而成为公认的一个研究热点。隐马尔科夫模型是在Markov链(一种有限状态机)的基础上发展起来的。首先介绍两个概念状态集合和观察序列。状态集合指隐马尔科夫模型所具有的全部状态IS1, . . .,Si,. . .,SN},其中N为状态数;观察序列是一个具有上下文关联性的数据序列,用V1, , Vt, . . . , Vt表示,V1, . . .,Vt, . · .,Vt为一个观测序列,其中Vt=Cb,表示该序列中时刻t的元素的取值为cb,I < b < B,B表示每个状态可输出的元素(值)的总数。由于实际问题比Markov链模型所描述的更为复杂,观察到的观察序列中的元素并不是与Markov链中的状态对应,而是通过一组概率分布相联系。这样,站在观察者的角度,只能看到观察值,不像Markov链模型中的观察值和状态一一对应。因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,这就是所谓的“隐”Markov模型,即 Hidden Markov Model (HMM)0隐马尔科夫模型的三个基本问题是评估问题、解码问题及学习问题。其中,学习问题是使模型参数最优化,及调整模型参数,以使模型能最好的描述一个给定观测序列,最好的说明这个观测序列就是最优化模型产生出来的,用来解决分类问题。 (2) AdaBoost 方法AdaBoost (adaptive boosting,自适应增强)方法是 “Boosting” 方法中的一种。该方法允许设计者不断的加入新的“弱分类器”,直到达到某个预定的足够小的误差率。在AdaBoost方法中,每一个训练样本都被赋予一个权重,表明它被某个分量分类器选入训练集的概率;相反,如果某个样本点没有被正确分类,那么它的权重就得到提高。通过这样的方式,AdaBoost方法能够“聚焦于”那些较困难识别的样本上。

发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种多层增强HMM的语音-视觉融合的情感识别方法。本发明的目的是通过下述技术方案实现的。一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情。所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分训练过程和识别过程。所述训练过程的具体实施步骤如下步骤一、对训练数据中的情感视频数据进行预处理。将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R > 20。分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列。一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据
流,这三种特征数据流用符号Xv表示i 1 =I^j ^,V e {a, f, s};其中,a表示音频,f表示
表情,s表示肩部^表示V特征数据流中的第r个观察向量序列音频观察向量序列表情观
1察向量序列肩部观察向量序列;1 < r < R。所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为第I步从每个情感视频中以Va的采样率提取m帧图像组成一个图像序列,va ^ 5赫兹(Hz),m=vaXta,ta为情感视频的时间长度。由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像。第2步依次从每个图像序列中的各帧图像中提取Θ个脸部表情特征值,分别用T1至T0表示,Θ彡5。所述脸部表情特征值包括脸部几何特征值;脸部纹理特征值。步骤一第2步中所述依次从每个图像序列中的各帧图像中提取Θ个脸部几何特征值,0=10,其具体步骤为第2. I步依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(Xl,yi)、(x2,y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4, y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6, y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8, y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(xlcl,y1(l)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(Xll,yn)、(x12, y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14, Y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17, y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18, y18)、(x19, y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x2CI,y2(l)表示。所述标识20个脸部特征点的方法包括①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。第2. 2步根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点;所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。第2. 3步根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至Tltl,具体为(I)两眼宽度的平均值,用T1表示,T^d X9-X51+ I X10-X6I )/2 ; (2)两眼高度的平均值,用 T2 表示,T2=( Iy11-Y7I+ I y12-y8D/2 ;⑶两支眉毛宽度的平均值,用T3表示,Τ3=(|Χ3-Χι| + |Χ4-χ2|)/2 ;⑷两支眉毛高度的平均值,用T4表示,T4=(|y3-yi| + |y4-y2|) / 2 ; (5)内眼角和眉头之间垂直距离的均值,用T5表示,T5=(|y5-yi| + |y6-y2|) / 2 ; (6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6=(|y16-y15| + |y17-y15|) / 2 ; (7)嘴角和外眼角垂直距离的均值,用T7表示,T7= (IY16-Y9I+ IY17-Y10I)/2;(8)嘴张开宽度,用 T8表示,T8=IX17-X16 ;(9)嘴张开高度,用 T9表示,T9=|y18-y19| ; (10)鼻尖和下巴的距离,用 Tltl 表示,T1(l=|y15-y2(l|。
15
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表情特征值T8至Tltl的影响,第2. 3步中所述计算脸部表情特征值T8至Tltl的优选方法是在第2. 3步操作的基础上,在每个图像序列中的第η帧图像中,l〈n〈m,将T8至Tltl这三个特征值分别用相应特征在第(η-I)帧、第η帧、第(η+1)帧图像中的均值来替换。第3步为了解决因不同人脸型不同造成的对脸部表情特征值1\至1\的影响,对所有图像的脸部表情特征值T1至Te进行归一化处理,具体为第3. I步从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。第3. 2步分别计算经过第3. I步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、τ0的均值,分别用Ij至右表示;第3. 3步用巧对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T' !表示,71,= 7^ ;用巧对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T' 2表示,石= r2/f2 ;……;以此类推,用^对待处理图像的脸部表情特征值Tg进行归一化处理,归一化处理后的脸部表情特征值1\用符号T' αη=τβ丨%0第4步获得每个图像序列中各帧图像的表情观察向量,用V,表示,I彡q彡m。一个图像序列中第q帧图像的表情观察向量'由经过第3步归一化处理后的Θ个特征值组成,Vq= [fql, fq2,……,fqe]T, fql为该图像序列的第q帧图像中经过归一化处理的第I个脸部表情特征值T' 1;fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T' 2,……,以此类推,fqe为该图像序列的第q帧图像中经过归一化处理的第Θ个脸部表情特征值T' 0。第5步对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M= [V1, V2,…-,Vm] e R0x'第6步依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至Ls表示,δ彡5。步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,δ =10,其具体步骤为第6. I步依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(X' ,,l' 1)>(x/ 2,l' 2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(X' 3,y, 3)、(χ' 4,y, 4)表示;第5肩部运动特征点位于喉咙位置,用(X' 5,ι' 5)表示。所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括人工手动标识。第6. 2步根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点;所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪。第6. 3步根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至Lltl,具体为将每帧图像的第I个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第I个肩部运动特征点的水平位移作为该帧图像的第I个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第I个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第I个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用Lltl表示。第7步为了解决因不同人体型不同造成的对肩部运动特征值1^至1^的影响,对所有图像的肩部运动特征值L1至Ls进行归一化处理,具体为第7. I步从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像。第7. 2步分别计算经过第7. I步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、LS的均值,分别用!!至表不。第7. 3步用ζ对待处理图像的肩部运动特征值L1进行归一化处理,归一化处理后的肩部运动特征值L1用符号L' i表示,用4对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L' 2衰示,L11=L1II1 ;……;以此类推,用^对待处理图像的肩部运动特征值Ls进行归一化处理,归一化处理后的肩部运动特征值Ls用符号L' s表示,第8步获得每个图像序列中各帧图像的肩部观察向量,用V",表示,I彡q彡m。一个图像序列中第q帧图像的肩部观察向量V ",由经过第7步归一化处理后的δ个肩部运动特征值组成,V" q=[f" ql,f" q2)……,f" q5]T, " ql为该图像序列的第q帧图像中经过归一化处理的第I个肩部运动特征值L' 1; f" q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L' 2,……,以此类推,f" 为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L' s。第9步对于一个情感视频,使用矩阵Μ"来表示其肩部观察向量序列,Μ" =[V" P V" 2,……,V" m] e Rs Xm。步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为
步骤a :从每个情感视频中以Vb的采样率提取P个音频巾贞组成一条音频序列,vb ^ 5 赫兹(Hz), p=vbXta。步骤b :依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1Ia表示,a彡4。所述音频特征值包括信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数(Linear Prediction Cepstral Coefficients, LPCC);线谱对参数(LineSpectrum Pair,LSP) ;Mel 频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC);感知线性预测倒谱系数(Perceptual Linear Prediction Cepstral Coefficients,PLPCOo步骤c :对所有音频帧的音频特征值F1Ia进行归一化处理,具体为步骤c. I :找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧。步骤c. 2 :分别计算经过步骤c. I处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fa的均值,分别用F1至&表示;步骤c. 3 :用巧对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F' i表示,F/=巧/巧;用曷对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F' 2表示,朽=FjF2 ;……;以此类推,用^对待处理音频帧的音频特征值Fa进行归一化处理,归一化处理后的音频特征值Fa用符号F' HFa=FjFa 0步骤d:获得每个音频序列中各音频帧的音频观察向量,用V' t表示,l<t<p。一个音频序列中的第t帧音频帧的音频观察向量V t由经过归一化处理后的a个特征值组成,V' t=[f' tl, f/ t2,……,f' ta]T,f/ tl为该音频序列的第t帧音频帧中经过归一化处理的第I个音频特征值F' 1; f/ t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F, 2,……,以此类推,f' ta为该音频序列的第t帧音频帧中经过归一化处理的第a个音频特征值F' a。步骤f:对于一个情感视频,使用矩阵M'来表示其音频观察向量序列,W =[N' 1; N' 2,……,V, p] e RaXp。步骤二、建立MBHMM分类器。在步骤一操作的基础上,建立MBHMM分类器。所述MBHMM分类器包括第I层整体分类器、第2层整体分类器和第3层整体分类器。每层整体分类器由从左向右的K'个连续型HMM分量分类器组合而成,I < K' ^ K, K的值由人为预先设定,4 ^ 10 ;三层整体分类器中连续型HMM分量分类器的模型参数表示为A={N,A,Wi,d,μΜ, Um, π};其中,N表示模型的状态数;η表示状态初始概率;Α为状态转移概率矩阵,A= {aij , I ^ i, j ^ Iai,j表示从状态Si转移到状态S」的概率。 用S= (S1, S2,……,SN}表示状态集合,Si=I。观察概率密度函数为混合高斯密度函数,如公式(I)所示。
权利要求
1.一种多层增强HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括中性、高兴、生气、惊讶、恐惧、悲伤、厌恶;所述情感视频是指包含人脸表情、肩部运动和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于所述多层增强HMM的语音-视觉融合的情感识别方法包括2部分训练过程和识别过程;所述训练过程的具体实施步骤如下 步骤一、对训练数据中的情感视频数据进行预处理; 将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R ^ 20 ;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列、肩部观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的肩部观察向量序列的集合称为肩部特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这三种特征数据流用符号Xv表示,XV=|4^=i,v e {a, f, s};其中,a表示音频,f表示表情,s表示肩部表示V特征数据流中的第r个观察向量序列音频观察向量序列表情观察向量序列肩部观察向量序列;1彡r彡R ; 所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和肩部观察向量序列的具体步骤为 第I步从每个情感视频中以Va的采样率提取m巾贞图像组成一个图像序列,Va > 5赫兹,m=vaXta, ta为情感视频的时间长度; 第2步依次从每个图像序列中的各帧图像中提取Θ个脸部表情特征值,分别用T1至T 9 表不,9^5; 所述脸部表情特征值包括脸部几何特征值;脸部纹理特征值; 第3步为了解决因不同人脸型不同造成的对脸部表情特征值T1至Te的影响,对所有图像的脸部表情特征值T1至Te进行归一化处理,具体为 第3. I步从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像; 第3. 2步分别计算经过第3. I步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中脸部表情特征值T1的均值、T2的均值、……、Te的均值,分别用I!至%表示; 第3. 3步用g对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T1用符号T' !衰示,T{=TJTX ;用右对待处理图像的脸部表情特征值T2进行归一化处理,归一化处理后的脸部表情特征值T2用符号T' 2表示,g = r2/f2 ;……;以此类推,用^对待处理图像的脸部表情特征值Tg进行归一化处理,归一化处理后的脸部表情特征值Te用符号T' 0表示,K =4/$; 第4步获得每个图像序列中各帧图像的表情观察向量,用Vq表示,I < q < m ; —个图像序列中第q帧图像的表情观察向量Vq由经过第3步归一化处理后的Θ个特征值组成,Vq= [fql, fq2,……,fqe]T,fql为该图像序列的第q帧图像中经过归一化处理的第I个脸部表情特征值T' 1; fq2为该图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T' 2,……,以此类推,fqe为该图像序列的第q帧图像中经过归一化处理的第Θ个脸部表情特征值T' θ ; 第5步对于一个情感视频,使用矩阵M来表示其表情观察向量序列,M= [V1, V2,……,VJ e Rexm5 第6步依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,分别用L1至L5表示,δ≥5 ; 第7步为了解决因不同人体型不同造成的对肩部运动特征值L1至Ls的影响,对所有图像的肩部运动特征值L1至Ls进行归一化处理,具体为 第7. I步从全部图像序列中找出包含待处理图像中人脸的所有图像序列;所述待处理图像为当前等待做归一化处理的图像; 第7. 2步分别计算经过第7. I步处理后得到的包含待处理图像中人脸的所有图像序列的第一帧图像中肩部运动特征值L1的均值、L2的均值、……、LS的均值,分别用:ζ至尽表示; 第7. 3步用ζ对待处理图像的肩部运动特征值1^进行归一化处理,归一化处理后的肩部运动特征值L1用符号L' i表示,Li=IjEl SfflZ2对待处理图像的肩部运动特征值L2进行归一化处理,归一化处理后的肩部运动特征值L2用符号L' 2表示,I〗 =Ζ2/Γ2 ;……;以此类推,用对待处理图像的肩部运动特征值Ls进行归一化处理,归一化处理后的肩部运动特征值Ls用符号L' δ表不,Lg — LgjLg - 第8步获得每个图像序列中各帧图像的肩部观察向量,用V" q表示,I≤q≤m; —个图像序列中第q帧图像的肩部观察向量V",由经过第7步归一化处理后的δ个肩部运动特征值组成,V" q=[f" ql,f" q2,……,f" qS]T,f" ql为该图像序列的第q帧图像中经过归一化处理的第I个肩部运动特征值L' 1; f" q2为该图像序列的第q帧图像中经过归一化处理的第2个肩部运动特征值L' 2,……,以此类推,f" qS为该图像序列的第q帧图像中经过归一化处理的第δ个肩部运动特征值L' δ ; 第9步对于一个情感视频,使用矩阵Μ"来表示其肩部观察向量序列,Μ" =[V" 1;V" 2,……,V" J e R5xm; 步骤一中所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的具体步骤为 步骤a :从每个情感视频中以Vb的采样率提取P个音频巾贞组成一条音频序列,Vb > 5赫兹,p=vbXta ; 步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F1Ia表示,a≤4 ; 所述音频特征值包括信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数; 步骤c :对所有音频帧的音频特征值F1Ia进行归一化处理,具体为 步骤c. I :找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧; 步骤c. 2 :分别计算经过步骤c. I处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F1的均值、F2的均值、……、Fa的均值,分别用巧至巧表示; 步骤c. 3 :用巧对待处理音频帧的音频特征值F1进行归一化处理,归一化处理后的音频特征值F1用符号F' i表示,;用,对待处理音频帧的音频特征值F2进行归一化处理,归一化处理后的音频特征值F2用符号F' 2表示,F2'=巧/巧;……;以此类推,用&对待处理音频帧的音频特征值Fa进行归一化处理,归一化处理后的音频特征值?。用符号F' a轰示,K =PaIK ; 步骤d :获得每个音频序列中各音频帧的音频观察向量,用V' t表示,I < t < P ; —个音频序列中的第t帧音频帧的音频观察向量V t由经过归一化处理后的a个特征值组成,V' t=[f' tl,f' t2,……,f' t JT,f' tl为该音频序列的第t帧音频帧中经过归一化处理的第I个音频特征值F' 1; f/ t2为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F, 2,……,以此类推,f' ta为该音频序列的第t帧音频帧中经过归一化处理的第a个音频特征值F' a ; 步骤f:对于一个情感视频,使用矩阵M'来表示其音频观察向量序列,M' =[V' 1;V, 2)……,V, P] e Raxp; 步骤二、建立MBHMM分类器; 在步骤一操作的基础上,建立MBHMM分类器;所述MBHMM分类器包括第I层整体分类器、第2层整体分类器和第3层整体分类器;每层整体分类器由从左向右的K'个连续型HMM分量分类器组合而成,I < K' < K,K的值由人为预先设定,4 < 10 ;三层整体分类器中连续型HMM分量分类器的模型参数表示为A={N,A,Wi,d,μΜ, Um, π};其中,N表示模型的状态数;η表示状态初始概率;Α为状态转移概率矩阵,A={ai;J}, I ^ i, j ^ N, Bijj表示从状态Si转移到状态S」的概率; 用S= (S1, S2,……,SN}表示状态集合,Si=I ; 观察概率密度函数为混合高斯密度函数,如公式(I)所示;
2.如权利要求I所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤一第2步中所述依次从每个图像序列中的各帧图像中提取Θ个脸部几何特征值,9=10,其具体步骤为 第2. I步依次在每个图像序列中的第一帧图像中标识出20个脸部特征点;其中,第1、2特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(Xl,Y1)、(x2, y2)表示;第3、4特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4, y4)表示;第5、6特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6, y6)表示;第7、8特征点分别位于右边眼睛和左边眼睛的最低点,分别用U7, Y7)、(x8, y8)表示;第9、10特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10, y10)表示;第11、12特征点分别位于右边眼睛和左边眼睛的最高点,分别用(xn,yn)、(x12, y12)表示;第13、14特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14, Y14)表示;第15特征点位于鼻尖位置,用(x15,y15)表示;第16、17特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(χ17, y17)表示;第18、19特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18, y18)、(χ19, y19)表示;第20特征点位于脸部中心线与脸部轮廓线相交的最低点,用(χΜ,y2。)表示; 第2. 2步根据每个图像序列中的第一帧图像中的20个特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点; 第2. 3步根据各图像中的20个特征点的位置,分别计算每个图像序列中的各帧图像的10个脸部表情特征值T1至Tltl,具体为(I)两眼宽度的平均值,用T1表示,T^d X9-X51+ I X10-X6I )/2 ; (2)两眼高度的平均值,用 T2 表示,T2=( Iy11-Y71+ Iy12-Y81) /2; (3)两支眉毛宽度的平均值,用T3表不,Τ3=( I X3-X11 +1 χ4-χ21) / 2; (4)两支眉毛闻度的平均值,用T4表示,T4=(|y3-yi| + |y4-y2|) / 2 ; (5)内眼角和眉头之间垂直距离的均值,用1~5表示,T5=( I Y5-Y11+ I y6-y21) / 2; (6)鼻尖和左右嘴角的垂直距离均值,用T6表示,T6= (I y16-y151 +1 y17-y151) /2 ; (7)嘴角和外眼角垂直距离的均值,用T7表示,T7= (IY16-Y9I+ IY17-Y10I)/2;(8)嘴张开宽度,用 T8表示,T8=IX17-X16 ;(9)嘴张开高度,用 T9表示,T9=|y18-y19| ; (10)鼻尖和下巴的距离,用 Tltl 表示,T1(l=|y15-y2(l|。
3.如权利要求2所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤一第2步第2. I步中所述标识20个脸部特征点的方法包括①人工手动标识;②使用基于Gabor特征的增强分类器方法实现对20个脸部特征点的自动定位。
4.如权利要求2或3所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤一第2步第2. 2步中所述定位出该图像序列中除第一帧图像以外的后续帧图像中的20个脸部特征点的方法包括①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对20个脸部特征点的自动跟踪。
5.如权利要求2至4之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤一第2步第2. 3步中所述计算脸部表情特征值T8至Tltl的优选方法是在第2. 3步操作的基础上,在每个图像序列中的第η帧图像中,l〈n〈m,将T8至Tltl这三个特征值分别用相应特征在第(η-l)帧、第η巾贞、第(η+1)帧图像中的均值来替换。
6.如权利要求I至5之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤一第6步中所述依次从每个图像序列中的各帧图像中提取δ个肩部运动特征值,δ =10,其具体步骤为 第6. I步依次在每个图像序列中的第一帧图像中标识出5个肩部运动特征点;其中,第1、2肩部运动特征点分别位于右肩部轮廓线的最右侧位置和左肩部轮廓线的最左侧位置,分别用(X' 1,y' 1)>(x/ 2,y' 2);第3、4肩部运动特征点分别位于右肩部轮廓线的中间位置和左肩部轮廓线的中间位置,分别用(X' 3,y' 3)、(x' 4,y' 4)表示;第5肩部运动特征点位于喉咙位置,用(X' 5,y, 5)表示; 所述依次在每个图像序列中的第一帧图像中标识5个肩部运动特征点的方法包括人工手动标识; 第6. 2步根据每个图像序列中的第一帧图像中的5个肩部运动特征点的位置,定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点; 所述定位出该图像序列中除第一帧图像以外的后续帧图像中的5个肩部运动特征点的方法包括①人工手动标识;②使用基于分解概率的粒子滤波跟踪算法实现对5个肩部运动特征点的自动跟踪; 第6. 3步根据各图像中的5个肩部运动特征点的位置,分别计算每个图像序列中的各帧图像的10个肩部运动特征值L1至Lltl,具体为将每帧图像的第I个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第I个肩部运动特征点的水平位移作为该帧图像的第I个肩部运动特征值,用L1表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的水平位移作为该帧图像的第2个肩部运动特征值,用L2表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的水平位移作为该帧图像的第5个肩部运动特征值,用L5表示;将每帧图像的第I个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第I个肩部运动特征点的垂直位移作为该帧图像第6个肩部运动特征值,用L6表示;将每帧图像的第2个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第2个肩部运动特征点的垂直位移作为该帧图像第7个肩部运动特征值,用L7表示;以此类推,将每帧图像的第5个肩部运动特征点相对于该帧图像所在图像序列的第一帧图像的第5个肩部运动特征点的垂直位移作为该帧图像第10个肩部运动特征值,用Ljo 不 O
7.如权利要求I至6之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤三步骤5的操作还可以是使用改进EM算法迭代调整步骤4中所述连续型HMM分量分类器# Ζ的模型参数,得到最优模型参数,其操作步骤与使用EM算法迭代调整步骤4中所述连续型HMM分量分类器<1的模型参数的操作步骤之间的区别仅在于步骤5. 4步中的公式(6)至公式(9)分别用公式(10)至公式(13)替换;
8.如权利要求I至7之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤三步骤6中所述判断某一特征观察序列<是否被连续型HMM分量分类器0f,Z正确分类的方法为 步骤6. I :首先取出MBHMM分类器Φ。中的连续型HMM分量分类器#然后对其它并行训练的(C-I)个MBHMM分类器分别进行如下操作如果c' e {1,2,……,c-1} U {c+l,c+2,……,C)人&表示整体分类器中包含的连续型HMM分量分类器的个数,则取出第c'个MBHMM分类器中的连续型HMM分量分类器否则,取出第c'个MBHMM分类器中的连续型HMM分量分类器; iV 步骤6. 2 :分别计算观察向量序列4在步骤6. I取出的C个连续型HMM分量分类器下的概率;如果观察向量序列#属于第c个情感类别,且观察向量序列 <在连续型HMM分量分类器$ 1下的概率最大,则认为观察向量序列J被正确分类;否则,认为观察向量序列;4’未A·/A被正确分类。
9.如权利要求I至8之一所述的一种多层增强HMM的语音-视觉融合的情感识别方法,其特征在于训练过程的步骤三步骤12中所述判断某一特征观察序列^是否被整体分类器匕正确分类的方法为首先取出第c个MBHMM分类器Φ。中的第L层整体分类器< ;然后分别取出其它并行训练的(C-I)个MBHMM分类器Φ。,中的第L层整体分类器yf,通过公式(16)分别计算观察向量序列< 在这C个整体分类器下的概率,用符号P/表示;如果观察向量序列<属于第c类情感类别,且观察向量序列<在整体分类器<下的概率最大,则认为观察向量序列被正确分类;否则,认为观察向量序列γ丨未被正确分类;
全文摘要
本发明提出的一种基于多层增强HMM(MBHMM)的语音-视觉融合的情感识别方法,属于自动情感识别领域。本发明方法中提出的MBHMM分类器包括3层整体分类器,每层整体分类器由从左向右的多个连续型HMM分量分类器组合而成。使用情绪视频中的语音、脸部表情、肩部运动三种特征流分别作为3层整体分类器的输入,在训练整体分类器时通过AdaBoost方法不断更新各样本的权重,同时通过AdaBoost方法确保在使用某一特征流训练当前层整体分类器时着重于前一特征流的整体分类器难于识别的样本。本发明方法与已有识别方法相比较明显提高了分类的准确度。
文档编号G06K9/62GK102930298SQ20121045917
公开日2013年2月13日 申请日期2012年11月15日 优先权日2012年9月2日
发明者吕坤, 贾云得, 邹文泽, 张欣 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1