基于语义细胞的语音情感识别方法

文档序号:2827715阅读:398来源:国知局
基于语义细胞的语音情感识别方法
【专利摘要】本发明公开了一种基于语义细胞的语音情感识别方法,包括:构建语音库,对语音库中每一条语音信号,进行预处理和进行情感特征提取,根据提取结果计算每条语音信号的特征向量,利用特征向量训练得到基于语义细胞的混合模型作为分类器的识别模型,利用该识别模型识别待识别语音信号所属的情感类别。本发明的语音情感识别方法基于双层语义细胞的识别法,采用构建识别说话人、说话人情感的二层语义细胞的混合模型对对语音情感建立识别模型,利用该方法建立的识别模型进行语音情感识别时精准度高,且在保证与SVM算法相同识别准确度的前提下,仍然有效地降低存储识别模型所需的数据量,在空间复杂度及识别准确度上均具备优势。
【专利说明】基于语义细胞的语音情感识别方法

【技术领域】
[0001]本发明涉及语音识别【技术领域】,具体涉及一种基于语义细胞的语音情感识别方法。

【背景技术】
[0002]语音是用来表示语言的声音符号,是人类相互交流、传递情感的重要媒介之一。语音情感识别是情感计算领域的重要研究方向,其目标是通过语音信号识别说话者的情感状态,最终实现自然、友好、生动的人机交互。
[0003]语音情感识别技术可用于交互式教学、智能车载系统、智能家电等诸多领域,如Schuller等研发的在线电影和计算机教程应用程序中,系统根据检测到的情感信息对用户做出响应(Schuller B, Rigoll G, Lang M. Speech emotion recognitioncombining acoustic features and linguistic information in a hybrid supportvector machine-belief network architecture.//Acoustics,Speech,and SignalProcessing, 2004. Proceedings. (ICASSPi04). IEEE International Conferenceon. IEEE. Montreal,Canada,2004:1:1-577_80vol. I.) ; Jones 等将语音情感识别技术用于车载系统,合成与驾驶人情感匹配的提示语音以增强驾驶体验(见:Jones CMjJonsson M. Performance analysis of acoustic emotion recognition for in-carconversational interfaces//Universal Access in Human-Computer Interaction.Ambient Interaction. Springer. Heidelberg, Berlin, 2007:411-420.)。
[0004]使用语音特征数据训练分类器是目前语音情感识别系统的主要做法,如基于支持向量机(SVM)、人工神经网络(ANN)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、k_近邻(k-NN) .AdaBoost等。每种分类器都有其优缺点,如GMM分类器训练时间少,但对模型初始化参数敏感;SVM分类器需要相对较长时间的训练,但对模型初始值不敏感。
[0005]此外,由于传统k-NN算法需要存储所有的特征数据,GMM算法需要存储各维度各高斯分量的参数,SVM算法需要存储用于分割超平面的支持向量,直接导致识别模型需要的存储空间大。


【发明内容】

[0006]本发明利用语义细胞认知结构上的优势,克服现有语音情感识别算法生成模型占用数据空间大的不足,且能保持与SVM算法相似的识别精准度。
[0007]一种基于语义细胞的语音情感识别方法,包括:
[0008](I)构建语音库,所述语音库中包括若干个语音参照人的若干条不同情感的语音信号;
[0009](2)针对语音库中任意一条语音信号,进行预处理将当前语音信号划分为若干帧,并对每一帧进行情感特征提取,根据提取结果计算当前语音信号的特征向量;
[0010](3)根据所述的特征向量,利用基于语义细胞的混合模型训练得到分类器的识别模型;
[0011](4)利用所述的识别模型识别待识别语音信号所属的情感类别。
[0012]语义细胞(Information Cell)理论由汤永川和Lawry J.共同提出(Tang Y, LawryJ. Information Cell Mixture Models:The Cognitive Representations of VagueConcepts//Integrated Uncertainty Management and Applications. Heidelberg, Berlin:Springer, 2010:371-382.),其基础是模糊计算和原型理论,主要思想是:概念并不由形式规则或映射来表示,而是由其原型来表示,概念范畴基于同原型的相似性来判定。语义细胞具有透明的认知结构,符合人类学习概念的认知过程,具有坚实的认知心理学基础与严格的数学定义,具备描述模糊概念的先天优势。语音情感识别是模糊概念领域中的典型问题,语音中的情感分类(如愤怒、惊奇等)是一种模糊概念,难以凭借具体规则进行界定。而通过原型表达概念的语义细胞因为其不依赖具体分类规则的特点,适合于语音情感识别。因此,基于语义细胞的混合模型训练得到的分类器能够有效的提高分类器的识别率。
[0013]本发明中分类器的识别模型为各个语义细胞的混合模型。由于语义细胞的混合模型可以简单的采用相应的模型参数和语义细胞中心即可,因此大大节省了存储空间。训练时采用的语音库中对语音参照人的个数和情感种类可根据情况设定。通常设定的语音参照人的个数为2?7个,情感种类为4?6种,每个语音参照人对应的每种情感的语音信号为30?100条。
[0014]所述步骤(2)预处理依次包括预加重处理和分帧加窗处理。
[0015]语音信号的功率谱随频率的增加而减小,其大部分能量集中在低频范围内。这就造成语音信号高频端的信噪比可能降到不能容许的程度。但是由于语音信号中较高频率分量的能量小,很少有足以产生最大频偏的幅度,因此产生最大频偏的信号幅度多数是由信号的低频分量引起,通常幅度较小的高频分量产生的频偏小得多。通过预加重处理人为地加重(提升)发射机输入调制信号的高频分量能够有效地提高语音信号的信噪比。作为优选,本发明中预加重滤波采用的传递函数为:H(z) = 1-0. 97z'分帧加窗通过汉明窗实现,窗长是25ms,窗移10ms。通过分巾贞加窗处理,有效消除了吉布斯效应。通过分巾贞加窗将每条语音信号划分为若干个短时的语音段,一个短时的语音段称为一帧,且各帧按照时间顺序都具有相应的编号(即帧序号)。
[0016]所述步骤(2)通过如下步骤得到特征向量:
[0017](2-1)提取当前语音信号中每一帧的情感特征,并计算每个情感特征的一阶差分系数,所述的情感特征包括能量方均根、I至12阶MFCC系数、过零率、浊音度(VoicingProbability)、FO 倒谱基频;
[0018](2-2)针对每一项情感特征及其一阶差分系数计算以下12项统计值:最大值、最小值、最大值与最小值的差、最大值帧位置、最小值帧位置、算术均值、标准差、三阶偏度系数、四阶峰度系数,以及线性拟合的斜率、截距和平方误差;
[0019](2-3)根据各项情感特征的统计值构建得到当前语音信号的特征向量。
[0020]为提高识别率,提取的情感特征包含声学特征及韵律学特征共5类。本发明中先分开对每一帧进行特征提取,然后对所有帧的提取到的情感特征进行统计,使用整段语音的全局特征能更好地避免个别帧出现数据抖动的情况。最大值帧位置为统计得到的相应情感特征或其一阶差分系数最大的帧的帧序号,最小值帧位置则为最小的帧的帧序号。
[0021]步骤(2-3)中直接将当前语音信号对应的所有情感特征,以及相应的一阶差分系数的统计值排列成行向量即得到当前语音信号的特征向量。排列成行向量时可以按照任意顺序进行,但是对于所有的语音信号而言,各个统计值应该按照相同的顺序排列。
[0022]对于每一个语音信号,得到特征向量为384维,数据量庞大,导致后续训练和识别的效率较低,因此,作为优选,所述步骤(3)训练前先采用主成分分析法对所有特征向量进行降维处理得到相应的简化特征向量。
[0023]降维处理过程如下:
[0024]采用主成分分析法确定降维变换矩阵,利用所述的降维变换矩阵对所有特征向量进行降维处理。
[0025]在降维处理前,通常将语音库中所有语音信号对应的简化特征向量作为一行,构建得到特征矩阵,然后采用零-均值规范化法(z-score规范化)对矩阵中的每一列进行归一化之后,再采用主成分分析法确定降维变换矩阵,并进行降维。且在主成分分析法降维前,需要确定降维后的维数,具体根据实际情况设定。本发明中降维后的特征向量的维数为30?110维,相应的主成分分析法时提取的主成分的个数即为30?110个。
[0026]所述步骤(3)具体如下:
[0027]针对语音库中的任意一个语音参照人,以当前语音参照人所有情感对应的简化特征向量为训练集,训练得到基于语义细胞的混合模型,并作为用于识别该语音参照人的识别丰旲型;
[0028]针对语音库中的任意一个语音参照人的任意一种情感,以当前语音参照人当前情感对应的所有简化特征向量为训练集,训练得到基于语义细胞的混合模型,并作为用于识别该语音参照人的相应情感的识别模型。
[0029]对于不同的个体而言,其发音方式不尽相同,表述自身情感的方式也有差异。有研究区分性别地提取语料中的情感特征,再使用朴素贝叶斯分类器进行语音情感识别,相比性别区分前,识别准确率提高了 3. 57% (见:Gupta S,Mehra A. Gender specific emotionrecognition through speech signals//Signal Processing and Integrated Networks (SPIN), 2014International Conference on. IEEE. Noida, India, 2014:727-733.)。鉴于上述原因,本发明采用“说话人识别-说话人情感识别”的双层结构,即用“识别语音参照人+识别该语音参照人的相应情感”的识别模型进行语音情感识别大大提高了识别率,并有效降低了识别模型所需要的存储空间。
[0030]对语义细胞的混合模型训练的过程具体包括:
[0031](a)对训练集中的所有简化特征向量进行聚类得到若干个聚类中心,并作为各个语义细胞的中心;
[0032](b)针对每一个语义细胞,利用训练集中各个简化特征向量到该语义细胞的中心的距离计算该语义细胞的位置参数和尺度参数,并设定各个该语义细胞对混合模型的贡献程度参数,得到基于语义细胞的混合模型,其中,第i个语义细胞Li的混合模型的位置参数、尺度参数以及对混合模型的贡献程度参数分别记为Ci(0)、(Oi(O))2和PHLi(O));
[0033](C)采用循环迭代法更新所述的混合模型,第t次循环迭代的目标函数为:
[0034]
Ji CCP) = Σ?=ι 1η(ΣΓ=ι S{eikICi(t), Oi(O)Pr 队(0)),
[0035]直至相邻两次循环迭代得到的目标函数的值之差(为差的绝对值,即

【权利要求】
1.一种基于语义细胞的语音情感识别方法,其特征在于,包括: (1)构建语音库,所述语音库中包括若干个语音参照人的若干条不同情感的语音信号; (2)针对语音库中任意一条语音信号,进行预处理将当前语音信号划分为若干帧,并对每一帧进行情感特征提取,根据提取结果计算当前语音信号的特征向量; (3)根据所述的特征向量,利用基于语义细胞的混合模型训练得到分类器的识别模型; (4)利用所述的识别模型识别待识别语音信号所属的情感类别。
2.如权利要求I所述的基于语义细胞的语音情感识别方法,其特征在于,所述步骤(2)预处理依次包括预加重处理和分帧加窗处理。
3.如权利要求2权利要求所述的基于语义细胞的语音情感识别方法,其特征在于,所述步骤(2)通过如下步骤得到特征向量: (2-1)提取当前语音信号中每一帧的情感特征,并计算每个情感特征的一阶差分系数,所述的情感特征包括能量方均根、I至12阶MFCC系数、过零率、浊音度、H)倒谱基频; (2-2)针对每一项情感特征及其一阶差分系数计算以下12项统计值:最大值、最小值、最大值与最小值的差、最大值帧位置、最小值帧位置、算术均值、标准差、三阶偏度系数、四阶峰度系数,以及线性拟合的斜率、截距和平方误差; (2-3)根据各项情感特征的统计值构建得到当前语音信号的特征向量。
4.如权利要求I权利要求所述的基于语义细胞的语音情感识别方法,其特征在于,所述步骤(3)训练前先采用主成分分析法对所有特征向量进行降维处理得到相应的简化特征向量。
5.如权利要求4权利要求所述的基于语义细胞的语音情感识别方法,其特征在于,降维处理过程如下: 采用主成分分析法确定降维变换矩阵,利用所述的降维变换矩阵对所有特征向量进行降维处理。
6.如权利要求4所述的基于语义细胞的语音情感识别方法,其特征在于,所述步骤(3)具体如下: 针对语音库中的任意一个语音参照人,以当前语音参照人所有情感对应的简化特征向量为训练集,训练得到基于语义细胞的混合模型,并作为用于识别该语音参照人的识别模型; 针对语音库中的任意一个语音参照人的任意一种情感,以当前语音参照人当前情感对应的所有简化特征向量为训练集,训练得到基于语义细胞的混合模型,并作为用于识别该语音参照人的相应情感的识别模型。
7.如权利要求6所述的基于语义细胞的语音情感识别方法,其特征在于,对语义细胞的混合模型训练的过程具体包括: (a)对训练集中的所有简化特征向量进行聚类得到若干个聚类中心,并作为各个语义细胞的中心; (b)针对每一个语义细胞,利用训练集中各个简化特征向量到该语义细胞的中心的距离计算该语义细胞的位置参数和尺度参数,并设定各个该语义细胞对混合模型的贡献程度参数,得到基于语义细胞的混合模型,其中,第i个语义细胞Li的混合模型的位置参数、尺度参数以及对混合模型的贡献程度参数分别记为Ci(0)、(Oi(O))2和PHLi(O)); (c)采用循环迭代法更新所述的混合模型,第t次循环迭代的目标函数为:
直至相邻两次循环迭代得到的目标函数的值的差小于设定的阈值时停止,并以最后一次循环迭代得到的语义细胞的混合模型作为分类器的识别模型; 其中,t = 1,2,……; N为训练集中简化特征向量的个数; η为语义细胞的个数; e ik为第k个特征向量与第i个语义细胞的中心的距离;
8.如权利要求7所述的基于语义细胞的语音情感识别方法,其特征在于,所述的阈值为 0.001 ~0.010。
9.如权利要求7所述的基于语义细胞的语音情感识别方法,其特征在于,所述的识别模型用于识别语音参照人时,语义细胞的个数η为3~10,所述的识别模型用于识别语音参照人的情感时,语义细胞的个数η为I~5。
10.如权利要求6所述的一种基于语义细胞的语音情感识别方法,其特征在于,所述步骤(4)中识别过程如下: (51)通过步骤(2)得到待识别语音信号的特征向量,并利用所述的降维变换矩阵对待识别语音信号的特征向量进行降维处理,得到相应的简化特征向量; (52)针对各个语音参照人,根据用于识别当前语音参照人的识别模型,分别计算待识别语音信号对当前识别模型的隶属度; (53)针对各个语音参照人的每一种情感,根据用于识别当前语音参照人的当前情感的识别模型,分别计算待识别语音信号对当前识别模型的隶属度; (54)根据公式:K xK 分别计算待识别语音对于各个语音参照人的每一种情感的综合隶属度,其中,V;为待识别语音对于第P个语音参考人的第e种情感的综合隶属度; (S5)将所有对于相同情感的综合隶属度相加得到待识别语音对于该情感的隶属度,并选择隶属度最大的情感作为待识别语音信号所属的情感类别; 所述步骤(SI)和步骤(S2)中根据公式:μ(£Τ,Χ)^Σ?=ιμ^) Pr(Li), 计算待识别语音信号对当前识别模型的隶属度,其中,PO为待识别语音信号所对应的简化特征向量与第i个语义细胞Li的隶属度值,根据如下公式计算:
积分下限(!(Χ,Ρ)为X与第i个语义细胞的中心Pi的距离,Ci, Oi为当前识别模型中第i个语义细胞的位置参数和尺度参数。
【文档编号】G10L25/63GK104200814SQ201410402937
【公开日】2014年12月10日 申请日期:2014年8月15日 优先权日:2014年8月15日
【发明者】孙凌云, 何博伟, 汤永川, 李彦, 郑楷洪 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1