一种基于说话人标准化变换的语音情感特征选择方法

文档序号：9351145阅读：648来源：国知局

一种基于说话人标准化变换的语音情感特征选择方法
【技术领域】
[0001] 本发明涉及一种语音情感特征选择方法，尤其涉及一种基于语音轨迹模型的语音情感特征选择方法，属于语音情感识别技术领域。
【背景技术】
[0002] 随着信息技术的快速发展和各种智能终端的兴起，现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍，使人机交互更为方便、自然，机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介，携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题，在远程教学、辅助测谎、自动远程电话服务中心以及临床医学，智能玩具，智能手机等方面有着广阔的应用前景，吸引了越来越多研究机构与研究学者的广泛关注。
[0003] 为了提高语音情感识别的精度和鲁棒性，提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息，剔除情感无关的说话人身份信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。
[0004] 作为一种新兴的语音分析技术，语音片段轨迹模型因其在语音信号处理中的灵活性和有效性，越来越得到研究者的广泛重视。对于分类问题，建立语音片段轨迹模型，量化语音表达因素与特征表现的相关性，进而对语音中说话人进行标准化，降低了说话人身份、语音内容等无关信息对于语音特征表现的影响，选择出含有较多情感信息的语音特征。这种基于语音表达因素与特征表现的相关性特征提取思想和方法在语音情感识别研究中具有重要的意义。

【发明内容】

[0005] 技术问题：本发明提供一种能够提高语音情感识别的鲁棒性，降低了说话人身份、语音内容等无关信息对于语音特征表现的影响，可以选择出含有较多情感信息语音特征的基于说话人标准化变换的语音情感特征选择方法。
[0006] 技术方案：本发明的基于说话人标准化变换的语音情感特征选择方法，包括以下步骤：
[0007] 步骤1 :对情感语音片段数字化后的数字语音信号X进行预处理，得到有效语音帧集合，对所述有效语音帧集合中每个语音片段X'提取一个D维的特征A，得到一个特征矩阵C:
[0009] 其中，K为有效语音帧帧长，A表示语音片段提取的特征，D表示特征A的维数，Cni, t表示特征矩阵中一个元素，Ct表示特征矩阵中一个列向量，其中t为特征矩阵中列标，t= 1，2, . . .，D，m为特征矩阵中行标，m= 1，2, . . .，K;
[0010] 步骤2 :把所述特征矩阵C转换为一个轨迹模型方程：C=ZB+E，其中B表示轨迹参数矩阵，E表示残差向量矩阵，Z表示负责将语音片段的时间度量归一化的设计矩阵；
[0011] 然后构建行数为K，列数为轨迹模型展开阶次J加1的设计矩阵Z，其中元素
[0012] 步骤3 :对每个语音片段，利用最大似然估计来计算轨迹参数矩阵Bq:
[0013] Bq= (ZrqZq) 1ZrqCq (2)
[0014] 其中，q为语音片段编号，Zq，Cq分别为第q个语音片段的设计矩阵和特征矩阵， Z'q为Zq的转置矩阵；
[0015] 然后计算每个语音片段的残差协方差矩阵Eq:
[0017] Kq是第q个语音片段的帧数；
[0018] 步骤4 :对说话人进行标准化：
[0019] 选取语音库中发音最标准的说话人作为参考标准，其语音片段Xraf的声学特征用轨迹模型表示为{Braf，Eraf，K}，需要标准化的其他说话人语音片段，即需要变换的语音片段&的声学特征用轨迹模型表示为{BpEpK}，其中Braf表示参考语音片段X的平均轨迹向量，E 表示参考语音片段X的残差协方差矩阵，B1表示需要变换语音片段Xi的平均轨迹向量，Ei表示参考语音片段Xi的残差协方差矩阵；
[0020] 首先根据下式进行白化转换：
表示白化变换后的数据，即X1解相关数据；
[0023] 然后根据下式进行说话人标准化：
[0025] Xn表示Xi利用参考语音片段X标准化后的数据，V"f，Draf分别表示EM对应的特征向量矩阵和特征值矩阵；
[0026] 步骤5 :计算各个影响语音表达的因素在语音表达中与声学特征的相关性，包括：标准化后情感因素与声学特征的相关性、标准化后说话人因素与声学特征的相关性；
[0027] 步骤6 :相关性比较：将所有声学特征中，与情感因素的相关性大于与标准化后的说话人因素相关性的特征作为语音情感识别特征。
[0028] 进一步的，本发明方法中，所述步骤1中的预处理包括如下步骤：
[0029] 步骤I. 1 :对数字语音信号X按下式进行预加重，得到预加重后的语音信号X5
[0030] x(H) =x(?) - (-1),o<s<j^-i
[0031] 其中反表示数字语音信号X的离散点序号，F为数字语音信号X的长度，和 1)分别表示数字语音信号X在第瓦和1个离散点上的值，尤_表示预加重后的语音信号f第i个离散点上的值，x(-l) = 0 ;
[0032] 步骤1. 2 :采用交叠分段的方法对预加重后的语音信号.Z进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率Fs= 16kHz下取128点，每一帧长取16ms，即取256点，龙经过分帧得到语音帧集
[0033] Xjt, (?)== + 128(^- -1)^ 0<?< 255,1<K
[0034] 其中为语音帧集合中的第k'个语音帧，n表示语音帧离散点序号，k'为语音帧序号，K'为语音帧总帧数，且满足：
[0037] 步骤1. 3:对各语音帧^，1彡k'彡K'，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧Xk,为：
[0038] xA- (w) = X^. ( ?) w(? ) 0 < ? < 255,1 < Aj <K
[0039]其中xk, (n)、.％?)._、、w(n)分别表示xk,、％、,w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：
[0041]步骤1. 4:对各加窗语音帧xk,，1彡k'彡K'，计算短时能量Ek,和短时过零率 Zk-：
[0044] 其中Ek，表示加窗语音帧Xk，的短时能量，Zk，表示Xk，的短时过零率，xk，（n) 为加窗语音帧xk,在第n个采样点上的值，xk, (n-1)为xk,在第n-1个采样点上的值，sgn[xk, (n)]、sgn[xk, (n-1)]分别为xk, (n)、xk, (n-1)的符号函数，即：
[0046]步骤1. 5:确定短时能量阈值tE和短时过零率阈值tz:
[0049] 其中K'为语音帧总帧数；
[0050] 步骤1. 6 :对各加窗语音帧，首先用短时能量作第一级判别，将短时能量值大于阈值&的加窗语音帧标记为一级判别有效语音帧，将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧，将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧，然后用短时过零率作第二级判别，即对当前有效语音帧集合，以起始帧为起点，按照帧序号由大到小的顺序逐帧判别，将短时过零率大于阈值tz的加窗语音帧标记为有效语音帧，并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别，将短时过零率大于阈值&的加窗语音帧标记为有效语音帧，将两级判别后得到的有效语音帧集合记为 {sk}i KK，其中k为有效语音帧序号，K为有效语音帧总帧数，Sk为有效语音帧集合中的第 k个有效语音帧。
[0051]进一步的，本发明方法中，所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算：
[0053] 其中E&为上述标准化后的数据Xn的残差协方差矩阵；
[0054] 其中E表示影响语音情感表达中的情感因素的集合，为影响语音情感表达中的情感因素，即集合E中的元素，tr(〇表示某个矩阵的迹，P(fJ表示对应情感的语音样本在语音库中出现的概率，tr(EA|fJ表示对应情感的语音样本中声学特征A的总的变化性；
[0055]所述标准化后说话人因素与声学特征的相关性根据下式计算：
[0057] 其中Sp表示影响语音情感表达中的中的说话人因素的集合，fSp为影响语音情感表达中的说话人因素，即集合Sp中的元素，有F= {E，Sp}，F为影响语音情感表达中的因素的集合，P(fSp)表示对应说话人的语音样本在语音库中出现的概率，tr(EA|fSp)表示对应说话人的语音样本中声学特征A的总的变化性。
[0058]本发明能够利用语音片段轨迹模型，量化语音表达因素与特征表现的相关性，利用说话人标准化方法，降低了说话人身份、语音内容等无关信息对于语音特征表现的影响，选择出含有较多情感信息的语音特征。
[0059]有益效果：本发明与现有技术相比，具有以下优点：

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄永明;吴奥;章国宝;
技术所有人：东南大学;
我是此专利的发明人

上一篇：单通道音乐人声分离中的多种特定乐器强化分离方法
上一篇：一种基于模式识别Hi-Fi音质检测方法