声学特征的相关性:
[0127] 其中E&为上述标准化后的数据Xn的残差协方差矩阵;
[0128] 其中E表示影响语音情感表达中的情感因素的集合,为影响语音情感表达中的 情感因素,即集合E中的元素,tr(〇表示某个矩阵的迹,P(fJ表示对应情感的语音样本在 语音库中出现的概率,tr(EA|fJ表示对应情感的语音样本中声学特征A的总的变化性;
[0129] 步骤5. 2. 2:根据下式计算标准化后说话人因素与声学特征的相关性:
[0131] 其中Sp表示影响语音情感表达中的中的说话人因素的集合,fSp为影响语音情感 表达中的说话人因素,即集合Sp中的元素,有F= {E,Sp},F为影响语音情感表达中的因素 的集合,P(fSp)表示对应说话人的语音样本在语音库中出现的概率,tr(EA|fSp)表示对应 说话人的语音样本中声学特征A的总的变化性;
[0132] 步骤6:相关性比较
[0133] 利用步骤5中计算得到的情感因素在语音表达中与声学特征的相关性,说话人标 准化后在语音表达中与声学特征的相关性,判断各个声学特征与情感因素相关性。
[0134] 步骤6. 1 :说话人标准化后情感识别特征选择
[0135] 对于一个特定的声学特征A,计算其情感因素,说话人因素,标准化后的说话人因 素在语音表达中与该声学特征的相关性。对于待选择的所有的声学特征,依次计算每个声 学特征两个相关性,进行比较,选择情感因素相关性大的声学特征作为情感识别的特征。
[0136] 步骤6. 2 :根据步骤6. 1选择出的声学特征,作为情感识别特征,选择出的特征基 于说话人的情感识别具有鲁棒性。
[0137] 上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术 人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明 权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
【主权项】
1. 一种基于说话人标准化变换的语音情感特征选择方法,其特征在于,该方法包括以 下步骤: 步骤1 :对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧集 合,对所述有效语音帧集合中每个语音片段t提取一个D维的特征A,得到一个特征矩阵 C :其中,K为有效语音帧帧长,A表示语音片段提取的特征,D表示特征A的维数,Cni,,表 示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t = 1, 2, . . .,D,m为特征矩阵中行标,m = 1,2, . . .,K ; 步骤2 :把所述特征矩阵C转换为一个轨迹模型方程:C = ZB+E,其中B表示轨迹参数 矩阵,E表示残差向量矩阵,Z表示负责将语音片段的时间度量归一化的设计矩阵; 然后构建行数为K,列数为轨迹模型展开阶次J加1的设计矩阵Z,其中元素V为设计矩阵行标,j为设计矩阵列标,V = 1,2,. . .,K,j = 1,2,. . .,J+1 ; 步骤3 :对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq: Bq= (ZrqZq) 1Zr ,Cq (2) 其中,q为语音片段编号,Zq,Cq分别为第q个语音片段的设计矩阵和特征矩阵,Z' q为 Zq的转置矩阵; 然后计算每个语音片段的残差协方差矩阵Σ q:Kq是第q个语音片段的帧数; 步骤4 :对说话人进行标准化: 选取语音库中发音最标准的说话人作为参考标准,其语音片段Xraf的声学特征用轨迹 模型表示为{Braf,Σ raf,K},需要标准化的其他说话人语音片段,即需要变换的语音片段X1 的声学特征用轨迹模型表示为(B1, Σ y K},其中Braf表示参考语音片段X 的平均轨迹向 量,Σ 表示参考语音片段X 的残差协方差矩阵,B 1表示需要变换语音片段X 平均轨 迹向量,Σ i表示参考语音片段X i的残差协方差矩阵; 首先根据下式进行白化转换:其中,V1, D1分别为Σ淋应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示 白化变换后的数据,即X1解相关数据; 然后根据下式进行说话人标准化:Xn表示X i利用参考语音片段X 标准化后的数据,V "f,Draf分别表示Σ M对应的特征 向量矩阵和特征值矩阵; 步骤5 :计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准 化后情感因素与声学特征的相关性、标准化后说话人因素与声学特征的相关性; 步骤6 :相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的说话 人因素相关性的特征作为语音情感识别特征。2.根据权利要求1所述的基于说话人标准化变换的语音情感特征选择方法,其特征在 于,所述步骤1中的预处理包括如下步骤: 步骤1. 1 :对数字语音信号X按下式进行预加重,得到预加重后的语音信号其中E表示数字语音信号X的离散点序号,#为数字语音信号X的长度,I與)和 Χ(??- 1)分别表示数字语音信号X在第瓦和反-1个离散点上的值,|(幻表示预加重后的语 音信号1在第I个离散点上的值,X (-1) = O ; 步骤1. 2 :采用交叠分段的方法对预加重后的语音信号戈进行分帧,前一帧起点与后 一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs= 16kHz下取128点,每一帧长 取16ms,即取256点,f经过分帧得到语音帧集合·:其中%?为语音帧集合中的第V个语音帧,η表示语音帧离散点序号,V为语音帧序 号,K'为语音帧总帧数,且满足:步骤1. 3 :对各语音帧^,1彡VC,选择窗口长度为256点的汉明窗w进行加窗 处理,得到加窗语音帧Xk,为:其中xk, (n)、4(?)、w (η)分别表示xk,、w在第η个离散点上的值,窗口长度为256 点的汉明窗函数为:步骤I. 4 :对各加窗语音帧xk(,1彡Vf,计算短时能量Ek(和短时过零率Zk(:其中Ek<表示加窗语音帧xk<的短时能量,Zk<表示x k<的短时过零率,xk< (η)为加窗语 音帧xk,在第η个采样点上的值,xk, (η-1)为xk,在第η-1个采样点上的值,sgn[xk, (η)]、 sgn[xk, (η-1)]分别为 xk, (n)、xk, (η-1)的符号函数,即:步骤1. 5 :确定短时能量阈值tE和短时过零率阈值t ζ:其中C为语音帧总帧数; 步骤1. 6 :对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE 的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当 前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧 集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为 起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值t z的加窗语音帧标记 为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率 大于阈值&的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为 {s k} i κ κ,其中k为有效语音帧序号,K为有效语音帧总帧数,Sk为有效语音帧集合中的第 k个有效语音帧。3.根据权利要求1所述的基于说话人标准化变换的语音情感特征选择方法,其特征在 于,所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算:其中Σ &为上述标准化后的数据Xn的残差协方差矩阵; 其中E表示影响语音情感表达中的情感因素的集合,为影响语音情感表达中的情感 因素,即集合E中的元素,tr( ·)表示某个矩阵的迹,P(fJ表示对应情感的语音样本在语 音库中出现的概率,tr( Σ A|fJ表示对应情感的语音样本中声学特征A的总的变化性; 所述标准化后说话人因素与声学特征的相关性根据下式计算:其中Sp表示影响语音情感表达中的中的说话人因素的集合,fSp为影响语音情感表达 中的说话人因素,即集合Sp中的元素,有F = {E,Sp},F为影响语音情感表达中的因素的集 合,P(fSp)表示对应说话人的语音样本在语音库中出现的概率,tr( Σ A|fSp)表示对应说话 人的语音样本中声学特征A的总的变化性。
【专利摘要】本发明公开了一种基于说话人标准化变换的语音情感特征选择方法,包括语音片段轨迹模型建立,说话人标准化,语音表达因素与特征表现相关性的量化以及语音情感选择。该方法在建立轨迹模型的基础上量化语音表达因素与特征表现相关性,从而选择语音情感特征。本发明通过构建针对情感分类问题的语音轨迹模型,量化语音表达中各个因素与特征表现相关性,利用说话人标准化方法,降低了说话人身份、语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征,同时具有较低的计算复杂度。
【IPC分类】G10L17/02, G10L25/63, G10L15/02, G10L17/04, G10L17/14
【公开号】CN105070300
【申请号】CN201510494162
【发明人】黄永明, 吴奥, 章国宝
【申请人】东南大学
【公开日】2015年11月18日
【申请日】2015年8月12日