一种基于长时帧背景噪声估计的语音情感特征提取方法与流程

文档序号：15097183发布日期：2018-08-04 14:51阅读：来源：国知局

技术特征：

1.一种基于长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，该方法包括以下步骤：在麦克风里输入语音信号后，

步骤1：对输入的语音信号进行预处理，得到有效语音帧集合；

步骤2：对有效语音帧集合中的各语音帧sk进行小波包分解，得到小波包树并对全体叶节点进行频率排序，得到小波包系数集合其中为最优小波包树，j是语音信号2倍采样的次数，p是小波包节点的序号，表示排序后小波包树的节点序列；

步骤3：计算语音帧sk在各个子频带的能量分量Ei：

步骤4：计算子频带长时帧长能量

其中x表示语音帧序号，i表示子频带序号，参数M＝2；

步骤5：利用非对称噪声抑制进行噪声补偿；

步骤6：谱权重平滑化；

步骤7：采用自回归谱估计方法对语音帧sk在各个子频带内的功率谱Pi(f)进行估计；

步骤8：计算语音帧在各子频带内的子带频谱质心Ci；

其中，λ是控制功率谱幅值动态范围的控制因子；

步骤9：由子带频谱质心计算权重wi,i＝1,2,…,I：

步骤10：用权重wi,i＝1,2,…,I对相应子频带的对数子带能量进行加权，得到加权的子带能量WLi：

WLi＝wi·lg(T[x,i])

步骤11：对加权子带能量WLi进行离散余弦变换，得到L阶的子带频谱质心加权的噪声鲁棒的小波包倒谱系数LW-WPCC：

其中l是小波包倒谱系数LW-WPCC的阶次序号；

最后将语音帧的对数能量作为0阶LW-WPCC系数，与所提取的L阶LW-WPCC特征共同构成(L+1)维的特征向量。

2.根据权利要求1所述的长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，所述步骤1中的预处理包括如下步骤：

步骤1.1：根据下式对数字语音信号X按下式进行预加重，得到预加重后的语音信号

其中表示数字语音信号X的离散点序号，为数字语音信号X的长度，和分别表示数字语音信号X在第和个离散点上的值，表示预加重后的语音信号在第个离散点上的值，X(-1)＝0；

步骤1.2：采用交叠分段的方法对预加重后的语音信号进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率Fs＝16kHz下取128点，每一帧长取16ms，即取256点，经过分帧得到语音帧集合所述语音帧集合中第k'个语音帧的第n个离散点的数据为：

其中为语音帧集合中的第k'个语音帧，n表示语音帧离散点序号，k'为语音帧序号，K'为语音帧总帧数，且满足：

表示向下取整；

步骤1.3：对各语音帧1≤k'≤K'，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧xk'为：

其中xk'(n)、w(n)分别表示xk'、w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：

步骤1.4：对各加窗语音帧xk'，1≤k'≤K'，计算短时能量Ek'和短时过零率Zk'：

其中Ek'表示加窗语音帧xk'的短时能量，Zk'表示xk'的短时过零率，xk'(n)为加窗语音帧xk'在第n个采样点上的值，xk'(n-1)为xk'在第n-1个采样点上的值，sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数，即：

其中λ为上述符号函数的自变量；

步骤1.5：确定短时能量阈值τE和短时过零率阈值τZ：

其中K'为语音帧总帧数；

步骤1.6：对各加窗语音帧，首先用短时能量作第一级判别，即将短时能量值大于阈值τE的加窗语音帧标记为一级判别有效语音帧，将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧，将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧；

然后用短时过零率作第二级判别，即对当前有效语音帧集合，以起始帧为起点，按照帧序号由大到小的顺序逐帧判别，将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧，并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别，将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧；

将两级判别后得到的有效语音帧集合记为{pk}1≤k≤K，其中k为有效语音帧序号，K为有效语音帧总帧数，pk为有效语音帧集合中的第k个有效语音帧。

3.根据权利要求1所述的长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，所述步骤5中，利用非对称噪声抑制进行噪声补偿，具体步骤如下：

步骤5.1：计算的下包络

非对称抑制过程对于任意的输入和任意输出可以写成下式：

其中λa＝0.999，λb＝0.5；

步骤5.2：对语音帧sk在每个子频带i上都进行滤波变换：

步骤5.2.1：通过ANS过程得到的下包络

其中被初始化为

步骤5.2.2：将进行一个理想的线性半波整流处理，得到

步骤5.2.3：利用ANS过程得到矫正输出的下包络

步骤5.2.4：计算时域掩蔽输出

首先计算每个子频带的实时峰值能量

其中λt是实时峰值遗忘因子，x,i分别为语音帧序号与子频带序号；

然后计算

其中λt＝0.85，μt＝0.2；

步骤5.2.5：利用步骤5.2.3得到的作为门限值，来限制时域掩蔽输出

步骤5.2.6：计算非对称抑制过程的输出

其中参数c＝2。

4.根据权利要求1所述的长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，所述步骤6中，谱权重平滑化的具体步骤包括：

步骤6.1：计算时间频率平均转换函数：

其中i2＝min(i+N,I)，i1＝max(i-N,1)，I是子频带的总数；

步骤6.2：利用来调制最初的短时帧能量E[x,i]：

其中T[x,i]为结合了短时帧与长时帧语音能量进行时频标准化的值。

5.根据权利要求1所述的长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，所述步骤7中，采用自回归谱估计方法估计的步骤具体包括：

步骤7.1：用Burg算法计算自回归模型的阶数D，自回归模型系数和白噪声方差其中r是自回归模型系数的序号；

步骤7.2：计算小波包系数的能量在第i个子频带中主要集中频率区间：

其中fl⁽ⁱ⁾是第i个子频带中频率区间的下限，是第i个子频带中频率区间的上限，qi＝G[pi]，G[·]表示Gray编码的逆运算，fs是语音信号的采样频率，ji表示第i个子频带中语音信号2倍采样的次数；

步骤7.3：计算第i个子频带中的功率谱Pi(f)：

6.根据权利要求1所述的长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，所述步骤2中，对有效语音帧集合中的各语音帧sk进行小波包分解得到小波包系数集合，再利用Fisher比率准则下得到最优小波包树。

完整全部详细技术资料下载

当前第2页1 2 3