语音识别系统中基于快速噪声估计的特征补偿方法

文档序号：2833635阅读：340来源：国知局

专利名称：语音识别系统中基于快速噪声估计的特征补偿方法
技术领域：
本发明涉及一种语音识别系统中基于快速噪声估计的特征补偿方法，具体涉及到用一个含有较少高斯单元的高斯混合模型快速估计噪声参数，用一个含有较多高斯单元的高斯混合模型从含噪测试语音中估计纯净语音特征向量的特征补偿方法，属于语音识别技术领域。
背景技术：
目前，语音识别系统在实验室理想环境下已经取得了很好的性能。然而，在实际环境中，背景噪声和信道失真往往是不可避免的，它们会导致实际应用环境中提取的特征向量与预先训练的声学模型严重失配，识别器的性能会急剧恶化，甚至有可能完全失效。因此，研究语音识别的环境补偿技术，减小环境失配对语音识别系统的影响，提高语音识别系统在实际环境中的性能，具有非常重要的意义。
一般来说，环境补偿技术可划分为前端特征补偿和后端模型补偿。特征补偿对测试环境下的语音特征进行补偿，使之与训练环境下的声学模型相匹配。模型补偿对训练环境下的声学模型进行调整，使之与测试环境相匹配，直接对测试语音进行识别。与后端模型补偿相比，前端特征补偿技术具有计算量小、实现灵活、与后端识别器无关的优点，因而其应用范围更为广泛。
在实际应用中，难以保证每段测试语音都有足够多的静音帧来估计噪声参数。为了及时跟踪环境的变化，往往需要从含噪测试语音中提取噪声参数。然而，训练环境与测试环境之间的环境变换关系是非线性的，噪声参数没有闭式解。矢量泰勒级数(VTS = Vector Taylor Series)是一种有效的噪声鲁棒技术,可以很好地逼近由噪声导致的非线性环境变换关系。但是基于VTS的噪声参数估计涉及较多的矩阵运算，其计算量与语音模型的高斯单元数目成正比。由于在特征补偿中，用于噪声估计的语音模型同时也用于估计纯净语音特征向量。为了充分描述语音的分布，保证纯净语音估计的精度，用于特征补偿的语音模型必须包含足够多的高斯单元。因而，基于VTS的特征补偿方法的计算量较大，难以在嵌入式系统等独立终端上实时实现。发明内容
发明目的针对现有技术中存在的问题与不足，本发明提供一种语音识别系统中基于快速噪声估计的特征补偿方法。
技术方案一种语音识别系统中基于快速噪声估计的特征补偿方法，其主要特点是将特征补偿中的噪声参数估计和纯净语音估计分离开来，噪声估计和纯净语音估计用不同的高斯混合模型(GMM:Gaussian Mixture Model)实现。一个含有较少高斯单元的高斯混合模型GMM用于从含噪测试语音中提取噪声参数；另一个含有较多高斯单元的高斯混合模型GMM用于与估得的单高斯噪声模型进行模型组合，得到与当前测试环境匹配的含噪 GMM;最后用含噪GMM计算含噪测试语音的后验概率，用最小均方误差(MMSE:Minimum MeanSquared Error)方法从含噪测试语音中估计纯净语音特征向量。
语音识别系统中基于快速噪声估计的特征补偿方法，具体包括训练阶段和测试阶段两个部分；
训练阶段的具体步骤包括
(I)从纯净训练语音中提取纯净语音特征向量，采用美尔频率倒谱系数 (MFCC:Mel-Frequency Cepstral Coefficients)作为语音的特征参数；
(2)用全部训练语音的MFCC进行GMM训练，生成两个GMM:第一 GMM含有较少的高斯单元，用于噪声估计；第二 GMM含有较多的高斯单元，用于模型组合和纯净语音估计；
(3)用每个基本语音单元的训练语音进行声学模型训练，生成每个基本语音单元的隐马尔可夫模型(HMM:Hidden Markov Model)；
测试阶段的具体步骤包括
(4)从含噪测试语音中提取含噪语音MFCC ；
(5)用第一 GMM从含噪语音MFCC中提取噪声参数，包括噪声的高斯均值向量和协方差矩阵；
(6)用估得的噪声参数对第二 GMM的均值和方差进行参数变换，计算含噪测试语音的后验概率，用丽SE方法估计纯净语音MFCC ；
(7)用每个语音单元的HMM对纯净语音MFCC进行声学解码，即可得到识别结果。
有益效果与现有技术相比，本发明提供的语音识别系统中基于快速噪声估计的特征补偿方法，将特征补偿中的噪声参数估计和纯净语音估计分离开来，噪声参数估计和纯净语音估计分别用不同的语音模型实现，可以在减小计算量的同时，保证纯净语音估计的精度。

图1为本发明实施例的基于快速噪声估计的特征补偿框架；
图2为本发明实施例的基于快速噪声估计的语音识别系统结构。
具体实施方式
下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示，一个含有较少高斯单元的高斯混合模型GMMl用于从含噪测试语音中提取噪声参数；另一个含有较多高斯单元的高斯混合模型GMM2用于与估得的单高斯噪声模型进行模型组合，得到与当前测试环境匹配的含噪GMM ;最后用含噪GMM计算含噪测试语音的后验概率，用最小均方误差方法从含噪测试语音中估计纯净语音特征向量。
如图2所示，基于快速噪声估计的特征补偿方法主要包括训练阶段和测试阶段。训练阶段主要完成GMM训练和HMM训练工作；测试阶段主要完成噪声参数估计和纯净语音估计工作。
1、GMM 训练
采用GMM对语音的分布进行建模，用全部训练语音生成两个GMM =GMMl和GMM2。GMMl含有较少的高斯单元，用于噪声估计；GMM2含有较多的高斯单元，用于纯净语音估计。 GMMl和GMM2的协方差矩阵均取对角阵。
2、HMM 训练
本发明采用连续密度HMM对语音识别的每个基本语音单元进行建模，用每个基本语音单元的训练语音生成该基本语音单元的HMM。HMM的数目取决于语音单元的数目。所有HMM的协方差矩阵也取对角阵。
3、噪声参数估计
在倒谱域，含噪语音特征向量y与纯净语音特征向量X的关系可以表示为
y = x+Clog (1+exp ((T1 (n-χ)))
(I)
其中，η表示加性噪声倒谱特征向量，C和C—1分别表示离散余弦变换 (DCT!Discrete Cosine Transform)矩阵及其逆矩阵。将式(I)在x的均值P x和η的初始均值μ η(ι附近，用一阶VTS展开，得到
权利要求
1.一种语音识别系统中基于快速噪声估计的特征补偿方法，其特征在于，包括如下步骤(1)采用美尔频率倒谱系数作为语音识别系统的特征参数，特征补偿的目的是从含噪测试语音中提取纯净语音MFCC ；(2)在训练阶段，用高斯混合模型对语音的分布进行建模，用全部训练语音生成两个 GMM :第一 GMM 和第二 GMM ；(3)用单高斯模型对背景噪声进行建模，为了实时跟踪环境的变化，单高斯噪声模型的均值向量和协方差矩阵从含噪测试语音中提取；(4)用第一GMM从含噪测试语音MFCC中提取噪声参数，包括噪声的高斯均值向量和协方差矩阵；(5)用估得的噪声参数对第二GMM2的均值和方差进行参数变换，即对单高斯噪声模型和第二 GMM进行模型组合，得到第二 GMM的含噪语音均值和方差；(6)用第二GMM的含噪语音均值和方差计算含噪测试语音的后验概率，用最小均方误差方法估计纯净语音MFCC ；(7)纯净语音特征向量的一阶动态系数和二阶动态系数不直接从含噪测试语音中估计，而是通过对估得的静态系数作时域差分得到。
2.根据权利要求1所述的语音识别系统中基于快速噪声估计的特征补偿方法，其特征在于用于噪声参数估计的第一高斯混合模型含有较少的高斯单元，因而其计算量较小，可以从含噪测试语音中快速估计噪声的均值和方差。
3.根据权利要求1所述的语音识别系统中基于快速噪声估计的特征补偿方法，其特征在于用于纯净语音估计的第二高斯混合模型含有较多的高斯单元，可以充分描述语音的分布，因而可以得到准确的纯净语音估计值。
4.根据权利要求1所述的语音识别系统中基于快速噪声估计的特征补偿方法，其特征在于用于噪声参数估计和纯净语音估计的高斯混合模型的协方差矩阵均取对角阵。
5.根据权利要求1所述的语音识别系统中基于快速噪声估计的特征补偿方法，其特征在于第一 GMM和第二 GMM只对特征向量的静态系数进行建模,不考虑动态系数；基于第一 GMM的噪声参数估计和基于第二 GMM的纯净语音估计也只计算噪声和语音的静态系数；纯净语音特征向量的动态系数通过对估得的静态系数作时域差分得到。
全文摘要
本发明公开一种语音识别系统中基于快速噪声估计的特征补偿方法，其主要特点是将特征补偿中的噪声参数估计和纯净语音估计分离开来，噪声估计和纯净语音估计用不同的高斯混合模型实现。一个含有较少高斯单元的高斯混合模型GMM用于从含噪测试语音中提取噪声参数；另一个含有较多高斯单元的高斯混合模型GMM用于与估得的单高斯噪声模型进行模型组合，得到与当前测试环境匹配的含噪GMM；最后用含噪GMM计算含噪测试语音的后验概率，用最小均方误差方法从含噪测试语音中估计纯净语音特征向量。本发明可以在减小计算量的同时，保证纯净语音估计的精度。
文档编号G10L15/14GK103000174SQ20121048693
公开日2013年3月27日申请日期2012年11月26日优先权日2012年11月26日
发明者吕勇申请人:河海大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕勇
技术所有人：河海大学
我是此专利的发明人