一种基于gmm噪声估计的模型组合语音识别方法

文档序号：9598801阅读：670来源：国知局

一种基于gmm噪声估计的模型组合语音识别方法
【技术领域】
[0001] 本发明涉及一种基于GMM噪声估计的模型组合语音识别方法，具体是用测试环境下提取的噪声参数调整语音识别系统声学模型的参数，使其与实际环境下提取的含噪语音特征参数相匹配，提高系统噪声鲁棒性的模型组合方法；属于语音识别技术领域。
【背景技术】
[0002] 自动语音识别技术可以为电子设备提供方便的输入接口，已广泛应用于移动电话、平板电脑、导航仪等移动设备。但是在实际应用中，环境噪声等语音变异性是不可避免地，这通常会导致语音识别系统的性能急剧下降，因此有必要采取措施提高语音识别系统的环境鲁棒性。鲁棒语音识别算法通常可以划分为两大类，即前端特征域方法和后端模型域方法。
[0003] 特征域方法的目的是提高声学特征的噪声鲁棒性，或者对测试环境下提取的含噪特征进行补偿，使其特性尽量与纯净训练语音接近。特征域方法的优点是与系统后端的具体识别器无关，且计算量较小，因而可以用于各种实时系统。后端模型域方法对预先训练的声学模型的参数进行调整，使之与当前测试环境相匹配，用参数调整后的声学模型对测试语音直接识别，无需对提取的特征参数进行额外处理。模型域方法主要包括模型自适应和模型组合，前者通过实际环境下的少量测试语音调整声学模型的参数，可以用于处理任意语音变异性；后者对纯净语音声学模型和单高斯噪声模型进行模型组合，生成用于声学解码的含噪语音声学模型，只能用于处理由环境噪声引起的语音变异性。
[0004] 与特征域方法相比，模型自适应可以取得更高的补偿精度，但会导致巨大的计算量。这是因为大词汇量语音识别系统的基本语音单元很多，通常会达到数百个，而每个基本语音单元对应一个声学模型，在模型自适应中每个声学模型都要参与自适应参数估计运算，其计算量难以被实时系统所接受。传统模型组合的噪声参数来自于语音间隙期的噪声估计，但是在非平稳环境下的一段连续语音中，可能不存在足够的语音间隙期，噪声估计无法进行，模型参数就不能及时更新，因而其应用范围受到限制。

【发明内容】

[0005] 发明目的：针对现有技术中存在的问题，为了兼顾计算复杂度和补偿精度，就需要将特征补偿和模型自适应结合起来，在不降低识别率的前提下尽量减小算法的计算量，提高语音识别系统的实际应用能力。本发明提供一种基于高斯混合模型（GMM:GauSSian Mixture Model)噪声估计的模型组合语音识别方法。该算法用一个含有较少高斯单元的 GMM从含噪测试语音中实时估计噪声的参数，并监控噪声的变化。估得的噪声参数被用于与纯净语音声学模型进行模型组合，得到含噪语音声学模型，然后直接对测试语音进行声学解码，得到识别结果。
[0006] 技术方案：一种基于GMM噪声估计的模型组合语音识别方法，主要包括训练阶段和测试阶段两个部分，下面具体说明其内容。
[0007] (l)GMM训练：在训练阶段，用所有基本语音单元的训练语音训练生成一个统一的 GMM，该GMM含有较少的高斯单元，可以近似表示语音倒谱特征的分布。
[0008] (2) HMM训练：在训练阶段，用每个基本语音单元的训练语音训练生成该基本语音单元的隐马尔可夫模型（HMM:Hidden Markov Model)，所有基本语音单元的HMM共同组成语音识别系统的声学模型。
[0009] (3)噪声估计：在测试阶段，用GMM从含噪测试语音中实时提取噪声的均值和方差，并根据平均对数似然值判断噪声是否发声变化。为了保证最大似然估计的准确性，噪声信息通常每100帧更新一次，噪声估计的同时判断噪声的变化情况。噪声估计按时间间隔 (100帧）进行，不需要进行语音活动检测，对静音段也当作含噪语音处理。
[0010] (4)模型组合：对某个时间间隔，如果噪声发声变化，则对纯净语音声学模型和单高斯噪声模型进行模型组合，生成与当前测试环境相匹配的含噪语音声学模型，该模型不仅用于声学解码，而且其参数被保存在内存中；如果噪声没有变化，则该时间间隔不必进行模型组合，可以直接用存储在内存中的上一个时间间隔的含噪语音声学模型作为当前测试语音声学模型。根据噪声变化情况决定是否进行模型组合，有助于节省电能，延长移动设备的电池使用时间。
[0011] (5)声学解码：用模型组合得到的含噪语音声学模型直接对含噪测试语音进行声学解码，得到识别结果。
[0012] 模型组合中涉及DCT计算的部分，用快速DCT算法实现，以减少模型组合的计算量。根据噪声的变化标识决定是否进行模型组合运算，有助于多数应用环境下节省移动设备的电能，延长电池使用时间。该方法结合了 GMM噪声估计计算量小和模型补偿精度高的优点，在不降低识别性能的前提下，显著降低了系统的计算复杂度，提高了系统的实际应用能力。
【附图说明】
[0013] 图1为基于GMM噪声估计的模型组合语音识别系统总体框架图；
[0014] 图2为噪声估计模块的具体结构图。
【具体实施方式】
[0015] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0016] 基于高斯混合模型噪声估计的模型组合语音识别方法，其总体框架如图1所示。本发明的核心内容是噪声估计模块，其具体结构如图2所示。下面详细说明噪声估计模块和模型组合模块的具体实施方案。
[0017] 1、噪声估计
[0018] 本发明只考虑加性背景噪声，不处理信道卷积噪声。根据美尔频率特征参数 (MFCC:Mel frequency cepstral coefficient)提取过程可知，含噪语音倒谱特征y与纯净语音倒谱特征X的关系可以表示为：
[0019] y = Clog (exp (C :x) +exp (C ) ⑴其中，n是加性噪声的倒谱特征，C和C 1 分别表示离散余弦变换矩阵及其逆矩阵。将式（1)在定点（μχ，μ J处用一阶矢量泰勒级数（VTS:Vector Taylor Series)展开，可以得到如下的线性近似式：
[0020] y = (I-U) (χ- μ x) +U (η- μ η0) +Clog (exp (C 1 μ χ) +exp (C 1 μ η〇)) (2)
[0021] 其中，μ，μ η。分别是χ的均值和η的初始均值，I是单位矩阵，U的表达式如下：
[0023] 式（3)中diag()表示以括号中向量的元素为对角元素生成对角矩阵。
[0024] 对式⑵分别取均值和方差，即可得到含噪语音y的均值μ y和方差Σ y:
[0027] 其中，μ^Ρ Σ n分别是噪声n的均值和方差，也就是待估计的噪声参数。
[0028] 假设GMM有Μ个高斯单元，其输出概率表达式为：
[0030] 其中，xt是第t帧纯净语音倒谱特征向量；Cni、μ ΧιΠ1、Σχ ηι分别是GMM第m个高斯单元的混合系数、均值向量和协方差矩阵；D是特征向量的维数。为了从含噪语音中估计μη和Ση，构建如下辅助函数：
[0032] 其中，
是在给定含噪语音yJPGMM先验参数λ条件下，第t帧含噪语音yt属于GMM第m个高斯单元的后验概率；?是待估计的GMM参数集。
[0033] 对GMM的第m个高斯单元，式（4)和（5)可以分别表示为：
[0036] 式（9)中，V"= I-Um; 〇 σ χ ηι、〇 "是分别用Σ y ni、Σχ ηι、Ση的对角元素生成的方差向量；操作符·*表示矩阵的点乘，即两个相同维数的矩阵的对应元素相乘。
[0037] 将式⑶和（9)分别代入辅助函数式（7)，并分别令辅助函数关于μ η和。η的导数等于〇,即可得到μ^Ρ σ η的估计公式：
[0042] 为了能从含噪语音中实时估计噪声参数，GMM通常只包含较少的高斯单元。假设语音识别系统有400个基本语音单元，每个语音单元的HMM有6

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕勇;
技术所有人：河海大学;
我是此专利的发明人

上一篇：直接训练和修改机器人交互内容的系统及方法
上一篇：一种基于多重自适应的模型补偿语音识别方法