专利名称:用于语音识别的声学模型的建模方法、建模系统的制作方法
技术领域:
本发明涉及语音识别领域,尤其涉及一种用于语音识别的声学模型的建模方法及建模系统。
背景技术:
目前语音识别的主流框架基于统计模式识别。典型的语音识别系统框架如图1所示:包括语音采集及前端处理模块、特征提取模块、声学模型模块、语言模型模块以及解码器模块。语音识别的基本流程如下:语音采集装置收集人的语音后经过前端处理之后进行特征提取,提取的特征序列如MFCC或PLP通过声学模型获得其观察概率,结合语言模型概率送入解码器获得最有可能的文本序列。所述声学模型建模基于隐马尔科夫框架,采用混合高斯模型对语音特征的概率分布进行建模。所述混合高斯模型会对语音特征及其分布做一些不恰当的假设,如相邻语音特征的线性无关假设,其观察概率服从混合高斯分布等。此夕卜,混合高斯模型进行参数训练时目标函数是使观察特征的似然概率最大,而解码时使用的却是最大后验准则,概率模型上不一致。可见传统的声学模型,建模精度不高,导致语音识别效果欠佳。
发明内容
针对上述问题,本发明实施例提出一种用于语音识别的声学模型的建模方法、建模系统。在第一方面,本发明实施例提出一种用于语音识别的声学模型的建模方法,所述方法包括:用训练数据训练一个隐马尔可夫-混合高斯HMM-GMM模型,该HMM-GMM模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三音子状态,所述HMM-GMM模型通过期望最大EM算法获得所述三音子状态的状态转移概率;基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息;对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数;基于所述训练数据语音特征的三音子状态采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。优选地,所述基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息,具体为:基于所述HMM-GMM模型,将所述训练数据语音特征与其最可能的三音子状态进行对应,获得所述语音特征帧级状态信息。优选地,所述对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数具体为:利用受限波尔兹曼机基于所述训练数据进行逐层训练至收敛,用获得的参数初始化所述深层网络的各隐含层的权重。在第二方面,本发明实施例提出一种用于语音识别声学模型的建模系统,其包括:第一模块,用于用训练数据训练一个隐马尔可夫-混合高斯HMM-GMM模型,该HMM-GMM模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三音子状态,所述HMM-GMM模型通过期望最大EM算法获得所述三音子状态的状态转移概率;第二模块,用于基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息;第三模块,用于对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数;第四模块,用于基于所述训练数据语音特征的三音子状态采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。优选地,所述第二模块基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息,具体为:所述第二模块基于所述HMM-GMM模型,将所述训练数据语音特征与其最可能的三音子状态进行对应,获得所述语音特征帧级状态信息。优选地,所述第三模块对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数具体为:所述第三模块利用受限波尔兹曼机基于所述训练数据进行逐层训练至收敛,用获得的参数初始化所述深层网络的各隐含层的权重。本发明实施例采用三音子状态,基于深层神经网络建模,使用受限波尔兹曼算法初始化所述网络各隐含层的权重,所述权重在后续还可以借助反向误差传播算法被更新,能够有效地缓解所述网络预训练时容易陷入局部极值的风险,并进一步提高声学模型的建模精度。
下面结合附图和具体实施方式
对本发明作进一步详细的说明。图1是现有的语音识别系统示意图;图2是本发明实施例的基于上下文相关深层神经网络语音识别系统框图;图3是本发明实施例的用于语音识别的声学模型的建模方法示意图;图4是本发明实施例的用于语音识别的声学模型的建模系统示意图。
具体实施例方式下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。考虑到混合高斯模型需要对语音特征及其概率分布做出不恰当假设,本发明实施例使用上下文相关的深层神经网络代替混合高斯模型进行声学模型建模。所述深层神经网络包含多个隐含层,其建模单元是经音素决策树聚类后的上下文相关三音子状态。整个系统的基本框图如图2所示。深层神经网络训练时采用最小交叉熵准则作为目标函数,由于其具有多个隐含层,其误差函数具有很多的局部极值,导致深层神经网络在训练过程很容易陷入局部极值而过早的收敛。针对此问题,神经计算领域提出的通过神经网络预训练来初始化权重参数,再采用传统的误差反向传播算法对网络参数进行训练。预训练算法采用受限玻尔兹曼机,受限玻尔兹曼机为双向图模型,包括一个可见层和一个隐含层,其中同一层的各单兀之间无互联而不同层的单元稠密链接。该模型通过一个能量函数定义可见层与隐含层变量的联合分布,具体公式如下:
权利要求
1.一种用于语音识别的声学模型的建模方法,其特征在于,所述方法包括: 用训练数据训练一个隐马尔可夫-混合高斯HMM-GMM模型,该HMM-GMM模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三音子状态,所述HMM-GMM模型通过期望最大EM算法训练获得,同时获得所述三音子状态的状态转移概率; 基于所述HMM-GMM模型,对所述训练数据语音特征进行强制对齐,获得所述语音特征帧级别的三音子状态信息; 对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数; 基于所述训练数据语音特征的语音特征帧级状态信息采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。
2.如权利要求1所述的建模方法,其特征在于,所述基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息,具体为:基于所述HMM-GMM模型,将所述训练数据语音特征与其最可能的三音子状态进行对应,获得所述语音特征帧级状态信息。
3.如权利要求1所述的建模方法,其特征在于,所述对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数具体为:利用受限波尔兹曼机基于所述训练数据进行逐层训练至收敛,用获得的参数初始化所述深层网络的各隐含层的权重。
4.一种用于语音识别声学模型的建模系统,其特征在于,所述建模系统包括: 第一模块,用于用训练数据训练一个隐马尔可夫-混合高斯HMM-GMM模型,该HMM-GMM模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三音子状态,所述HMM-GMM模型通过期望最大EM算法获得所述三音子状态的状态转移概率; 第二模块,用于基于所述HMM-GMM模型,对所述训练数据语音特征进行强制对齐,获得所述语音特征帧级的三音子状态信息; 第三模块,用于对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数; 第四模块,用于基于所述训练数据语音特征的语音特征帧级状态信息采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。
5.如权利要求4所述的建模系统,其特征在于,所述第二模块基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息,具体为:所述第二模块基于所述HMM-GMM模型,将所述训练数据语音特征与其最可能的三音子状态进行对应,获得所述语音特征帧级状态信息。
6.如权利要求4所述的建模系统,其特征在于,所述第三模块对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数具体为:所述第三模块利用受限波尔兹曼机基于所述训练数据进行逐层训练至收敛,用获得的参数初始化所述深层网络的各隐含层的权重。
全文摘要
本发明涉及一种用于语音识别的声学模型的建模方法及语音识别系统。所述方法包括训练一个初始模型,建模单元为经音素决策树聚类后的三音子状态,所述模型还给出状态转移概率;基于初始模型对训练数据语音特征的三音子状态进行强制对齐,获得其帧级别的状态信息;对深层神经网络进行预训练以得到各隐含层初始权重;基于所获得的帧级状态信息采用误差反向传播算法对已初始化的网络进行训练,更新权重。本发明采用上下文相关三音子状态做为建模单元,基于深层神经网络建模,使用受限波尔兹曼算法初始化所述网络各隐含层的权重,所述权重在后续还可以借助反向误差传播算法被更新,能够有效地缓解所述网络预训练时容易陷入局部极值的风险,并进一步提高声学模型的建模精度。
文档编号G10L15/06GK103117060SQ201310020010
公开日2013年5月22日 申请日期2013年1月18日 优先权日2013年1月18日
发明者颜永红, 肖业鸣, 潘接林 申请人:中国科学院声学研究所, 北京中科信利技术有限公司