一种声学模型建立方法及基于该模型的语音解码方法
【技术领域】
[0001]本发明涉及语音识别领域,主要针对黏着语语音识别系统。
【背景技术】
[0002]在语言形态学中,根据语言是否需要依靠词尾的变化来表现其文法关系分为分析语和综合语,其中需要依靠词尾的变化表现其文法关系的综合语又可根据变化程度(屈折度)再次分类。黏着语是综合语的一种,属于屈折度较高的综合语,其词级单元通常由大量词素连接构成,称为黏着特性。由于语音识别系统在设计之初所针对的语种主要是分析语和准分析语,例如汉语和英语,因此黏着特性的出现为传统语音识别系统带来的许多新的问题,使其需要进一步完善和改良。
[0003]黏着特性所带来的问题主要可以归纳为两个方面。第一是在语言模型方面,黏着语缺乏自然的语言模型基本建模单元。分析语通常以词作为语言模型基本建模单元,因为词级单元能够比较多的包含语言层知识且数量相对有限。而黏着语中的词级单元由于黏着特性的存在而数量剧增,常用词语数量已远超字典可以容纳的尺寸,故不宜作为语言模型基本建模单元;同时次级自然语言单元音素(或字,视语言不同次级单元有所差异)亦不适宜作为语言模型基本建模单元,因为黏着特性会加剧该级单元的短视现象。第二是在声学模型方面,黏着语中音素的黏着会导致协同发音现象大量发生,即同一音素根据所处位置不同会具有多种不同的发音。在这种情况下,传统针对分析语设计的声学模型构建方式会导致声学模型性的不确定性升高(即高混淆度),进而导致语音识别系统性能整体下滑。
[0004]围绕以上两点问题,近年来研究者们进行过许多研究。其中第一点问题目前已找到较为恰当的解决方式,研究者使用基于统计或规则的方法生成一种新单元词片作为语言模型建模单元。词片单元介于词和音素(字)之间,能够较多的包含语言层知识,而数量又相对有限。但第二点问题目前尚未找到有效的解决方案,是困扰黏着语语音识别的难点之一。
【发明内容】
[0005]本发明的目的在于,为克服上述问题,本发明提供一种声学模型建立方法及基于该模型的语音解码方法。
[0006]为实现上述目的,本发明提供了一种声学模型建立方法,所述方法包含:
[0007]步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;
[0008]步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;
[0009]步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;
[0010]步骤104 )基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。
[0011]上述步骤101)进一步包含:
[0012]步骤101-1)从语音训练数据中提取语音特征;
[0013]步骤101-2)使用期望最大化算法计算基础音素集的三因子高斯混合模型的统计量。
[0014]上述步骤102)进一步包含:
[0015]步骤102-1)采用自聚类方法根据统计量自动生成决策树问题集;
[0016]步骤102-2)根据决策树问题集将具有相同中心因子的三因子高斯混合模型分解为若干个子类,每个子类称为一个同位音素;
[0017]其中,子类数量根据所设定的门限进行控制。
[0018]上述步骤103)进一步包含:
[0019]步骤103-1)将基础音素集与分离出的同位音素合并作为音素集;
[0020]步骤103-2)通过决策树过程对原始语音标注进行处理,根据上下文关系将标注的中的基础音素全部转化为同位音素,处理后的语音标注称为含同位音素的语音标注。
[0021]步骤104)所述声学模型训练方法包含:期望最大化算法或深度神经网络算法。
[0022]此外,本发明还提供了一种语音解码方法,该方法用于将输入的语音信息解码为文字信息且该方法基于权利要求1得到的同位音素分离结果与声学模型,所述方法具体为:
[0023]步骤201)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;
[0024]步骤202)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;
[0025]步骤203)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;
[0026]步骤204)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型;
[0027]步骤205)基于同位音素分离结果对原始发音字典进行处理,将发音字典中上下文关系符合同位音素决策条件的音素转化为同位音素,处理后的发音字典称为含同位音素的发音字典;
[0028]步骤206)依据声学模型、语言模型和含同位音素的发音字典,对输入的语音信息进行解码,输出含同位音素的解码结果;
[0029]步骤207)利用含同位音素的发音字典将解码结果还原为文字信息,完成语音解码。
[0030]总之,本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。在对目标语种各基础音素的统计量进行计算后,通过决策树系统将高混淆度的基础音素分解为若干易于区分的同位音素,大幅降低声学模型混淆程度,从而改善系统整体性能。本算法完全基于统计进行,不需要目标语种额外的语言学知识。
[0031]与现有技术相比,本发明的技术优势在于:
[0032]本发明所述方法可以有效降低黏着语声学模型混淆度,从而大幅提升语音识别系统的整体性能。本发明亦不需要语言学知识支持,可以在缺乏语言学知识的情况下有效推广至各类黏着语语音识别系统。
【附图说明】
[0033]图1是本发明所述的黏着语语音识别同位音素分离算法框图。
【具体实施方式】
[0034]下面结合附图和实施例对本发明所述方法进行详细说明。
[0035]本发明所述的黏着语语音识别同位音素分离算法框图如图1所示。算法首先根据训练数据和采用基础音素的训练标注计算基础音素三因子(Triphone)高斯混合模型(Gaussian Mixture Model,GMM)统计量,该统计量对每个基础音素三因子在特征空间中的分布进行估计。同位音素分离过程是对相同中心因子的三因子高斯混合模型进行分割聚类的过程,分割手段在本算法中采用决策树。一般情况下,决策树过程所需的问题集会由专家知识所产生,但鉴于这种方式对语言学知识的依赖性较大,会严重限制算法的适用范围,因此本算法采用自聚类方法根据统计量自动生成决策树问题