汉语普通话儿化音发音质量评测方法与系统的制作方法

文档序号：2835021阅读：331来源：国知局

专利名称：汉语普通话儿化音发音质量评测方法与系统的制作方法
技术领域：
本发明涉及一种语音评测方法及评测系统，尤其涉及一种汉语普通话儿化音发音质量评测方法及评测系统。
背景技术：
在当前的汉语普通话发音质量评测方法中，一般只涉及到对汉语普通话声母、韵母和声调的发音质量评测，但对儿化音等特殊音变现象的发音质量评测却未见相关研究。儿化是汉语普通话口语中颇具特色的一种音变现象，主要是由词尾“儿”变化而来。词尾“儿“本是一个独立音节，长期与其前面音节流利地连读而发生音变，“儿”失去独立性，“化”到前一个音节上，只保持一个卷舌动作，且使其前面音节里的韵母或多或少地发生变化，如“老头儿”、“鲜花儿”。儿化也是汉语普通话中一种非常重要的语言现象，经常在书面上出现，能起到区别词性和意义，表达不同感情色彩的作用。由于儿化音所在音节的韵母部分发生了比较复杂的变化，且明显带有卷舌特征，不同于其原韵母，因此，儿化音发音质量评测中需要对」L化韵母进行特殊处理。现有主流的发音质量评测方法都是借助成熟的语音识别技术进行的。具体做法如图1所示，用标准语音识别器将待评测语音和已知对应文本在时间上强制对齐(ForceAlignment)，然后提取强制对齐后识别的似然度分数(机器分)，或者在该分的基础上进行一些置信度的计算，得到更可靠的机器分，并通过预设阈值或者分数映射把机器分转换成评测员给定的发音质量等级。可以看出，如何根据似然度分数计算更可靠的置信度分数是获得满意评测结果的关键。常见的置信度计算方法有，对数似然度分数、对数似然比分数、对数后验概率分数、归一化对数似然比和发音良好度(GOP)等形式。目前，GOP算法已成为最重要的置信度分数的计算方法，广泛用于各类发音质量自动评测系统中。综上，采用现有的发音质量评测方法对儿化音进行发音质量评测时，会涉及到对儿化韵母进行有效建模，但也会存在儿化韵母、原韵母、“儿”音节之间的模型混淆问题，实际效果很不理想。

发明内容
针对采用现有的发音质量评测方法对儿化音进行发音质量评测时，存在儿化韵母、原韵母、“儿”音节之间的模型混淆，实际效果很不理想的问题，本发明提供了一种有效的汉语普通话儿化音发音质量评测方法与系统。该方法在现有发音质量评测方法的基础上，一方面扩展标准的汉语声韵母发音空间，使其包括所有的儿化韵母，建立包含儿化韵母的扩展声韵母模型，并在包含儿化韵母的扩展发音空间内进行更大范围的发音质量评测；另一方面，在包含儿化韵母的扩展发音空间内进行发音质量评测时，把对儿化音发音质量评测问题转化为儿化音发音质量的分类问题，建立儿化音发音质量分类模型，通过提取儿化音节及其前面音节的多种声学特征、语言学特征、以及它们的统计特征和动态变化特征，获取该儿化音的发音质量等级，进而完成儿化音发音质量的评测，能有效地提高汉语普通话中儿化音发音质量评测的正确率。本发明的目的之一是提供一种汉语普通话儿化音发音质量评测方法，包括如下步骤:
第一步，搜集包含儿化音的标准发音语音库，建立包含儿化韵母的扩展声韵母模型；第二步，搜集儿化音发音质量评测数据库，建立儿化音发音质量分类模型；
第三步，利用第一步获得的包含儿化韵母的扩展声韵母模型，对待评测发音及其对应文本进行强制对准，得到儿化音节及其前一音节的音节边界信息，包括它们所含声母、韵母、儿化韵母的边界信息；
第四步，提取该儿化音节及其前一音节所在语音段的多种声学特征和语言学特征，包括时长、音节类别、置信度、基频、音强、能量、共振峰，以及它们的统计特征和动态变化特征；
第五步，将第四步获得的所有特征输入到第二步获得的儿化音发音质量分类模型进行分类，获得该儿化音节的发音质量等级，输出高质量的评测结果。非儿化音节可按照现有的发音质量评测方法进行评测。本发明的目的之二是提供一种汉语普通话儿化音发音质量评测系统，包括基于扩展声韵母模型的音节边界切分模块，儿化音节音段及其前一音节音段多种特征提取模块，基于儿化音发音质量分类模型的分类分级模块；该基于扩展声韵母模型的音节边界切分模块利用包含儿化韵母的扩展声韵母模型，对待评测语音及其对应文本，进行强制对准和Viterbi解码算法，得到各音素(包括声母、韵母、儿化韵母)等的边界信息；该儿化音节音段及其前一音节音段多种特征提取模块利用多种语音信号处理手段，得到和特定音节相关的多种特征，用于基于儿化音发音质量分类模型的分类分级模块的输入特征；基于儿化音发音质量分类模型的分类分级模块利用儿化音发音质量分类模型对待评测儿化音节进行发音质量等级分类，进而完成儿化音的发音质量评测。其它声母、韵母的发音质量评测可以采取现有的发音质量评测(需要使用包括儿化韵母的扩展声韵母模型)方法进行评测。本发明的有益效果在于:儿化是汉语普通话中颇具特色的一种重要音变现象，儿化音并不是先发出一个普通音节，然后再发出一个“儿”音节，而是在发普通音节韵母的同时，叠加上卷舌动作，使得整个韵母都贯穿上儿化的色彩。因此，通常的发音质量检测系统一般无法对儿化音进行有效检测。通过构建包含儿化韵母的扩展声韵母模型可以在一定程度上实现对儿化音的发音质量检测，但是，在包含儿化韵母的发音空间内，儿化韵母与其对应的原韵母有很大的混淆，声学模型的区分度很差，这也直接影响儿化音发音质量评测系统的实际性能。为此，本发明在不改变现有发音质量检测与评价系统的基础上，加上针对儿化音的发音质量分类系统，提取儿化音节音段及其前一音节音段的多种特征，建立儿化音发音质量分类模型，实现对儿化音发音质量的有效分类分级，并取得非常好的评测效果O

图1是现有主流的发音质量评测方法示意图2是本发明汉语普通话儿化音发音质量评测方法示意图3是本发明建立包含儿化韵母的扩展声韵母模型示意图；图4是本发明建立儿化音发音质量分类模型示意图5是本发明提取特定语音段多种特征的流程示意图6是本发明汉语普通话儿化音发音质量评测系统的模块示意图。
具体实施例方式下面结合附图对本发明的技术方案作进一步的解释说明，但并不局限如此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。
具体实施方式
一:一种汉语普通话儿化音发音质量评测方法，如图2所示，具体包括如下步骤:
第一步，搜集包含儿化音的标准发音语音库，建立包含儿化韵母的扩展声韵母模型；第二步，搜集儿化音发音质量评测数据库，建立儿化音发音质量分类模型；
第三步，利用第一步获得的包含儿化韵母的扩展声韵母模型，对待评测发音及其对应文本进行强制对准，得到儿化音节及其前一音节的音节边界信息，包含它们所含的声母、韵母、儿化韵母的边界信息；
第四步，提取该儿化音节及其前一音节所在语音段的多种声学特征和语言学特征，包括时长、音节类别、置信度、基频、音强、能量、共振峰，以及它们的统计特征和动态变化特征；
第五步，将第四步获得的所有特征输入到第二步获得的儿化音发音质量分类模型进行分类，获得该儿化音节的发音质量等级，输出高质量的评测结果。非儿化音节可按照现有的发音质量评测方法进行评测。如图3所示，第一步具体包括如下步骤:
步骤1，搜集汉语普通话标准发音语音库，训练标准的声韵母声学模型。本发明使用实验室自行录制的新闻联播语音数据，约80小时，16 KHz采样，16 bit量化，以下简记为CCTV0声学模型采用上下文无关的声韵母模型(Mono-phone)。特征采用39维MFCC_0_D_A_Z特征，帧长25毫秒，帧移10毫秒。音素集共计64个音素(即64个HMM)，包括6个零声母，21个声母，37个韵母，其中声母采用自左向右的3状态HMM，韵母采用自左向右的5状态HMM，每个状态都训练到16混合高斯作为其概率密度函数。步骤2，搜集包含儿化音的汉语普通话标准发音语音库，用于训练含有儿化韵母的扩展声韵母模型。本发明使用实验室自行录制的普通话水平为一级甲等的2个说话人，I男I女，按照国家普通话水平测试大纲提供的普通话测试儿化词语表朗读2遍的录音。该儿化词语表包含36个儿化韵母，共188个双音节儿化词语。以下简记为ERHUA。步骤3，扩展标准的汉语声韵母发音空间，使其在原有声母、韵母的基础上，加入所有的儿化韵母，即把汉语普通话的音素集合扩展为所有的声韵母，再加上所有韵母的儿化韵母，比如“a”的儿化韵母记为“a_r”，“e”的儿化韵母记为“e_r”等等。韵母“er”没有儿化韵母，因此，共36个儿化韵母。步骤4，训练包含儿化韵母的扩展声韵母模型。虽然理论上说所有韵母都可能发生儿化，但实际上有些韵母发生儿化的机会很少，因此也很难收集完整的儿化音数据。考虑到CCTV中儿化音数据基本没有，ERHUA中的儿化音数据也非常少，因此，在训练包含儿化韵母的扩展声韵母模型时，我们采取的策略是，首先复制步骤I中获得的原韵母的声学模型，然后再利用步骤2中获得的儿化音数据，在步骤3中获得的新的扩展发音空间内，对包含儿化韵母的扩展声韵母模型做进一步的迭代训练。步骤5，利用步骤4获得的包含儿化韵母的扩展声韵母模型，利用现有的发音质量评测方法建立发音质量评测模型，并设置音素相关的阈值，对声母、韵母及儿化韵母分别进行发音质量评测。评测得到的置信度分数可用作第四步步骤3的发音质量置信度特征。音素相关的阈值设定有多种方法，可以利用步骤2中获得的包含儿化音的汉语普通话标准发音语音库(ERHUA)进行计算和设定，也可以利用第二步步骤I中获得的儿化音发音质量评测数据库(PSC)进行计算和设定。为检验这种方法对儿化音发音质量评测的实际性能，对第二步步骤I中获得的PSC语音库的304个发音正确的双音节儿化词语进行评测。首先利用第三步的方法对每个儿化韵母进行强制切分，得到相应的语音段，并利用在第一步步骤4中获得的扩展的声韵母模型(只使用所有韵母和儿化韵母)分别对该语音段进行了识别，并把识别的结果做统计，列为表I。表I PSC语音库中儿化韵母所在语音段的识别结果排名表(部分)
权利要求
1.汉语普通话儿化音发音质量评测方法，其特征在于所述方法步骤如下: 第一步，搜集包含儿化音的标准发音语音库，建立包含儿化韵母的扩展声韵母模型；第二步，搜集儿化音发音质量评测数据库，建立儿化音发音质量分类模型；第三步，利用第一步获得的包含儿化韵母的扩展声韵母模型，对待评测发音及其对应文本进行强制对准，得到儿化音节及其前一音节的音节边界信息，包括它们所含声母、韵母、儿化韵母的边界信息；第四步，提取该儿化音节及其前一音节所在语音段的声学特征、语言学特征、以及它们的统计特征和动态变化特征；第五步，将第四步获得的所有特征输入到第二步获得的儿化音发音质量分类模型进行分类，获得该儿化音节的发音质量等级，输出高质量的评测结果。
2.根据权利要求1所述的汉语普通话儿化音发音质量评测方法，其特征在于所述第一步的具体步骤如下: 步骤1，搜集汉语普通话标准发音语音库，用于训练标准的声韵母声学模型；步骤2，搜集包含儿化音的汉语普通话标准发音语音库，用于训练含有儿化韵母的扩展声韵母模型；步骤3，扩展标准的汉语声韵母发音空间，使其包括所有的儿化韵母，建立包含儿化韵母的新的发音空间；步骤4，训练包含儿化韵母的扩展声韵母模型；步骤5，利用步骤4获得的包含儿化`韵母的扩展声韵母模型，利用已有的发音质量评测方法建立发音质量评测模型，并设置音素相关的阈值，对声母、韵母及儿化韵母分别进行发音质量评测。
3.根据权利要求1所述的汉语普通话儿化音发音质量评测方法，其特征在于所述第二步的具体步骤如下: 步骤1，搜集儿化音发音质量评测数据库，用于训练儿化音发音质量评测模型及儿化音发音质量分类模型；步骤2，建立儿化音发音质量分类模型。
4.根据权利要求3所述的汉语普通话儿化音发音质量评测方法，其特征在于所述步骤2的具体步骤如下: 对步骤I搜集的儿化音发音质量评测数据库，提取相应儿化音节及其前一音节的声学特征、语言学特征、以及它们的统计特征和动态变化特征，结合其发音质量评测等级，训练儿化音发音质量分类模型。
5.根据权利要求3所述的汉语普通话儿化音发音质量评测方法，其特征在于所述儿化音发音质量分类模型可选择分类回归树、神经网络、支持向量机和集成分类回归树多种不同种类的分类模型。
6.根据权利要求1或4所述的汉语普通话儿化音发音质量评测方法，其特征在于所述提取相应儿化音节及其前一音节的声学特征、语言学特征、以及它们的统计特征和动态变化特征的具体步骤如下: 步骤1，根据第三步的音节边界信息，提取音节的时长特征，归一化时长信息，以及提取前后音节、韵母时长的动态变化特征:步骤2，根据发音对应的文本，提取音节的声调信息和儿化韵母的类别: 步骤3，根据音节边界信息，提取音节的置信度特征以及它们的统计特性: 步骤4，根据音节边界信息，提取音节的基频、能量、音强特征及其统计特征和动态变化特征；步骤5，根据音节边界信息，提取音节的第三共振峰、第二共振峰及其统计特征和动态变化特征。
7.一种汉语普通话儿化音发音质量评测系统，其特征在于所述评测系统包括:基于扩展声韵母模型的音节边界切分模块，儿化音节音段及其前一音节音段多种特征提取模块，基于儿化音发音质量分类模型的分类分级模块；该基于扩展声韵母模型的音节边界切分模块利用包含儿化韵母的扩展声韵母模型，对待评测语音及其对应文本，进行强制对准和Viterbi解码算法，得到各音节的边界信息，包括它们所含声母、韵母、儿化韵母的边界信息；该儿化音节音段及其前一音节音段多种特征提取模块利用多种语音信号处理手段，以及其对应的文本，得到和特定音节相关的多种声学特征和语言学特征，用于基于儿化音发音质量分类模型的分类分级模块的输入特征；该基于儿化音发音质量分类模型的分类分级模块利用儿化音发音质量分类模型对待评测儿化音节进行发音质量等级分类，进而完成儿化音的发音质量评测。
8.根据权利要求7所述的汉语普通话儿化音发音质量评测系统，其特征在于所述基于扩展声韵母模型的音节边界切分模块包括扩展声韵母模型的训练模块、基于Viterbi的音节边界切分模块；该扩展声韵母模型的训练模块是对声母、韵母、儿化韵母模型的相关参数进行最大似然估计；该基于Viterbi的音节边界切分模块是针对待评测语音和相对应的文本，利用扩展声韵母模型进行强制对准，通过Viterbi解码，获得各音节的边界信息，包括它们所含声母、韵母、儿化韵母的边界信息。
9.根据权利要求7所述的汉语普通话儿化音发音质量评测系统，其特征在于所述儿化音节音段及其前一音节音段多种特征提取模块包括音段时长特征提取模块、音节类别特征提取模块、置信度特征提取模块、基频特征提取模块、音强特征提取模块、能量特征提取模块、共振峰特征提取模块；该时长特征提取模块提取音段的时长信息，归一化时长信息，以及前后音节、韵母时长的动态变化特征；该音节类别特征提取模块提取音节的声调信息和儿化韵母的类别；该置信度特征提取模块提取音段的原韵母置信度分数、儿化韵母的置信度分数、儿音节的置信度分数以及它们的统计特性；该基频特征提取模块提取音段的基频及其统计特征和动态变化特征；该音强特征提取模块提取音段的音强及其统计特征和动态变化特征；该能量特征提取模块提取音段的能量及其统计特征和动态变化特征；该共振峰特征提取模块提取音段的第三共振峰、第二共振峰及其统计特征和动态变化特征；根据权利要求7所述的汉语普通话儿化音发音质量评测系统，其特征在于所述基于儿化音发音质量分类模型的分类分级模块包括儿化音发音质量分类模型训练模块、儿化音发音质量分类模型分类模块；该儿化音发音质量分类模型训练模块用于训练用于儿化音发音质量分类的分类器；该儿化音发音质量分类模型分类模块利用儿化音节音段及其前一音节音段多种特征提取模块作输入，输出该儿化音的发音质量等级，进而完成对儿化音发音质量的有效评价。
全文摘要
汉语普通话儿化音发音质量评测方法与系统，涉及一种语音评测方法及评测系统。本发明在现有发音质量评测方法基础上，一方面扩展标准的汉语声韵母发音空间，使其包括所有的儿化韵母，建立包含儿化韵母的扩展声韵母模型，并在包含儿化韵母的扩展发音空间内进行更大范围的发音质量评测；另一方面，在包含儿化韵母的扩展发音空间内进行发音质量评测时，把对儿化音发音质量评测问题转化为儿化音发音质量分类问题，建立儿化音发音质量分类模型，通过提取儿化音节及其前面音节的多种声学特征、语言学特征、以及它们的统计特征和动态变化特征，获取该儿化音的发音质量等级，进而完成儿化音发音质量评测，能有效提高汉语普通话儿化音发音质量评测的正确率。
文档编号G10L17/08GK103177733SQ20131007551
公开日2013年6月26日申请日期2013年3月11日优先权日2013年3月11日
发明者张珑, 单琳琳, 解瑞峰, 王建华, 季伟东, 梁鹏申请人:哈尔滨师范大学

完整全部详细技术资料下载