专利名称:一种针对计算机语言学习系统发音评测的自适应方法
技术领域:
本发明涉及一种针对计算机语言学习系统发音评测作出自适应调整的方法。
技术背景为了更方便,更准确的使学生学习各种语言,目前,较多的采用计算机辅助 语言学习系统,但目前的计算机辅助语言学习系统会出现一个问题使用到的标 准声学模型训练数据的发音人数目有限,不可能覆盖到各种音色;标准语料录音 环境(办公室环境)跟实际环境(考试及学习环境)有差异,同时录音设备也可 能有较大差异。受到这些因素的影响,使得声学模型与实际使用的情况存在较大 的不匹配现象;这些因素造成了实际应用中考生的发音矢量与标准声学模型差异 较大,使得识别器的性能受到很大的干扰,严重影响计算机辅助语言学习系统对 发音评价的正确性。发明内容针对现有计算机辅助语言学习系统出现的问题,本发明通过后验概率挑选合 适的自适应语料,确保既能减弱由于实际发音人同标准模型音色、使用环境以及 信道的差异造成的识别器误差,又能避免自适应时将标准模型拉偏,不能正确对 发音人的发音进行评价。本发明是通过以下技术方案实现的一种针对计算机语言学习系统发音评测的自适应方法,包括搭建语音识别系统,还包括以下步骤(1) 在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声 韵母和声调的识别;(2) 根据切分和限制边界识别的结果计算各声韵母和声调后验概率,并根据预 先设定门限分别挑选出自适应数据;(3 )根据挑选出自适应数据对识别系统中的声学模型进行自适应;(4) 用自适应后的声学模型进行第二遍切分和识别;(5) 用最终切分识别结果提取评测参数。一种针对计算机语言学习系统发音评测的自适应方法,所述的步骤(1)包 括以下步骤(A) 根据专家的先验知识,统计得到发音人容易混淆的音素作为限定边界识别 的候选项,进行声韵母替换列表的设计;(B) 利用被评测语料的文本对发音进行切分和计算目标文本的概率,记为尸,,然后,在切分得到的边界上,计算此音段对替换列表内所有模型的概率,将这个 矢量记为^,A,……,&),得到声韵母第一遍切分和限制边界识别结果;(C) 利用被评测语料的文本,在声韵母切分的边界上,计算该段对所有声调模 型的概率,将这个矢量记为(P,pi^,……,P^),将其中评测文本对应的调型概率记为Pw,得到声调第一遍限制边界识别的结果。一种针对计算机语言学习系统发音评测的自适应方法,所述的步骤(2)包 括以下步骤首先,根据切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验 概率,记为i^(p);同样,以调型为单位计算各个声调的后验概率,记为户尸,(p), 计算方法如下/>尸尸(= (Zog w r ) / wFra/we / 尸A O) = (Z0g V1") / "&匿7b"e/ = 1其中"Fmwe为当前声韵母所占的时间长度,"Fmw^。^为单个调型所占时间长度,然后仅选择后验概率大于预先设定门限的数据作为自适应数据。一种针对计算机语言学习系统发音评测的自适应方法,所述的步骤(3)是 根据挑选得到的数据分别对声韵母识别模型和声调识别模型做MLLR全局自适应,得到自适应后的声韵母识别模型和声调识别模型。一种针对计算机语言学习系统发音评测的自适应方法,在得到自适应后的声 韵母识别模型和声调识别模型后,使用自适应后的声韵母识别模型和声调识别模 型对发音人的语料进行第二遍切分和限制边界的识别。本发明提出了针对计算机辅助语言学习系统的一种有监督自适应方法,其自 适应方法是通过后验概率挑选合适的自适应语料,引入改进自适应策略后,既减 弱了因为发音人、使用环境和信道差异造成的声学特征矢量和声学模型的不匹配 性,又能保证不用发音错误的数据自适应,提高了语音识别器正确的识别性能。 减弱了由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器 误差;又避免自适应时将标准模型拉偏,不能正确对发音人的发音进行评价的不 足。
图1为计算机辅助语言学习系统中自适应策略的改进方法流程框图。
具体实施方式
参见附图所示。针对计算机语言学习系统发音评测的自适应方法包括以下步骤 1、语音识别系统的搭建,其步骤如下(1) 收集训练识别器语音;(2) 数据标注;(3) 声韵母模型训练;(4) 声调模型训练;(5) 将模型保存到计算机辅助语言学习系统库中。2 、在识别器基础上进行切分和限制边界的识别,其步骤如下(1)声韵母替换列表的统计根据专家的先验知识,统计得到发音人容易混淆 的音素作为限定边界识别的候选项,这么做好处有二其一,简化了计算,使得 后验概率计算更为方便快捷。其二,降低了声学模型混淆对分母计算的影响。第 一个优点显而易见,第二个优点的说明如下由于H^1模型并不能完全代表真实语音模型(Plug-in决策的天然缺点),而且,某些音素对本身的混淆程度就较 大(如ian-an等)而它们实际在学习者发音上的发音错误几乎不会发生,此时, 忽略混淆音素的影响实际上加强了错误检测的能力。(2) 得到声韵母第一遍切分和限制边界识别结果利用被评测语料的文本,对发音进行切分和计算目标文本的概率,记为A,然后,在切分得到的边界上,计算此音段对替换列表内所有模型的概率,这是一个矢量,记为W,A,……,&)。(3) 得到声调第一遍限制边界识别的结果利用被评测语料的文本,在声韵母 切分的边界上,计算该段对所有声调模型的概率,将这个矢量记为 (Pn,A2,……,&),将其中评测文本对应的调型概率找出来,记为P"。3自适应数据的挑选和自适应,其步骤如下 (1)自适应数据的挑选首先,根据第一遍切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验概率,记为PP(";同样,以调型为单位计算各个声调的后验概率,记为 PA(p),计算方法如下!=1尸尸r O)=(丄Og / "Frawer0"e,=1其中"Fra膽为当前声韵母所占的时间长度(以帧为单位,每帧10ms), "Fram&,为单个调型所占时间长度。然后仅选择后验概率高过选择预先设定门限(事先经验性设定)的数据作为 自适应数据,进行有选择性的自适应如果ilPO)2 7Ve^! (77zm^:事先设定的声韵母经验性门限),该数据保 留,作为声韵母模型自适应数据;如果i^(/7)〈77zr^A舍弃该数据。同样,如果尸AO)》77^^^ (7T^e^2:事先设定的声调经验性门限),该数据保留,作为声调模型自适应数据;如果P^(P)〈M"^2舍弃该数据。(2)模型自适应根据挑选得到的数据分别对声韵母识别模型和声调识别模型做MLLR全局自 适应,得到自适应后的声韵母识别模型和声调识别模型。4、 使用自适应后的声韵母识别模型和声调识别模型,对发音人的语料进行第二 遍切分和限制边界的识别,过程基本同第一遍切分识别。5、 得到最终的切分识别结果后就可以提取语音评测用到的参数了 。
权利要求
1、一种针对计算机语言学习系统发音评测的自适应方法,包括搭建语音识别系统,其特征在于还包括以下步骤(1)在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声韵母和声调的识别;(2)根据切分和限制边界识别的结果计算各声韵母和声调后验概率,并根据预先设定门限分别挑选出自适应数据;(3)根据挑选出自适应数据对识别系统中的声学模型进行自适应;(4)用自适应后的声学模型进行第二遍切分和识别;(5)用最终切分识别结果提取评测参数。
2、 根据权利要求1所述的一种针对计算机语言学习系统发音评测的自适应方法, 其特征在于所述的步骤(1)包括以下步骤(A) 根据专家的先验知识,统计得到发音人容易混淆的音素作为限定边界识别 的候选项,进行声韵母替换列表的设计;(B) 利用被评测语料的文本对发音进行切分和计算目标文本的概率,记为尸,,然后,在切分得到的边界上,计算此音段对替换列表内所有模型的概率,将这个 矢量记为(尸,A,……,4),得到声韵母第一遍切分和限制边界识别结果;(C) 利用被评测语料的文本,在声韵母切分的边界上,计算该段对所有声调模 型的概率,将这个矢量记为(P^i^,……,&),将其中评测文本对应的调型概率记为i^,得到声调第一遍限制边界识别的结果。
3、 根据权利要求1所述的一种针对计算机语言学习系统发音评测的自适应方法, 其特征在于所述的步骤(2)包括以下步骤首先,根据切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验 概率,记为PiX; );同样,以调型为单位计算各个声调的后验概率,记为户P,(力, 计算方法如下<formula>formula see original document page 2</formula><formula>formula see original document page 0</formula>其中wFra,为当前声韵母所占的时间长度,"Fra附&^为单个调型所占时间长度,然后仅选择后验概率大于预先设定门限的数据作为自适应数据。
4、 根据权利要求1所述的一种针对计算机语言学习系统发音评测的自适应方法, 其特征在于所述的步骤(3)是根据挑选得到的数据分别对声韵母识别模型和声 调识别模型做MLLR全局自适应,得到自适应后的声韵母识别模型和声调识别模型。
5、 根据权利要求4所述的一种针对计算机语言学习系统发音评测的自适应方法, 其特征在于得到自适应后的声韵母识别模型和声调识别模型后,使用自适应后的 声韵母识别模型和声调识别模型对发音人的语料进行第二遍切分和限制边界的识别。
全文摘要
本发明涉及一种针对计算机语言学习系统发音评测的自适应方法,包括以下步骤搭建语音识别系统;在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声韵母和声调的识别;根据切分和限制边界识别的结果计算各声韵母和声调后验概率,并根据预先设定门限分别挑选出的自适应数据;根据挑选出自适应数据对识别系统中的声学模型进行自适应;用自适应后的声学模型进行第二遍切分和识别;用最终切分识别结果提取评测参数。本发明通过后验概率挑选合适的自适应语料,既能减弱由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器误差,又能避免自适应时将标准模型拉偏,不能正确对发音人的发音进行评价。
文档编号G09B19/06GK101315733SQ200810107118
公开日2008年12月3日 申请日期2008年7月17日 优先权日2008年7月17日
发明者刘庆峰, 王仁华, 王海坤, 郁 胡, 胡国平, 思 魏 申请人:安徽科大讯飞信息科技股份有限公司