专利名称:计算机辅助语言学习系统中的发音质量评价方法
技术领域:
本发明属于语音技术领域,具体地说,涉及利用语音信号处理技术实现计算机辅助语言 学习系统中语音发音质量评价的方法。
背景技术:
在学习者进行语言学习时,对其发音质量进行可靠的评价是计算机辅助语言学习系统的 核心功能。然而由于现有技术的局限,目前的发音质量评价方法的性能还不够理想,距离实 用化还有一定的差距。当前,利用计算机对发音质量进行评价的方法主要是基于隐含马尔可夫模型(HMM)。 中国发明专利申请第200510114848.8号公开了一种用于学习机的发音质量评价方法。该方法 采用隐含马尔可夫模型训练标准发音模型,并搜索最优路径,以此计算用来评价发音质量的 置信分数。这种方法过多依赖于隐含马尔可夫模型的训练,并且在影响发音质量的多个因素 中,仅基于与声学模型有关的因素来评价发音质量,因此与专家评分的相关性还不够高,对 单词和短句发音机器评分和专家评分的相关性仅为0.74。在通信系统中也涉及语音质量的评价。ITU-T P.862中公开了一种用于电话信道的语音质 量评价方法。首先将参考语音通过电话信道得到测试语音。然后将参考语音和测试语音映射 到感知域,精确估计出测试语音相对于参考语音的延时,最后在感知域计算测试语音相对于 参考语音的感知差异,并以此来评价测试语音的语音质量。然而,通信系统中的语音质量评价方法和计算机辅助语言学习系统中的发音质量评价有 所不同。首先,在语音通信系统中,影响语音质量的因素一般是电话信道、编解码器引起的 各种噪音对语音的损伤以及网络对语音的延时。参考语音和测试语音都是同一个说话人的同 一-句语音,因此如果不考虑延时,测试语音中的各个音素一般不会有段长的变化。 一个人语 音发音是否正确对通信系统的语音质量评价过程不会产生影响。而在计算机辅助语言学习系 统中,影响发音质量的因素比较复杂。学习者的测试语音的失真是由于发音不准确造成的, 和噪声没有多大关系。并且如果将教师的发音作为参考语音,学习者的语音作为测试语音,来考察测试语音相对于参考语音的发音质量。那么参考语音和测试语音来自不同的说话人, 导致测试语音和参考语音的长度不同,并且这一语音长度的差异不是延时造成的,因此无法 直接对准。其次,不同说话人的声道长度不同,导致测试语音和参考语音中同一音素的共振 峰不完全一样。另外,两个说话人语音中的韵律变化也有所不同,其直接表现就是测试语音 和参考语音的重音变化。两个人的基音也不相同,对应基音变化过程也有比较大的差异。计算机辅助语言学习系统应尽可能模仿专家对发音质量评价的过程。通常,专家对发音 质量进行评价的过程可以划分为三个步骤。首先,通过耳机或者音箱聆听测试语音。然后, 大脑对感知到的语音进行处理,并根据自己的语音学和语言学知识,将参考语音和测试语音 进行对比,发现测试语音在各个层次(例如声学层和韵律层)上的发音错误和失真。最后, 综合上述各种失真,给出测试语音的总体评价。可见,对发音质量的感知与发音质量评价的 结果密切相关。而现有技术未能在韵律层次上对发音质量进行评价,并且缺乏对发音质量的 感知失真方面的研究。本发明针对现有技术中存在的问题,提出一种计算机辅助语言学习系统中的发音质量评 价方法。该方法以教师的发音作为参考语音,分别在声学、感知和韵律方面计算学习者的测 试语音相对于参考语音的发音质量差别,得到匹配分数、感知分数、段长分数和基音分数, 并对所述四种分数进行融合,得到测试语音的最终分数。根据本发明针对单词和短句的发音 质量评价分数与专家评分的相关系数达到0.800,性能优于基于现有技术的方法。发明内容目前基于隐含马尔可夫模型的发音质量评价方法获得机器评价分数与专家评分的相关性 还不够高,不能够满足目前计算机辅助语言学习系统中对发音质量评价要求。本发明的目的 是克服现有技术的不足,提出一种用于计算机辅助语言学习系统中的发音质量评价方法。本 发明中提出利用教师的参考语音和学生的测试语音分别从声学、感知和韵律方面计算匹配分 数、感知分数、段长分数、基音分数,并将所述这些分数映射后进行融合来对发音质量进行 评分的方法,针对单词和短句子的机器发音质量评分与专家主观质量评分的相关性能够达到 0.800。本发明提出的计算机辅助语言学习系统中的发音质量评价方法主要包括计算匹配分数, 计算基于Mel频标的感知分数,计算基音分数,计算段长分数;对所述匹配分数、所述感知 分数、所述基音分数和所述段长分数进行映射,并将映射后的各分数进行融合。该方法充分 利用语音发音中多种发音信息来获得可靠融合分数,从而对学生的语音发音质量进行评价(打分)。其特征在于,各部分具体包括以下几个步骤1、 所述匹配分数、所述基于Md频标的感知分数、所述基音分数、所述段长分数的计算 方法,具体步骤如下(A) 所述匹配分数的计算包括(1)利用Viterbi解码算法分别对测试语音和参考语音 进行强制对准,得到参考语音和测试语音的音素的时间分隔信息和似然度;(2)根据测试语 音和标准语音的似然度之差的绝对值得到匹配分数。(B) 所述感知分数的计算包括(1)对测试语音和参考语音施加Mel滤波器;(2)基于 幂定律,将参考语音和测试语音的Mel滤波器的能量输出映射为响度;(3)基于所述音素时 间分隔信息,通过动态时间规整(Dynamic Time Warping, DTW)方法将参考语音和测试语 音在音素层面上进行进一步的逐帧细化对准;(4)基于参考语音和测试语音各帧的响度差计 算感知分数。(C) 所述段长分数的计算包括(1)基于所述时间分隔信息,利用段长模型计算测试语 音和标准语音中的对数段长概率;(2)根据测试语音的段长概率与标准语音的段长概率绝对值之差得到段长分数。(D) 所述基音分数的计算包括(1)分别提取参考语音和测试语音的基音;(2)基于所 述时间分隔信息,分别得到参考语音和测试语音中每个元音内基音的极大值和极小值,并计 算每个元音内的极大值和极小值之差;(3)基于参考语音和测试语音中每个元音内极大值和 极小值之差。2、 所述的分数映射计算包括基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射,使映射后分数和专家 评分处于相同取值区间内。3、 所述的分数融合计算包括线性融合、支持矢量机(SVM)、 Logistic回归(Logistic Regression)、神经网络、高斯混合模型中的一个对映射后的所述匹配分数、所述感知分数、 所述基音分数和所述段长分数进行融合,通过多种信息的互补,使融合后分数更接近专家评 价的分数。所述的Viterbi解码算法利用了从大规模语音数据库训练的基于隐含马尔可夫模型 (HMM)对测试语音和标准语音进行强制对准,得到的参考语音和测试语音的时间分隔信息 可以是音素的时间分隔信息、状态的时间分隔、单词的时间分隔信息。音素的时间分隔信息 只是其中的一个。HMM模型的训练方法是根据最大似然准则,对HMM模型参数(包均值 与方差)进行估值。所述的段长模型是通过大规模语音数据库训练得到段长的直方图模型或Gamma模型。所述的逐帧细化对准是在基于匹配分数计算过程中得到的每个音素的时间分隔信息基础 上,进一步利用动态时间规整(Dynamic Time Warping, DTW)方法将参考语音和测试语音 的在音素层面上进行逐帧细化对准,使对准的语音在帧上有较好可比性。本发明提出计算机辅助语言学习系统中的发音质量评价方法在对学习者的发音质量进 行评价时,性能优于现有技术的水平。本发明的发音质量评价方法具有稳健性好,与专家评 分相关性高的优点,可以用于语言学习机中实现交互式语言学习发音质量评价和自动口语测 试系统中。本发明具有如下优点(1) 本发明充分利用了教师参考语音和学生测试语音发音差别特点进行评价;(2) 本发明提出的基于Mel频标的感知分数计算复杂度低于基于临界带的感知分数计算方 法,而且性能更好;(3) 本发明充分利用了发音中的多种评价信息,匹配信息、感知信息、段长信息、基音信息, 并进行了信息融合,在不同分数将各种发音信息进行互补,提高了评价的稳健性,以及 与专家评分的相关性;(4) 本发明的基于计算机辅助语言学习系统中的发音评价方法也能够应用于多种语言的学 习,具有稳健性好,与专家评分相关性高的特点,并且本发明可以在目前的掌上电脑、 个人数字助理(PDA)或学习机上实现,其应用范围非常广泛。
图1是发音质量评价方法的总体示意图;图2是匹配分数的计算示意图;图3是HMM模型拓扑结构;图4是感知分数的计算示意图;图5是段长模型的计算示意图图6是基音分数的计算示意图;图7机器分数融合示意图。
具体实施方式
以下结合附图对本发明提出的用于计算机辅助语言学习的发音质量评价方法的实施例进行详细说明。图1是根据本发明的发音质量评价方法的总体流程图。(1)首先参考语音和测 试语音分别经声学模型、感知模型、段长模型和基音模型计算出匹配分数、感知分数、段长 分数和基音分数。(2)将这些分别描述声学、感知和韵律等方面的发音质量的分数进行分数 融合。(3)用融合后的分数对测试语音的发音质量进行评价。参考语音是指作为发音质量评价的基准的教师的标准发音,测试语音是指作为发音质量 的评价对象的学习者的语音。因此,在本发明的发音质量评价方法中,需要计算测试语音相 对于参考语音的发音在质量上的差别。本发明实施例的整个计算过程细节构成如下-1、匹配分数计算图2是匹配分数的示意图。首先分别对参考语音和测试语音进行分帧处理,得到短时平 稳的分帧语音。然后对每帧语音提取美尔频标倒谱系数(MFCC)特征。其中,对每帧语音 所提取的MFCC特征包括39维,目卩12维MFCC系数及其一阶差分和二阶差分,归一化能 量及其一阶差分和二阶差分。MFCC特征反映了语音的静态特征,而MFCC的一阶和二阶差 分系数则反映了语音的动态特征。然后利用训练好的隐含马尔可夫模型(HMM),采用Viterbi 解码算法分别对参考语音和测试语音进行强制对准,得到参考语音和测试语音的似然分数和 每个音素的时间分隔信息。这里,HMM的训练过程对于本领域技术人员来说属于公知技术, 因此这里只对其作简要的说明。HMM采用从左到右的状态转移模型,该模型能够很好地描 述语音的发音特点。例如可用采用3状态隐含马尔可夫模型,其拓扑结构如图3所示。其中 qi表示HMM的状态, .表示HMM的跳转概率,为HMM模型的状态输出的多流混合高斯密度概率分布函数,如公式(1)所示<formula>formula see original document page 11</formula>(1)其中,5"是数据流的个数,M,是每一数据流中的混合高斯密度分布的个数,W为高维高斯分 布,如公式(2)所示<formula>formula see original document page 11</formula> (2)测试语音和参考语音是由多个音素构成。分别对参考语音和测试语音进行强制对准后, 第z'个音素的匹配分数i:(O由下式给出-<formula>formula see original document page 12</formula> (3)其中,/^(Owk.)是须iJ试语音的似然度,;v(^/k)是参考语音的似然度。其中,《,表 示第Z个音素HMM模型,化^和《《分别是测试语音和参考语音的MFCC特征矢量。 匹配分数定义为音素平均匹配分数<formula>formula see original document page 12</formula>(4)其中,Wp为语音发音中音素总个数,"O为第!'个音素的匹配分数。2、感知分数计算-图4是感知分数的计算示意图。首先分别对参考语音和测试语音分帧并加Haming窗。 然后将每一帧语音经过在Mel频标上均匀分布的三角窗滤波器,得到每个三角窗滤波器输出的能量和的对数值MfW-<formula>formula see original document page 12</formula>(5)9 = 1,2,3…,2其中,i^是第g个三角窗滤波器的中心频率,&+,和巧—,分别为第《个三角窗滤波器的上、下截止频率,GfH)为三角窗函数,2为三角窗滤波器的个数。通常&20 26。根据心理学中的幂定律,将每个三角窗滤波器输出的对数能量可以映射到响度域上,计 算如下式所示<formula>formula see original document page 12</formula>(6)其中,M(《)是第《个滤波器输出的对数能量,丄(g)是M(《)映射到感知域的响度。在基于所述匹配分数计算过程中得到的每个音素的时间分隔对准信息基础上,进一步利 用动态时间规整(Dynamic Time Warping, DTW)方法将参考语音和测试语音的在音素层面 上进一步逐帧细化对准。这里,DTW方法对于本领域技术人员来说属于公知技术,因此略去 对其的说明。利用DTW算法对参考语音和测试语音每帧进行对准后,就可以计算在每个三角窗输出的"1,2,3,…々 (7)其中,(《)和~(《)分别表示测试语音和参考语音在第《个三角窗滤波器上输出的响度。求出每个三角窗滤波器输出的响度差后,需要进一步计算整个Mel频带上的总响度差, 也就是要计算每帧语音的响度差。 一帧语音的响度可以通过对整个Mel频带上所有三角窗输出的响度差进行加权求和得到。参考语音和测试语音的第y帧语音的响度差;v。meC/)为E物)(8)其中,"(《)为参考语音和测试语音在第《个临界带内的响度差,『(g)为第《个三角滤波器 的带宽。音素的感知分数定义为参考语音和测试语音的帧平均响度差p"卿=、其中,W为参考语音和测试语音中较长语音对应音素的帧数,/^_(7')为第_/帧的响度差。因此,整个语音发音的感知分数p。 ^为发音中所有音素响度差的平均值1 PP, = i J (0 (io)其中,A^为整个语音发音中音素总个数。 3、段长分数计算图5是段长分数的计算示意图。基于匹配分数计算中得到的每个音素的时间分隔信息, 并利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数。计算段长概率分数 时所采用的段长模型可以是直方图模型或者Gamma模型。对于本领域技术人员来说,这属 于公知技术。因此,略去对其的详细说明。音素的段长分数^"e定义为测试语音和参考语音段长概率分数的对数差^哪—丄OgA",—丄OgAe,l (11)其中^U为测试语音的相应音素的段长概率分数,"^为参考语音相应音素的段长概率分数。整个语音发音的段长分数《。 定义为所有音素段长分数的平均值1 "細=^2]"/*^(0 (12)4、基音分数计算-图6是基音分数的计算示意图。首先,分别提取参考语音和测试语音的基音。现有技术 中已有多种基音提取方法。综合考虑算法复杂度、鲁棒性、基音估计的准确性等因素,本文 采用基于线性预测编码的LPC分析的自相关估计算法。然后结合匹配分数计算中得到的每个 音素的时间分隔信息,分别计算参考语音和测试语音中每个元音内的基音极大值和极小值之 差,即元音内的基音极值差定义为HU) —P』(13)其中尸n^(0和尸^(Z')分别表示第Z'个元音内的基音的极大值和极小值,基音分数i ,— ^—定义为丄w,■^v。w—max_min - :1 Sv。w(0*^v。w(0 I(14)其中K为句子中的元音总数,^::(o为测试语音中第z'个元音内的基音极值差,《::(o为参考语音中第i个元音内的基音极值差。 5、分数映射和分数融合 图7是分数映射和融合计算示意图。图中先对机器分数进行映射,然后采用线性加权或者SVM对映射后的机器分数进行融合,得到最终的客观分数。(1)机器分数的映射方法在分别计算出匹配分数、感知分数、段长分数和基音分数之后,需要将这四个分数首先进行分数映射。不同方法得出的机器分数的取值区间通常并不相 同。因此需要利用映射函数将机器分数映射到与专家评分相一致的对应区间内。可以基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射。最简单有效的映射方法可以采用三次多项式函数进行映射。映 射中优化准则为最小均方误差准则,通过映射函数将机器分数映射到专家评分取值区间。<formula>formula see original document page 15</formula>(15)其中,x为原始机器分数,y为映射后的机器分数,ai, a2, ^和A为多项式系数。(2)分数融合的方法现有信号技术中存在多种信息融合处理方法,例如可以采用线性 函数、神经网络、高斯混合模型、支持向量机、Logistic回归,以及其他适于对多种不同分 数进行融合的方法。本发明主要采用线性函数和支持向量机对上述匹配分数、感知分数、段 长分数和基音分数进行融合。如果机器分数和专家评分都可以看作联合分布的高斯随机变量,或者二者之间存在线 性关系,那么融合后的分数可以表示为机器分数的线性组合<formula>formula see original document page 15</formula>(16)其中,^&,…, 表示各个机器分数,A,^,…,"。为组合系数。这些组合系数可以由开发集数据根据最小均方误差准则确定。SVM的融合方法有通用的软件工具可以使用,基于SVM的融合在性能上由于线性融合 的方法。对于本领域技术人员来说SVM融合方法属于公知技术,因此略去对其的说明。在发音质量的评价中,通常用计算机对发音质量进行自动评价而得到的分数(通常称 为机器分数)与专家对同一发音的评价分数之间的相关系数来表示发音质量评价方法的性能, 如式(17)所示。通常,相关系数越高,说明机器分数越接近专家的分数,从而性能越好。<formula>formula see original document page 15</formula>(17)其中《.和乃分别是第个单词或语句的机器评价分数和相应专家评价分数,;和;分别是 所有测试语音的机器评价分数的均值和专家评价评分的均值。该评价过程需要采集有一定规模的评价语音库,首先请专家对库中语音进行主观评价, 然后用机器进行评价。通过公式(7)进行计算机器评价和专家评价之间的相关度。本发明针 对单词和短句的发音质量机器评价分数与专家评分的相关系数达到0.800,其性能优于基于 HMM的传统评价方法。
权利要求
1、本发明提出的一种计算机辅助语言学习系统中语音发音质量评价方法,包括匹配分数计算、基于美尔(Mel)频标的听感知分数计算、基音分数计算、分数映射、分数融合各部分,具体计算包括以下步骤步骤(1)首先分别对参考语音和测试语音分别进行分帧处理,得到短时平稳的分帧语音;步骤(2)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的匹配似然分数;步骤(2.1)分别对所述分帧的参考语音和测试语音每帧提取美尔频标倒谱系数(MFCC)特征,共39维特征,其中包括12维MFCC系数及其一阶差分和二阶差分,归一化能量及其一阶差分和二阶差分;步骤(2.2)利用预先训练好的隐含马尔可夫模型(HMM),采用维特比(Viterbi)解码算法分别对步骤(2.1)输入的参考语音和测试语音进行强制对准,分别得到参考语音和测试语音的似然度,以及语音中每个音素的时间分隔信息;步骤(2.3)按照以下公式计算第i个音素的匹配分数L(i) L(i)=|log(ptext(Otest|qi))-log(pref(Oref|qi))|其中,ptest(Otest|qi)是测试语音的似然度,pref(Oref|qi)是参考语音的似然度。其中,中,qi表示第i个音素HMM模型,Otest和Oref分别是测试语音和参考语音的MFCC特征矢量。步骤(2.4)按照以下公式计算音素平均匹配分数,并依次作为语音发音的匹配分数Smat_sen
2、 如权利要求1所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 利用传统HMM方法进行时间对准和匹配分数计算;利用Viterbi解码算法分别对参考语音和 测试语音进行强制对准,分别得到的参考语音和测试语音的时间分隔信息,包括状态的时间 分隔、音素的时间分隔信息、单词的时间分隔信息。
3、 如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 提出了基于Mel频标的听感知域分数计算方法,该方法不同于传统的基于临界带感知分数计 算方法,新方法在计算上复杂度低,性能上都优于基于临界带的听感知分数计算方法。
4、 如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 提出利用教师参考语音作为发音质量评价参考模板,该方法不同于传统基于大规模训练语音 库的HMM模型分数匹配方法,新方法充分利用教师的参考语音信息,有利于发音中高层信 息评价。
5、 如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 在基于匹配分数计算过程中得到的每个音素的时间分隔对准信息基础上,进一步利用动态时 间规整(Dynamic Time Warping, DTW)方法将参考语音和测试语音的在音素层面上逐帧对准,使对准的语音在帧上有较好可比性。
6、 如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 所述段长模型是段长的直方图模型或Gamma模型,段长分数是根据测试语音的段长概率与 标准语音的段长概率绝对值之差得到。
7、 如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 所述基音分数是基于参考语音和测试语音中每个元音内极大值和极小值之差计算得到。
8、 如权利要求1所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 利用语音发音中的多种机器评价分数,并采用基于Sigmoid函数、多项式函数或线性函数中 的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射,使映射后 分数和专家评分处于相同取值区间内。
9、 如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 对映射后的所述感知分数、所述基音分数和所述段长分数进行融合;采用线性融合、支持矢 量机(SVM)、 Logistic回归(Logistic Regression),神经网络、高斯混合模型中的一个对映 射后所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行分数融合。
10、 如权利要求1所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在 于本发明对于本领域技术人员来说,可以对本发明要求1描述的计算步骤进行一些小的修改 和变型,在不背离本发明的精神和范围的情况下,本发明亦涵盖这些修改和变型。
全文摘要
本发明属于语音技术领域,计算机辅助语言学习系统中的发音质量评价方法包括匹配分数的计算、基于美尔(Mel)频标的感知分数的计算、段长分数的计算和基音分数的计算,并将上述分数映射后进行融合;本发明的发音质量评价方法具有稳健性好,与专家评分相关性高的优点,可以用于交互式语言学习和自动口语测试。
文档编号G10L11/00GK101246685SQ20081010207
公开日2008年8月20日 申请日期2008年3月17日 优先权日2008年3月17日
发明者加 刘 申请人:清华大学