专利名称:语音训练系统及训练方法
技术领域:
本发明关于一种语音训练系统及训练方法。由于汉语学习者的语文水平不相同,本发明的学习系统及方法用以训练电脑学习者的汉语语音,便于使用者正式使用学习机听写时,能最正确的辨认输入的汉语语音信号。
有关汉语学习机的说明可参考申请人的台湾专利第68052号专利。该类智慧型国语听写机具有特殊设计的语音模型、音节辨认技术及中文语言模型以接收和解码输入的语音信号。由于有汉语听写机的设计,故可省去以键盘输入中文字的麻烦,降低错误率及提高中文输入的效率。
然而,在申请人不断改进汉语听写机的过程中,发现如能在汉语听写机正式使用之前先训练该机器熟悉每一个使用者的发音特性,将更能提高机器辨认和中文输入的效率。
本发明的目的在于提供一种训练汉语听写机学习不同使用者的语音特性的方法,以提高国语听写机的效率,使国语听写机更能广泛应用于各种环境中。
本发明的另一目的在于设计一套可快速训练机器学习不同使用者的声音的学习例句。该学习例句使用最少的字句却包括所有国语的语音变化,且其训练顺序是由简入繁,前后句之间包含重叠的语音,以加深机器的学习印象;而后一句必包含前一句所没有的语音变化,使机器可以快速学会所有的语音变化。
本发明又一目的在于设计一可显示学习例句、输入语音波形、辨认结果及辨认正确率,以及学习曲线的显示屏,以供使用者了解在训练过程中机器的逐步学习进度,提高使用者训练机器的兴趣。
根据本发明,机器先检测使用者所输入的学习例句的语音信号的特征参数后,经一识别装置和一训练装置,前者用以识别输入的学习例句的语音至计算其辩认结果与学习例句比较的符合率,后者用使用者如学习例句的语音去训练使用者的语音模型,并更新其中的数据。经过一组学习例句的训练后,该使用者的语音模型几乎已涵盖所有他自己的语音特性,致使在正式上线使用时,能有效地根据该语音模型内的语音特性识别使用者的输入信号。
本发明的训练系统具有一录音引导的功能,即在使用者输入学习例句训练语音时,先由系统依据标准速度、音量朗读示范,再由使用者跟着以接近的速度、音量将学习例句清晰朗读输入。如此将减低使用者发生输入错误的机会,并且能训练使用者中养成用清晰稳定的朗读方式输入语音的习惯。
本发明的方法中,包含一测试功能,使用者能在训练过程中随时用不同程度的测试例句检测机器的学习程度,以助于了解训练的进展。
为达到上述目的,本发明采取如下方案本发明的语音训练系统,其包括一储存学习例句的存储装置;一语音输入装置,使用者经由此装置输入训练用的学习例句的语音信号;一信号特征拾取装置,用以检测和拾取所述输入语音装置输入的语音信号的特征参数;一识别装置,用以就所述信号特征拾取装置所拾取到的特征参数与储存在一个人语音模型中的语音数据进行比对一计算器,用以根据所述识别装置的识别结果计算出与输入的学习例句的比对结果数据;一训练装置,用以根据拾取的特征参数训练所述语音模型,并更新其中的数据;和一显示装置,用以显示识别和计算后以及机器逐步学习的结果。
本发明的语音训练方法包括下列步骤(a)将学习例句输入到语音输入装置;
(b)以录音引导方式引导使用者以最利于学习的速度、音量朗读学习例句,并以自动检错装置纠正不正确的速度、音量;(c)对输入的语音信号做分析,拾取其语音特征参数(d)就语音特征参数与使用者个人语音模型进行比对获得识别结果,并计算及统计该识别结果与原学习例句的符合率;(e)使用所述语音特征参数训练使用者的个人语音模型,并将结果更新储存于所述语音模型中(f)将识别结果以及统计后的机器学习结果数值显示于显示屏幕上。
结合较佳实施例及附图,对本发明的特点说明如下
图1本发明的汉语学习系统的电路方框图;图2本发明的汉语学习系统使用方法的流程图;图3本发明的识别装置的电路方框图;图4本发明的训练系统的电路方框图;图5本发明做线上测试的流程图;图6本发明的显示屏幕的示意图;图7本发明做线上测试时,其显示屏幕的示意图。
本发明的语音学习系统配合申请人的台湾第68052号专利的国语语音听写机使用。其目的是在使用者正式使用国语听写机之前,先训练电脑使用者的声音特性,以使在正式上线使用时,电脑可以更高的识别率输出使用者的输入语音。
如图1所示,即为本发明的训练系统的电路方框图。使用者朗读的学习例句的语音是经由一传声器8输入系统中。在本发明的电脑系统中设有一公用的语音模型3,其内储存多数人的男声或女声的语音所训练成的语音模型,这是电脑系统已预设的标准发音模式。因此,在使用者尚未输入他自己的声音前,需先设定使用该公用的语音模型3作为他自己的个人语音模型4的起始模型,并由这个起始模型来逐步训练成他自己的个人模型4。
在训练过程中,训练的学习例句是经过特别的设计,使其内容在最少字句下包含汉语最多的声音变化,例如所有声母、韵母、音调、音节、速音等的学习,且其难易程度由简入繁,句长由短而长,已学过的语音特性中愈重要者并将重覆出现在接下来的例句中愈多次,以加强电脑系统的学习程度。此类例句可储存于电脑系统的一个只读存储器中(图1中未示明)。本发明的电脑系统尚包含一扩音元件(图1中未显示),使用者在输入此学习例句时,先由系统经该扩音元件先行输出该例句的引导发音,学习用稳定的速度、音量及清晰朗读的方式经传声器8将学习例句输入电脑中。
除了其公用的语音模型3、个人语音模型4以外,本发明的训练系统包括一训练装置1、一识别装置2、一统计当时识别结果及符合率的计算器5以及一显示屏幕7。为便于多个不同人使用一台国语听写机,系统并可为不同使用者分别建立其个人语音模型4,而储存于该个人语音模型中,以利后续处理。
图2所示为本发明的训练汉语听写机学习使用的方法流程图。根据本发明,训练用的学习例句储存于一电脑系统的只读存储器中,亦可储存于一分开的磁盘上。在输入学习例句之前,使用者必须先设定其专用的个人语音模型(如图1的元件4)(步骤205),此语音模型是先自系统内建的公用语音模型(图1中的元件3)中复制男声或女声的公用语音模型,在首次输入使用者语音时,电脑的中央处理单元(未显示)先将输入的使用者语音和公用语音模型进行比对,一面进行识别(步骤203),一面进行即时训练(步骤204),将公用模型朝使用者语音特性的方向作调整,再将调整结果存入使用者的个人语音模型中,成为初步训练后的个人语音模型。而在接下来的使用者语音输入时,才比对该初步训练后的个人语音模型中已调整过的语音模型,并以比较结果进一步更新其内容。当输入的学习例句愈多,个人语音模型就会愈来愈接近使用者的语音特性,识别正确率也就愈高。
如图2所示,使用者的语音信号是经一传声器8而输入电脑系统中。根据本发明,学习例句显示于电脑屏幕上,并由系统经扩音元件先做清晰朗读示范。以系统示范发音的优点是有利于使用者熟悉最适合机器的声音的音量、速度及清晰朗读的方式,故其效果较佳。经过传声器输入语音信号后,系统乃先对输入语音做端点检测(步骤201),以拾取其中的特征参数(步骤202),再将该特征参数送至系统的识别装置(图1中的元件2)和进行即将识别(图2中的步骤203)训练装置(图1中元件1)中,以进行即时训练(图2中的步骤204)。本发明的语音特征拾取方式已在专利发明第68052号中说明。
图3所示即为图1的识别装置(元件2)的识别步骤。请参考图3所示,辩认语音步骤需先以一数字信号处理器21将模拟信号转换为电脑可接受的数字信号并拾取其中的特征参数(图2中的步骤202),以然后以一隐藏式马可夫模型(HMM)识别器22和个人语音模型4(见图1的)进行比对其语音特性。除比对预设值外,本发明还包含一统计计算器5(见图1)来计算和统计输入语音用个人语音模型4识别结果和原学习例句的符合率(图2的步骤205),并将其显示于电脑屏幕7(见图1)上(图2的步骤206)。此外,图3中经HMM识别器22识别后所得的音节组,再被送至一语音解码器9中,经由语音模型10加以选字后,输出所选出的中文字串。有关语音解码器9和语音模型10的技术内容已于前述申请人的发明第68052号专利中叙述,本文不另叙述。
前述的识别步骤是根据当时的个人语音模型4对使用者的输入语音作识别。故识别后应再经由图1中的训练装置1以其识别结果训练电脑。请参看图2的步骤204,其训练步骤如图4所示。根据本发明,其语音训练是以一隐藏式马可夫模型(HMM)训练器24进行,最后再将训练后的语音数据更新存入个人语音模型4中(图2的步骤207)。依此方法,使用者依学习例句的顺序输入语音信号,经识别和训练后更新个人语音模型4的数据。由于本发明的学习例句是逐步函盖汉语的所有声音变化,因此,当输入的学习例句愈多,电脑所能正确识别的语音亦愈多,如此将使电脑系统识别语音信号的正确率逐步提高。
根据本发明,其计算器5除计算当时输入语音信号的识别结果与学习例句的符合率之外,尚可比较本次符合率与前面输入学习例句时的符合率,以图表曲线显示于屏幕7上,构成一学习曲线图。目的是帮助使用者了解机器学习其声音逐步进步的程度。
因此,根据本发明的实施例,显示屏幕7应如图6所示,在屏幕上可显示每一次输入学习例句时的识别符合率71和其音节学习曲线72。此外,显示屏幕7尚应显示学习例句的整句中文字串73以及输入语音的声音波形图74。在屏幕7下方尚包含数个选择键,可供使用者变换学习例句、记录或是重录等功能。此外,当系统完成了语音识别后,会将识别的结果以文字显示于屏幕上,如图6的识别结果区75的位置上,同时,计算器5计算本句符合率及比较前面输入学习例句时的符合率所得的学习曲线将显示于屏幕的识别率区71上和学习曲线72上。由于系统会将识别结果显示出来,将有利于使用者了解其识别的正确性,而选择储存或重念一次等动作。此外,屏幕上尚有一区域显示当时该学习例句的训练率,亦即该学习例句中有百分之多少的语音是使用者已训练过的,另有多少部分是尚未训练过的。此一数字可避免使用者对机器的学习能力感到失望。例如一个学习例句上有25%的音训练过,而识别的符合率已达40%,事实上是相当好的学习结果,虽然40%并不高。本发明系统还具有自动检错的功能,即若使用者输入的语音信号速度、音量和机器可以有效学习的速度、音量相差太大,或输入的字数与原来学习例句的字数不一致时,系统将会发出一警示讯号,或要求使用者重念一遍,以确保学习效果。
除了上述识别及训练功能以外,本发明的系统尚可在使用者输入某预定数目的学习例句后,将所输入的多句语音合并起来再做一次整批语音模型训练,如图2的步骤208-211所示。若设定存档整批训练(步骤208),系统首先将已输入的语音信号储存起来(步骤209),然后当语音信号达到一定句数后(步骤210),即将语音信号整批训练(步骤211),其训练方式亦如图4所示。使用整批训练的方式将更能提高系统的识别率。
本发明的训练系统尚具有线上测试功能。使用者可在输入学习例句语音的过程中随时测试电脑的学习程度。使用人只要按下屏幕上的线上测试键76(图6),系统即提供一些测试例句供使用测试,图7所示即为线上测试时的屏幕显示,包括提供到当时为止训练率最高及最低的若干例句。由于只训练了部分语音,有的句子“训练率”高可以有较好识别效果,有的“训练率”低就可能错误较多等。故使用者可以了解机器在当时学习其声音的情形。图5所示为线上测试的流程图,其识认方式与图3的识别方法及图2的即时识别整体流程(201-203,205,206)相同,其先检测使用者输入语音信号的端点,拾取该语音信号的特征参数(步骤501、502),然后与个人语音模型4的数据做即时识别(步骤503),并计算其符号率(步骤505)和将结果以数字和图表方式显示于屏幕7上(步骤506)。该线上测试功能除可让使用者随时掌握训练机器的成效,亦可使训练者在训练过程中不至感到枯燥,另外,使用者也可以感受到系统正逐渐地熟悉自己的声音。
综上所述,本发明的方法能训练汉语听写机学习每个使用者的语音特性,因而在正式上线使用时可根据已受过训练的个人语音模型识别语音数据。在训练过程中,为提高训练的效果,本发明还具有录音引导的功能,录音引导可以让使用者在训练过程中不知不觉用清晰稳定的朗读方式输入语音,使得学习效果最好,并养成往后使用语音输入时也用清晰稳定的朗读方式输入的习惯,故可以维持稳定的正确率;此外,由于有录音引导,使用者在输入训练语音时,不会发生念错而必须重录的情形,可以节省训练语音模型所需时间,也有助于个人语音模型得到正确的训练。
除了录音引导功能之外,系统亦提供自动检错功能系统若发现使用者输入的速度太快或太慢、输入的字数和学习例句字数有所差异或是语音信号的音量太大或太小,都会提出警告,并要求使用者重念一遍。录音引导及自动检错均可以避免使用者在训练时念错而不自知,使得个人语音模型比较能够得到正确的校正。
另外,为使使用者在训练过程中即可随时了解自己的训练成效,避免使用者对系统有不合理的期望因此,系统随时显示对输入的训练语音作即时识别的结果包括符合率“训练率”及学习曲线,并提供线上测试功能。这些功能,不仅能够使使用者在训练过程中不至于感到太枯燥,甚至觉得像是在玩游戏般的有趣;另外,使用者也可以感受到系统正逐渐地熟悉自己的声音。
本发明的另一项特点在于学习例句的选择。本发明采用语音特性平衡句当作学习例句。语音特性平衡句也就是一组几乎以最少量的字句数来涵盖所有的语音变化的句子;此外,整套句子里各语音单位的分布也与日常使用的情形相似,也就是越常使用的音出现越多次。用这样的一套句子来当作学习例句,除了用最少的时间就可以训练到所有的语音变化,而且越常使用的语音训练得越精确,在使用语音输入时可以得到更好的正确率。
本发明的学习例句的设计并可以分阶段,使用者可以依据自己的需求,自行决定要完成几阶段的训练,当然训练越多阶段效果越好。第一个实施例中,第一阶段的学习例句包含50个常用词(188个字),涵盖汉语所有的声母和韵母,其中还考虑到声母比较短而且不稳定,容易受后面的韵母影响,因此各种声母连接不同韵母的情形都涵盖在内;第二阶段则再增加31个句子(254个字),涵盖国语最常用的两佰个基本音节;第三阶段再增加66个句子(506个字),涵盖国语最常用的四百个基本音节;第四阶段再增加113个句子(932个字),涵盖国语最常用的六百个音节;也就是说,完成四阶段的训练,则国语最常用的六百个音节;也就是说,完成四阶段的训练,则汉语最常用的六百个音节都被完整训练到,而这六百个音节已经涵盖日常使用词备的百分之九十五以睛。至于其他没有被训练过的音节,由于所有的声母和韵母都早已训练过了,仍旧可以有不错的正确率。
另外,在设计这一套练习例句的时候,考虑到要让使用者念起来自然顺口,因此第一阶段特别采用常用词,第二、三、四阶段才采用一般的句子,为的就是让使用者念起来能够渐入佳境即使第二、三、四阶段的句子也尽量设计成容易让入朗朗上口的短句例如所有学习例句的字数都在十个字以内,再加上系统有引导录音的功能,这些都有助于使用者轻松自然的训练机器。
由上可知,由于本发明的学习例句是以循序渐进的方式将使用者的语音特性逐步加入其个人语音模型内,因此,在清晰朗读完一整套学习例句后,使用者的个人语音模型中将已涵盖他个人的所有的汉语语音特性。因而,在正式上线使用时,可以轻易地根据个人的语音模型识别出输入的语音信号,而提高了机器输入中文字的速度及其正确率。
权利要求
1.一种语音训练系统,其包括一储存学习例句的存储装置;一语音输入装置,使用者经由此装置输入训练用的学习例句的语音信号;一信号特征拾取装置,用以检测和拾取所述输入语音装置输入的语音信号的特征参数;一识别装置,用以就所述信号特征拾取装置所拾取到的特征参数与储存在一个人语音模型中的语音数据进行比对一计算器,用以根据所述识别装置的识别结果计算出与输入的学习例句的比对结果数据;一训练装置,用以根据拾取的特征参数训练所述语音模型,并更新其中的数据;和一显示装置,用以显示识别和计算后以及机器逐步学习的结果。
2.根据权利要求1所述的训练系统,其特征在于,所述个人语音模型为一个人专用的语音模型,该系统包括一共用语音模型,其内储存多个男声与女声的标准语音数据,个人语音模型最初由所述共用语音模型构成,经过逐次输入使用者的个人语音信号后,再逐步学习使用者的语音,训练成使用者的个人语音模型。
3.根据权利要求1所述的系统,其特征在于,所述识别装置包括一数字信号处理器,用以将模拟语音特征信号转换为数字信号以拾取其中的特征参数;和一隐藏式马可夫识别模型,用以将所述特征参数与所述语音模型内的预存数据进行比对,比对结果输出至所述计算器以作计算,并送至一语音信号解码器中,经解码后,输出一串对应的中文字串,并显示于所述显示装置上。
4.根据权利要求1所述的系统,其特征在于,所述训练装置还包括一隐藏式马可夫模型训练器,用以利用使用者的语音特征参数训练语音模型,并将其储存于该使用者的个人语音模型中。
5.根据权利要求1所述的系统,其特征在于,所述显示装置显示训练的学习例句,输入语音波形、识别及计算后的相符率、学习例句的训练率”以及机器逐步学习使用者声音的学习曲线等各种让使用者了解机器逐步学习的数据。
6.根据权利要求1所述的系统,其特征在于,还包括一线上测试装置,该装置包括一预先储存测试例句的存储器,选择线上测试,即从存储器内提取例如有最高及最低训练率的多种欲测试例句,经使用者根据例句,输入信号后,即送至所述信号特征拾取装置及识别装置中处理,并经所述计算器计算比对结果。
7.一种适用于权利要求1-6系统的语音训练方法包括下列步骤(a)将学习例句输入到语音输入装置;(b)以录音引导方式引导使用者以最利于学习的速度、音量朗读学习例句,并以自动检错装置纠正不正确的速度、音量;(c)对输入的语音信号做分析,拾取其语音特征参数(d)就语音特征参数与使用者个人语音模型进行比对获得识别结果,并计算及统计该识别结果与原学习例句的符合率;(e)使用所述语音特征参数训练使用者的个人语音模型,并将结果更新储存于所述语音模型中(f)将识别结果以及统计后的机器学习结果数值显示于显示屏幕上。
8.根据权利要求7所述的方法,其特征在于,所述步骤d的比对识别步骤包括下列步骤(a)以隐藏式马可夫模型就所述特征参数与所述个人语音模型的数据进行识别比对,并将比对结果输出至一语音解码器中(b)所述语言解码器将识别结果用一语言模型进行解码,并将解码后的中文字串输出至一计算器;和(c)所述计算器依识别结果计算与原学例句的相符率。
9.根据权利要求7所述的方法,其特征在于,所述语音特征参数利用一隐藏式马可夫模型训练法训练使用者的个人语音模型,并将训练结果储存于所述个从语音模型中,以更新其中的数据。
10.根据权利要求7所述的方法,其特征在于,所述使用者的个人语音模型为每一使用者建立的个人语音模型,其内记录每一特定使用者的语音数据。
11.根据权利要求7的方法,其特征在于,还包括一线上测试步骤,该步骤在训练汉语听写机学习使用者语音的任何时候进行,其步骤是自一预先储存许多测试例句的存储器中抓取一组例如有最高及最低的训练率的测试语句,使用者依测试语句内容输入对应的语音信号,再利用隐藏式马可夫模型识别并计算其符合率。
12.根据权利要求7所述的方法,其特征在于,还包括一整批训练步骤,即在使用者输入预设数量的例句后,使用所有已输入的语音再训练使用者的个人语音模型。
13.根据权利要求7所述的方法,其特征在于,所述学习例句包括所有的汉语语音的声音变化,并分为若干个阶段,其中每一阶段分别达到某一种训练目标。
14.根据权利要求7所述的方法,其特征在于,所述显示装置用以显示每一学习例句的训练率及识别状况及机器逐步训练的学习曲线等各种数据。
全文摘要
一种语音训练系统包括:一存储装置:一语音输入装置;一信号特征拾取装置;一识别装置,用以就所述信号特征拾取装置所拾取到的特征参数与储存在一个人语音模型中的语音数据进行比对:一计算器,用以根据所述识别装置的识别结果计算出与输入的学习例句的比对结果数据;一训练装置,用以根据拾取的特征参数训练所述语音模型,并更新其中的数据;一显示装置,用以显示识别和计算后以及机器逐步学习的结果。
文档编号G10L15/00GK1182259SQ9612059
公开日1998年5月20日 申请日期1996年11月11日 优先权日1996年11月11日
发明者李琳山 申请人:李琳山