专利名称:对噪声相对健全的语音识别系统和方法
技术领域:
本发明一般涉及到语音识别,特别涉及到在噪声环境中的特定说话人识别技术。
背景技术:
噪声环境中的语音识别是一个经长期研究仍有待解决的任务。这种任务的特征是以下参数1.识别是因人而异的,由用户在一个指定的“训练对话”中讲话的说话语调产生参考模板;2.希望将训练语调的数量减少到最小数量(1-3),在现有技术中,这样能使动态时间弯曲(DTW)匹配算法比隐藏马尔可夫模型(HMM)算法更加有效3.要识别的短语是单字;4.训练阶段是相对低噪声的,而识别中需要应付附加的环境噪声;5.在用户按下讲话(PTT)按钮开始讲话的瞬时之前,环境噪声对于系统是未知的;6.环境噪声同时具有稳态和非稳态成分;以及7.系统只有有限的快速存取存储器,不可能以实时和字识别的方式针对所有参考模板运行DTW匹配算法。因而就需要两阶段处理,第一阶段是声音活动检测器(VAD),而第二阶段是一个DTW匹配器。
在识别阶段由噪声带来的主要困难有两个1.训练和识别阶段之间在声学上失配;以及2.在识别阶段中,VAD估算的字终结点不准确。
这两个问题会导致识别误差。
在现有技术中有许多针对声学失配问题的技术。值得一提的是Jean-ClaudeJunqua和Jean-Paul Haton的Robustness in Automatic SpeechRecognition,Kluwer Academic Publishers,1996。Erell等人的美国专利US5,778,342提供了一种技术。
现有技术很少涉及到终结点不准确的问题。一种解决方案是采取不严格终结点DTW的形式,可参见下文Lawrence Rabiner和Biing-Hwang Juang的Fundamentals of SpeechRecognition,Prentice Hall,1993;Ilan D.Shallom,Raziel Haimi-Cohen和Tal Golan的“Dynamic TimeWarping with Boundaries Constraint Relaxation”,IEEE Conference inIsrael,1989,pagesl-4;以及Nakadai等人的美国专利US5,732,394。
在普通DTW中,从讲话开始到终结点的频谱参数序列被当作输入语言模式来存储。DTW运算用未知的语言模式与每个参考模板相匹配,并且计算二者之间的距离值。这是用
图1A的曲线来执行的,可作为简要的参考。输入语言模式的各帧被放在X轴上,而现行参考模式的各帧被放在Y轴上。通过曲线做一条从左下角起始到右上角终结的路径,将这些角定义为测试和参考语调的终结点。
然而,在参照图1B所示的不严格终结点解决方案中,DTW路径不仅限于起始或终结于测试和参考语调的严格的终结点。而是这一路径可以在这些角的一个给定范围(delta和Qmax_delta)内起始和终结。这种方法真正消除了终结点不准确造成的一些误差。
然而,不严格终结点解决方案存在几个缺点。作为简要参考的图2表示了缺点之一如果有两个词汇字,且一个字和第二个字的一部分相似(用图中标有“匹配”的一段来表示),识别系统就可能错误地指示第一(较长)字的语调和第二(较短)字的参考模板匹配。
不严格终结点方法的其他缺点有别于具体的方法。例如,在Shallom的文章中,需要用路径长度对DTW栅格也就是DTW累计得分上的每一点进行规范化,因为这种不严格的起始点允许有多个不同长度的路径。长度规范化会带来标准DTW中不存在的极大的计算量。另外,由于规范化,用于最佳匹配路径的标准DTW解决方案实际上并不是最佳的。例如在美国专利US5,732,394中计算量就很大,因为对每一对测试和参考模式而不只一个都要执行若干次DTW匹配运算。
在以下文章中给出了对不严格终结点问题的其他解决方案Tom Claes和Dirk Van Compemolle的“SNR-Normalization for RobustSpeech Recognition”,ICASSP96,1996,pages331-334;Vijay Raman和Vidhya Ramanujam的“Robusmess Issues andSolutions in Speech Recognition Based Telephony Services”,ICASSP97,1997,pages1523-1526;以及Olli Viikki和Kari Laurila的“Noise Robust HMM-Based SpeechRecognition Using Segmental Cepstral Feature VectorNormalization”,ESCANATO Workshop on Robust Speech Recognition forUnknown Communication Channels,1997,pages107-110。
这些出版物中的方案是实时运行在输入语言上的单级HMM式系统,没有VAD。为了处理噪声片段,用噪声的HMM模型将字的HMM模型连接在两端,构成完整语调的一个复合模型。
上述方案有两个缺点(a)对上述项目(2)到(7)所限定的任务不能采取这种方案;以及(b)一次的方案在处理声学失配时会有效率上的损失(问题1),因为在一次算法中没有噪声电平的精确信息。这是因为字终结点在识别之前是不确定的,因而就不能从无语音片段中估算噪声。这种不准确的噪声估算会导致识别误差。
在B.Patrick Landell,Robert E.Wohlford和Lawrence G.Bahler的名为“ Improved Speech Recognition in Noise”,ICASSP86,TOKYO,1986,pages749-751的文章中提出了另一种现有技术的方法,在一个DTW式系统中也使用了连接的噪声-语音-噪声模型。同样,这种想法是采用加在语音模板上的噪声模板并且用完整语调匹配连接的模板,从而在DTW匹配中避免使用终结点。另外,为了对付声学失配问题而做这样的假设,在语调开始之前,系统已经对噪声有所了解,因此,在开始匹配处理之前,参考模板就可以适应噪声。
在Landell等人的文章中没有提到噪声模板是如何构成的以及如何针对连接的噪声-语音-噪声模板实现DTW匹配。与HMM的直截了当的方法不同,它在DTW中是一种间接的问题,因为DTW队列限制是严格的,但是仍然没有关于噪声模板持续时间的准确知识,因为在说话人按下PTT之后说出这个字时对噪声还是一无所知的。
另外,Landell等人的文章假设在说话人按下PTT按钮之前可以用以往观测到的噪声来估算噪声声学特征。按照Landell等人为空军飞机座舱所设计的系统,这种环境中的噪声是相当恒定的,因此,这种方式可能就足够了。然而,如果噪声是变化的,例如是在按常规使用移动电话时遇到的噪声,这种过去的估算往往是不准确的,并且会导致识别误差。
在所有语音识别应用中,例如是按姓名语音拨号,要排斥会导致错误识别的不成词汇或是发音不准的语调是很重要的。这通常是通过设置一个识别得分(例如DTW或HMM得分)的门限来完成的,也就是说,只有得分与门限相比足够大时才采纳这一识别结果。
如果不同时牺牲一些对构成词汇、正确发音的语调的排斥,往往就难以有效地排斥不成词汇或错误发音的语调。其困难在于最佳匹配得分值的变化很大。现有技术中用来改善HMM系统排斥能力的已知方法主要包括采用一种“通用语音”模板(可参见上文所述的Raman的文章,美国专利US5,732,394及Richard C.Rose和Douglas B.Paul的文章“A HiddenMarkov Model Based Keyword RecognitionSystem”,ICASSP’90,1990,page129)。或者是例如Herve Bourlard,BartD’hoore和Jean-Marc Boite在文章“Optimizing Recognition and RejectionPerformancein Wordspotting Systems”,ICASSP'94,1994,page1-373中所述,采用门限代替选择模板可以改善排斥能力。
尽管这种得分规范化方法在一定程度上对由于特定语调减少造成的可变性是有效的,仍然存在由于环境可变性造成的问题。测试语调和模板之间的匹配在噪声条件下肯定要比在安静条件下的匹配差。由此就会给排斥机制带来一个问题。假设是按照在安静条件下排斥不成词汇的字和对构成词汇的字的错误检测两者之间的最佳折衷来设置规范化得分的排斥门限。但是,在噪声条件下,这种折衷有可能并不是最佳的。在这种情况下就可能要放松门限,以便减少对构成词汇的字的错误检测的数量,即使要牺牲一些对不成词汇的字的排斥能力。
解决这一问题的办法是让门限适应声学条件,例如美国专利US5,778,342中所述将门限作为信噪比的函数。这种办法需要根据没有语音的波形段估算噪声,这样就需要知道语音终结点,而所知的终结点又不够精确。例如,如果干扰噪声是一种和语音局部重叠的短脉冲,VAD就可能将这种脉冲错误地识别成语音的一部分。而超过终结点的信号不会包含噪声脉冲,SNR估算器就会过高地估计SNR,导致排斥门限不合适。
在特定说话人系统中还有另一个可变性得分的来源,允许用户记录一个字或是两个连接的字。例如在按姓名用语音起动的拨号中,用户可以记录姓、名或是全名。在前两种情况下,语调中包含一个字,而后一种情况下则包含两个字。双字语调在发音时往往具有更多的变化(例如两个字之间停顿的时间会有明显变化),因此,DTW或HMM匹配得分就会和单字语调的发音有所不同。例如,在标准DTW系统中,单字发音的得分往往比双字语调要高。(这就说明即使DTW评分是按照DTW路径长度对累计得分进行规范化,双字语调也要比单字长)。这样就会造成排斥机制上的问题,因为双字语调比单字语调更容易被排斥。这种过分排斥从性能的观点来看是不“合理”的,因为不成词汇的双字语调不象单字语调那样容易被采纳。
发明概述本发明的目的是要提供一种对噪声相对健全的特定说话人语音识别系统及方法。
本发明的目的是提供一种方法,在说话语调附近用参考模板适应根据输入声音估算的噪声信号,并且在这样一种适应噪声的参考模板上改编DTW操作。
按照本发明的实施例提供了一种语音识别系统,它包括语言符号编制器,噪声估算器,模板填充器(padder),噪声适配器和一个动态时间弯曲(DTW)单元。语言符号编制器产生代表一个输入测试语调和输入测试语调前、后的至少一帧的一个展宽的测试语言符号。用噪声估算器估算展宽的测试语言符号的噪声量。模板填充器用参考模板开头或结尾的至少一个空白帧填充各个参考模板。噪声适配器用噪声量适配每一个填充的参考模板,从而产生具有噪声帧的适应噪声的参考模板,随便空白帧原先在哪里,在讲话时让噪声适应语音。DTW单元将展宽的语言符号和一个噪声适配的参考模板相比较,执行噪声适配DTW操作,在与一个噪声帧相比较时,不使用持续时间的限制。本发明还包括用这种系统所执行的方法。
另外,按照本发明的最佳实施例,估算器包括一个噪声平均器,它通过对展宽的语言符号的低能量帧取平均值来估算噪声结构。估算器还可以包括一个能量平均器,它通过对展宽的语言符号的高能量帧的能量级取平均值来估算峰值能量。
进而,按照本发明的最佳实施例,噪声适配器包括一个增益单元和/或一个调节器。增益单元为填充的参考模板提供一个与展宽的测试语言符号的峰值能量和平均噪声能量之差有关的峰值能量级。调节器通过加入噪声来调节增益提升的参考模板,从而产生适应噪声的参考模板。
另外,按照本发明的最佳实施例,系统中包括一个决定单元,用来决定许多参考模板中哪一个与输入测试语调最匹配。
再有,按照本发明的最佳实施例,决定单元包括一个用来确定语音得分(Epd_Score)的得分确定器,得分是成功路径中累计得分的部分,它仅仅涉及到按照路径长度规范化的语音帧,而这一路径仅仅是比较语音帧。
进而,按照本发明的最佳实施例,得分确定器包括一个规范器,按照一个平均得分Av_Score来规范语音得分Epd_Score。平均得分Av_Score可以是一个先验平均得分和成功型模板的不成功模板的得分的函数。它也可以是信噪比的函数。确定器中可以包括一个校正器,用信噪比和/或长度校正函数来校正规范化的语音得分。
附图简述依照以下结合附图的详细说明就能理解和更加充分地认识本发明,在附图中图1A,1B和2是现有技术的动态时间弯曲(DTW)操作中的三种不同的示意图;图3的框图表示按照本发明的一个最佳实施例构成和工作的一种语音识别器;
图4的示意图表示用来解释本发明工作方式的测试语调中的能量;图5A的示意图表示一个测试语调和两个额外的空白帧,可用来解释本发明的工作方式;图5B的示意图表示图5A的信号的一种噪声适配方案,可用来解释本发明的工作方式;图6的框图表示构成图3所示系统中一部分的噪声和峰值能量估算器;图7的示意图表示本发明的噪声适配DTW运算;图8A,8B和8C的示意图表示以前的平均得分,SNR校正和长度校正曲线,可用来解释本发明的工作方式。
发明详述参见图3所示的本发明的系统。该系统包括一个特征提取器50,特征缓冲器52,声音活动检测器(VAD)54,模板数据库56,两个特征变换器58A和58B,一个比较单元60和一个决定单元62。按照本发明的最佳实施例,比较单元62是一个噪声适配的动态时间弯曲(DTW)单元,并且该系统还包括一个模板填充器64,一个宽语言符号编制器66,一个噪声和峰值能量估算器68,和一个增益及增益和噪声适配器70,以下会一一具体描述。
在工作中,特征提取器50提取诸如每一帧输入信号的自动校正系数或滤波器组能量等等特征,并且将其提供给声音活动检测器54和特征缓冲器52。缓冲器52按照帧的顺序存储每一帧的特征,按照预定长度的时间保留这些帧的记录。声音活动检测器54可以采用任何适当的检测器,例如是G729B静默压缩方案中的一种,它可以确定讲话开始和结束的帧。将这些终结点提供给语言符号编制器66,从缓冲器52中提取一个宽语言符号。
以下简要地参照图4,图中表示存储在缓冲器52中的数据。具体地说,图4描绘了每一帧的第一自动校正系数,并且表示由声音活动检测器54指示的终结点。标准的语言符号被定义为终结点之间的一组帧。按照本发明的最佳实施例,宽语言符号编制器66还要从标准语言符号的某一侧提取X帧,典型的X值是8。这样,宽语言符号就包括VAD起始点之前的X帧到VAD终结点之后的X帧。利用这些额外的帧来克服声音活动检测器54带来的任何误差,特别是那些由于VAD估算的终结点不准确造成的误差。
参见图3,宽语言符号具备特征变换器58A及噪声和峰值能量估算器68。特征变换器58A将宽语言符号的特征变换成DTW单元60所需的倒频谱特征。从一种特征到另一种特征的变换是公知的,因而无需在此进一步解释。
噪声和峰值能量估算器68确定宽语言符号中的噪声结构和峰值能量等级。将其提供给增益和噪声适配器70,以便用类似于宽语言符号中找到的噪声结构和增益等级来提供无噪声的模板。
按照本发明的最佳实施例,无噪声模板在与合适的增益等级和噪声结构适配之前在某一端用一个空白帧填充;这是由模板填充器64来执行的。填充和适配工作由可供简要参照的图5A和5B来表示。图5A表示用信号70的某一端带有空白帧72(其中没有信号)的无噪声模板代表的信号70。在噪声和增益适配之后,清白的信号70变成了有噪声的信号74,而空白帧72变成了有噪声的帧76。为了匹配宽语言符号,增益等级通常也要改变。
再参见图3,宽并且经过噪声/增益适配的模板被提供给特征变换器58B,变换成DTW单元60所需的倒频谱特征。后者将表现的宽语言符号与表现的每一个宽并且经过噪声/增益适配的模板相比较,并且为每一次比较提供一个得分。将结果提供给决定单元62,由它通过一定的措施来确定哪一个比较最好。
以下参见图6,它表示噪声和峰值能量估算器68的工作方式。可以采用任何适当的能量和噪声结构估算方式;图6所示的方法假设每一帧的特征是自动校正系数,其中的第一系数用R0表示,并且代表这一帧中的能量等级。
为了确定噪声结构,仅有具备最低能量的宽语言符号帧才子以考虑,并且用来计算一个平均噪声特征。为了找到具有最低能量的帧,要按照增加能量值R0对这些帧分类(步80),并且要按照能量值的顺序从最低到最高存储具有最低能量值R0的N个帧,典型的N是10。然后从具有最低能量值R0的第一帧开始逐渐向上回顾这N个帧,直至到达能量等级比最低能量值高出预定系数K例如是3dB的一帧M。其算式可以表示为find Mfor which R0(M)>K R0(1)然后根据第一M-1自动校正矢量(也就是帧1到帧M-1)确定噪声特征(步84)。例如,可以将M-1个自动校正矢量放在一起取平均值。然后根据所得的噪声特征来确定噪声能量R0n。
峰值能量估算也是按照类似的方法确定的,但是要考虑到具有最高能量的帧。为了找出具有最高能量的帧,通过递减能量值R0对这些帧分类(步86),然后从具有最高能量值的顶上的一帧R0(top)开始回顾顶上的N个帧(步88),并且逐渐下移直到能量等级比最高能量值降低了预定系数C例如是0.5dB的一帧Q。其算式可以表示为find Q for which R0(Q)<C R0(top)然后将峰值能量R0(峰值)确定为顶上的Q-1个能量值R0的平均值。值得注意的是,由这一运算来产生展宽的测试语言符号的测试峰值能量R0t。对每一个参考模板按照脱线的类似运算方式来产生参考峰值能量R0r。将后者存储在模板数据库56中(图3)。
再参见图3,增益和噪声适配器70分别采用噪声特征及测试和参考峰值能量R0t和R0r来适配填充的无噪声模板。在这种特征是自动校正函数(ACF)的情况下,美国专利US5,778,342描述了一种采用平均值而不是峰值能量的变换方式。本发明的变换方式是Rr’=(<R0t>-<R0n>)/<R0r>×Rr+<Rn>
这其中Rr=参考ACF矢量[R0…R10]<Rn>=估算的噪声ACF矢量<R0t>=估算的测试峰值能量<R0r>=估算的参考峰值能量<R0n>=估算的噪声能量=<Rn(0)>
Rr’=噪声和增益适配的参考ACF矢量[R’0…R’10]也可以采用其他变换方式,以滤波器组能量为特征,例如B.A.Mellor和A.P.Varga在ICASSP’93,1993,pp.II-87-II90发表的文章“Noise Maskingin a Transform Domain”和US4,933,976中所述。
从中可以看出,上述公式和噪声适配一道执行增益适配,由参考模板接收峰值能量等级,它相当于用参考峰值能量R0r规范化的没有噪声能量的测试峰值能量(R0t-R0n)。必要时也可以单独执行增益适配,或者是完全不执行。
噪声适配的DTW单元60将包括语音和来自两侧的噪声的展宽的测试语调和一个噪声适配的模板相比较。参见图7,图中表示DTW栅格和一个采样路径。(Y轴上)第一和最末的帧是用测试语调的低能量帧估算的“噪声”帧,而展宽的语言符号在X轴上。
无论在路径中的何处比较测试语言符号帧和无噪声帧,本发明都是用标准队列限制来执行标准DTW操作。然而,如果在某一位置上和一个参考噪声帧相比较,就没有时间限制。这就意味着路径只能水平地向右移动一个不受限制的帧数,或者是与右侧一帧和上面一帧对称地移动。这种方式对可以对准噪声帧的展宽的测试边沿上的帧数没有限制。
按照DTW的标准,对参考模板的得分w-score是成功路径的累计得分,包括按照全累计长度规范化的噪声帧。语音得分Epd-Score是成功路径这部分累计的得分,它仅仅是按照仅仅比较语音帧的路径长度规范化的语音帧(不包括噪声帧)的得分。
再参见图3,决定单元62根据整个路径的TDW得分w-score来确定最佳匹配,此处的最佳模板被定义为得分最小的模板,然而,最佳模板也不一定能提供好的结果。这时,决定单元62还要根据最佳匹配模板的语音得分Epd-Score,对所有其它模板的平均得分,以及作为最佳模板加工后的测试语调的SNR及其长度的函数的校正项目来确定是否采纳或是排斥这一结果。
通过规范化的方式,在对所有其它模板的平均得分的基础上,Epd Score必须明显地小于平均得分。从这一点来看,可以将平均得分作为通用语音的模型,类似于现有技术的HMM系统中采用的模型。如果模板的词汇量足够大,平均得分就能很好地反映对一个通用语音模板的得分。然而,在具有用户产生的词汇量的特定说话人识别系统中,词汇量可能只有几个字,因此,对所有其它模板的平均得分不能很好地反映对一个通用语音模板的得分。为此,计算的平均得分是通过模拟确定的一个先验值和实际平均得分的混合物。这种混合能防止平均得分过小或是过大。可供简要参照的图8A表示一种先验的平均得分,它是一个片段SNR即SegSNR的函数,这一函数是通过在一个大数据库的基础上进行模拟而确定的。从图8A中可以看出,先验的平均得分随着片段SNR的增大而减小。
片段SNR是测试语调在DTW所获得的终结点之间的信噪比,而终结点是根据与最佳模板Best Template的匹配来确定的。具体地说,终结点是指向最佳模板Best Template的DTW路径上的那些测试语调帧,这一路径的入口是第一参考语音帧(或者说出口是最后一个参考语音帧)。片段SNR即SegSNR是DTW获得的终结点之间的测试语调的平均记录能量,它小于终结点外侧的测试语调的平均记录能量。
如果规范化得分Norm Score小于一个门限等级Th,采纳/排斥算法就采纳这一最佳匹配结果。规范化得分被定义为由两个校正值校正的最佳得分Best Score与平均得分Av_Score的比值,一个校正值是信号对噪声(SNR_corr),另一个是长度(length_corr),算式如下Norm_Score=Best_Score/Av_Score-SNR_corr-length_corr最佳得分是对最佳模板Best_Template的Epd_Score值。
平均得分是基于这样两个值a_priori_av_score(SegSNR)和Sum_Score。先验平均得分是利用片段SNR值SegSNR从图8A的先验平均得分函数中选择的,Sum_Score是对不能与最佳模板的字匹配的那些词汇中的字的P个模板的语音得分Epd_Score之和。这样,连接作为最佳模板的同一个字的最佳模板和其它模板不被用来产生Sum_Score。
平均得分的具体定义是Av_Score=(w1(a_priori_av_score(SegSNR)+Sum_Score)/(w1+P)式中的w1是a_priori_av_score的加权。
SNR校正值SNR_corr是片段SNR的一个由参数控制的分段线性函数。参数SNR1和SNR2是根据一个大语音数据通过实验确定的。参数“Delta Score”被留做一个调节参数,以满足特定的应用。例如,如果将delta_score设置为零,就根本没有SNR校正。在这种情况下,在有噪声的条件下可以象安静条件下一样排斥不成词汇的字,其代价是会明显地增加对构成词汇的字的排斥。在其它极端情况下,可以这样来设置“Delta Score”值,让有噪声条件下对构成词汇的字的排斥比例接近于安静条件下的排斥比例,其代价是被排斥的不成词汇的字很少。最佳方案可能是采用一个中间值,在两种要求之间取得折衷。
长度校正值length_corr是可供简要参照的图8C所示的一种由参数控制的测试语调长度的分段线性函数。这些参数是由图8中用来确定所有参数的大语音数据库通过实验来确定的。
本发明并非仅限于本文所述的具体实施例,这对于本领域的技术人员是显而易见的。本发明的范围可以由权利要求书来确定。
按照条约第19条的修改1.一种语音识别方法,其包括以下步骤产生一个展宽的测试语言符号,它代表一个输入测试语调和上述输入测试语调前、后的至少一帧;估算上述展宽的测试语言符号的噪声量;至少在每个参考模板的开头或是结尾用至少一个空白帧填充多个上述参考模板;用每个上述填充的参考模板适配上述噪声量,上述适配包括估算上述参考模板和上述展宽的测试语言符号的峰值能量;提高上述填充的参考模板的等级,使其峰值能量等级等于上述展宽的测试语言符号的上述峰值能量与一个平均噪声能量之差;以及通过添加上述噪声来调整上述提高增益的参考模板,并且执行噪声适配的DTW运算,将上述展宽的语言符号与上述噪声适配的参考模板之一相比较,在和一个上述噪声帧相比较时不采用时间限制。
2.按照权利要求1的方法,其特征是上述估算峰值能量的步骤包括对上述展宽的语言符号的高能量帧的能量等级取平均值,从中估算上述峰值能量。
3.一种语音识别系统,其包括语言符号编制器,用来产生代表一个输入测试语调和上述输入测试语调前、后的至少一帧的一个展宽的测试语言符号;噪声估算器,用来估算展宽的测试语言符号的噪声量;模板填充器,用参考模板开头或结尾的至少一个空白帧填充各个参考模板;噪声适配器,用上述噪声量适配每一个上述填充的参考模板,上述噪声适配器包括
峰值能量估算器,用来估算上述参考模板和上述展宽的测试语言符号的峰值能量;增益单元,用于将上述填充的参考模板提高一个等级,使其峰值能量等于上述展宽的测试语言符号的上述峰值能量和平均噪声能量之差;以及一个调节器,通过加入上述噪声来调节上述增益提高的参考模板,从而产生噪声适配的参考模板;以及一个DTW单元,用来执行噪声适配DTW操作,将上述展宽的语言符号和一个上述噪声适配的参考模板相比较,在与一个上述噪声帧相比较时,不使用持续时间的限制。
4.按照权利要求3的系统,其特征是上述峰值估算器包括一个峰值能量平均器,对上述展宽的语言符号的高能量帧的能量等级取平均值,从中估算上述峰值能量。
权利要求
1.一种语音识别方法,其包括以下步骤产生一个展宽的测试语言符号,它代表一个输入测试语调和上述输入测试语调前、后的至少一帧;估算上述展宽的测试语言符号的噪声量;至少在每个参考模板的开头或是结尾用至少一个空白帧填充多个上述参考模板;用每个上述填充的参考模板适配上述噪声量,从而产生噪声适配的参考模板,随便空白帧原先在哪里,在讲话时让噪声适应语音;以及执行噪声适配的DTW运算,将上述展宽的语言符号和上述噪声适配的参考模板之一相比较,在和一个上述噪声帧相比较时不采用时间限制。
2.按照权利要求1的方法,其特征是上述估算噪声量的步骤中包括以下步骤,对上述展宽的语言符号的低能量帧取平均值,从中估算噪声结构。
3.按照权利要求2的方法,其特征是上述适配步骤中包括以下步骤,通过添加上述噪声来调整上述参考模板,从而产生上述噪声适配的参考模板。
4.按照权利要求2的方法,其特征是上述适配步骤还包括以下步骤估算上述参考模板和上述展宽的测试语言符号的峰值能量;提高上述填充的参考模板的等级,使其峰值能量等级等于上述展宽的测试语言符号的上述峰值能量与一个平均噪声能量之差;以及通过添加上述噪声来调整上述提高增益的参考模板,从而产生上述噪声适配的参考模板。
5.按照权利要求4的方法,其特征是上述估算峰值能量的步骤包括以下步骤,对上述展宽的语言符号的高能量帧的能量等级取平均值,从中估算上述峰值能量。
6.按照权利要求1的方法,其特征是还包括一个决定步骤,决定多个参考模板当中哪一个能最佳匹配上述输入测试语调。
7.按照权利要求6的方法,其特征是上述决定步骤中包括以下步骤,确定一个语音得分Epd_Score,它是成功路径中累计得分的部分,它仅仅涉及到按照路径长度规范化的语音帧,而这一路径仅仅是比较语音帧。
8.按照权利要求7的方法,其特征是上述决定步骤中包括以下步骤,用一个平均得分Av_Score来规范语音得分Epd_Score。
9.按照权利要求8的方法,其特征是上述平均得分Av_Score是一个先验平均得分和成功型模板中的不成功模板的得分的函数。
10.按照权利要求9的方法,其特征在于先验平均得分是信噪比的函数。
11.按照权利要求8的方法,其特征是还包括一个校正步骤,用一个信号对噪声校正函数来校正规范化的语音得分。
12.按照权利要求8的方法,其特征是还包括一个校正步骤,用一个长度校正函数来校正规范化的语音得分。
13.按照权利要求8的方法,其特征是还包括一个校正步骤,用一个信号对噪声和长度校正函数来校正规范化的语音得分。
14.一种语音识别系统,其包括语言符号编制器,用来产生代表一个输入测试语调和上述输入测试语调前、后的至少一帧的一个展宽的测试语言符号;噪声估算器,用来估算展宽的测试语言符号的噪声量;模板填充器,用参考模板开头或结尾的至少一个空白帧填充各个参考模板;噪声适配器,用上述噪声量适配每一个上述填充的参考模板,从而产生具有噪声帧的噪声适配的参考模板,随便空白帧原先在哪里,在讲话时让噪声适配语音;以及一个DTW单元,将上述展宽的语言符号和一个上述噪声适配的参考模板相比较,执行噪声适配DTW操作,在与一个上述噪声帧相比较时,不使用持续时间的限制。
15.按照权利要求14的系统,其特征是上述估算器包括一个噪声平均器,用于对展宽的语言符号的低能量帧取平均值,从中估算噪声结构。
16.按照权利要求15的系统,其特征是上述噪声适配器包括一个调节器,通过加入上述噪声来调节上述参考模板,产生上述噪声适配的参考模板。
17.按照权利要求15的系统,其特征是上述噪声适配器包括峰值能量估算器,用来估算上述参考模板和上述展宽的测试语言符号的峰值能量;增益单元,用于将上述填充的参考模板提高一个等级,使其峰值能量等于上述展宽的测试语言符号的上述峰值能量和平均噪声能量之差;以及一个调节器,通过加入上述噪声来调节上述增益提高的参考模板,从而产生上述噪声适配的参考模板。
18.按照权利要求17的系统,其特征是上述峰值能量估算器还包括一个峰值能量平均器,用来对上述展宽的语言符号的高能量帧的能量级取平均值,从中估算上述峰值能量。
19.按照权利要求14的系统,其特征是包括一个决定单元,用来决定许多参考模板中哪一个与上述输入测试语调最匹配。
20.按照权利要求19的系统,其特征是上述决定单元包括一个用来确定语音得分Epd_Score的得分确定器,得分是成功路径中累计得分的部分,它仅仅涉及到按照路径长度规范化的语音帧,而这一路径仅仅是比较语音帧。
21.按照权利要求20的系统,其特征是上述得分确定器包括一个规范器,按照一个平均得分Av_Score来规范语音得分Epd_Score。
22.按照权利要求21的系统,其特征是平均得分Av_Score是一个先验平均得分和成功型模板的不成功模板的得分的函数。
23.按照权利要求22的系统,其特征在于先验平均得分是信噪比的函数。
24.按照权利要求21的系统,其特征是还包括一个校正器,用一个信号对噪声校正函数来校正规范化的语音得分。
25.按照权利要求21的系统,其特征是还包括一个校正器,用一个长度校正函数来校正规范化的语音得分。
26.按照权利要求21的系统,其特征是还包括一个校正器,用一个信号对噪声和长度校正函数来校正规范化的语音得分。
全文摘要
语音识别采用一个宽语言符号编制器(66),增益和噪声适配器(70)和一种噪声适配的动态时间弯曲(60)。宽语言符号编制器产生用输入测试语调前、后的至少一个空白帧扩展的一个填充的测试语言符号。增益和噪声适配器用噪声和增益量适配每一个填充的参考模板,产生具有噪声帧的适配的参考模板,随便空白帧原先在哪里,在讲话时让噪声适配语音。在噪声适配的模板上执行动态时间弯曲(DTW)。
文档编号G10L15/20GK1335978SQ00802564
公开日2002年2月13日 申请日期2000年1月3日 优先权日1999年1月6日
发明者阿多姆·艾瑞尔 申请人:D.S.P.C.科技有限公司