专利名称:一种语音处理方法和用于语音处理的装置的制作方法
技术领域:
本发明涉及一种语音处理方法,其中表示所述语音的数字信号被用于语音编码,所述数字信号包括第一组系数,第二组系数被计算出来用于语音识别。本发明还涉及对应的装置。
在用于语音处理的设备,如现代数字便携电话(例如用于GSM系统或类似系统)中,语音编码器被用于压缩语音信号信息,并除去冗余信息以便提高数字电话信道的容量,通过该信道,语音信号被发送。这种语音编码器使用了信号分析,语音编码算法通常基于语音的线性预测分析模拟。线性预测编码的使用涉及到一些模型滤波器系数的计算,这些系数称作线性预测系数或反射系数。
此外,人们希望将这种设备与声音驱动功能组合用于控制该设备的使用。在数字电话中,这一点可以采用所谓的声音拨号功能方式来进行电话呼叫,并访问数据库的信息。这种系数通常基于语音识别算法,该算法基本上包括预处理信号分析算法(提取特征矢量组),模板匹配算法以及参考字表(特征矢量码书)。
在当前技术领域中,语音识别算法(用于声音拨号)独立于该设备的基本语音编码算法而执行。GB 2 290 437描述了一种数字便携电话,其中使用了一个数字处理器来对发送的声音数据进行编码处理(并对所接收的声音数据进行解码处理),并对声音命令进行声音识别以用于拨号和其它的电话功能。这两个功能(或算法)可以用相同的处理器在分时基础上处理,因为它们通常不会同时发生,例如,处理器的计算资源可以用来在呼叫开始之前执行声音拨号算法并在呼叫建立时执行语音编码算法。通过使用相同的处理器来执行两种算法,硬件数量以及电话的成本,大小和重量都会降低。
即使在GB 2 290 437的设备中两种算法共享同一个处理器,它们仍然分别独立执行,每种算法都有可观的存储器需求用于存储程序代码以及计算结果和参考值。特别地,声音拨号的特征提取部分消耗了大量的存储器以及计算功率用于信号缓存,子程序和系数计算以及存储。该存储器需求在用足够词汇实现声音拨号中增加了限制。
因此,本发明的一个目标是给出前面提到的方法,该方法既可以执行语音编码算法又可以执行语音识别算法,并且存储器需求会明显降低。
根据本发明,该目标以下面方式实现所述第一组系数用于所述第二组系数的计算中。
当语音识别算法的系数(即,特征提取)根据语音编码算法中计算所得的系数计算出来时,语音识别的系数计算使用了语音编码可得的代码,换句话说,它可以集成在语音编码块中,并且仅有很少的额外处理。这样可以节省大量用于例如特征提取的计算功率和存储器。在各种语音处理功能集成在该产品中的情况下,代码和信号处理的使用已经可以很有效地降低功率消耗和未来移动终端的大小。
如权利要求2陈述的,所述数字信号可以由线性预测算法给出,使得所述第一组系数包括线性预测系数。
根据本发明的第一实施方案,该方案在权利要求3中陈述,所述第一组系数被用作所述第二组系数。用第一组系数直接替代第二组系数给出一个非常简单的方法,该方法将进一步降低存储器需求。然而,该实施方案的缺点在于,语音识别算法的性能与以前技术的语音识别中所实现的语音算法的性能相比较差。因此,该实施方案最好用于质量要求较低的简单设备。然而,在这种设备中,降低所需存储器常常很重要。
根据本发明的另一个可选实施方案,该方案在权利要求4中陈述,所述第二组系数利用一个递归等式来计算,使得所述第二组系数中的每一个系数依赖于所述第一组系数中的对应系数,并依赖于根据所述第一组和/或所述第二组系数以前计算出来的系数。以这种方法计算第二组系数给出适于鲁棒性语音识别的系数,此外,系数参数是压缩的,并利用了已经存在的代码。因此,该实施方案导致存储器需求的明显降低,同时保持以前技术的性能。当第二组系数包括谱系数时,如权利要求5所述,这些系数可以利用下面的递归等式计算。Cn=-an+1nΣi=1n-1(n-i)aiCn-i,]]>其中Cn是第n个谱系数,ai是第i个线性预测系数。
如在权利要求6陈述的,在意图通过声音命令来控制设备的时候,这些谱系数可以用作特征矢量以便为语音识别产生参考列表。采用这种方法,例如便携电话中的声音拨号可以实现。
如所提到的,本发明还涉及用于处理语音的对应装置,并包括用于给出表示所述语音的数字信号的语音编码装置,所述数字信号包括第一组系数,该对应装置还包括其中第二组系数被计算出来的语音识别装置。当所述语音识别装置被调整在所述第二组系数计算中使用所述第一组系数时,上面提到的优点被实现。
如在权利要求8中陈述的,该装置可以是一个数字便携电话,如权利要求9中陈述的,语音编码装置包括一种线性预测算法,使得所述第一组系数包括线性预测系数。
如权利要求10陈述的,该装置可以是一个GSM电话,在GSM增强全速率(EFR)情况下,所述线性预测系数被利用代数码激励线性预测(ACELP)算法计算出来。其它的可能性是使用规则脉冲激励—长时预测算法(RPE-LTP)的GSM全速率(FR),以及使用矢量和激励线性预测(VSELP)算法的GSM半速率(HR)。根据另一个可选实施方案,该方案在权利要求11中陈述,该装置可以是WCDMA(宽带码分多址)电话,并且所述线性预测系数是利用共轭结构—码激励线性预测(CS-CELP)算法计算的。WCDMA的另一个名字是UMTS(通用移动电话系统-ETSI使用)以及IMT2000(ITU使用)。另一种可能性是使用正交码激励线性预测(QCELP)算法的美国系统IS-95。
语音识别装置可以如权利要求12所陈述的那样被调整来使用所述第一组系数作为所述第二组系数,或者如权利要求13所陈述的那样被调整来利用递归等式来计算所述第二组系数使得所述第二组系数中的每个系数依赖于所述第一组系数中的对应系数,并依赖于根据所述第一组和/或所述第二组系数此前计算出来的系数。该方法的两个对应实施方案的优点如上面所描述的那样。如权利要求14所陈述的,当上面提到的实施方案中的第二组系数中包括谱系数时,语音识别装置可以被调整用来利用下面的递归等式来计算所述的谱系数。Cn=-an+1nΣi=1n-1(n-i)aiCn-i,]]>
其中Cn是第n个谱系数,ai是第i个线性预测系数。
如权利要求15所陈述的,语音识别装置可以包括一个模板匹配方块被调整用来使用所述谱系数作为特征矢量以产生用于语音识别的参考列表,该识别装置还被调整用来通过声音命令来控制设备。这使得该设备可以是例如提供了声音拨号特征的便携电话。
下面将参考附图更完整地描述本发明,其中
图1给出了当前技术中具有声音拨号功能的数字移动电话的示意图;图2给出了用于图1的电话中的编码器的方框图;图3给出用于图2的编码器的滤波器的示例实现;图4给出图1的电话中特征提取方块的示例实现;图5给出根据本发明具有声音拨号功能的数字移动电话的示意图。
图1给出了根据当前技术的具有声音拨号功能的数字移动电话1的部分示意图。该电话可以是例如适用于全速率流的GSM电话。图的上部给出了标准的电话功能部分2,而下面的部分给出声音拨号部分3。
用户产生的语音被麦克风4接收,并作为模拟电信号传递给音频部分5,该部分包括采样保持设备和模数转换器,采样率是8000样本/秒,数字输出信号是13比特的统一格式的PCM信号。
语音编码器6从音频部分5接收13比特的统一格式PCM信号作为其输入,语音编码器的输出处的编码语音被传递给信道编码器单元7,并传递给无线电部分8和天线9。信道编码器单元7,无线电部分8和天线9没有进一步详细描述,因为它们与本发明无关。该电话通常有一个对应的接收部分,并且该部分也与本发明无关,因此不在这里描述。
语音编码器6执行信号分析以压缩语音信号信息并除去冗余信息,因此提高数字电话信道的容量。用于语音编码器6的语音编码算法基于对语音产生过程的线性预测分析模拟。预测包括估计,即,稳态过程的有限组的当前和过去样本(即,语音信号)被用于预测该过程的未来样本。部分算法依赖于具有关于部分声音的信息,该部分声音还没有被检测到。然而根据过去值的趋势,这些值被预测出来。如果该预测是该过程的给定样本的线性组合,那麽该预测被称作线性预测。
在全速率GSM情况下,语音编码算法定义了以13比特统一格式PCM表示的160个语音样本的输入块到260比特编码块的映射。8000样本/秒的采样率导致13k比特/秒的编码比特流的平均比特率。编码方案是所谓的规则脉冲激励—长时预测—线性预测编码器(RPE-LTP),并且语音编码器6因此称作RPE-LTP编码器。
RPE-LTP编码器的方框图在图2中给出。包括160个信号样本的输入语音帧(统一格式13比特PCM样本)首先在预处理部分20中被预处理。所获得的160个样本然后在线性预测编码(LPC)分析块21中分析来为短时分析滤波器22确定系数,其中,这些系数或参数被用于过滤相同的160个样本。其结果是160个短时残留信号样本。在它们输出到信道编码器单元7之前,称作线性预测系数或反射系数的滤波器参数被转换成对数域比例,LARs。
LPC分析块21和线性预测系数是电路中与本发明相关性最大的部分,因此将详细描述。语音编码器6的剩余部分与本发明的相关性不强,将被简要描述。短时残留信号的样本将从滤波器22传送给RPE(规则脉冲激励)以及LTP(长时预测)编码器块23,24用于分别产生RPE和LTP参数。
图3给出了滤波器22是怎样实现的,流入的样本s(n)经过了一些延迟元件30,31,32,这些延迟元件的输出在乘法元件33,34,35中乘以系数a1,a2,…,ap,然后加在一起。系数a1,a2,…,ap,是上面提到的线性预测系数。其结果在相加点36从流入信号中减去,所产生的信号e(n)是短时残留信号。该滤波器是声道的全极点滤波器模型,滤波器函数由下式给出H(z)=11+Σi=1Pαiz-i,]]>其中ai是上面提到的系数,P是预测阶数或滤波器的极点数。对于这里描述的RPE-LTP算法,P=8。图3中的时间延迟T对应于z-1。
如上面提到的,线性预测系数a1,a2,…,ap在LPC分析块21中确定。它们是利用自相关和Schur递归算法计算的,该算法是众所周知的,并在该领域中描述了。因此,计算的细节就不再重复了。
在基于代数码激励线性预测(ACELP)算法的增强全速率GSM(EFR)中,预测阶数P为10,线性预测系数a1,a2,…,ap是利用自相关和Levinson-Durbin算法计算的,但是该原理与用于全速率GSM的原理完全相同。而且基于矢量和激励线性预测(VSELP)算法的半速率GSM(HR)使用了相同的原理用于计算线性预测系数a1,a2,…,ap。而且,基于共轭结构—码激励线性预测(CS-CELP)算法的WCDMA(宽带码分多址)系统使用了相同的原理用于计算线性预测系数。WCDMA的其它名字是UMTS(通用移动电话系统-ETSI使用)以及IMT2000(ITU使用)。另一种可能性是基于正交码激励线性预测(QCELP)算法的美国系统IS-95。
现在参考图1,注意到图中下面部分给出电话1的声音拨号部分3。该声音拨号系统是基于语音识别算法的。如可以从图中看到的,语音识别系统基本上包括信号分析(特征提取)块10,模板匹配块11和参考字表12。声音拨号系统3与标准的电话功能部分2以时分共享的模式并行工作,该模式是由MMI(人机接口)控制13决定的。这意味着,电话的计算资源在呼叫开始之前被用来执行声音拨号算法的计算,而在呼叫过程中执行语音编码。
语音识别的目标是分配一个标记,即,分配一个字给所观察的声学信号。这意味着该算法搜索表示假定字的语音信号段。也可称为预处理器的信号分析块10将原始的声学波形转换成中间的压缩表示,该表示被用于后续处理。一般的,信号分析能够以因子10来压缩语音数据,其方式是从语音信号中提取保持有关发音字信息的特征矢量组。
在语音识别中,语音信号被假定为是分段平稳的,并且预处理器一般每10-20毫秒产生一个特征矢量,该特征矢量是根据20-30毫秒的语音窗来计算的。预处理信号分析的结果是间隔为10毫秒的特征矢量序列(或语音帧),并且每帧10-30个系数。通过对信号对数幅度谱的傅里叶变换得到的谱系数被发现是用来在语音拨号应用中产生参考列表的有效特征矢量表示。
图4给出系数如何在信号分析块10中计算的。第一个FFT(快速傅里叶变换)块37执行采样输入x(n)的频率变换。在下一个块38中,幅度谱x(n)对数被计算出来,最终在第二个FFT块39中,对数幅度谱的FFT变换被计算出来,这样产生谱系数。模板匹配块11使用了来自参考列表12的信息来将字分配给从特征提取块10接收的特征矢量,所分配的字反过来用于通过声音命令来控制移动电话或用来产生参考列表。向特征矢量分配字可以由所谓的基于模板的方法实现,其中参考列表是预纪录字模板的集合,该模板一般包括对应字的特征矢量的表示序列。基本的思想是将发音与每个模板字比较然后选取获得最佳匹配的字。
即使电话的计算资源是在语音编码和声音拨号之间时间共享的,如上面提到的那样,声音拨号算法要求大量的额外存储器。用于程序代码存储的ROM存储器一般可达到4.8k字节,而用于存储参考值(即参考列表12)的ROM/RAM存储器一般为每个字1K字节,即,10个字的词汇需要10K字节的存储器。这在以充分词汇实现声音拨号功能中施加了限制,因为移动电话中可得的存储量有限。此外,声音拨号的特征提取块10一般基于频域参数并消耗大量的存储器以及计算功率用于信号缓存、FFT子程序和系数、对数频率谱系数的计算和存储。
图5给出根据本发明修正的数字移动电话40的部分示意图。而且,标准电话功能部分41在图上部给出,而下部给出声音拨号部分42。如可以看到的,语音编码块6和图1中电话的特征提取块10在普通块43中组合。已经发现经过微小的修正或不经过修正,语音识别部分中的特征提取算法可以使用现存的GSM语音编码算法的信号分析方法。利用现存的语音编码算法用于特征提取降低了存储器和计算资源的需求。这意味着电话的整个存储器可以降低,或者参考列表中的词汇可以增加而现存存储器大小不变。以前用于程序代码存储的4.8K字节ROM允许存储5个额外的字。
该想法是在语音编码块中计算的线性预测系数a1,a2,…,ap被用于获得被用作特征矢量的谱系数,而不是通过如上面描述的那样通过对信号谱进行傅里叶变换来获得。
基于ai值的对于谱系数的有效计算是利用下面的简单递归等式进行的Cn=-an+1nΣi=1n-1(n-i)aiCn-i,]]>
其中,在给定对应于为上面RPE-LTP编码器描述的包括160个信号样本的输入语音帧的语音样本窗{xn,n=1,N,N=160}的条件下,Cn是第n个谱系数,ai是第i个线性预测系数。这些从上面等式获得的系数被看作特征矢量并被模板匹配块11用来产生参考命令和字表,并通过声音命令控制移动电话。在上面等式中仅给出了额外处理的情况下,这意味着特征提取块可以集成在语音编码块中。这将导致降低的内存(编码ROM)和用于实现声音拨号功能的计算需求。
上面等式的另外可选方式是线性预测系数a1,a2,…,ap也可以直接用作谱系数,即Cn=an。这给出一种非常简单的方法,它将进一步降低存储器需求。然而,该实施方案的缺点是语音识别算法的性能与以前技术语音识别算法的性能相比较差。因此,该实施方案最好用于具有较低质量需求的简单设备中。然而,在该设备中,所需内存的降低常常非常重要。
尽管该发明的优选实施方案已经描述并给出,本发明并不局限于此,而是可以以其它的方式实现,但要在下面权利要求定义的范围之内。
权利要求
1.一种语音处理的方法,其中表示所述语音的数字信号被用于语音编码,所述数字信号包括第一组系数,第二组系数被计算出来用于语音识别,该方法的特征在于所述第一组系数用于所述第二组系数的计算中。
2.根据权利要求1的方法,特征在于所述数字信号由线性预测算法提供,所述第一组系数包括线性预测系数。
3.根据权利要求1或2的方法,特征在于所述第一组系数被用作所述第二组系数。
4.根据权利要求1或2的方法,特征在于所述第二组系数是利用递归等式计算的,使得所述第二组系数中的每一个系数依赖于所述第一组系数中的对应系数并依赖于根据所述第一组和/或所述第二组系数以前计算的系数。
5.根据权利要求4的方法,特征在于所述第二组系数包括利用递归等式计算的谱系数,Cn=-an+1nΣi=1n-1(n-i)aiCn-i,]]>其中Cn是第n个谱系数,ai是第i个线性预测系数。
6.根据权利要求5的方法,特征在于为了通过声音命令来控制设备,所述谱系数被用作特征矢量来产生一个用于语音识别的参考列表。
7.用于处理语音的装置,所述装置包括用于给出表示所述语音的数字信号的语音编码装置(2;41),所述数字信号包括第一组系数,其中第二组系数被计算出来的语音识别装置(3;42),特征在于所述语音识别装置被调整用来在所述第二组系数的计算中使用所述第一组系数。
8.根据权利要求7的装置,特征在于该装置是一种数字便携电话。
9.根据权利要求7或8的装置,特征在于所述语音编码装置(2;41)包括一种线性预测算法,并在于所述第一组系数包括线性预测系数。
10.根据权利要求9的装置,特征在于该装置是GSM电话,并在于线性预测系数是利用代数码激励线性预测(ACELP)算法计算的。
11.根据权利要求9的装置,特征在于该装置是WCDMA电话,并在于线性预测系数是利用共轭结构—码激励线性预测(CS-CELP)算法计算的。
12.根据权利要求7到11的装置,特征在于所述语音识别装置(3;42)被调整用来使用所述第一组系数作为所述第二组系数。
13.根据权利要求7到11的装置,特征在于所述语音识别装置(3;42)被调整用来利用递归等式计算所述第二组系数,使得所述第二组系数中的每个系数依赖于所述第一组系数中的对应系数,并依赖于以前根据所述第一组系数和/或所述第二组系数计算出来的系数。
14.根据权利要求13的装置,特征在于所述第二组系数包括谱系数并且所述语音识别装置(3;42)被调整用来利用下面的递归等式计算所述谱系数Cn=-an1nΣi=1n-1(n-i)aiCn-i,]]>其中Cn是第n个谱系数,ai是第i个线性预测系数。
15.根据权利要求14的装置,特征在于所述语音识别装置(3;42)包括模板匹配方块(11)被调整用来使用所述的谱系数作为特征矢量来产生用于语音识别的参考列表(12),该装置还被调整用来通过声音命令来控制设备。
全文摘要
在语音处理方法中,语音的数字信号表示被用于语音编码,该数字信号包括第一组系数。第二组系数被计算出来用于语音识别。第一组系数被用于第二组系数的计算中,对应的装置包括用于给出表示语音、并包括第一组系数的数字信号的语音编码装置(2;41),该对应装置还包括语音识别装置(3;42),其中,第二组系数被计算出来。语音识别装置被调整在第二组系数的计算中使用第一组系数。采用这种方法,用于包括语音编码以及语音识别的设备的存储器大大降低。
文档编号G10L25/24GK1322346SQ9981192
公开日2001年11月14日 申请日期1999年10月5日 优先权日1998年10月9日
发明者F·梅库利尔 申请人:艾利森电话股份有限公司