专利名称:宽带语音编解码器中的高频增强层编码的制作方法
技术领域:
本发明通常涉及编码和解码合成语音的领域,尤其是涉及自适应多速率宽带语音编解码器。
在一个使用LP编码产生语音的编解码器中,解码器需要编码器提供三种输入如果激励是有声的,则提供音调周期,增益因子和预测系数。(在某些编解码器中,还要提供激励种类,也就是说是有声的还是无声的,但对于代数码激励线性预测(ACELP)编解码器通常并不需要。例如。在前向估计处理中,LP编码是预测型的,因为它使用基于实际输入的应用参数的语音波形片断(在一段特定间隔内)的预测参数。
基本的LP编码和解码可用于使用相对低的数据速率以数字方式传输语音,但因为它使用非常简单的激励系统,它产生合成的发声的语音。一个所谓的码激励线性预测(CELP)编解码器是一种增强的激励编解码器。它基于″冗余″编码。模拟声道是根据参数被编码成压缩语音的数字滤波器。这些滤波器是由表示原始说话者的声带震动的信号所驱动,即″激励″。音频语音信号的冗余是较少地数字滤波的(原始)音频语音信号。在所谓的″冗余脉冲激励″中,CELP编解码器对冗余编码并将它作为激励的基础,但是,CELP使用从预设的一套波形模板中选择的波形模板来表示冗余样本块而不是根据样本不同情况分别编码冗余波形。码字是由编码器决定的并提供给解码器,解码器然后使用码字以选择冗余序列表示原始的冗余样本。
依据奈奎斯特定理,采样率Fs的语音信号可以表示一个从0到0.5Fs的频带。当前,大多语音编解码器(编码器-解码器)使用8kHz的采样速率。如果采样速率从8kHz增加,语音的逼真度也会改进因为可以表示更高的频率。现在,语音信号的采样率通常为8kHz,但是开发中的移动电话基站将使用16kHz的采样率。依据奈奎斯特定理,16kHz的采样率在频带0-8kHz表示语音。然后对采样的语音进行编码以使用发射机进行通信,然后被接收机解码。使用16kHz的采样速率采样的语音的语音编码被称为宽带语音编码。
当语音采样率增加时,编码复杂性也增加了。对于某些算法,随着采样率增加,编码复杂性甚至达到指数级增长。因此,编码复杂性经常是确定宽带语音编码算法的一个限制性因素。例如,移动电话基站的功耗,可用的处理功率和内存要求严重影响算法的应用。
在现有技术的宽带编解码器中,如
图1所示,预处理阶段用于低通过滤和从原始的16kHz到12.8kHz采样频率下抽样输入语音信号。下抽样信号然后减少十分之一以使得在20ms内320个样本数减少到256。在有效的0到6.4kHz频率带宽内,下抽样和减少了十分之一的信号使用合成分析(A-b-S)循环以提取LPC,音调和激励参数进行编码,并量化成编码的比特流以发送到接收端进行解码。在A-b-S循环中,本地合成信号进一步上抽样并以内插值替换以符合原始样本频率。编码处理之后,6.4kHz到8.0kHz的频带为空。宽带编解码器在这个空频率范围生成随机噪声并利用如下所述的合成滤波使用LPC参数着色(colors)随机噪声。随机噪声首先根据下式进行缩放escaled=sqrt[{extT(n)exc(n)exc(n)}/{eT(n)e(n)}]e(n)(1)其中e(n)表示随机噪声exc(n)表示LPC激励。上标T表示向量转置。缩放的随机噪声使用着色(coloring)LPC合成滤波器和6.0-7.0kHz带通滤波器进行滤波。这种着色(colored)的高频部分进一步使用关于合成信号的频谱倾斜的信息进行缩放。频谱倾斜可以通过首先使用下列公式计算自相关系数,r,来估计r={sT(i)s(i-1)}/{sT(i)s(i)}(2)其中s(i)是合成语音信号。相应地,估计的增益fext由下面决定fext=1.0-r(3)并限制0.2≤fext≤1.0。
在接收端,在核心解码处理后,对合成信号进行进一步的后续处理以通过上抽样信号来满足输入信号采样频率,以便生成实际的输出。因为高频噪声电平是基于从合成信号的低频带和频谱倾斜获取的LPC参数估算出的,缩放和着色随机噪声可以在编码器端或解码器端实现。
在现有技术的编解码器中,基于基层信号电平以及频谱倾斜估算高频噪声电平。因而,合成信号的高频部分被滤波掉。因此,噪声电平与在6.4-8.0kHz频率范围的实际输入信号特性不相一致。这样,现有技术的编解码不能提供高质量合成信号。
考虑到在高频范围的实际输入信号的特性,提供能够提供高质量合成信号的方法和系统是有利和值得的。
因此,本发明的第一个方面是一种语音编码方法,用于编码和解码具有激活语音周期和非激活语音周期的输入信号,并且用于提供一种具有高频部分和低频部分的合成语音信号,其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,并且其中具有低频部分特性的语音相关参数被用来处理用于提供合成语音信号高频部分的仿真信号。该方法包括步骤在激活语音周期中,以第一缩放因子缩放处理过的仿真信号,以及在非激活语音周期中,以第二缩放因子缩放处理过的仿真信号,其中第一缩放因子是输入信号的高频带特性,并且第二缩放因子是合成信号的低频部分的特性。
优选地,输入信号被高通滤波以便在在合成语音的高频部分的频率范围特性中提供滤波过的信号,其中第一缩放因子从滤波过的信号中估算出来的,并且其中当非激活语音周期包括语音释放延迟周期和舒适噪声周期时,从滤波过的信号中估算出在语音释放延迟周期中缩放处理过的仿真信号的第二缩放因子。
优选地,用于在语音释放延迟周期中缩放处理过的仿真信号的第二缩放因子也是从合成语音信号的低频部分中估算出来的,并且用于在舒适噪声周期中缩放处理过的仿真信号的第二缩放因子从合成语音信号的低频部分中估算出来。
优选地,第一缩放因子在流向接收端的已编码比特流中编码和发送,并且用于语音释放延迟周期的第二缩放因子也包括在已编码的比特流中。
用于语音释放延迟周期的第二缩放因子可以在接收端确定。
优选地,第二缩放因子也可以从频谱倾斜因子(spectra1 tilt)中估算出,该频谱倾斜因子由合成语音的低频部分确定。
优选地,第一缩放因子进一步从处理过的仿真信号中估算出。
本发明的第二方面是用于编码和解码具有激活语音周期和非激活语音周期的输入信号并且用于提供一种具有高频部分和低频部分的合成语音信号的语音信号发射机和接收机系统,其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,其中输入信号的低频带的语音相关参数被用来在接收机中处理仿真信号来提供合成语音信号的高频部分。该系统包括接收机中的解码器,用于从发射机中接收已编码的比特流,其中已编码的比特流包括语音相关参数;
发射机中的第一模块,响应输入信号,提供用于在激活周期中缩放处理过的仿真信号的第一缩放因子,以及接收机中的第二模块,响应已编码的比特流,提供在非激活周期中缩放处理过的仿真信号的第二缩放因子,其中第一缩放因子是输入信号高频带的特性,并且第二缩放因子是合成信号低频部分的特性。
优选地,本发明的第一模块包括一个滤波器,用于高通滤波输入信号,并且提供滤波过的输入信号,该信号具有相应于合成语音的高频部分的频率范围,以便允许从滤波过的输入信号中估算出第一缩放因子。
优选地,在发射机中使用第三模块来在相应于合成信号的频率范围内提供着色的高通滤波的随机噪声,以便可以基于着色的高通滤波随机噪声修改第一缩放因子。
本发明的第三方面是编码器,用于编码具有激活语音周期和非激活语音周期的输入信号,该输入信号被分为高频带和低频带,用于提供包括具有输入信号低频带特性的语音相关参数的已编码比特流,以便允许解码器基于语音相关参数再现合成语音的低频部分并且基于语音相关参数处理仿真信号来提供合成语音高频部分,其中在非激活语音周期中,使用基于合成语音低频部分的缩放因子缩放处理过的仿真信号。该编码器包括滤波器,响应输入信号,用于对相应于合成语音的高频部分的频率范围中的输入信号高通滤波,并且提供指示高通滤波过的输入信号的第一信号;装置,响应第一信号,用于基于高通滤波的输入信号以及合成语音的低频部分提供另一个缩放因子,并且提供指示另一个缩放因子的第二信号;以及量化模块,响应第二信号,用于在已编码比特流中提供指示另一个缩放因子的已编码信号,以便允许解码器在激活语音周期基于另一个缩放因子缩放处理过的仿真信号。
本发明的第四方面是一个移动站,其被设置来发送已编码比特流至解码器以便提供具有高频部分和低频部分的合成信号,其中已编码比特流包括语音数据,该语音数据指示具有激活语音周期和非激活语音周期的输入信号,并且输入信号被分成高频带和低频带,其中语音数据包括具有输入信号低频带特性的语音相关参数,以便允许解码器基于语音相关参数提供合成语音的低频部分,并且基于语音相关参数着色仿真信号,同时基于合成语音的低频部分使用缩放因子缩放着色的仿真信号以便在非激活语音周期中提供合成语音的高频部分。移动站包括滤波器,响应输入信号,用于高通滤波相应于合成语音高频部分的频率范围的输入信号,并且用于基于高通滤波过的输入信号提供另一个缩放因子;以及量化模块,响应该缩放因子和另一个缩放因子,用于在已编码比特流中提供指示另一个缩放因子的已编码信号,以便允许解码器在激活语音周期中基于另一个缩放因子缩放着色的仿真信号。
本发明的第五方面是电信网络中的元件,其被设置来接收用于提供具有高频部分和低频部分的合成语音的已编码比特流,该比特流包括指示来自移动站的输入信号的语音数据,其中具有激活语音周期和非激活语音周期的输入信号被分为高频带和低频带,同时语音数据包括具有输入信号的低频带特性的语音相关参数以及具有输入信号高频带特性的增益参数,其中基于语音相关参数提供合成语音的低频部分,所述元件包括第一机构,响应增益参数,用于提供第一缩放因子;第二机构,响应语音相关参数,用于合成和高通滤波的仿真信号用以提供一个合成和高通滤波过的仿真信号;第三机构,响应第一缩放因子和语音数据,用于提供组合的缩放因子,该组合的缩放因子包括具有输入信号高频带特性的第一缩放因子和基于第一缩放因子和具有合成语音低频部分特性的另一个语音相关参数的第二缩放因子;以及第四机构,响应合成和高通仿真信号以及合成缩放因子,用于在激活语音周期和非激活语音周期中,分别使用第一和第二缩放因子缩放合成和高通滤波过的仿真信号。
在结合图2至8阅读说明书后,本发明将变得更加清楚。
图2是说明根据本发明的宽带语音编解码器的框图。
图3是说明本发明的宽带语音编解码器的后端处理功能的框图。
图4是说明本发明的宽带语音解码器的结构的框图。
图5是说明宽带语音编解码器的后端处理功能的框图。
图6是说明根据本发明的移动站的框图。
图7是说明根据本发明的电信网络的框图。
图8是说明根据本发明的语音编码方法的流程图。
与现有技术中的宽带编解码器相比,将后端处理部件6的后端处理功能修改成包括增益缩放和增益量化108,其相应于具有原始语音信号100的高频部分特性的输入信号。更具体地,可以使用原始语音信号100的高频部分,以及着色的高通滤波随机噪声134,154来确定如图3所示的与语音编码器结合起来进行描述的如方程4所示的高带信号缩放因子。后端处理部件6的输出内容为后端处理语音信号110。
图3说明了根据本发明的语音编码器10中的后端处理功能的详细结构。如图所示,使用随机噪声发生器20来提供16kHz仿真信号130。LPC合成滤波器22使用LPC参数104对随机噪声130进行着色,此LPC参数104基于语音信号100的低频带特性由合成分析编码部件4(图2)中的编码比特流来提供。从着色的随机噪声132和高通滤波器24抽取出频率为6.0-7.0kHz的着色的高频部分134。在原始语音样本100中频率范围为6.0-7.0kHz的高频部分112也可以通过高通滤波器12提取。使用高频部分112和134的能量来确定增益平衡部件14的高带信号缩放因子gscaled,根据以下方程gxcaled=sqrt{(shpTshp)/(ehpTehp)}(4)其中,shp为6.0-7.0kHz带通滤波原始语音信号112,ehp为LPC合成(着色)及带通滤波随机噪声134。由参考标号114所表示的缩放因子gscaled可通过增益量化模块18进行量化,并且在编码比特流中进行传输,从而接收端可以使用缩放因子对随机噪声进行缩放以实现语音信号的再现。
当前的GSM语音编解码器中,非语音周期中的无线电传输过程由不连续传输(DTX)函数中止。DTX函数将会帮助减少不同部分之间的干扰,同时提高通信系统的容量。DTX函数依赖于话音激活检测(VAD)算法来确定输入信号100代表语音还是噪声,从而防止在激活语音周期内关闭发射机。VAD算法由参考标号98表示。此外,当发射机在非激活语音周期内被关闭时,为了消除连接失败的影响,由接收机提供数量较小的称为“舒适噪声”(CN)的背景噪声。VAD算法这样来设计,以便当监测到非激活语音周期之后,允许有一个称之为释放延迟或保持延迟的时间段。
根据本发明,激活语音中的缩放因子gscaled可以根据方程4进行估算。然而,完成激活语音到非激活语音的自适应之后,由于比特速率的限制以及传输系统本身,增益参数不能够在舒适噪声比特流中进行传输。因此,同现有技术中的宽带编解码器的实现方式一样,在非激活语音中,在接收端不使用原始语音信号来确定缩放因子。因而,可以从非激活语音中的基层信号中可以隐含地估算出增益值。与之相反,在基于高频增强层中信号的语音周期中使用显式增益量化。在激活语音转换到非激活语音的过程中,不同缩放因子之间的转换可能会导致合成信号中的声音瞬变(audible transients)。为了降低这些声音瞬变,可以使用增益自适应模块16来改变缩放因子。根据本发明,当话音激活确定(VAD)算法的释放延迟周期开始时,自适应开始启动。为了该目的,为增益自适应模块16提供表示VAD判决的信号190。此外,不连续传输(DTX)的释放延迟周期也将被用来完成增益自适应。DTX的释放延迟周期之后,可以使用不通过原始语音信号确定的缩放因子。用来调整缩放因子的整个增益自适应过程可以根据以下方程得以实现gtotal=agscaled+(1.0-α)fest(5)其中,fest由方程3来确定并由参考标号115表示,α为自适应参数,由以下方程给出α=(DTXhangovercount)/7(6)因而,在激活语音中,α等于1.0,原因在于DTX释放延迟计数等于7。在从激活到非激活语音的瞬变过程中,DTX释放延迟计数从7降低到0。从而,在该瞬变中,0<α<1.0。在非激活语音中,或者是接收到第一舒适噪声参数之后,α=0。
在此情形下,由话音激活监测和源编码比特速率所驱动的增强层编码将依照不同的输入信号周期进行缩放。在激活语音中,增益量化由增强层明显地确定,该增强层包括随机噪声增益参数确定和自适应。在瞬变周期内,显式确定的增益值将向隐式估算值进行自适应。在非激活语音中,增益值由基层信号进行隐式估算。因而,高频增益层参数将不会传输到非激活语音的接收端上。
增益值自适应的好处在于可以获得从激活到非激活语音处理过程完成缩放的高频部分的平滑瞬变。由增益自适应模块16所确定且由参考编号116所表示的自适应缩放增益值gtotal,将由增益量化模块18作为一套量化增益参数118进行量化。此套增益参数118可以被加入到编码比特流中去,并传输到接收端进行解码。需要注意到的是,量化增益参数118可以作为查表存储起来,从而可以通过增益索引访问(未示出)。
对于自适应后的缩放增益值gtotal,为了降低从激活语音到非激活语音转换过程中合成信号的瞬变,可以对解码过程中的高频随机噪声进行缩放。最后,合成的高频部分加入到从编码器的A-b-S环路所接收到的上抽样和内插信号中。在每个5毫秒子帧中,彼此独立地实现能量缩放的后端处理。随着4比特电报密码本被用来对高频随机部分增益值进行量化,整个比特率为0.8kbit/s。
显式确定的增益值(来自高频增强层上)和隐式估算的增益值(来自基层,或仅在低频带,信号)之间的增益自适应可以在增益值量化之前在编码器中完成,如图3中所示。在这种情况下,根据方程5,进行编码并且传输到接收端的增益值参数为gtotal。可替换地,增益值自适应可仅仅在VAD标记显式非语音信号已经开始之后于DTX释放延迟周期内的解码器中实现。在这种情况下,增益参数的量化在编码器中实现,同时在解码器中实现增益值自适应,传输到接收端上的增益参数可以根据方程4简化为gscaled。估算的增益值fext值可以在解码器中通过使用合成语音信号得以确定。增益值自适应也可以在解码器接收到第一无声描述(SIDfirst)之前在舒适噪声周期的初始阶段于解码器中实现。如同前面的情况一样,gscaled在编码器中量化同时在编码比特流中进行传输。
本发明中解码器30如图4所示。如图所示,解码器30用来合成来自编码参数140的语音信号110,该编码参数140包括LPC、音调和激励参数104以及增益参数118(见图3)。,解码模块32从编码参数140提供一套量化LPC参数142。后端处理模块34从所接收的语音信号低带部分的LPC、音调和激励参数142产生合成低带语音信号,如同在现有技术中的解码器一样。后端处理模块34由局部产生的随机噪声产生合成高频部分,它是基于包括语音高频部分的输入信号特性的增益参数之上的。
图5给出了解码器30的通用后端处理结构。如图5所示,增益参数118通过增益去量化(dequantilization)部件38进行去量化处理。如果增益自适应已经在编码器中完成,如图3中所示,那么接下来解码器中的相关增益自适应功能将会在舒适噪声周期初期将去量化之后的增益值144(gtotal,α=1.0以及α=0.5)自适应为所估算的缩放增益值fest(α=0),而无需VAD判决信号190。然而,如果仅仅在信号190提供的VAD标记指示非语音信号开始之后,在DTX释放延迟周期内的解码器中进行增益值自适应,那么增益值自适应部件40将根据方程5来确定缩放因子gtotal。因此,当未接收到增益参数118时,在不连续传输过程的初始阶段,增益值自适应部件40将使用估算缩放增益值fest消除瞬变,如参考标号145表示。因而,如增益自适应模式40所提供的那样,根据方程5确定缩放因子146。
如图4所示的后端处理单元34中的随机噪声部分的着色和高通过滤类似于图3中所示编码器10的后端处理操作。如图所示,随机噪声发生器50用来提供仿真信号150,它根据所接收到的LPC参数104由LPC合成滤波器52着色。着色的仿真信号152由高通滤波器54进行滤波操作。然而,在编码器10(图3)中提供着色的、高通滤波随机噪声134的目的在于产生ehp(方程4)。在后端处理模块34中,着色的、高通滤波仿真信号154在被基于增益值自适应模块40所提供的自适应高带缩放因子146上的增益调整模块56缩放之后,被用来产生出合成高频信号160。最后,高频增强层的输出部分160被加入到由基解码器(未示出)所接收到的16kHz合成信号上。16kHz合成信号在本领域是众所周知的。
需要注意到来自解码器的合成信号可以用来实现频谱倾斜(tilt)估算。可以使用方程2和3由解码器后端处理部分估算出参数值fest。当出现由于各种原因,如信道带宽限制以及解码器没有接收高带增益值,而导致解码器或传输信道忽略了高带增益参数的情况时,可以缩放着色的、高通滤波随机噪声从而提供合成语音的高频部分。
总之,在宽带语音编解码器中实现高频增强层编码工作的后端处理步骤可以在编码器或者是解码器中来完成。
当后端处理步骤在编码器中完成时,高带信号缩放因子gscaled从频率范围为6.0-7.0kHz的原始语音样本和LPC彩色以及带通滤波随机噪声中的高频部分中获得。另外,所估算的增益因子fest从编码器中低带合成信号的频谱倾斜值获得。使用VAD判定信号来表明输入信号是处于激活语音周期内还是处于非激活语音周期内。针对不同语音周期的所有缩放因子gtotal由缩放因子gscaled和估算出的增益因子fest运算出。可缩放的高频带信号缩放因子在编码比特流中进行量化和传输。在接收端,全部缩放因子gtotal从所接收到的编码比特流(编码参数)中抽取出来。使用这一全部缩放因子来缩放解码器中所产生的着色的高通滤波随机噪声。
当在解码器中完成后端处理步骤时,所估算的增益因子fest可以从解码器中的低频带合成语音中获得。这一估算出的增益因子可以用来缩放激活语音内解码器中的着色的高通滤波随机噪声。
图6所示为根据本发明的一个实施例所得出的移动台200的框图。移动台包括此设备的特有部分,如麦克风201,数字键盘207,显示器206,耳机214,发送/接收开关208,天线209和控制单元205。并且,图中给出了此移动台所特有的发送和接收部件204和211。发送部件204包括用于编码语音信号的编码器221。编码器221包括图3中所示编码器10的后端处理功能。发送部件204还包括实现信道编码、解密和调制以及RF功能的操作,而为了更清楚的表述,这些在图5中未给出。接收部件211还包括依照本发明的解码部件220。解码部件220包括类似于图5中所示解码器34的后端处理单元222。来源于麦克风201的信号在放大级上放大,然后在A/D转换器中进行数字化处理,然后发送到发送部件204上,尤其是发送到发送部件所包括的语音编码设备上。发送部件的发送,信号处理、调制以及放大,通过发送/接收开关208传输到天线209。从天线得到的所要接收的信号通过发送/接收开关208传输到接收部件211,接收部件211能够解调所接收的信号以及解码解密和信道编码。所得到的语音信号将通过D/A转换器212传输到放大器213上,进一步地传输到耳机214。控制单元205控制移动台200的操作,读取用户通过键盘207给出的控制命令,同时通过显示器206向用户发送信息。
根据本发明,图3所示的编码器10以及图5所示的解码器34的后端处理功能也可以用在电信网络300上,如通常的电话网和移动台网络,如GSM网络。图7给出了这种电信网络的框图举例。例如,电信网络300可以包括电话交换机或相应的交换系统360,电信网络中的普通电话370,基站340,基站控制器350以及其它中心设备355都可以连接到其上。移动台330可以通过基站340建立到电信网络的连接。例如,包括类似于图5中所示的后端处理部分322的解码部件320,可方便地放置于基站340中。然而,解码部件320例如也可以置于基站控制器350或者示其它中心或交换设备355中。例如,如果移动台系统在基站和基站控制器之间使用的是分开的代码转换器,,为了将由无线电信道接收的编码信号转换成在电信系统中传送的标准的64千比特/秒信号并且反之亦然,解码部件320也可以放置在这种代码转换器之中。通常,包括后端处理部分322的解码部件320可以放置于能够将编码数据流转换成非编码数据流的电信网络300中的任意一个元件中。解码部件320对来源于移动台330的编码语音信号进行解码和过滤,然后语音信号可依照通常在电信网络300中解压缩的方式进行转换。
图8为说明根据本发明所得语音编码方法500的流程图。如所示,由于输入语音信号100在步骤510上被接收,话音激活监测算法98将在步骤520上被使用来确定在当前周期中输入信号110是代表语音还是噪声。在语音周期中,处理完的仿真噪声152在步骤530上以第一缩放因子114进行缩放。在噪声或非语音周期中,处理完的仿真信号152在步骤540上以第二缩放因子进行缩放。下一个周期在步骤520上重复此操作过程。
为了提供合成语音的更高频段部分,仿真信号或随机噪声在频率范围为6.0-7.0kHz上进行过滤。然而,过滤之后的频率范围例如可以基于编解码器的采样速率而有所不同。
虽然已相对于本发明的优选实施例描述了本发明,本领域的技术人员可以理解在不偏离本发明的精神和范围的情况下,可以在其形式和细节上做出上述的以及不同的变化,省略和偏移。
权利要求
1.一种语音编码(500)方法,用于编码和解码具有激活语音周期和非激活语音周期的输入信号(100),并且用于提供一种具有高频部分和低频部分的合成语音信号(110),其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,并且其中具有低频带特性的语音相关参数(104)被用来处理仿真信号(150),用以提供处理过的仿真信号(152),处理过的仿真信号(152)用于进一步提供合成语音的高频部分(160),所述方法包括步骤在激活语音周期中,以第一缩放因子(114,144)缩放(530)处理过的仿真信号(152),以及在非激活语音周期中,以第二缩放因子(114&115,144&145)缩放(540)处理过的仿真信号(152),其中第一缩放因子具有输入信号高频带的特性,同时第二缩放因子具有合成信号低频部分的特性。
2.权利要求1所述的方法,其中处理过的仿真信号(152)被高通滤波,用于在具有合成语音的高频部分的特性的频率范围中提供滤波过的信号(154)。
3.权利要求2所述的方法,其中,频率范围是在6.4-8.0kHz的范围内。
4.权利要求1所述的方法,其中输入信号(100)被高通滤波,用于在具有合成语音高频部分特性的频率范围中提供滤波过的信号(112),并且其中第一缩放因子(114,144)是从滤波过的信号(112)中估算出来的。
5.权利要求4所述的方法,其中非激活语音周期包括语音释放延迟周期和舒适噪声周期,其中用于在语音释放延迟周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115,144&145)是从滤波过的信号(112)中估算出来的。
6.权利要求5所述的方法,其中合成语音的低频部分从输入信号(100)的已编码低频带(106)中再现,并且其中用于在语音释放延迟周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115,144&145)也是从合成语音信号的低频部分中估算出来的。
7.权利要求6所述的方法,其中用于在舒适噪声周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115,144&145)是从合成语音信号的低频部分中估算出来的。
8.权利要求6所述的方法,进一步包括向接收端发送已编码比特流,用于解码的步骤,其中已编码比特流包括指示第一缩放因子(114,144)的数据。
9.权利要求8所述的方法,其中已编码比特流包括数据(118),该数据(118)指示用于在语音释放延迟周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115)。
10.权利要求8所述的方法,其中用于缩放处理过的仿真信号的第二缩放因子(114&115,144&145)在接收端(34)中提供。
11.权利要求6所述的方法,其中第二缩放因子(114&115,144&145)指示从合成语音的低频部分中确定的频谱倾斜因子。
12.权利要求7所述的方法,其中用于在舒适噪声周期中缩放处理过的仿真信号的第二缩放因子(114&115,144&145)指示从合成语音的低频部分中确定的频谱倾斜因子。
13.权利要求4所述的方法,其中第一缩放因子(114,144)进一步从处理过的仿真信号(152)中估算出。
14.权利要求1所述的方法,进一步包括基于输入信号(100)提供用于监视激活语音周期和非激活语音周期的话音激活信息(190)的步骤。
15.权利要求1所述的方法,其中语音相关参数包括具有输入信号低频带特性的线性预测编码系数。
16.一个语音信号发射机和接收机系统,用于编码和解码具有激活语音周期和非激活语音周期的输入信号(100),并且用于提供一种具有高频部分和低频部分的合成语音信号(110),其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,其中具有输入信号低频部分特性的语音相关参数(118,104,140,145)被用来在接收机(30)中处理仿真信号(150)来提供合成语音信号高频部分(160)的,所述系统包括发射机中的第一装置(12,14),响应输入信号(100),用于提供具有输入信号高频带特性的第一缩放因子(114,144);接收机中的解码器(34),用于从发射机接收已编码的比特流,其中已编码的比特流包括语音相关参数,该相关参数包括指示第一缩放因子(114,144)的数据;以及接收机中的第二装置(40,56),响应语音相关参数(118,145),用于提供第二缩放因子(144&145),以及在非激活周期中使用第二缩放因子(144&145)缩放处理过的仿真信号(152),并且在激活周期中使用第一缩放因子(114&144)缩放处理过的仿真信号(152),其中第一缩放因子具有输入信号高频带的特性,同时第二缩放因子具有合成信号低频带的特性。
17.权利要求16所述的系统,其中第一装置包括一个滤波装置(12),用于高通滤波输入信号,并且提供滤波过的输入信号(112),该信号具有相应于合成语音的高频部分的频率范围,同时其中从滤波过的输入信号(112)中估算出第一缩放因子(114,144)。
18.权利要求17所述的系统,其中频率范围是在6.4-8.0kHz范围内。
19.权利要求17所述的系统,进一步包括在发射机中的第三装置(16,24),用于在相应于合成信号的频率范围内提供高通滤波的随机噪声(134),同时用于基于高通滤波随机噪声改变第一缩放因子(114,144)。
20.权利要求16所述的系统,进一步包括装置(98),响应输入信号(100),用于监视激活和非激活语音周期。
21.权利要求16所述的系统,进一步包括装置(18),响应第一缩放因子(114,144),用于提供已编码的第一缩放因子(118),并且将指示已编码的第一缩放因子的数据包括到用于发送的已编码比特流中。
22.权利要求19所述的系统,进一步包括装置(18),响应第一缩放因子(114,144),用于提供已编码的第一缩放因子(118),并且将指示已编码的第一缩放因子的数据包括到用于发送的已编码比特流中。
23.一个编码器(10),用于编码具有激活语音周期和非激活语音周期的输入信号(100),并且该输入信号被分为高频带和低频带,同时用于提供已编码比特流,该已编码比特流包括具有输入信号低频带特性的语音相关参数,以便允许解码器(34)使用语音相关参数处理仿真信号(150),用以提供合成语音的高频部分(160),并且其中在非激活语音周期中,使用基于合成语音低频部分的缩放因子(114&115,144&145)缩放处理过的仿真信号(152),所述编码器包括装置(12),响应输入信号(100),用于对输入信号(100)进行高通滤波,用以在相应于合成语音(110)的高频部分的频率范围中提供高通滤波过的信号(112),并且基于高通滤波过的信号(112)进一步提供另一个缩放因子(114,144);以及装置(18),响应另一个缩放因子(114,144),用于在已编码比特流中提供指示另一个缩放因子的已编码信号(118),以便允许解码器(34)在激活语音周期接收已编码信号,并使用另一个缩放因子(114,144)缩放处理过的仿真信号(152)。
24.一个移动站(200),其被设置来发送已编码比特流至解码器(34,220),用以提供具有高频部分和低频部分的合成语音(110),其中已编码比特流包括指示语音数据输入信号(100)的语音数据,该输入信号具有激活语音周期和非激活语音周期并且被划分成高频带和低频带,其中语音数据包括具有输入信号低频带特性的语音相关参数(104),以便允许解码器(34)基于语音相关参数提供合成语音的低频部分,并且基于语音相关参数(104)着色仿真信号,同时基于合成语音的低频部分使用缩放因子(144&145)缩放着色的仿真信号,用于在非激活语音周期中提供合成语音的高频部分(160),所述移动站包括滤波器(12),响应输入信号(100),用于高通滤波相应于合成语音高频部分的频率范围的输入信号,并且用于基于高通滤波过的输入信号(112)提供另一个缩放因子(114,144);以及量化模块(18),响应另一个缩放因子(114,144),用于在已编码比特流中提供指示另一个缩放因子(114,144)的已编码信号(118),以便允许解码器(34)在激活语音周期中基于另一个缩放因子(114,144)缩放着色的仿真信号。
25.一种电信网络(300)中的元件(34,320),其被设置来接收包括指示来自移动站(330)的输入信号的语音数据的已编码的比特流,用以提供具有高频部分和低频部分的合成语音,其中输入信号具有激活语音周期和非激活语音周期,并且输入信号被分为高频带和低频带,其中语音数据(104,118,145,190)包括具有输入信号低频带特性的语音相关参数(104)和具有输入信号高频带特性的增益参数(118),并且基于语音相关参数(104)提供合成语音的低频部分,所述元件包括第一机构(38),响应增益参数(118),用于提供第一缩放因子(144);第二机构(52,54),响应语音相关参数(104),用于合成和高通滤波仿真信号(150),用以提供一个合成和高通滤波过的仿真信号(150);第三机构(40),响应第一缩放因子(144)和语音数据(145,190),用于提供组合的缩放因子(146),该组合的缩放因子包括具有输入信号高频带特性的第一缩放因子(144),基于第一缩放因子(144)和具有合成语音低频部分特性的另一个语音相关参数(145)的第二缩放因子(144&145);以及第四机构,响应于合成和高通滤波过的仿真信号(154)以及合成缩放因子(146),用于在激活语音周期和非激活语音周期中,分别使用第一(144)和第二缩放因子(144&145)缩放合成和高通滤波过的仿真信号(154)。
全文摘要
用于编码和解码输入信号(100)和提供合成的语音(110)的语音编码方法和设备,其中通过对仿真信号(150)高通滤波和着色获得合成语音(110)的高频部分(160)来提供处理过的仿真信号(154)。处理过的仿真信号(154)在输入信号(100)的激活语音周期通过第一缩放因子(114,144)进行缩放(530,540),在非激活语音周期通过第二缩放因子(114和115,144和145)进行缩放,其中第一缩放因子(114,144)具有输入信号(100)的高频带特性,并且第二缩放因子(114和115,144和145)具有输入信号(100)的低频带特性。特别地,第二缩放因子(114和115,144和145)基于合成语音(110)的低频部分进行估算,并且仿真信号(150)的着色是基于具有输入信号(100)低频特性的线性预测编码系数(104)的。
文档编号G10L19/04GK1470052SQ01817599
公开日2004年1月21日 申请日期2001年10月17日 优先权日2000年10月18日
发明者P·奥亚拉, J·罗托拉-普基拉, J·韦尼奥, H·米科拉, P 奥亚拉, 岚, 欣 普基拉, 评 申请人:诺基亚有限公司