用再生相位信息合成语言的方法和装置的制作方法

文档序号：2819892阅读：557来源：国知局

专利名称：用再生相位信息合成语言的方法和装置的制作方法
技术领域：
本发明涉及表示语言的方法和装置，以方便有效地进行低至中速的编码和解码。
相关的公开文件包括J.L.Flanagan在1972年的Springer-Verlag第378-386页发表的题为“语言分析，合成和感觉”的文章(论述以相位声码器频率为基础的语言分析合成系统)，1984年Pre-ntice-Hall出版的Jayant等人的“波形的数字编码”的文章(论述一般的语言编码)；美国专利No.4,885,790(论述正弦处理方法)；美国专利No.5,054,072(论述正弦编码方法)；Almeida等人在1983年6月的IEEE TASSP，ASSP-31卷，第3号第664-667页发表的题为“发话(voiced)语言的非稳态模拟”的文章(论述谐波模拟和编码器)；Almeida等人在IEEE学报ICASSP84，第27.5.1-27.5.4页发表的题为“可变频率合成一种改进的谐波编码方案”的文章(论述多项式发话合成方法)；Quatieri等人在1986年12月的IEEETASSP，ASSP-34卷第六号第1449-1986页发表的题为“以正弦表达式为基础的语言变换”的文章(论述以正弦表达式为基础的分析合成技术)；McAulay等人在1985年3月26-29日的学报ICASSP85第945-948页Tampa FL.，发表的题为“以语言的正弦表达式为基础的中速编码”的文章(论述正弦变换语言编码器)；Griffin1987在M.I.T，博士论文发表的题为“多波段激励声码器”的文章(论述多波段激励(MBE)语言模拟和一种8000bpsMBE语言编码器)；Hardwi-ck1988年5月在M.I.T，硕士论文发表的题为“一种4.8kbps的多波段激励语言编码器”的文章(论述一种4800bps的多波段激励语言编码器)；1993年7月15日的电信产业学会(TIA)发表的题为“APCO计划25声码器说明”1.3版IS102BABA(论述用于APCO计划25标准的7.2kbpsIMBETM语言编码器)；美国专利No.5,081,681(论述MBE随机相位合成)；美国专利No.5,247,579(论述MBE信道误差减少方法和共振峰增强方法)；美国专利No.5,226,084(论述MBE量化和误差减少方法)。这些公开文件的内容归入这里作为参考。(IMBE是数字语音系统公司的商标)。
编码和解码语言这一课题具有大量的应用，因此被广泛研究。在许多情况下，需要降低表示一语言信号所需的数据率，而基本上不降低语言质量或可理解性。这一通常被称为“语言压缩”的课题是由一个语言编码器和声码器执行的。
一个语言编码器通常被视为两部分处理。通常被称为编码器的第一部分以一个语言数字表达式开始，并输出被压缩的比特流，该语言数字表达式例如是通过使麦克风的输出通过一个模数转换器所产生的。通常被称为解码器的第二部分将被压缩的比特流转换成适合经数模转换器和扬声器重放的语言数字表达式。在许多应用中，编码器和解码器在物理上是分开的，比特流经某个通信信道在它们之间传输。
语言编码器的一个关键参数是其所能达到的压缩量，该压缩量是通过其比特率测量的。实际所达到的被压缩比特率一般是所要求的保真度(即语言质量)和语言类型的函数。不同类型的语言编码器被设计成在高速(大于8kbps)、中速(3-8kbps)和低速(小于3kbps)下工作。近来，中速语言编码器在宽范围的移动通信应用(蜂窝、卫星电话、陆上移动无线设备、机械电话等……)中已经引起强烈兴趣。这些应用通常要求高质量语言和对由音响噪声和信道噪声(比特误差)导致的产物的健全性。
已经高度表现出可用于移动通信的一类语言编码器以语言的基础模拟为基础。该类语言编码器的实例包括线性预测声码器、同态声码器、正弦变换编码器、多波段激励语言编码器和信道声码器。在这些声码器中，语言被分成短段(通常为10-40ms)，并且每段以一组模拟参数为特征。这些参数通常表示几个基本元素，包括每个语言段的音调(pitch)、发音(voicing)状态和频谱包络线。以模拟为基础的语言编码器可以使用这些参数中每个的多个已知表达式之一。例如，音调可以被表示为如同CELP编码器中的音调周期、基频、或长期预测延迟。同样，发音状态可以通过一个或多个发话/非发话判定、一个发音可能性测量值、或由周期能量与随机能量比率来表示。该频谱包络线经常由一个全极点滤波器响应(LPC)表示，但可以等同于特征在于一组谐波幅度或其它频谱测量值。由于通常仅需要较少数量的参数表示一个语言段，基于模拟的语言编码器通常能够在中到低数据速率下工作。然而，基于模拟的系统的质量取决于基础模型的准确度。因此，如果这些语言编码器达到高语言质量必须使用高保真模拟。
一种已经显示出能提供较好语言质量并在中到低比特率工作良好的语言模型是由Griffin和Lim开发的多波段激励(MBE)语言模型。该模型使用可塑造的发音结构，该结构允许其产生更多的自然发声语言，并使其对听觉背景噪声的出现更健全。这些特性使MBE语言模拟被用于许多商业移动通信应用中。
MBE语言模型使用基频、一组二进制发话或非发话(V/UV)判定和一组谐波幅度表示语言段。MBE模型优于许多传统模型的主要优点在于发音表达式。该MBE模型将传统的每段单一V/UV判定归纳成一组判定，每个判定表示一特定频带内的发音状态。在发音模式中加入的这一可塑性允许该MBE模型更好地调节混合的发音声，例如某些发话摩擦。另外，该加入的可塑性可更准确地表示由听觉背景噪声恶化的语言。大量试验表明这一归纳带来了改善的声音质量和可理解性。
基于MBE的语言编码器(coder)的编码器(encoder)为每个语言段估算该组模拟参数。该MBE模拟参数包括一个为音调周期倒数的基频；一组表示发音状态特征的V/UV判定；和一组表示频谱包络线特征的频谱幅度。一旦为每个段估算了该MBE模拟参数，将它们在编码器量化以产生一个比特帧。然后这些比特由误差校正/检测码(ECC)任选保护，然后将所得到的比特流传输到一对应的解码器。该解码器将所接收的比特流转换成单独的帧，并进行任意误差控制解码以校正和/或检测比特误差。所得到的比特被用来重键MBE模拟参数，解码器从该MBE模拟参数合成感觉上接近原始语言的语言信号。实际中，该解码器合成分离的发话和非发话成分，并将这两个成分相加产生最终的输出。
在基于MBE的系统中，频谱幅度被用来以被估算的基频的每个谐波表示频谱包络线。通常，标明每个谐波为发话或非发话的取决于包含对应谐波的频带是否已经被表明为发话或非发话。该编码器估算每个谐波频率的频谱幅度，在现有技术的MBE系统中，依据其是否已经被标明为发话或非发话的而使用不同的幅度估算器。在解码器，再次识别发话和非发话的谐波并使用不同的步骤合成分离的发话和非发话分量。使用加权重叠相加法合成非发音的分量以滤除白噪声信号。在被表明为发话的所有频率区域该滤波器被设定为零，而与其它被标明为非发话的频谱幅度匹配。用一个调谐振荡器组来合成发话分量，每个标明为发话的谐波被指定一个振荡器。内插瞬时幅度、频率和相位以匹配相邻段的对应参数。虽然基于MBE的语言编码器已经表现出良好性能，但也表现出许多导致语言质量有些降低的问题。收听试验已经证实，在频域内必须仔细控制被合成信号的幅值和相位，以便获取高语言质量和可理解性。频谱幅度中的衍生物能具有广泛的影响，但中到低比特率的一个共同问题是消音质量的介入和/或可感觉的语言鼻音的增加。这些问题通常在重建的幅度中导致明显的量化误差(由极少的比特造成)。已经采用放大与语言共振峰对应的频谱幅度，并衰减剩余频谱幅度的语言共振峰增强方法，以尝试改善这些问题。这些方法在一定程度改善了可感觉的质量，但最终它们引入的失真太大并且质量开始恶化。
相位产物的引入经常使性能进一步降低，这是由解码器必须再生发话语言分量的相位的事实造成的。在低到中数据速率，没有足够的比特在编码器和解码器之间传输任何相位信息。因此，编码器忽略实际信号的相位，而解码器必须以产生自然发声语言的方式人为地再生该发话相位。
大量实验表明再生相位对可感觉的质量有明显的效果。早期的再生相位方法涉及从某组初始相位开始谐波频率的简单积分。该确保发话分量的步骤在段的边界连续；然而，发觉选择一组产生高质量语言的初始相位是有问题的。如果初始相位被设定为零，则认为所得到的语言为“蜂鸣”，如果初始相位是随机的，则认为语言是“混响”。该结果导致了美国专利N0.5,081,681中描述的取决于V/UV判定的更好方法，在相位中加入随机控制量，以便在“蜂鸣”和“混响”之间调节平衡。收听试验表明当发话分量主导语言时，最好是随机性小，而当非发话分量起主导时，最好是有更大的相位随机性。因此，在该方式中计算简单的发音比率以便控制相位随机性的量。虽然表明从属于随机相位的发音满足许多应用的要求，收听试验仍然对发话分量相位找出了许多质量问题。实验证明，通过取消随机相位的使用，而代之以在每个谐波频率单独控制相位的更接近匹配实际语言的方式能够明显改善话音质量。该发现导致了本发明，本文以优选实施例的内容进行了描述。
本发明的目的是提供一种利用再生相位信息合成语言的方法和装置。
在第一方面中，本发明以语言合成中改进再生发话分量相位的方法为特征。从发话分量的频谱包络线(例如，从发话分量附近频谱包络线的形状)估算相位。解码器重建多帧中每一帧的频谱包络线和发话信息，用发音信息确定一个特定帧的频带是否是发话或非发话的。使用再生频谱相位信息为发话频带合成语言分量。使用其它技术，例如从一个滤波器响应一个随机噪声信号产生非发话频带的分量，其中滤波器在非发话频带近似频谱包络线，在发话频带近似零幅值。
用来合成语言信号的数字比特最好包括表示基频信息的比特，并且频谱包络线信息在基频的谐波倍数处包括频谱幅值。发音信息用于将每个频带(和频带内的每个谐波)标明为发话或非发话的，对于发话频带内的谐波，再生一个独立相位作为局限在该谐波频率附近的频谱包络线(由频谱幅值表示的频谱形状)的函数。
最好，频谱幅度表示与一个频带是否为发话或非发话的无关的频谱包络线。通过将边缘检测核施加到该频谱包络线的一个表达式来确定再生的频谱相位信息，并且被施加边缘检测核的频谱包络线表达式已经被压缩。至少部分音频语言分量是使用一组正弦振荡器确定的，该振荡器特性由基频和再生的频谱相位信息确定。
本发明产生合成语言，与现有技术相比该合成语言更准确地近似用峰值-有效值的值表示的实际语言，从而产生改善的动态范围。另外感觉出所合成的语言更自然并且表现出更少的与相位有关的失真。
本发明的其它特征和优点从下面对优选实施例的描述和权利要求书，将会更为显而易见。

图1是以基于新MBE的语言编码器体现本发明的示意图。首先将一个数字语言信号s(n)分成滑动窗口函数ω(n-iS)，其中帧移位S通常等于20ms。然后对所得到的以Sω(n)表示的语言段进行处理以估算基频ω0，一组发话/非发话判定Vk，和一组频谱幅值Ml。在用快速傅里叶变换(FFT)将语言段变换到频谱范围内以后，计算与发音信息无关的频谱幅度。然后将MBE模拟参数的帧量化并编码成数字比特流。加入任意FEC冗余码以保护比特流，防止传输过程中比特差错。
图2是以基于新MBE的语言解码器体现本发明的示意图。首先对由图1所示对应编码器生成的数字比特流解码并用来重建MBE模拟参数的每一帧。依据频带中容纳的发音状态，用重建的发音信息Vk重建K发音频带并标明每个谐波频率为发话或非发话的。从频谱幅度Ml再生频谱相位φl，然后用其合成发话分量Sv(n)，表示所有被标明为发话的谐波频率。然后将发话分量加到非发话分量(表示非发话频带)，以产生合成语言信号。
下面以基于MBE的语言编码器的内容描述本发明的优选实施例。该系统应用于宽范围环境，包括移动通信应用，例如移动卫星，蜂窝电话，陆上移动无线设备(SMR，PMR)等……。该新语言编码器借助用于计算模拟参数和从这些参数合成语言的新分析/合成步骤组合标准MBE语言模型。这种新方法改善了语言质量，降低了编码和传输语言信号所需的比特率。虽然本发明是以特定的基于MBE的语言编码器内容描述的，本领域的技术人员能够容易地将这里所公开的技术和方法应用到其它系统和技术而不脱离本发明的精神和范围。
在基于新MBE的语言编码器中，通过用一个短(20-40ms)窗口函数，例如一个汉明(Hamming)窗来倍增该数字语言信号首先将在8KHz抽样的数字语言信号分成重叠段。通常以该方式每20ms对帧进行计算，并计算每一帧的基频和发音判定。在基于新MBE的语言编码器中，根据两份题为“激励参数的估算”的未决美国专利申请序列号No.08/222,119和08/371,743中描述的新改进的方法计算这些参数。另外，可以如题为“APCO计划25的声码器”的TIA中间标准IS102BABA中所述对基频和发音判定进行计算。在任何一种情况下，使用少量发音判定(通常为12或更少)模拟每一帧内不同频带的发音状态。例如，在一个3.6kbps的语言编码器中，通常用八个V/UV判定表示在0和4KHz之间被隔开的八个不同频带上的发音状态。
用S(n)表示离散语言信号，根据下列方程计算第i帧Sω(ω、i·S)的语言频谱Sω(ω,i)=Σns(n)ω(n-i·S)e-jωn---(1)]]>其中ω(n)是窗口函数，S是该帧的尺寸，通常为20ms(在8KHz为160个抽样)。然后将估算的第i帧的基频和发音判定分别表示为ω0(i·S)和Vk(i·S)，1≤k≤K，其中K是V/UV判定(通常K＝8)的总数。为简化符号，当涉及到当前帧时可以将帧的标志i·S去掉，因此分别将当前频谱、基频、和发音判定表示为Sω(ω)、ω0和Vk。
在MBE系统中，通常将频谱包络线表示为一组从语言频谱Sω(ω)估算的频谱幅度。通常在每个谐波频率(即，在ω＝ω0l，l＝0、1……)处计算频谱幅度。与现有技术的MBE系统不同，本发明以估算这些与发音状态无关的频谱幅度的新方法为特征。由于不连续性被消除这样产生了一组更平滑的频谱幅度，在现有技术的MBE系统中，无论何时发生发音转移频谱幅度通常出现这种不连续性。本发明以提供一个局部频谱能量的精确表达式的另一优点为特征，因此保持可感觉音量。另外，本发明保持局部频谱能量以补偿通常由一个高效快速傅里叶变换(FFT)采用的频率抽样栅格的影响。这也有助于获得一组平滑频谱幅度。由于平滑度增加量化效率，并且允许更好的共振峰增强(即后置滤波)以及减少信道误差，因此它对所有性能是重要的。
为了计算一组平滑的频谱幅度，需要考虑发话和非发话语言两者的特性。对发话语言，频谱能量(即，|Sω(ω)|2集中在谐波频率周围，而对非发话语言，该频谱能量更均匀地分布。在现有技术的MBE系统中，非发话频谱幅度被作为每个对应谐波频率周围集中的一个频率间隔(通常等于估算的基频)上的平均频谱能量计算。反之，设定现有技术的MBE系统中的发话频谱幅度等于同一频率间隔中总频谱能量的某个比值(经常为1)。由于平均能量和总能量可以有很大区别，特别是当频率间隔宽(即，一个大基频)时，无论何时在发音状态之间进行相邻谐波转移(即，发话至非发话的，或非发话至发话)，不连续性经常引入频谱幅度。
在现有技术的MBE系统中发现的一个能够解决上述问题的频谱幅度表达式在对应间隔内将每个频谱幅度表示为平均频谱能量或总频谱能量。虽然这两种解决方法能消除发音转变时的不连续性，当与一个频谱变换，例如快速傅里叶变换(FFT)或等效的离散傅里叶变换(DFT)组合时，两者将引入其它波动。实际上，通常在由FFT长度N确定的均匀抽样栅格上用一FFT估算Sω(ω)，其中N通常是2的幂。例如，在0和2π之间N点FFT产生N个频率抽样，如下列方程所示Sω(m)=Σn=0N-1s(n)ω(n-i·S)e-j2πmnN---0≤m<N--(2)]]>在该优选实施例中，使用N＝256的FFT计算频谱，通常设定ω(n)等于表1中出现的255点对称窗口函数。
由于FFT的复杂程度低，因此希望使用一个FFT计算该频谱。然而。所得到的抽样间隔2π/N一般不是基频的反比倍数。因此，谐波之间任意两个相邻谐波频率之间的FFT抽样数量不是常数。其结果是，如果用平均能量表示谐波幅度，则由于用来计算每个平均能量的FFT抽样数量的变化造成具有集中频谱分布的发话谐波将在谐波之间受到波动。同样，如果用总频谱能量表示谐波幅度，则由于用来计算总能量的FFT抽样数量的变化造成具有更均匀频谱分布的非发话谐波将在频波之间受到波动。在任何一种情况下，特别是当基频较小时，来自FFT的可用的少量频率抽样向频谱幅度中引入急剧的波动。
本发明使用补偿所有频谱幅度的总能量的方法消除发音转移的不连续性。本发明的补偿方法也避免了与波动有关的FFT的发话或非发话幅度失真。特别是，本发明根据下面的方程计算该组由Ml表示的当前帧的频谱幅度，其中0≤l≤L。M1=[Σm=0N-1|Sω(m)|2G(2πmN-lω0)NΣn=0N-1ω2(n)]12--(3)]]>从该方程可以看出，每个频谱幅度被计算成频谱能量|Sω(m)|2的加权总和，其中该加权函数被偏移达每个特定频谱幅度的谐波频率。设计加权函数G(ω)以补偿谐波频率1ω0和发生在2πm/N的FFT频率抽样之间的偏移。该函数按每一帧改变如下以便反映被估算的基频该频谱幅度表达式的一个重要特性是其以发话和非发话谐波二者的局部频谱能量(即|Sω(m)|2)为基础。由于其传送相关频率成分和音量信息而不受语言信号相位的影响，一般认为频谱能量接近近似人感觉的语言方式。由于新幅度表达式与发音状态无关，该表达式中无由于发话和非发话区域之间转移或由于发话和非发话能量混合造成的波动和不连续。该加权函数G(ω)还消除FFT抽样栅格引起的任何波动。这是通过内插以平滑方式在被估算基频的谐波之间测量的能量达到的。方程(4)中公开的加权函数的其它优点是语言中的总能量被保存在频谱幅度中。这可以通过对该组频谱幅度中的总能量检验下列方程看得更清楚。Σl=0L|M1|2=1NΣn=0N-1ω2(n)Σm=0N-1|Sω(m)|2Σl=0LG(2πmN-lω0)--(5)]]>可以通过承认G(2πmN-lω0)]]>的总和在区间0≤m≤[Lω0N2π]]]>上等于一来简化该等式。由于频谱幅度中的能量等于语言频谱中的能量，这表明该语言中的总能量保存在这个区间上。应指出，等式(5)中的分母仅对根据等式(1)用来计算Sω(m)的窗口函数ω(n)进行补偿。另一个重点是表达式的带宽取决于乘积Lω0。实际上，所要求带宽通常是由π表示的奈奎斯特频率的某个比值。因此，频谱幅度的总数L相对于当前帧的估算基频成反比，并且通常计算如下L=[απω0]----(6)]]>其中0≤α＜1。已经设计了一个使用8KHz抽样率的3.6kbps系统，其中α＝.925，给出3700Hz的带宽。
在方程(3)中也能够使用加权函数，而不是上面所述的函数。实际上，如果方程(5)中整个G(ω)范围内的总和在某有效带宽范围内近似等于常数(通常为1)，则可保持总功率。方程(4)中给出的加权函数在FFT抽样区间(2π/N)上使用线性内插，以便消除由抽样栅格引起的任何波动。另一方面，二次或其它内插方法可以归入G(ω)而不脱离本发明的范围。
虽然本发明是根据MBE语言模型的二进制V/UV判定描述的，本发明也可应用于使用其它发音信息表达式的系统。例如，正弦编码器中普及的一种可选方案是依据截止频率表示发音信息，其中将该频谱看作是发话信息低于截止频率而非发话信息高于截止频率。其它范围，例如非二进制发音信息也可得益于本发明。
由于防止了FFT抽样栅格造成发音转移的不连续和波动，本发明改善了幅度表达式的平滑性。信息理论中熟知的结果是增加平滑度便于用少量比特对频谱幅度进行精确量化。在3.6kbps系统中。使用72比特对每个20ms帧的模拟参数进行量化。用七(7)比特量化基频，用8比特对8个不同频带(每个近似500Hz)中的V/UW判定编码。剩下的每帧57比特用于量化每帧的频谱幅度。一种微分块离散余弦变换(DCT)方法应用于对数频谱幅度。本发明的增大的平滑度将更多信号功率压缩成缓慢变化的DCT分量。调节比特分配和量化级大小以产生对每帧的可用比特数给出更低频谱失真的效果。在移动通信应用中，在通过移动信道传输之前经常要求比特流包括附加冗余码。该冗余码通常由误差校正和/或检测编码产生，该编码以传输期间被引入的比特误差能够被校正和/或检测的方式将附加冗余码加入该比特流。例如，在一个4.8kbps移动卫星应用中，将1.2kbps的冗余数据加入3.6kbps的语言数据。用一个[24，12]格雷码和三个[15，11]汉明码的组合产生加入每一帧的附加的24个冗余比特。也可以采用许多其它类型的误差校正码，例如卷积、BCH、Reed-So-lomon码等来改变误差强度以实际满足任何信道条件。
在接收机处，解码器接收传输的比特流并重建每帧的模拟参数(基频，V/UV判定和频谱幅度)。实际上，所接收的比特流可以包含由于信道中的噪声产生的比特误差。因此，该V/UV比特可能被错误解码，造成一个发话幅度被解码为非发话幅度，或反之亦然。由于幅度本身与发音状态无关，本发明降低了来自这些发音误差的可感觉失真。本发明的另一个优点出现在接收机共振峰增强期间。实验表明，如果在共振峰波峰的频谱幅度相对于在共振峰波谷的频谱幅度增加，则感觉出的质量被增强。该处理倾向于使量化期间引入的某些共振峰展宽反向。然后该语言发出更清脆和更小的回响。实际上，在该频谱幅度在大于局部平均频谱幅度处增加，而在小于局部平均频谱幅度处降低。不幸的是，频谱幅度中的不连续可以作为共振峰出现，导至假增加或降低。本发明改善平滑度帮助解决了这一问题，导致改善的共振峰增强而降低假的变化。
正如在以前的MBE系统中，基于新MBE的编码器不估算或传送任何频谱相位信息。因此，在发话语言合成期间，基于新MBE的解码器必须再生所有发话谐波的合成相位。本发明以与新幅度有关的相位产生方法为特征，该相位产生方法更接近近似实际语言和改善所有声音质量。使用发话分量中随机相位的现有技术被频谱包络线局部平滑度的测量所取代。这已由线性系统理论证明，其中频谱相位取决于极点和零点的位置。这可通过将相位与频谱幅度中平滑度等级联系起来来模拟。实际上，将下列形式的边缘检测计算应用于当前帧的解码的频谱幅度。φl=Σm=-DDh(m)Bl+m--1≤l≤L--(7)]]>其中参数Bl表示被压缩的频谱幅度，h(m)是一个适当换算的边缘检测内核。该等式的计算结果是一组确定发话谐波之间相位关系的再生相位值φl。应该指出，这些值是针对所有谐波定义的，与发音状态无关。然而，在基于MBE的系统中，只有发话合成步骤使用这些相位值，而非发话合成步骤则将它们忽略。实际上，由于再生相位值可以在如下文更详细说明(见方程式(20))的下一帧的合成期间使用，该再生相位值是相对所有谐波计算的，然后将其存储。
压缩的幅度参数Bl一般是通过使频谱幅度Ml通过一个压缩函数降低其动态范围计算的。另外还进行外插，以便在幅度表达式边界(即l≤0和l＞L)之外产生附加频谱值。一个特别适用的压缩函数是对数，这是由于其将频谱幅度Ml的任何一般比例变换(即其响度或音量)转换成加性偏移Bl。假设等式(7)中h(m)为零平均值，该偏置则被忽略，并且再生相位值φl与比例变换无关。实际上，由于log2在数字计算机中便于计算，现在已经被使用。这样推导出下面的Bl表达式对于l＞L，Bl的外插值被设计威在所表示带宽上的谐波频率加强平滑度。在3.6kbps系统中已经使用γ＝.72的值，由于高频分量对所有语言的影响一般比低频分量的要少，因此不认为该值为临界值。收听试验表明对于l≤0，Bl的值对感觉出的质量有明显影响。由于在许多应用领域，例如电话中无DC响应，因此在l＝0时将该值设定为一个较小的值。另外，收听实验表明B0＝0对正极值或负极值最好。使用对称响应B-l＝Bl是基于系统理论以及收听实验。
对整个质量来说，选择一个适当的边缘检测内核h(m)是重要的。形状和比例变换两者都影响发话合威中使用的相位变量φl然而可以成功地采用一个宽范围的可能核。已经发现了几个一般能推导出良好设计的核的约束条件。特别是，对于m＞0，如果h(m)≥0并且如果h(m)＝-h(-m)，则该函数通常能更好地适用于测定不连续点。另外规定h(0)＝0有助于获得与比例变换无关的零平均内核。所要求的另一个特性是h(m)的绝对值应该随|m|的增加而下降，以便集中于该频谱幅度中的局部变化。这可以通过使h(m)与m成反比来达到。一个(许多中)能满足所有这些约束条件的方程在方程(9)中给出。本发明的优选实施倒使用λ＝.44的等式(9)。发现该值以适度的复杂性产生较好的发声语言，发现合成的语言具有接近原始语言的峰值-有效值能量比。变换λ值进行试验表明从优选值的微小改变产生接近等效的性能。可以调整核的长度D以权衡复杂性与平滑量。一般听众喜欢D值较长的情况，然而已经发现D＝19值基本与更长的长度等效，因此在新的3.6kbps系统中使用D＝19。
应该指出的一点是方程式(7)的形式是使每一帧的所有再生相位变量可以通过一个正向和反向FFT运算来计算。决于该处理器，与直接计算相比，FFT工具对较大的D和L可带来更大的计算效率。
通过本发明的与发音状态无关的新频谱幅度表达式可以很便利地计算再生相位变量。正如上面所讨论的，通过等式(7)施加的核强调频谱包络线中的边缘或其它波动。这样做是为接近线性系统的相位关系，在该线性系统中频谱相位通过极点和零点位置与频谱幅度中的变化相联系。为利用该特性，相位再生过程必须假设频谱幅度准确地表示该语言的频谱包络线。与现有技术相比，由于本发明的新频谱幅度表达式产生一组更平滑的频谱幅度，因此利用本发明的新频谱幅度表达式便于实现该过程。通过消除发音转移和FFT抽样栅格产生的不连续和波动，可以更准确地评价频谱包络线中的真实变化。因此增加相位再生，并且改善所有语言质量。
一旦根据上面的步骤计算了再生相位变量φl，发话合成程序合成该发话语言Sv(n)作为等式(10)中所示单个正弦分量的总和。该发话合成方法根据简单的有序谐波分配使当前帧的第1个频谱幅度与前一帧的第l个频谱幅度配对。在该处理中，当前帧的谐波数量、基频、V/UV判定和频谱幅度分别表示为L(0)、ω0(0)、Vk(0)和Ml(0)，而前一帧的相同参数分别表示为L(-S)、ω0(-S)、Vk(-S)和Ml(-S)。S值等于新3.6kbps系统中为20mg(160个抽样)的帧长。s&upsi;(n)=Σl=1max[L(-S),L(0)]2·s&upsi;,l(n)--S<n≤0--(10)]]>发话分量Sv，l(n)表示对来自第l个谐波对的发话语言所起的作用。实际上，发话分量被设计成缓慢变化的正弦波，此处每个分量的幅度和相位被调整以在当前合成区间(即在n＝-S和n＝0之间)的端点近似来自前一帧和当前帧的模拟参数，同时在区间-S＜n＜0期间平滑地内插在这些参数之间。
为了接受连续帧之间参数的数量可以不同这一事实，该合成方法假设超出允许带宽范围的所有谐波等于零，如下面的等式所示Ml(0)＝0l＞L(0) (11)Ml(-S)＝0 l＞L(-S) (12)另外假设正常带宽外部的这些频谱幅度被标明为非发话的。这些假设在当前帧中频谱幅度数与前一帧中频谱幅度数不等(即L(0)≠L(-S))的情况下是必需的。
针对每个谐波对进行幅度和相位函数的不同计算。特别是由基频中的发音状态和相对变化确定对于当前合成区间的每个谐波使用四种可能的函数中哪个函数。可能出现的第一种情况是，如果前一个和当前语言帧两者的第l个谐波均被标明为非发话的，这种情况下，设定发话分量在整个区间上等于零，如下面的等式所示。
Sv，l(n)＝0 -S＜n＜0 (13)这种情况下，第l个谐波周围的语言能量完全为非发话的，由非发话合成步骤负责合成整个成分。
另一方面，如果第l个谐波针对当前帧被标明为非发话的而针对前一帧被标明为发话的，则由下面的等式给出Sv，l(n)，Sv，l(n)＝ωs(n＋S)Ml(-S)cos[ω0(-S)(n＋S)l＋θl(-S)] -S＜n≤0(14)这种情况下，在合成区间期间，该频谱区域中的能量从发话合成方法转换成非发话合成方法。
同样，如果第1个谐波针对当前帧被标明为发话的而针对前一帧被标明为非发话的，则由下面的等式给出Sv，l(n)，Sv，l(n)＝ωs(n)Ml(0)cos[ω0(0)nl＋θl(0)] -S＜n≤0(15)这种情况下，该频谱区域中的能量从非发话合成方法转换成发话合成方法。
另外，如果当前帧和前一帧两者的第l个谐波均标明为发话的，并且如果l＞＝8或|ω0(0)-ω0(-S)|≥.1ω0(0)，则由下面的等式给出Sv，l(n)，此处变量n被限制在-S＜n≤0的范围。Sv，l(n)＝ωs(n＋S)Ml(-S)cos[ω0(-S)(n＋S)l＋θl(-S)]＋ωs(n)Ml(0)cos[ω0(0)nl＋θl(0)] (16)该谐波在两帧中被标明为发话的事实对应于局部频谱能量保持为发话的并在发话分量内被完全合成的情况。由于该情况对应于谐波频率中相对大的变化，用叠加法组合来自前一帧和当前帧的成分。通过估算方程(20)中在n＝-S和n＝0时描述的连续相位函数θl(n)确定方程(14)、(15)和(16)中使用的相位变量θl(-S)和θl(0)。
如果当前帧和前一帧两者的第l个频谱幅度均被标明为发话的，并且如果l＜8和＝|ω0(0)－ω0(-S)|＜.1ω0(0)，则使用最后的合成规则。如现有情况，这种现象仅当局频谱能量全部是发音时发生。然而，这种情况下，前一帧和当前帧之间的频差小到足以允许整个合成区间上正弦相位的连续转移。这种情况下，根据下面的方程计算发话分量，Sv，l(n)＝al(n)cos[θl(n)]-S＜n≤0(17)其中幅度函数al(n)是根据方程(18)计算的，并且相位函数θl(n)是方程(19)和(20)中所描述类型的低次多项式。
al(n)＝ωs(n＋S)Ml(-S)＋ωs(n)Ml(0) (18)θl(n)=θl(-S)+[ω0(-S)·l+Δωl](n+S)+[ω0(0)-ω0(-s)]·l(n+S)22S--(19)]]>Δωl=1S[φl(0)-φl(-S)-2π[φl(0)-φl(-S)+π2π]]--(20)]]>上述相位更新过程使用本发明前一帧和当前帧两者的再生相位值(即即φl(0)和φl(-S))，以便控制第l个谐波的相位函数。这是通过方程(19)所表示的二次相位多项式进行的，方程(19)通过一个线性相位项确保在合成边界端部的相位连续性，并满足所要求的再生相位。另外，在区间端点该相位多项式的变化速率近似等于适当的谐波频率。
方程(14)、(15)、(16)和(18)中使用的合成窗口ωs(n)通常设计成内插在当前帧和前一帧中的模拟参数之间。如果在整个当前合成区间上满足下面的叠加方程，则便于达到上面的要求。
ωs(n)＋ωs(n＋S)＝1-S＜n≤0 (21)已经发现可用于新3.6kbps系统并满足上述限定条件的一个合成窗口被定义如下对于一个大小为20ms的帧(S＝160)，通常使用β＝50的值。等式(22)中给出的合成窗口基本上等效于使用线性内插。
通过方程(10)合成的发话语言分量和所描述的步骤仍需被加到非发话分量以便完成该合成过程。非发话语言分量Suv(n)通常是借助发话频带内零值的滤波响应和借助由表明为非发话的频带内的频谱幅度确定的滤波响应通过滤除白噪声信号合成的。实际上，这是通过使用一个正向和反向FFT进行滤波的加权叠加步骤执行的。由于该步骤是己知的，如需要详细内容应查阅有关参考资料。
可以使用这里所讲授的专用技术的各种变更和扩展而不脱离本发明精神和范围。例如可以通过用具有正确边界条件的三次项取代等式(19)中的△ωl项使用三次相位多项式。另外也可使用现有技术描述的替换窗口函数和内插方法以及其它变化。本发明其它实施例被包括在下面的权利要求中。
权利要求
1.一种用于从通过将一个语言信号划分成多个帧而产生类型的多个数字比特解码和合成一个合成数字语言信号的方法，确定表示每一帧的多个频带中的每一个频带是否应被合成为发话或非发话频带的发音信息；处理该语言帧以确定表示该频带中频谱幅度的频谱包络线信息，以及对该频谱包络线和发音信息进行量化和编码，其特征在于该用于解码和合成一个合成数字语言信号的方法包括步骤对该多个比特解码以提供多个帧中每一帧的频谱包络线和发音信息；处理该频谱包络线信息以确定该多个帧中每一帧的再生频谱相位信息；从发音信息确定一个特定帧的频带是否为发话或非发话的；使用再生频谱相位信息合成发话频带的语言分量；在至少一个非发话频带中合成表示语言信号的一个语言分量；以及通过组合发话和非发话频带的被合成语言分量合成该语言信号。
2.用于从通过将一个语言信号划分成多个帧而产生类型的多个数字比特解码和合成一个合成数字语言信号的装置，确定表示每一帧的多个频带中的每一个频带是否应被合成为发话或非发话频带的发音信息；处理该语言帧以确定表示该频带中频谱幅度的频谱包络线信息，以及对该频谱包络线和发音信息进行量化和编码，其特征在于用于解码和合成一个合成数字语言信号的装置包括用于对该多个比特解码以提供多个帧中每一帧的频谱包络线和发音信息的装置；用于处理该频谱包络线信息以确定该多个帧中每一帧的再生频谱相位信息的装置；用于从发音信息确定一个特定帧的频带是否为发话或非发话的装置；用于使用再生频谱相位信息合成发话频带的语言分量的装置；用于在至少一个非发话频带中合成表示该语言信号的一个语言分量的装置；以及用于通过组合发话和非发话频带的被合成语言分量合成该语言信号的装置。
3.根据权利要求1或2所述的主题，其特征在于用于合成语言信号的数字比特包括表示频谱包络线和发音信息的比特和表示基频信息的比特。
4.根据权利要求3所述的主题，其特征在于频谱包络线信息包括表示该语言信号基频的谐波倍数处频谱幅度的信息。
5.根据权利要求4所述的主题，其特征在于频谱幅度表示该频谱包络线与一个频带是否为发话或非发话的无关。
6.根据权利要求4所述的主题，其特征在于从与再生频谱相位信息有关的谐波倍数附近的频谱包络线的形状确定再生频谱相位信息。
7.根据权利要求4所述的主题，其特征在于通过向一个频谱包络线表达式施加一个边缘检测内核确定该再生频谱相位信息。
8.根据权利要求7所述的主题，其特征在于被施加该边缘检测内核的频谱包络线表达式已经被压缩。
9.根据权利要求4所述的主题，其特征在于从一个滤波器对一个随机噪声信号的响应确定该合成语言信号的非发话语言分量，其中该滤波器在非发话频带接近该频谱幅度，在发话频带接近零幅值。
10.根据权利要求4所述的主题，其特征在于至少部分使用一组正弦振荡器确定发话语言分量，该振荡器特征由基频和再生频谱相位信息确定。
全文摘要
用再生相位信息合成语言的方法和装置。改进了语言编码系统中使用的频谱幅度和相位表达式。编码器将数字语言信号分成多个帧，估算每帧的基频、发音信息和频谱幅度组。用新估算方法计算每谐波频率的频谱幅度。语言质量和可理解性被改善。解码器接收比特流并重建一系列帧的基频、发音信息和频谱幅度组。用发音信息标明每谐波为发话或非发话，对发话谐波再生一独立相位作为频谱幅度的函数。合成该发话和非发话分量并将其相加产生合成语言。
文档编号G10L19/00GK1140871SQ9610433
公开日1997年1月22日申请日期1996年2月22日优先权日1995年2月22日
发明者丹尼尔·W·格里芬, 约翰·C·哈德威克申请人:数字语音系统公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丹尼尔.Ｗ.格里芬;约翰.Ｃ.哈德威克
技术所有人：数字语音系统公司
我是此专利的发明人