信号能量参数优化的数字语声编码器的制作方法

文档序号：2835526阅读：413来源：国知局

专利名称：信号能量参数优化的数字语声编码器的制作方法
该发明主要涉及语声编码器。尤其是采用增益可调的语声表达元的数字语声编码器。
语声编码器是众所周知的技术。某些语声编码器将模拟语声样值转化为数字式表示，进而通过采用线性预测编码表示了语声的频谱信息。其它的一些语声编码器则通过提供与原始语声信号相关的激励信号改进普通的线性预测编码技术。
美国专利№.4，817，157描述了一种具有改进向量激励源的数字语声编码器，其中有一个码表激励向量的码表，对其估计可选择出最体现所获信息的码表激励信号，利用它可提供与原始信号最接近的复原语声信号。在这样一个系统中，产生音高十激励信息和码表激励信息並且两者结合构成合成信号从而用于产生复原语声信息。
在这些信号结合以前，每一路信号都设有一增益因子用于控制各信号的能量成分，从而使得各信号的能量成分与原始语声信号中各相应部分的能量相匹配。该语声编码器在确定了适当的音高激励和码表激励信息的同时也就确定了合适的增益因子，包含有所有这些元素的编码信息提供给译码器从而可复原出原始的语声信息。一般情况下，先前技术的语声编码器是以分散的形式向译码器提供这些增益因子信息。这一过程的完成是通过将上述信息包传输而实现，或者采用其它形式(比如矢量量化)将它们合成起来，不过这只是为了传输的方便，他们依然是各自相互独立的成分。
先前的语声编码技术还遗留了相当多有待改进的地方。前边提及的增益因子的传输方式可能要求传输媒介具备相当大的容量以用于差错保护(否则，传输错误将会损失增益信息，这样也就致使恢复的语声信息严重失真，难以接受)。
因此，有必要寻求一种语声编码方案，既降低了对传输媒介的要求，同时又加强了对增益因子信息的差错保护。
这里提出的语声编码方案基本上解决了上述的问题。该编码方案将导致增益信息的产生，这包括与语声样值第一个代表成分相关的第一增益值和与该语声样值第二个代表成分相关的第二增益值。根据这一方案，这些增益值要经过处理然后提供与该样值全部能量相关的第一参数以及一个第二参数，这第二参数是基于第一增益值和第二增益值，或至少其中之一的值与该样值全部能量值的相对大小。关于这第一、二参数的信息然后传输至译码器。
在该发明的一个实施例中，增益信息可以至少包括一个与该样值第三成分增益相关的第三增益值，这些增益值的处理将会产生一第三参数，该参数至少部分地决定了第一、第二、和第三增益值中不同的一个对整体能量值的贡献的大小。
在该发明的另一实施方案中第一、第二参数(若第三参数存在的话也包括在内)经过矢量量化以提供一个码。该码包含了将要传送至译码器的信息。
该发明的另一方面是编码器产生的增益信息包括与语声信号长时能量值相关的第一值(例如，多个样值所具有的能量值，或者是个预先确定的语声信息帧所具有的能量值)，和与信号短时能量值(例如，一个信号样值或者构成预先确定帧的一部分的子帧)相关的第二值，这第二值包含一个校正因子，它可以用于第一个值，以通过对指定样值或子帧实现对第一值的调节。第一值从编码器到译码器的传输采用的是第一速率，第二值的传输采用第二速率，其中第二速率要比第一速率频繁。这样以来，比较重要的信息(长时能量值)，其传输的频率低因而其传输可采用较强的保护措施而不会对传输媒介容量产生较大影响。而较不重要信息(短时能量值)的传输较频繁，但由于它们在信号恢复中的重要性相对来说要小一些，故而对保护措施的要求也弱一些，这样对传输媒介容量的要求亦可降至最低。
在该发明的另一实施方案中，语声的编、译码安装在无线电设备当中。

图1是一个框图，描述了对应于本发明的激励源结构。
图2亦是一个框图，描述了与该发明相关的无线电装置的结构。
1989年3月28日以Ira Gerson名义发布的题为“具有改进的向量激励源的数字语声编码器”，美国专利号4，817，157中，详细地描述了采用向量激励源的数字语声编码器，其向量激励源包括一个码表激励码向量码表。
该发明的特点是在语声编码(译码)器中采用了合适的数字信号处理器(DSP)，比如Motorola公司的DSP56000系列器件。这些DSP器件的运算功能在图1中作为等效电路方框图表示了出来。
一个音高激励滤波器状态(102)提供一音高激励信号，它包含一个即时的音高激励向量。乘法器(106)接收这一音高激励向量，並将其乘上GAIN1的标度因子。当正确实现时，所获得的加权音高激励向量所具有的能量将与原始语音信息中音高信息的能量相对应。当然，音高信息的能量与初始样值是不同的;能量上的较大差异将导致最终所复原的语声样值有相当程度的失真。
第一码表(103)包括一系列基础向量，它们的线性结合可构成一系列相应的激励信号。编码器的功能一般说来就是从这些码表激励源中挑选一个最能表征原始语声信息中相应成分代表。译码器也就是利用编码器所能挑选出来的码表激励源来恢复语声信号。(当然，对于所处理的样值，音高激励信号和码表选择可通过相应的成分定义来区别)，相应的音高激励信息是通过乘法器(107)接受码表激励信息然后再乘上GAIN2的加权因子。GAIN2的设置主要是为了调节码表激励信号的能量，使其与对应的语声信息成分中原始信号的实际能量相一致。
如果需要的话，本方法的具体应用还可利用附加的码表(104)，它含有附加的激励信号。这些附加码表的输出仍将需要通过一个适当的乘法器(108)进行调节，适当的加权因子(如GAIN3)可实现与前述相同的目的。
经过适当选择和加权调节之后，音高激励和码表激励信息相加(109)，然后提供给LPC滤波器来产生最终的语声信号。在编码器中，这一最终信号将与原始信号进行比较，其它的码表成分亦需重复这一过程，这样可鉴别出一个激励源，它所提供的最终信号与原始信号最接近。那么这个音高和码表信息将被编码並通过选择的传输媒介传送至译码器。在译码器端，这一最终信号还要进一步处理，将数字化的信息变换为可听的形式，从而完成语音信号的恢复。
对于本发明的特点的描述，我们先从解释译码过程开始，然后再从编码器的角度来说明。
增益控制(101)的功能是提供GAIN1和GAIN2的信息(某些情况下，也包括GAIN3的信息)。这一增益信息与恢复的音高激励和码表激励信号的实际能量由编码器提供的长时能量值以及由编码器提供的对长时能量值进行短时修正的增益向量等紧密相关。
由音高激励滤波器状态(102)和码表(103和104)(即前期成分＊)所分别提供的音高激励信号和码表激励信号的能量可方便地由增益控制(101)来确定。一般情况下，这些信号的能量，无论是以它们两个(或三个)之间分摊的形式还是以它们的总和值的形式给出，均不能正确地反映出原始信号中的能量。因此，有必要获得这一能量信息以便于确定所需的能量校正值。这一能量校正是通过调节GAIN1和GAIN2(如必要，还包括GAIN3)来实现的。校正是以子帧为基础对各子帧进行的。
在译码器进行音高激励信号和码表激励信号能量的计算过程具有特别的优点。尤其是，前边的传输错误所导致的音高激励信号能量的偏差，可在这里得到补偿，这一补偿是通过译码器中对音高激励能量的精确计算实现的。
为了便于描述，我们假设一个原始语声样值(或至少其一部分)是数字化的，並且其最终的数字信息是分成3数据帧和子帧，所有这些与众所周知的先前技术相一致。在下面的描述中，我们假设每个帧含有4个子帧。
对于这样的结构，长时能量值占有一个子帧，构成一个校正因子的短时校正值对应于一个子帧。包含在一个特殊子帧中的残余能量(EE)一般情况下可通过下式确定EE= (Eq(o))/(( FILTER POWER GAIN ) ( N - SOBS ))其中Eq(o)＝对应于整个帧的数字化长时信号能量;FILTER POWER GAIN可通过LPC滤波器的资料通过计算而得到，如所周知，它相应于由于滤波器所带来的能量增量，N_SOBS表示每帧内所含的子帧数。
可以通过下式计算GAIN1A=EEαβEx(0)]]>其中α＝第一向量参数。
β＝第二向量参数。
Ex(o)＝未加权的音高能量信息。
关于α和β的详细情况在后边编码功能的描述中还要谈到。Ex(o)是由音高激励滤波器状态(102)所输出的信号的能量。因而，Ex(o)就是未经过GAIN1加权的在乘法器(106)前端的音高激励向量的能量。Ex(o)处在A的分母上，将来加权的音高激励向量的能量规格化为1，而表达式A中的分子则包含了需要给音高激励向量的能量。在上述分子中，EE项(基于长时信号能量对子帧残余能量的估计值)由α加权以匹配该激励信号中的短时能量，而β则表明音高激励向量能量占该合成激励信号能量的比例。最后取表达式的平方根得到该增益。
同理，GAIN2可通过下式算得B=EEα(1-β)Ex(1)]]>α和β同前所述，Ex(1)含有未加权的码表激励信息，该信息对应于由第一码表(111)输出的实际信号能量。
一旦GAIN1和GAIN2按上述方法确定，那么音高激励和码表激励信息将被适当加权，因而使两者的值相匹配，合成的结果由加法器(109)输出，提供了合适的复原信号成份。在译码器中，采用了一个或多个附加激励码表(104)，附加的加权因子(如GAIN3)可以按同样的方式确定。
下面将描述本发明中编码器的一个特点如前所述，对于一整帧数字化语声样值，可以计算一个量化信号能量值Eq(o)。这个值不时地由编码器传送至译码器，以提供给译码器必要的信息。这个信息没有必要伴随每个子帧信息传送，因为这个长时信息传送的频率小，所以这个信息可以通过纠错编码等措施获得相对安全的保护。尽管这需要更大的传输容量，但由于该信息传输的频度低，所以对整个传输容量的影响不大。
又如前边所述，对应于一帧的长时能量信息在各个子帧期间需作相应的调节使得与该帧的能量最接近。这个调节可视为短时校正参数α为变量之一的函数。
编码器产生参数α和β同样也是将编码器所产生的音高激励和码表激励信息信号的能量成分作为参变量的函数。α包括一个加权因子，根据该因子长时能量信息经过加数，然后音高激励信息能量与码表1激励以及码表2激励在该子帧中相加。参数β包含一个比率，这个比率是该子帧的音高激励信息能量与音高激励信息，码表1激励、码表2激励三者和的比。与此相似，假定第二码表存在的话，一个第三参数π可以表示出第一码表能量同音高激励信息、码表1激励，码表2激励三者和的比率。
在上述的处理方式中，第一参数α与该信号样值的全部能量值相关，第二(若有的话包括第三)参数β至少与激励信号之一同全部能量之比相关。因此，参数α，β以及π三者之间存在着某种程度上的相关。这一相互关联改善了性能和编译码效率。
作为特点之一，该编码器並不将α，β和π三个参数值直接传送给译码器。而是将这三个参数经过向量量化，转换成可识别代码传送给译码器。在这里由于编码器传出的码向量不可能完全等同于原始向量，所以可能引进误差。为了使该误差的影响降至最小，编码器对所有可能获得的向量码均计算一个ERROR值，然后选择一个产生最小误差的向量码。对于每一个向量码(它可产生相应的α和β值，这里假定是单码表编码器，便于举例说明)这个ERROR值的计算如下
naβ + λa(1-β)其中
在上面的等式当中，Ev代表了一个理想信号的子帧能量。因此，所选择的参数同原始参数越接近，误差则越小。Epc(0)表示理想信号与已加权的音高信息激励的相关性。Epc(1)表示理想信号与已加权的码表激励之间的相关性。Ecc(0，1)代表已加权音高信息激励和已加权码表的相关性。余下的，Ecc(0，0)表示已加权音高激励的能量，Ecc(1，1)代表已加权码表激励的能量。(已加权激励是指通过熟知的感官加重滤波器处理后的激励信号)。
当具有最小ERROR值的向量码被鉴别出来之后，这个向量码则传送至译码器，当译码器接收到该码向量后，可用它去查阅向量码数据库，因而可恢复出α、β和π(若存在的话)，如前所述，这些参数将用于计算GAIN1，GAIN2，和GAIN3(如果用它的话)。
采用这一方案，可以获得几个明显的好处。例如长时能量值由于传输中的保护措施增强，因而从能量信息的角度可以保证恢复的语声信息基本正常，既便是短时校正因子信息丢失或出错也关系不大。另外，译码器中音高能量的计算和补偿显著地降低了音高激励的误差传播。
参数α、β和π所提供的初始增益信息之间的相互关联可以容许信息的大幅度压缩，从而使得这一部分信息传输所需的传输容量降至最小。从效果来看，本方案改善了恢复的语声並且降低了传输容量要求。
在图2中，体现本发明的一套无线电装置包括一个接收语声码信号(201)的天线(202)，一个RF单元(203)处理接收到的信号以恢复语声编码信号。这一信息提供给参数译码器(204)由此产生各后续过程的控制参数。激励源(100)如前所述利用提供给它的参数产生激励信号。由激励源(100)输出的激励信号提供给LPC滤波器(206)，由此产生与编码信息相一致的合成语声信号。这一合成语声信号然后通过音高后滤波(207)和频谱后滤波(208)以增强恢复语声的质量。如果需要，还可以包括一个后加重滤波器(209)来进一步改善语声信号。这一语声信号在语音处理单元(211)经过处理然后由语音转换器(212)输出可听见的声音信号。
本发明在权利要求书中的主要特点如下与单个样值的增益信息有关的信息传输方案，其中的增益信息包括与第一成分增益相关的一个第一增益值;
与第二成分增益相关的至少一个第二增益值;
其特征表现为有如下步骤A)处理最少限度的信号样值以提供与这些信号样值的总体能量相关的第一参数;
至少部分与第一和第二增益值中的至少一个对总体能量值的相对贡献有关的第二参数，B)与第一和第二参数相关的传输信息。
增益信息至少包括一个第三增益值，该值与第三成分相关;
处理过程包括提供一个第三参数，该参数至少是基于第一、第二、第三增益值中不同的一个对总体能量值的相对贡献有关;
信息传输的步骤包括了与第三成分相关联的信息的传输。
其处理步骤包括至少将第一参数和第二参数信息进行矢量量化以提供一个码。
其传输步骤包括传输该码。
它还下述传输步骤，即不时地传输与多个信号样值相关的长时能量值信息。
其第一参数包括一个与长时能量值信息相关的校正因子。
其传输步骤的特征是还有下列步骤
B1).不时地传输与该第一值相关的信息;
B2).与第二值相关的信息的传输比第一值信息的传输更频繁。
一种与信号各成分的增益信息相关的信息的复原方法，其特征表现为A)至少要接收一个与该信号的至少一种成分的能量相关的第一参数;
B)接收该至少一个成分的成分定义信息;
C)处理该成分定义信息，以提供一前期成分，该前期成分具有一个能量值;
D)如有必要，至少利用第一参数该前期成分的能量值进行修正，以得到复原的信号成分。
权利要求
1.与单个样值的增益信息有关的信息传输方案，其中的增益信息包括与第一成分增益相关的一个第一增益值；与第二成分增益相关的至少一个第二增益值；其特征表现为有如下步骤A)处理最少限度的信号样值以提供与这些信号样值的总体能量相关的第一参数；至少部分与第一和第二增益值中的至少一个对总体能量值的相对贡献有关的第二参数，B)与第一和第二参数相关的传输信息。
2.权利要求1中的方法，其中增益信息至少包括一个第三增益值，该值与第三成分相关;处理过程包括提供一个第三参数，该参数至少是基于第一、第二、第三增益值中不同的一个对总体能量值的相对贡献有关;信息传输的步骤包括了与第三成分相关联的信息的传输。
3.权利要求1的方法，其处理步骤包括至少将第一参数和第二参数信息进行矢量量化以提供一个码。
4.权利要求3的方法，其传输步骤包括传输该码。
5.权利要求1的方法，它还下述传输步骤，即不时地传输与多个信号样值相关的长时能量值信息。
6.权利要求5中的方法，其第一参数包括一个与长时能量值信息相关的校正因子。
7.权利要求1的方法，其传输步骤的特征是还有下列步骤B1).不时地传输与该第一值相关的信息;B2).与第二值相关的信息的传输比第一值信息的传输更频繁。
8.一种与信号各成分的增益信息相关的信息的复原方法，其特征表现为A)至少要接收一个与该信号的至少一种成分的能量相关的第一参数;B)接收该至少一个成分的成分定义信息;C)处理该成分定义信息，以提供一前期成分，该前期成分具有一个能量值;D)如有必要，至少利用第一参数该前期成分的能量值进行修正，以得到复原的信号成分。
全文摘要
一种语声编码器和译码器实现方案，其音高激励和码表激励源能量由参数表示，这些参数的传输所要求的传输容量可降至最小。这些参数是长时能量值，一个作用于长时能量值以匹配短时能量的校正因子，和一个(或多个)比例因子，这(些)因子表明了激励源与该短时能量值的相对大小。
文档编号G10L19/00GK1051099SQ9010842
公开日1991年5月1日申请日期1990年10月16日优先权日1989年10月17日
发明者杰森·艾拉·阿兰, 詹修克·马克·安东尼申请人:莫托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰森.艾拉.阿兰;詹修克.马克.安东尼
技术所有人：摩托罗拉公司
我是此专利的发明人