专利名称:用于语音解码器中帧差错隐藏的改善的谱参数代替的制作方法
技术领域:
本发明涉及语音解码器,更具体地说,涉及用于处理语音解码器接收的坏帧的方法。
背景技术:
在数字蜂窝系统中,比特流被说成要通过将移动台连接至基站的通信信道经空中接口发送。比特流被组织成帧、包括语音帧。传输期间是否出现错误取决于主要的信道条件。检测到包含错误的语音帧简称为坏帧。根据先有技术,在出现坏帧时,从以前的正确参数(无错误语音帧)导出的语音参数可代替坏帧的语音参数。通过进行此类代替来处理坏帧的目的是隐藏错误语音帧的损坏的语音参数,而不引起语音质量明显下降。
新式语音编解码器通过处理短段、即上述帧中的语音信号来工作。语音编解码器的帧长度一般为20ms,在假定8kHz的抽样频率时,它对应160个语音样值。在所谓的宽带编解码器中,帧长度可仍为20ms,但假定16kHz的抽样频率时,它可对应于320个语音样值。帧可进一步分为多个子帧。
对于每一帧,编码器确定输入信号的参数表示。参数被量化,然后通过通信信道以数字形式发送。解码器根据收到的参数产生合成语音信号(见
图1)。
一般提取的编码参数组包括用于短期预测的谱参数(所谓的线性预测编码参数或LPC参数)、用于信号长期预测的参数(所谓的长期预测参数或LTP参数)、各种增益参数以及最后的激励参数。
所谓的线性预测编码是一种用于将语音编码以便经通信信道传输的广泛使用的有效方法;它表示声道的频率整形属性。LPC参数化表征短段语音的谱形状。LPC参数可表示为LSF(线谱频率)或者等价的ISP(导抗谱对)。ISP是通过将反滤波器传递函数A(z)分解为一组的一个偶对称而另一个奇对称的两个传递函数而获得的。ISP也称为导抗谱频率(ISF),是z-单位圆上的这些多项式根。线谱对(也称为线谱频率)可用与导抗谱对相同的方法来定义;这些表示之间的差异在于变换算法,它将LP滤波器系数转换为另一种LPC参数表示(LSP或ISP)。
有时,发送编码语音参数所经过的通信信道的条件不良,导致比特流中出现错误,即,导致帧差错(并因此导致坏帧)。有两种帧差错丢失帧和损坏帧。在损坏帧中,只有一部分描述特定语音段(一般为20ms持续时间)的参数损坏。在帧差错的丢失帧类型中,帧已完全损坏或者根本未收到。
在用于传递语音的基于分组的传输系统(在此系统中,帧通常作为单个分组传送)中,比如有时由普通因特网连接提供的系统中,可能存在数据分组(或帧)从不到达预定接收机的情况,或者数据分组(或帧)太迟到达,以致由于说出的语音的实时性而无法使用它。这种帧称为丢失帧。在此情况下,损坏帧是确实到达(通常在单个分组内)接收机的帧,但它包含一些例如由循环冗余校验(CRC)指示的错误参数。这是通常在电路交换连接中的情况,如全球移动通信系统(GSM)连接的系统中的连接,其中,损坏帧的误码率(BER)通常低于5%。
因此可以看出,对于坏帧的两种情况(损坏帧和丢失帧),对出现坏帧的最佳校正响应是不同的。因为在损坏帧的情况下,存在关于参数的不可靠信息,而在丢失帧的情况下,没有可用信息,所以有不同的响应。
根据先有技术,在收到的语音帧中检测到错误时,则开始代替和静噪过程;虽然利用了错误帧中诸如码激励线性预测参数(CELP)或更简单的激励参数之类的最不重要参数,但是坏帧的语音参数被替换为前一好帧的衰减或修改值。
在根据先有技术的一些方法中,(在接收机中)使用了称为参数历史的缓冲器,其中存储了最后无差错接收的语音参数。当无差错地收到帧时,参数历史被更新并且该帧传送的语音参数被用于解码。通过CRC校验或一些其它检错方法检测到坏帧时,坏帧指示符(BFI)被设为真,并且随后会开始参数隐藏(对相应的坏帧进行代替和静音);参数隐藏的先有技术方法使用参数历史来隐藏损坏的帧。如上所述,当收到的帧被归类为坏帧时(BFI设为真),可使用坏帧中的一些语音参数;例如,在ETSI(欧洲电信标准协会)规范06.91规定的GSMAMR(自适应多速率)语音编解码器的损坏帧代替的示例方案中,始终使用来自信道的激励矢量。语音帧丢失时(包括在诸如一些基于IP的传输系统中,帧到达太迟而无法使用的情况),显然无法使用丢失帧中的参数。
在一些先有技术系统中,最后接收的好的谱参数在稍微向常数预定平均值移位后,代替坏帧的谱参数。根据GSM 06.91 ETSI规范,隐藏以LSF格式进行,并且由以下算法给出For i=0 to N-1LSF_q1(i)=α*past_LSF_q(i)+(1-α)*mean_LSF(i);(公式1.0)LSF_q2(i)=LSF_q1(i);其中α=0.95,并且N是所用线性预测(LP)滤波器的阶数。量LSF_q1是第二子帧的量化LSF矢量,并且量LSF_q2是第四子帧的量化LSF矢量。第一和第三子帧的LSF矢量是由这两个矢量内插得到的。(帧n中第一子帧的LSF矢量是由帧n-1、即前一帧的第四子帧的LSF矢量内插得到的)。量past_LSF_q是来自前一帧的量LSF_q2。量mean_LSF是其分量为预定常数的矢量;分量并不取决于解码语音序列。具有恒定分量的量mean_LSF产生恒定语音谱。
此类先有技术系统始终将谱系数向恒定量调整,该量在此表示为mean_LSF(i)。通过对长时期和对若干个连续讲话人取平均值而得出常量。因此,此类系统只提供折衷的解决方案,而不是对任何特定说话者或情况最佳的解决方案;折中方案是在合成语音中留下令人讨厌的非自然信号和使声音听起来更自然(即合成语音的质量)之间进行的权衡。
在出现损坏语音帧的情况下,所需的是一种改善的谱参数代替,可以是同时基于语音参数历史的分析和错误帧的代替。错误语音帧的合适代替对由比特流产生的合成语音的质量有显著影响。
发明的公开因此,本发明提供一种方法和相应设备,用于隐藏在提供合成语音时要由解码器解码的帧中的帧差错的影响,通过通信信道把各帧提供给解码器,各帧提供解码器在合成语音中使用的参数,所述方法包括以下步骤确定帧是否为坏帧;以及根据预定数量的最近收到的好帧的谱参数的至少部分自适应平均值,提供对坏帧的参数的代替。
在本发明的另一方面,所述方法还包括确定坏帧是传送平稳语音还是非平稳语音的步骤,另外还包括以取决于坏帧是传送平稳还是非平稳语音的方式执行为坏帧提供代替的步骤。在本发明的又一方面,在坏帧传送平稳语音的情况下,使用预定数量的最近收到的好帧的参数的平均值,执行对坏帧提供代替的步骤。在本发明的又一方面,在坏帧传送非平稳语音的情况下,至多使用预定数量的最近收到的好帧的参数平均值的预定部分,执行对坏帧提供代替的步骤。
在本发明的另一方面,所述方法还包括确定坏帧是否符合预定标准的步骤,如果符合,则使用坏帧而不是代替坏帧。在具有此步骤的本发明的又一方面,预定标准包括进行四种比较之中的一种或多种比较帧间比较、帧内比较、两点比较以及单点比较。
从另一角度来看,本发明是一种用于隐藏在提供合成语音时要由解码器解码的帧中的帧差错的影响的方法,通过通信信道把各帧提供给解码器,各帧提供解码器在合成语音中使用的参数,所述方法包括以下步骤确定帧是否为坏帧;对坏帧的参数提供代替,在代替中,以前的导抗谱频率(ISF)向下式给出的部分自适应平均值偏移ISFq(i)=α*past_ISFq(i)+(1-α)*ISFmean(i),i=0...16,其中α=0.9,ISFq(i)是当前帧的ISF矢量的第i分量;past_ISFq(i)是前一帧的ISF矢量的第i分量;ISFmean(i)是作为自适应平均值和恒定预定平均值ISF矢量的组合的矢量的第i分量,并采用下列公式计算ISFmean(i)=β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i),i=0...16,其中β=0.75,ISFadaptive_mean(i)=13Σi=02past_ISFq(i)]]>并且只要BFI=0就更新,其中BFI是坏帧指示符,以及ISFconst_mean(i)是从ISF矢量的长期平均值形成的矢量的第i分量。
附图简述通过考虑下面结合附图的详细说明,可以理解本发明的上述和其它目的、特征以及优点,图中图1是根据先有技术、用于发射或存储语音和音频信号的系统的部件框图;图2是说明在平稳语音情况下相邻帧的LSF系数
的曲线图,其中Y轴表示频率,X轴表示帧;图3是说明在非平稳语音情况下相邻帧的LSF系数
的曲线图,其中Y轴表示频率,X轴表示帧;
图4是说明在先有技术方法中绝对谱偏差的曲线图;图5是说明在本发明中绝对谱偏差的曲线图(表示本发明提供的谱参数代替优于先有技术方法),其中,图中最高条形(表示最大可能余量)近似于零;图6是说明检测到坏帧时,根据某种先有技术如何将比特分类的示意流程图;图7是本发明的综合方法的流程图;以及图8是说明用于确定指示为具有错误的帧的LSF是否可接受的标准的各方面的成组的两个图表。
实现本发明的最佳模式根据本发明,在语音信号通过通信信道(图1)传输后,解码器检测到坏帧时,根据对最近通过通信信道传递的谱参数的分析,隐藏该语音信号的损坏的谱参数(由其它谱参数来代替它们)。有效隐藏坏帧的损坏的谱参数很重要,这不但是因为损坏的谱参数可引起非自然信号(明显不是语音的可听见声音),而且是因为随后的无差错语音帧的主观质量会降低(至少在使用线性预测量化时)。
根据本发明的分析还利用谱参数、如线谱频率(LSF)的谱影响的局部化性质。LSF的谱影响被说成是局部化的,这是因为如果量化和编码过程不利地改变了一个LSF参数,则LP谱只在LSF参数所表示的频率附近改变,而谱的其余部分保持不变。
本发明一般用于丢失帧或损坏帧。
根据本发明,在出现坏帧的情况下,分析器根据以前接收的语音参数的历史来确定谱参数隐藏。分析器确定解码语音信号的类型(即它是平稳的还是非平稳的)。语音参数的历史用于对解码语音信号进行分类(是否为平稳的信号,更明确地说,是否为有声的);使用的历史可以主要从最近的LTP值和谱参数导出。
术语“平稳语音信号”和“有声语音信号”实际上意义相同;有声语音序列通常是相对平稳的信号,而无声语音序列通常是不平稳的信号。在此使用术语“平稳语音信号”和“非平稳语音信号”是因为该术语更准确。
如用于帧对应语音的帧中所示,根据自适应激励功率和总激励功率的比率,帧可归类为有声帧或无声帧(也可以是平稳或非平稳帧)。(帧包含参数,自适应激励和总激励均根据参数构成;之后,可计算出总功率。)如果语音序列是平稳的,则如上所述隐藏损坏的谱参数的先有技术方法并不是特别有效。这是因为平稳的相邻谱参数变化缓慢,所以先前的好谱值(不是损坏或丢失的谱值)通常是对于后面谱系数的好估计值,更具体地说,优于前一帧中向恒定平均值变化的谱参数,而先有技术将使用该恒定平均值来替代坏的谱参数(以隐藏它们)。图2说明平稳语音信号(更具体地说,是有声语音信号)的LSF特性,作为谱参数的一个示例;它说明平稳语音的相邻帧的LSF系数
,其中Y轴表示频率,X轴表示帧,表明对于平稳语音,LSF在帧之间的变化确实相当缓慢。
在平稳语音段期间,使用以下算法,根据本发明执行隐藏(对于丢失帧或损坏帧)For i=0 to N-1(一帧内的元素)adaptive_mean_LSF_vector(i)=(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K;LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i);(2.1)LSF_q2(i)=LSF_q1(i).
其中α可近似为0.95,N是LP滤波器的阶数,K是自适应长度。LSF_q1(i)是第二子帧的量化LSF矢量以及LSF_q2(i)是第四子帧的量化LSF矢量。第一和第三子帧的LSF矢量是由这两个矢量内插的。量past_LSF_good(i)(0)与来自前一好帧的量LSF_q2(i-1)的值相等。量past_LSF_good(i)(n)是来自前面第n+1个好帧(即在当前坏帧之前n+1个帧的好帧)的LSF参数矢量的分量。最后,量adaptive_mean_LSF(i)是前面好LSF矢量的平均值(算术平均值)(即,它是矢量的分量,各个分量是前面好LSF矢量的相应分量的平均值)。
已经证明,与先有技术的方法相比,本发明的自适应平均值方法改善了合成语音的主观质量。该证明使用了模拟,其中通过引入错误的通信信道发送语音。每次检测到坏帧时,均会计算谱误差。通过从原始谱中减去在坏帧期间用于隐藏的谱,获得谱误差。通过从谱误差中取绝对值来计算绝对误差。图4和图5分别表示了先有技术中和本发明方法中LSF的绝对偏差的柱状图。最佳错误隐藏的误差接近于零,即当误差接近于零时,用于隐藏的谱参数与原始(损坏或丢失的)谱参数非常接近。从图4和图5的柱状图可以看出,在平稳语音序列期间,对于隐藏错误,本发明的自适应平均值方法(图5)优于先有技术的方法(图4)。
如上所述,非平稳信号(或较不准确地说,无声信号)的谱系数在相邻帧之间波动,正如图3所示,图3是说明在非平稳语音的情况下相邻帧的LSF的曲线图,其中Y轴表示频率,X轴表示帧。在这种情况下,最佳隐藏方法与平稳语音信号的情况不同。对于非平稳语音,本发明根据以下算法(非平稳算法)为坏(损坏或丢失)的非平稳语音段提供隐藏For i=0 to N-1partly_adaptive_mean_LSF(i)=β*mean_LSF(i)+(1-β)*adaptive_mean_LSF(i);(2.3)LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i);(2.2)LSF_q2(i)=LSF_q1(i);其中N是LP滤波器的阶数,其中α一般近似为0.90,其中LSF_q1(i)和LSF_q2(i)是如公式(2.1)中的当前帧的两组LSF矢量,其中past_LSF_q(i)是来自前面好帧的LSF_q2(i),其中partly_adaptive_mean_LSF(i)是自适应平均值LSF矢量和平均LSF矢量的组合,其中adaptive_mean_LSF(i)是最后K个好LSF矢量的平均值(当BFI未被置位时更新),以及其中mean_LSF(i)是恒定平均LSF并且在用于合成语音的编解码器的设计过程中产生,它是一些语音数据库的平均LSF。参数β一般近似为0.75,是用于表示语音与非平稳相对比的平稳程度的值。(有时,它根据长期预测激励能量与固定码本激励能量之比来计算,或者更精确地说,采用以下公式计算β=1+voiceFactor2]]>其中voiceFactor=energypitch-energyinnovationenergypitch+energyinnovation,]]>其中energypitch是音调激励能量,energyinnovation是更新码激励能量。当大部分能量是在长期预测激励中时,被解码的语音大部分是平稳的。当大部分能量是在固定码本激励中时,语音大部分是非平稳的。)对于β=1.0,公式(2.3)简化为先有技术的公式(1.0)。对于β=0.0,公式(2.3)简化为本发明用于平稳语音段的公式(2.1)。对于复杂性敏感的实现(在将复杂度保持到合理水平是很重要的应用中),β可固定为某个折中值,例如对于平稳和非平稳语音段都为0.75。
专门用于丢失帧的谱参数隐藏。
在丢失帧的情况下,只有以前谱参数的信息可用。代替的谱参数是根据基于例如频谱和LTP(长期预测)值的参数历史的标准来计算的;LTP参数包括LTP增益和LTP滞后值。LTP表示当前帧与前一帧的相关性。例如,用于计算代替的谱参数的标准可区别是用自适应LSF平均值还是如先有技术中用恒定平均值来修正最后好的LSF的情况。
专门用于损坏帧的备选谱参数隐藏语音帧被破坏时(相对于丢失),本发明的隐藏程序可进一步优化。在此类情况下,当语音解码器收到谱参数时,它们可能是完全或部分正确的。例如,在基于分组的连接中(如在普通TCP/IP因特网连接中),损坏帧隐藏方法通常是不可行的,因为对于TCP/IP类型的连接,通常所有坏帧均是丢失帧,但是对于其它类型的连接,例如在电路交换GSM或EDGE连接中,可使用本发明的损坏帧隐藏方法。因此,对于分组交换连接,不能采用下面的备选方法,但是对于电路交换连接,由于在此类连接中坏帧至少有时(并且实际上经常)只是损坏帧,因此可以使用该方法。
根据GSM规范,如果在信道解码过程中使用CRC校验或其它检错机制之后BFI标记被置位,则检测到坏帧。检错机制用于在主观上最高有效位、即对合成语音质量有最大影响的那些位中检测错误。在一些先有技术方法中,当一帧被指示为坏帧时,最高有效位不会被使用。然而,一帧可能只有几个比特错误(即使一个比特错误也足以使BFI标记置位),所以即使大部分比特是正确的,整个帧也可能被丢弃。CRC校验只是简单地检测帧是否包含错误帧,但不估计BER(误码率)。图6说明检测到坏帧时如何根据先有技术将比特分类。图6中,显示的单个帧每次一个比特(从左到右)经通信信道传递到解码器,信道条件使得CRC校验中包括的帧的一些比特已损坏,因此BFI被设置为1。
从图6可以看出,即使收到的帧有时包含许多正确比特(当信道条件较好时帧中的BER通常较小),先有技术也不会使用它们。相反,本发明尝试估计收到的参数是否损坏,如果它们未损坏,则本发明会使用它们。
表1表明在自适应多速率(AMR)宽带(WB)解码器的示例中根据本发明的损坏帧隐藏后面的概念。
表1.损坏的语音帧中正确谱参数的百分比。
在AMR WB解码器的情况下,信道载干比(C/I)在大约9dB到10dB的范围内时,采用模式12.65kbit/s是一个好的选择。从表1可以看出,使用GMSK(高斯最小频移键控)调制方案时,在C/I介于9到10dB范围内的GSM信道条件的情况中,收到的坏帧大约35-50%具有完全正确的频谱。此外,所有坏帧的谱参数系数大约75-85%是正确的。如上所述,由于谱影响的局部化性质,因而可使用坏帧中的谱参数信息。C/I在6-8dB或更小的范围中的信道条件太差,因而不应使用12.65kbit/s模式;而是应使用其它较低的模式。
在损坏帧的情况下,本发明的基本概念是根据标准(下文描述),使用损坏帧中的信道比特来对损坏帧进行解码。频谱系数的标准是根据正被解码的信号的语音参数的先前值。检测到坏帧时,如果符合标准,则使用接收的LSF或其它经信道传递的谱参数;换言之,如果接收的LSF符合标准,则如同该帧不是坏帧一样、在解码中正常使用它们。否则,即,如果来自信道的LSF不符合标准,则使用公式(2.1)或(2.2),根据上述的隐藏方法来计算坏帧的频谱。通过使用例如频谱距离计算、比如所谓的Itakura-Saito频谱距离的计算,可实现接受谱参数的标准。(例如,参阅John R Deller Jr,John H.L.Hansen和John G.Proakis的“Discrete-Time Processing of Speech Signals”第329页,由IEEE Press出版,2000)
在平稳语音信号的情况下,接受来自信道的谱参数的标准应该非常严格。如图3所示,在平稳序列期间(根据定义),谱系数非常稳定,因而平稳语音信号的损坏的LSF(或其它语音参数)通常可容易被检测到(由于它们与未损坏的相邻帧的LSF有显著差别,因此可以区分它们与未损坏的LSF)。另一方面,对于非平稳语音信号,则标准不必如此严格;非平稳语音信号的频谱允许具有较大的变化。对于非平稳语音信号,正确谱参数的精确性就可听到的非自然信号而论并不严格,因为对于非平稳语音(即或多或少的无声语音),不管语音参数是否正确,没有可听到的非自然信号是可靠的。换言之,即使谱参数的比特已损坏,根据标准它们仍然可接受,因为带有一些损坏比特的非平稳语音的谱参数通常不会产生任何可听到的非自然信号。根据本发明,在损坏帧的情况下,通过使用关于收到的LSF的所有可用信息以及通过根据传送的语音特性来选择使用哪些LSF,使合成语音的主观质量降低得尽量少。
因此,虽然本发明包括隐藏损坏帧的方法,但在传送非平稳语音的损坏帧的情况下,作为备选方案,它也包含使用这样一种标准,如果符合该标准,将使解码器按现状使用损坏帧;换言之,即使BFI被置位,也会使用该帧。该标准实际上是用来区别损坏帧是可用还是不可用的阈值;该阈值基于损坏帧的谱参数和最近收到的好帧的谱参数的差异程度。
与使用例如损坏的LTP滞后值等其它损坏的参数相比,使用可能损坏的谱参数对可听到的非自然信号可能更敏感。为此,用于确定是否使用可能损坏的谱参数的标准应特别可靠。在一些实施例中,使用最大谱距离(从前一帧中的相应谱参数开始,超出该距离后,不使用可疑的谱参数)作为标准是有利的;在这种实施例中,可使用众所周知的Itakura-Saito距离计算来量化要与阈值相比较的谱距离。或者,可使用谱参数的固定或自适应统计值来确定是否使用可能损坏的谱参数。此外,诸如增益参数等其它语音参数也可用于产生标准。(如果与最近的好帧中的值相比,当前帧中的其它语音参数并不是极为不同,则只要收到的谱参数也符合标准,或许可以使用这些谱参数。换言之,诸如LTP增益之类的其它参数可用作设置用于确定是否使用接收的谱参数的适当标准的附加分量。其它语音参数的历史可用于改善的语音特性识别。例如,历史可用于确定解码语音序列具有平稳还是非平稳特性。当知道解码语音序列的属性时,更易于从损坏帧中检测可能正确的谱参数,并且更易于估计在接收的损坏帧中预计传送了哪些类型的谱参数值。)根据优选实施例中的本发明,现在参考图8,如上文所述,用于确定是否使用损坏帧的谱参数的标准是基于谱距离的概念。更具体地说,为确定是否符合接受损坏帧的LSF系数的标准,接收机的处理器执行一种算法,检查与最后好帧的LSF系数相比,该LSF系数沿频率轴移动的距离,最后好帧的LSF系数与一些预定数量的较早、最近的帧的LSF系数一起存储在LSF缓冲器中。
根据优选实施例的标准包括进行四种比较中的一种或多种比较帧间比较、帧内比较、两点比较以及单点比较。
在第一种比较、即帧间比较中,损坏帧的相邻帧中LSF矢量元素之间的差别与先前帧的相应差别进行比较。差别按以下公式确定dn(i)=|Ln-1(i)-Ln(i)|,1≤i≤P-1,其中P是帧的谱系数的数量,Ln(i)是损坏帧的第i个LSF元素,以及Ln-1(i)是损坏帧之前的帧的第i个LSF元素。如果与dn-1(i)、dn-2(i)、...、dn-k(i)相比,差别dn(i)太大,则丢弃损坏帧的LSF元素Ln(i),其中k是LSF缓冲器的长度。
第二种比较、即帧内比较是同一帧中相邻LSF矢量元素间的差别的比较。第n帧的候选第i个LSF元素Ln(i)与第n帧的第(i-1)个LSF元素Ln-1(i)之间的距离按以下公式确定en(i)=Ln(i-1)-Ln(i),2≤i≤P-1,其中P是谱系数的数量,en(i)是LSF元素之间的距离。距离是在帧的所有LSF矢量元素之间计算的。如果与en-1(i)、en-2(i)、...、en-k(i)相比,差别en(i)太大或太小,则LSF元素Ln(i)和Ln(i-1)中的一个或另一个或两个元素将被丢弃。
第三种比较是两点比较,它确定是否出现涉及候选LSF元素Ln(i)的交叉,即,在顺序上低于候选元素的元素Ln(i-1)是否具有比候选LSF元素Ln(i)更大的值。交叉表明一个或多个严重损坏的LSF值。通常所有交叉LSF元素会被丢弃。
第四种比较是单点比较,它将候选LSF矢量元素Ln(i)的值与最小LSF元素Lmin(i)和最大LSF元素Lmax(i)进行比较,最小和最大LSF元素都是从LSF缓冲器中计算的,并且,如果Ln(i)在最小和最大LSF元素构成的范围之外,则丢弃候选LSF元素。
如果丢弃损坏帧的LSF元素(基于以上或其它标准),则根据使用公式(2.2)的算法来计算LSF元素的新值。
现在参考图7,它表示本发明的综合方法的流程图,指明用于平稳和非平稳语音帧以及用于与丢失的非平稳语音帧相对的损坏帧的不同规定。
讨论本发明可应用于移动台或移动网元中的语音解码器。它也可应用于具有错误传输信道的系统中所使用的任何语音解码器。
发明范围应当理解,上述方案只是说明本发明原理的应用。具体地说,应当理解,虽然为了具体说明而采用线谱来说明和描述本发明,但本发明也包含使用诸如导抗谱对之类的其它等效参数。在不脱离本发明的精神和范围的情况下,本领域的技术人员可设计大量的修改和替代方案,并且所附权利要求书旨在涵盖此类修改和方案。
权利要求
1.一种用于隐藏在提供合成语音时要由解码器解码的帧中的帧差错的影响的方法,通过通信信道把所述帧提供给所述解码器,各帧提供所述解码器在合成语音时使用的参数,所述方法包括以下步骤a)确定帧是否为坏帧;以及b)根据预定数量的最近收到的好帧的谱参数的至少部分自适应平均值,提供对所述坏帧的所述参数的代替。
2.如权利要求1所述的方法,其特征在于,还包括确定所述坏帧传送平稳语音还是非平稳语音的步骤,以及按照取决于所述坏帧传送平稳还是非平稳语音的方式,执行为所述坏帧提供代替的步骤。
3.如权利要求2所述的方法,其特征在于,在坏帧传送平稳语音的情况下,使用预定数量的最近收到的好帧的参数的平均值,执行为所述坏帧提供代替的步骤。
4.如权利要求3所述的方法,其特征在于,在坏帧传送平稳语音的情况下并且如果使用线性预测(LP)滤波器,则根据以下算法执行为所述坏帧提供代替的步骤For i=0 to n-1adaptive_mean_LSF_vector(i)=(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K;LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i);LSF_q2(i)=LSF_q1(i);其中α是预定参数,N是所述LP滤波器的阶数,K是自适应长度,LSF_q1(i)是第二子帧的量化LSF矢量,LSF_q2(i)是第四子帧的量化LSF矢量,past_LSF_good(i)(0)等于来自前一好帧的量LSF_q2(i-1)的值,past_LSF_good(i)(n)是来自前面第n+1个好帧的LSF参数的矢量的分量以及adaptive_mean_LSF(i)是所述前面好LSF矢量的平均值。
5.如权利要求2所述的方法,其特征在于,在坏帧传送非平稳语音的情况下,至多使用预定数量的最近收到的好帧的参数的平均值的预定部分,执行为所述坏帧提供代替的步骤。
6.如权利要求2所述的方法,其特征在于,在坏帧传送非平稳语音的情况下并且如果使用线性预测(LP)滤波器,则根据以下算法执行为所述坏帧提供代替的步骤For i=0 to N-1partly_adaptive_mean_LSF(i)=β*mean_LSF(i)+(1-β)*adaptive_mean_LSF(i);LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i);LSF_q2(i)=LSF_q1(i);其中N是LP滤波器的阶数,α和β是预定参数,LSF_q1(i)是第二子帧的量化LSF矢量,LSF_q2(i)是第四子帧的量化LSF矢量,past_LSF_q(i)是来自前一好帧的LSF_q2(i)的值;partly_adaptive_mean_LSF(i)是自适应平均值LSF矢量和平均LSF矢量的组合,adaptive_mean_LSF(i)是最后K个好LSF矢量的平均值以及mean_LSF(i)是恒定平均LSF。
7.如权利要求1所述的方法,其特征在于,还包括确定所述坏帧是否符合预定标准并且如果符合、则使用所述坏帧而不是代替所述坏帧的步骤。
8.如权利要求7所述的方法,其特征在于,所述预定标准涉及进行四种比较中的一种或多种比较帧间比较、帧内比较、两点比较以及单点比较。
9.一种用于隐藏在提供合成语音时要由解码器解码的帧中的帧差错的影响的方法,通过通信信道把所述帧提供给所述解码器,各帧提供所述解码器在合成语音中使用的参数,所述方法包括以下步骤a)确定帧是否为坏帧;以及b)提供对所述坏帧的参数的代替,在代替中,以前的导抗谱频率(ISF)向以下公式给出的部分自适应平均值偏移ISFq(i)=α*past_ISFq(i)+(1-α)*ISFmean(i),其中i=0...16,其中α=0.9,ISFq(i)是当前帧的ISF矢量的第i分量,past_ISFq(i)是前一帧的ISF矢量的第i分量,ISFmean(i)是作为自适应平均值和恒定预定平均值ISF矢量的组合的矢量的第i分量,并采用以下公式计算ISFmean(i)=β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i),其中i=0...16,其中β=0.75,其中ISFadaptive_mean(i)=13Σi=02past_ISFq(i)]]>并且只要BFI=0就更新,其中BFI是坏帧指示符,以及其中ISFconst_mean(i)是从ISF矢量的长期平均中形成的矢量的第i分量。
10.一种用于隐藏在提供合成语音时要由解码器解码的帧中的帧差错的影响的设备,通过通信信道把所述帧提供给所述解码器,各帧提供所述解码器在合成语音中使用的参数,所述设备包括a)用于确定帧是否为坏帧的装置;以及b)根据预定数量的最近收到的好帧的谱参数的至少部分自适应平均值、为所述坏帧的参数提供代替的装置。
11.如权利要求10所述的设备,其特征在于,还包括确定所述坏帧传送平稳还是非平稳语音的装置,以及所述用于为坏帧提供代替的装置按照取决于所述坏帧传送平稳还是非平稳语音的方式执行所述代替。
12.如权利要求11所述的设备,其特征在于,在坏帧传送平稳语音的情况下,为所述坏帧提供代替的所述装置使用预定数量的最近收到的好帧的参数的平均值执行代替。
13.如权利要求12所述的设备,其特征在于,在坏帧传送平稳语音的情况下并且如果使用线性预测(LP)滤波器,为所述坏帧提供代替的所述装置可根据以下算法工作For i=0 to n-1adaptive_mean_LSF_vector(i)=(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K;LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i);LSF_q2(i)=LSF_q1(i);其中α是预定参数,N是所述LP滤波器的阶数,K是自适应长度,LSF_q1(i)是第二子帧的量化LSF矢量,LSF_q2(i)是第四子帧的量化LSF矢量,past_LSF_good(i)(0)等于来自前一好帧的量LSF_q2(i-1)的值,past_LSF_good(i)(n)是来自前面第n+1个好帧的LSF参数的矢量的分量以及adaptive_mean_LSF(i)是所述前面好LSF矢量的平均值。
14.如权利要求11所述的设备,其特征在于,在坏帧传送非平稳语音的情况下,为所述坏帧提供代替的所述装置至多使用预定数量的最近收到的好帧的参数的平均值的预定部分来执行代替。
15.如权利要求11所述的设备,其特征在于,在坏帧传送非平稳语音的情况下并且如果使用线性预测(LP)滤波器,则为所述坏帧提供代替的所述装置可根据以下算法工作For i=0 to N-1partly_adaptive_mean_LSF(i)=β*mean_LSF(i)+(1-β)*adaptive_mean_LSF(i);LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i);LSF_q2(i)=LSF_q1(i);其中N是LP滤波器的阶数,α和β是预定参数,LSF_q1(i)是第二子帧的量化LSF矢量,LSF_q2(i)是第四子帧的量化LSF矢量,past_LSF_q(i)是来自前一好帧的LSF_q2(i)的值;partly_adaptive_mean_LSF(i)是自适应平均值LSF矢量和平均LSF矢量的组合,adaptive_mean_LSF(i)是最后K个好LSF矢量的平均值以及mean_LSF(i)是恒定平均LSF。
16.如权利要求10所述的设备,其特征在于,还包括确定所述坏帧是否符合预定标准并且如果符合、则使用所述坏帧而不是代替所述坏帧的装置。
17.如权利要求16所述的设备,其特征在于,所述预定标准涉及进行四种比较中的一种或多种比较帧间比较、帧内比较、两点比较以及单点比较。
18.一种用于隐藏在提供合成语音时要由解码器解码的帧中的帧差错的影响的设备,通过通信信道把所述帧提供给所述解码器,各帧提供所述解码器在合成语音中使用的参数,所述设备包括a)用于确定帧是否为坏帧的装置;以及b)用于为所述坏帧的参数提供代替的装置,在代替中以前的导抗谱频率(ISF)向以下公式给出的部分自适应平均值偏移ISFq(i)=α*past_ISFq(i)+(1-α)*ISFmean(i),其中i=0...16,其中α=0.9,ISFq(i)是当前帧的ISF矢量的第i分量,past_ISFq(i)是前一帧的ISF矢量的第i分量,ISFmean(i)是作为自适应平均值和恒定预定平均值ISF矢量的组合的矢量的第i分量,并采用以下公式计算ISFmean(i)=β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i),其中i=0...16,其中β=0.75,其中ISFadaptive_mean(i)=13Σi=02past_ISFq(i)]]>并且只要BFI=0就更新,其中BFI是坏帧指示符,以及其中ISFconst_mean(i)是从ISF矢量的长期平均中形成的矢量的第i分量。
全文摘要
使用基于最近收到的好帧的至少部分自适应平均值的值来代替坏帧(坏帧是损坏的帧或丢失的帧)的谱参数的值,从而隐藏由语音解码器经通信信道接收的坏帧的影响,但是在损坏帧的情况下(相对于丢失帧),如果坏帧符合预定标准,则使用该坏帧本身。隐藏的目的是为坏帧寻找最适合的参数,以便尽量提高合成语音的主观质量。
文档编号G10L11/06GK1535461SQ01820937
公开日2004年10月6日 申请日期2001年10月17日 优先权日2000年10月23日
发明者J·梅基宁, H·J·米科拉, J·维尼奥, J·罗托拉-普基拉, J 梅基宁, 岚, 欣 普基拉, 米科拉 申请人:诺基亚有限公司