一种自适应多速率窄带编码方法及编码器的制作方法

文档序号:2830856阅读:554来源:国知局

专利名称::一种自适应多速率窄带编码方法及编码器的制作方法
技术领域
:本发明涉及自适应多速率窄带编码器及其编码方法,具体涉及到自适应多速率窄带编码器的话音激活检测和对连续声音信号帧进行AMR-NB编码的技术。
背景技术
:码激励线性预测编码器自1985年被提出以来得到了广泛的应用。在码分多址(CDMA)和通用移动通信系统(UMTS)的声码器中都使用了码激励线性预测编码器的技术。码激励线性预测包括了线性预测和量化、自适应码书搜索和固定码书搜索。因为语音本身有静默期,可以通过降低这些静默期间的数据速率有效压縮语音数据的传输速率,高通公司的申请号为92104618.9的可变速率声码器的专利就是关于上述方法的一个方案。在UMTS中使用了自适应多速率(AMR)语音编码,自适应多速率(AMR)语音编码是3GPP(第三代移动通信伙伴计划)制定的应用于第三代移动通信中的语音压縮编码,自适应多速率(AMR)语音编码又分为自适应多速率窄带(AMR-NB)语音编码、自适应多速率宽带(AMR-WB)语音编码和自适应多速率宽带改进型(AMR-WB+)语音编码,这些编码方法都基于码书激励线性线性预测技术。自适应多速率(AMR)编解码方式中采用的码书激励线性预测编码器将一个话音信号帧分成若干个子帧,进行线性预测和量化、自适应码书搜索和量化以及固定码书搜索和量化。AMR-NB(自适应多速率窄带)语音编码支持八种速率的语音模式的编码速率12.2、10.2、7.95、7.40、6.70、5.90、5.15、4.75kb/s(千比特/秒),以及低速率(1.80kb/s)的背景噪声模式的编码速率,3GPP的TS26.071-500的章节5的表格1(Table1)给出了对应上述这些自适应多速率窄带编码速率的编码器模式AMR—12.20、AMR—10.20、M1R_7.95、AMR—7.40、AMR_6.70、AMR—5.90、AMR—5.15、AMR—4.75以及AMR—SID。线性预测和量化包括了将采样得到的话音信号帧或经过预处理的话音信号帧组成一个序列,用一个窗函数乘该序列中的声音样本,以提供一个加窗的声音数据帧;由所述加窗的声音数据帧计算一组自相关系数;用莱文逊一杜宾(Levinson-Durbin)算法由所述自相关系数组计算一组线性预测系数将所述线性预测系数组转换到另一个频谱域;根据编码指令中的速率量化所述转换到另一个频谱域上的系数组,例如,IO阶的一组线频谱对(LSP)的值,或16阶的一组声抗纳频谱对(ISP)的值,关于线频谱对(LSP),最早在发表于国际语言语音和信号处理会议(ICASSP)'84中的文章"线频谱对(LSP)和语音数据压縮"中有说明,高通公司的申请号为92104618.9的可变速率声码器的专利中也有说明,在3GPP的TS(技术规范)26090和3GPP2的C.S0014-A中也都有说明。在码激励线性预测编码过程中,自适应码书搜索和固定码书搜索得到的最佳码书矢量信号乘以各自的最佳增益后相加,其和为激励信号。激励信号是编码过程中一定要使用的,码激励线性预测编码是搜索与原始语音之间误差最小的基于激励信号的合成语音。3GPP的TS26090对自适应多速率窄带的自适应码书搜索作了说明,例如,TS26090-310版本的5.6节。自适应码书搜索包含了基于以前激励信号的闭环基音(pitch)搜索和此后的按选定的整数和分数基音延迟进行的内插以前激励信号得到自适应码书的计算。自适应码书搜索得到的自适应码书参数是激励信号、整数和分数基音延迟、自适应码书增益和量化的自适应码书增益。闭环基音搜索是通过原始语音和重构语音之间的均方加权误差的最小化来完成的,所述最小化需要从搜索范围内的每个延时值所对应的均方加权误差中找出最小的均方加权误差,每个延时值所对应的均方加权误差由自适应码书搜索目标信号(targetsignal)和加权合成滤波器(weightedsynthesisfilter)对以前激励信号的响应所确定。对自适应多速率窄带来说,3GPP的TS26.090-310版本中的5.6节对此做了说明,就是先求解由下面的式(1)表示的特征项R(k)最大时的整数延时值k得到最佳整数延迟,x(n)是自适应码书搜索的目标信号,yk是在整数延时k处的过去激励信号的经过滤波的值,在最佳整数延迟附近的分数延时值是通过内插归一化的特征项R(k)得到的,搜索最大的分数延时值可得到最佳分数延迟,存放激励信号值的是激励缓冲器excitationbuffer(u(n),n=-(143+11),",39,),其中搜索阶段的值(u(n),n=0,1,…,39,)是线性残差(LPresidual),每个子帧的激励信号是当前本子帧的自适应码书信号按量化的自适应码书增益值放大后的得到信号,同固定码书信号按量化的固定码书增益值放大后的得到信号进行叠加所得到的信号,关于这一点,可以参见3GPP的TS26.090-310版本的5.9节,其中式(64)是激励信号值的数学表示。关于AMR-NB的固定码书搜索在3GPP的TS26090-500的5.7节中有详细描述,AMR-NB的固定码书采用了代数码书Algebraiccodebook,固定码书搜索得到固定码书参数有固定码书矢量、固定码书增益及量化的固定码书增益。自适应多速率窄带(AMR-NB)语音解码过程中,对每一帧都进行LP(线性预测)滤波器参数解码,从而形成用于重构每一子帧的语音信号的每个子帧的LP滤波器系数;每个子帧的激励信号的构造方法是将自适应码书信号按自适应码书增益值放大后得到的信号,同固定码书信号按固定码书增益值放大后得到的信号进行叠加,这里的自适应码书增益值和固定码书信号是按照解码得到的自适应码书增益索引和固定码书索引从量化表找到的量化值;AMR-NB的自适应码书信号是基于上一个子帧的激励信号的合成信号,即,解码自适应码书索引得到的的整数和分数基音延迟,按所述整数和分数基音延迟对上一个子帧的激励信号进行内插得到自适应码书信号。自适应多速率窄带(AMR-NB)的固定码书增益量化包括基于以前子帧的量化能量预测误差(quantifiedpredictionerror)得到的固定码书预测增益,以及固定码书增益和所述乙。x(")力(")的固定码书预测增益之间的修正因子的量化。子帧的量化能量预测误差(quantifiedpredictionerror)由编解码双方约定一个相同的值,例如可以是上一个被编码的信号帧的帧能量的对数平均值,也可以是上述的上一个编码帧的修正因子的对数按固定比例放大后的值,或者是编解码双方都使用各自上一帧的量化能量预测误差。3GPP的TS26.090对自适应多速率窄带的固定码书增益量化作了说明,例如,TS26.090-310版本的5.8节中的式(54)和(56),也就是下面的式(3)和(4)说明量化能量预测误差如何影响固定码书预测增益的,<formula>formulaseeoriginaldocumentpage9</formula>(4)式(3)是第n个子帧预测能量(predictedenergy)的定义,取值为的[blb2b3b4]是移动平均(MA)预测系数,》(的就是第k个子帧的量化能量预测误差;式(4)是固定码书预测增益(predictedfixed-codebookgain)g:的定义,玄是更新能量(irmovationenergy)的平均值并且根据模式的不同取不同的常数值,例如12.2kb/s时为36分贝(dB),五,是平均更新能量(meaninnovationenergy)。固定码书增益和固定码书预测增益之间的修正因子为前者与后者的比值;而TS26.090-310版本的5.8节中的式(58)说明能量预测误差R(n)就是20乘上述修正因子的对数,量化能量预测误差则是20乘量化修正因子的对数。在3GPP的TS26.092-500的5.2节帧能量计算(Frameenergycaculation)中给出了根据以前的帧的帧能量计算帧能量对数平均值的如下说明<formula>formulaseeoriginaldocumentpage9</formula>是输入声音信号帧/经过高通滤波预处理后的信号帧,eA。g(0是当前的第的帧能量对数值。<formula>formulaseeoriginaldocumentpage9</formula>(6)e"i。g是当前的第;帧的帧能量对数平均值,帧能量对数平均值被量化成6比特的能量索引放在SID帧。采样数字话音帧经预处理后形成的数字话音帧经过线性预测和量化、自适应码书搜索和固定码书搜索后所形成的合成数字话音帧的共振峰主要由线性预测所使用的线性预测分析(LPC)所决定,更确切一点,对AMR-NB来说,就是线频谱对(LSP)转换为预测(LP)系数后,一个10阶线性预测合成滤波器(linearpredictionsynthesisfilter)就可以按式(7)确定,其中的4(/=/,…,附,附-lO)是量化了的预测(LP)系数。<formula>formulaseeoriginaldocumentpage10</formula>(7)对于AMR-NB和AMR-WB来说,将激励信号通过线性预测合成滤波器滤波后的输出就是合成数字话音帧,所以,线性预测合成滤波器的极点对应了合成数字话音帧的共振峰的频率和带宽,这些共振峰反映在时域上的波形的强度上,对听觉影响很大。根据发表在Proc.IEEE(进展.电气电子工程师协会).1975,63(4):561-580的文献"线性预测入门性的回顾(LinearPrediction:ATutorialReview)"可以知道,采用线性预测的方法得到的谱包络的峰值比较接近谐波峰值而常常偏离真正的共振峰的位置,也就是说,根据线性预测合成滤波器得到的合成数字话音帧的谱包络和原来的数字话音信号帧的谱包络并不是一致的。在电子工业出版社2004年出版的作者是美国的夸特尔瑞的<〈离散时间语音信号处理:原理与应用(Discrete-TimeSpeechSignalProcessing:PrincipleandPractice)〉〉的5.3.4节——Levinson(莱文逊)递归及其相关特性中指出线性预测所使用的全极点模型和自相关方法会使(7)式的所有极点落在单位圆内是最小相位系统;序列的自相关法的解的傅立叶变换的相位函数是失真的;线性预测的自相关引起声门最大相位极点向最小相位极点的转变;建立合成语音波形时,自相关变换造成的相位函数失真可能对语音感知有影响,即,合成数字话音信号的波形和原来数字话音信号的波形的偏离。在该书的5.6节——基于全极点模型的语音综合中指出基于线性预测自相关法的合成信号看起来像语音,但同时由于其最小相位特性而失去了绝对相位结构;书中的图5.18中的例子所示,重建语音信号的尖峰比原始信号更为突出,并且,假定为最小相位的理想声门波是时间翻转的,并具有比实际声门波更陡的上升沿。目前自适应多速率声码器的话音激活检测(VAD)方法是先计算预处理后的输入信号的电平和背景噪声估计值之间的差值,再计算出VAD判决阈值,VAD初始判决是通过比较所述差值和判决阈值来实现的,当前者大于后者时初始判决为有话音帧,当前者小于等于后者时初始判决为无话音帧,VAD的最终判决是将初始判决和预处理后的数字话音信号音调等其它检测的结果综合后的判决。AMR-NB和AMR-TO的VAD还要和不连续发送DTX相结合,DTX是通过多个输入信号帧的VAD结果检测到一段语音结束后才开始进行不连续的静音描述帧SID的发送,3GPP的TS26.093介绍了一种DTX的执行方案。DTX要求,当一段语音结束时,将需要多个(例如8个)连续帧去产生一个SID帧,即在将连续多个(例如7个)VAD结果为无话音的输入信号帧以语音模式编码速率编码之后将之后的帧(例如第8帧)编码为SID一FIRST以标明一段语音的结束,一旦SID一FIRST帧被发送,只要连续无语音就周期性地(例如每8帧)发送SID—UPDATE帧,第一个SIDJJPDATE帧需要在SDLFIRST帧后的特定时刻(例如第3帧)发送出;一种例外情况是当有语音的输入信号帧后的一个输入信号帧的VAD结果是无话音并且距离上一段语音结束少于一定时间(例如24帧)将该帧编码为SID_FIRST帧。目前的自适应多速率声码器都基本上是可变速率单模式编码,声码器根据编码命令的速率指令和它对话音信号帧的检测决定是采用编码命令的速率还是采用编码背景噪声的速率来编码,对于歌曲这类音乐信号几乎不存在静默期,编码器也就不需要静默期检测这个功能。因为静音描述(SID)帧的频繁使用固然会带来无线资源的利用率的提高,但也会带来语音质量的下降。目前的可变速率自适应多速率编码器都有静音描述帧自动生成的功能。
发明内容要解决的技术问题根据采用码激励线性预测技术的AMR编码所产生的编码帧所生成的合成数字话音帧和原数字话音信号帧的语音特征并不一致,关于这一点已经在
背景技术
中有所指出,g卩以线性预测分析方法来估计共振峰常常发生所得到的谱包络的峰值位置偏离真正的共振峰;线性预测所使用的全极点模型和自相关方法会使模型的所有极点落在单位圆内,从而造成合成数字话音信号的傅立叶变换的相位函数失真,这会使合成数字话音信号的波形形状和原来数字话音信号的波形形状的偏离。现有AMR技术采用的VAD所针对的对象是采样话音输入后形成的数字话音信号帧或采样后数字话音信号帧再经预处理后形成的预处理后的数字话音信号帧,以线性预测分析和码书激励的方式编码产生的连续的编码帧经译码后产生的合成数字话音信号的波形上的峰值位置常常会偏离原来的用于VAD的数字话音信号(或预处理后的数字话音信号)的波形上的峰值位置,本文通过3GPP的AMR-NB声音编码器对具体的声音编码给出实例,3GPP的TS26.074-500.zip(zip是文件的后缀名)文件中的TS—AMR—500—DTX.zip文件的DTX—400.zip中DTX4.INP(INP-文件的后缀名)文件所对应的语音信号的波形中的7.83秒和7.84秒之间的最大峰值位置同以DTX4.INP文件为输入以12.2kb/s为编码速率进行编码解码后形成的合成数字话音信号的波形上的对应峰值位置所属的帧不是相互对应的,下面就是关于这一点的说明如图6所示,DTX4.INP所指定的话音信号预处理后的数字话音信号的392帧(图中7.84秒之前)的波形中出现的最大峰值对应了DTX4.INP文件所对应的语音信号的波形中的7.83秒和7.84秒之间的最大峰值,对于译码后的合成数字语音信号而言,如图7所示,对应的波形的峰值出现在以12.2kb/s速率编码的编码帧经译码后产生的合成数字话音信号393帧(7.84秒之后)中,合成数字话音信号帧393是比对应的392帧晚了一帧,如果VAD采用短时能量检测的方法可以检测到预处理后的数字话音信号的392帧的波形峰值,这样尽管预处理后的数字话音信号以12.2kb/s速率方式编码,但该数字话音信号的以12.2kb/s速率编码的编码帧被译码后产生的合成数字话音信号的392帧中却没有原信号的392帧中的明显影响听觉的对应波形峰值。发生上述情况的原因是因为按照3GPP的TS26.073-530所构造的層R-NB编码器的VAD和语音模式编码针对的数字话音信号并不完全相同,VAD所针对的数字话音信号要比语音模式编码所针对的要在时间上更靠后一点,即VAD对还未编码的数字话音信号进行了话音激活检测。所以,预处理后的数字话音信号帧和其对应的合成数字话音信号帧不一定具有完全一致的声音特征。被用作VAD的预处理后的数字话音信号帧(或采样数字话音信号帧)的VAD结果也并不意味着其对应的合成数字话音信号帧有与之相同的VAD结果,特别是在当一个被用作VAD的数字话音输入帧上的可被检测出的共振峰经编码操作被映射到其相邻的后一个被用作VAD的数字话音输入帧所对应的合成数字话音帧上的情况下。正如
背景技术
所述,现有的VAD技术中不检测预处理后的数字话音帧(或采样数字话音帧)中共振峰,目前的技术中的分成多个频率子带分别检测信号电平、音调检测、基音检测、复杂信号检测这些技术都不直接涉及共振峰的检测,而AMR编码以LPC所得到的LP系数的预测合成滤波器的极点对应共振峰以形成对听觉有很大影响的谐振峰,这样共振峰的频率位置就被编码操作映射到这些谐振峰上去了。在语音信号非常微弱时,语音信号的共振峰的幅度和能量很小几乎被背景噪声淹没,艮P,原始采样数字话音信号或预处理后的数字话音信号中背景噪声的电平或能量同微弱的共振峰的电平或能量接近使得VAD结果为无话音,多子带电平检测、音调检测、基音检测也无法检测,由于现有技术中VAD被安排在基音延迟参数和更新码书(innovativecodebook)计算之前进行,现有的AMR技术中的LPC没有被用来检测出对应共振峰的那些极点的频率和带宽,更没有去检测在对应于预测合成滤波器极点处的波形峰值处的波形的振幅和能量,尽管这些波形峰值处的波形的振幅和能量的大小对语音感知影响很大。本发明要解决编码前后的输入信号帧和编码帧解码后的合成数字信号帧的语音特性不一致对VAD带来的不良影响;以及两者间波形特征不一致所带来的不良影响,例如,上述DTX4.INP所指定的话音信号预处理后的数字话音信号的392帧的VAD结果是有话音但393帧是无话音会导致392帧被按语音模式编码速率编码而393帧按背景噪声编码速率编码情况,这样392帧的最大的波形峰值就不会反映到变速率编码的合成数字信号帧上了。如果话音激活检测要针对合成数字话音帧进行,那么产生该合成数字话音信号帧的线性预测和码书搜索操作所得到的激励信号、滤波器记忆、滤波器误差等参数是否能及如何用于下一帧的编码,也是本发明要解决的问题。技术方案AMR-NB编码帧经译码后所得到的数字话音帧是否有话音,这个判断还可以通过对该数字话音帧进行话音激活检测来作出,所以本发明采用对AMR编码帧的合成数字话音信号帧进行直接话音激活检测的方法。为了使对听觉影响大的对应于原来数字话音信号的共振峰的合成数字话音信号的谐振峰不在VAD过程中被遗漏,本发明还将上述的直接话音激活检测定位在向线性预测合成滤波器输入激励信号所产生的输出信号的中的振幅或能量上,这样,虽然不能直接检测到对应于线性预测合成滤波器极点的原来输入信号波形峰值处的波形的振幅或能量,但只要合成数字信号频谱中的谐振峰反映到时域波形上的振幅或短时能量或平均幅度超过规定的检测阈值就不会漏检合成数字信号频谱中的谐振峰。本发明提出的一种VAD方法就是检测合成数字话音信号的波形中的振幅是否超过阈值,如果超过则将合成数字话音信号判决为有话音。这样,对于对应于那些原输入数字话音信号共振峰的波形来说,一旦其振幅超过阈值就不会被遗漏而会被检测出来,就不会将其所在的合成数字话音信号帧用背景噪声编码帧来代替并向译码方发送了。另一种检测方法是检测合成数字话音信号的短时平均能量或短时平均幅度的峰值是否超过阈值,如果超过则将合成数字话音信号判决为有话音,这样那些对应于原输入数字话音信号共振峰的波形的短时平均能量或短时平均幅度的峰值一旦超过阈值就不是会遗漏而是会被检测出来。要解决的问题中还提到——合成数字话音信号帧或以非背景噪声编码速率编码AMR帧的过程中所得到的激励信号等参数是否以及如何在下一帧编码时使用的问题,解决这个问题的一个方法是沿用3GPP标准给出的方法——仅保留编码发送给接收方AMR-NB帧的过程所产生的那些参数,即当VAD的结果是有话音则以非背景噪声编码速率编码AMR帧的过程中所得到的激励信号、滤波器记忆信号、滤波误差信号和量化能量预测误差等参数将在下一帧编码时使用;当VAD的结果是无话音并最终导致当前帧的发送类型被定为静音描述开始SID_FIRST、静音描述更新SID—UPDATE或无数据N0一DATA,则以非背景噪声编码速率编码AMR帧的过程中所得到的所有参数将被丢弃,而编码背景噪声编码速率帧所产生的复位后的激励信号等参数将在下一帧编码时被使用,这也是3GPP所给出的从背景噪声模式的背景噪声编码速率切换到语音模式的非背景噪声编码速率时的做法。对本发明的生成语音模式编码速率合成数字话音帧并将其作为VAD的对象的方法来说,一方面,生成合成数字话音帧涉及到不间断地执行AMR-NB语音模式编码操作中的线性预测、码书搜索等操作;另一方面,当VAD结果是无话音且最后导致编码器输出背景噪声编码帧时就还要涉及到背景噪声编码速率的細R-NB帧的编码。不间断(例如恒速率)的语音模式编码的声音效果要好于语音模式和背景噪声模式混合方式的变速率编码的声音效果,所以在背景噪声模式的编码后再执行语音模式的编码时使用语音模式编码(或生成合成数字话音帧)所产生的参数有利于提高语音质量。所以,本发明提出另一种方法,在涉及到语音模式(非背景噪声编码速率)和非语音模式(背景噪声编码速率)对同一话音输入帧进行了双模式的编码且只有背景噪声编码速率编码帧被选择为AMR-NB发送帧向译码器发送的情况下,有选择地使用语音模式编码所产生的参数用于下一帧的编码,本发明给出上述选择的的方案。本发明的选择的方案使得,在编码器在完成当前输入信号帧的AMR-NB帧的编码后以及译码器在完成该AMR-NB帧的译码后,双方保持一致的激励信号。达到这样的效果带来的好处是,在双方保持一致激励信号的前提下,只要语音模式的AMR-NB帧中的涉及构造线性预测合成滤波器的线性谱频率LSF参数传送无误,对于编译码双方来说,由线性预测合成滤波器响应激励信号所输出的合成数字话音帧就可以取得一致了。在使编译码双方保持一致激励信号的本发明的技术方案中,编码器需要根据其输出的AMR-NB帧确定激励信号,当输出帧是背景噪声模式的AMR-NB帧时,编码器将激励信号复位到一个编码器和译码器双方约定的固定值;当输出帧是语音模式的AMR-NB编码帧时,编码器按整数和分数基音延迟对上一个子帧及之前的激励信号进行内插最后得到自适应码书信号,该自适应码书信号再按量化的自适应码书增益值放大后的得到信号,同固定码书信号按量化的固定码书增益值放大后的得到信号进行叠加,将所得到的信号作为激励信号。语音模式AMR-NB编码帧包含整数和分数基音延迟、自适应码书的量化增益和固定码书信号,但并不直接包含固定码书增益参数,而是包含固定码书增益和固定码书预测增益^之间的修正因子的量化编码参数,因为M1R-NB编码器和译码器双方约定了一致的固定码书预测增益A,所以双方就可以在激励信号上取得一致。AMR-NB编码器是通过和其AMR-NB译码器约定一致的量化能量预测误差来约定一致的固定码书预测增益A的,由前面式(4)所示的固定码书预测增益^的计算式中可知只有子帧的预测能量(predictedenergy)由量化能量预测误差确定,更新能量的平均值^的取值只和编码器发送的AMR-NB编码帧的编码速率有关,平均更新能量£/仅和固定码书信号有关,关于这一点,在TS26.090-310版本的5,8节中的式(55)给出了说明,所以自适应多速率窄带译码器通过获得AMR-NB编码帧的编码速率和固定码书参数,可以和AMR-NB编码器在更新能量的平均值玄和平均更新能量五/上取得完全一致,如果使用同样的四个子帧的量化能量预测误差来计算子帧的预测能量^U),编码器和译码器双方的固定码书预测增益A也完全一致。现有的3GPP标准给出了M1R-NB编码器和译码器之间约定一致的量化能量预测误差的一种方法,即,当AMR-NB编码器的发送帧是语音模式的AMR-NB编码帧时,按TS26.090-310版本的5.8节中的式(58)说明,能量预测误差R(n)就设定为20乘该AMR-NB帧中修正因子的对数,量化能量预测误差则是20乘该量化修正因子的对数;当编码帧是背景噪声编码速率帧时,编译码器双方的子帧的量化能量预测误差是根据该背景噪声编码速率的M!R-NB编码帧中给出的量化的帧能量的对数平均值(averagedlogarithmicenergy)进行设定,在3GPP的TS26.092-500的5.2节帧能量计算(Frameenergycaculation)中给出了根据以前的帧的帧能量计算帧能量对数平均值的说明上述这种在AMR-NB编码器和译码器之间约定一致量化能量预测误差的方案并不是唯一的,例如,在3GPP的AMR-WB方案中,就是编译码器双方都按语音模式编码发送帧中的修正因子来设置量化能量预测误差进而取得一致;实际上对于本发明的这种为每一个输入信号帧都生成合成数字话音帧的方法,可以为每一个输入信号帧都生成修正因子,并且在发送帧是静音描述帧的时候将该帧的四个子帧的修正因子一同向译码器发送,这样,编译码器双方就维持了量化能量预测误差参数的一致性,也就不需要采用3GPP这样的发送SID一UPDATE帧将双方的量化能量预测误差统一到量化的帧能量的对数平均值的方式,虽然比原来只发送静音描述帧的做法增加了发送的少量的比特数。对于自适应多速率窄带编码来说,上一帧的激励信号的所有160个样本点上的数据不是全部都要使用,因为3GPP规范规定基音延时的搜索范围在143个样本点之内,所以规范中规定的激励信号缓冲器也只有154个样本点的大小,如果只要求兼容现有的3GPP规范的要求只使用160个样本点中的154个样本点就可以了。下面就是根据合成数字声音信号执行话音激活检测的技术方案按照背景噪声编码速率和一个非背景噪声编码速率对输入信号帧序列中的一输入信号帧进行自适应多速率窄带AMR-NB编码和对与该输入信号帧相邻的后一输入信号帧进行AMR-NB编码的方法,其特征在于,根据以所述非背景噪声编码速率对所述的一输入信号帧编码所得到的自适应码书参数和固定码书参数生成激励信号,根据以所述非背景噪声编码速率对所述的一输入信号帧编码所得到的线性预测参数确定线性预测合成滤波器,用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;根据所述合成数字声音信号帧进行话音激活检测,根据所述话音激活检测的结果确定不连续发送的发送类型信号;若所述的发送类型信号是正常话音SPEECH—GOOD,根据所述一输入信号帧的所述非背景噪声编码速率的AMR-NB编码帧中所使用的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若所述的发送类型信号不是SPEECH—GOOD,将所述的一输入信号帧的的激励信号复位;根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。在上述方法中不连续发送的控制DTX和操作模块仍然为输入信号帧序列中的每一帧产生一个发送类型信号TX—TYPE,但这个发送类型信号的确定要根据对合成数字声音信号帧所作的话音激活检测的结果,这不同于现有技术的不考虑编码帧的合成数字声音信号帧的做法。对于上述方法来说,基于AMR-NB编解码器要维持一致的量化能量预测误差的前提,它做到了使双方有一致的激励信号。至于维持一致的量化能量预测误差的方法有多种下面一一列出第一种,编码器仅在发送语音模式的AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,其余时候维持不变;译码器在收到语音模式的AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,其余时候维持量化能量预测误差不变,即,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差;第二种,编码器仅在发送AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,其余时候维持不变,同时在发送SID帧时同时发送编码语音模式的AMR-NB帧产生的修正因子的编码给译码器;译码器在收到语音模式的AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,在接收SID帧的同时接收修正因子并根据修正因子将量化能量预测误差更新,其余时候维持量化能量预测误差不变。第三种就是现有AMR-NB译码器仍然按照3GPP规定的窄带译码的方法进行译码,编码一方,在所述的发送类型信号是SPEECH—GOOD时,根据所述一输入信号帧的所述非背景噪声编码速率的AMR-NB编码帧中所使用的修正因子correctionfactor,生成所述的一输入信号帧的子帧的量化能量预测误差;在所述的发送类型信号是静音描述开始SID_FIRST或静音描述更新SID一UPDATE时,根据所述一输入信号帧的量化的帧能量的对数平均值,生成所述的一输入信号帧的子帧的量化能量预测误差;在所述的发送类型信号是无数据N0一DATA时,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差;由于编码背景噪声模式的AMR-NB帧不需要上一帧的激励信号和量化能量预测误差,在本发明的上述双模式的方法中,所述的输入信号帧的的激励信号和量化能量预测误差仅被用于对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。在上述技术方案中生成激励信号的自适应码书参数和固定码书参数来自于输入信号帧编码的非背景噪声编码速率的AMR-NB编码帧,构造线性预测合成滤波器的线性预测参数同样来自于非背景噪声编码速率的AMR-NB编码帧。但上述这些参数可以在生成AMR-NB编码帧前取得,也就是说在线性预测后获取线性预测参数,在自适应码书搜索后获取自适应码书参数,以及在固定码书搜索后获得固定码书参数。于是就有下面的AMR-NB编码器,艮卩,一种带有不连续发送DTX控制和操作装置的自适应多速率窄带AMR-NB编码器,所述不连续发送控制和操作装置按照话音激活检测结果确定发送类型TX一TYPE和确定細R-NB编码帧的编码速率,在所述AMR-NB编码器中,对输入声音信号帧进行线性预测,根据所述编码速率为所述输入声音信号帧编码并输出类型为TX—TYPE的細R-NB发送帧,并生成用于编码下一个声音输入信号帧的所述输入声音信号帧的激励信号,其特征在于,由对所述输入声音信号帧进行线性预测得到的线性预测参数确定线性预测合成滤波器;根据语音模式的编码速率对所述声音输入声音信号帧自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数生成语音模式的激励信号;用所述线性预测合成滤波器对所述语音模式的激励信号滤波生成合成数字声音信号帧;根据对所述合成数字声音信号帧执行的话音激活检测得到所述的话音激活检测结果;若所述TXJTYPE是正常话音SPEECH—GOOD,根据所述对输入声音信号帧的自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数为输入声音信号帧编码AMR-NB发送帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述输入信号帧的激励信号;若所述TXJTPE是静音描述开始SID—FIRST或静音描述更新SIDJJPDATE,按背景噪声编码速率为输入信号帧编码AMR-NB发送帧,并将所述的输入声音信号帧的激励信号复位;若所述TX—TYPE是无数据NO一DATA,将所述的输入声音信号帧的激励信号复位。上述的AMR-NB编码器由于先进行话音激活检测VAD,再确定TX—TYPE,所以按照TXJTYPE决定编码速率可以达到为每个输入信号帧只编码一个AMR-NB帧(包括不用TXJTPE为NO—DATA的不需要发送的帧)的效果,由于AMR-NB编译码器根据双方之间的AMR-NB编码帧来使彼此之间的量化能量预测误差达到一致,所以上述编码器的确定量化能量预测误差的方案就较为简单,它只要在TXJTPE是SPEECH一GOOD时根据修正因子设置量化能量预测误差,而在TX—TYPE是SID时按输入信号帧的帧能量来设置(AMR-NB的方法)或维持不变(AMR-WB的方法)。采用按输入信号帧的帧能量来设置(AMR-NB的方法)的技术方案能使得本发明的编码器能和按照3GPP的AMR-NB标准的译码器兼容,g卩,该编码器包括确定编码与所述输入声音信号帧相邻的后一输入信号帧的语音模式AMR-NB帧所需要的所述输入声音信号帧的四个子帧的量化能量预测误差的装置,其特征在于,根据所述输入声音信号帧的发送类型TXJTYPE确定所述输入声音信号帧的四个子帧的量化能量预测误差,在所述发送类型是正常话音SPEECH—GOOD时该装置根据所述输入声音信号帧的非背景噪声编码速率的AMR-NB编码帧中所给出的修正因子生成所述输入声音信号帧的四个子帧的量化能量预测误差,在所述TX—TYPE是静音描述开始SID—FIRST或静音描述更新SID一UPDATE时该装置将所述输入声音信号帧的四个子帧的量化能量预测误差设置为所述输入声音信号帧的量化的帧能量对数平均值,若所述的发送类型是无数据NO—DATA,将与所述输入声音信号帧相邻的前一输入声音信号帧的子帧的量化能量预测误差作为所述输入声音信号帧的子帧的量化能量预测误差。本发明的编码器中所使用的编码方法比现有技术的编码方法的最明显之处就是将VAD的对象扩展到了合成数字话音信号,因而可以利用共振峰在合成数字话音信号波形上的特征检出话音,所以本发明的编码器的对合成数字话音信号的VAD包括了对合成数字声音信号帧的波形的检测。由于合成数字话音信号在预测合成滤波器极点对应的谐振峰处有较高的能量,在对合成数字话音信号帧进行话音激活检测时可以检测其波峰的振幅,如果其波峰的上升沿和下降沿的幅度都超过或其中之一超过阈值就将该帧判决为有话音,这样,一旦所述的极点所对应的谐振峰反映在波形上的振荡的波峰的幅度超过阈值,合成数字话音信号帧就不会在VAD检测时被漏掉。当出现
背景技术
中指出的合成数字话音信号的波峰的尖峰比原始信号更为突出的现象时那些突出的尖峰可以较容易地用与阈值比较的方法被检出。用来与波峰的上升沿或下降沿比较的阈值的设定方法不是唯一的,该阈值的确定可以用固定值,也可以和波峰所在的合成数字话音信号帧有关,比如,可以参考合成数字话音信号帧的平均幅度——帧内样本点上的信号值的绝对值的和,也可以参考合成数字话音信号帧的特定的子带的电平,3GPP26094-500的3.3.1节滤波器组与子带电平计算(Filterbankandcomputationofsub-bandlevels)给出了一种求子带的电平的方法。对于本发明的上述编码器及再之前的从语音模式编码帧中获取参数来生成激励信号的编码方法来说,就有下面的VAD的波形检测的方法,根据被检测的合成数字声音信号帧确定阈值,若所述的合成数字声音信号帧中的波形中的波峰的上升沿的幅度超过该阈值,就将所述话音激活检测的结果确定为有话音。根据被检测的合成数字声音信号帧设定上升沿阈值和下降沿阈值,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的波峰的上升沿的幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值,就将所述话音激活检测的结果设定为有话音。现有技术中的话音激活检测方法对合成数字话音信号仍然适用,对于波形中波峰数目很多但上升沿和下降沿幅度相差不大的情形来说,现有技术中的将信号能量同背景噪声能量比较的方法是能够检出信号来的。但对于波形中波峰数目较少的情形来说,本发明在下面给出的方法检出信号的能力更强根据被检测的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。根据被检测的合成数字声音信号帧设定上升沿阈值、下降沿阈值和范围,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的上升沿幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值波峰的个数在所述范围之内,就将所述话音激活检测的结果设定为有话音。本发明的AMR-NB编码器中的使用的非背景噪声速率AMR-NB帧的编码方法同样落在本发明的保护范围之内,这种对一输入信号帧序列中的一输入信号帧进行自适应码书搜索、固定码书搜索及自适应多速率窄带細R-NB编码和对与该输入信号帧相邻的后一输入信号帧进行非背景噪声编码速率AMR-NB编码的方法,其特征在于,对所述的一输入信号帧进行线性预测,并根据所得到的线性预测参数确定线性预测合成滤波器,按语音模式编码速率对所述一输入信号帧自适应码书搜索、固定码书搜索,并根据所得到的自适应码书参数和固定码书参数生成激励信号,用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;根据所述合成数字声音信号帧进行话音激活检测,根据该话音激活检测结果确定不连续发送的发送类型;若所述的发送类型是正常话音SPEECH—GOOD,根据所述的语音模式编码速率为所述一输入信号帧的编码AMR-NB编码帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若发送类型是静音描述更新SID—UPDATE则生成所述输入信号帧的按背景噪声编码速率编码的自适应多速率窄带静音描述AMR-NB—SIDJJPDATE帧;若发送类型是静音描述开始SID_FIRST则生成所述输入信号帧的AMR-NB_SID_FIRST^JJ|;若所述的发送类型不是SPEECH—GOOD,将所述的一输入信号帧的的激励信号复位;根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声的语音模模式编码速率的编码操作。对于上述编码方法来说编码方同样有多种和译码方保持量化能量预测误差一致的方法,一种是只在编码方向译码方发送语音模式AMR-NB帧时双方根据编码帧中的修正因子调整各自的量化能量预测误差;还有一种方法就是-若根据合成数字话音信号的话音激活检测得到的发送类型是正常话音SPEECH—GOOD则生成所述输入信号帧的非背景噪声编码速率的AMR-NB帧,并根据该AMR-NB帧中的修正因子correctionfactor生成量化能量预测误差;若所述发送类型是静音描述开始SID—FIRST或静音描述更新SID—UPDATE则将所述输入数字声音帧的量化能量预测误差设置成该输入信号帧的量化的帧能量对数平均值。若所述的发送类型是无数据NO—DATA,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差。在上述编码方法中的VAD方法也可以采用波形检测的方法,艮P,采用固定的阈值或根据被检测的合成数字声音信号帧确定阈值,若所述的合成数字声音信号帧中的波形中的波峰的上升沿的幅度超过该阈值,就将所述话音激活检测的结果确定为有话音。采用固定的上升沿阈值和下降沿阈值,或根据被检测的合成数字声音信号帧设定上升沿阈值和下降沿阈值,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的波峰的上升沿的幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值,就将所述话音激活检测的结果设定为有话音现有技术中的话音激活检测方法对合成数字话音信号仍然适用,对于波形中波峰数目很多但上升沿和下降沿幅度相差不大的情形来说,现有技术中的将信号能量同背景噪声能量比较的方法是能够检出信号来的。但对于波形中波峰数目较少的情形来说,本发明在下面给出的方法检出有话音的信号的能力更强根据被检测的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。根据被检测的合成数字声音信号帧设定上升沿阈值、下降沿阈值和范围,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的上升沿幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值波峰的个数在所述范围之内,就将所述话音激活检测的结果设定为有话音。本发明的技术方案也并不排斥对话音采样数字信号(它的预处理后的数字信号)进行信号电平和背景噪声电平的计算和比较并根据比较的结果决定发送类型TX_TYPE,虽然本发明的实施例中的输入到VAD装置的是合成数字声音信号而非经过预处理的声音信号(或声音信号)。有益效果由于采用了先执行线性预测和码书搜索再执行VAD的方法,这样,根据码书搜索和线性预测所生成的激励信号的出现就先于VAD操作,针对激励信号通过线性预测合成滤波器的输出进行VAD,这样,如果原始数字声音帧经过线性预测、自适应码书搜索和固定码书搜索处理后的形成的合成数字信号帧的特征是有话音的,其VAD的结果就是有话音的,译码方收到的非背景噪声编码速率的AMR编码帧经译码后产生的数字语音信号帧的特征与编码方的该编码速率的用于检测的合成数字语音信号的特征相似;编码方在无法检测到具有活动话音的合成数字信号的情况下才有可能产生SID编码类型的AMR编码帧。本发明将VAD的对象直接定位在非背景噪声编码速率的AMR编码帧所对应的合成数字话音信号帧上,因编码速率降低会造成该编码速率的合成数字话音信号帧的VAD结果趋向于无活动话音,即,对于具有一定数量的帧的声音信号来说,使用本发明的方法,编码速率降低会使根据输入信号电平和背景噪声估计值间差值所作的VAD判决的结果为无话音的帧的个数增加。因此,本发明还可以提高AMR编码技术的声音压縮率,使同样的无线资源能容纳更多的声音信号。由于采用了先执行线性预测和码书搜索再执行VAD的方法,这样,按非背景噪声编码速率生成的激励信号的出现就先于VAD操作,按非背景噪声编码速率的码书搜索的操作在执行的次序上先于VAD操作,当VAD的结果使DTX控制和操作模块产生的发送类型指示不是正常语音(SPEECH一G00D)时按非背景噪声编码速率生成合成数字话音信号时产生的激励信号的参数就不能再用于下一帧的非背景噪声编码速率的编码了,本发明的在此情况下有选择地弃用语音模式下进行线性预测、自适应码书搜索和固定码书搜索所得到的参数,即,除了使用编码背景噪声编码速率编码帧所产生的激励信号和量化能量预测误差参数以外,为下一帧输入声音信号生成合成数字声音信号时就可以利用从语音模式下执行线性预测、自适应码书搜索和固定码书搜索操作所得到的参数,而不必再象现有技术那样编码SID帧后放弃按非背景噪声编码速率执行线性预测和码书搜索产生的其它参数,由于有了这一方案,为下一输入声音信号帧生成的用于话音激活检测的合成数字声音信号含有更多的输入声音信号的特征,因为现有技术中,一旦遇到一次背景噪声速率编码帧,会将AMR-NB编码器中的包括激励信号和量化能量预测误差的状态变量都复位,此刻编码器丢失了过去的输入声音信号的特征。在收到语音模式的AMR-NB编码帧后,接收方的译码器与编码器中的语音模式编码模块分别参照一致的包括上一帧子帧样本点的过去样本点上的激励信号和四个子帧的量化能量预测误差,一方使用信道上的收到的编码帧中的参数,另一方使用自己编码到该编码帧中去的参数,分别生成各自子帧的激励信号和合成语音,所以接收方译码器合成的的激励信号与所述语音编码模块合成的激励信号完全一致,译码器使用和编码器一致的激励信号使译码产生的合成语音的听觉质量有保证。本发明的将合成数字话音信号的波峰的幅度同阈值比较的VAD方法可以在预测合成滤波器极点对应的谐振峰反映在波形上的波峰的幅度高于阈值时检出该波峰所在的合成数字话音信号帧。当
背景技术
中提到的合成数字话音信号的尖峰比原始信号更为突出这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿或下降沿比原始信号的更大时,上述的将合成数字话音信号的波峰的幅度同阈值比较的方法可以检测出无法通过检测原始信号波形的尖峰而检出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿比原始信号的更大时,本发明的将合成数字话音信号的波峰的上升沿同阈值比较的方法可以检测出原来无法检出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿的斜率比原始信号更大时,将合成数字话音信号的波峰的上升沿的斜率同阈值比较的方法可以检测出原来无法检出的帧。图l是支持恒定语音模式编码的可变速率的自适应多速率窄带(AMR-NB)编码器的原理框图。图2是图1中语音编码模块的简化框图。图3是以3GPP的TS26074-500中的DTX4.INP为输入信号以12.2kb/s为编码速率的第393帧的合成数字话音信号帧,图上的7.84是指7.84秒的时刻。图4是为每一个输入信号帧生成一个AMR-NB编码帧的AMR-NB编码器。图5是图4中的语音编码模块的简化框图。图6是作为输入信号的3GPP的TS26074-500中的DTX4.INP经过预处理后的数字话音信号的第392帧,图上的7.84是指7.84秒的时刻。图7是以3GPP的TS26074-500中的DTX4.INP为输入信号以12.2kb/s为编码速率的编码译码后的合成数字话音信号的第393帧,图上的7.84是指7.84秒的时刻。具体实施方式实施例1,一个可以在恒定语音模式和不连续发送DTX模式间切换的自适应多速率窄带(AMR-NB)编码器,如图1所示,话音采样率为8kHz的13比特均匀脉冲调制(PCM)输入声音信号帧l同时向非背景噪声编码速率语音编码模块和背景噪声编码模块输出,语音编码模块将信号帧1的非背景噪声编码速率的自适应多速率窄带(AMR-NB)编码帧11向编码帧输出选择模块输出,背景噪声编码模块将信号帧1的背景噪声编码速率的自适应多速率窄带(AMR-NB)静音描述编码帧12向编码帧输出选择模块输出,语音编码模块还将编码信号帧1时产生的合成数字话音信号帧17向话音激活检测模块输出,合成数字话音信号帧17的生成按照3GPP的26090-500的5.9节中给出的生成本地合成语音(localsynthesizedspeech)的方法产生,话音激活检测模块对合成数字话音信号帧17进行话音激活检测,并将检测的结果——VAD标志18向不连续发送(DTX)控制和操作模块输出,DTX控制和操作模块输出发送类型信号19到编码帧输出选择模块,编码帧输出选择模块将收到的发送类型信号19向3G(第三代移动通信)无线接入网(AN)输出。发送类型信号19是正常话音(SPEECH一GOOD)、静音描述开始(SID一FIRST)、静音描述更新(SID—UPDATE)、无数据(NO—DATA)四种之一,当发送类型信号19是正常话音(SPEECH一G00D)时,编码帧输出选择模块输出的信息比特2是按非背景噪声编码速率(语音模式)编码的自适应多速率窄带(AMR-NB)编码帧11;当发送类型信号19是静音描述更新(SID—UPDATE)时,编码帧输出选择模块输出的信息比特2是按背景噪声编码速率编码的自适应多速率窄带静音描述(AMR-NB一SID)帧12;当发送类型信号19是静音描述开始(SID_FIRST)时,编码帧输出选择模块输出的信息比特2也是背景噪声编码模块输出的AMR-NB一SID帧12而不是按照3GPP技术规范TS26093形成的SID—FIRST帧(35个舒适噪声比特全为0的帧);当发送类型信号19是无数据(NO一DATA)时,信息比特2对于3G的AN无效,所以当发送类型信号19不是正常话音(SPEECH—GOOD)时,编码帧输出选择模块将背景噪声编码模块输出的AMR-NB—SID帧12放到信息比特2里。不连续发送控制和操作模块还接收编码方式信号5,编码方式信号5指示恒定语音模式或不连续发送DTX模式,当编码方式信号5是不连续发送DTX模式时不连续发送控制和操作模块发送的发送类型信号19可以是正常话音(SPEECH一G00D)、静音描述开始(SID—FIRST)、静音描述更新(SID—UPDATE)、无数据(NO—DATA)四种之中的任意一种,此时发送类型信号19的内容仅由DTX控制和操作模块根据VAD标志18的运行结果决定,当编码方式信号5是恒定语音模式时发送类型信号19内容为正常话音(SPEECH—GOOD),BP,VAD标志18输出到了不连续发送控制和操作模块,但不连续发送控制和操作模块收到该信号(不管其内容是有话音还是无话音)后就输出内容是正常话音(SPEECH—GOOD)的发送类型信号19,不连续发送控制和操作模块将其状态变量复位到初始状态,这样只有语音编码模块编码的AMR-NB帧才会被发送到3G的AN。若不连续发送(DTX)控制和操作模块根据输入的VAD标志18将发送类型信号19设定为正常话音(SPEECH—GOOD)的发送类型指示,不连续发送(DTX)控制和操作模块也向语音编码模块发送当前8kHz的13比特均匀PCM信号帧1的AMR-NB编码帧的发送类型指示——正常话音(SPEECH—GOOD),收到该发送类型信号19后语音编码模块为当前8kHz的13比特均匀PCM信号帧的相邻的后一帧编码AMR-NB帧时仍使用模块本身的激励信号缓冲器中的激励信号和模块本身的量化能量预测误差缓存器中的量化能量预测误差,即,仍然按照3GPP的TS26090所描述的方法来使用其激励缓冲器中的激励信号和使用量化能量预测误差;若不连续发送(DTX)控制和操作模块根据输入的VAD标志18将发送类型信号19设定为静音描述开始(SID—FIRST)、静音描述更新(SID—UPDATE)和无数据(NO—DATA)三个之中的任一个,不连续发送(DTX)控制和操作模块也把该信号19向语音编码模块发送,收到这些类型之一的发送类型信号19后,语音编码模块就要用背景噪声编码模块完成对当前的PCM信号帧1编码后产生的激励信号35去代替其自身激励信号缓冲器中的激励信号供编码与当前8kHz的13比特均匀PCM信号帧的相邻的后一帧的AMR-NB帧时使用,同样,语音编码模块要用背景噪声编码模块完成对当前的PCM信号帧1编码后产生的四个子帧的量化能量预测误差37去代替本身的量化能量预测误差缓存器中的四个子帧的量化能量预测误差供编码与当前8kHz的13比特均匀PCM信号帧的相邻的后一帧的AMR-NB帧时使用。译码器收到编码器发送的AMR一SID帧后,从中获得帧能量对数的索引,根据帧能量对数的索引获取帧能量对数平均值,将其四个子帧的量化能量预测都设置为该帧能量对数平均值,由于本实施例中SID一UPDATE和SID一FIRST帧都包含了帧能量对数的索引,译码器在收到AMR—SID帧时都能和编码器釆用一样的量化能量预测误差,由于译码器收到语音模式AMR-NB帧时根据其中的修正因子设置量化能量预测误差,译码器在编码器暂停发送的DTX期间保持量化能量预测误差不变,所以编码器和译码器能保持一致的量化能量预测误差。图1和3GPP的TS26.071的图1中发送方(TRANSMITSIDE)的右边的编码部分的框图相似,不同之处在于话音激活检测(VoiceActivityDetector)模块从语音编码模块那里接收到的信号不同,3GPP的的TS26.071的图1中的是语音采样经语音编码(SpeechEncoder)模块预处理后的信号,本文图1中的是语音编码模块对输入的语音数字信号帧进行线性预测及量化、自适应码书搜索以及固定码书搜索后所生成的合成数字语音信号帧。本文的图1中,在发送类型信号19是正常话音(SPEECH—GOOD)或是静音描述更新(SIDJJPDATE)时编码帧输出选择模块要从语音编码模块生成的AMR-NB编码帧和背景噪声编码模块生成的自适应多速率窄带静音描述(AMR-NB一SID)编码帧中选择一个作为信息比特(infobits);与本发明不同,在3GPP的的TS26.071的图1中的语音编码帧(speechframe)4和静音描述帧(SIDframe)5不会同时出现,不存在从两者之中作选择的这个操作。图2所示的是图1中语音编码模块的简化框图,它给出了信号的处理流程,该图和3GPP的TS26.090-500中的图3(AMR编码器的简化框图)基本相同,图2中的A(z)是未量化系数的逆向滤波器(Theinversefilterwithquantizedcoefficients),x(n)是自适应码书搜索的目标信号,X2(n)固定码书搜索的目标信号,在TS26.090-500中各章节的描述覆盖了其图3的内容,所以也覆盖了本文的图2所涉及的与其图3相同的内容。本文的图2中的与TS26.090-500中的图3的不同的地方为以下几处图2中所示的语音编码模块利用量化系数的逆向滤波器(Theinversefilterwithquantizedcoefficients)获得线性预测合成滤波器,用该合成滤波器对激励信号滤波产生合成数字声音信号帧17;图2中还示出了后处理流程,该后处理就是先对发送类型19的内容进行检测,若不是SPEECH—GOOD,就用激励信号35代替当前帧的激励信号,用量化能量预测误差37代替当前帧中的四个子帧的量化能量预测误差;图1中的AMR-NB编码帧11中的参数就来自于图2中的LSP索引、自适应码书索引、自适应码书增益索引、固定码书索引和固定码书增益索引。下面是AMR-NB编码器以3GPP的TS26.074-500中的DTX4.INP所表示的信号为输入信号进行12.2kb/s编码的过程的一段时间上的详细说明,DTX4.INP的总长度是1188个帧,每帧20毫秒,即总长23.76秒,DTX4.INP的每个样本点的值被表示为16比特,AMR-NB编码器将其3个最低有效位(比特2-比特O)置0从而形成13比特的数字话音信号(该数字话音信号的精度为8)。工作在12.2kb/s编码速率的语音编码模块对输入信号帧进行3GPP的TS26.090的5.1章节所规定的预处理后以12.2kb/s进行非背景噪声编码速率语音模式编码,这包括了线性预测及量化、自适应码书搜索、固定码书搜索的AMR-NB编码和生成合成数字话音信号的一系列操作。编码方式信号5在7.7秒前为恒定语音模式,编码器对7.7秒之前的输入信号帧一直以12.2kb/s的恒速率的编码输出,即为DTX4.INP的第1帧(0秒至0.02秒)到第385帧中的每一帧选择信息比特19时都采用语音编码模块产生的12.2kb/s的速率编码帧;从7.7秒开始到8.10秒为止编码方式信号5为DTX模式,g卩,第386帧到第405帧中的每一帧的编码速率是由VAD模块和DTX控制和发送模块确定的12.2kb/s和背景噪声编码速率(l.80kb/s)中的一个,现在对DTX方式工作期间的编码过程进行考察。对于本实施例的合成数字话音帧,可以参考3GPP的TS26.074-500提供的文件DTX4一122.COD(COD是文件的后缀名),用该文件所确定的合成数字话音信号的第393帧来对照图3所示的第393帧的合成数字话音信号帧的波形。3GPP的AMR的VAD1选项的话音激活检测对于DTX4.INP的第386到第405帧的VAD结果一直是无话音的,它无法检测出图7中第392帧的有话音的语音特征,而下面给出的3种VAD方法都在第393帧(7.84秒到7.86秒)检测出了合成数字话音帧的有话音的语音特征,本实施例中的VAD使用了下述的第3种方法,在表格1中列出了这些帧的检测结果。DTX控制和操作装置在收到有话音的VAD标志43后将TX_TYPE设为SPEECH—GOOD,连续收到8个内容是无话音的VAD标志43后将TX—TYPE设置为SID_FIRST,如果再收到3个无话音的VAD标志43就将TX一TYPE设置为SIDJJPDATE(SID—UPDATE和SID—FIRST之间的2个TXJTYPE是NOJ)ATA),此后每收到连续8个无话音的VAD标志43就将TXJTYPE设置为SID—UPDATE(该SID—UPDATE之前的TX—TYPE都是NO_DATA)。图3示出第393帧的合成数字话音信号帧的波形,图的横坐标标注了时间,纵坐标标注了百分比,可以看出图中给出的第393帧前半个帧(7.84秒到7.85秒)的范围在-l.6%到2.2%之间。由于16位有符号整数的范围是-215(等于-32768)到215-1(等于32767),-1.6%到2.2%相当于-524到720,第一种VAD方法规定波峰大于等于502的阈值则VAD判决是有话音时,可以检测出第393帧的话音信号,在图中第393帧前半个帧(7.84秒到7.85秒)内最大的波峰的值是430,与其相邻的左边的波谷为-176,与其相邻的右边的波谷的值为-81,艮卩,上升沿长是606,下降沿为511都超过了502,这样第393帧就会被判决为有话音;第二种VAD方法规定波峰中的上升沿或下降沿大于等于592的阈值则VAD判决是有话音,这种方法也可以检测出第393帧的话音信号;第三种VAD方法规定波峰中的上升沿大于等于592的阈值并且波峰的下降沿大于等于502的阈值则VAD判决是有话音,这种方法也可以检测出第393帧的话音信号。<table>tableseeoriginaldocumentpage24</column></row><table>表格1合成数字话音信号帧393的帧的样本点上的信号值按先后顺序在下面花括号内{-43,42,13,15,7,—41,—1,33,0,—1,1,-6,—5,—176,—32,215,430'186,—81,—74,195,105,19,—29,—72,—29,—46,-235,123,-98,—67,-72,16,39,126,71,—63,53,31,-153,92,136,100,2,17,-45,31,45,-47,-102,-98,-44,8,88,1,-41,118,-52'1,59,32'10,-27,-41,108,-45,-44,55'72,-26,119,-110,-70,-131,43,54'10,-41,-50,16,-15,56,20,13,-13,-1,-3,6,11,9,-44,-119,-134,151,288,104,—229'-39,—6,25,188,61,一73,—27,-233,—137,136,_2,—218,56,43,139,-14,5,-16,246,22,-131,89,76'-97,7,134,9,42,3,-31,-102,-126,-49,-11,-36,-64,-5,144'201,17,42,56,-146,-134,1,-76,-153,-81,22,2,-39,39'80,42,80,31,-30,-41,-52,-75,-16,7,-17}可以计算出该帧的帧的平均幅度是(帧内每个样本点上的信号值的绝对值之和)是10813。在VAD中的可以使用上述3种波形检测方法,第一种波形检测是在上升沿和下降沿幅度都大于阈值时将VAD结果设定为有话音,求阈值的方法是在500和加权系数0.04643与帧的平均幅度的乘积之间取其中的较大值,后者是0.04643乘10813等于502,所以该方法的阈值为502;第二种波形检测是在上升沿幅度大于阈值时将VAD结果设为有话音,求阈值的方法是在572和加权系数0.05475与帧的平均幅度的乘积之间取其中的较大值,后者是0.05475乘10813等于592,所以该方法的阈值为502;第三种波形检测是在波峰的上升沿和下降沿幅度分别大于各自的阈值时将VAD结果设为有话音,上升沿幅度的阈值是按在572和加权系数0.05475与帧的平均幅度的乘积之间取其中的较大值的方法得到的,下降沿幅度的阈值是按在在500和加权系数0.04643与帧的平均幅度的乘积之间取其中的较大值的方法得到的,所以它们分别为592和502,表格1的第二列的VAD标志的数值是按照这个VAD方法得到的。但是对于同样的DTX4.INP输入,将上述检测波形的方法用于3GPP技术规范26.073规定的AMR-NB编码器的第393帧的VAD的预处理数字话音信号则无法将该帧检出为有话音的帧,即,采用上述上升沿和下降沿幅度都大于各自对应的阈值则VAD判决为有话音的方法,不能将原预处理数字话音信号的第393帧判决为有话音。在上述的3种波形检测方法中都是只要被比较值超过阈值就把VAD判决定为有话音,实际上为超过阈值的波峰数设定范围也是一种检测波形的方法,例如,可以规定当上升沿和下降沿幅度分别大于各自的阈值的波峰的数目在1到3的范围内就将VAD结果设为有话音,上升沿幅度的阈值是按在572和加权系数0.05475与帧的平均幅度的乘积之间取其中的较大值的方法得到的,下降沿幅度的阈值是按在在500和加权系数0.04643与帧的平均幅度的乘积之间取其中的较大值的方法得到的,所以它们分别为592和502,在这一规定之下仍然可以检出第393个合成数字话音帧的有话音的VAD结果。实施例1中执行编码所按照的2个编码速率是一个是背景噪声编码速率另一个是非背景噪声编码速率,这样,发送类型19指定了编码后一帧时应该使用的量化能量预测误差和激励信号,即,若发送类型信号19内容是SPEECH—GOOD则以12.2kb/s编码所产生的激励信号和量化预测误差将被它在编码下一帧时使用,否则语音编码模块编码下一帧时使用背景噪声编码模块复位后的激励信号和根据量化的帧能量对数平均值生成的量化预测误差。第386帧之前DTX控制和操作模块一直维持在初始的状态,自第386帧开始工作,前7帧始终都不会产生SID—FIRST的输出(第一个SID—FIRST需要8个VAD为无话音的帧),因为第8帧即第393帧被检测出是有话音的,因此表格1中的393到400帧的输出也都是12.2kb/s的AMR-NB帧。实施例2,如图4所示一个对一个输入话音信号帧只有一个编码模块为其产生AMR-NB编码帧的AMR-NB编码器,输入声音信号帧42是13比特均匀PCM帧,43是VAD标志,44是AMR-NB编码语音帧(非背景噪声编码速率自适应窄带编码帧),45是AMR-NB静音描述(SID)帧,46是发送类型的指示,47是传给3G接入网的信息比特,语音编码模块对13比特均匀PCM帧进行线性预测和码书搜索得到的合成数字话音信号帧48,49是对13比特均匀PCM帧进行预处理后得到的预处理后的声音信号帧,50是背景噪声编码模块编码背景噪声编码速率的编码帧-静音描述(SID)帧时生成的子帧的量化能量预测误差——量化的帧能量对数平均值,是帧能量的对数平均值(averagedlogarithmicenergy)经过量化处理后的值,四个子帧的量化能量预测误差都用该数值,在3GPP的TS26.092-500的5.2节帧能量计算(Frameenergycaculation)中给出了帧能量的对数平均值和量化的帧能量对数平均值定义。图4和3GPP26.071-400图1中描述的发送部分(Transmitside)的右边一个框图类似,不同的地方在于本发明的图4中的话音激活检测模块对合成数字话音信号进行检测,3GPP的方法是对预处理后的数字话音信号进行检测。图4中的背景噪声编码模块参照的3GPP的TS26.092的技术规范实现背景噪声编码速率AMR-NB帧的编码的功能。背景噪声编码模块把向语音编码模块提供其编码SID帧时产生的量化能量预测误差——量化的帧能量对数平均值在图4中有了明确的表示,背景噪声编码模块接收VAD标志43,当背景噪声编码模块接收到连续8个以上(包括8个)内容为无话音的VAD标志43时就对其帧能量对数平均值50进行更新计算。图4的语音编码模块的简化框图如图5所示,图5中的后处理流程中,当当前帧的发送类型46不是SPEECH_GOOD时,使用己知的激励信号的复位值来设置其激励缓冲器中存放的当前帧的激励信号,该激励缓冲器中的激励信号至少是包含最后一个子帧的154个样本点上的信号值,根据来自背景噪声编码模块的量化的帧能量对数平均值50来设置当前的四个子帧的量化能量预测误差。在本实施例中,语音编码模块接收13比特均匀PCM帧42,向话音激活检测模块发送其对预处理后的话音数字信号进行线性预测、自适应码书搜索和固定码书搜索后得到的合成数字话音信号帧,即用自适应码书按自适应码书增益放大后与固定码书按固定码书增益放大后相加得到激励信号,再用激励信号通过由线性预测得到的线性预测(LP)参数-i(z)所确定的线性预测合成滤波器得到合成数字话音信号帧48(用于合成数字话音帧的线性预测合成滤波器也可以由线性预测参数J(z)所确定);话音激活检测模块根据对合成数字话音信号帧48的检测所得到VAD结果——VAD标志43向DTX控制和操作模块输出,DTX控制和操作模块的功能同3GPP中规定的一样,具体参见TS26.093-520的5.l节。图4示出的语音编码模块在收到发送类型指示46是正常语音(SPEECH—GOOD)时产生AMR-NB语音模式编码帧(非背景噪声编码速率编码帧),此时图5中的LSP索引、自适应码书索引、自适应码书增益索引、固定码书索引和固定码书增益索引才会被编入该AMR-NB语音模式编码帧中;当背景噪声编码模块在收到的发送类型指示46不是正常语音(SPEECH—GOOD)时,背景噪声编码模块为预处理后的话音数字信号帧49编码AMR-NB静音描述(SID)帧45,DTX控制和操作模块在发送类型指示46是正常语音(SPEECH—GOOD)时在信息比特47里放AMR-NB编码语音帧44向3G接入网(AN)发送,DTX控制和操作模块在发送类型指示46是静音描述更新(SID—UPDATE)时在信息比特47里放自适应多速率静音描述(AMR一SID)帧45向3G接入网(AN)发送,DTX控制和操作模块在发送类型指示46是静音描述开始(SID一FIRST)时在信息比特47里放按照3GPP技术规范TS26093形成的SID一FIRST帧向3G接入网(AN)发送,TX控制和操作模块在发送类型指示46是无数据(N(LDATA)时指示3G接入网不进行话音帧的发送,所以在信息比特里无论放什么都可以。在实施例2中的不连续发送DTX控制和操作装置接收VAD结果来自于对合成数字话音的检测,其操作按照3GPP的TS26.093的规定。如技术方案中所述的,在传送背景噪声模式编码帧的情况下,双方将激励信号复位到一致的激励信号,译码器根据SID—UPDATE帧中的帧能量对数平均值索引设置量化能量预测误差使之与编码器的相一致,译码器根据在SID一FIRST帧之前收到的多个语音模式帧的帧能量的对数平均值设置量化能量预测误差使之与编码器的相一致;在传送语音模式编码帧的情况下,译码器使用收到的编码帧中的参数,编码器使用自己编码到该编码帧中去的参数,基于一致的激励信号和量化能量预测误差生成一致的子帧的激励信号和合成语音。所以对应于上述编码器的译码器可以和编码器保持一致的激励信号和量化能量预测误差。权利要求1.一种按照背景噪声编码速率和一个非背景噪声编码速率对输入信号帧序列中的一输入信号帧进行自适应多速率窄带AMR-NB编码和对与该输入信号帧相邻的后一输入信号帧进行AMR-NB编码的方法,其特征在于,根据以所述非背景噪声编码速率对所述的一输入信号帧编码所得到的自适应码书参数和固定码书参数生成激励信号,根据以所述非背景噪声编码速率对所述的一输入信号帧编码所得到的线性预测参数确定线性预测合成滤波器,用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;根据所述合成数字声音信号帧进行话音激活检测,根据所述话音激活检测的结果确定不连续发送的发送类型;若所述的发送类型是正常话音SPEECH_GOOD,根据所述一输入信号帧的所述非背景噪声编码速率的AMR-NB编码帧中所使用的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若所述的发送类型不是SPEECH_GOOD,将所述的一输入信号帧的的激励信号复位;根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。2.根据权利要求1的方法,其特征在于,若所述的发送类型是SPEECH—GOOD,根据所述一输入信号帧的所述非背景噪声编码速率的AMR-NB编码帧中所使用的修正因子correctionfactor,生成所述的一输入信号帧的子帧的量化能量预测误差;若所述的发送类型是静音描述开始SID—FIRST或静音描述更新SID_UPDATE,根据所述一输入信号帧的量化的帧能量的对数平均值,生成所述的一输入信号帧的子帧的量化能量预测误差;若所述的发送类型是无数据NO一DATA,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差;根据所述的一输入信号帧的子帧的量化能量预测误差对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。3.根据权利要求1或2的方法,其特征在于其中进行的话音激活检测包括对合成数字声音信号帧的波形检测。4.根据权利要求3的方法,其特征在于,所述的对所述合成数字声音信号帧的波形检测包括根据所述的合成数字声音信号帧确定阈值,若所述的合成数字声音信号帧中的波形中的波峰的上升沿的幅度超过该阈值,就将所述话音激活检测的结果确定为有话音。5.根据权利要求3的方法,其特征在于,所述的对所述合成数字声音信号帧的波形的检测包括根据所述的合成数字声音信号帧设定上升沿阈值和下降沿阈值,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阚值和下降沿阈值比较;若波形中的波峰的上升沿的幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值,就将所述话音激活检测的结果设定为有话音。6.根据权利要求3的方法,其特征在于,所述的对所述合成数字声音信号帧的波形检测包括:根据所述的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。7.根据权利要求3的方法,其特征在于,所述的对所述合成数字声音信号帧的波形检测包括根据所述的合成数字声音信号帧设定上升沿阈值、下降沿阈值和范围,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的上升沿幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值波峰的个数在所述范围之内,就将所述话音激活检测的结果设定为有话音。8.—种带有不连续发送控制和操作装置的自适应多速率窄带AMR-NB编码器,所述不连续发送控制和操作装置按照话音激活检测结果确定发送类型TX—TYPE和确定AMR-NB编码帧的编码速率,在所述AMR-NB编码器中,对输入声音信号帧进行线性预测,根据所述编码速率为所述输入声音信号帧编码并输出类型为TX—TYPE的AMR-NB发送帧,并生成用于编码下一个声音输入信号帧的所述输入声音信号帧的激励信号,其特征在于,由对所述输入声音信号帧进行线性预测得到的线性预测参数确定线性预测合成滤波器;根据语音模式的编码速率对所述声音输入声音信号帧自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数生成语音模式的激励信号;用所述线性预测合成滤波器对所述语音模式的激励信号滤波生成合成数字声音信号帧;根据对所述合成数字声音信号帧执行的话音激活检测得到所述的话音激活检测结果;若所述TX一TYPE是正常话音SPEECH—G00D,根据所述的对输入声音信号帧的自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数为输入声音信号帧编码AMR-NB发送帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述输入声音信号帧的激励信号;若所述TX一TYPE是静音描述开始SID一FIRST或静音描述更新SIDJJPDATE,按背景噪声编码速率为输入信号帧编码AMR-NB发送帧,并将所述的输入声音信号帧的激励信号复位;若所述TX一TYPE是无数据NO—DATA,将所述的输入声音信号帧的激励信号复位。9.根据权利要求8的编码器,还包括确定编码与所述输入声音信号帧相邻的后一输入信号帧的语音模式AMR-NB帧所需要的所述输入声音信号帧的四个子帧的量化能量预测误差的装置,其特征在于,根据所述输入声音信号帧的发送类型TX一TYPE确定所述输入声音信号帧的四个子帧的量化能量预测误差,艮P,在所述发送类型是正常话音SPEECH一G00D时该装置根据所述输入声音信号帧的非背景噪声编码速率的AMR-NB编码帧中所给出的修正因子生成所述输入声音信号帧的四个子帧的量化能量预测误差,在所述TX—TYPE是静音描述开始SID_FIRST或静音描述更新SID—UPDATE时该装置将所述输入声音信号帧的四个子帧的量化能量预测误差设置为所述输入声音信号帧的量化的帧能量对数平均值,若所述的发送类型是无数据NO一DATA,将与所述输入声音信号帧相邻的前一输入声音信号帧的子帧的量化能量预测误差作为所述输入声音信号帧的子帧的量化能量预测误差。10.根据权利要求8或9的编码器,其中执行的话音激活检测包括对合成数字声音信号帧的波形的检测。11.根据权利要求10的编码器,其特征在于,所述对合成数字声音信号帧的波形的检测包括根据所述合成数字声音信号帧确定一个阈值,将所述合成数字声音信号帧中的波形的波峰的上升沿的幅度同所述阈值比较,当所述波形的波峰的上升沿的幅度大于该阈值就将所述的话音激活检测的结果确定为有话音。12.根据权利要求10的编码器,其特征在于,所述对合成数字声音信号帧的波形的检测包括根据所述的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。13.根据权利要求10的编码器,其特征在于,所述对合成数字声音信号帧的波形的检测包括:根据所述的合成数字声音信号帧设定上升沿阈值、下降沿阈值和范围,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的上升沿幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值波峰的个数在所述范围之内,就将所述话音激活检测的结果设定为有话音。14.根据权利要求10的编码器,其特征在于,所述对合成数字声音信号帧的波形的检测包括:根据所述的合成数字声音信号帧设定上升沿阈值和下降沿阈值,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的波峰的上升沿的幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值,就将所述话音激活检测的结果设定为有话音。15.—种对一输入信号帧序列中的一输入信号帧进行自适应码书搜索、固定码书搜索及自适应多速率窄带AMR-NB编码和对与该输入信号帧相邻的后一输入信号帧进行非背景噪声编码速率AMR-NB编码的方法,其特征在于,对所述的一输入信号帧进行线性预测,并根据所得到的线性预测参数确定线性预测合成滤波器,按语音模式编码速率对所述一输入信号帧自适应码书搜索、固定码书搜索,并根据所得到的自适应码书参数和固定码书参数生成激励信号,用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;根据所述合成数字声音信号帧进行话音激活检测,根据该话音激活检测的结果确定不连续发送的发送类型;若所述的发送类型是正常话音SPEECH—G00D,根据所述的语音模式编码速率为所述一输入信号帧的编码AMR-NB编码帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若发送类型是静音描述更新SIDJJPDATE或静音描述开始SID_FIRST则生成所述输入信号帧的按背景噪声编码速率编码的自适应多速率窄带静音描述AMR-NB一SID帧;若所述的发送类型不是SPEECH_G00D,将所述的一输入信号帧的的激励信号复位;根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声的语音模模式编码速率的编码操作。16.根据权利要求15的方法,其特征在于,若所述发送类型是正常话音SPEECH—GOOD则生成所述输入信号帧的非背景噪声编码速率的AMR-NB帧,并根据该AMR-NB帧中的修正因子correctionfactor生成量化能量预测误差;若所述发送类型是静音描述开始SID_FIRST或静音描述更新SID—UPDATE则将所述输入数字声音帧的量化能量预测误差设置成该输入信号帧的量化的帧能量对数平均值;若所述的发送类型是无数据NO—DATA,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差。17.根据权利要求15或16的方法,其特征在于其中进行的话音激活检测包括对合成数字声音信号帧的波形的检测。18.根据权利要求17的方法,其特征在于,所述对合成数字声音信号帧的波形的检测包括,在所述合成数字话音信号帧中的波形的波峰的上升沿的幅度超过阈值时就将所述话音激活检测结果设定为有话音。19.根据权利要求17的方法,其特征在于所述对合成数字声音信号帧的波形的检测根据所述的合成数字声音信号帧设定上升沿阈值和下降沿阈值,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的波峰的上升沿的幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值,就将所述话音激活检测的结果设定为有话音。20.根据权利要求17的方法,其特征在于,所述对合成数字声音信号帧的波形的检测包括根据所述的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。21.根据权利要求17的方法,其特征在于,所述对合成数字声音信号帧的波形的检测包括:根据所述的合成数字声音信号帧设定上升沿阈值、下降沿阈值和范围,将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较;若波形中的上升沿幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值波峰的个数在所述范围之内,就将所述话音激活检测的结果设定为有话音。22.根据权利要求18的方法,其特征在于,根据所述的合成数字声音信号帧确定所述阈值。全文摘要本发明提出一种采用新的自适应多速率编码器和编码方法,其话音激活检测较现有技术有较大的改变,将话音激活检测的对象针对编码帧对应的合成数字话音,并且根据所述的改变重新对自适应多速率编码器和编码方法作了总体架构上的更新,从而使译码器合成的声音信号能准确地反映原始声音的听觉效果。本发明可直接应用于第三代移动通信系统——通用移动通信系统的话音编码技术中。文档编号G10L19/12GK101399043SQ20081009661公开日2009年4月1日申请日期2008年4月29日优先权日2007年7月30日发明者为向申请人:为向
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1