使用对齐的前瞻部分将音频信号编码及解码的装置与方法
【专利说明】使用对齐的前瞻部分将音频信号编码及解码的装置与方法
[0001]本申请是国际申请日2012年2月14日、国际申请号PCT/EP2012/052450的国际申请于2013年10月12日进入国家阶段的申请号为201280018282.7发明名称为“用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法”的专利申请的分案申请,其全部内容结合于此作为参考。
技术领域
[0002]本发明涉及音频编码,且特别地,涉及依赖于切换音频编码器及相应控制音频解码器,尤其适用于低延迟应用的音频编码。
【背景技术】
[0003]依赖于切换编解码器的若干音频编码概念是已知的。一个众所周知的音频编码概念是所谓的延伸型调适性多位率宽带(AMR-WB+)编解码器,如3GPP TS 26.290B10.0.0 (2011-03)中所述。AMR-WB+音频编解码器包括所有AMR-WB语音编解码器模式1至9及AMR-WB VAD以及DTX。AMR-WB+通过增加TCX、带宽扩展及立体声来扩展AMR-WB编解码器。
[0004]AMR-WB+音频编解码器以内部采样频率?5处理等同于2048个样本的输入帧。内部采样频率被局限于12800到38400Hz的范围。2048个样本帧被分成两个临界采样的等频带。这产生对应于低频(LF)及高频(HF)带的两个1024样本的超级帧。每一超级帧被划分成四个256-样本帧。通过使用重新采样输入信号的可变采样转换方案而获得内部采样率处的采样。
[0005]LF及HF信号随后使用两种不同的方法而被编码:LF使用“核心”编码器/解码器基于切换ACELP及变换编码激励(TCX)而被编码及解码。在ACELP模式中,标准的AMR-WB编解码器被使用。HF信号是使用带宽扩展(BWE)方法以相对较少位(16位/帧)而被编码的。从编码器传送至解码器的参数是模式选择位、LF参数及HF参数。用于每一 1024样本超级帧的参数被分解成相同大小的四个数据包。当输入信号为立体声时,左右信道被组合成一单个信号以供ACELP/TXC编码,而立体声编码接收这两个输入信道。在解码器端,LF及HF带被单独解码,在此之后,它们在合成滤波器组中被合成。若输出仅限于单声道,则立体声参数被忽略且解码器以单声道模式运作。当编码LF信号时,AMR-WB+编解码器对ACELP及TCX模式应用LP分析。LP系数被线性地内插于每一 64-样本子帧。LP分析窗口是长度为384样本的半余弦。为了编码核心单声道信号,ACELP或TCX编码被用于每一帧。编码模式是基于闭合回路合成分析法而选择的。仅256-样本帧被考虑用于ACELP帧,而256、512或1024样本帧可能是TCX模式的。AMR-WB+中的LPC分析所使用的窗口被示出于图5B中。具有20ms前瞻的对称LPC分析窗口被使用。前瞻意指,如图5B中所示,以500示出的当前帧的LPC分析窗口不仅在图5B中以502示出的0到20ms之间所指示的当前帧内延伸,而且延伸到20到40ms之间的未来帧中。这意味着,通过使用此LPC分析窗口,另外的20ms延迟,即整个未来帧,是必需的。因此,在图5B中以504指示的前瞻部分促成与AMR-WB+编码器相关联的系统延迟。换言之,未来帧必须完全可用以便使当前帧502的LPC分析系数可被算出。
[0006]图5A示出了另一编码器,所谓的AMR-WB编码器,且具体地,是用于计算当前帧的分析系数的LPC分析窗口。当前帧再一次在0到20ms之间延伸且未来帧在20到40ms之间延伸。对照于图5B,506所指示的AMR-WB的LPC分析窗口具有仅5ms的前瞻部分508,即20ms到25ms之间的时间距离。因此,LPC分析所引入的延迟相对于图5A大幅减小。然而,另一方面,已发现用于确定LPC系数的较大的前瞻部分,即LPC分析窗口的较大的前瞻部分导致较好的LPC系数,且因此,残余信号中有较小的能量,且因此,较低的位率,这是因为LPC预测更好地符合原始信号。
[0007]虽然图5A及图5B涉及仅具有用于确定一个帧的LPC系数的单一分析窗口的编码器,图5C示出了用于G.718语音编码器的情况。G718 (06-2008)规范涉及传输系统及媒体数字系统和网络,且特别是,描述数字终端设备,且特别地,用于该设备的语音及音频信号的编码。特别地,该标准涉及建议书ITU-T G718所定义的从8-32kb/s起的语音及音频的强健的窄带及宽带嵌入式可变位率编码。输入信号是使用20ms的帧来处理的。编解码器延迟视输入及输出的采样率而定。对于宽带输入及宽带输出,该编码的总算法延迟是42.875msο其由一个20_ms帧、输入及输出重新采样滤波器的1.875ms延迟,供编码器前瞻使用的10ms、后滤波延迟的1ms及解码器处的10ms组成,以允许较高层转换编码的重迭相加操作。对于窄带输入和窄带输出,较高层并未被使用,但10ms解码器延迟被用于改善在存在帧去除的情况及对于音乐信号的编码性能。若输出被限于层2,则编解码器延迟可减少10msο编码器的说明如下。下部的两层被应用于在12.8kHz采样的预先加强信号,且上面的三层在16kHz采样的输入信号域中运作。核心层是基于码激励线性预测(CELP)技术的,其中,语音信号通过穿过表示频谱包络的线性预测(LP)合成滤波器的激励信号而被模型化。LP滤波器使用切换预测方法及多阶向量量化在导抗频谱频率(ISF)域中被量化。开回路音高分析通过音高追踪算法来执行,以确保平滑的音高轮廓。两个共存的音高演进轮廓被比较且产生较平滑轮廓的轨道被选择,以使音高估计更强健。帧层级预处理包括高通滤波,每秒12800个样本的采样转换,预先加强,频谱分析,窄带输入的检测,语音活动检测,噪声估计,噪声降低,线性预测分析,LP至ISF转换以及内插,加权语音信号的计算,开回路音高分析,背景噪声更新,对于编码模式选择及帧去除隐藏的信号分类。使用选择的编码类型的层1编码包括清音编码模式、浊音编码模式、变换编码模式、通用编码模式以及不连续传输和舒适噪声生成(DTX/CNG)。
[0008]使用自相关法的长期预测或线性预测(LP)分析决定CELP模型的合成滤波器的系数。然而,在CELP中,长期预测通常是“适应性码簿”,且因此不同于线性预测。因此,线性预测可更多被视为短期预测。窗口化语音的自相关使用列文逊-杜宾(Levinson-Durbin)算法被转换成LP系数。接着,LPC系数被转换成导抗谱对(ISP),且因此为了量化及内插目的而转换成导抗频谱频率(ISF)。内插的量化及非量化系数被转换回LP域以构建对于每一子帧的合成及加权滤波器。若编码主动信号帧,则使用在图5C中以510及512所指示的两个LPC分析窗口,两组LP系数在每一帧中被估计。窗口 512被称作“中帧LPC窗口 ”,且窗口 510被称作“结束帧LPC窗口”。10ms的前瞻部分514被用于帧末端自相关计算。帧结构被示出于图5C中。帧被划分为四个子帧,每一子帧具有对应于采样率12.8kHz的64个样本的5ms长度。用于帧末端分析及用于中帧分析的窗口分别以第四子帧及第二子帧为中心,如图5C中所示。长度为320个样本的汉明窗口用于窗口化。该系数在G.718,6.4.1节中被定义。自相关计算被记载于6.4.2节中。列文逊-杜宾算法被记载于第6.4.3节中,LP至ISP转换被记载于6.4.4节中,且ISP至LP转换被记载于6.4.5节中。
[0009]语音编码参数,诸如适应性码簿延迟及增益,代数码簿索引及增益通过最小化感知加权域中的输入信号与合成信号之间的误差而被搜寻。感知加权是通过经由由LP滤波器系数所导出的感知加权滤波器来对信号滤波而执行。感知加权信号也用在开回路音高分析中。
[0010]G.718编码器是仅具有单一语音编码模式的纯语音编码器。因此,G.718编码器并非切换编码器,且因此,该编码器的缺点在于其仅在核心层内提供单一的语音编码模式。因此,当这一编码器被应用于语音信号以外的其他信号,即应用于CELP编码后的模型并不适当的一般音频信号时,质量问题将出现。
[0011]另外的切换编解码器是所谓的USAC编解码器,即定义于日期为2010年9月24日的IS0/IEC⑶23003-3中的统一语音及音频编解码器。该切换编解码器所用的LPC分析窗口在图?中以516来指示。再一次假定当前帧在0到20ms之间延伸,且因此,此编解码器的前瞻部分618似乎为20ms,即明显高于G.718的前瞻部分。因此,虽然USAC编码器由于其切换性质而提供良好的音频质量,但因为图f5D中的LPC分析窗口前瞻部分518,延迟是相当大的。USAC的一般结构如下。首先,有一共同预/后处理,其由处理立体声或多信道处理的MPEG环绕(MPEGS)功能单元及处理输入信号中的较高音频频率的参数表示的增强SBR(eSBR)单元所组成。接着,有两个分支,一个分支由修改的进阶音频编码(AAC)工具路径组成且另一分支由以线性预测编码(LP或LPC域)为基础的路径组成,以线性预测编码(LP或LPC域)为基础的路径转而具有LPC残余的频域表示或时域表示的特征。用于AAC及LPC的所有传输频谱在量化及算术编码之后被表示在MDCT域中。时域表示使用ACELP激励编码方案。ACELP工具通过组合长期预测器(适应性码字)与脉冲型序列(创新码字)来提供一种有效地表示时域激励信号的方式。重建的激励通过LP合成滤波器来发送以形成时域信号。ACELP工具的输入包括适应性及创新码簿索引,适应性及创新码增益值,其他控制数据及去量化和内插LPC滤波器系数。ACELP工具的输出是时域重建音频信号。
[0012]MDCT基TCX解码工具被使用来将加权LP残余表示从MDCT域变回时域信号并输出包括加权LP合成滤波的加权时域信号。MDCT可被配置成支持256、512或1024个频谱系数。向TCX工具的输入包括(去量化)MDCT谱,以及去量化和内插LPC滤波器系数。TCX工具的输出是时域重建音频信号。
[0013]图6示出了 USAC中的一种情况,其中,用于当前帧的LPC分析窗口 516及用于过去或最后帧的LPC分析窗口 520被绘出,且除此之外,其中,TCX窗口 522被示出。TCX窗口522以在0到20ms之间延伸的当前帧的中心为中心,且延伸10ms到过去帧中以及延伸10ms到在20到40ms之间延伸的未来帧中。因此,LPC分析窗口 516要求LPC前瞻部分在20到40ms之间,即20ms,而TCX分析窗口另外具有在20到30ms之间延伸进入到未来帧中的前瞻部分。这意味着USAC分析窗口 516所引入的延迟为20ms,而由TCX窗口引入到编码器中的延迟为10ms。因此,清楚的是,两种窗口的前瞻部分并未彼此对齐。因此,即使TCX窗口522仅引入10ms的延迟,由于LPC分析窗口 516,编码器的整个延迟仍为20ms。因此,即使TCX窗口有相当小的前瞻部分,这并未减少编码器的总算法延迟,这是因为总延迟由最高贡献决定,即等于20ms,因为LPC分析窗口 516有20ms延伸到未来帧中,即不仅涵盖当前帧而且还涵盖未来帧。
【发明内容】
[0014]本发明的目的在于提供一种用于音频编码或解码的改善的编码概念,一方面,这提供良好的音频质量,且另一方面,这使得延迟缩短。
[0015]该目的是通过一种用于编码音频信号的装置,编码音频信号的方法,音频解码器,音频解码方法或计算机程序来实现。
[0016]—种用于编码具有音频样本流(100)的音频信号的装置,包括:
[0017]窗口器(102),用于对所述音频样本流应用预测编码分析窗口(200)以获得用于预测分析的窗口化数据,以及用于对所述音频样本流应用转换编码分析窗口(204)以获得用于转换分析的窗口化数据,
[0018]其中,所述转换编码分析窗口与音频样本的当前帧内的音频样本以及与作为转换编码前瞻部分(206)的音频样本的未来帧的预定部分的音频样本相关联,