专利名称:对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
技术领域:
本发明属于编码领域,其中,例如在视频以及音频编码中,针对编码速率来使用将被编码的数据的不同特性。
背景技术:
当前技术的编码策略可以利用将被编码的数据流的特性。例如,在音频编码中, 使用感知模型对原始数据进行压缩,而在重新播放时几乎不会有显著的质量降低和降级。 现代的感知音频编码方案,例如 MPEG2/4AAC(MPEG = Moving Pictures Expert Group, 运动图像专家组;AAC = Advanced Audio Coding,高级音频编码),参见Generic Coding of Moving Pictures and Associated Audio :Advanced Audio Coding, International Standard 13818-7,IS0/IEC JTC1/SC29/WG11 Moving Pictures Expert Group,1997,可以使用滤波器组,例如修正离散余弦变换(Modified Discrete Cosine Transform,MDCT),以便在频域中表示音频信号。在频域中,可以依据感知模型来进行频率系数的量化。对于一般类型的音频信号 (例如音乐),这样的编码器可以提供优越的感知音频质量。另一方面,现代的语音编码器, 例如 ACELP (ACELP = Algebraic Code Excited Linear Prediction,代数码激发线性预测),使用一种预测的方式,并且利用此种方式可以在时域中表示音频/语音信号。这样的语音编码器可以对人类语音产生过程(即,人类声道)的特征进行建模,从而以较低的比特率即可达到优越的语音信号性能。反之,对于以低比特率编码的语音,感知音频编码器无法达到语音编码器所提供的性能水平,并且使用语音编码器来表示一般的音频信号/音乐会造成显著的质量减损。传统的构思提供一种分层组合,在所述分层组合中所有的局部编码器始终是活动的(即,时域和频域编码器),通过将这些局部编码器对于一个给定的处理过的时间帧所作的贡献相组合,计算出最终的输出信号。分层编码的一般示例是MPEG-4可缩放语音/音频编码,具有作为基本层的语音编码器以及基于滤波器组的增强层,参见Bernhard Grill, Karlheinz Brandenburg, "A Two-or Three Stage Bit-Rate Scalable Audio Coding System, Preprint Number 4132,99th Convention of the AES (1995 ^9^ )。传统的频域编码器可以利用MDCT滤波器组。因为MDCT优秀的性质,其已经成为用于传统感知音频编码器的最具优势的滤波器组。举例而言,MDCT可以在处理块之间提供平滑的交叉衰落(cross fade)。例如,即使由于谱系数的量化使得在每一个处理块中的信号皆以不同的方式改变,然而因为加窗的重叠/加法(windowed overlap/add)操作,所以不会产生因为从一个块到另一个块的突然转变而造成的分块伪迹(blocking artifact) 0 MDCT 使用时域混迭消除(time-domain aliasing cancellation, TDAC)的构思。MDCT是一种以IV型离散余弦变换为基础的傅立叶相关变换,具有重迭的附加性质。MDCT被设计为用于在较大数据集合的连续块中执行,其中随后的块互相重叠,使得一个块的后半部与下一个块的前半部重合。除了 DCT的能量压缩(energy-compaction)质量之外,这种重叠使得MDCT对于信号压缩应用是特别有吸引力的,因为这种重叠有助于避免源于块边界的所述伪迹。作为重迭变换(lapped transform),MDCT与其它傅立叶相关的变换相比的些许不同之处在于,MDCT的输出的数目仅有输入的数目的一半,而非与输入的数目相同。具体地,将2N个实数转换成N个实数,其中N是正整数。逆MDCT也称为IMDCT。因为输入与输出的数目不相同,在乍看之下MDCT似乎是不可逆的。然而,通过将随后重叠块的重叠IMDCT相加,实现了完美的可逆性,这使得消除误差并恢复原始数据(即,实现TDAC)。于是,滤波器组输出处谱值的数目等于该滤波器组输入处时域输入值的数目,这也称作临界采样(critical sampling)。MDCT滤波器组提供了高频率选择性,并且能够得到高编码增益。通过使用时域混迭消除技术,可以实现块和临界采样的重叠性质,参见J. I^rincen,A. Bradley, "Analysis/ Synthesis Filter Band Design Based on Time Domain Aliasing Cancellation,,,,IEEE Trans. ASSP,ASSP-34(5) :1153-1161,1986。图 4 说明了 MDCT 的这些效应。图 4 示出了 MDCT输入信号,以沿着上面的时间轴400的脉冲来表示。然后利用两个连续的加窗和MDCT 块对输入信号400进行转换,其中在图4中输入信号400的下方示出了窗410。在图4中以时间线420和425显示了经过后向变换之后独立的、加窗的信号。在逆MDCT之后,第一块产生具有正号的混迭分量420,第二块产生具有相同大小并且具有负号的混迭分量425。如在图4的底部的最终输出430处所显示的,在两个输出信号420与425相加之后这两个混迭分量互相抵消。在“扩展适应性多速率宽带(AMR-WB+)编解码器”,3GPP TS26. 290V6. 3. 0,2005-06 技术规范中,详细说明了 AMR-WB+(AMR-WB = Adaptive Multi-Rate Wideband,适应性多速率宽带)编解码器。依据第5. 2节,AMR-WB+编解码器核心的编码算法基于混合ACELP/ TCX(TCX = Transform Coded Excitation,变换编码激发)模型。对于输入信号的每一个块,编码器可以在开回路或者闭回路模式下决定哪一种编码模式,即,ACELP或者TCX,是最佳的。ACELP是时域预测编码器,最适于语音和瞬态信号。AMR-WB编码器用于ACELP模式中。备选地,TCX模型是基于变换的编码器,并且更适于典型的音乐采样。具体地,AMR-WB+针对变换编码模式TCX使用离散傅立叶变换(DFT)。为了允许相邻块之间的平滑转变,使用加窗和重叠。这种加窗和重叠对于不同的编码模式(TCX/ACELP) 之间的转变以及对于连续的TCX帧之间的转变而言都是必要的。因此,DFT与加窗和重叠一起表示并未经过临界采样的滤波器组。滤波器组产生比新的输入采样的数目更多的频率值,参见在 3GPP TS 26. 290V6. 3. 0 (3GPP = Third Generation Partnership Project,第三代伙伴计划,TS = Technical Specification,技术规范)中的图4。每一个TCX帧使用 1/8帧长度的重叠,所述帧长度系等于新的输入采样的数目。因此,该DFT的对应长度是9/8 帧长度。考虑在TCX中非临界采样的DFT滤波器组,即,在滤波器组输出处谱值的数目大于在该滤波器组输入处时域输入值的数目,这种频域编码模式与诸如AAC (AAC = Advanced Audio Coding,高级音频编码)等使用MDCT (临界采样的重迭变换)的音频编解码器不同。在 Fielder, Louis D. ;Todd, Craig C. ,"The Design of a Video FriendlyAudio Coding System for Distributing Applications,,,,Paper Number 17-008, The AES 17th International Conference =High-Qqality Audio Coding (1999 ^ 8 ^ ), \)JsR Fielder,Louis D. ;Davidson,Grant A. , "Audio Coding Tools for Digital Television Distribution,",Preprint Number 5104,108thConvention of the AES(2000^ 1 ^)巾, 描述了杜比E(Dolby Ε)编解码器。杜比E编解码器使用MDCT滤波器组。在这种编码的设计中,特别关注在编码域中直接执行编辑的可能性。为了达成这个目标,使用特殊的无混迭窗。在这些窗的边界,不同信号部分的平滑交叉衰落或接合是可能的。在前文中所参考的文件中概括出,例如参见"iThe Design of a Video Friendly Audio Coding System for Distribution Applications, ”第三节,仅简单地使用会引入时域混迭的一般MDCT窗是不可能实现这一点的。然而,其中也指出,为了消除混迭,所需要的代价是变换系数的数目增加,这个结果指出所得到的滤波器组将不再具有临界采样的性质。
发明内容
本发明的目的是提供一种更高效的编码和解码数据段的构思。利用根据权利要求1所述的用于解码的设备、根据权利要求22所述的用于解码的方法、根据权利要求M所述的用于产生已编码数据流的设备、以及根据权利要求35所述的用于产生已编码数据流的方法,实现了这一目的。本发明基于以下成果通过使用时域和频域编码器的组合,以及相应地时域和频域解码器的组合,可以实现更高效的编码和解码。通过在解码器中将时域数据转换至频域, 以及通过将得到的转换后的频域数据与接收到的已经解码频域数据相组合,可以以有效地对抗时间混迭问题。通过使施加到数据段的重叠窗的重叠区域适于编码领域的变化,可以减少开销。当使用时域编码时,以及相应地从时域编码切换或者切换至时域编码时,采用具有较小重叠区域的窗可以是有利的。本发明的实施例可以提供一种通用的音频编码和解码构思,对于例如语音信号和音乐信号这两种类型的输入信号可以实现更高的性能。实施例可以很好地利用将多种编码方式(如,时域和频域编码构思)相组合的优点。实施例可以有效地将基于滤波器组的和基于时域为的编码构思组合成单个方案。实施例可以得到一种组合的编解码器,可以例如在用于音乐类音频内容的音频编解码器与用于语音类内容的语音编解码器之间进行切换, 实施例可以频繁地使用这种切换机制,特别是对于混合的内容。本发明的实施例可以提供不出现切换伪迹的优点。在实施例中,对于切换过程,可以使附加传输数据或者附加编码采样的量最小化,以避免在该操作阶段降低效率。由此,局部编码器的切换式组合的构思与所有局部编码器始终是活动的分层组合是不同的。
图Ia示出了用于解码的设备的实施例;图Ib示出了用于解码的设备的另一实施例;图Ic示出了用于解码的设备的另一实施例;图Id示出了用于解码的设备的另一实施例;图Ie示出了用于解码的设备的另一实施例;
6
图If示出了用于解码的设备的另一实施例;图加示出了用于编码的设备的实施例;图2b示出了用于编码的设备的另一实施例;图2c示出了用于编码的设备的另一实施例;图3a说明了在一个窗的持续时间内在频域和时域编码之间进行切换时的重叠区域;图北说明了在两个窗的持续时间内在频域编码和时域编码之间进行切换时的重叠区域;图3c说明了具有不同的重叠区域的多个窗;图3d说明了在实施例中对具有不同重叠区域的窗的使用;以及图4示出了使用MDCT时的时域混迭消除。
具体实施例方式在下文中将参考附图来详细描述本发明的实施例。图Ia示出了用于对表示时域数据流的数据段进行解码的设备100,数据段是在时域中或者在频域中编码的,在频域中编码的数据段具有表示连续且重叠的时域数据采样块的连续数据块。例如,所述数据流可以与音频流相对应,其中这些数据块当中的一些数据块在时域中编码,而其他数据块在频域中编码。在频域中编码的数据块或者数据段可以表示重叠数据块的时域数据采样。设备100包括时域解码器110,用于对在时域中编码的数据段进行解码。此外,设备100包括处理器120,用于处理在频域中编码的数据段以及时域解码器110的输出数据, 以获得重叠的时域数据块。此外,设备100包括重叠/加法组合器130,用于将重叠的时域数据块相组合,以获者时域数据流的已解码数据段。图Ib示出了设备100的另一个实施例。在实施例中,处理器120可以包括频域解码器122,用于对在频域中编码的数据段进行解码,以获得频域数据段。此外,在实施例中, 处理器120可以包括时域至频域转换器124,用于对时域解码器110的输出数据进行转换, 以获得转换后的频域数据段。此外,在实施例中,处理器120可以包括频域组合器126,用于将频域段以及转换后的频域数据段相组合,以获得频域数据流。处理器120还可以包括频域至时域转换器 128,用于将频域数据流转换成重叠的时域数据块,然后可以由重叠/加法组合器130来组合这些重叠的时域数据块。实施例可以在不作任何修改的情况下,尤其是在不放弃任何临界采样性质的情况下,使用MDCT滤波器组,如同例如在MPEG-4AAC中所使用的。实施例可以提供最佳的编码效率。实施例可以实现平滑的转变,转变至与已建立的MDCT窗兼容的时域编解码器,同时并不引入额外的切换伪迹并且仅带来最小的开销。实施例可以在滤波器组中保持时域混迭,并且刻意地将对应的时域混迭引入由时域编解码器编码的信号部分中。因此,所得到的时域混迭分量可以互相抵消,所采用的方式与它们针对MDCT谱的两个连续帧所采用的方式相同。图Ic说明了设备100的另一实施例,依据图lc,频域解码器122可以包括重新量化级12加。此外,时域至频域转换器IM可以包括余弦调制滤波器组(cosine modulated filterbank)、扩展重迭变换(extended lapped transform)、低延迟滤波器组或者多相滤波器组。图Ic所示的实施例说明时域至频域转换器124可以包括MDCT 124a0此外,图Ic描述了频域组合器1 可以包括加法器126a。如图Ic所示,频域至时域转换器1 可以分别包括余弦调制滤波器组以及逆MDCTUSa。可以利用编码器来产生包括时域编码和频域编码的数据段在内的数据流,该编码器将在下文中更详细地描述。通过利用频域编码器对输入信号的一些部分进行编码,以及利用时域编码器对一些输入信号的部分进行编码,可以实现在频域编码与时域编码之间的切换。图Ic所示的设备100的实施例说明了对应的用于解码的设备100的原理结构。在其它的实施例中,重新量化12 以及逆修正离散余弦变换128a可以代表频域解码器。如图Ic所示,对于由时域解码器110所接管的信号部分,可以利用前向MDCT 124a 对时域解码器110的时域输出进行变换。时域解码器可以利用预测滤波器对时域编码的数据进行解码。此处,在MDCT 12 的输入会引入一些重叠,且从而会引入一些开销。在下文中,将描述可以减小或者最小化这种开销的一些实施例。理论上,图Ic中所示的实施例还包括操作模式,在所述操作模式下两个编解码器可以并行地操作。在实施例中,处理器120可以适于处理在时域以及在频域中并行编码的数据段。以此方式,信号可以部分在频域中编码,部分在时域中编码,类似于分层编码方式。 所得到的信号之后在频域中加在一起,比较频域组合器U6a。然而,实施例可以执行专门在两个编解码器之间进行切换的操作模式,并且优选地仅具有最小数目的采样,其中这两个编解码器都是活动的,以获得最佳的可能效率。在图Ic中,时域解码器110的输出由MDCT 12 来转换,接着再由IMDCT 128a来转换。在另一个实施例中,这两个步骤可以有利地组合成单个步骤,以降低复杂度。图Id 说明了设备100的一个实施例,以说明此种方法。图Id所示的设备100说明处理器120可以包括计算器129,用于依据时域解码器110的输出数据计算重叠的时域数据块。处理器 120或者计算器1 可以适于依据时域解码器110的输出数据,再现频域至时域转换器1 的性质以及相应地重叠性质,即,处理器120或者计算器1 可以再现时域数据块的重叠特性,该重叠特性类似于由频域至时域转换器1 所产生的的重叠特性。此外,处理器120或者计算器1 可以适于依据时域解码器110的输出数据再现时域混迭,该时域混迭类似于由频域至时域转换器1 所引入的时域混迭。之后,频域至时域转换器1 可以适于将频域解码器122所提供的频域数据段转换成重叠的时域数据块。重叠/加法组合器130可以适于组合由频域至时域转换器128以及计算器1 所提供的数据块,以获得时域数据流的已解码数据段。如在图Ie的实施例中所说明的,计算器1 可以包括时域混迭级129a。时域混迭级129a可以适于对时域解码器的输出数据进行时间混迭,以获得重叠的时域数据块。对于时域编码数据,MDCT和IMDCT的组合可以使实施例中的过程在结构以及计算复杂度方面都更为简化,因为在这些实施例中仅剩下时域混迭(time-domain aliasing, TDA)过程。这个高效的过程可以基于许多观察。对2N个采样的输入段进行加窗的 (windowed) MDCT可以分成三个步骤。第一,将输入信号乘以分析窗。
第二,然后将得到的结果从2N个采样折迭(fold down)成N个采样。对于MDCT,该过程意味着将采样的时间反转顺序的第一个四分之一与采样的第二个四分之一组合(即, 后者减去前者),以及将采样的第四个四分之一与采样的时间反转顺序的第三个四分之一组合(即,相加)。在信号的修改过的第二和第三个四分之一中,所得到的结果是经过时间混迭的、下采样后的信号,包括N个采样。 第三,然后使用正交DCT式变换对下采样后的信号进行转换,其中所述正交DCT式变换将N个输入映射到N个输出采样,以形成最终的MDCT输出。对N个谱采样的输入序列进行加窗的IMDCT重建同样也可以分成三个步骤。第一,使用正交逆DCT式变换对N个谱采样的输入序列进行转换,所述正交逆DCT 式变换将N个输入映射到N个输出采样。第二,将得到的结果从N个采样展开成2N个采样,这是通过以下方式来实现的将逆DCT变换后的值写入2N个采样输出缓冲区的第二和第三个四分之一,并且分别以第二个四分之一的时间反转且反相后的版本填充第一个四分之一,以及以第三个四分之一的时间反转的版本填充第四个四分之一。第三,将得到的2N个采样乘以合成窗,以形成加窗的IMDCT输出。因此,在实施例中,利用由加窗的MDCT的第一和第二步骤,以及加窗的IMDCT 的第二和第三步骤所构成的序列,可以高效地执行加窗的MDCT与加窗的IMDCT的级联 (concatenation)。在实施例中可以完全省略的MDCT的第三步骤以及IMDCT的第一步骤, 因为它们是相对于彼此逆运算且从而互相抵销。其余的步骤可以仅在时域中执行,因此使用此种方式的实施例在计算复杂度上可以实质上很低。对于由MDCT以及相继的IMDCT组成的一个块,MDCT的第二和第三步骤以及IMDCT 的第二和第三步骤可以写成与下列的稀疏2NX2N矩阵相乘。
权利要求
1.一种用于依据时域数据流来产生已编码数据流的设备,所述时域数据流具有信号的采样,该设备包括区段处理器,用于从数据流提供数据段;时域编码器,用于在时域中对加窗数据段进行编码;频域编码器,用于依据第一加窗函数或者第二加窗函数对时域数据流的采样施加权重,以获得加窗数据段,所述第一加窗函数和第二加窗函数适于不同长度的重叠区域,所述频域编码器适于在频域中对加窗数据段进行编码;时域数据分析器,用于确定与数据段有关的转变指示;以及控制器,用于控制该设备,使得对于具有第一转变指示的数据段,将时域编码器的输出数据包含于已编码数据流中,以及对于具有第二转变指示的数据段,将频域编码器的输出数据包含于已编码数据流中,其中,控制器适于针对频域编码器设置加窗函数,使得当在频域和时域之间切换时使用重叠大小减小的窗。
2.根据权利要求1所述的设备,其中,控制器适于针对频域编码器设置加窗函数,使得在频域中编码的两个连续加窗数据段的重叠区域大小大于由在频域中编码的一个加窗数据段和在时域中编码的一个加窗数据段组成的两个连续加窗数据段的重叠区域的大小。
3.根据权利要求1所述的设备,其中,所述时域数据分析器适于从时域数据流、数据段中或者从区段处理器直接提供的数据中,确定转变指示。
4.根据权利要求1所述的设备,其中,所述时域数据分析器适于确定转变度量,所述转变度量基于在时域数据流或者数据段中的瞬时性的水平,以及,其中转变指示器指示瞬时性的水平是否超过预定的阈值。
5.根据权利要求1所述的设备,其中,所述区段处理器适于提供具有不同长度的重叠区域的数据段,时域编码器适于对数据段进行编码,频域编码器适于对加窗数据段进行编码,以及控制器适于控制时域编码器和频域编码器,使得对于具有第一转变指示的数据段,将时域编码器的输出数据包含于已编码数据流中,以及对于具有第二转变指示的加窗数据段,将频域编码器的输出数据包含于已编码数据流中。
6.根据权利要求1所述的设备,其中,所述控制器适于控制区段处理器将数据段提供给时域编码器或者频域编码器。
7.根据权利要求1所述的设备,其中,所述频域编码器适于依据AAC规范来施加窗函数的权重。
8.根据权利要求1所述的设备,其中,所述频域编码器适于将加窗数据段转换至频域, 以获得频域数据段。
9.根据权利要求8所述的设备,其中,所述频域编码器适于对频域数据段进行量化。
10.根据权利要求9所述的设备,其中,所述频域编码器适于依据感知模型来评估频域数据段。
11.根据权利要求10所述的设备,其中,所述频域编码器适于使用余弦调制滤波器组、 扩展重迭变换、低延迟滤波器组或者多相滤波器组来获得频域数据段。
12.根据权利要求8所述的设备,其中,所述频域编码器适于使用修正离散余弦变换来获得频域数据段。
13.根据权利要求1所述的设备,其中,所述时域编码器适于使用预测滤波器,以对数据段进行编码。
14.一种依据时域数据流来产生已编码数据流的方法,所述时域数据流具有信号的采样,该方法包括步骤从数据流提供数据段;确定与数据段相关联的转变指示;在时域中对数据段进行编码,和依据第一加窗函数或者第二加窗函数对时域数据流的采样施加权重以获得加窗数据段,以及在频域中对加窗数据段进行编码,所述第一加窗函数和第二加窗函数适于不同长度的重叠区域;以及执行控制,使得对于具有第一转变指示的数据段,将在时域中编码的输出数据包含于已编码数据流中,以及对于具有第二转变指示的数据段,将在频域中编码的输出数据包含于已编码数据流中;其中,针对频域编码的加窗函数被设置为使得当在从频域向时域或者从时域向频域切换时使用重叠大小减小的窗。
全文摘要
一种用于对表示时域数据流的数据段进行解码的设备,数据段是在时域中或者在频域中编码的,在频域中编码的数据段具有表示连续且重叠的时域数据采样块连续数据块。设备包括时域解码器,用于对在时域中编码的数据段进行解码;以及处理器,用于对在频域中编码的数据段以及时域解码器的输出数据进行处理,以获得重叠的时域数据块。该设备还包括重叠/加法组合器,用于将重叠的时域数据块相组合,以获得时域数据流的已解码数据段。
文档编号H04N7/26GK102395033SQ201110421510
公开日2012年3月28日 申请日期2007年12月7日 优先权日2006年12月12日
发明者于尔根·赫勒, 尼古拉斯·里特尔博谢, 拉尔夫·盖格尔, 斯特凡·盖尔斯贝格, 横谷义一, 马克斯·诺伊恩多夫 申请人:弗劳恩霍夫应用研究促进协会