可扩缩多通道音频编码的制作方法

文档序号:2830025阅读:460来源:国知局
专利名称:可扩缩多通道音频编码的制作方法
专利说明可扩缩多通道音频编码 本发明涉及高质量的音频编码领域。本发明尤其涉及多通道音频数据的高质量编码领域。更明确地说,本发明定义了用于编码和解码多通道音频数据的编码器和解码器以及方法。
虽然有多种多通道的结构/配置,但是5.1结构/配置是最受欢迎的(也参见

图1)。典型的多通道5.1配置是由五个扬声器组成的,即左前(Lf)、右前(Rf)、中央(C)、左环绕(Ls)、和右环绕(Rs)扬声器,这些扬声器由附加的LFE(低频增强)扬声器进行补充,该LFE扬声器可以被放置在任意角度。过去曾考虑过用于压缩诸如5.1多通道音频数据之类的多通道音频数据的多种途径。概述如下。
在MPEG-2音频标准中,即在ISO/IEC 13818-31998 Informationtechnology-Generic coding of moving pictures and associated audioinformation--Part 3Audio(ISO/IEC 13818-31998信息技术(运动图像和相关音频信息的通用编码)第3部分音频)中,在维持与MPEG-1音频标准的后向兼容性的同时,加入了用于编码多通道音频的规定,所述MPEG-1音频标准即ISO/IEC 11172-31993 Information technology--Coding of moving pictures and associated audio for digital storagemedia at up to about 1.5Mbit/s--Part 3Audio(ISO/IEC11172-31993信息技术(针对数字存储介质的高达1.5Mbit/s比特率的运动图像和相关音频编码)第3部分音频),它仅适用于单声和立体声音频的编码。后向兼容性是通过构成基本的立体声信号来实现的,该立体声信号由位于MPEG-1比特流的数据部分中的多通道内容导出。然后将三种附加信号放置到MPEG-1比特流的附属数据部分中。这种技术被称为矩阵变换(matrixing)。MPEG-1音频解码器能够从比特流中产生有意义的立体声信号(Lo,Ro),而MPEG-2音频解码器则能够提取出附加通道并重构出所述5个输入通道的解码版本。后向兼容性以牺牲高比特率为代价。一般地,对于具有MPEG-2层II的五通道材料来说,需要640kbit/s的比特率以获得高音频质量。
在MPEG-2高级音频编码(AAC)中,即ISO/IEC TR 13818-51997/Amd11999 Advanced Audio Coding(AAC)(ISO/IEC TR 13818-51997/Amd11999高级音频编码(AAC))中,多通道音频被编码成非后向兼容格式。这使得编码器更自由,且其优点是,相对于比特率为640kbit/s的MPEG-2层II,在320kbit/s的比特率下能获得更高的音频质量(透明的)。在5(.1)通道结构中,通过使用中侧(MS)立体声工具(Lf,Rf)和(Ls,Rs),AAC可以对关于听众对称的通道对进行编码。中央(C)和(可选的)LFE通道被分开编码。可替换地,可以采用强度立体声(IS)编码将多个音频通道组合成一个通道,并为每个通道额外提供一个扩缩信息(scalinginformation)。
在参数多通道音频编码中,对多通道信号中的通道间的知觉相关线索(或者空间参数),如通道间强度差(IID)、通道间时间差(ITD)和通道间一致性(ICC)进行了测量。有关空间参数的更详细的描述可参见Christof Faller“Coding of Spatial Audio Compatible with DifferentPlayback Formats(与不同重放格式兼容的空间音频编码)”,AESConvention Paper,AES 117th Convention,San Francisco,USA,2004October 28-31。而且,多通道表示被下混合(down-mix)成立体声或单声信号,该信号能够用标准单声或立体声编码器进行编码。一个重要的要求是,该立体声或单声下混合应该例如至少相较于ITU-R RecommendationBS.775-1下混合具有足够的音频质量。从而,所传输的信息包括该单声或立体声信号和空间参数的编码版本。编码该单声或立体声下混合所用的比特率远低于对原始多通道音频信号编码所需的比特率,并且所述空间参数需要很小的传输带宽。因此,可以以一个总的比特率对所述下混合和空间参数进行编码,该总的比特率仅仅是编码所有通道所需比特率的一小部分。参数解码器从所传输的单声或立体声下混合和空间参数中产生出一个原始多通道音频信号的高质量近似信号。
提供一种可扩缩的(scalable)多通道音频信号编码器可看作本发明的一个目的,该编码器效率高、信号质量好且同时提供了后向兼容的编码信号。
根据第一方面,本发明提供了一种音频编码器,适用于编码多通道音频信号,该编码器包括 -编码器组合模块,用于产生主信号部分和残留信号部分,作为第一和第二音频信号的组合表示,该主信号部分和残留信号部分是通过对第一和第二音频信号实施数学过程来得到的,其中该数学过程包含第一空间参数,该空间参数包含对第一和第二音频信号的空间特性的描述, -参数生成器,用于产生 -包括第二空间参数的第一参数组,和 -包括第三空间参数的第二参数组,和 -输出生成器,用于产生编码后的输出信号,该输出信号包括 -第一输出部分,它包含主信号部分和第一参数组,及 -第二输出部分,它包含残留信号部分和第二参数组。
在编码器组合模块中,第一和第二音频信号被组合到主信号部分和残留信号部分。“主信号部分和残留信号部分”应理解成两路音频信号,其中主信号包括第一和第二音频信号的优势或主要部分,而残留信号包括第一和第二音频信号的残留或不太重要的部分。“空间参数”应理解成一个能够用数学形式表示的、且能够基于信号对的一个或多个空间特性或从中得到得到的参数。这种能够计算的空间特性的非穷举列表可以为通道间强度差(IID)、通道间时间差(ITD)和通道间一致性(ICC)。该编码器组合模块优选地产生主信号部分和残留信号部分,使得这些信号部分的相关性低于第一和第二音频信号的相关性。优选地,产生主信号部分和残留信号部分使得它们是不相关的,即正交的,或者至少它们的相关性应该尽可能的小。
残留信号部分可以在被转换成输出比特流之前被低通滤波,从而仅需要一个非常有限的比特率就能在比特流中表示。这种低通滤波的截止频率可以在500Hz到10kHz之间,例如为2kHz。
该编码器组合模块可以适用于将第一、第二和第三音频信号组合成第一和第二主信号部分,而不是将两个音频信号组合成一个主信号,如上所述。
根据第一方面的编码器,提供了一种第一和第二音频信号的可扩缩的编码表示。利用第一输出部分或基本层部分,通过使用现有的解码器对第一和第二音频信号解码就可能得到一个可接受的声音质量。但是,通过使用能够利用第二输出部分或精确层(refinement layer)部分的解码器,可能得到更高的信号质量。因此,第二输出部分可以被看作是可选的,且仅在需要最好的声音质量时是必要的。
在一个优选的实施例中,残留信号部分包括第一和第二音频信号之间的差值。该残留信号部分可以被精确地定义为第一和第二音频信号之间的差值。
在优选的实施例中,数学过程包括二维信号空间中的旋转。
第三空间参数可以包括第二空间参数和第一空间参数之间的差值。该第三空间参数可以包括差分编码。
第二空间参数可以包括基于一致性的ICC参数。第三空间参数可以包括基于一致性的ICC参数和基于相关性的ICC参数之间的差值。在一个优选的实施例中,第二空间参数包括基于一致性的ICC参数,而第三空间参数包括第二空间参数和基于相关性的ICC参数之间的差值。
根据第一方面的原理,该编码器可以通过将第三、第四、第五和第六或者甚至更多的音频信号与第一和第二音频信号组合在一起来进一步适用于编码这些音频信号,并且作为其响应产生第一和第二输出部分。优选地,通过使用包含多个编码器组合模块的结构,这种编码器适用于对5.1音频信号进行编码。原则上,根据第一方面的编码器原理可以用于编码任意多通道格式的音频数据。
在第二方面,本发明提供了一种音频解码器,用于根据编码的信号产生多通道音频信号,该解码器包括 -解码器组合模块,用于根据主信号部分、残留信号部分及第一和第二空间参数组产生第一和第二音频信号,这些空间参数包括对第一和第二音频信号的空间特性的描述,其中所述残留信号部分和第二空间参数被用于确定混合矩阵,该矩阵用于产生第一和第二音频信号。
结合第一方面中的描述,通过仅仅利用主信号部分和第一空间参数,可以使用现有的解码器对来自根据本发明的编码器的编码输出信号进行解码。但是,根据第二方面的解码器将能利用第二编码输出部分,即残留信号部分和空间参数,以便确定混合矩阵,从而可以得到第一和第二音频信号的完美的重现,其中混合矩阵等同于包含在编码过程中的编码器组合的逆。
在优选的实施例中,解码器包括去相关器,该去相关器用于接收主信号部分并作为其响应产生去相关的主信号部分。优选地,确定混合矩阵涉及将残留信号部分和去相关的主信号部分相加。解码器还包括衰减器,该衰减器用于在将该去相关的主信号部分加到残留信号部分之前,衰减该去相关的主信号部分。
在优选的实施例中,混合矩阵在二维信号空间中对主信号部分和残留信号部分应用旋转。
解码器可以适用于接收第一和第二参数组的多个组及多个残留信号部分,以便作为其响应产生多组第一和第二音频信号。在一个优选的实施例中,解码器适用于接收三组第一和第二参数组及三个残留信号部分,以便作为其响应产生三组第一和第二音频信号,在该实施例中,解码器例如根据5.1格式或其他多通道格式能产生六个独立的音频通道。
在优选的实施例中,解码器包括多个1-2通道混合矩阵,这些矩阵被配置成合适的结构从而使得解码器能解码表示多于两个音频信号的编码信号。例如,解码器可以包括具有五个混合矩阵的结构,其被配置来产生六个音频信号,从而解码如编码后的5.1音频信号。
在第三方面,本发明提供了一种编码多通道音频信号的方法,该方法包括如下步骤 1)产生主信号部分和残留信号部分,它们是第一和第二音频信号的组合表示,该主信号部分和残留信号部分是通过对第一和第二音频信号实施数学过程来得到的,其中该该数学过程涉及第一空间参数,该空间参数包含对第一和第二音频信号的空间特性的描述, 2)产生包括第二空间参数的第一参数, 3)产生包括第三空间参数的第二参数,及 4)产生编码输出信号,该编码输出信号包含第一输出部分和第二输出部分,所述第一输出部分包含主信号部分和第一参数组,所述第二输出部分包含残留信号部分和第二参数组。
在第一方面描述的优点和评论同样适用于第三方面。
在第四方面,本发明提供了一种根据编码的信号产生多通道音频信号的方法,该方法包括如下步骤 1)接收包含主信号部分、残留信号部分及第一和第二空间参数的编码信号,所述第一和第二空间参数包含了对第一与第二音频信号的空间特性的描述, 2)根据残留信号部分和第二空间参数确定混合矩阵, 3)根据所确定的混合矩阵产生第一和第二音频信号。
该方法可以包括对主信号部分去相关并作为其响应产生一个去相关的主信号部分的步骤。该方法可以进一步包括将残留信号部分和该去相关主信号部分相加的步骤。混合矩阵的确定可以根据相加的残留信号部分和去相关主信号部分来进行。
优选地,该方法包括接收多组第一和第二参数组以及多个残留信号部分,以便作为其响应产生多组第一和第二音频信号。在一个优选的实施例中,该方法包括接收三组第一和第二参数组及三个残留信号部分,以便作为其响应产生三组第一和第二音频信号。在该实施例中,该方法可以例如在5.1多通道格式或其等效格式中产生六个独立的音频通道。
对第二方面描述的优点和评论同样适用于第四方面。
在第五方面,本发明提供了一种编码后的多通道音频信号,该信号包括 -包含主信号部分和第一参数组的第一信号部分,所述第一参数组包含对第一和第二音频信号的空间特性的描述,及 -包含残留信号部分和第二参数组的第二信号部分,所述第二参数组包含对第一和第二音频信号的空间特性的描述。
根据第五方面的音频信号具有如第一方面中提及的相同的优点,因为这种信号与来自根据第一方面的编码器的编码输出信号相同。因此,由于适用于基本层的第一信号部分是必须的,而适用于精确层的第二信号部分是可选的且仅需要用于可选信号质量,所以根据第五方面的编码多通道音频信号是一个可扩缩的信号。
在第六方面,本发明提供了一种其上存储了如第五方面中的信号的存储介质。该存储介质可以是硬盘、软盘、CD、DVD、SD卡、记忆棒、存储芯片等。
在第七方面,本发明提供了一种计算机可执行程序代码,适用于执行按照第一方面的方法。
在第八方面,本发明提供了一种计算机可读存储介质,其包括按照第七方面的计算机可执行程序代码。该存储介质可以是硬盘、软盘、CD、DVD、SD卡、记忆棒、存储芯片等。
在第九方面,本发明提供了一种计算机可执行程序代码,适用于执行按照第四方面的方法。
在第十方面,本发明提供了一种计算机可读存储介质,其包括按照第九方面的计算机可执行程序代码。该存储介质可以是硬盘、软盘、CD、DVD、SD卡、记忆棒、存储芯片等。
在第十一方面,本发明提供了一种包括按照第一方面的编码器的设备。该设备可以是例如家庭娱乐音频设备,如环绕声放大器、环绕声接收器、DVD播放器/记录器等。原则上,该设备可以是任意能处理多通道音频数据如5.1格式音频数据的音频设备。
在第十二方面,本发明提供了一种包括按照第二方面的解码器的设备。该设备可以是例如家庭娱乐音频设备,如环绕声放大器、环绕声接收器、A/V接收器、机顶盒、DVD播放器/记录器等。
根据第五方面的信号适合于在传输链中传输。这种传输链可以包括存储了信号的服务器、用于分发信号的网络及接收信号的客户机。客户机方可以包括硬件,如计算机、A/V接收器、机顶盒等。因此,根据第五方面的信号适合于数字视频广播、数字音频广播或因特网电台(Internet radio)等的传输。
可以理解的是,在所有上述方面,第一和第二音频信号可以是全带宽信号。可选地,第一和第二音频信号代表各个全带宽音频信号的子带表示。换句话说,根据本发明的信号处理可以用于全带宽信号或基于子带应用。
下面结合附图对本发明进行更详细的描述,其中 图1示出了5.1多通道扬声器配置的简图, 图2示出了根据本发明的一个编码器组合单元, 图3示出了用于基于编码器组合将5.1音频信号编码为单声信号的优选编码器, 图4示出了与图3的编码器对应的优选解码器, 图5示出了用于基于编码器组合将5.1音频信号编码为立体声信号的优选编码器, 图6示出了与图5的编码器对应的优选解码器, 图7示出了说明利用按照本发明的编码原理进行的听力测试的结果的曲线图。
虽然本发明容易出现各种修改和可替换的形式,附图中还是通过示例显示了具体的实施例,这些实施例将在此详细描述。然而,应该理解的是,本发明并不限于所公开的特定形式。相反地,本发明覆盖了所有落入如所附权利要求所定义的精神和范围之内的所有修改、等效物和替换物。
图1示出了典型的5.1多通道扬声器配置的简图,其中听众LP位于五个接收独立音频信号的扬声器C、Lf、Ls、Rf和Rs的中央。这些扬声器被提供以便给听众LP留下一个空间音频的印象。该5.1配置另外还提供了一个独立的亚低音扬声器(subwoofer)LFE信号。因此,对于这种多通道配置而言,一个完全的信号表示需要总共六个独立的音频通道,从而对于这种系统来说,需要大的比特率来表示音频信号以达到全音频质量。下面,将描述能够在5.1系统中以低比特率提供高音频质量的本发明的实施例。
图2示出了根据本发明的2-1编码器组合单元EU。第一和第二音频信号x1、x2被输入到编码器组合模块ECM,在该ECM模块上对第一和第二音频信号x1、x2执行数学过程,该数学过程优选地包括信号旋转,以便组合第一和第二音频信号x1、x2,并产生其参数表示,该参数表示包括主信号部分m和残留信号部分s。在数学编码器组合过程中涉及第一空间参数SP1,即描述了第一和第二音频信号x1、x2的空间信号特性的参数。
参数生成器PG根据第一和第二音频信号x1、x2产生第一和第二参数组PS1、PS2。第一参数组PS1包括第二空间参数SP2,第二参数组PS2包括第三空间参数SP3。编码输出信号包括第一输出部分OP1,其中所述第一输出部分OP1包含主信号部分m和第一参数组PS1,而第二输出部分OP2包含残留信号部分s和第二参数组PS2。
通过相对于第一空间参数SP1适当选择第二和第三空间参数SP2、SP3,就可能在解码器侧执行编码器组合或旋转过程的逆,从而可以透明地解码第一和第二音频信号x1、x2。
优选地,编码器在其输出比特流的基本层放置第一输出部分,而在该输出比特流的精确层放置第二输出部分。在解码过程中,如果降低的信号质量是可接受的,那么就可能仅仅使用基本层,而如果精确层也包含在解码过程中,那么就可以得到可能的最佳信号质量。
所描述的编码原理给出了一种具有完全后向兼容性的可扩缩混合多通道音频编码器。解码器可以被用于下面的情况1)仅解码单声或立体声信号,2)不用残留信号解码的多通道输出,及3)用残留信号解码的多通道输出。
下面描述了编码器组合模块和空间参数的优选实施例。优选的编码器组合模块通过最大化旋转信号之和的振幅,将第一和第二音频信号x1、x2组合成主信号部分m和残留信号部分s,所述最大化依据下式进行 其中 (1)涉及sccorr的振幅 旋转系数从ICC和IID导出,即它们基于第一和第二音频信号x1、x2的空间特性。这些振幅旋转系数优选地根据下面的算式进行计算 选择残留信号s为x1和x2的差值。需要注意的是,这种矩阵总是可逆的,因为sccorr永远不能是0,这就意味着只要sccorr是已知的就可以得到完美的重构。削波常数sccorr,max的一个合适值是1.2。
为了在解码器中导出sccorr,第二参数组PS2优选包括一致性参数和相关性参数之间的差值,从而在可扩缩比特流中的精确层内与对应的残留信号s一起传输。选择第一参数组PS1,使其包含一致性参数或相关性参数,从而使其能与主信号部分m一起在基本层中传输。
当残留信号s对于解码器来说是可利用的时候,相关性参数被导出,它有利于sccorr的计算,方程1的混合矩阵的逆能被确定 在另一个优选的实施例中,编码器组合模块基于主分量分析(PCAPrincipal Component Analysis)并按下式混合第一和第二音频信号x1、x2 其中,优选的系数α根据ICC和IID由下式得到 用于编码待包含在精确层中的第二参数组PS2的优选选项是相关性参数,其包括如下 1)相关性参数的时间或频率差分编码,它独立于基本层中的一致性参数。
2)相关性参数关于基本层中的一致性参数的差分编码(即,ΔICC=ICCcorrelation-ICCcoherence)。
3)1和2的组合,取决于哪一个所需的比特数最少。
图3和4分别示出了5.1格式的编码器及其对应的5.1解码器的优选结构,它们基于直至编码单声信号的编码器组合。图5和6分别示出了可替换的5.1格式的编码器及其对应的解码器,它们基于直至编码立体声信号的编码器组合。
图3示出了基于六个独立的音频信号lf、ls、rf、rs、co、lfe到一个单声信号m的组合的编码器结构,例如六个音频信号代表5.1格式中的lf、ls、rf、rs、co、lfe。该编码器包括五个编码器组合单元EU,如前述所述,这些单元EU被配置来连续地将六个信号lf、ls、rf、rs、co、lfe组合成单个单声信号m。在编码器组合之前对信号对执行初始的分割和变换步骤ST。该步骤ST包括将时域音频信号分割成重叠的片断,然后将这些重叠的时域片断变换成频域表示(由大写字母表示)。
在分割和变换ST之后,将两个左通道Lf和Ls组合成主信号部分L、第一和第二参数组PS1a、PS1b及残留信号ResL。将两个右通道Rf和Rs组合成主信号部分R、第一和第二参数组PS2a、PS2b及残留信号ResR。然后将得到的主信号部分L和R组合成主信号部分LR、残留信号部分ResLR及第一和第二参数PS4a、PS4b。将中央通道C0和亚低音扬声器通道LFE组合成主信号部分C、第一和第二参数组PS3a、PS3b及残留信号ResC。最后,将主信号部分C和LR组合成主信号部分M、残留信号部分ResM及第一和第二参数PS5a、PS5b。
优选地,在量化、编码和传输之前,为片断中的多个频带(子带)独立地确定第一和第二参数组PS1a-PS5a、PS1b-PS5b,然而,如果希望的话,可以在全带宽信号上执行该处理。在应用了信号分析和处理之后,可以应用可选的处理IT、OLA片断可以被逆变换IT回时域,并且片断可以被重叠相加OLA以得到时域单声音频信号m。总之,编码器生成包含了主信号部分m和五个参数组PS1a-PS5a的第一输出部分,和包含了五个残留信号部分ResL、ResR、ResLR、ResM、ResC和五个参数组PS1b-PS5b的第二输出部分。
图4示出了与图3的编码器对应的解码器,即其适合用于接收来自图3的编码器的输出信号。该解码器基本上应用了针对图3所描述的处理的逆过程。该解码器包括应用到主信号部分m的(可选的)初始分割和频率变换ST。该解码器包括五个相似的解码器组合单元DU,其中有个单元用虚线表示出来。解码器组合单元DU包括根据主信号部分产生第一和第二信号的混合矩阵MM。混合矩阵MM,即应用在编码器组合模块ECM中的混合矩阵的逆,是根据接收到的主信号部分、残留部分及第一和第二参数组来确定的。
在图4所示的第一解码器组合单元DU中,首先在去相关器Dec中对主信号M进行去相关,然后在衰减器Att中对该主信号进行衰减。然后将去相关和衰减后的主信号部分添加到残留信号部分ResM。该相加后的信号然后会被用来确定混合矩阵MM。作为对残留信号部分ResM和第一参数组PS5a的响应,衰减器Att被设置。最后,用第一和第二参数组合PS5a、PS5b来确定混合矩阵MM。之后所确定的混合矩阵MM将主信号部分M组合到第一输出信号LR和第二输出信号C中。然后分别将这些第一和第二输出信号LR、C应用到各自的编码器组合单元,并连续组合它们以分别产生L、R和C0、LFE。最后,L被解码器组合以产生Lf和Lr,而R被解码器组合以产生Rf和Rr。在应用了信号分析和处理之后,片断被逆变换IT回时域,并被重叠相加OLA以获得时域表示lf、lr、rf、rr、co、lfe。这种逆向的变换和重叠相加IT、OLA都是可选的。
图5示出了一个编码器的实施例,其中三个编码器组合单元用于将成对的六个音频信号Lf、Lr、Rf、Rr、C0、LFE组合成三个主信号部分L、R、C,带有相关联的第一参数组PS1a-PS3a、第二参数组PS1b-PS3b,和残留信号部分ResL、ResR、ResC,每个编码器组合单元都按照在图3的编码器中描述的原理起作用。然后将3-2编码器组合单元应用到三个主信号部分L、R、C,产生两个主信号部分L0、R0和残留信号部分ResEo和参数组PS4。可选地,应用初始的分割和频域变换ST,并(可选地)应用最终的逆变换IT和重叠相OLA,亦如图3中所描述的。
图6示出了适用于对来自图5的编码器的输出进行解码的解码器结构。在对输入信号lo、ro的进行(可选的)初始分割和频域变换ST之后,2-3解码器组合模块响应主信号部分Lo、Ro,残留信号部分ResEo以及参数组PS4,产生主信号部分L、R、C。然后在各自的解码器组合单元中处理这三个主信号部分L、R、C,所述解码器组合单元与图4的解码器中描述的解码组合单元DU相似。最后,亦如上所述应用(可选的)逆变换IT和重叠相加OLA。
图7示出了对五个经过训练的听众进行听力测试的结果。所用的音乐项A-K是MPEG“空间音频编码”工作项目中规定的那些。对A-K的每项来说,测试中包含的三个编码版本的结果是1)无残留的解码器-如左边所示,2)有残留的空间编码器,即根据本发明的解码器-如中间所示,及3)参考(隐藏)-如右边所示。A-K项的总平均值用TOT表示。对于每个被编码的版本,用星号(*)表示平均等级GRD,而用+/-标准偏差表示听众中的回答偏离平均等级的程度。
对于情景2)和3)而言,采用了图5和6所示的编码器/解码器原理。情景2)中去除了残留信号部分。对于情景3)来说,使用了三个带宽被限制在2kHz的残留信号部分用于左通道的残留信号部分ResL、用于右通道的残留信号部分ResR和用于解码器组合模块3-2的残留信号部分ResEo。对残留信号ResL、ResR、ResEo中的每一个都以8bit/s的比特率进行编码,而额外的空间参数(为相关性参数(精确层)和一致性参数(基本层)之间的差值)估计需要700bit/s的比特率。因此,总的额外残留相关比特率约为25kbit/s。标准空间参数(待放置到基本层中)估计需要10kbit/s。所以总的空间数据率约为35kbit/s。没有对立体声信号lo、ro应用核心编解码器。
从上述结果显然可知,通过利用以低比特率编码的三个残留信号可以获得很大的质量上的改善。而且,总平均质量等级为+/-92,非常接近所谓的“透明”音频质量。
根据本发明的编码器和解码器可以被应用在所有涉及多通道音频编码的场合,包括数字视频广播(DVB)、数字音频广播(DAB)、因特网电台、电子音乐发布。
权利要求中的附图标记仅仅用来增加可阅读性。这些附图标记无论如何都不应该被解释为对权利要求的保护范围的限制,它们仅仅用于说明示例。
权利要求
1.一种适用于编码多通道音频信号的音频编码器,该编码器包括
-编码器组合模块(ECM),用于产生主信号部分(m)和残留信号部分(s),所述主信号部分和残留信号部分是第一和第二音频信号(x1,x2)的组合表示,该主信号部分和残留信号部分(m,s)是通过对第一和第二音频信号(x1,x2)应用数学过程来得到的,其中该数学过程涉及第一空间参数(SP1),该第一空间参数包含对第一和第二音频信号(x1,x2)的空间特性的描述,
-参数生成器(PG),用于产生
-第一参数(PS1)组,包括第二空间参数(SP2),和
-第二参数(PS2)组,包括第三空间参数(SP3),和
-输出生成器,用于产生编码后的输出信号,该输出信号包括
-第一输出部分(OP1),该第一输出部分包含主信号部分(m)和第一参数组(PS1),及
-第二输出部分(OP2),该第二输出部分包含残留信号部分(s)和第二参数组(PS2)。
2.如权利要求1所述的音频编码器,其中第三空间参数(SP3)包含第二空间参数(SP2)和第一空间参数(SP1)之间的差值。
3.如权利要求1所述的音频编码器,其中第二空间参数(SP2)包括基于一致性的参数。
4.如权利要求1所述的音频编码器,其中第三空间参数(SP3)包括基于一致性的参数和基于相关性的参数之间的差值。
5.如权利要求1所述的音频编码器,其中残留信号部分(s)包括第一和第二音频信号(x1,x2)之间的差值。
6.如权利要求1所述的音频编码器,其中编码器组合模块(ECM)产生主信号部分和残留信号部分(m,s),使得这些信号部分(m,s)的相关性低于第一和第二音频信号(x1,x2)的相关性。
7.如权利要求1所述的音频编码器,进一步适用于接收第三、第四、第五和第六音频信号以及将这些信号与第一和第二音频信号(x1,x2)一起进行下混合,并作为其响应产生第一和第二输出部分。
8.一种用于根据编码信号产生多通道音频信号的音频解码器,该解码器包括
-解码器组合单元(DU),用于根据主信号部分、残留信号部分及第一和第二参数组产生第一和第二音频信号,所述第一和第二参数组包括对第一和第二音频信号的空间特性的描述,其中所述残留信号部分和第二空间参数在确定混合矩阵(MM)中涉及,该矩阵用于产生第一和第二音频信号。
9.如权利要求8所述的音频解码器,其中该解码器包括去相关器(Dec),该去相关器用于接收所述主信号部分并作为其响应产生去相关的主信号部分。
10.如权利要求9所述的音频解码器,其中在确定所述混合矩阵(MM)中涉及到将所述残留信号部分和去相关的主信号部分相加。
11.如权利要求10所述的音频解码器,其中该解码器包括衰减器(Att),该衰减器用于在将该去相关的主信号部分加到残留信号部分之前,衰减该去相关的主信号部分。
12.如权利要求8所述的音频解码器,适用于接收多组第一和第二参数组及多个残留信号部分,以便作为其响应产生多组第一和第二音频信号。
13.如权利要求12所述的音频解码器,其中该解码器适用于接收三组第一和第二参数组及三个残留信号部分,以便作为其响应产生三组第一和第二音频信号。
14.一种编码多通道音频信号的方法,包括如下步骤
1)产生主信号部分(m)和残留信号部分(s),所述主信号部分和残留信号部分是第一和第二音频信号(x1,x2)的组合表示,该主信号部分和残留信号部分(m,s)是通过对第一和第二音频信号(x1,x2)应用数学过程来得到的,其中该数学过程涉及第一空间参数,该第一空间参数包含对第一和第二音频信号(x1,x2)的空间特性的描述,
2)产生包括第二空间参数的第一参数组,
3)产生包括第三空间参数的第二参数组,及
4)产生包含第一输出部分和第二输出部分的编码输出信号,所述第一输出部分包含主信号部分(m)和第一参数组,所述第二输出部分包含残留信号部分(s)和第二参数组。
15.一种用于根据编码信号产生多通道音频信号的方法,该方法包括步骤
1)接收包含主信号部分、残留信号部分及第一和第二参数组的编码信号,所述第一和第二参数组包含对第一与第二音频信号的空间特性的描述,
2)根据残留信号部分和第二参数组确定混合矩阵(MM),
3)根据所确定的混合矩阵产生第一和第二音频信号。
16.如权利要求15所述的方法,包括对主信号部分进行去相关及作为其响应产生去相关的主信号部分的步骤。
17.如权利要求16所述的方法,进一步包括将残留信号部分和去相关的主信号部分相加的步骤。
18.如权利要求17所述的方法,其中混合矩阵(MM)的确定是基于相加后的残留信号部分和去相关主信号部分来进行的。
19.如权利要求15所述的方法,包括接收多组第一和第二参数组及多个残留信号部分,以便作为其响应产生多组第一和第二音频信号。
20.如权利要求19所述的音频解码器,包括接收三组第一和第二参数组及三个残留信号部分,以便作为其响应产生三组第一和第二音频信号。
21.一种编码后的多通道音频信号,包括
-第一信号部分(OP1),该第一信号部分包含主信号部分(m)和第一参数组(PS1),所述第一参数组包含对第一和第二音频信号(x,x2)的空间特性的描述,及
-第二信号部分(OP2),该第二信号部分包含残留信号部分(s)和第二参数组(PS2),所述第二参数组包含对第一和第二音频信号(x1,x2)的空间特性的描述。
22.一种存储有如权利要求21所述信号的存储介质。
23.一种用于执行如权利要求14所述的方法的计算机可执行程序代码。
24.一种计算机可读存储介质,包括如权利要求23所述的计算机可执行程序代码。
25.一种用于执行如权利要求15所述的方法的计算机可执行程序代码。
26.一种计算机可读存储介质,包括如权利要求25所述的计算机可执行程序代码。
27.一种包括如权利要求1所述的编码器的设备。
28.一种包括如权利要求8所述的解码器的设备。
全文摘要
一种适用于编码多通道音频信号的音频编码器,该编码器包括编码器组合模块(ECM),用于产生主信号部分(m)和残留信号部分(s),所述主信号部分和残留信号部分是第一和第二音频信号(x1,x2)的组合表示,该主信号部分和残留信号部分(m,s)是通过对第一和第二音频信号(x1,x2)实施数学过程来得到的,其中该数学过程涉及第一空间参数(SP1),该空间参数包含对第一和第二音频信号(x1,x2)的空间特性的描述;参数生成器(PG),用于产生第一参数(PS1)组和第二参数(PS2)组,所述第一参数组包括第二空间参数(SP2),所述第二参数组包括第三空间参数(SP3);输出生成器,用于产生编码后的输出信号,该输出信号包括第一输出部分(OP1)及第二输出部分(OP2),所述第一输出部分包含主信号部分(m)和第一参数组(PS1),所述第二输出部分包含残留信号部分(s)和第二参数组(PS2)。在优选的实施例中,所述数学过程包括二维信号旋转,所述第三空间参数(SP3)包含第二空间参数(SP2)和第一空间参数(SP1)之间的差值。优选的实施例包括多个互相连接的编码器组合模块,从而例如可以将六个独立的5.1格式音频信号编码成单个或两个主信号部分和多个参数组及残留信号部分。在输出比特流中,所述第一输出部分被包含在基本层中,而所述第二输出部分被包含在精确层中。通过利用两层的解码器可以得到透明的音频信号质量,而通过仅使用基本层数据的解码器可以得到可接受的质量。因此,提供了一种可扩缩的空间音频编码。
文档编号G10L19/24GK101151659SQ200680010351
公开日2008年3月26日 申请日期2006年3月16日 优先权日2005年3月30日
发明者F·P·迈伯格, E·G·P·舒杰斯 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1