专利名称:多声道下混对象编码的增强编码和参数表示的制作方法
技术领域:
本发明涉及基于可用的多声道下混(downmix)以及附加的控制数据来对来自已编码的多对象信号的多个对象进行解码。
背景技术:
近来音频的发展使得基于立体声(或者单声道)信号以及对应的控制数据来重建音频信号的多声道表示更为容易。这些参数环绕编码方法通常包含参数化过程。参数多声道音频解码器(例如在IS0/IEC23003-1[1]、[2]中所定义的MPEG环绕(MPEG Surround) 解码器)基于K个传送的声道,利用附加的控制数据来重构M个声道,其中M>K。该控制数据由基于IID(声道间强度差)和ICC(声道间相干性)的多声道信号的参数化构成。这些参数通常在编码级中提取的,并且描述了上混过程中所使用的声道对之间的功率比值以及相关性。使用这样的编码方案,与传送全部的M个声道相比,允许使用明显更低的数据速率进行编码,使得编码效率非常高,同时确保与K声道装置以及M声道装置的兼容性。一种非常相关的编码系统是对应的音频对象编码器[3],[4],其中在编码器中对若干音频对象进行下混,随后在控制数据的指引下进行上混。该上混过程也可以被视为是对在下混中混合的对象的分离。所得到的上混信号可以被呈现至一个或者多个回放声道。更准确而言,[3,4]提出了一种方法,根据下混(称为和信号)、有关源对象的统计信息以及描述期望输出格式的数据来合成多个声道。在使用多个下混信号的情况下,这些下混信号由对象的不同子集构成,并且针对每一个下混声道分别执行上混。在新方法中,我们介绍了一种方法,其中对所有下混声道联合地进行上混。在本发明之前的对象编码方法中,并未提出用于对具有多于一个声道的下混进行联合解码的方案。
_7] 参考文献:[I]L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, andK. KjorliHg, " MPEG Surround The Forthcoming ISO Standard for Spatial AudioCoding, " in 28th International AES Conference,The Future of Audio TechnologySurround and Beyond, Pitea, Sweden, June 30-July 2,2006.[2] J. Breebaart, J. Herre, L. Villemoes, C. Jin,, K. Kj0Γling, J. Plogsties, andJ.Koppens," Multi-Channels goes Mobile MPEG Surround Binaural Rendering, " in29th International AES Conference,Audio for Mobile and Handheld Devices,Seoul,Sept 2-4,2006.[3] C. Faller, “Parametric Joint-Coding of Audio Sources,,,ConventionPaper 6752 presented at the 120th AES Convention, Paris,France, May 20-23,2006.[4]C. Faller, “Parametric Joint-Coding of Audio Sources,,,专利申请 PCT/EP2006/050904,2006.
发明内容
本发明的第一方面涉及一种利用多个音频对象来产生编码的音频对象信号的音频对象编码器,所述音频对象编码器包括下混信息产生器,用于产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布;对象参数产生器,用于产生所述音频对象的对象参数;以及输出接口,用于利用所述下混信息和所述对象参数来产生所述编码的音频对象信号。本发明的第二方面涉及一种利用多个音频对象来产生编码的音频对象信号的音 频对象编码方法,所述音频对象编码方法包括产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布;产生所述音频对象的对象参数;以及利用所述下混信息和所述对象参数来产生所述编码的音频对象信号。本发明的第三方面涉及一种利用编码的音频对象信号来产生输出数据的音频合成器,所述音频合成器包括输出数据合成器,用于产生所述输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象,所述输出数据合成器使用下混信息和音频对象的音频对象参数,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布。本发明的第四方面涉及一种利用编码的音频对象信号来产生输出数据的音频合成方法,所述音频合成方法包括产生所述输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象,所述输出数据合成器使用下混信息和音频对象的音频对象参数,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布。本发明的第五方面涉及一种编码的音频对象信号,包括下混信息和对象参数,所述下混信息指示多个音频对象在至少两个下混声道中的分布,所述对象参数使得能够使用所述对象参数以及所述至少两个下混声道来重构所述音频对象。本发明的第六方面涉及一种计算机程序,当所述计算机程序在计算机上运行时,执行音频对象编码方法或者音频对象解码方法。
现在参照附图,以示意性示例而非限制本发明范围或精神的方式来描述本发明,附图中图Ia示意了包括编码和解码在内的空间音频对象编码的操作;图Ib示意了重用MPEG环绕解码器的空间音频对象编码的操作;图2示意了空间音频对象编码器的操作;图3示意了在基于能量的模式下操作的音频对象参数提取器;图4示意了在基于预测的模式下操作的音频对象参数提取器;图5示意了 SAOC至MPEG环绕的代码转换器的结构;
图6示意了下混转换器的不同操作模式;图7示意了用于立体声下混的MPEG环绕解码器的结构;图8示意了包含SAOC编码器的实际使用情况;图9示意了编码器的实施例;图10示意了解码器的实施例;图11示意了示出不同的优选解码器/合成器模式的表格;图12示意了用于计算特定空间上混参数的方法;图13a示意了用于计算附加空间上混参数的方法;图13b示意了利用预测参数进行计算的方法;图14示意了编码器/解码器系统的整体概观;图15示意了计算预测对象参数的方法;以及图16示意了立体声呈现的方法。
具体实施例方式以下描述的实施例仅用于说明本发明“多声道下混对象编码的增强编码和参数表示”的原理。应理解,对本文所描述的配置和细节进行的修改和变型对本领域技术人员而言是显而易见的。因此,本发明的范围仅由所附权利要求的范围来限定,而不是由这里以实施例的描述和解释的方式呈现的具体细节来限定。优选实施例提供了一种编码方案,将对象编码的方案的功能与多声道解码器的呈现能力相结合。所传送的控制数据与各个对象相关,并且因此允许在重现中进行空间位置和水平的操作。因此,该控制数据与所谓的场景描述直接相关,其中给出了对象的定位信息。该场景描述可以在解码器侧由收听者以交互方式控制,或者也可以在编码器侧由制作人控制。由本发明所教导的代码转换器级用于将与对象相关的控制数据以及下混信号转换为与重现系统(例如MPEG环绕解码器)相关的控制数据和下混信号。在本编码方案中,对象可以任意分布在编码器处可用的下混声道中。代码转换器明确地使用多声道下混信息来提供代码转换后的下混信号以及与对象相关的控制数据。由此,在解码器处的上混不是如[3]中所提出的那样对所有声道分别执行,而是在单个上混过程中对全部下混声道同时进行处理。在这种新方案中,该多声道下混信息必须是控制数据的一部分,并且是由对象编码器来编码的。对象在下混声道中的分布可以以自动的方式来完成,或者可以是编码器侧的一种设计选择。在后一种情况下,可以将下混设计为适合于使用现有的多声道重现方案(例如立体声重现系统)来进行回放,特征在于进行重现并省略代码转换以及多声道解码级。这是优于现有技术编码方案的另一优点,现有技术的编码方案由单一下混声道,或者包含源对象子集的多个下混声道构成。虽然现有技术的对象编码方案仅描述了使用单一下混声道的解码过程,但是本发明并不受该限制,因为本发明提供一种用于对包含多于一个声道的下混的下混进行联合解码的方法。在分离对象时所能获得的质量随下混声道数目增加而提高。因此,本发明成功地弥补了具有单一单声道下混声道的编码方案与其中每个对象在单独声道中传送的多声道编码方案之间的间隙。因此,本发明所提出的方案允许根据应用的要求以及传送系统的特性(如信道容量)来对对象分离的质量进行灵活缩放。此外,由于允许附加地考虑该各个声道之间的相关性,以不是如现有技术的对象编码方案中那样将描述限制为强度差,因此使用多于一个下混声道是有利的。现有技术方案依赖与所有对象独立且互不相关(零互相关)的假设,而实际上,对象之间并非不可能相关(例如立体声信号的左与右声道)。如同本发明所教导的,在描述(控制数据)中结合相关性使其更加完整,并从而还促进了分离对象的能力。优选实施例包括下列的特征中的至少一个特征一种用于传送和创建多个的单独音频对象的系统,使用多声道下混以及描述这些对象的附加控制数据,所述系统包括空间音频对象编码器,用于将多个音频对象编码为多声道下混、与所述多声道下混相关的信息、以及对象参数;或者空间音频对象解码器,用于将多声道下混、与所述多声道下混相关的信息、对象参数以及对象呈现矩阵(objectrendering matrix)解码为适合于音频重现的第二多声道音频信号。图Ia示意了空间音频对象编码(SAOC)的操作,包括SAOC编码器101以及SAOC解码器104。空间音频对象编码器101根据编码器参数,将N个对象编码为由K > I个音频声道组成的对象下混。SAOC编码器将与所应用的下混权值矩阵D的信息与可选数据一起输出,所述可选数据与下混的功率和相关性有关。该矩阵D通常(但并不一定总是)在时间和频率上是恒定的,因此表示相对少量的信息。最后,SAOC编码器以由感知考虑所定义的分辨率,提取每个对象的对象参数作为时间和频率的函数。空间音频对象解码器104以对象下混声道、下混信息以及对象参数(由编码器所产生)作为输入,产生具有M个音频声道的输出以呈现给用户。利用作为对SAOC解码器的用户输入而提供的呈现矩阵来将N个对象呈现至M个音频声道。·图Ib示意了重用MPEG环绕解码器的空间音频对象编码的操作。由本发明所教导的SAOC解码器104可以被实现为SAOC至MPEG环绕的代码转换器102,以及基于立体声下混的MPEG环绕解码器103。由用户控制的大小为MXN的呈现矩阵A定义将N个对象至M个声道的呈现目标。这个矩阵可以依赖于时间和频率,并且这是用于音频对象操作的对用户更加友好的接口的最终输出(也可以使用外部提供的场景描述)。在5. I扬声器设置的情况下,输出音频声道的数目为M = 6。SAOC解码器的任务是以感知方式重建原始音频对象的目标呈现。SAOC至MPEG环绕的代码转换器102以该呈现矩阵A、对象下混、包括下混权值矩阵D下混辅助信息以及对象辅助信息作为输入,并且产生立体声下混与MPEG环绕辅助信息。当该代码转换器根据本发明的方式来构建时,被提供以这些数据的后续MPEG环绕解码器103将产生具有期望特性的M声道的音频输出。由本发明所教导的SAOC解码器104可以被实现为SAOC至MPEG环绕的代码转换器102,以及基于立体声下混的MPEG环绕解码器103。由用户控制的大小为MXN的呈现矩阵A定义将N个对象至M个声道的呈现目标。这个矩阵可以依赖于时间和频率,并且这是用于音频对象操作的对用户更加友好的接口的最终输出。在5. I扬声器设置的情况下,输出音频声道的数目为M = 6。SAOC解码器的任务是以感知方式重建原始音频对象的目标呈现。SAOC至MPEG环绕的代码转换器102以该呈现矩阵A、对象下混、包括下混权值矩阵D下混辅助信息以及对象辅助信息作为输入,并且产生立体声下混与MPEG环绕辅助信息。当该代码转换器根据本发明的方式来构建时,被提供以这些数据的后续MPEG环绕解码器103将产生具有期望特性的M声道的音频输出。图2示意了本发明所教导的空间音频对象编码器(SAOC)IOl的操作。将N个音频对象馈送入下混器201以及音频对象参数提取器202。下混器201根据编码器参数将这些对象混合为由K > I个音频声道组成的对象下混,并且也输出下混信息。该信息包括所应用的下混权值矩阵D的描述,以及可选地,如果随后的音频对象参数提取器在预测模式下操作,则还包括描述该对象下混的功率以及相关性的参数。如将随后的段落中讨论的,这些附加参数的作用是在仅相对于下混来表示对象参数的情况下(主要示例是5. I扬声器设置中的后置/前置提示),提供对所呈现声道的子集的能量和相关性的访问。音频对象参数提取器202根据该编码器参数来提取对象参数。该编码器控制以随时间和频率变化的方式来确定应用两个编码器模式中的哪一个,即基于能量的模式或基于预测的模式。在基于能量的模式中,编码器参数还包含与N个音频对象组合为P个立体声对象和N-2P个单声道对象的组合过程相关的信息。通过图3和图4来进一步描述每种模式。图3示意了在基于能量的模式下操作的音频对象参数提取器202。根据编码器参数中包含的组合信息来执行组合为P个立体声对象和N-2P个单声道对象的组合过程301。 然后,对于每一个所考虑的时间频率区间,执行下列操作。立体声参数提取器302针对P个立体声对象中的每一个来提取两个对象功率和一个归一化相关性。单声道参数提取器303针对N-2P个单声道对象来提取一个功率参数。然后,在304中将N个功率参数以及P个归一化相关参数的总集合与组合数据一起进行编码,以形成对象参数。该编码过程可以包含相对于最大对象功率或者相对于所提取的对象功率总和的归一化步骤。图4示意了在基于预测的模式下操作的音频对象参数提取器202。对于每一个所考虑的时间频率区间,执行下列的操作。针对N个对象中的每一个,导出K个对象下混声道的线性组合,其在最小二乘意义上与给定对象相匹配。该线性组合的K个权值称为对象预测系数(OPC),而且是利用OPC提取器401来计算的。在402中对N · K个OPC的总集合进行编码,以形成对象参数,该编码过程可以结合基于线性相互依赖关系的OPC总数的减小。如本发明所教导的,如果该下混权值矩阵具有满秩,则这个总数可以减小至max{K · (N-K),0}。图5示意了本发明所教导的SAOC至MPEG环绕的代码转换器102的结构。对于每一个时间频率区间,参数计算器502将下混辅助信息和对象参数与呈现矩阵相结合,以形成CLD、CPC与ICC类型的MPEG环绕参数以及大小为2XK的下混转换器矩阵G。下混转换器501通过根据该G矩阵来应用矩阵运算,将对象下混转换成立体声下混。在K = 2的简化模式的代码转换器中,该矩阵为单位矩阵,并且对象下混在未经改变的情况下通过代码转换器作为立体声下混。在图中示意出了这种模式,其中选择器开关503在位置A,而在正常操作模式下该开关在位置B。该代码转换器的另一优点在于其作为独立应用的实用性,其中忽略了 MPEG环绕参数,并且下混转换器的输出直接用作立体声呈现。图6示意了本发明所教导的下混转换器501的不同操作模式。给定从K声道音频编码器输出的使用比特流格式传送的对象下混,音频解码器601首先将该比特流解码为K个时域音频信号。然后,在T/F单元602中,通过MPEG环绕混合QMF滤波器组将这些信号转换至频域。矩阵化单元603对所产生的混合QMF域信号执行由转换器矩阵数据定义的随时间和频率变化的矩阵运算,并输出混合QMF域中的立体声信号。混合合成单元604将立体声混合QMF域信号转换成立体声QMF域信号。定义混合QMF域以通过随后对QMF子带进行滤波来获得更好的向较低频率的频率分辨率。当随后的滤波由奈奎斯特滤波器组定义时,从该混合至标准QMF域的转换由混合子带信号组的简单相加构成,见[E. Schuijers,J. Breebart,and H. Purnhagen,“Low Complexity Parametric Stereo Coding,Proc 116thAES Convention Berlin,Germany 2004,Preprint 6073.]。该信号构成下混转换器的第一种可能的输出格式,如在位置A的选择器开关607所定义。这样的QMF域信号可以直接馈送入MPEG环绕解码器中的对应QMF域接口,并且就延迟、复杂度以及质量而言,这是最为有利的操作模式。下一种可能性是通过执行QMF滤波器组合成605,以获得立体声时域信号来获得的。在选择器开关607在位置B的情况下,转换器输出数字音频立体声信号,该信号也可以馈送入随后的MPEG环绕解码器的时域接口,或者直接在立体声回放设备中呈现。第三种可能性(选择器开关在位置C)是通过利用立体声编码器606对时域立体声信号进行编码来获得的。然后,下混转换器的输出格式为立体声音频比特流,其与MPEG解码器中包含的核心解码器兼容。这第三种操作模式适合于以下情况SA0C至MPEG环绕的代码转换器与MPEG解码器分离而其间的连接对比特率有所限制,或者用户期望储存特定对象呈现以便未来回放。
图7示意了用于立体声下混的MPEG环绕解码器的结构。2转3工具箱(TTT box)将立体声下混转换成三个中间声道。再利用三个I转2工具箱(0ΤΤ box)将这些中间声道分成两个声道,以产生5. I声道配置的六个声道。图8示意了包括SAOC编码器的实际使用的情况。音频混合器802输出立体声信号(L和R),该信号典型地是通过将混合器输入信号(此处为输入声道1-6)组合以及可选地与来自效应返回(如回响等)的附加输入组合而构成。该混合器也从混合器输出单独的声道(此处为声道5),这可以例如通过通常使用的混合器功能,如“直接输出”或者“辅助发送”等来完成,以便在任何插入过程(如动态处理以及EQ)之后输出单独的声道。将立体声信号(L和R)以及该单独的声道输出(obj5)输入至SAOC编码器801,编码器801只是图I中的SAOC编码器101的一种特殊情况。然而,它清楚地示意了一种典型应用,其中应在解码器侧对音频对象obj5(包含例如语音)进行由用户控制的音级修改,同时仍为立体声混合(L和R)的一部分。从上述概念也可以明显看出,两个或者更多个音频对象可以连接至801中的“对象输入”面板,此外,可以使用多声道混合(如5. I混合)来扩展该立体声混合。在下文中,将概述本发明的数学描述。对于离散的复信号x、y,其复内积以及平方范数(能量)定义为
(x,y) = YuXikyy^kX彳,,>(I)
IHI =〈χ,χ〉=ΣΙχ ⑷ I,其中;FM)表示y(k)的复共轭信号。此处所考虑的所有信号是来自离散时间信号的调制滤波器组或加窗FFT分解的子带采样。应理解,这些子带必须由对应的合成滤波器组操作将其转换回到离散时域。L个采样的信号块表示时间与频率区间中的信号,所述区间是用于描述信号的特性的时频平面中以感知方式激发的片(tiling)的一部分。在这种设置中,给定的音频对象可以表示成矩阵中长度为L的N个行,
权利要求
1.一种利用多个音频对象来产生编码的音频对象信号的音频对象编码器,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述音频对象编码器包括 下混信息产生器,用于产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布; 对象参数产生器,用于产生所述音频对象的对象参数,其中,所述对象参数包括所述多个音频对象的对象能量的近似和立体声对象的相关性数据;以及 输出接口,用于利用所述下混信息和所述对象参数来产生所述编码的音频对象信号,其中,输出接口适于产生所述编码的音频对象信号,使得所述编码的音频对象信号包括所述下混信息和所述对象参数。
2.如权利要求I所述的音频对象编码器,还包括 下混器,用于将所述多个音频对象下混入多个下混声道,其中,音频对象的数目大于下混声道的数目,并且,所述下混器耦合至所述下混信息产生器,以便以所述下混信息中指示的方式来执行所述多个音频对象在所述多个下混声道中的分布。
3.如权利要求2所述的音频对象编码器,其中,所述输出接口还利用所述多个下混声道来产生所述编码的音频信号。
4.如权利要求I所述的音频对象编码器,其中,所述参数产生器以第一时间频率分辨率来产生所述对象参数,并且,所述下混信息产生器以第二时间频率分辨率来产生所述下混信息,所述第二时间频率分辨率小于所述第一时间频率分辨率。
5.如权利要求I所述的音频对象编码器,其中,所述下混信息产生器产生所述下混信息,使得所述下混信息对于音频对象的整个频带都相等。
6.如权利要求I所述的音频对象编码器,其中,所述下混信息产生器产生所述下混信息,使得所述下混信息表示如下定义的下混矩阵X = DS 其中S为矩阵,表示音频对象,其行数等于音频对象的数目, D为所述下混矩阵,以及 X为矩阵,表示所述多个下混声道,其行数等于下混声道的数目。
7.如权利要求I所述的音频对象编码器,其中,所述下混信息产生器计算所述下混信息,使得所述下混信息指示 哪个音频对象完整地或部分地包含于所述多个下混声道中的一个或多个下混声道中,以及 当音频对象包含于多于一个下混声道中时,与所述多于一个下混声道中的一个下混声道中包括的音频对象的一部分相关的信息。
8.如权利要求7所述的音频对象编码器,其中,与一部分相关的信息是小于I且大于O的因子。
9.如权利要求2所述的音频对象编码器,其中,所述下混器将背景音乐的立体声表示包括在所述至少两个下混声道中,并且以预定比值将语音轨道引入所述至少两个下混声道中。
10.如权利要求2所述的音频对象编码器,其中,所述下混器以所述下混信息中指示的方式,对要输入至下混声道的信号执行逐米样相加。
11.如权利要求I所述的音频对象编码器,其中,所述输出接口在产生所述编码的音频对象信号之前,对所述下混信息和所述对象参数执行数据压缩。
12.如权利要求I所述的音频对象编码器,其中,所述下混信息产生器产生功率信息和相关性信息,所述功率信息和相关性信息指示所述至少两个下混声道的功率特性和相关性特性。
13.如权利要求I所述的音频对象编码器,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,以及,所述下混信息产生器产生组合信息,所述组合信息指示所述两个音频对象形成所述立体声对象。
14.如权利要求I所述的音频对象编码器,其中,所述对象参数产生器产生音频对象的对象预测参数,所述预测参数被计算为使得源对象的受到所述预测参数或所述源对象控制的下混声道的加权相加得到所述源对象的近似。
15.如权利要求14所述的音频对象编码器,其中,对每个频带产生所述预测参数,并且,所述音频对象覆盖多个频带。
16.如权利要求14所述的音频对象编码器,其中,音频对象的数目等于N,下混声道的数目等于K,以及所述对象参数产生器计算的对象预测参数的数目等于或者小于N · K。
17.如权利要求16所述的音频对象编码器,其中,所述对象参数产生器计算至多K · (N-K)个对象预测参数。
18.一种利用多个音频对象来产生编码的音频对象信号的音频对象编码方法,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述音频对象编码方法包括 产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布; 产生所述音频对象的对象参数,其中,所述对象参数包括所述多个音频对象的对象能量的近似和立体声对象的相关性数据;以及 利用所述下混信息和所述对象参数来产生所述编码的音频对象信号,使得所述编码的音频对象信号包括所述下混信息和所述对象参数。
19.一种利用编码的音频对象信号来产生输出数据的音频合成器,其中,所述编码的音频对象信号包括下混信息和对象参数,所述音频合成器包括 输出数据合成器,用于产生所述输出数据,所述输出数据能够用于呈现预定音频输出配置的多个输出声道以表示多个音频对象,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述输出数据合成器接收来自所述编码的音频信号的所述下混信息和所述对象参数作为输入,并使用下混信息和所述音频对象的音频对象参数,其中所述对象参数包括所述多个音频对象的对象能量的近似和立体声对象的相关性数据,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布。
20.如权利要求19所述的音频合成器,其中,所述输出数据合成器还利用所述音频对象在音频输出配置中的预期定位,来将所述音频对象参数代码转换为针对所述预定音频输出配置的空间参数。
21.如权利要求19所述的音频合成器,其中,所述输出数据合成器使用从所述音频对象的预期定位导出的转换矩阵,来将多个下混声道转换为针对所述预定音频输出配置的立体声下混。
22.如权利要求21所述的音频合成器,其中,所述输出数据合成器使用所述下混信息来确定所述转换矩阵,其中所述转换矩阵被计算为使得当要在立体声平面的第二半平面中播放表示立体声平面的第一半平面的第一下混声道中包括的音频对象时,对至少部分下混声道进行交换。
23.如权利要求20所述的音频合成器,还包括声道呈现器,用于使用所述空间参数和所述至少两个下混声道或转换后的下混声道,来呈现所述预定音频输出配置的音频输出声道。
24.如权利要求19所述的音频合成器,其中,所述输出数据合成器还使用所述至少两个下混声道来输出所述预定音频输出配置的输出声道。
25.如权利要求19所述的音频合成器,其中,所述空间参数包括用于2转3上混的第一组参数,以及用于3-2-6上混的第二组能量参数,以及 其中,所述输出数据合成器使用呈现矩阵、部分下混矩阵以及所述下混矩阵来计算2转3预测矩阵的预测参数,所述呈现矩阵由所述音频对象的预期定位确定,所述部分下混矩阵描述了输出声道至假想2转3上混过程所产生的三个声道的下混。
26.如权利要求25所述的音频合成器,其中,所述输出数据合成器计算所述部分下混矩阵的实际下混权值,使得两个声道的加权和的能量在限制因子的范围之内等于所述声道的能量。
27.如权利要求26所述的音频合成器,其中,所述部分下混矩阵的下混权值由下列等式确定
28.如权利要求25所述的音频合成器,其中,所述输出数据合成器通过求解线性方程组来计算所述预测矩阵的各个系数。
29.如权利要求25所述的音频合成器,其中,所述输出数据合成器基于以下等式来求解线性方程组 C3 (DED*) = A3ED* 其中C3为2转3预测矩阵,D为从所述下混信息导出的下混矩阵,E为从音频源对象导出的能量矩阵,A3为简化的下混矩阵,并且表示复共轭运算。
30.如权利要求25所述的音频合成器,其中,用于2转3上混的预测参数是从所述预测矩阵的参数化导出的,使得所述预测矩阵仅使用两个参数来定义,以及 其中,所述输出数据合成器对所述至少两个下混声道进行预处理,使得所述预处理与参数化的预测矩阵的效果与期望的上混矩阵相对应。
31.如权利要求30所述的音频合成器,其中,所述预测矩阵的参数化如下
32.如权利要求19所述的音频合成器,其中,下混转换矩阵G计算如下G 其中C3为2转3预测矩阵,Dttt与Cm等于I,I为2乘2单位矩阵,并且,Cm基于
33.如权利要求32所述的音频合成器,其中,将用于2转3上混的预测参数确定为a与β,其中Y设定为I。
34.如权利要求25所述的音频合成器,其中,所述输出数据合成器使用能量矩阵F来计算用于所述3-2-6上混的能量参数,能量矩阵F基于
35.如权利要求34所述的音频合成器,其中,所述输出数据合成器通过将所述能量矩阵的元素进行组合来计算所述能量参数。
36.如权利要求35所述的音频合成器,其中,所述输出数据合成器基于下列等式来计算所述能量参数
37.如权利要求25所述的音频合成器,其中,所述第一组参数包括能量参数,以及,所述输出数据合成器通过将能量矩阵F的元素进行组合来导出所述能量参数。
38.如权利要求37所述的音频合成器,其中,所述能量参数是基于下列等式来导出的
39.如权利要求37或38所述的音频合成器,其中,所述输出数据合成器计算用于对下混声道进行加权的权值因子,所述权值因子用于控制空间解码器的任意下混增益因子。
40.如权利要求39所述的音频合成器,其中,所述输出数据合成器基于以下等式来计算所述权值因子
41.如权利要求25所述的音频合成器,其中,所述对象参数为对象预测参数,并且,所述输出数据合成器基于所述对象预测参数、下混信息以及与下混声道相对应的能量信息来预计算能量矩阵。
42.如权利要求41所述的音频合成器,其中,所述输出数据合成器基于以下等式来计算能量矩阵E = CZC* 其中E为所述能量矩阵,C为预测参数矩阵,Z为所述至少两个下混声道的协方差矩阵。
43.如权利要求19所述的音频合成器,其中,所述输出数据合成器通过计算参数化的立体声呈现矩阵和依赖于所述参数化的立体声呈现矩阵的转换矩阵,来产生立体声输出配置的两个立体声道。
44.如权利要求43所述的音频合成器,其中,所述输出数据合成器基于以下等式来计算转换矩阵G = A2 · C 其中G为所述转换矩阵,A2为部分呈现矩阵,C为预测参数矩阵。
45.如权利要求43所述的音频合成器,其中,所述输出数据合成器基于以下等式来计算转换矩阵G (DED*) = A2ED* 其中G为从轨道的音频源导出的能量矩阵,D为从所述下混信息导出的下混矩阵,A2为简化的呈现矩阵,表示复共轭运算。
46.如权利要求43所述的音频合成器,其中,所述参数化的立体声呈现矩阵A2确定如下
47.一种利用编码的音频对象信号来产生输出数据的音频合成方法,其中,所述编码的音频对象信号包括下混信息和对象参数,所述音频合成方法包括 接收来自所述编码的音频信号的所述下混信息和所述对象参数,其中所述对象参数包括多个音频对象的对象能量的近似和立体声对象的相关性数据,以及 使用所述下混信息和所述音频对象的音频对象参数,产生所述输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布。
48.一种利用多个音频对象来产生编码的音频对象信号的音频对象编码器,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述音频对象编码器包括 下混信息产生器,用于产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布,其中,所述下混信息产生器计算所述下混信息,使得所述下混信息指示 哪个音频对象完整地或部分地包含于所述多个下混声道中的一个或多个下混声道中,以及 当音频对象包含于多于一个下混声道中时,与所述多于一个下混声道中的一个下混声道中包括的音频对象的一部分相关的信息; 对象参数产生器,用于产生所述音频对象的对象参数,其中,所述对象参数包括所述多个音频对象的对象能量的近似和立体声对象的相关性数据;以及 输出接口,用于利用所述下混信息和所述对象参数来产生所述编码的音频对象信号。
49.一种利用编码的音频对象信号来产生输出数据的音频合成器,包括 输出数据合成器,用于产生所述输出数据,所述输出数据能够用于呈现预定音频输出配置的多个输出声道以表示多个音频对象,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述输出数据合成器使用下混信息和所述音频对象的音频对象参数,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布,所述下混信息指示哪个音频对象完整地或部分地包含于所述多个下混声道中的一个或多个下混声道中,以及当音频对象包含于多于一个下混声道中时,与所述多于一个下混声道中的一个下混声道中包括的音频对象的一部分相关的信息;其中,所述对象参数包括所述多个音频对象的对象能量的近似和立体声对象的相关性数据。
50.一种利用多个音频对象来产生编码的音频对象信号的方法,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述方法包括 产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布,使得所述下混信息指示哪个音频对象完整地或部分地包含于所述多个下混声道中的一个或多个下混声道中,以及当音频对象包含于多于一个下混声道中时,与所述多于一个下混声道中的一个下混声道中包括的音频对象的一部分相关的信息; 产生所述音频对象的对象参数,其中,所述对象参数包括所述多个音频对象的对象能量的近似和立体声对象的相关性数据;以及 利用所述下混信息和所述对象参数来产生所述编码的音频对象信号。
51.一种利用编码的音频对象信号来产生输出数据的方法,所述方法包括 使用下混信息和音频对象的音频对象参数,产生所述输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象,其中,所述多个音频对象包括由具有特定非零相关性的两个音频对象表示的立体声对象,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布,其中,所述下混信息指示哪个音频对象完整地或部分地包含于所述多个下混声道中的一个或多个下混声道中,以及当音频对象包含于多于一个下混声道中时,与所述多于一个下混声道中的一个下混声道中包括的音频对象的一部分相关的信息;其中,所述对象参数包括所述多个音频对象的对象能量的近似和立体声对象的相关性数据。
全文摘要
本发明提供了一种利用多个音频对象来产生编码的音频对象信号的音频对象编码器,所述音频对象编码器包括下混信息产生器,用于产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布;音频对象参数产生器,用于产生所述音频对象的对象参数;以及输出接口,用于利用所述下混信息以及所述对象参数来产生导入的音频输出信号。本发明还提供了一种音频合成器,所述音频合成器使用下混信息来产生输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道。
文档编号H04S7/00GK102892070SQ20121027610
公开日2013年1月23日 申请日期2007年10月5日 优先权日2006年10月16日
发明者约纳斯·恩德加德, 拉斯·维尔默斯, 海科·朋哈根, 巴巴拉·瑞奇 申请人:杜比国际公司