包括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法

文档序号:2830615阅读:522来源:国知局
专利名称:包括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法
技术领域
本发明涉及一种用于对具有各种声道的多对象音频信号进行编码和解码的i殳备和方法;且更具体;也,涉及一种包4舌边信息(side information)比 特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备 和方法,所述边信息比特流转换用于变换边信息比特流、并基于变换后的边 信息比特流来恢复具有所期望的输出信号(即,各种声道)的多对象音频信具有各种声道的多对象音频信号表示用于针对每个音频对象具有不同 声道(例如,单声道、立体声和5.1声道)的多对象的音频信号。这项工作受MIC/IITA的IT R&D规划[2005-S-403-02, "Development of Super-intelligent Multimedia Anytime-anywhere Realistic TV SmarTV Technology(超智能多媒体任何时间任何地点逼真TV智能TV技术的开发)"] 支持。
背景技术
根据传统的音频编码/解码技术,用户应该被动地(inactively )聆听音频 内容。这样,需要开发一种用于对在用于多个音频对象的多声道中的音频信 号进行编码和解码的设备和方法,使得可以通过根据用户的需要而控制其每 一个具有不同声道的音频对象并以各种方法而组合一个音频内容,来消费各 种音频对象。传统的空间音频编码(SAC )是一种用于将多声道音频信号代表、传送、 和恢复为缩混后的单声道或立体声信号的技术,并且它可以以低比特率来传 送高质量的多声道音频信号。然而,由于传统的SAC能够对在仅用于一个音频对象的多声道中的信 号进行编码和解码,所以它不能编码/解码多声道和多对象音频信号,例如, 用于多声道(例如,单声道、立体声和5.1声道)中的各种对象的音频信号。此外,传统的心理声学编码(BCC: Binaural Cue Coding)技术可以编 码/解码用于多对象的音频信号。然而,由于音频对象的声道限于单声道,所 以不能对具有包括单声道的各种声道的多对象音频信号进行编码/解码。总之,由于传统的^a术仅可以编码/解码具有单个声道的多对象音频信 号、或者具有多声道的单对象音频信号,所以不能对具有各种声道的多对象 音频信号进行编码/解码。因此,根据传统的音频编码/解码技术,用户应该 4皮动地聆听音频内容。相应地,需要开发一种用于对在用于每个多音频对象的各种声道中的音 频信号进行编码和解码的设备和方法,以通过控制根据用户的需要而不同的 多声道中的每个音频对象、并根据各种方法而组合一个音频内容来消费各种 音频对象。此外,需要一种用于将多对象音频比特流转换为传统的SAC比特流并 且反之亦然的设备和方法,以提供在多对象音频编码器中创建的边信息比特 流与传统的SAC编码器/解码器的边信息比特流之间的后向兼容性。如上所述,作为用于通过单独控制具有不同声道的多个音频对象并根据 各种方法而组合一个音频内容来对各种声道的多对象音频信号进行编码和 解码的设备和方法,需要开发一种可执行比特流转换的多声道和多对象音频 编码和解码设备及方法,以提供与传统SAC比特流的后向兼容性,并控制 具有多声道的每个多音频对象,从而以多样的方法来组合一个音频对象。
发明内容
技术问题本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号 进行编码和解码、以提供与传统的空间音频编码(SAC)比特流的后向兼容 性的设备和方法。技术解决方案根据本发明的一方面,提供了一种用于编码多对象音频信号的设备,包 括音频对象编码单元,用于基于空间线索(spatial cue)来编码输入到编码 设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中 所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道 信息和音频对象信号的标识信息。根据本发明的又一方面,提供了 一种用于创建渲染信息来解码多对象音频信号的代码转换设备,包括第一矩阵单元,用于基于已编码音频对象信 号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码 音频对象信号的功率增益信息和输出位置信息;和渲染单元,用于基于第一 矩阵单元所创建的渲染信息和用于从编码设备输入的已编码音频对象信号 的渲染信息,来创建用于要从解码设备输出的音频信号的空间线索信息。根据本发明的又一方面,提供了 一种用于创建多声道音频信号和用于解 码多声道音频信号的渲染信息的代码转换设备,包括解析单元,用于从用于由编码设备输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;第二矩阵单元,用于基于由解析单元单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和渲染单元,用于基于第一矩阵单元所创建的渲染信息、第二矩阵单元所创建的渲染信息、和由解析单元单独获取的用于已编码音频对象信号的渲染信息,来创建用于从解码设备输出的音频信号的空间线索信息。根据本发明的又一方面,提供了 一种用于编码多对象音频信号的方法,包括如下步骤基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信 自根据本发明的又一方面,提供了 一种用于创建渲染信息来解码多对象音频信号的代码转换方法,包括如下步骤基于已编码音频对象信号的对象控 制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信 号的功率增益信息和输出位置信息;和基于在所述创建渲染信息的步骤中创 建的渲染信息和用于在编码之后输入的已编码音频对象信号的渲染信息,来 创建用于要在解码之后输出的音频信号的空间线索信息。根据本发明的又一方面,提供了 一种用于创建渲染信息以解码多声道音 频信号和多对象音频信号的代码转换方法,包括如下步骤从用于在编码之 后输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;基于用于已编码音频对象信号的 对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频 对象信号的功率增益信息和输出位置信息;基于在所述分出渲染信息的步骤 中单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声 道音频信号的每个声道的功率增益信息的渲染信息,和基于在所述创建包括 功率增益信息和输出位置信息的渲染信息的步骤中创建的渲染信息、在所述 创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息的步 骤中创建的渲染信息、和在所述分出渲染信息的步骤中单独获取的用于已编 码音频对象信号的渲染信息,来创建用于要在解码之后输出的音频信号的空 间线索信息。 有利效果通过提供一种能够执行边信息比特流转换的用于编码和解码具有各种 声道的多对象音频信号的设备和方法,本发明可通过有效地编码和解码各种 声道中的多对象音频内容而根据用户的需要来主动地消费音频内容。此外, 本发明可通过提供与传统上使用的比特流的后向兼容性,来提供与传统编码 和解码设备的兼容性。


图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的 框图。图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的 框图。图3是图示了根据本发明实施例的图2的代码转换器(transcoder) 103的框图。图4图示了根据本发明实施例的由图2的比特流格式器(formatter) 205创建的代表性空间音频对象编码(SAOC)比特流。图5示出了根据本发明另一实施例的图2的代表性SAOC比特流。 图6是示出了根据本发明另一实施例的图2的代码转换器103的框图。 图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器。
具体实施方式
根据下文中陈述的参考附图的以下实施例描述,本发明的优点、特征和 方面将变明显。下文中将参考附图来详细描述本发明的特定实施例。图l是示出了才艮据本发明实施例的多对象音频编码器和多对象解码器的 框图。参考图1,本发明包括空间音频对象编码器(SAOC) 101、代码转换 器103、和空间音频编码(SAC) 105。根据SAOC方法,输入到编码器的信号被编码为音频对象。每个音频对 象不由解码器恢复并独立地播放。然而,用于音频对象的信息被渲染(render) 以形成所期望的音频场景,并输出具有各种声道的多对象音频信号。因此, SAC解码器需要用于渲染^f皮输入以获取所期望的音频场景的用于音频对象 的信息的设备。SAOC编码器101是基于空间线索的编码器,并将输入音频信号编码为 音频对象。所述音频对象是向SAOC编码器101输入的单声道或立体声信号。SAOC编码器101输出来自多于一个输入音频对象的缩混信号,并通过 提取空间线索和边信息来创建SAOC比特流。所输出的缩混信号是单声道或 立体声信号。SAOC编码器101基于"异类布局SAOC"或者"Faller"技术 来分析所输入的音频对象信号。所提取的SAOC比特流包括空间线索和边信息,并且所述边信息包括输 入音频对象的空间信息。 一般基于频率区域子带单位来分析并提取所述空间 线索。所述空间线索是在编码和解码音频信号中使用的信息。它才是取自频率区 域,并包括用于所输入的两个信号之间的大小差、延迟差和相关性的信息。 例如,空间线索包括用于示出音频信号的功率增益信息的、音频信号之间 的声道电平差(CLD);音频信号之间的声道间电平差(ICLD);音频信号 之间的声道间时间差(ICTD);用于示出音频信号之间的相关信息的、音频 信号之间的相关声道间相关(ICC);和音频信号之间的虚拟源位置信息,但 是不限于这些示例。此外,所述边信息包括用于恢复并控制空间线索和音频信号的信息。所述边信息包括标首信息。所述标首信息包括用于恢复并播放具有各种声道的 多对象音频信号的信息,并且可通过定义用于音频对象的声道信息和音频对 象的标识(ID)来提供用于具有单声道、立体声或多声道的音频对象的解码信息。例如,定义用于每个对象的ID和信息,以标识已编码的特定音频对 象是单声道音频信号还是立体声音频信号。作为实施例,所述标首信息可包 括空间音频编码(SAC)标首信息、音频对象信息和预设信息。代码转换器103渲染被输入到SAOC编码器101的音频对象,并基于从 外部输入的控制信号(即,每个对象的声音信息和播放环境信息)来将从 SAOC编码器101提取的SAOC比特流变换为SAC比特流。也就是说,代码转换器103基于所提取的SAOC比特流执行渲染,以将 输入到SAOC编码器101的音频对象恢复为具有各种声道的多对象音频信 号。可以在参数区域执行基于边信息的渲染。此外,代码转换器103将SAOC比特流变换为SAC比特流。所述代码 转换器103从SAOC比特流获得输入音频对象的信息,并与所期望的音频场 景对应地渲染输入音频对象的信息。在渲染过程中,代码转换器103预测与 所期望的音频场景对应的空间信息,变换并输出已预测的空间信息作为SAC 边信息比特流。将参考图3来详细描述代码转换器103。SAC解码器105是基于空间线索的多声道音频解码器,基于从代码转换 器103输出的SAC比特流而将乂人SAOC编码器101输出的缩混信号恢复为 每个对象的音频信号,并将每个对象的音频信号恢复为具有各种声道的多对 象音频信号。SAC解码器105可以用运动图象专家组(MPEG)环绕解码器 和心理声学编码(BCC)解码器来替换。图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的 框图,并示出了输入信号是具有各种声道的多对象音频信号的情况。参考图2和图1,本发明包括SAOC编码器101、代码转换器103、 SAC 解码器105、 SAC编码器201、预设音频场景信息(ASI) 203和比特流格式 器205。当SAOC编码器101仅支持单声道或立体声音频对象时,SAC编码器 201从所输入的多声道音频信号输出一个音频对象。所^r出的音频对象是缩 混后的单声道或立体声信号。此外,SAC编码器201提取空间线索和边信息,并创建SAC比特流。
SAOC编码器101从包括由SAC编码器201输出的一个音频对象的多 于一个音频对象输出代表性缩混信号,提取空间线索和边信息,并创建SAOC 比特流。
预设ASI 203将从外部输入的控制信号(即,每个对象的声音信息和播 放环境信息)形成为预设ASI,并创建包括预设ASI的预设ASI比特流。将 参考图4来详细描述预设ASI。
比特流格式器205基于由SAOC编码器101创建的SAOC比特流、由 SAC编码器201创建的SAC比特流、和由预设ASI 203创建的预设ASI比 特流,来创建代表性SAOC比特流。
代码转换器103渲染向SAOC编码器101输入的音频对象,并基于从外 部输入的每个对象的声音信息和播放环境信息来将比特流格式器205所创建 的代表性SAOC比特流变换为代表性SAC比特流。代码转换器103被包括 在SAC解码器105中并如上所述地起作用。
SAC解码器105基于从代码转换器103输出的SAC比特流,来将从 SAOC编码器101输出的缩混信号恢复为具有各种声道的多对象音频信号。 SAC解码器105可以用MPEG环绕解码器和BCC解码器来替换。
图3是图示了根据本发明实施例的图2的代码转换器103的框图。
参考图3,代码转换器103包括解析单元301、渲染单元303、第二矩 阵单元311、和第一矩阵单元313,并将代表性SAOC比特流变换为代表性 SAC比特流。
在图1中,代码转换器103将SAOC比特流变换为SAC比特流。 解析单元301解析由比特流格式器205创建的代表性SAOC比特流或者 由图1的SAOC编码器101创建的SAOC比特流,并划分在所述代表性SAOC 比特流中包括的SAOC比特流和SAC比特流。此外,解析单元301从已划 分SAOC比特流中提取用于输入到SAOC编码器101的音频对象数目的信 息。由于当解析由图1的SAOC编码器101创建的SAOC比特流时没有SAC 比特流,所以不必划分SAC比特流。
第二矩阵单元311基于由解析单元301划分的SAC比特流创建第二矩 阵。第二矩阵是关于输入到SAC编码器201的多声道音频信号的行列式。 当在代表性SAOC比特流中不包括SAC比特流时,即当解析由图1的SAOC编码器101创建的SAOC比特流时,不需要第二矩阵单元311。
第二矩阵示出了输入到SAC编码器201的多声道音频信号的功率增益 值,并示出在等式l中。
w

w
■6
t.力 A/
,⑨
>4
矩阵ii
等式i
通常,在将一个帧划分为子带之后的分析是SAC的基本分析过程。 "L:W是从SAC编码器201输出的缩混信号;k是频率系数索引;并且 b是子带索引。《—,是从SAC比特流获得的多声道信号的空间线索信息,并 用于恢复第i声道信号的频率信息,1SSM。因此,《,可以表达为频率系' 数的大小信息或相位信息。因此,在等式l的右边项中,gc(ifc)是等式l的 结果,并示出了从SAC解码器105输出的多声道音频信号。
"L:W和《」是向量,并且"Lc("的转置矩阵的维数是^—,的维数。例如, 这将被描述为等式2。由于从SAC编码器201输出的缩混信号是单声道或立 体声,所以m是l或2。
w,
等式2
如上所述,《,是包括在SAC比特流中的空间线索信息。当《一,指示每 个声道的子带中的功率增益时,可以从声道电平差空间线索中预测wi ,。当 《,被用作用于补偿频率系数的相位差的系数时,《—,可以从声道时间差空 间线索或声道间相干空间线索中预领'J 。
作为示例,将描述《—,被用作用于补偿频率系数之间的相位差的系数的 情况。
等式1的第二矩阵应表达每个声道的功率增益值,并且是缩混信号的向 量的维数的逆,使得可以利用从SAC编码器201输出的缩混信号通过矩阵 运算来创建输出信号^cW。当第二矩阵单元311创建满足等式1和2的第二矩阵时,渲染单元303 组合所创建的第二矩阵和第一矩阵单元313的输出。
第一矩阵单元313基于控制信号(例如,对象控制信息和播放系统信息), 来创建期望多于一个的、输入到SAOC编码器101的音频对象的输出,即要 被映射到具有各种声道的多对象音频信号的第 一矩阵。
当输入到SAOC编码器101的音频对象的数目是N时,从SAC编码器 201输出的缩混信号被认为是一个音频对象并包括在所输入的N个音频对象 中。相应地,除了从SAC编码器201输出的缩混信号之外的每个音频对象 可以基于第一矩阵而被映射到从SAC解码器105输出的声道。
当从SAC解码器105输出的声道的数目是M时,第一矩阵可满足接下 来的条件。
<formula>formula see original document page 15</formula>矩阵I
等式3
其中< ,是用于示出音频对象i的子带信号的信息的向量,1S£N-1,并 且是可以从SAOC比特流获得的空间线索信息。当音频对象i是立体声时, 《,是2x 1矩阵向量。《是示出用于将第j音频对象映射到第i输出声道的 功率增益信息或相位信息的第一矩阵的元素向量,并且可以从由外部输入或 者被设置为初始值的控制信息(例如,对象控制信息和播放系统信息)中获
3曰付。
满足等式3的条件的第一矩阵被传送到渲染单元303,并且在渲染单元 303中运算等式3。
将在等式4和5中详细描述等式3的运算符和运算过程 。
<formula>formula see original document page 15</formula>
等式4PL 《」
A /4〖
《乂 X </—

.力
X《,—
等式
当所输入的音频对象是单声道和立体声时,m是2。
例如,当所输入的音频对象的数目是Y、 m = 2、并且所输出的声道的数 目是M时,第一矩阵的维数是MxY,且Y数目个《被形成为2x l矩阵。 当包括从SAC编码器201输出的音频对象时,考虑Y-Y-1。作为等式3 的运算结果,应该能够表达包括所输出的声道的功率增益向量《—,的矩阵。 所表达的向量的维数是M x 2,并反映作为所输出的声道的数目的M和作为 所输入的音频对象的布局的2。
再次参考图3,渲染单元303从第一矩阵313和第二矩阵311接收第一 矩阵和第二矩阵。渲染单元303获得从由解析单元301划分的SAOC比特流 获得的每个音频对象的空间线索信息<_,,通过组合基于第一矩阵和第二矩 阵计算的输出向量来获得所期望的空间线索信息,并创建包括所期望的空间 线索信息的代表性SAC比特流。所期望的空间线索指的是与输出多声道音 频信号有关的空间线索,期望由用户从SAC解码器105输出所述输出多声 道音频信号。
如等式6地示出了用于基于第一矩阵和第二矩阵来获得所期望的空间线 索信息的运算。
V _乂/义-
wA — '—2+ (1--戸(Pw))
"V'/,一W 一L w」纖
当创建第一矩阵时没有考虑PN,并且Pn示出了从SAC编码器201输出 的音频对象的功率之和与直接输入到SAOC编码器101的音频对象的功率的 比率。
Pw可表达为等式7。
16<formula>formula see original document page 17</formula>
因此,当《」是所输出的声道的功率时,在音频对象的渲染之后的每个 声道的功率比被示出为《。d# 。可以从『丄d师中重新提取所期望的空间线索 参数。例如,提取ch—2和ch—l之间的声道电平差(CLD)参数如等式8所示。
=20 log
等式8
当所传送的缩混信号是单声道信号时,CLD参数如等式9所示,
<formula>formula see original document page 17</formula>等式9
所输出的声道的功率比被表达为作为空间线索参数的CLD,相邻声道之
间的空间线索参数被表达为来自给定『1一信息的各种组合的格式。渲染单
元303基于霍夫曼编码方法来创建包括从『:d一提取的空间线索(例如,CLD 参数)的SAC比特流。
在由渲染单元303创建的SAC比特流中包括的空间线索具有根据解码 器的特性而不同的分析和4是取方法。
例如,BCC解码器可基于一个声道使用等式8来提取N- 1个CLD参 数。此外,MPEG环绕解码器可根据MPEG环绕的每个声道的比较顺序来 提取CLD参数。
也就是i兌,解析单元301划分SAC比特流和SAOC比特流,并且第二 矩阵单元311基于解析单元301所划分的SAC比特流和从SAC解码器105 输出的多声道音频信号来创建第二矩阵,如等式1所示。第一矩阵单元313 创建与控制信号对应的第一矩阵。解析单元301所划分的SAOC比特流被传 送到渲染单元303,并且渲染单元303 >^人所传送的SAOC比特流中获得对象 的信息,利用第一矩阵执行运算,组合运算结果和第二矩阵,创建《。d—,从所创建的《。d^中提取空间线索,并创建代表性SAC比特流。也就是说,从所创建的『1^中提取的空间线索变成所期望的空间线索。代表性SAC比特流是根据MPEG环绕解码器或BCC解码器的特性而适当变 换的比特流,并且可恢复为具有各种声道的多对象信号。图4图示了根据本发明实施例的由图2的比特流格式器205创建的代表 性空间音频对象编码(SAOC)比特流。参考图4,由比特流格式器205创建的代表性SAOC比特流是通过组合 SAOC编码器101所创建的SAOC比特流和SAC编码器201所创建的SAC 比特流来创建的,并且所述〗戈表性SAOC比特流包^^由预设ASI 203所创建 的预设ASI比特流。将参考图5来详细描述所述预设ASI比特流。用于组合SAOC比特流和SAC比特流的第一方法是一种用于通过直插-多路复用每个比特流来创建一个比特流的方法。在代表性SAOC比特流中串 联连接SAOC比特流和SAC比特流(参见401 )。第二方法是一种用于当存在SAOC附属(ancillary)数据区时、通过在 SAOC附属数据区中包括SAC比特流信息来创建一个比特流的方法。在代 表性SAOC比特流中串联连接SAOC比特流和附属数据区域,并且附属数 据区包括SAC比特流(参见403 )。第三方法是一种用于表达如下区域的方法,所述区域将在SAOC比特流 和SAC比特流中的类似空间线索编码为相同比特流。例如,代表性SAOC 比特流的标首信息区域包括SAOC比特流标首信息和SAC比特流标首信息, 并且代表性SAOC比特流的每个特定区域包括与特定CLD有关的SAOC比 特流和SAC比特流(参见405 )。图5示出了根据本发明另一实施例的图2的代表性SAOC比特流,并示 出了代表性SAOC比特流包括多个预设ASI的情况。参考图5,代表性SAOC比特流包括预设ASI区域。所述预设ASI区域 包括多个预设ASI,并且预设ASI包括音频对象的控制信息和布局信息。当基于代码转换器103渲染音频对象时,应该输入每个音频对象的位置 信息、控制信息和所输出的播放扬声器布局信息。当没有输入控制信息和播放扬声器布局信息时,在代码转换器103中将 每个音频对象的控制信息和布局信息设置为默认值。代表性SAOC比特流或代表性SAC比特流的边信息或标首信息包括被设置为默认值的控制信息和布局信息、或者所输入的音频对象控制信息和布 局信息。控制信息可以用两种方式来表达。第一,直接表达每个音频对象的 控制信息(例如,位置和电平)和扬声器的布局信息。第二,以第一矩阵格 式来表达控制信息和扬声器的布局信息,并且可以使用所述信息来替代第一矩阵单元313中的第一矩阵。预设ASI示出了音频对象控制信息和扬声器的布局信息。也就是i兌,预 设ASI包括扬声器的布局信息以及每个音频对象的位置和电平信息,以形成 适合于扬声器的布局信息的音频场景。如上所述,直4妄表达预设ASI或者以第一矩阵格式来表达预设ASI,以 便将解析单元301所提取的预设ASI传送到代表性SAC比特流。当直接表达预设ASI时,预设ASI可包括播放系统的布局(例如,单声 道/立体声/多声道)、音频对象ID、音频对象布局(例如,单声道或立体声)、 音频对象位置、范围为从0度到360度的方位角、范围为-50度到90度的 立体声播放仰角、和音频对象电平信息-50dB至50dB。当以第一矩阵格式表达预设ASI时,形成用于反映预设ASI的等式3 的P矩阵,并且将P矩阵传送到渲染单元303。 P矩阵包括作为元素向量的 用于将每个音频对象映射到所输出的声道的功率增益信息或相位信息。预设ASI可定义关于所输入的同一音频对象的与所期望的播放情景对 应的不同音频场景。例如,可根据内容产生器的对象和播放服务来另外传送 在立体声或多声道(5.1、 7.1)播放系统中需要的预设ASI。图6是示出了才艮据本发明另一实施例的图2的代码转换器103的框图, 并示出了没有从外部输入控制信号的情况。参考图6,代码转换器103包括解析单元301和渲染单元303。代码转 换器103可接收第二矩阵单元311、第一矩阵单元313、预设ASI提取单元 601和矩阵确定单元603的帮助。如上所述,当在代码转换器103中没有从外部输入的控制信号时,应用 预设ASI。解析单元301分开在代表性SAOC比特流中包括的SAOC比特流和SAC 比特流,解析在代表性SAOC比特流中包括的预设ASI比特流,并将所述预 设ASI比特流传送到预设ASI提取单元601 。预设ASI提取单元601从所解析的预设ASI比特流中输出默认的预设ASI。然而,当存在对于选择预设ASI的请求时,输出所请求的预设ASI。当预设ASI提取单元601所输出的预设ASI是所选择的预设ASI时, 矩阵确定单元603确定所选择的预设ASI是否是第一矩阵格式。当所选择的 预设ASI直接表达该信息时,将预设ASI传送到第一矩阵单元313,并且第 一矩阵单元313基于预设ASI来创建第一矩阵。当所选择的预设ASI是第一 矩阵时,使用预设ASI作为直接输入到渲染单元303的信号。图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象 去除器701的情况的框图。参考图7,音频对象去除器701用于从SAOC编码器101所创建的代表 性缩混信号中去除特定的音频对象。音频对象去除器701接收SAOC编码器 101所创建的代表性缩混信号和来自代码转换器103的代表性SAOC比特流 信息,并去除特定的音频对象。例如,可通过渲染单元303提供被传送到音 频对象去除器701的代表性SAOC比特流信息。例如,将描述其中仅将作为SAC编码器201的缩混信号的音频对象(对 象#N)用作SAC解码器105的输入信号的情况。SAOC编码器101根据每个子带来提取所输入的音频对象的每个功率大 小作为CLD值,并创建包括CLD值的SAOC比特流。可如下获得用于特定 子带m的功率信息。其中尸:—勝是由SAOC编码器101输出的代表性缩混信号的第m频带的 功率大小。因此,u(n)是输入到音频对象去除器701的代表性缩混信号,并 且U(f)正将代表性缩混信号变换到频率区域。当fT。d'何(/)是音频对象去除器701的输出信号(即,SAC解码器105 的输入信号)时,"m°d—(/)对应于SAC编码器201的缩混信号的音频对象 (对象弁N),并表达为等式IO。其中A(m)表示第m子带的频率区域中的边界;5是用于控制电平大小 的特定常数值;并且U(f)是单声道或立体声。下文中将描述U(f)是单声道的情况。除了将U(f)划分为左声道和右声道 并进行处理之外,U(f)是立体声的情况与U(f)是单声道的情况相同。tr。d一(/)被认为与作为SAC编码器201的缩混信号的音频对象(对象 弁N)相同。因此,输入到SAC解码器105的代表性SAC比特流是从代表 性SAOC比特流中排除SAOC比特流之后的比特流,并且可同等地用于从 SAC编码器201输出的SAC比特流。也就是说,SAC解码器105接收对象 #N,并将对象弁N恢复为M个多声道信号。然而,整个信号的电平是通过 代码转换器103的渲染单元303、或者通过利用将等式10乘以特定常数值而 调制对象# N的信号电平来控制的。作为实施例,将描述其中仅要从SAC解码器105的输入信号去除作为 SAC编码器201的缩混信号的对象#N的情况。等式10与等式11相同。因此,输入到SAC解码器105的代表性SAC比特流是从代表性SAOC 比特流中排除SAC编码器201的SAC比特流之后的比特流,并祐J人为在渲 染单元303的第二矩阵中没有输出。也就是说,代码转换器103通过解析代 表性SAOC比特流块并仅渲染排除用于对象并N的音频对象信息之外的剩余 信息,来创建代表性SAC比特流。因此,在代表性SAC比特流中不包括用于对象弁N的功率增益信息和 相关信息。在等式11中,S是用于控制电平大小的特定常数值,正如等式 10—样,并且可控制整个输出信号电平。音频对象去除器701从代表性缩混信号中去除音频对象,并且通过输入 到代码转换器103的控制信号来确定去除命令。音频对象去除器701可以应 用时间区域信号和频率区域信号二者。此外,可使用离散傅立叶变换(DFT) 或正交镜像过滤带(QMF: Quadrature Mirror Filterbank)来将代表性缩混信号 划分为子带。代码转换器103的渲染单元303去除SAOC比特流或SAC比特流,并 将其传送到SAC解码器105,并且音频对象去除器701去除与传送到SACx厶,+ 1等式ll解码器105的比特流对应的音频对象。当代码转换器103被包括在SAC解码器105中时,从代码转换器103 输出的代表性SAC比特流可传送到SAC解码器105,而没有附加的变换过 程。附加的变换过程意指诸如量化或霍夫曼编码方法之类的一般编码过程。考虑了以下情况,即SAOC编码器101没有连接到SAC编码器201, 并且仅控制和恢复除了 SAC编码器201的输出音频对象之外的输入到SAOC 编码器101的音频对象,即对象#1至对象弁N-1。图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器 201和SAC解码器105的情况的框图。参考图8, SAC编码器201用MPEG环绕编码器(即,MPS编码器801 ) 来替换,并且SAC解码器105用MPEG环绕解码器(即,MPS解码器805 ) 来替换。此外,当从SAOC编码器101输出的代表性缩混信号是立体声时, 另外需要信号处理单元803。MPS编码器801执行与图2的SAC编码器201相同的功能。也就是说, MPS编码器801输出来自所输入的多声道音频信号的一个音频对象,提取空 间线索和边信息,并创建MPS比特流。所输出的音频对象是缩混后的单声 道或立体声信号。此外,MPS解码器805执行与图2的SAC解码器105相同的功能。也 就是说,MPS解码器805基于从代码转换器103输出的SAC比特流,来恢 复从SAOC编码器101输出的缩混信号或者从信号处理单元803输出的代表 性重新缩混信号,作为具有各种声道的多对象音频信号。其间,当从SAOC编码器101输出的缩混信号是立体声时(即,当MPS 解码器805处理立体声信号时),由于立体声信号的左/右处理中的限制,所 以信号处理单元803需要MPS解码器805。等式2示出了缩混信号被概括为普通SAC解码器中的m个数目的情况,当缩混信号是立体声时,关于已恢复的输出声道l的等式2与等式12相同。》气d 1、 2糊 辆等式12输出声道的向量应该能够应用到所有缩混信号,但是这在当前MPS解 码器805中是不可能的。如等式13所示,这是因为在MPS解码器805中矩22<formula>formula see original document page 23</formula>
阵值被限制为0。
等式l3
也就是说,由于《W元素没有反映在恢复输出声道l中,所以不能应用
在等式3、 4和5中创建的《2。因此,不可能进行关于具有立体声以上的 布局的信号的灵活定位。也就是说,不可能进行立体声信号的左信号和右信 号之间的自由渲染。
然而,基于信号处理单元803来对从SAOC编码器101输出的代表性缩 混信号再次进行缩混,并输出为代表性重新缩混信号。信号处理单元803的 处理如等式14所示。
、《」
《一2
M
x
u
6
"一M」m。dified L八a-^、'〃」 等式14
当从SAOC编码器101输出的代表性缩混信号是立体声时,信号处理单
元803的输出信号如等式15所示。
X
一W/ 」modified
u
6
饰r郎
叫二
等式15
其中A—i("和AjW是信号处理单元803所输出的信号,并被输入到 MPS解码器805。由于如等式15所示O)和O)是用于反映左信号和 右信号的渲染的信号,所以尽管如等式13所示限制了 MPS解码器805,但— 是MPS解码器805也可输出其中左信号和右信号被自由渲染的信号。
例如,当MPS解码器805将W 、 <恢复为5个声道时,如下在等式14 中表达(<。
<formula>formula see original document page 23</formula>
(例如,"<*力,"W v "r w , "'eA,T"",一c「弘) 如上所述,当MPS解码器805由于MPEG环绕的限制而难以处理立体 声信号时,信号处理单元803通过基于从代码转换器103传送的对象位置信 息而再次执行缩混,来输出代表性的重新缩混信号。例如,可以由渲染单元<formula>formula see original document page 23</formula>303来提供传送到信号处理单元803的对象位置信息。根据如上所述的类似 方法,渲染单元303可基于代表性SAOC比特流来创建代表性MPS比特流, 其包括相对于输入到SAOC编码器101和MPS编码器801的音频信号的、 用于要由MPS解码器805输出的音频信号的左信号和右信号中的每个的空 间线索信息。
MPS解码器805可通过利用信号处理单元803而进4亍才喿作,来执行与图 2的SAC解码器105相同的功能。
MPS解码器805将从信号处理单元803输出的代表性重新缩混信号恢复 为所期望的输出,即具有各种声道的多对象信号。
利用图2的SAC解码器105或信号处理单元803进4亍才喿作的MPS解码 器805的解码方法包括如下步骤接收多声道和多对象缩混信号以及多声道 多对象边信息信号;将多声道多对象缩混信号变换为多声道缩混信号;将多 声道和多对象信息信号变换为多声道信息信号;基于变换后的多声道缩混信 号和多声道信息信号来合成音频信号。
变换多声道缩混信号的步骤包括基于从多声道和多对象信息信号获得 的对象相关信息来从多声道多对象缩混信号去除对象信息的步骤。变换多声 道缩混信号的步骤包括基于从多声道多对象信息信号获得的对象相关信息 来控制来自多声道多对象缩混信号的对象信息的步骤。
在包括变换多声道缩混信号的步骤的解码方法中,可通过对象控制信息 来控制对象相关信息。这里,可通过解码系统信息来控制对象相关信息。
尽管上面结合设备描述了根据本发明的编码和解码过程,但是在设备中 包括的每个组成元件也可以用在处理角度中所需要的每个构成元件来替换。 在这个情况下,显然的是,根据本发明的编码和解码过程可结合方法来理解。
上面描述的本发明的技术可实现为程序并存储在计算机可读记录介质 (诸如,CD-ROM、 RAM、 ROM、软盘、硬盘和-兹光盘)中。由于本发明 技术领域中的技术人员可容易地实现所述处理,所以这里将不再提供进一步 的描述。
尽管已经结合特定的优选实施例来描述了本发明,但对于本领域的技术 人员显然的是,可以做出各种改变和修改,而不脱离接下来的权利要求所限
定的本发明的范围。 工业实用性
24本发明可通过有效地编码和解码具有各种声道的多对象音频内容,而根 据用户需求来主动地消费音频内容,并通过提供与传统上使用的比特流的后 向兼容性来提供与传统的编码和解码设备的兼容性。
权利要求
1.一种用于编码多对象音频信号的设备,包括音频对象编码装置,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
2. 根据权利要求1的编码设备,还包括音频声道编码装置,用于将输入到编码设备的多声道音频信号变换为音 频对象信号,并创建用于多声道音频信号的渲染信息;预设声音场景创建装置,用于基于输入到编码设备的控制信号来创建包 括音频对象信号的声音信息和播放信息的预设信息;和代表性比特流创建装置,用于创建代表性比特流,该代表性比特流包括 从音频对象编码装置输出的渲染信息、从音频声道编码装置输出的渲染信 息、和预设信息,其中从音频声道编码装置输出的渲染信息包括用于多声道音频信号的 空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。
3. 根据权利要求2的编码设备,其中所述音频声道编码装置是运动图 象专家组(MPEG)环绕编码器。
4. 一种用于创建渲染信息来解码多对象音频信号的代码转换设备,包括第一矩阵装置,用于基于已编码音频对象信号的对象控制信息和播放信 息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信 息和输出位置信息;和渲染装置,用于基于第一矩阵装置所创建的渲染信息和用于从编码设备 输入的已编码音频对象信号的渲染信息,来创建用于要从解码设备输出的音 频信号的空间线索信息。
5. 根据权利要求4的代码转换设备,其中所述渲染装置创建除了用于 已编码音频对象信号之中的预定音频对象信号的空间线索信息之外、用于要 从解码设备输出的音频对象信号的空间线索信息,和其中所述代码转换设备还包括音频对象去除装置,所述音频对象去除装置用于去除已编码音频信号之中的预定音频对象信号。
6. —种用于创建渲染信息以解码多声道音频信号和多对象音频信号的 代码转换设备,包括解析装置,用于从用于由编码设备输入的已编码音频信号的渲染信息中 分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;第一矩阵装置,用于基于已编码音频对象信号的对象控制信息和播放信 息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;第二矩阵装置,用于基于由解析装置单独获取的用于已编码多声道音频 信号的渲染信息,来创建包括有关多声道音频信号的每个声道的功率增益信 息的渲染信息,和渲染装置,用于基于第一矩阵装置所创建的渲染信息、第二矩阵装置所 创建的渲染信息、和由解析装置单独获取的用于已编码音频对象信号的渲染 信息,来创建用于从解码设备输出的音频信号的空间线索信息。
7. 根据权利要求6的代码转换设备,其中用于第一矩阵装置的已编码 音频对象信号的对象控制信息和播放信息是从编码设备输入的预设信息,并 且该预设信息包括音频对象信号的声音信息和播放信息;和所述解析装置还从用于从编码设备输入的已编码音频信号的渲染信息 中分出预设信息。
8. 根据权利要求6的代码转换设备,其中所述渲染装置创建除了用于 已编码音频对象信号之中的预定音频信号的空间线索信息之外、用于要从解 码设备输出的音频信号的空间线索信息,和其中所述代码转换设备还包括音频对象去除装置,所述音频对象去除装 置用于去除关于已编码音频信号之中的预定音频信号的音频对象信号。
9. 根据权利要求6的代码转换设备,其中所述渲染装置创建用于由包 括运动图像专家组(MPEG)环绕编码器的编码设备所编码的音频信号的左 信号和右信号中的每个的空间线索信息,作为用于要从解码设备输出的音频 信号的空间线索信息,和其中所述代码转换设备对已编码的音频信号进行变换,使得由包括 MPEG环绕编码器的编码设备所编码的音频信号包括左信号信息和右信号信息。
10. —种用于编码多对象音频信号的方法,包括如下步骤 基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信 号的声道信息和音频对象信号的标识信息。
11. 根据权利要求IO的编码方法,还包括如下步骤 将所输入的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染信息;基于所输入的控制信号来创建包括音频对象信号的声音信息和播放信 息的预设信息;和创建代表性比特流,该代表性比特流包括从所述对所输入的音频对象信 号进行编码的步骤输出的渲染信息、从所述将所输入的多声道音频信号变换 为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染 信息、和预设信息,其中从所述将所输入的多声道音频信号变换为音频对象信号并创建用 于多声道音频信号的渲染信息的步骤输出的渲染信息包括用于多声道音频 信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标 识信息。
12. 根据权利要求11的编码方法,其中所述将所输入的多声道音频信 号变换为音频对象信号并创建用于多声道音频信f的渲染信息的步骤是在 运动图象专家组 MPEG)环绕编码器中执行的。
13. —种用于创建渲染信息来解码多对象音频信号的代码转换方法,包 括如下步骤基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息, 该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;和基于在所述创建渲染信息的步骤中创建的渲染信息和用于在编码之后 输入的已编码音频对象信号的渲染信息,来创建用于要在解码之后输出的音 频信号的空间线索信息。
14. 根据权利要求13的代码转换方法,其中在所述创建空间线索信息的步骤中,创建除了用于已编码音频对象信号之中的预定音频对象信号的空 间线索信息之外的、用于要在解码之后输出的音频对象信号的空间线索信 息,和其中所述代码转换方法还包括去除已编码音频信号之中的预定音频对 象信号的步骤。
15. —种用于创建渲染信息以解码多声道音频信号和多对象音频信号的 代码转换方法,包括如下步骤从用于在编码之后输入的已编码音频信号的渲染信息中分出用于已编 码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;基于用于已编码音频对象信号的对象控制信息和播放信息来创建渲染 信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位直 ^吕息;基于在所述分出渲染信息的步骤中单独获取的用于已编码多声道音频 信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息;和基于在所述创建包括功率增益信息和输出位置信息的渲染信息的步骤 中创建的渲染信息、在所述创建包括用于多声道音频信号的每个声道的功率 增益信息的渲染信息的步骤中创建的渲染信息、和在所述分出渲染信息的步 骤中单独获取的用于已编码音频对象信号的渲染信息,来创建用于要在解码 之后输出的音频信号的空间线索信息。
16. 根据权利要求15的代码转换方法,其中,在所述创建包括用于已 编码音频对象信号的功率增益信息和输出位置信息的渲染信息的步骤中,用 于已编码音频对象信号的对象控制信息和播放信息是在编码之后输入的预 设信息,该预设信息包括音频对象信号的声音信息和播放信息;和其中,所述分出渲染信息的步骤还包括^v用于在编码之后输入的已编码 音频信号的渲染信息中分出预设信息的步骤。
17. 根据权利要求15的代码转换方法,其中,在所述创建空间线索信 息的步骤中,创建除了用于已编码音频信号之中的预定音频信号的空间线索 信息之外的、用于要在解码之后输出的音频信号的空间线索信息,和其中所述代码转换方法还包括去除关于已编码音频信号之中的预定音 频信号的音频对象信号的步骤。
18. 根据权利要求15的代码转换方法,其中,在创建用于要在解码之 后输出的音频信号的空间线索信息的步骤中,创建用于由包括运动图像专家 组(MPEG)环绕编码器的已编码的音频信号的左信号和右信号中的每个的 空间线索信息,作为用于要在解码之后输出的音频信号的空间线索信息,和其中所述代码转换方法还包括对已编码的音频信号进行变换、4吏得由包 括MPEG环绕编码器的已编码的音频信号包括左信号信息和右信号信息的 步骤。
19. 一种用于解码多对象音频信号的方法,包括如下步骤 接收多声道和多对象缩混信号以及多声道多对象边信息信号; 将所述多声道多对象缩混信号变换为多声道缩混信号;将多声道和多对象信息信号变换为多声道边信息信号; 基于所获取的多声道缩混信号和多声道边信息信号来合成音频信号。
20. 根据权利要求19的解码方法,其中所述变换多声道缩混信号的步 骤包括基于从多声道和多对象边信息信号获得的对象相关信息来从多声道 和多对象缩混信号去除对象信息的步骤。
21. 根据权利要求20的解码方法,其中所述对象相关信息是基于对象 控制信息来控制的。
22. 根据权利要求20的解码方法,其中所述对象相关信息是基于解码 系统信息来控制的。
23. 根据权利要求19的解码方法,其中所述变换多声道缩混信号的步 骤包括基于从多声道和多对象边信息信号获得的对象相关信息来控制来自 多声道多对象缩混信号的对象信息的步骤。
全文摘要
提供了一种用于编码和解码具有各种声道的多对象音频信号的设备和方法,所述设备和方法提供了与传统的空间音频编码(SAC)比特流的后向兼容性。所述设备包括音频对象编码单元,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息提供了包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息的编码设备,并且所述编码设备使用在音频信号的编码和解码中。
文档编号G10L19/00GK101632118SQ200780051758
公开日2010年1月20日 申请日期2007年12月27日 优先权日2006年12月27日
发明者姜京玉, 张大永, 徐廷一, 李泰辰, 李用主, 洪镇佑, 白承权, 金镇雄 申请人:韩国电子通信研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1