用于编码和解码基于对象的音频信号的方法和装置的制作方法

文档序号:2830498阅读:199来源:国知局
专利名称:用于编码和解码基于对象的音频信号的方法和装置的制作方法
技术领域
本发明涉及一种音频编码方法和装置,以及一种音频解码方法和 装置,其中每一个对象音频信号的声像可被定位于任何希望的位置。
背景技术
一般来说,在多声道音频编码和解码技术中,多声道信号的多个 声道信号被縮减混音进少数声道信号中,传输关于原始声道信号的边 信息并且恢复具有和原始多声道信号一样多的声道的多声道信号。
基于对象的音频编码和解码技术与多声道音频编码和解码技术在 将多个声音源縮减混音进少数声音源信号中,并传输关于原始声音源 的边信息方面是基本上相似的。然而,在基于对象的音频编码和解码 技术中,对象信号,其为声道信号的基本元素(例如乐器的声音或人 的语音),被视为与多声道音频编码和解码技术中的声道信号相同, 并且也可被编/解码。
换句话说,在基于对象的音频编码和解码技术中,每个对象信号
将被视为编/解码的主体(entities)。在这点上,基于对象的音频编码 和解码技术与多声道音频编码和解码技术是有区别的,该区别在于多 声道音频编/解码是简单的根据声道间信息而被编/解码的,而与要被编 /解码的声道信号中的元素数量无关。

发明内容
技术问题
本发明提供了一种音频编码方法和装置,以及一种音频解码方法 和装置,其中可对音频信号进行编码或解码以使每一个对象音频信号的声像可被定位于任何希望的位置。 技术方案
根据本发明的一个方面,其提供了一种音频解码方法,包括从 输入音频信号中提取縮减混音信号和基于对象的边信息;基于输入控 制信息生成渲染信息;以及基于该渲染信息和该基于对象的边信息, 生成基于声道的边信息。
根据本发明的另一个方面,其提供了一种音频解码装置,包括 解复用器,用于从输入音频信号中提取縮减混音信号和基于对象的边 信息;渲染器,用于基于输入控制信息生成渲染信息;以及代码转换
器,用于基于该渲染信息和该基于对象的边信息生成基于声道的边信 息。
根据本发明的另一个方面,其提供了一种计算机可读记录介质, 其上记录了用于执行音频解码方法的计算机程序,该音频解码方法包
括从输入音频信号中提取缩减混音信号和基于对象的边信息;基于 输入控制信息生成渲染信息;以及基于该渲染信息和该基于对象的边 信息,生成基于声道的边信息。
有益效果
提供了一种音频编码方法和装置,以及一种音频解码方法和装置, 其中可对音频信号进行编码或解码以使每一个对象音频信号的声像可 被定位于任何希望的位置。


通过以下的详细描述和附图,本发明将变得更加易于理解,附图 只是示例性的,其并不构成对本发明的限制,其中
图1是典型的基于对象的音频编码/解码系统的方框图; 图2是根据本发明第一实施例的音频解码装置的方框图;图3是根据本发明第二实施例的音频解码装置的方框图4用于解释幅度差和时间差对于声像定位的影响,其是相互独
立的;
图5是关于幅度差和时间差之间的对应关系的函数图,其中该幅
度差和时间差是将声像定位于预定位置所需要的; 图6表示包括谐波信息的控制数据的格式; 图7是根据本发明第三实施例的音频解码装置的方框图; 图8是可被应用于如图7所示的音频解码装置中的艺术縮减混音
增益(ADG)模块的方框图9是根据本发明第四实施例的音频解码装置的方框图; 图IO是根据本发明第五实施例的音频解码装置的方框图11是根据本发明第六实施例的音频解码装置的方框图12是根据本发明第七实施例的音频解码装置的方框图; 图13是根据本发明第八实施例的音频解码装置的方框图; 图14是用于解释由图13所示的音频解码装置使用于帧的三维
(3D)信息的应用的框图15是根据本发明第九实施例的音频解码装置的方框图; 图16是根据本发明第十实施例的音频解码装置的方框图17-19是用于解释根据本发明一个实施例的音频解码方法的框
图20是根据本发明一个实施例的音频编码装置的方框图。
实施本发明的最佳模式
现在将参考附图来详细说明本发明,在附图中已表示了本发明的 示例性实施例。
根据本发明的一种音频编码方法和装置以及一种音频解码方法和 装置可被应用于基于对象的音频处理操作,但是本发明并不限于此。 换句话说,该音频编码方法和装置以及音频解码方法和装置还可被应 用于基于对象的音频处理操作之外的各种信号处理操作。
7图1是典型的基于对象的音频编码/解码系统的方框图。通常来说, 输入给基于对象的音频编码装置的音频信号与多声道信号的声道是不 对应的,这些音频信号是独立的对象信号。在这点上,基于对象的音 频编码装置与多声道音频编码装置是不同的,其区别在于多声道音频 编码装置输入多声道信号的声道信号。
举例来说,诸如5.1声道信号的左前声道信号和右前声道信号之 类的声道信号被输入到多声道音频编码装置中,然而诸如人语音或乐 器声音(例如小提琴或钢琴的声音)之类的比声道信号小的主体的对 象音频信号可被输入到基于对象的音频编码装置中。
参见图1,该基于对象的音频编码/解码系统包括基于对象的音 频编码装置和基于对象的音频解码装置。基于对象的音频编码装置包
括对象编码器100,基于对象的音频解码装置包括对象解码器111和渲 染器113。
对象编码器100接收N个对象音频信号,并且生成带有一个或多 个声道的基于对象的縮减混音信号和边信息,上述边信息包括从N个 对象音频信号中提取的多条信息片,例如能量差,相位差和相关性值。 边信息和基于对象的縮减混音信号被合并入一个单一比特流中,并且 该比特流被传输给基于对象的解码装置。
边信息可包括指示是否执行基于声道的音频编/解码或基于对象 的音频编/解码的标志,贝ij,可以根据边信息的标志来确定是执行基于 声道的音频编/解码还是执行基于对象的音频编/解码。边信息还可包括 关于对象信号的包络信息、分组信息、静止期信息和延迟信息。边信 息还可包括对象电平差信息、对象间互相关信息、缩减混音增益信息、 縮减混音声道电平差信息和绝对对象能量信息。对象解码器111接收来自基于对象音频编码装置的基于对象的缩 减混音信号和边信息,并且根据基于对象的縮减混音信号和边信息来
恢复具有与N个对象音频信号相似属性的对象信号。由对象解码器111
生成的对象信号并没有被分配给多声道空间中的任何位置。因此渲染
器113将由对象解码器111生成的对象信号的每一个分配给多声道空 间中的预定位置,并且渲染器113确定对象信号的电平,这样可通过 由渲染器113指定的各个相应位置和由渲染器113确定的各个相应电 平来再现对象信号。与由对象解码器111生成的每个对象信号相关的 控制信息可随时间而改变,贝IJ,由对象解码器111生成的对象信号的 电平和空间位置可根据控制信号而改变。
图2是根据本发明第一实施例的音频解码装置120的方框图。参 见图2,该音频解码装置120包括对象解码器121,渲染器123,和 参数变换器125。该音频解码装置120还包括解复用器(未示出),用 于从输入的比特流中提取缩减混音信号和边信息,并且该解复用器将 应用于根据本发明的其它实施例的所有音频解码装置中。
对象解码器121根据縮减混音信号和由参数变换器125提供的修 改后的边信息来生成多个对象信号。渲染器123将由对象解码器121 生成的对象信号的每一个分配到多声道空间中的预定位置,并且根据 控制信息来确定由对象解码器121生成的对象信号的电平。参数变换 器125通过组合边信息和控制信息来生成修改后的边信息。接着,参 数变换器125将修改后的边信息传输给对象解码器121。
对象解码器121可通过分析修改后的边信息中的控制信息来执行 自适应解码。
举例来说,如果控制信息指示第一对象信号和第二对象信号被分 配给多声道空间中的相同的位置,并且具有相同的电平,则典型的音 频解码装置可分别解码第一和第二对象信号,接着通过混音/渲染操作来将它们安排到多声道空间中。
在另一方面,音频解码装置120的对象解码器121从修改后的边 信息中的控制信息中得知第一和第二对象信号被分配到多声道空间中 的相同位置,并且具有相同电平,如同第一和第二对象信号是一个单 独的声音源。从而,对象解码器121将第一和第二对象信号看成一个 单独的声音源而解码第一和第二对象信号,而不将它们分开解码。这 样的话,解码的复杂度降低了。另外,因为需要处理的声音源的数量 减少了,混音/渲染的复杂度也降低了。
音频解码装置120可被有效的使用于当对象信号的数量大于输出 声道的数量这种情况,因为多个对象信号很有可能被分配到相同的空 间位置。
可选的是,音频解码装置120可被使用于当第一对象信号和第二 对象信号被分配到多声道空间中的相同位置,但具有不同电平这种情 况。这种情况下,音频解码装置120将第一和第二对象信号视为一体 来解码第一和第二对象信号,而不分别解码第一和第二对象信号,并
且将解码后的第一和第二对象信号传输给渲染器123。更具体来说,对 象解码器121从修改后的边信息中的控制信息得到关于第一和第二对 象信号的电平之间的差的信息,并根据获得的信息来解码第一和第二 对象信号。这样的话,即使第一和第二对象信号具有不同电平,也可 将第一和第二对象信号当成单一声音源来进行解码。
同样可选的是,对象解码器121可根据控制信息来调整由对象解 码器121生成的对象信号的电平。接着,对象解码器121可解码调整 过电平的对象信号。从而,渲染器123不需要调整由对象解码器121 提供的解码后的对象信号,而只要简单的将由对象解码器121提供的 解码后的对象信号安排到多声道空间中。简而言之,因为对象解码器 121根据控制信息调整了由对象解码器121生成的对象信号的电平,渲染器123可容易的将由对象解码器121生成的对象信号安排到多声道 空间中,而不需要额外的调整由对象解码器121生成的对象信号的电 平。因此,可以减少混音/渲染的复杂度。
根据图2的实施例,音频解码装置120的对象解码器可通过对控 制信息的分析来自适应的执行解码操作,从而减少解码的复杂度和混 音/渲染的复杂度。可使用由音频解码装置120执行的上述方法的组合。
图3是根据本发明第二实施例的音频解码装置130的方框图。参 见图3,音频解码装置130包括对象解码器131和渲染器133。该音频 解码装置130的特征在于其不仅提供边信息给对象解码器131,还提 供给渲染器133。
即使在存在相应于静止期的对象信号时,音频解码装置130也可 有效的执行解码操作。举例来说,第二至第四对象信号可能相应于乐 器演奏的音乐演奏期,而第一对象信号可能相应于伴奏演奏的静止期。
在这种情况下,指示多个对象信号中的哪一个对应于静止期的信息可 被包括在边信息中,并且该边信息可被提供给渲染器133和对象解码 器131。
对象解码器131可通过不对相应于静止期的对象信号进行解码来 最小化解码复杂度。对象解码器131将一个对象信号设置为相应于0 值,并且将该对象信号的电平传输给渲染器133。 一般来说,具有0值 的对象信号被视为与具有非0值的对象信号相同,并且一起进入混音/ 渲染操作。
在另一方面,音频解码装置130传输包括指示多个对象物体相应 于静止期的信息的边信息给渲染器133,接着阻止相应于静止期的对象 信号进入由渲染器133执行的混音/渲染操作。因此,音频解码装置130 可阻止混音/渲染的复杂度的不必要增加。
11渲染器133可使用包括在控制信息中的混音参数信息来定义立体 声场景中的每个对象信号的声像。混音参数信息可仅包括幅度信息或 包括幅度信息和时间信息。混音参数信息不仅影响立体声声像的定位, 还影响用户对于空间声音质量的心理声学的感觉。
举例来说,通过比较分别通过使用时间淘选方法和幅度淘选方法
生成的,及使用2声道立体声扬声器在相同位置再现的两个声像,可
以得知幅度淘选方法可实现声像的精确定位,而时间淘选方法可以提
供有空间深厚感的自然声音。贝U,如果渲染器133仅使用幅度淘选方 法来在多声道空间中安排对象信号,渲染器133可以精确的定位每个 声像,但是不能提供使用时间淘选方法时的声音的深厚感。根据声源 的类型,用户有时会偏好声音的精确定位而不是声音的深厚感,反之 亦然。
图4(a)和4(b)解释在使用2声道立体声扬声器来再现信号时强度 差(幅度差)和时间差对于声像定位的影响。参见图4(a)和4(b),根据 互相独立的幅度差和时间差,来将一个声像定位到预定角度。例如, 可以使用大约8dB的幅度差,或与8dB的幅度差相等的大约0.5ms的 时间差来将声像定位在角度20。因此,即使仅提供了幅度差作为混音 参数信息,也能够通过将幅度差转换为时间差来获得具有不同属性的 多种声音,其中时间差在声像定位期间等同于幅度差。
图5表示关于将声像定位于角度10、 20和30所需要的幅度差和 时间差之间对应关系的函数。图5中所示的函数可根据图4(a)和4(b) 获得。参见图5,多种幅度差-时间差的比较可被提供来将声像定位于 预定位置。例如,假设8dB的幅度差被提供为混音参数信息来将声像 定位在角度20。根据图5所示的函数,还可使用3dB的幅度差和0.3ms 的时间差的组合来将声像定位在角度20。在这种情况下,不仅提供幅 度差信息还提供时间差信息作为混音参数信息,从而增强了空间感。因此,为了在混音/渲染操作期间生成具有用户期望的属性的声
音,混音参数信息可被适当的转换,使得能够执行适合于用户的幅度
淘选和时间淘选中的任何一个。也就是说,如果混音参数信息仅包括
幅度差信息,但用户期望具有空间深厚感的声音,该幅度差信息可参
考心理声学数据而被转换为等同于幅度差信息的时间差信息。可选的
是,如果用户同时期望空间深厚感的声音和声像的精确定位,幅度差
信息可被转换为幅度差信息和等同于原始幅度信息的时间差信息的组 合。
可选的是,如果混音参数信息仅包括时间差信息,但用户期望声 像的精确定位,该时间差信息可被转换为等同于时间差信息的幅度差 信息,或可被转换为幅度差信息和时间差信息的组合,该组合可通过 增强声像的精确定位和空间感来满足用户的偏好。
仍然可选的是,如果混音参数信息包括幅度差信息和时间差信息, 并且用户选择声像的精确定位,幅度差信息和时间差信息的组合可被 转换为等同于原始幅度差信息和时间差信息的组合的幅度差信息。在 另一方面,如果混音参数信息包括幅度差信息和时间差信息,并且用 户期望空间感的增强,幅度差信息和时间差信息的组合可被转换为等 同于幅度差信息和原始时间差信息组合的时间差信息。
参见图6,控制信息可包括关于一个或多个对象信号的混音/渲染 信息和谐波信息。谐波信息可包括关于一个或多个对象信号的基音信 息,基频信息和主频带信息中的至少一个,以及每个对象信号的每个 子带的频谱和能量的说明。
因为以子带为单位执行操作的渲染器的清晰度的不足,谐波信息 可被使用于在渲染操作期间处理对象信号。如果该谐波信息包括关于一个或多个对象信号的基音信息,可通 过使用梳状滤波器或逆梳状滤波器来削弱或增强预定频域来调整每个 对象信号的增益。举例来说,如果多个对象信号中的一个是嗓音信号,
这些对象信号可通过仅削弱嗓音信号而被用于卡拉OK。可选的是,如
果谐波信息包括关于一个或多个对象信号的主频域信息,则可执行削 弱或增强主频域的处理。仍然可选的是,如果谐波信息包括关于一个 或多个对象信号的频谱信息,可通过执行不被任何子带边界限制的削 弱或增强来控制每个对象信号的增益。
图7是根据本发明另一个实施例的音频解码装置140的方框图。 参见图7,音频解码装置140使用多声道解码器141来代替对象解码器 和渲染器,并且在对象信号被适当的安排在多声道空间中后解码多个 对象信号。
具体来说,音频解码装置140包括多声道解码器141和参数变换 器145。多声道解码器141生成多声道信号,这些多声道信号的对象信 号根据縮减混音信号和空间参数信息被安排到多声道空间中,该空间 参数信息是由参数变换器145提供的基于声道的边信息。参数变换器 145分析由音频编码装置(未示出)传输来的边信息和控制信息,并且 根据分析的结果生成空间参数信息。更具体的,参数变换器145通过 边信息和控制信息来生成空间参数信息,该控制信息包括回放设置信 息和混音信息。也就是说,对应于一至二(OTT)盒或二至三(TTT)盒, 参数变换器145把边信息和控制信息的组合变换为空间数据。
音频解码装置140可执行多声道解码操作,其中基于对象的解码 操作和混音/渲染操作被合并,并且可以跳过对每个对象信号的解码。 因此,可以降低解码和/或混音/渲染的复杂度。
举例来说,当使用5.1声道扬声器再现系统来再现10个对象信号 和根据这10个对象信号而获得的多声道信号时,典型的基于对象的音频解码装置根据縮减混音信号和边信息来生成分别对应于这io个对象 信号的解码后的信号,并且通过将这IO个对象信号适当的安排到多声
道空间中来生成5.1声道信号,则这些对象信号变得适于5.1声道扬声 器环境。然而,在5.1声道信号生成期间,生成10个对象信号的效率 是很低的,并且这个问题在对象信号的数量和要生成的多声道信号的 声道数量之间的差增加时变得更加严重。
在另一方面,根据图7所示的实施例,音频解码装置140根据边 信息和控制信息来生成适于5.1声道信号的空间参数信息,并且将空间 参数信息和縮减混音信号提供给多声道解码器M1。接着,多声道解码 器141根据空间参数信息和縮减混音信号生成5.1声道信号。换句话说, 当要输出的声道数量是5.1声道时,音频解码装置140根据縮减混音信 号可容易的生成5.1声道信号,而不需要生成10个对象信号,则该音 频解码装置相对于通常的音频解码装置在复杂度方面更有效率。
当通过分析由音频编码装置传输来的边信息和控制信息来计算对 应于每个OTT盒和TTT盒的空间参数信息所需的计算量小于在每个对 象信号解码之后执行混音/渲染操作所需的计算量时,该音频解码装置
140更为有效。
通过分析边信息和控制信息来把用于生成空间参数信息的模块加 入到典型的多声道音频解码装置,可获得该音频解码装置140,并且可 维持与典型的多声道音频解码装置的兼容性。同样的,音频解码装置 140可通过使用典型的多声道解码装置的现有的工具来提高声音质量, 诸如包络整形器,子带时域处理(STP)工具和去相关器。通过上述内 容,可以推断出典型的多声道音频解码方法的所有优点都可被轻松的 应用于基于对象的音频解码方法。
由参数变换器145传输给多声道解码器141的空间参数信息可被 压縮以适于传输。可选的是,空间参数信息可具有与由典型的多声道编码装置所传输的数据一样的格式。也就是说,空间参数信息可进入 霍夫曼解码操作或导频解码操作,并且可作为未压縮的空间线索数据
(space cue data)传输给每个模块。前一种适于通过遥控来传输空间参
数信息给多声道音频解码装置,后一种也很方便,因为不需要多声道 音频解码装置把压縮的空间线索数据转换到更容易在解码操作中使用
的未压縮的空间线索数据。
根据边信息和控制信息的分析的空间参数信息的配置可能导致縮 减混音信号和空间参数信息之间的延迟。为了避免这一点,可提供一 个额外的缓冲器用于缩减混音信号或用于空间参数信息,这样缩减混 音信号和空间参数信息可彼此同步。然而这些方法是不方便的,因为 需要提供额外的缓冲器。可选的是,边信息可于縮减混音信号之前被 传输,其已经考虑了可能发生的缩减混音信号和空间参数信息之间的 延迟。在这种情况下,通过组合边信息和控制信息而得到的空间参数 信息不需要再被调整而可被容易的使用。
如果縮减混音信号的多个对象信号具有不同电平,能直接补偿縮 减混音信号的艺术縮减混音增益(ADG)模块可以确定对象信号的相 关电平,并且可使用诸如声道电平差信息,声道间相关性(ICC)信息 和声道预测系数(CPC)信息之类的空间线索数据来将每个对象信号分 配到多声道空间中的预定位置。
举例来说,如果控制信息指示一个预定对象信号将被分配到多声 道空间中的预定位置,并且该对象信号的电平高于其它对象信号,典 型的多声道解码器可计算縮减混音信号的声道能量之间的差,并且根 据计算的结果将縮减混音信号划分为若干输出声道。然而,典型的多 声道解码器不能增加或减小縮减混音信号中声音的音量。换句话说, 典型的多声道解码器简单的将縮减混音信号分配给若干输出声道,并 且不增加或减小縮减混音信号中声音的音量。
16根据控制信息将由对象编码器生成的多个对象信号的每一个分配 到多声道空间中的预定位置也是相对很简单的。然而,增加或减小预 定对象信号的增幅则需要特殊的技术。换句话说,如果使用由对象编 码器生成的縮减混音信号,减小缩减混音信号的每个对象信号的幅度 是困难的。
因此,根据本发明一个实施例,可使用如图8中所示的ADG模块 147根据控制信息来改变对象信号的相关幅度。更具体的说,可以通过 使用ADG模块147来增加或减小由对象编码器所传输的縮减混音信号 的多个对象信号的任何一个的幅度。由ADG模块147执行补偿所获得 的缩减混音信号可被进行多声道解码。
如果使用ADG模块147来适当的调整縮减混音信号的对象信号的 相对幅度,则可以使用典型的多声道解码器来执行对象解码。如果由 对象编码器生成的縮减混音信号是单声道或立体声信号或具有三个或 更多声道的多声道信号,该缩减混音信号可被ADG模块147处理。如 果由对象编码器生成的縮减混音信号具有两个或更多声道,并且需要 由ADG模块147来调整的预定对象信号仅存在于縮减混音信号中的一 个声道中,则ADG模块147可仅被应用于包括该预定对象信号的声道, 而不是应用于縮减混音信号的所有声道。由ADG模块147通过上述方 法处理后的縮减混音信号可很容易的使用典型的多声道解码器来处 理,而不需要修改多声道解码器的结构。
即使当最终输出的信号不是可被多声道扬声器再现的多声道信 号,而是双耳信号,可以使用ADG模块147去调整最终输出信号的对 象信号的相关幅度。
作为使用ADG模块147的替代,在多个对象信号的生成期间,控 制信息中可包括指定将要应用于每个对象信号的增益值的增益信息。 为此,可能要修改典型的多声道解码器的结构。即使需要修改现有多
17声道解码器的结构,在解码操作期间,通过将增益值应用于每个对象
信号,而不需要计算ADG和补偿每个对象信号,该方法在降低解码复杂度方面还是很方便的。
图9是根据本发明第四实施例的音频解码装置150的方框图。参见图9,音频解码装置150的特征在于生成双耳信号。
具体来说,音频解码装置150包括多声道双耳解码器151,第一参数变换器157和第二参数变换器159。
第二参数变换器159分析由音频编码装置提供的边信息和控制信息,并且根据分析结果来配置空间参数信息。第一参数变换器157通过增加三维(3D)信息,例如头相关传输函数(HRTF)参数给空间参数信息,来配置可被多声道双耳解码器151使用的双耳参数信息。多声道双耳解码器151通过应用虚拟3D参数信息给缩减混音信号来生成虚拟三维(3D)信号。
第一参数变换器157和第二参数变换器159可被一个单独的模块所取代,即参数变换模块155,其接收边信息、控制信息和HRTF参数,并且根据边信息、控制信息和HRTF参数来配置双耳参数信息。
通常来说,为了使用头戴式耳机生成用于包括IO个对象信号的縮减混音信号的再现的双耳信号,对象信号必须根据縮减混音信号和边信息来分别生成对应于IO个对象信号的IO个解码后的信号。其后,渲染器参考控制信号将IO个对象信号的每一个分配到多声道空间中的预定位置以适于5声道扬声器环境。其后,渲染器生成可使用5声道扬声器再现的5声道信号。其后,渲染器将HRTF参数应用到5声道信号中,从而生成2声道信号。简而言之,上述通常的音频解码方法包括再现10个对象信号,将这10个对象信号转换为5声道信号,并且根据5声道信号生成2声道信号,可见其效率是很低的。在另一方面,音频解码装置150可根据对象音频信号而容易的生 成可使用头戴式耳机再现的双耳信号。另外,音频解码装置150通过 对边信息和控制信息的分析来配置空间参数信息,并且使用典型的多 声道双耳解码器来生成双耳信号。然而,即便在其装配有一体化参数 变换器时,音频解码装置150仍然可以使用典型的多声道双耳解码器, 该参数变换器接收边信息、控制信息和HRTF参数,并且根据边信息、 制信息和HRTF参数来配置双耳参数信息。
图10是根据本发明第五实施例的音频解码装置160的方框图。参 见图10,音频解码装置160包括縮减混音处理器161,多声道解码器 163,和参数变换器165。縮减混音处理器161和参数变换器163可被 单一模块167替代。
参数变换器165生成可被多声道解码器163使用的空间参数信息, 和被缩减混音处理器161使用的参数信息。縮减混音处理器161执行 对縮减混音信号的预处理操作,并且传输预处理操作结果的縮减混音 信号给多声道解码器163。多声道解码器163对由縮减混音处理器161 传输来的縮减混音信号执行解码操作,从而输出立体声信号、双耳立 体声信号或多声道信号。縮减混音处理器161所执行的预处理操作的 例子包括通过滤波在时域或频域中修改或变换縮减混音信号。
如果输入到音频解码装置160中的縮减混音信号是立体声信号的 话,在该缩减混音信号被输入多声道解码器163前,该缩减混音信号 可被用于由縮减混音处理器161执行的縮减混音处理,因为多声道解 码器163不能将縮减混音信号的分量映射到对应的左声道和右声道, 其中左声道是多声道的一个,而右声道是多声道的另一个。因此,为 了能将分类到左声道的对象信号转移到右声道的方向上,输入给音频 解码装置160的縮减混音信号可被进行缩减混音处理器预处理,预处 理后的縮减混音信号可被输入给多声道解码器163。可根据从边信息和从控制信息处获得的预处理信息来执行立体声 縮减混音信号的预处理。
图11是根据本发明第六实施例的音频解码装置170的方框图。参 见图11,音频解码装置170包括多声道解码器171,声道处理器173 和参数变换器175。
参数变换器175生成可被多声道解码器171使用的空间参数信息, 和可被声道处理器173使用的参数信息。声道处理器173执行对由多 声道解码器171输出的信号的后处理。多声道解码器171所输出的信 号的例子包括立体声信号,双耳立体声信号和多声道信号。
声道处理器173所执行的后处理操作的例子包括修改或变换输 出信号的每个声道或所有声道。举例来说,如果边信息包括关于预定 对象信号的基本频率信息,声道处理器173可参考该基本频率信息从 预定对象信号中去除谐波分量。多声道音频解码方法对于卡拉OK系统 来说可能不够高效。然而,如果关于嗓音对象的基本频率信息被包括 在边信息中,且嗓音对象信号的谐波分量在后处理期间已被去除,通 过使用图11的实施例可实现高性能的卡拉OK系统。图11的实施例也 可应用于除嗓音对象信号之外的对象信号。举例来说,可使用图ll的 实施例来去除预定乐器的声音。同样,可以使用图11的实施例来使用 关于对象信号的基本频率信息来放大预定的谐波分量。
声道处理器173可对縮减混音信号执行额外的效果处理。可选的 是,声道处理器173可把由额外的效果处理而获得的信号加入到多声 道解码器171输出的信号。声道 处理器173可在任何需要的时候改变 对象的频谱或修改縮减混音信号。如果直接执行效果处理操作(诸如 对縮减混音信号的混响)并把效果处理操作所获得的信号传输给多声 道解码器171不是很适当的话,声道处理器173可把经效果处理操作多声道解码器171的输出,以代替对缩减混音信
号执行效果处理。
音频解码装置170可被设计为不仅包括声道处理器173,还包括 縮减混音处理器。在这种情况下,縮减混音处理器可被安排在多声道 解码器171之前,并且声道处理器173可被安排在多声道解码器171 之后。
图12是根据本发明第七实施例的音频解码装置210的方框图。参 见图12,音频解码装置210使用多声道解码器213来代替对象解码器。
具体而言,音频解码装置210包括多声道解码器213,代码转换 器215,渲染器217和3D信息数据库219。
渲染器217根据包括在控制信息中的对应于索引数据的3D信息来 确定多个对象信号的3D位置。代码转换器215通过综合关于多个对象 音频信号的位置信息来生成基于声道的边信息,其中渲染器217将3D 信息应用到了这些对象音频信号中。多声道解码器213通过将基于声 道的边信息应用到縮减混音信号来输出3D信号。
头相关传输函数(HRTF)可作为一种3D信息被使用。HRTF是 一种传输函数,其描述了在任意位置的声源和耳朵之间的声波的传输, 并且返回一个根据声源的位置和高度而改变的值。如果使用HRTF来 滤波不带方向性的信号,该信号可被听成是从某个方向再现的。
当接收到输入比特流时,音频解码装置210使用解复用器(未示 出)来从输入比特流中提取基于对象的縮减混音信号和基于对象的参 数信息。接着,渲染器217从控制信息中提取用于确定多个对象音频 信号位置的索引数据,并且从3D信息数据库219中抽出(withdraw) 与所提取的索引数据相对应的3D信息。具体来说,被音频解码装置210所使用的包括在控制信息中的混 音参数信息不仅可以包括电平信息,还可以包括搜索3D信息所必须的 索引数据。混音参数信息还可包括关于声道间时间差的时间信息,位 置信息和一个或多个通过适当组合电平信息和时间信息所获得的参 数。
可根据缺省的混音参数信息来初始确定对象音频信号的位置,并 且随后通过应用相应于用户所期望的位置的3D信息给对象音频信号 来改变位置。可选的是,如果用户希望只将3D效果应用到一些对象音 频信号,关于其它用户不希望应用3D效果的对象音频信号的电平信息 和时间信息可被使用为混音参数信息。
代码转换器215通过综合由音频编码装置所传输的关于N对象信 号的基于对象的参数信息和多个对象信号的位置信息来生成关于M声 道的基于声道的边信息,渲染器217将诸如HRTF的3D信息应用到了 上述对象信号的位置信息中。
多声道解码器213根据縮减混音信号和由代码转换器215所提供 的基于声道的边信息来生成音频信号,并且通过使用包括在基于声道 的边信息中的3D信息来执行3D渲染操作而生成3D多声道信号。
图13是根据本发明第八实施例的音频解码装置220的方框图。参 见图13,音频解码装置220不同于图12所示的音频解码装置210,其 区别在于代码转换器225分离地传输基于声道的边信息和3D信息给多 声道解码器223。换句话说,音频解码装置220的代码转换器225从关 于N个对象信号的基于对象的参数信息中获得关于M个声道的基于声 道的边信息,并且传输基于声道的边信息和应用于N个对象信号的每 个的3D信息给多声道解码器223,然而音频解码装置210的代码转换 器215传输包括3D信息的基于声道的边信息给多声道解码器213。参见图14,基于声道的边信息和3D信息可包括多个帧索引。因 此,多声道解码器223可参考每个基于声道的边信息和3D信息的帧索 引来同步基于声道的边信息和3D信息,并且可以应用3D信息给对应 于该3D信息的比特流的帧。例如,具有索引2的3D信息可被应用到 具有索引2的帧2的开始。
因为基于声道的边信息和3D信息都包括帧索引,即使3D信息随 着时间而更新,也可以有效地确定3D信息要被应用到的基于声道的边 信息的临时位置。换句话说,代码转换器225包括3D信息和基于声道 的边信息中的多个帧索引,因此多声道解码器223可容易地同步基于 声道的边信息和3D信息。
缩减混音处理器231,代码转换器235,渲染器237和3D信息数 据库可由一个单独的模块239替代。
图15是根据本发明第九实施例的音频解码装置230的方框图。参 见图15,音频解码装置230不同于图13所示的音频解码装置220,其 区别在于音频解码装置230进一步包括縮减混音处理器231。
具体来说,音频解码装置230包括代码转换器235,渲染器237, 3D信息数据库238,多声道解码器233和縮减混音处理器231。代码 转换器235,渲染器237, 3D信息数据库238和多声道解码器233与 图13所示的对应部分分别相同。縮减混音处理器231对立体声縮减混 音信号执行预处理操作以调整位置。3D信息数据库238可与渲染器237 合并。还可以提供用于应用预定效果给縮减混音信号的模块给音频解 码装置230。
图16表示根据本发明第十实施例的音频解码装置240的方框图。 参见图16,音频解码装置240不同于图15所示的音频解码装置230,
23其区别在于音频解码装置240包括多点控制单元组合器241。
也就是说,音频解码装置240与音频解码装置230 —样,包括縮 减混音处理器243,多声道解码器244,代码转换器245,渲染器247 和3D信息数据库249。多点控制单元组合器241组合由基于对象的编 码所获得的多个比特流,从而获得单一的比特流。举例来说,当输入 用于第一音频信号的第一比特流和用于第二音频信号的第二比特流 时,多点控制单元组合器241从第一比特流中提取第一縮减混音信号, 从第二比特流中提取第二縮减混音信号,并且通过组合第一和第二縮 减混音信号来生成第三縮减混音信号。此外,多点控制单元组合器241 从第一比特流中提取第一基于对象的边信息,从第二比特流中提取第 二基于对象的边信息,并且通过组合第一基于对象的边信息和第二基 于对象的边信息来生成第三基于对象的边信息。其后,多点控制单元 组合器241通过组合第三縮减混音信号和第三基于对象的边信息来生 成比特流,并且输出所生成的比特流。
因此,根据本发明第十实施例,相比较于编码或解码每个对象信 号的情况,即使是由两个或多个通信方传输的信号,其也可以有效地 被处理。
多点控制单元组合器241为了能够将多个从多个比特流中分别提 取出来的,并且与不同压縮编解码相对应的縮减混音信号合并到一个 单独的縮减混音信号中,这些縮减混音信号需要根据縮减混音信号的 压縮编解码类型被转换为脉冲编码调制(PCM)信号或预定频域中的 信号,PCM信号或通过转换所获得的信号可能需要组合在一起,通过 组合所获得的信号需要使用预定压縮编解码来转换。在这种情况下, 根据縮减混音信号是否被并入PCM信号或预定频域中的信号,可能会 发生延迟。然而,该延迟可能无法被解码器正确地估计。因此,该延 迟可能需要被包括在比特流中并与比特流一起被传输。该延迟指示在 PCM信号中的延迟釆样的数量或在预定频域中的延迟采样的数量。与在典型的多声道编/解码操作期间(例如5.1声道或7.1声道编/ 解码操作)通常处理的输入信号的数量相比,在基于对象的音频编/解 码操作期间需要处理的输入信号的数量有时会相当大。因此,基于对 象的音频编/解码方法比典型的基于声道的音频编/解码需要更高的比 特率。然而,因为基于对象的音频编/解码方法包括对比声道信号更小 的对象信号的处理,其可使用基于对象的音频编/解码方法来生成动态 的输出信号。
下面将参见附图17-20来详细解释根据本发明一个实施例的音频 编码方法。
在基于对象的音频编码方法中,对象信号可被定义为表示单独的 声音,诸如人类的语音或乐器的声音。可选的是,具有相同特征的声 音,诸如有弦乐器的声音(例如小提琴,中提琴和大提琴),属于相 同频带的声音,或根据声源的方向和角度被分类到相同类别的声音可 被组合在一起,并且由相同的对象信号来定义。仍然可选的是,可使 用上述方法的组合来定义对象信号。
多个对象信号可作为縮减混音信号和边信息而被传输。在将要被 传输的信息的创建期间,对縮减混音信号或缩减混音信号的多个对象 信号的每一个的能量或功率被进行初始计算以用于检测縮减混音信号 的包络。计算的结果可被用于传输对象信号或缩减混音信号或计算对 象信号的电平比率。
线性预测编码(LPC)算法可被用于更低比特率。具体来说,通 过信号分析来生成表示信号的包络的多个LPC系数,并且这些LPC系 数将被传输以代替传输关于信号的包络信息。该方法在比特率方面是 高效的。然而LPC参数很可能与信号的实际包络有差异,该方法需要 额外的处理,诸如错误校正。简而言之,涉及传输信号的包络信息的方法可保证声音的高质量,但这导致了需要传输的信息量的增加。在 另一方面,涉及使用LPC系数的方法可减少需要传输的信息量,但是 需要额外的处理,诸如错误校正,这将导致声音质量的降低。
根据本发明的一个实施例,可以使用这些方法的组合。换句话说, 可以用信号的能量或功率或索引值或对应于信号的能量或功率的另一
个值,如LPC系数来表示信号的包络。
关于信号的包络信息能以时间段或频率段为单位来获得。具体来 说,参见图17,关于信号的包络信息以帧为单元来获得。可选的是, 如果信号是由使用诸如正交镜像滤波器(QMF)组的滤波器组的频带 结构所表示的,关于信号的包络信息能以频率子带,频率子带的组, 或频率子带分隔的组为单位来获得,频率子带分隔是比频率子带更小
块的实体。仍然可选的是,基于帧的方法,基于频率子带的方法,和 基于频率子带分隔的方法的组合的使用也在本发明的保护范围之内。
仍然可选的是,假设信号的低频分量具有比信号的高频分量更多 的信息,关于信号的低频分量的包络信息本身可被传输,然而,关于 信号的高频分量的包络信息可由LPC系数或其它值来表示,并且传输 LPC系数或其它值以代替关于信号的高频分量的包络信息。但是,信 号的低频分量不一定就比信号的高频分量有更多的信息。因此需要根 据实际情况灵活运用上述方法。
根据本发明一个实施例,对应于信号的一部分(以下称为主要部 分)的包络信息或索引数据将被传输,该信号的一部分是在时间/频率 轴上表现为主要部分。可选的是,表示信号的主要部分的能量和功率 的值(例如LPC系数)可被传输,并且不传输对应于信号的非主要部 分的这些值。仍然可选的是,可传输相应于信号的主要部分的包络信 息或索引数据,而也可传输表示信号的非主要部分的能量或功率的值。 仍然可选的是,仅传输关于信号的主要部分的信息,这样可根据关于
26信号的主要部分的信息来估计信号的非主要部分。仍然可选的是,可 以使用上述方法的组合。
举例来说,参见图18,如果信号被划分为主要时期和非主要时期, 关于信号的信息可使用标记为(a)-(d)的四种不同的方法来传输。
为了传输縮减混音信号和边信息的组合的多个对象信号,作为解 码操作的一部分,縮减混音信号需要被划分为多个元素,例如,考虑 了对象信号的电平的比率。为了保证縮减混音信号的元素之间的独立 性,需要额外的执行去相关操作。
作为基于对象的编解码方法中的编解码单元的对象信号比作为多 声道编解码方法中的编解码单元的声道信号具有更多独立性。换句话 说,声道信号包括多个对象信号,所以需要被去相关。在另一个方面, 对象信号之间是独立的,所以可使用对象信号的特征而容易的执行声 道分离而不需要去相关操作。
具体来说,参见图19,对象信号A, B和C轮流作为频率轴上的 主要对象。在这种情况下,不需要根据对象信号A, B和C的电平比 率而将縮减混音信号划分为多个信号,也不需要执行去相关。作为代 替,关于对象信号A, B和C的主要时期的信息将被传输,或将增益 值应用到每个对象信号A, B和C的每个频率分量上,从而跳过去相 关。因此,其可以减少计算量,并且可以减少去相关所必需的边信息 所需要比特率。
简而言之,为了跳过去相关,关于包括每个对象信号的频域的信 息可作为边信息被传输,该去相关被执行以保证由根据縮减混音信号 的对象信号率的比率来划分縮减混音信号所获得的多个信号之间的独 立性。可选的是,可以应用不同增益值给主要时期和非主要时期,主 要时期中每个对象信号都表现为主要,非主要时期中每个对象信号都表现为不太主要,因此关于主要时期的信息可被主要提供为边信息。 仍然可选的是,关于主要时期的信息可作为边信息被传输,并且不传 输没有关于非主要时期的信息。仍然可选的是,作为去相关方法的替 代的上述方法的组合可被使用。
作为去相关方法的替代的上述方法可被应用到所有信号对象,或 仅被应用到某些具有明显可识别的主要周期的对象信号。同样的,作 为去相关方法的替代的上述方法可以帧为单位被应用。
以下将详细描述使用残差信号的对象音频信号的编码。
一般来说,在基于对象的音频编/解码方法中,多个对象信号被编 码,并且编码结果作为縮减混音信号和边信息的组合被传输。接着, 通过解码根据边信息从縮减混音信号中恢复多个对象信号,并且恢复 后的对象信号被适当的混音,例如,在用户的请求中根据控制信息生 成最终声道信号。基于对象的音频编/解码方法一般致力于根据控制信 号在混音器的帮助下自由的改变输出声道信号。然而,基于对象的音 频编/解码方法还可被用于生成按照预定义方式的声道输出而不管控制
"f曰息。
为此,边信息不仅包括从縮减混音信号中获得多个对象信号所必 须的信息,还包括生成声道信号所必须的混音参数信息。则,不需要 混音器的帮助就可以生成最终声道输出信号。在这种情况下,可使用 这种残差编/解码算法来提高声音质量。
典型的残差编/解码方法包括编/解码信号和对编/解码后的信号和 原始信号之间的错误进行编/解码,也就是残差信号。在解码操作期间, 编码后的信号被解码,同时补偿编码后的信号和原始信号之间的错误, 从而恢复与原始信号尽可能相同的信号。因为解码后的信号和原始信 号之间的错误通常来说是微不足道的,其可以减少执行残差编/解码所必需的额外信息的量。
如果解码器的最终声道输出被确定了,不仅要提供用于生成最终
声道信号所必需的混音参数信息,还要提供残差编码信息以作为边信 息。在这种情况下,其可以提高声音质量。
图20是根据本发明一个实施例的音频编码装置310的方框图。参 照图20,音频编码装置310的特征在于其使用了残差信号。
具体来说,音频编码装置310包括编码器311,解码器313,第一 混音器315,第二混音器319,加法器317和比特流生成器321。
第一混音器315执行对于原始信号的混音操作,第二混音器319 执行对通过对原始信号执行编码操作和解码操作所得到的信号的混音 操作。加法器317计算第一混音器315输出的信号和第二混音器319 输出的信号之间的残差信号。比特流生成器321将残差信号加入到边 信息中,并且传输加入后的结果。这样的话,其可以提高声音质量。
残差信号的计算可被应用于信号的所有部分,或仅应用于信号的 低频部分。可选的是,残差信号的计算可被可变的仅应用于包括基于 帧到帧的主要信号的频域中。仍然可选的是,可使用上述方法的组合。
因为包括残差信号信息的边信息的量比不包括残差信号信息的边 信息的量要大,残差信号的计算可仅被应用于信号的那些直接影响声 音质量的部分,从而防止比特率过多的增长。本发明可使用记录在计 算机可读介质上的计算机可读代码来实现。该计算机可读记录介质可 以是任何类型的记录装置,在其中数据以计算机可读的方式被存储。 计算机可读记录介质的例子包括ROM, RAM, CD-ROM,磁盘,软盘, 光学数据存储器和载波(例如通过因特网的数据传输)。计算机可读 记录介质可通过连接到网络上的多个计算机系统而被分配,所以计算
29机可读代码被写入其中,并且以非集中方式被执行。普通的本领域技 术人员可容易的构造出用于实现本发明的功能性程序、代码和代码段。
工业实用性
如上所述,根据本发明,通过受益于基于对象的音频编码和解码
方法的优点,每个对象音频信号的声像可被定位。贝u,其可以通过对 象音频信号的再现来提供更真实的声音。此外,本发明可被应用于交 互式游戏,并且可以提供更真实的虚拟实体经历给用户。
尽管本发明已参照其优选实施例进行了描述及说明,很明显本领 域的技术人员可做出多种形式上和细节上的改变,而不脱离由以下权 利要求所定义的本发明的精神或范畴。
30
权利要求
1. 一种音频解码方法,其包括从输入音频信号中提取缩减混音信号和基于对象的边信息;基于输入控制信息生成渲染信息;以及基于所述渲染信息和所述基于对象的边信息,生成基于声道的边信息。
2. 根据权利要求l所述的音频解码方法,其进一步包括基于所 述缩减混音信号和所述基于声道的边信息生成多声道音频信号。
3. 根据权利要求l所述的音频解码方法,其中,所述控制信息包括用于处理预定对象信号的三维(3D)信息、混音信息和谐波信息中 的至少一个。
4. 根据权利要求l所述的音频解码方法,其中,生成所述渲染信息包括把包含在所述混音信息中的时间信息转换成等效的幅度信息 以响应用户命令。
5. 根据权利要求3所述的音频解码方法,其中,生成所述渲染信息进一步包括把包含在所述混音信息中的幅度信息转换成等效的时 间信息以响应用户命令。
6. 根据权利要求3所述的音频解码方法,其中,所述谐波信息包括所述预定对象信号的基音信息、基频信息和主频信息中的至少一个。
7. 根据权利要求6所述的音频解码方法,其进一步包括基于所述谐波信息调整所述预定对象信号的增益。
8. 根据权利要求6所述的音频解码方法,其进一步包括基于所述谐波信息补偿预定频带中的对象信号。
9. 根据权利要求1所述的音频解码方法,其进一步包括补偿所 述空间信息和所述縮减混音信号之间的延迟。
10. —种音频解码装置,其包括解复用器,用于从输入音频信号中提取縮减混音信号和基于对象 的边信息;渲染器,用于基于输入控制信息生成渲染信息;以及 代码转换器,用于基于所述渲染信息和所述基于对象的边信息生 成基于声道的边信息。
11. 根据权利要求IO所述的音频解码装置,进一步包括多声道解 码器,用于基于所述縮减混音信号和所述基于声道的边信息生成多声 道音频信号。
12. 根据权利要求IO所述的音频解码装置,其中,所述控制信息 包括用于处理预定对象信号的三维(3D)信息、混音信息和谐波信息 中的至少一个。
13. 根据权利要求12所述的音频解码装置,其中,在生成所述渲 染信息时,所述渲染器把包含在所述混音信息中的时间信息转换成等 效的幅度信息以响应用户命令。
14. 根据权利要求12所述的音频解码装置,其中,在生成所述渲 染信息时,所述渲染器把包含在所述混音信息中的幅度信息转换成等 效的时间信息以响应用户命令。
15. 根据权利要求12所述的音频解码装置,其中,所述谐波信息 包括所述预定对象信号的基音信息、基频信息和主频信息中的至少一个。
16. 根据权利要求15所述的音频解码装置,其中,所述渲染器基于所述谐波信息调整所述预定对象信号的增益。
17. 根据权利要求15所述的音频解码装置,其中,所述渲染器基于所述谐波信息补偿预定频带中的对象信号。
18. 根据权利要求IO所述的音频解码装置,进一步包括缓冲器,其补偿所述空间信息和所述缩减混音信号之间的延迟。
19. 一种计算机可读记录介质,其上记录了用于执行音频解码方法的计算机程序,所述音频解码方法包括从输入音频信号中提取縮减混音信号和基于对象的边信息;基于输入控制信息生成渲染信息;以及基于所述渲染信息和所述基于对象的边信息,生成基于声道的边信息。
20. 根据权利要求19所述的计算机可读记录介质,其中,所述音频解码方法进一步包括基于所述缩减混音信号和所述基于声道的边信息生成多声道音频信号。
全文摘要
提供了一种音频编码方法和装置以及一种音频解码方法和装置,其中音频信号可以被编码或解码使得对于每一个对象音频信号声像可以被定位于期望的位置。该音频解码方法包括从输入音频信号中提取缩减混音信号和基于对象的边信息;基于输入控制信息生成渲染信息;以及基于该渲染信息和该基于对象的边信息,生成空间信息。
文档编号G10L19/00GK101484935SQ200780024120
公开日2009年7月15日 申请日期2007年10月1日 优先权日2006年9月29日
发明者尹圣龙, 房熙锡, 李显国, 林宰显, 金东秀 申请人:Lg电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1