生成针对音频对象的元数据的制作方法
【技术领域】
[0001] 本发明的实施例通常涉及音频内容处理,更具体地,涉及用于处理多声道格式的 音频内容的方法和系统。
【背景技术】
[0002] 传统上,音频内容是W基于声道的格式进行创建及存储的。如在本文中所使用的, 术语"音频声道"或"声道"指的是通常具有预定义物理位置的音频内容。例如,双声道、环 绕5. 1、环绕7. 1等等均为针对音频内容的基于声道的格式。近来,随着多媒体工业中的技 术发展,Η维(3D)电影和电视内容在影院和家庭中变得越来越受欢迎。为了创建更身临其 境的声场且精确地控制而无关于特定的播放扬声器配置的单独音频元素,许多常规的多声 道系统都已被扩展W支持包括声道和音频对象两者的新格式。
[0003] 如在本文中使用的,术语"音频对象"指的是在声场中存在预定义时间段的独立音 频元素。音频对象可W是动态或静态的。例如,音频对象可W是对话、枪声、雷电等等。作 为重要的元素,音频对象通常被混音师使用W创建其理想的声音效果。
[0004] 传统上,基于多声道格式的音频内容或音频信号包括针对至少两个声道的分离的 信号。例如,在环绕5. 1扬声器系统中可W包括五个不同的信号。每个分离的音频信号被用 于驱动位于由每个物理扬声器限定的场中与其对应的扬声器。因为对于单个音频对象分配 给每个声道的能量是不同的,扬声器或换能器可被不同地驱动并且W不同的响度再现相同 的音频对象,送导致由在场中的收听者所感知到的特定位置。此外,根据多声道格式的音频 信号自身可W包括声道间相关系数(ICC),其例如可W体现为在声道间的相位和幅度差异 的形式。关于能量分配和特定音频对象的ICC的信息可W允许多个扬声器表现音频对象, 使音频对象的位置和大小能够被收听者所感知。
[0005] 目前,适合于一定的多声道环绕系统的多声道格式的特定音频信号需要由专业人 ±在录音室中使用平移工具来道染,并且诸如不同的音频对象的位置和大小之类的属性仅 能在工作室被定制为特定格式(即,对应固定的播放设定的固定数量的声道),送意味着一 旦被创建就不能再操纵送样的属性。因此,如果想在7. 1扬声器系统或普通的双声道系统 上播放良好道染的5. 1格式的音频内容,由送种系统的给出的演绎并没有得到优化。另外, 诸如音频对象的位置和大小之类的属性可能无法通过扬声器被精确地播放。换言之,当音 频内容是创建为多声道格式的时,由收听者所感知的收听体验是由混音师针对特定播放设 置优化的。当音频内容通过不同的播放设置被播放时,由于播放设置之间并不匹配,性能可 能会降低,诸如音频对象的位置会发生变化。
[0006] 鉴于上述情况,本领域需要用于生成包含音频对象的属性的元数据的解决方案。
【发明内容】
[0007] 为了解决上述和其他潜在的问题,本发明提出了一种用于生成与音频对象相关联 的元数据的方法和系统。
[0008] 在一个方面,本发明的实施例提供了用于处理音频内容的方法,音频内容包括多 声道格式的至少一个音频对象。该方法包括;生成与该音频对象相关联的元数据,该元数据 包括W下数项中的至少一个:音频对象的估计轨迹;W及音频对象的估计感知大小,该感 知大小是由至少两个换能器所产生的音频对象的幻象(地antom)的所感知到的区域。在送 方面的实施例还包括相应的计算机程序产品。
[0009] 在另一个方面,本发明的实施例提供用于处理音频内容的系统,该音频内容包括 多声道格式的至少一个音频对象。该系统包括:元数据生成单元,被配置成生成与该音频对 象相关联的元数据,该元数据生成单元包括W下数项中的至少一个:轨迹元数据生成单元, 被配置成生成该音频对象的估计轨迹;W及大小元数据生成单元,被配置成生成该音频对 象的估计感知大小,该感知大小是由至少两个换能器所产生的音频对象的幻象的所感知到 的区域。
[0010] 通过下面的描述将可W理解,根据本发明的实施例,音频对象可W被处理从而被 分配包括轨迹和感知大小信息的元数据。音频内容中经转换的新的音频对象是有利的,因 为送样的音频内容可W在任何播放系统中都能够被精确地播放,而不论维度数目W及换能 器的数目是多少。此外,元数据易于在后续处理阶段被操纵及改善,其结果是,在几乎每一 个声学系统(即使耳机)中音频内容的表现均能够被适配为准确且因而是身临其境的。通 过本发明的实施例所实现的其他优点将通过下面的描述变得显而易见。
【附图说明】
[0011] 通过参照附图的W下详细描述,本发明的实施例的上述和其他目的、特征和优点 将变得更容易理解。在附图中,本发明的数个实施例将W示例W及非限制性的方式进行说 明,其中:
[0012] 图1图示了根据本发明示例实施例的针对具有不同的ICC值提取的音频对象的感 知幻象;
[0013] 图2图示了根据本发明的示例实施例的用于处理音频对象W便于估计其位置的 方法的流程图;
[0014] 图3图示了根据本发明另一示例实施例的用于处理基于对应关系方法的位置估 计的方法的流程图;
[0015] 图4图示了根据本发明的另一示例实施例的用于处理基于混合方法的位置估计 的方法的流程图;
[0016] 图5图示了根据本发明的示例实施例的寻求从音频对象第一顿到最后一顿的路 径的示例;
[0017] 图6图示了根据本发明的示例实施例的用于处理音频对象W便于估计其感知大 小的方法的流程图;
[0018] 图7图示了根据本发明的示例实施例的对输入的音频对象执行去相关处理W用 于获得感知大小与ICC值之间的对应关系的7K例;
[0019] 图8图示了根据本发明的示例实施例的W ICC值为函数的感知大小的值的变化;
[0020] 图9图示了根据本发明的示例实施例的将从Η个扬声器的每对中生成的感知大 小进行聚集的示例;
[0021] 图10图示了根据本发明的示例实施例的用于获得更加精确的感知大小的校准实 验;
[0022] 图11图示了根据本发明的示例实施例的将由扬声器L、R、Ls和Rs构建的空间分 割成多个子空间的可能策略;
[0023] 图12图示了根据本发明的示例实施例的用于音频对象处理的系统的框图;W及
[0024] 图13图示了适合于实施本发明的实施例的示例计算机系统的框图。
[0025] 在全部附图中,相同或相应的附图标记指代相同或相应的部分。
【具体实施方式】
[0026] 现在将参照附图中所示的各种示例实施例对本发明的原理进行说明。应当理解, 送些实施例的描述仅仅是使本领域的技术人员能够更好地理解并进一步实现本发明,而不 意在W任何方式限制本发明的范围。
[0027] 本发明假设输入的音频内容是在多声道格式,例如5. 1、7. 1或7. 1. 4,其中数字4 表示四个顶置扬声器。若干音频对象通过重复如本发明所要求保护的方法易于被处理。应 当指出的是,在本发明中,将不会提及音频对象的提取,并且满足下面所列出的要求等的所 有的音频对象均可被视为可用的音频对象:
[0028] ?来自现成内容或从音频内容通过使用各种音频提取技术自动提取的音频对象, 在现成内容中干净的对象是已经可用的,在音频内容中希望提取的音频对象通常与其它对 象混合在一起;
[0029] · W全频带或子频带表示的音频对象,其中全频带表示关于音频对象的所有频谱 信息W及频谱方向均被包括在内,而子频带表示音频对象的频谱信息的仅仅一部分是可用 的拟及
[0030] ?随时间不完整的音频对象,其可能例如是由自动音频对象提取过程中的不完美 的时间分割造成的。
[0031] 如上面所提到的,在本发明中,与音频对象相关联的元数据主要集中在音频对象 的轨迹和感知大小两方面。本文的感知大小是指由音场中的至少两个物理换能器或扬声器 产生的音频对象的(与点幻象相比)增大的幻象的区域。
[0032] 音频对象的位置可W或者是在二维(2D)平面上或在Η维(3D)空间中的。例如,对 于5.1或7.1声道配置,位置通常是在二维平面(X,y)上的,而对于7. 1.4配置,位置是在 Η维空间(x,y,z)中的。在某些情况下,诸如音频上混(up-mixing),从2D (x,y)到3D (X, y,Z)的位置的转换是期望的,因为3D空间提供了新层次的身临其境的体验。
[0033] 音频对象的感知大小由收听者感知到的所产生的音频回放的区域所定义。例如, 当前左扬声器和前右扬声器两者均在播放具有相似能量水平的相同音频对象时,它们将在 送两个物理扬声器之间呈现幻象对象,并且如图1中的左图所示,收听者会将来自于正面 中必的对象感知为点幻象。
[0034] 在图1中,对于每个用户,有两个扬声器100播放相同的音频对象,送意味着声道 间相关系数(ICC)恰好是1。如由两个扬声器100之间圈出的区域所示,音频对象的感知大 小取决于ICC值,而ICC值是由大量的听音实验验证的。通过使ICC值从1减小到0,感知 大小将相应地从0增加到1。例如,如果单声道格式的音频对象被复制到两个扬声器100, 并W不存在相位差的方式同时播放,正在播放的音频对象可W被视为如上面所描述的ICC 值等于1的点幻象。如果施加某些操作(例如去相关),从而使得ICC值小于1,收听者将 感知到播放的音频对象不再形成单一的点而是增大的幻象,如图1的右图所示。音频对象 的感知大小被混音师出于艺术加工目的而有意地操纵。其结果是,一些音频对象实际上不 再被感知为点幻象。
[0035] 为了产生包括诸如轨迹和感知大小的属性的元数据,本发明的实施例提出了一种 用于处理音频内容的方法和系统。音频内容包括多声道格式的至少一个音频对象。用于估 计音频对象的轨迹和感知大小的实施例将在下文中分别进行说明。
[0036] 轨诚估计
[0037] 首先参照图2,其示出了根据本发明的示例实施例的用于处理音频对象W便于估 计其位置的方法200的流程图。
[0038] 所输入的音频内容是基于多声道的格式。例如,输入的音频内容可W符合环绕 5. 1、环绕7. 1、甚至7. 1. 4等等。所输入的音频内容通常包含至少一个具有多个顿的音频对 象。在步骤S201,应用位置估计处理,其用多声道格式的音频对象作为输入。在步骤S201 之后,生成候选位置组,其针对音频对象的多个顿中的每个顿包含至少一个候选位置。在步 骤S202,从针对音频对象的多个顿中的每个顿所生成的候选位置组中选择一个估计位置。 然后,在步骤S203,通过使用跨越音频对象的多个顿的估计位置生成估计轨迹。步骤S204 是可选的,其中当需要时2D到3D的转换和3D到2D的转换都能够进行。换言之,针对音频 对象的多个顿中的每个顿所输出的估计轨迹的格式为(X,y)或(X,y,Z)。
[0039] 通过示例的方式,可W有Η种方法用于在步骤S201生成候选位置组,其包括:
[0040] ?能量加权法,其对位置进行简单而直接的计算,该方法能够对位置进行鲁棒的估 计但在另一方面对估计的准确性做出妥协;
[0041] ?对应关系法,其假设已获得由混音师使用W用于生成音频对象的多声道表现的 (多个)平移工具的先备知识,该方法可W实现准确的估计但在一些情况下对鲁棒性做出 妥协;W及