音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码的制作方法
【专利说明】音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码
[0001]相关申请的交叉引用
[0002]本申请要求2013年11月14日提交的美国临时专利申请号61/904,233的优先权益,其通过整体引用而并入本文。
技术领域
[0003]本发明涉及具有对应的视频内容的音频节目(例如电影或者其它视听节目的声轨)的编码、解码以及呈现。在一些实施例中,该节目是基于对象的音频节目,该基于对象的音频节目包括至少一个音频对象声道、屏幕相关的元数据以及通常还包括扬声器声道。屏幕相关的元数据支持屏幕相对呈现,在屏幕相对呈现中,由节目指示的声源(例如,由对象声道指示的对象)在相对于回放系统的显示屏幕的(至少部分地由屏幕相关的元数据确定的)位置处呈现。
【背景技术】
[0004]本发明的实施例涉及音频内容创建和分发管道(pipeline)(例如,用于创建和分发视听节目的音频内容的管道)的一个或多个方面。
[0005]这样的管道实现音频节目(通常是指示音频内容和与音频内容对应的元数据的经编码的音频节目)的生成。音频节目的生成可以包括音频制作活动(音频的捕获和记录)以及可选地还包括“后制作”活动(记录音频的操纵)。现场直播必然需要所有创作决定在音频制作期间做出。在电影和其它非实时节目的生成中,许多创作决定可以在后制作期间做出。
[0006]音频内容创建和分发管道可选地实现节目的再混合和/或再灌制(remaster)。在一些情况下,节目在内容创建之后可能需要附加处理以使内容重新用于替代的使用情况。例如,针对在电影院中回放而最初创建的节目可以被修改(例如再混合)以更适合于在家庭环境中回放。
[0007]音频内容创建和分发管道通常包括编码阶段。音频节目可能需要编码以使得能够进行分发。例如,预期用于在家庭中回放的节目通常将是被压缩以允许更高效的分发的数据。编码处理可以包括以下步骤:降低空间音频场景的复杂度、和/或节目的单个音频流的数据率降低、和/或将音频内容(例如压缩的音频内容)的多个声道和对应的元数据打包为具有期望的格式的比特流。
[0008]音频内容创建和分发管道包括解码和呈现级(通常由包括解码器的回放系统来实现)。最终节目通过基于回放设备和环境将音频描述呈现为喇叭信号来展现给终端消费者。
[0009]本发明的典型实施例允许音频节目(例如电影或者具有音频和图像内容的其它节目的声轨)再生使得听觉图像的位置以与对应的视觉图像的位置一致的方式可靠地展现。
[0010]传统上,在电影混合房间(或者其它视听节目创作环境)中,显示屏幕(在本文中称为“参考”屏幕,以将它与视听节目回放屏幕区分开)的位置和大小与混合环境的前壁重合并且参考屏幕的左边缘和右边缘与左和右主屏幕喇叭的位置重合。附加的中心屏幕声道通常位于参考屏幕/墙壁的中间。因此,前壁范围、前面喇叭位置以及屏幕位置一致地共置(co-locate)。通常,参考屏幕大致与房间一样宽,并且左、中心以及右喇叭靠近参考屏幕的左边缘、中心以及右边缘。该布置与期望的电影院回放位置中的屏幕和前面喇叭的典型布置类似。例如,图1是这样的电影院的前壁(W)的示图,其中显示屏幕S、左和右前扬声器(L和R)以及前中(front center)扬声器(C)安装至(或者靠近)前壁。在电影的回放期间,视觉图像B可以显示在屏幕S上,而关联的声音“A”从回放系统的扬声器(包括扬声器L、R以及C)发出。例如,图像B可以是声源(例如鸟或者直升机)的图像并且声音“A”可以是预期被感知为从声源发出的声音。我们假设电影已被创作和呈现使得当前面扬声器与屏幕S共面地定位(其中左前和右前扬声器(L和R)在屏幕S的左和右边缘处,并且中前扬声器靠近屏幕S的中心)时,声音A被感知为从声源位置发出,该声源位置与图像B被显示的屏幕S上的位置重合(或者几乎重合)。图1假设屏幕S至少基本上声学穿透的,并且扬声器L、C以及R安装在屏幕S后面(但是至少基本上在屏幕S的平面中)。
[0011]然而,在消费者的家庭中(或者通过移动用户的便携式回放设备)进行回放期间,回放系统的前面扬声器(或者耳机扬声器)相对于彼此和相对于回放系统的显示屏幕的大小和位置不需要匹配节目创作环境(例如电影混合房间)的显示屏幕和前面扬声器的大小和位置。在这样的回放情况下,回放屏幕的宽度通常显著小于分隔左和右主扬声器(左和右前扬声器、或者耳机的扬声器,例如一对头戴式耳机)的距离。还可能的是,屏幕不在中心或者甚至在相对于主扬声器的固定位置处(例如,在佩带头戴式耳机和拿着显示设备的移动用户的情况下)。这可以创建感知的音频和视觉之间的明显不协调。
[0012]例如,图2是房间的前壁(W’)的示图,其中,家庭影院系统的显示屏幕(S’)、左和右前扬声器(L’和R’)以及前中扬声器(C’)安装至(或者靠近)前壁。在图1的示例中所描述的相同电影的(通过图2的系统)回放期间,视觉图像B显示在屏幕S’上,而关联的声音A从回放系统的扬声器(包括扬声器L’、R’以及C’)发出。我们已假设该电影已被创作以用于呈现和回放(通过电影院回放系统),其中声音A被感知为从与图像B被显示的电影院屏幕上的位置重合(或者几乎重合)的声源位置发出。然而,当电影由图2的家庭影院系统播放时,声音A将被感知为从靠近左前扬声器L’的声源位置发出,该声源位置与图像B被显示的家庭影院屏幕S’上的位置既不重合也不几乎重合。这是因为,家庭影院系统的前面扬声器L’、C’以及R’具有相对于屏幕S’的、与节目创作系统的前面扬声器具有相对于节目创作系统的参考屏幕的不同的大小和位置。
[0013]在图1和2的示例中,期望的电影回放系统被假设在它的扬声器和屏幕之间具有很好地定义的关系,并且因此对于显示图像和对应的音频源的内容创建者的期望的相对位置可以可靠地再现(在电影院中的回放期间)。对于在其它环境中(例如在家庭音视频房间中)的回放,扬声器和屏幕之间的假设关系通常不保留,并且因此显示图像和对应的音频源的相对位置(其由内容创建者期望)通常不被很好地再现。在回放期间(除了在具有扬声器和屏幕之间的假设关系的电影院中之外)实际实现的显示图像和对应的音频源的相对位置基于回放系统的喇叭和显示屏幕的实际相对位置和大小。
[0014]在视听节目的回放期间,对于被呈现以在屏幕上位置处被感知的声音,最佳听觉图像位置与收听者位置无关。对于被呈现以在屏幕外位置处(在与屏幕的平面垂直的方向上的非零距离处)被感知的声音,取决于收听者位置,在声源的听觉上感知的位置中存在视差的可能。已提出了试图基于已知的或者假设的收听者位置减小或消除这样的视差的方法。
[0015]已知的是利用高端回放系统(例如在电影院中)来呈现基于对象的音频节目(例如,指示电影声轨的基于对象的节目)。例如,作为电影声轨的基于对象的音频节目可以指示与屏幕上的图像、对话、噪音以及声音效果(从屏幕上的(或者相对于屏幕的)不同位置发射出)、以及背景音乐和周围环境效果(其可以由节目的扬声器声道指示)对应的许多不同的声音元素(音频对象),以创建预期的总体听觉体验。这样的节目的准确回放需要声音以关于音频对象大小、位置、强度、移动以及深度尽可能紧密地与由内容创建者所预期的对应的方式再现。
[0016]基于对象的音频节目代表相对于传统的基于扬声器声道的音频节目的显著改进,因为基于扬声器声道的音频关于特定音频对象的空间回放比基于对象声道的音频更受限。基于扬声器声道的音频节目的音频声道仅由扬声器声道(不由对象声道)组成,并且每一个扬声器声道通常确定收听环境中的特定的单个扬声器的扬声器馈送。
[0017]已提出了用于生成和呈现基于对象的音频节目的各种方法和系统。在基于对象的音频节目的生成期间,通常假设任意数量的扬声器将被用于节目的回放,并且要被用于回放(通常,在电影院中)的扬声器将位于回放环境中的任意位置;不必在(标称)水平面中或者在节目生成时已知的任何其它预定的布置中。通常,包括在节目中的对象相关的元数据指示在表观空间位置处或者沿轨迹(trajectory)(在三维体中)(例如使用三维扬声器阵列)呈现该节目的至少一个对象的呈现参数。例如,节目的对象声道可以具有指示对象(由对象声道指示)要被呈现的表观空间位置的三维轨迹的对应的元数据。该轨迹可以包括一系列“地面(floor)”位置(在回放环境的假设位于地面上的扬声器的子集的平面中、或者另一个水平面中)和一系列“地面上”(每个位置通过驱动假设位于回放环境的至少一个其它水平面中的扬声器的子集来确定)。基于对象的音频节目的呈现的示例例如在PCT国际申请号PCT/US2011/028783(2011年9月29日根据国际公布号W02011/119401A2公布,并且转让给本申请的受让人)中描述。
[0018]基于对象的音频节目呈现的出现已显著增加必须由呈现系统执行的呈现的复杂度和所处理的音频数据量,部分地因为基于对象的音频节目可以指示许多对象(每个具有对应的元数据)并且可以被呈现以供由包括许多喇叭的系统来回放。已提出限制包括在基于对象的音频节目中的对象声道的数量,使得预期的呈现系统具有呈现该节目的能力。例如,2012年 12月 21 日提交的、指定Brett Crockett、Alan Seefeldt、Nicolas Tsingos、Rhonda Wilson以及Jeroen Breebaart为发明人、并且转让给本发明的受让人的题为“Scene Simplificat1n and Object Clustering for Rendering Object based Aud1Content”的美国临时专利申请号61/745,401描述用于通过聚类(cluster)输入对象声道以生成包括在节目中的聚类对象声道和/或通过将输入对象声道的音频内容与扬声器声道混合以生成包括在节目中的经混合的扬声器声道来这样限制基于对象的音频节目的对象声道的数量的方法和装置。可以考虑的是,本发明的一些实施例可以与这样的聚类(例如在混合或者再混合装置中)相结合来执行以生成基于对象的节目,以用于(与屏幕相关的元数据一起)传送至回放系统或者用于在生成用于传送至回放系统的基于扬声器声道的节目中使用。
【发明内容】
[0019]贯穿本公开(包括在权利要求中),音频节目的至少一个声道(例如对象声道或者扬声器声道)的“扭曲(warp)”假设该节目具有对应的视频内容(例如,该节目可以是电影或者其它视听节目的声轨)并且表示每一所述声道的音频内容(音频数据)的处理以生成扭曲的音频内容(或者利用指示扭曲的音频内容的至少一个其它音频声道代替每个所述声道),使得当扭曲的音频内容被呈现以生成扬声器馈送并且该扬声器馈送被利用以驱动回放扬声器时,从扬声器发出的声音指示具有感知的扭曲位置(其可以是固定的或者可以随时间而变化)的至少一个音频元素(内容创建者预期该至少一个音频元素在相对于参考屏幕(例如电影院屏幕)的至少一个预定位置被感知)。扭曲位置在它是相对于回放系统的显示屏幕(而不是相对于由内容创建者假设的参考屏幕)的预定位置的意义上是“扭曲的”。通常,每个扭曲位置通过被提供有音频节目(例如被包括在音频节目中)的元数据(在本文中称为“屏幕相关的”元数据)(至少部分地)相对于回放系统的显示屏幕(有时称为“回放屏幕”)确定。每个扭曲位置可以由屏幕相关的元数据和指示回放系统配置的其它数据(例如,指示回放系统的显示屏幕与扬声器的位置、或者位置和大小、和/或大小和/或位置之间的关系的数据)来确定。扭曲位置可以但不需要与实际的回放屏幕重合。本发明的一些实施例允许处于屏幕上和/或屏幕外(off-screen)(相对于回放屏幕)并且在回放期间改变的扭曲位置之间的平滑转变(transit1n)。
[0020]在本文中,表述节目的至少一个声道的“屏幕外扭曲”表示所述至少一个声道的其中至少一个对应音频元素(由所述至少一个声道的音频内容确定)的扭曲位置相对于回放屏幕处于非零深度(即,在与回放屏幕的平面至少基本上垂直的方向上离回放屏幕具有非零距离)的类型的“扭曲”。
[0021]在第一类实施例中,本发明是用于呈现音频节目(例如基于对象的音频节目)的方法,包括以下步骤:(a)确定至少一个扭曲程度参数(例如,通过解析节目以识别由该节目的屏幕相关的元数据所指示的至少一个所述一个扭曲程度参数、或者包括通过将至少一个所述一个扭曲程度参数指定至回放系统来配置该回放系统以执行呈现);以及(b)对该节目的至少一个声道的音频内容执行扭曲到至少部分地由与所述声道对应的扭曲程度参数所确定的程度,其中,每个所述扭曲程度参数指示要通过回放系统对该节目的对应的音频内容所执行的扭曲的最大程度(每个所述扭曲程度参数例如是指示该最大程度的非二进制值)。在第一类的一些实施例中,步骤(a)包括确定至少一个屏幕外扭曲参数(例如,通过解析节目以识别由该节目的屏幕相关的元数据所指示的至少一个所述一个屏幕外扭曲参数)的步骤,其中,屏幕外扭曲参数指示通过回放系统对节目的对应的音频内容的屏幕外扭曲的至少一个特性,并且其中,在步骤(b)中执行的扭曲包括至少部分地由至少一个所述屏幕外扭曲参数所确定的屏幕外扭曲。例如,屏幕外扭曲参数可以控制作为深度(在与回放屏幕的平面至少基本上垂直的方向上离回放屏幕的距离)的函数的音频元素的扭曲位置的最大扭曲或者扭曲(在与回放屏幕的平面至少基本上平行的方向上)的程度或者方式。在一些实施例中,在步骤(a)中所确定的扭曲程度参数指示要在与回放屏幕的平面至少基本上平行的平面中(在与回放屏幕至少基本上垂直的深度处)对节目的对应的音频内容所执行的扭曲的最大程度,并且因此是屏幕外扭曲参数。在其它实施例中,步骤(a)包括确定至少一个扭曲程度参数和还确定不是扭曲程度参数的至少一个屏幕外扭曲参数。在一些实施例中,节目指示至少两个对象,步骤(a)包括独立地确定用于对象中的至少两个中的每一个的至少一个扭曲程度参数的步骤,并且步骤(b)包括对指示对象中的每一个的音频内容独立地执行扭曲到至少部分地由与该对象中的所述每一个对应的所述至少一个扭曲程度参数所确定的程度的步骤。
[0022]在第二类的实施例中,本发明是用于生成(或者解码)基于对象的音频节目的方法。该方法包括以下步骤:确定用于至少一个音频对象的至少一个扭曲程度参数,和在节目中包括对象声道(指示对象)和指示用于该对象的每个所述扭曲程度参数的屏幕相关的元数据。每个所述扭曲程度参数指示要通过回放系统对对应的对象所执行的扭曲(例如在与回放屏幕的平面平行的平面中)的最大程度(每个所述扭曲程度参数例如是指示该最大程度的非二进制值(例如具有预定范围中的许多值的任何一个的标量值))。例如,扭曲程度参数可以是在从最小值(指示没有扭曲应当被执行)至指示完全扭曲应当被执行(例如,以将由节目定义为处于参考屏幕的右边缘处的音频元素位置扭曲到回放屏幕的右边缘处的扭曲位置)的最大值的范围中的浮点值,其中,该范围包括指示中间程度的扭曲(例如完全扭曲的50% )应当被执行(例如,以将由节目定义为处于参考屏幕的右边缘处的音频元素位置扭曲到回放房间的右边缘与回放屏幕的右边缘之间中间的扭曲位置)的至少一个中间值(大于最小值但小于最大值)。在该上下文中,完全扭曲可以表示回放屏幕的平面中音频元素的感知位置的扭曲使得扭曲位置与回放屏幕重合,而中间扭曲的程度(或者小于完全扭曲)可以表示回放屏幕的平面中音频元素的感知位置的扭曲使得扭曲位置与大于(并且包括)回放屏幕的区域重合。
[0023]在第二类的一些实施例中,屏幕相关的元数据指示用于节目的至少两个对象中的每一个的至少一个所述扭曲程度参数,每一个所述扭