专利名称:对象关系音频文件提供装置和方法以及其播放装置和方法
技术领域:
本发明涉及一种对象关系音频文件提供装置及播放装置,和一种对象关系音频文 件提供方法及对象关系音频播放方法,涉及后退兼容性(BackwardCompatibiIity)与在低 配置用户终端中提供对象关系音频服务的装置及方法。
背景技术:
通过电视、广播、DMB等播放服务提供的音频文件,作为将几个音源合成的一个音 频文件而被存储和发送。此时,音源是对应音频对象的意思。在此类播放环境中,观众虽然 可以调整整个音频文件的音量,但是无法进行依照音频文件内部包含的音源来调节音频文 件音量之类的依照照音源的音频文件特性控制。
但是,在创建音频文件时,不依照音频对象整体合成音频文件,而是将其独立存储 的话,用户就可以通过播放音频文件的音频文件播放装置容易地依照音源控制音频文件的 音量。如上所述,在存储与提供单元中,将几个音频文件独立地存储和发送,用户可在播放 装置中依照音源适当控制音频文件的服务,叫做对象关系音频服务。
依照对象关系音频服务,可将对应收集的音源的各对象的位置、声音的音量等对 象特征定义为预置(preset)而应用到音频播放中。即,将与音频对象相关的预置创建为多 个,并将其存储在音频文件内部的话,用户就可以有高效率地应用对象关系音频服务。此 外,将对象关系音频服务应用于唱片的话,编辑人员可以将声乐部分、鼓、钢琴等各种音频 对象以不整体混合的状态存储,而将混合音频对象的各种方法的相关预置与音频对象一并 存储提供给用户。这样,用户可以将编辑人员编辑的预置中的一个根据自己取向选择,或者 自己直接控制各音频对象生成预置,由此可以创作出用户所要风格的音乐。
最终,为进行对象关系音频服务,音频文件可包括多个音频音轨和与音频音轨的 控制信息相关的预置。此时,音频音轨是对应音频对象的概念。用户可合成音频文件中包 括的音频音轨进行播放。
但是,将对象关系音频服务应用到用户终端时存在问题。特别是,当用户终端为移 动终端时,由于比一般的音频文件播放装置处理能力低,所以存在难以有效率地提供对象 关系音频服务的问题。例如,当音频文件的处理容量低下的用户终端最多只能播放两个音 频对象时,在目前的比特流(Bitstream)结构中无法进行对象关系音频服务。此外,不能执 行对象关系音频服务的用户终端,也无法执行将音频对象整体混合的对象关系音频服务。
此外,当用户终端无法执行对象关系音频服务时,用户终端可以解析(parsing) 对象关系音频文件,但是无法同时解码音频对象。即,当用户终端执行以往的音频服务时, 对音频文件中包含的音频音轨的解码按顺序执行,无法同时解码多个音频音轨。
因此,要求一种在低配置的用户终端中也可以有效率地执行对象关系音频服务、 在无法执行对象关系音频服务时也支持后退兼容的方法。此外,要求一种在音频对象被整 体混合的情况下也可以执行对象关系音频服务的方法。发明内容
解决课题
本发明提供一种装置和方法,其使可播放的音频对象在有限制的低配置用户终端 中也可有效率地执行对象关系音频服务。
本发明提供一种装置和方法,其在无法执行对象关系音频服务的用户终端中也可 提取音频对象进行播放,由此支持后退兼容。
课题解决手段
根据本发明的一个实施例的对象关系音频文件播放方法,可包括以下步骤接收 对象关系音频文件,所述文件包括用于对象关系音频服务的文件标题(file header)、记录 有各个音频对象的帧及记录有整体混合了音频对象的音源的帧;和根据所述对象关系音频 文件播放装置的配置,控制混合了所述音频文件整体的音源,播放所述对象关系音频文件。 技术方案
根据本发明的一个实施例的对象关系音频文件播放装置,可包括音频文件接收 单元,其接收对象关系的音频文件,所述文件包括用于对象关系音频服务的文件标题、记录 有各个音频对象的帧及记录有混合了音频对象整体的音源的帧;和音频文件播放单元,其 根据所述对象关系音频文件播放装置的配置,控制混合了所述音频文件整体的音源,播放 所述对象关系音频文件。
根据本发明的一个实施例的不可进行多个音频对象的解码的对象关系音频文件 播放装置执行的对象关系音频文件播放方法,可包括以下步骤解码对象关系音频文件中 包含的至少一个依照音频对象的音频音轨;播放所述至少一个依照音频对象的音频音轨中 由用户选择的音频音轨。
根据本发明的另一个实施例的可解码多个音频对象的对象关系音频文件播放装 置执行的对象关系音频文件播放方法,可包括以下步骤解码对象关系音频文件中至少一 个降混频(down mix)音频音轨;和选择所述至少一个降混频音频音轨播放。
根据本发明的另一个实施例的可解码多个音频对象的对象关系受限的对象关系 音频文件播放装置执行的对象关系音频文件播放方法,可包括以下步骤解码对象关系音 频文件中包含的依照多个音频对象的音频音轨、降混频所述多个音频对象的至少一个降混 频音频音轨、音质提高音频音轨;推定所述降混频音频音轨中包含的音频对象中,所述对象 关系音频文件中未包含的音频对象;播放对应推定的所述音频对象的音频音轨和依照多个 音频对象的音频音轨的音频音轨。
根据本发明的一个实施例的不可以进行多个音频对象的解码的对象关系音频文 件播放装置,可包括音频文件解码单元,其解码对象关系音频文件中至少一个降混频音频 音轨;和音频文件播放单元,其选择所述至少一个降混频音频音轨播放。
根据本发明的另一个实施例的可解码多个音频对象的对象关系音频文件播放装 置,可包括音频文件解码单元,其解码对象关系音频文件中包含的至少一个依照音频对象 的音频音轨;和音频文件播放单元,其播放所述至少一个依照音频对象的音频音轨中由用 户选择的音频音轨。
根据本发明的另一个实施例的可解码多个音频对象的音频对象受限的对象关系 音频文件播放装置,可包括音频文件解码单元,其解码对象关系音频文件中包含的依照多个音频对象的音频音轨、降混频所述多个音频对象的至少一个降混频音频音轨、音质提高 音频音轨;音频文件播放单元,其推定所述降混频音频音轨中包含的音频对象中,所述对象 关系音频文件中未包含的音频对象,播放对应推定的所述音频对象的音频音轨和依照多个 音频对象的音频音轨的音频音轨。
在根据本发明的一个实施例的记录介质中,区分包含在对象关系音频文件中的音 频音轨的音频服务区分信息,可被记录在存在于音频文件、电影盒(Movie Box)或音频音轨 内部的一元盒(Meta Box)中的任何一个中。
在根据本发明的另一个实施例的记录介质中,区分包含在基于对象关系音频文件 中的音频音轨的音频服务区分信息,可被记录在存在于音频文件、电影盒(Movie Box)内部 的新盒中的任何一个中。
技术效果
根据本发明的一个实施例,在低配置的用户终端中也可执行对象关系音频服务。
根据本发明的一个实施例,在可以播放的音频对象受限的低配置用户终端中也可 有效率地执行对象关系音频服务。
图1是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频 文件播放装置的整体结构图2是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频 文件播放装置的相关详细框图3是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的示图4是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的一个 示例的示图5是示出根据本发明的另一个实施例的对象关系音频文件的相关比特流的示 图6是示出根据本发明的一个实施例的对象关系音频文件提供方法的流程图7是示出根据本发明的一个实施例的对象关系音频文件播放方法的流程图8是示出根据本发明的一个实施例的对象关系音频文件播放过程的示图9是示出根据本发明的另一个实施例的对象关系音频文件播放过程的示图10是示出根据本发明其他另一个实施例的对象关系音频文件播放过程的示 图11是示出根据本发明的另一个实施例的对象关系音频文件播放装置的框图。
具体实施方式
下面,将参照附图对本发明实施例进行详细说明。
下面,将参照附图记载的内容,对本发明实施例进行详细说明。但是,本发明并不 受实施例的限制或限定。各附图中显示的相同参考符号表示相同的部件。
图1是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频 文件播放装置的整体结构图。
图1所示的对象关系音频文件提供装置100及对象关系音频文件播放装置101,可 以处理包含多个音频音轨的音频文件。即,对象关系音频文件提供装置100,可将音频文件 的相关比特流提供至对象关系音频文件播放装置101,对象关系音频文件播放装置101,可 从比特流提取音频文件,并播放音频文件中包含的音频音轨。此时,可依照对应音源的音频 对象生成音频音轨。
本发明提出了,在对象关系音频文件播放装置101如处理容量低下的用户终端之 类只能播放特定个数的音频对象时执行对象关系音频服务的方法。
此外,本发明提出了,在对象关系音频文件播放装置101无法提供对象关系音频 服务时,也可以播放混合了多个音频对象的音源的方法。
图2是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频 文件播放装置的相关详细框图。
参照图2,对象关系音频文件提供装置100,可包括音频文件生成单元201及音频 文件提供单元202。
音频文件生成单元201,可生成音频文件,其包括记录各个音频对象的帧、用于对 象关系音频服务的文件标题、记录混合了音频对象整体的音源的帧。在这里,文件标题可包 括,定义包括多个音频对象各自的对象位置或声音的音量在内的对象属性的音频预置。
此时,由于音频文件包括记录混合了多个音频对象整体的音源的帧,因此,可以由 记录多个音频对象中除一个对象之外的其余对象对象的帧构成。对此,在图4中进行了具 体说明。
作为另一个例子,用于对象关系音频服务的文件标题,可位于比特流的中间。对 此,在图6中进行了具体说明。
音频文件提供单元202,可将音频文件转换为比特流发送至对象关系音频文件播 放装置101。
参照图2,对象关系音频文件播放装置101,可包括音频文件接收单元203及音频 文件播放单元204。
音频文件接收单元203可接收对象关系音频文件,所述对象关系音频文件包括用 于对象关系音频服务的文件标题、记录各个音频对象的帧、混合了音频对象整体的音源的 帧。
此外,音频文件播放单元204,可根据对象关系音频文件播放装置101的规格 (specification),控制混合了音频对象整体的音源,播放对象关系音频文件。
例如,音频文件播放单元204,在如低配置的移动终端之类对象关系音频文件播放 装置101支持的音频对象的个数受限时,基于对象关系音频文件播放装置101可支持的音 频对象的个数,播放混合了音频对象整体的音源和用户想要控制的音频对象。对此,将在图 3和图4中进行具体说明。
作为另一个例子,当对象关系音频文件播放装置不支持对象关系音频服务时,音 频文件播放单元204,可播放混合了文件标题之前的所述音频对象整体的音源。此时,混合 了音频对象整体的音源,可以位于对象关系音频文件中对象关系音频服务相关的文件标题 之前。这样的话,音频文件播放单元204即使无法播放位于文件标题之后的音频对象,也可 以播放混合了位于文件标题之前的音频对象整体的音源。对此将在图5中进行具体说明。
作为另一个例子,当对象关系音频文件中要播放的音频对象被排除在外时,音频 文件播放单元204,使用混合了音频对象整体的音源和包含在对象关系音频文件中的其余 音频对象,播放被排除在外的音频对象。对此,将在图4中进行具体说明。
图3是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的示图。
参照图3,比特流可包括用于对象关系音频服务的文件标题301和按照多个音频 对象的帧302 305。作为一个例子,音频对象帧302,可记录混合了多个音频对象整体的 音源。此时,混合了多个音频对象整体的音源可被设定为一个音频对象。此外,依照多个音 频对象的帧303 305,可以是在多个音频对象中根据混合了多个音频对象整体的音源的 添加,记录除一个音频对象之外其余音频对象的帧。音频对象帧302 305中的每一个,可 包括用于识别记录在相关帧中的音频对象的对象ID。
图4是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的一个 示例的示图。图4和图3中示出的比特流的结构相同。
如图4所示,多个音频对象各表示声乐部分、鼓、电子琴、吉他和钢琴。此时,音频 对象1可表示将多个音频对象即声乐部分、鼓、电子琴、吉他和钢琴混合的音源。音频对象 1可被记录在音频对象帧402中。
此外,多个音频对象中的每一个,可以记录在音频对象帧403 406中。但是,并 不是多个对象全部被记录在音频对象帧403 406中,可以将一个音频对象排除在外。在 图4中,钢琴被排除在外。根据本发明,即使多个对象没有全部被记录在音频对象帧中,也 由于记录了混合了多个对象整体的音源,使对象关系音频文件播放装置101可播放多个对 象整体。例如,由于音频对象1是混合了多个音频对象全部的对象,所以从音频对象1中排 出其余音频对象即声乐部分、鼓、电子琴、吉他的话,就可以提取钢琴的相关音频对象。
通过所述过程,对象关系音频文件播放装置101可以控制多个音频对象的每个对 象。
例)
音频对象1 =声乐部分+鼓+电子琴+吉他+钢琴
钢琴对象=音频对象1 (整体混合)-音频对象2 (声乐部分)-音频对象3 (鼓)-音 频对象4 (电子琴)-音频对象5 (吉他)
钢琴对象控制(减小50%的强度)=钢琴对象-0. 5*钢琴对象
钢琴对象删除(减小100%的强度)=音频对象1-钢琴对象
声乐部分对象控制(减小50 %的强度)=音频对象1 (整体混合)-0. 5*音频对象 2 (声乐部分)
声乐部分对象删除(减小100%的强度)=音频对象1(整体混合)_音频对象 2 (声乐部分)
声乐部分对象控制(增大50 %的强度)=音频对象1 (整体混合)+0. 5*音频对象 2 (声乐部分)
鼓对象控制(减少30%的强度、吉他对象控制(增大20%的强度)=音频对象 1 (整体混合)-0. 3*音频对象3 (鼓)+0. 2*音频对象5 (吉他)
此时,假设对象关系音频文件播放装置101是用户终端,可以实时播放最多三个 音频对象。这样,对象关系音频文件播放装置101,基本上可以播放混合了多个音频对象整体的音源即音频对象1,和用户选择的两个音频对象。这样,用户可以将自己选择的两个音 频对象调整为所想的值进行播放。
情况1)当对象关系音频文件播放装置101是支持两个对象的用户终端时,
播放音频对象1 (整体混合)、音频对象2 (声乐部分)一用户可以调整声乐部分的 强度
播放音频对象1 (整体混合)、音频对象3 (鼓)一用户可以调整鼓的强度
情况2、当对象关系音频文件播放装置101是支持3个对象的用户终端时,
播放音频对象1 (整体混合)、音频对象2 (声乐部分)、音频对象3 (鼓)一用户可 以调整声乐部分和鼓的强度
播放音频对象1 (整体混合)、音频对象2 (声乐部分)、音频对象4 (电子琴)一用 户可以调整声乐部分和电子琴的强度
此外,在无法提供对象关系音频服务的现有移动终端中,也可以通过固件 (firmware)升级,在只播放音频对象1时,提供后退兼容性。即,由于图3所示的比特流是 音频对象1将多个音频对象整体混合的音源,所以以往的用户终端中,通过固件升级等方 法,告知比特流中的音频对象1的位置的话,就可以提供混合多个音频对象整体的音源。
图5是示出根据本发明的另一个实施例的对象关系音频文件的相关比特流的示 图。
图5示出对象关系音频文件的相关比特流中,文件标题502位于比特流的中间的 情况。图5的对象关系音频文件播放装置101,表示无法播放用于对象关系音频服务的音频 对象的装置。
图5所示的比特流,作为混合了多个音频对象整体的音源的音频对象1即501位 于文件标题502上面。此时,对象关系音频文件播放装置101,即使无法播放文件标题502 下面的用于对象关系音频服务的音频对象,也可以播放位于文件标题502上面的音频对象 1即501,向用户提供对象关系音频服务。结果,根据本发明,在无法执行对象关系音频服务 的用户终端中,也可以播放混合了音频对象整体的音源。
此外,对象关系音频文件播放装置101,无法播放文件标题502或其余音频对象 503 505。在这里,文件标题502,可包括记录定义多个音频对象各自的对象位置或声音的 音量的对象属性的音频预置。
图6是示出根据本发明的一个实施例的对象关系音频文件提供方法的流程图。
在步骤S601中,对象关系音频文件提供装置100生成对象关系音频文件,所述对 象关系音频文件包括用于对象关系音频服务的文件标题(fileheader)、记录有各个音频对 象的帧及记录有混合了音频对象整体的音源的帧。
此外,依照音频对象的帧,由于记录混合了多个音频对象整体的音源的帧,可由记 录多个音频对象中除一个音频对象之外的其余音频对象的帧构成。
例如,用于对象关系音频服务的文件标题,可位于比特流的中间。
用于对象关系音频服务的文件标题,定义包含多个音频对象各自的对象位置或声 音的音量的对象属性的音频预置。
在步骤S602中,对象关系音频文件提供装置100,可将音频文件的相关比特流发 送至对象关系音频文件播放装置101。
图7是示出根据本发明的一个实施例的对象关系音频文件播放方法的流程图。
在步骤S701中,对象关系音频文件播放装置101,可接收对象关系音频文件,所述 对象关系音频文件包括用于对象关系音频服务的文件标题、记录有各个音频对象的帧及记 录有混合了音频对象整体的音源的帧。
此时,按照音频对象的帧,可由记录有混合了多个音频对象整体的音源的帧及记 录多个音频对象中除一个对象之外的其余对象的帧构成。
在步骤S702中,对象关系音频文件播放装置101,可基于可支持的音频对象的个 数,播放混合了音频对象整体的音源和用户想要控制的音频对象。其表示对象关系音频文 件播放装置101支持的音频对象的个数受限的情况。
作为另一个例子,混合了音频对象整体的音源,可以在对象关系音频文件中位于 对象关系音频服务相关文件标题之前。这样,不支持对象关系音频服务的对象关系音频文 件播放装置101,可以播放位于文件标题之前的混合了音频对象整体的音源。
而且,当对象关系音频文件中要播放的音频对象被排除在外时,对象关系音频文 件播放装置101,可使用混合了音频对象整体的音源和对象关系音频文件中包括的其余音 频对象,播放被排除在外的音频对象。
下面,将提出以图1至图10中说明的事项不同的方法支持后退兼容性的方法。
图8至图10中说明的术语,可定义如下。
对象关系音频文件,包括各种音频音轨,可包括按照音频对象的音频音轨、降混频 音频音轨或者音质提高音频音轨中的至少一个。音频音轨,指的是按照音频对象的播放对 象,可被包含在对象关系音频文件中。当对象为η个时,音频音轨的个数也可以是η个。下 载音频音轨,表示将至少一个音频音轨降混频。音质提高音频音轨,指的是从降混频音频音 轨中排除降混频时使用的音频音轨的和。音质提高音频音轨,可用于将创建降混频音频音 轨时发生的对自动消咔哒声(de-clpping)或母带处理(mastering)的影响从降混频音频 音轨去除。
图8是示出根据本发明的一个实施例的对象关系音频文件播放过程的示图。
参照图8,对象关系音频文件播放装置801,选择适合服务的降混频音频音轨并将 其解码,由此可向用户提供音频服务。
如图8所示,对象关系音频文件播放装置801,可以解析对象关系音频文件802,但 是无法对多个音频音轨进行解码。此时,对象关系音频文件播放装置801,可以解码并播放 将对象关系音频文件802中包含的依照对象的音频音轨进行了降混频的降混频音频音轨。
当对象关系音频文件802存在多个降混频音频音轨时,对象关系音频文件播放装 置801,可播放选择的降混频音频音轨。此时,对象关系音频文件播放装置801,可根据用户 的控制,播放调整了音量增益(gain)的降混频音频音轨。在对象关系音频文件802中,降 混频音频音轨,可通过对每个降混频音频音轨分配的标识符(ID)进行区别。
图9是示出根据本发明的另一个实施例的对象关系音频文件播放过程的示图。
参照图9,对象关系音频文件播放装置901,可将对象关系音频文件902中选择的 依照对象的音频音轨解码播放。图9所示的对象关系音频文件播放装置901,可以无限制地 播放对象关系音频文件902中包含的N个依照对象的音频音轨。即,对象关系音频文件播 放装置901,可以播放在对象关系音频文件902中包含的所有按照对象的音频音轨中,根据10用户的控制选择的按照对象的音频音轨。
此时,被播放的依照对象的音频音轨,可以是用户选择的音频音轨。当被选择的依 照对象的音频音轨为两个以上时,各个按照对象的音频音轨,可根据用户的控制,控制音量 之后通过混合机混合并播放。在对象关系音频文件902中,依照对象的音频音轨,在对象关 系音频文件902被创建时,可被存储为可独立进行控制。
图10是示出根据本发明其他另一个实施例的对象关系音频文件播放过程的示 图。
图10所示的对象关系音频文件播放装置1001,与图9所示的对象关系音频文件播 放装置901不同,可以解码的依照对象的音频音轨的个数受限制。即,假设,与对象关系音 频文件播放装置901可以解码N个依照对象的音频音轨相反,对象关系音频文件播放装置 1001可以解码N-I个音频音轨。
根据图10,对象关系音频文件播放装置1001,可以解码对象关系音频文件1002 中包含的按照对象的音频音轨、降混频音频音轨、音质提高音频音轨。这种情况下,对象关 系音频文件播放装置1001,可以使用解码的降混频音频音轨和依照对象的音频音轨,推定 包含在降混频音频音轨中但是没有包含在对象关系音频文件1002中的依照对象的音频音 轨。推定的依照对象的音频音轨,也被提供为可由用户选择。这样,按照对象的音频音轨与 降混频音频音轨可通过用户的控制被选择。最终,即使有限制的对象关系音频文件播放装 置1001,也可以通过添加处理,播放包含在降混频音频音轨中但是没有包含在对象关系音 频文件1002中的依照对象的音频音轨。
添加处理过程可以说明如下。可假设对象关系音频内部1002中存储有如下所述 的降混频音频音轨A,依照对象的音频音轨B、C,及音质提高音频音轨E。
A = f(声乐部分(B) + 吉他(C) + 鼓(D))
B =声乐部分
C=吉他
E= (B+C+D)-A (用于提高音质的音频音轨),E = (B+C+D)-f (B+C+D)
A作为降混频音频音轨,通过A = f(B+C+D)被决定,f(·)表示依照自动消咔哒声 (de-clipping)和/或母带处理(mastering)的线性或非线性函数。B和C是指依照对象 的音频音轨,E作为音质提高音频音轨,可由E = (B+C+D)-f (B+C+D)被决定。
对象关系音频文件播放装置1001,由于在解码A、B、C、E之后执行A_(B+C)+E的添 加处理,因此可以推定鼓的相关音频音轨。之后,将推定的鼓的相关音频音轨提供给用户。 这样,对象关系音频文件播放装置1001,可根据用户的控制,将按照对象的音频音轨解码播 放。例如,对鼓减小50 %的强度,可如(A- (B+C) +Ε) *0. 5处理播放。
此外,当按照对象的音频音轨B、C或者降混频音频音轨A,以反转(invert)的形态 的(乘以-1的)信号存储在对象关系音频文件1002时,对象关系音频文件播放装置1001, 在将A、B、C解码之后进行A+(B+C)+E的处理,由此可推定鼓的相关音频音轨。其结果,推定 的鼓的相关音频音轨可被提供给用户。这种情况下,反转的形态的音频音轨,可在对象关系 音频文件播放装置1001中播放而无音质变化。由此,对象关系音频文件播放装置1001,不 进行对各依照对象的音频音轨乘以-ι的演算就可以播放依照对象的音频音轨。
图8至图10中,依照对象的音频音轨预合成,S卩,将音频服务区分信息存储在图示的对象关系音频文件内部,以使与对象关系音频文件播放装置的服务类型相关的音频音轨 可以与混合和/或母带处理的降混频音频音轨一起被解码。如,音频服务区分信息,可指可 区分降混频音频音轨与依照对象的音频音轨的标题信息。
同样地,由于音频服务区分信息存储在对象关系音频文件中,可以解析对象关系 音频文件的现有对象关系音频文件播放装置,也可以播放对象关系音频文件内部存储的混 降频音频音轨。此外,即使对象关系音频文件中没有存储所有按照对象的音频音轨时,对象 关系音频文件播放装置也可使用降混频音频音轨进行添加处理,由此推定对象关系音频文 件中没有存储的对象的音频音轨。这样,用户可以选择播放没有存储在对象关系音频文件 中的推定的音频音轨,可以有效率地将对象关系音频文件存储并发送。
音频区分信息,可以以如下所述的方法存储在对象关系音频文件内部。
首先,对象关系音频文件的File (文件)、Movie Box( ‘moov’)(电影盒)或各 Track ( ‘trak,)(曲目)内部存在的Meta Box(—元盒)中,可存储与各强度相关的音频 服务区分信息。
第二,对象关系音频文件的File或者Movie Box( ‘moov’)内部定义的新盒 (‘box’)中,可存储饮品服务区分信息。根据此方法,音频文件播放装置,通过对象关系音 频文件,无需全部查找各按照音频对象的音轨的相关标题信息,就可以确认某音频服务是 否可以进行。
此外,在现有的对象关系音频文件播放装置中播放对象关系音频文件时,使用盒 中存放的音频服务区分信息的话,无需一一确认各音频音轨的标题信息,就可以容易地检 索到降混频音频音轨。
此外,使用降混频音频音轨的媒体数据和依照对象音频音轨的媒体数据,推定对 象关系音频文件内未存储的按照对象的音频音轨,并提供给用户时,可提供推定的音频音 轨的名字(title_other)。
关于此的语法(syntax)和语义(semantics)如下。
Music Service Header Box
Box Type 'mshd'
Container :File or Movie Box( ‘moov,)
Mandatory :Yes
Quantity-Exactly one
Syntax
aligned(8)class MusicServiceHeaderBox extends FullBox ( ‘mshcT, version = 0, flags) {
if (flags == 2)
unsigned int (8)num_mixed_track_ID ;
unsigned int(32)mixed_track_ID[num_mixed_track_ID];
unsigned int (8)dependency_type ;
if (dependency_type = = 2)
unsigned int (32)enhanced_track_ID ;
string title_other ;12
end
end
}
Semantics
version:盒的版本
flags 表示作为8字节标志旗表示可能进行的音频服务类型信息。
Service_noncompatibility 表示不提供与可解析对象关系音频文件但无法解码 多个音频音轨的现有的对象关系音频文件播放装置的兼容性,支持新加入的对象关系音频 文件播放装置。当标志旗的值为0x01时,表示对象关系音频文件内不存在在现有的对象关 系音频文件播放装置中要解码的降混频音频音轨。
Service_compatibility 表示提供与可解析对象关系音频文件但无法解码多个 音频音轨的现有对象关系音频文件播放装置的兼容性。当标志旗的值为0x02时,表示对象关系音频文件内存在在现有的对象关系音频文件播放装置中要解码的降混频音频音轨。
权利要求
1.一种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤接收对象关系音频文件,所述文件包括用于对象关系音频服务的文件标题(file header)、记录有各个音频对象的帧及记录有混合了音频对象整体的音源的帧;和根据所述对象关系音频文件播放装置的配置,控制混合了所述音频文件整体的音源, 播放所述对象关系音频文件。
2.如权利要求1所述的方法,其中,播放所述对象关系音频文件的步骤,基于所述对象 关系音频文件播放装置可支持的音频对象的个数,播放整体混合了音频对象的音源和用户 想要控制的音频对象。
3.如权利要求1所述的方法,其中,所述混合了音频对象整体的音源,在所述对象关系 音频文件中位于对象关系音频服务相关的文件标题之前,播放所述对象关系音频文件的步 骤,当所述对象关系音频文件播放装置不支持对象关系音频服务时,播放位于所述文件标 题之前的混合了所述音频对象整体的音源。
4.如权利要求1所述的方法,其中,播放所述对象关系音频文件的步骤,当在所述对象 关系音频文件中想要播放的音频对象被排除在外时,使用混合了音频对象整体的音源和所 述对象关系音频文件中包含的其余音频对象,播放所述被排除在外的音频对象。
5.如权利要求1所述的方法,其中,所述文件标题,包括定义包括所述音频对象各自的 对象位置或声音大小的对象属性的音频预置。
6.一种对象关系音频文件播放装置,包括音频文件接收单元,其接收对象关系的音频文件,所述文件包括用于对象关系音频服 务的文件标题、记录有各个音频对象的帧及记录有混合了音频对象整体的音源的帧;和音频文件播放单元,其根据所述对象关系音频文件播放装置的规格,控制混合了所述 音频文件整体的音源,播放所述对象关系音频文件。
7.如权利要求6所述的装置,其中,所述音频文件播放单元,基于所述对象关系音频文 件播放装置可支持的音频对象的个数,播放整体混合了音频对象的音源和用户想要控制的 音频对象。
8.如权利要求6所述的装置,其中,所述混合了音频对象整体的音源,在所述对象关系 音频文件中位于对象关系音频服务相关的文件标题之前,所述音频文件播放单元,当所述 对象关系音频文件播放装置不支持对象关系音频服务时,播放位于所述文件标题之前的混 合了所述音频对象整体的音源。
9.如权利要求6所述的装置,其中,所述音频文件播放单元,当在所述对象关系音频文 件中想要播放的音频对象被排除在外时,使用混合了音频对象整体的音源和所述对象关系 音频文件中包含的其余音频对象,播放所述被排除在外的音频对象。
10.如权利要求6所述的装置,其中,所述文件标题,包括定义包括所述音频对象各自 的对象位置或声音大小的对象属性的音频预置。
11.一种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤解码对象关系音频文件中至少一个降混频(down mix)音频音轨;和选择所述至少一个降混频音频音轨播放。
12.—种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤解码对象关系音频文件中包含的至少一个依照音频对象的音频音轨;和 播放所述至少一个依照音频对象的音频音轨中由用户选择的音频音轨。
13.—种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤解码对象关系音频文件中包含的依照多个音频对象的音频音轨、降混频所述多个音频 对象的至少一个降混频音频音轨、音质提高音频音轨;推定所述降混频音频音轨中包含的音频对象中,所述对象关系音频文件中未包含的音 频对象;播放对应推定的所述音频对象的音频音轨和依照多个音频对象的音频音轨的音频音轨。
14.如权利要求11至权利要求13中任何一项所述的方法,其中,所述播放由用户选择 的音频音轨的步骤,应用对所述音频音轨由所述用户调整的增益(gain)来播放。
15.一种对象关系音频文件播放装置,包括音频文件解码单元,其解码对象关系音频文件中至少一个降混频音频音轨;和 音频文件播放单元,其选择所述至少一个降混频音频音轨播放。
16.一种对象关系音频文件播放装置,包括音频文件解码单元,其解码对象关系音频文件中包含的至少一个依照音频对象的音频 音轨;和音频文件播放单元,其播放所述至少一个依照音频对象的音频音轨中由用户选择的音 频音轨。
17.—种对象关系音频文件播放装置,包括音频文件解码单元,其解码对象关系音频文件中包含的依照多个音频对象的音频音 轨、降混频所述多个音频对象的至少一个降混频音频音轨、音质提高音频音轨;音频文件播放单元,其推定所述降混频音频音轨中包含的音频对象中,所述对象关系 音频文件中未包含的音频对象,播放对应推定的所述音频对象的音频音轨和依照多个音频 对象的音频音轨的音频音轨。
18.如权利要求15至权利要求17中任何一项所述的装置,其中,所述音频文件播放单 元,应用对所述音频音轨由所述用户调整的增益(gain)来播放。
全文摘要
本发明提出了一种对象关系音频文件提供装置和播放装置,以及对象关系音频文件提供方法及对象关系音频播放方法。对象关系音频文件提供装置包括比特流(Bit stream)生成单元,其生成包括按照多个音频对象的帧和用于对象关系音频服务的文件标题的对象关系音频文件的相关比特流;和比特流传输单元,其将所述比特流传输至对象关系音频文件播放装置,其中,所述按照音频对象的帧,可由存储混合了多个整个音频对象的音源的帧和分别存储所述多个音频对象的帧构成。
文档编号G11B27/10GK102034519SQ20101029036
公开日2011年4月27日 申请日期2010年9月25日 优先权日2009年9月24日
发明者刘载铉, 姜京玉, 张仁瑄, 张大永, 徐廷一, 李泰辰, 李用主, 洪镇佑, 白承权, 金珉第, 金镇雄 申请人:韩国电子通信研究院