分级空间分辨率编解码器的制作方法

文档序号：34600198发布日期：2023-06-28 23:33阅读：278来源：国知局

本公开涉及音频通信领域；并且更具体地，涉及被设计成使用自适应空间编码技术来传送沉浸式音频内容的数字信号处理方法。还描述了其他方面。

背景技术：

1、消费电子设备正在提供日益复杂且性能不断改善的数字音频编码和解码能力。传统上，主要使用提供左右音频声道的双声道立体声格式来生产、分发和消费音频内容。最近的市场发展旨在使用支持多声道音频、基于对象的音频和/或高保真度立体声响复制(ambisonics)的更丰富的音频格式(例如dolby atmos或mpeg-h)来提供更加沉浸式的听者体验。

2、沉浸式音频内容的传送与更大的带宽需求相关联，即需要相比用于立体声内容的更大的数据速率来进行流式传输和下载。如果带宽有限，则需要可在保持可能的最佳音频质量的同时减小音频数据大小的技术。感知音频编码中常见的减少带宽的方法是利用听觉的感知特性来保持音频质量。例如，对应于不同内容类型(诸如多声道音频、音频对象或更高阶高保真度立体声响复制(hoa))的空间编码器可使用空间参数实现某些声音特征的比特率高效编码，使得可在解码器中近似地重新创建该特征。可选择表示沿着空间分辨率相对于带宽要求的折衷曲线的不同点的空间编码器以适应目标带宽。在一些技术中，音频场景可被预先确定为由较高带宽多声道音频/音频对象或较低带宽立体声信号表示。要使用有限带宽来传送更丰富和更沉浸式的音频内容，还需要其他音频编码和解码(编解码器)技术。

技术实现思路

1、公开了分级空间分辨率编解码器的各方面，该分级空间分辨率编解码器随着用于传送沉浸式音频内容的声道的带宽改变而自适应地调整沉浸式音频内容的表示。沉浸式音频内容的音频场景可以由通过自适应空间编码和基线编码技术编码的自适应数量的内容类型以及支持传输声道或用户的目标比特率的自适应声道配置来表示。例如，音频场景可由自适应数量的声道、自适应数量的对象、自适应阶次的更高阶高保真度立体声响复制(hoa)或自适应数量的其他声场表示来表示。hoa描述基于球谐函数的声场。当在解码器处重新创建时，不同的内容类型具有不同的带宽要求和对应的不同的音频质量。自适应空间编码技术可以包括用于生成自适应数量的声道和对象的自适应声道和对象空间编码技术，以及用于生成hoa的自适应阶次的自适应hoa空间编码或hoa压缩技术。该自适应可以根据与期望质量相关联的目标比特率以及确定声道、对象和hoa的优先级的分析来进行。目标比特率可以基于声道条件或一个或多个用户的比特率要求而动态地改变。可基于由声道、对象和hoa表示的声场的场景元素的空间显著性来作出优先级决策。

2、在一个方面，声道和对象优先级决策模块对多声道音频的声道和音频对象进行操作，以向空间编码器提供声道和对象的优先级排序。基于优先级排序和目标比特率，声道和对象空间编码器可以仅对高优先级声道和对象进行编码，以生成高空间分辨率的高质量比特流。剩余的低优先级声道和对象可被转换成较低质量内容类型诸如hoa，并由hoa空间编码器进行空间编码以生成需要较低带宽的低空间分辨率的较低质量比特流。为了适应于甚至更低的目标比特率，低优先级声道和对象中的一些或全部可以被渲染为甚至更低质量的内容类型，诸如需要甚至更低带宽的双声道立体声信号。分级空间分辨率编解码器的自适应编码能力允许根据目标比特率由不同的内容类型表示相同的音频场景，例如，通过将对象中的一些对象转换为hoa并且根据目标比特率在hoa域中对转换的对象进行编码。

3、在一个方面，hoa优先级决策模块对hoa内容进行操作，以向hoa空间编码器提供hoa的优先级排序。基于优先级排序和目标比特率，hoa空间编码器可以仅对高优先级hoa进行编码，以生成高空间分辨率的高质量比特流。剩余的低优先级hoa可以被渲染为较低质量的内容类型，诸如需要较低带宽的双声道立体声信号。空间编码器的分级结构可因此随着目标比特率改变而自适应地生成不同质量和不同带宽要求的音频内容类型的比特流的混合。

4、在一个方面，一个或一组空间编码器和基线编码器转换声道、对象、hoa和其他声场表示(诸如双声道立体声信号和音频场景的语音)的选择性场景元素，从而在一组比特率生成变化音频质量的一组比特流。该组比特流可以实时或离线生成。基于最终用户的目标比特率，声道和对象比特流、hoa比特流、立体声信号比特流和语音比特流的不同场景元素被选择并被自适应地传输到最终用户。

5、在一个方面，对于对等音频信号传输，空间编码器的分级结构可随着用户的目标比特率改变而自适应地生成具有声道、对象、hoa和其他场景元素的不同混合的传输流。可以实时或离线生成不同音频内容类型的混合。

6、在一个方面，公开了一种用于对音频内容进行编码的方法。该方法包括接收音频内容。音频内容由包括第一内容类型和第二内容类型的多个内容类型表示。第一内容类型可以包括多个场景元素。该方法还包括确定第一内容类型的场景元素的优先级。基于所确定的场景元素的优先级和音频内容的传输的目标比特率，该方法将第一内容类型的自适应数量的场景元素编码到第一内容流中。该方法还基于目标比特率将第一内容类型的剩余场景元素编码到第二内容流中，该剩余场景元素是尚未被编码到第一内容流中的场景元素。第二内容流表示第二内容类型的空间编码。该方法还基于目标比特率生成包括第一内容流和第二内容流的传输流以用于传输。

7、上面的概述不包括本发明的所有方面的详尽列表。设想本发明包括可从上面概述的各个方面以及在下面的具体实施方式中公开并在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合而实践的所有系统和方法。此类组合具有未在上面的概述中具体叙述的特定优点。

技术特征：

1.一种对音频内容进行编码的方法，所述方法包括：

2.根据权利要求1所述的方法，其中所述第一内容类型具有比所述第二内容类型更高质量的所述音频内容的声场表示。

3.根据权利要求1所述的方法，其中用于支持所述第一内容类型的传输的比特率高于用于支持所述第二内容类型的传输的比特率。

4.根据权利要求1或3所述的方法，其中确定所述第一内容类型的所述多个场景元素的所述优先级包括：

5.根据权利要求1或3所述的方法，其中将所述第一内容类型的所述自适应数量的所述多个场景元素编码到所述第一内容流中包括：

6.根据权利要求1所述的方法，其中基于所述目标速率和所述第二内容类型的场景元素的优先级，将所述第一内容类型的未被选择用于编码到所述第一内容流中的所述剩余场景元素编码到所述第二内容流中包括：

7.根据权利要求6所述的方法，其中对与从所述音频内容接收的所述第二内容类型的场景元素组合的所转换的场景元素进行编码包括：

8.根据权利要求6或7所述的方法，其中所述第一内容类型具有比所述第二内容类型更高质量的所述音频内容的声场表示，并且所述第二内容类型具有比所述第三内容类型更高质量的所述音频内容的声场表示。

9.根据权利要求6或7所述的方法，其中用于支持所述第一内容类型的传输的比特率高于用于支持所述第二内容类型的传输的比特率，并且用于支持所述第二内容类型的传输的所述比特率高于用于支持所述第三内容类型的传输的比特率。

10.根据权利要求6或7所述的方法，其中确定所述第二内容类型的所述多个场景元素的所述优先级包括：

11.根据权利要求6或7所述的方法，其中将所述第二内容类型的所述自适应数量的所述多个场景元素编码到所述第二内容流中包括：

12.根据权利要求1或7所述的方法，其中基于所述目标比特率将所述第一内容类型的未被选择用于编码到所述第一内容流中的所述剩余场景元素编码到所述第二内容流中包括：

13.根据权利要求1或7所述的方法，其中生成所述传输流包括：

14.根据权利要求1或7所述的方法，其中所述音频内容包括作为所述内容类型中的一者的语音对话，其中所述方法还包括：

15.根据权利要求1或7所述的方法，其中所述第一内容类型与描述所述第一内容类型的所述多个场景元素的属性的元数据相关联，

16.根据权利要求15所述的方法，其中与所述第一内容类型相关联的所述元数据包括用于帮助所述编码设备确定所述第一内容类型的所述多个场景元素的所述优先级以及帮助解码设备对所述第一内容类型的所述多个场景元素进行空间解码和渲染的元数据。

17.根据权利要求1或7所述的方法，其中将所述第一内容类型的所述自适应数量的所述多个场景元素编码到所述第一内容流中包括：

18.根据权利要求17所述的方法，还包括：

19.根据权利要求1或7所述的方法，其中将所述第一内容类型的所述自适应数量的所述多个场景元素编码到所述第一内容流中包括：

20.根据权利要求1或7所述的方法，其中所述第一内容类型包括音频声道或音频对象，其中所述第一内容类型的所述多个场景元素包括多个音频声道或多个音频对象，并且其中所述第二内容类型包括更高阶高保真度立体声响复制(hoa)。

21.一种被配置为对音频内容进行编码的系统，所述系统包括：

技术总结
本发明公开了一种分级空间分辨率编解码器，其在用于传送沉浸式音频内容的目标带宽改变时自适应地调整该音频内容的表示。该音频内容可由自适应数量的内容类型诸如声道/对象、更高阶高保真度立体声响复制(HOA)表示，并由自适应空间编码技术编码以支持传输声道或用户的目标比特率。自适应空间编码技术可以包括用于生成自适应数量的声道/对象的自适应声道/对象空间编码技术，以及用于生成HOA的自适应阶次的自适应HOA空间编码或HOA压缩技术。该自适应可以根据与期望质量相关联的目标比特率以及确定声道、对象和HOA的优先级的分析来进行。高优先级声道/对象可被编码到高质量比特流中，而低优先级声道/对象可被转换并编码为HOA。

技术研发人员：D·森,M·Y·金,F·鲍姆加特,S·扎玛尼,A·林达尔
受保护的技术使用者：苹果公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D
技术所有人：苹果公司
我是此专利的发明人