本技术涉及用于空间音频表示和渲染的装置和方法,但不仅限于用于音频解码器的音频表示的装置和方法。
背景技术:
1、沉浸式音频编解码器正被实现,以支持范围从低比特率操作到透明性的大量操作点。这种编解码器的示例是沉浸式语音和音频服务(ivas)编解码器,其被设计为适合于在诸如3gpp 4g/5g网络之类的通信网络上使用,包括在诸如例如用于虚拟现实(vr)的沉浸式语音和音频之类的沉浸式服务中使用。该音频编解码器被预期处理语音、音乐和通用音频的编码、解码和渲染。此外它还被预期支持基于通道的音频和基于场景的音频输入,包括关于声场和声源的空间信息。还预期该编解码器以低延迟操作以使能会话服务,以及在各种传输条件下支持高差错鲁棒性。
2、元数据辅助空间音频(masa)是针对ivas提出的一种输入格式。它使用音频信号以及对应的空间元数据。该空间元数据包括定义音频信号的空间方面的参数,并且其在频带中可以包含例如方向和直接对总能量比率(direct-to-total energy ratio)。masa流例如可以通过利用合适的捕获设备的麦克风捕获空间音频来获得。例如,包括多个麦克风的移动设备可以被配置为捕获麦克风信号,其中,可以基于所捕获的麦克风信号来估计空间元数据集合。masa流还可以通过合适的格式转换从其他源(诸如特定的空间音频麦克风(诸如全景环绕声(ambisonics))、工作室混音(例如,5.1音频通道混音))或其他内容获得。
技术实现思路
1、根据第一方面,提供了一种装置,其包括用于执行以下操作的部件:获得比特流,该比特流包括编码空间元数据和编码传输音频信号;从该比特流的编码传输音频信号解码传输音频信号;从该比特流的编码空间元数据解码空间元数据;生成编码度量(encodingmetric);以及基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号。
2、上述部件可以进一步用于基于编码度量,生成平滑控制,并且其中,用于基于该编码量度和空间元数据从传输音频信号生成空间音频信号的部件可以用于基于该平滑控制和空间元数据,从该传输音频信号生成空间音频信号。
3、用于基于编码度量和空间元数据从传输音频信号生成空间音频信号的部件可以进一步用于基于编码度量,至少修改来自该空间元数据的能量比率,其中,该空间音频信号可以是基于经修改的能量比率和空间元数据从该传输音频信号生成的。
4、用于基于编码度量和空间元数据从传输音频信号生成空间音频信号的部件可以用于将定向声音定位到由该空间元数据确定的方向,其中,该定向声音的宽度基于该编码度量。
5、用于基于编码度量和空间元数据从传输音频信号生成空间音频信号的部件可以用于:基于该编码度量,从该传输音频信号和空间元数据生成协方差矩阵;基于该协方差矩阵,生成处理矩阵;以及基于该处理矩阵,对该传输音频信号进行去相关和/或混合以生成该空间音频信号。
6、协方差矩阵可以包括以下中的至少一项:输入协方差矩阵,其表示传输音频信号;以及目标协方差矩阵,其表示空间音频信号。
7、用于从传输音频信号和空间元数据生成协方差矩阵的部件可以用于通过在时频域中测量该传输音频信号来生成输入协方差矩阵。
8、用于从传输音频信号和空间元数据生成协方差矩阵的部件可以用于基于该空间元数据和传输音频信号能量,生成目标协方差矩阵。
9、上述部件可以进一步用于对协方差矩阵应用时间平均以生成平均协方差矩阵,该时间平均基于平滑控制,其中,基于该协方差矩阵生成处理矩阵可以用于从该平均协方差矩阵生成该处理矩阵。
10、用于从传输音频信号和空间元数据生成协方差矩阵的部件可以用于基于经修改的能量比率,生成该协方差矩阵。
11、用于从传输音频信号生成协方差矩阵的部件可以用于基于定向声音到由空间元数据确定的方向的定位,生成该协方差矩阵,其中,该定向声音的宽度基于编码度量。
12、用于基于编码度量和空间元数据从传输音频信号生成空间音频信号的部件可以用于:基于该空间元数据,获得至少一个直接对总能量比率参数;基于来自该空间元数据的至少一个直接对总能量比率参数,将该传输音频信号在频带中划分成定向部分和非定向部分;使用幅度平移将该传输音频信号的定向部分定位到多个扬声器中的至少一个扬声器;将该传输音频信号的非定向部分分发到所有多个扬声器并进行去相关;以及基于组合所定位的该传输音频信号的定向部分和该传输音频信号的非定向部分,生成组合音频信号。
13、扬声器可以是虚拟扬声器,并且,上述部件可以进一步用于通过将头部相关传递函数应用于组合音频信号来生成双耳空间音频信号。
14、用于基于空间元数据获得至少一个直接对总能量比率参数的部件可以用于从经修改的能量比率获得该至少一个直接对总能量比率。
15、用于使用幅度平移将传输音频信号的定向部分定位到多个扬声器中的至少一个扬声器的部件可以用于基于平滑控制,使用该幅度平移将该传输音频信号的定向部分定位到该多个扬声器中的至少一个扬声器。
16、用于将定向声音定位到由空间元数据确定的方向的部件可以用于使用幅度平移将该定向声音定位到多个扬声器中的至少一个扬声器,其中,该定位的宽度基于编码度量。
17、用于生成编码度量的部件可以用于基于空间元数据的表示质量,生成该编码度量。
18、用于生成编码度量的部件可以用于从编码空间元数据和空间元数据生成该编码度量。
19、用于从编码空间元数据和空间元数据生成编码度量的部件可以用于:确定第一参数,该第一参数指示旨在用于或者被分配用于针对帧对空间参数进行编码的比特数量;确定第二参数,该第二参数指示在已针对该帧执行空间参数的编码之后使用的比特数量;以及将该编码度量生成为第一参数与第二参数之间的比率。
20、空间参数可以是表示量化方向参数值的方向索引。
21、用于生成编码度量的部件可以用于基于以下中的至少一项,生成该编码度量:空间元数据的量化分辨率;以及该空间元数据的至少两个量化分辨率之间的比率。
22、根据第二方面,提供了一种方法,其包括:获得比特流,该比特流包括编码空间元数据和编码传输音频信号;从该比特流的编码传输音频信号解码传输音频信号;从该比特流的编码空间元数据解码空间元数据;生成编码度量;以及基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号。
23、该方法可以进一步包括基于编码度量,生成平滑控制,并且其中,基于该编码量度和空间元数据从传输音频信号生成空间音频信号可以包括基于该平滑控制和空间元数据,从该传输音频信号生成空间音频信号。
24、基于编码度量和空间元数据从传输音频信号生成空间音频信号可以包括基于编码度量,至少修改来自该空间元数据的能量比率,其中,该空间音频信号可以是基于经修改的能量比率和空间元数据从该传输音频信号生成的。
25、基于编码度量和空间元数据从传输音频信号生成空间音频信号可以包括将定向声音定位到由该空间元数据确定的方向,其中,该定向声音的宽度基于该编码度量。
26、基于编码度量和空间元数据从传输音频信号生成空间音频信号可以包括:基于该编码度量,从该传输音频信号和空间元数据生成协方差矩阵;基于该协方差矩阵,生成处理矩阵;以及基于该处理矩阵,对该传输音频信号进行去相关和/或混合以生成该空间音频信号。
27、协方差矩阵可以包括以下中的至少一项:输入协方差矩阵,其表示传输音频信号;以及目标协方差矩阵,其表示空间音频信号。
28、从传输音频信号和空间元数据生成协方差矩阵可以包括通过在时频域中测量该传输音频信号来生成输入协方差矩阵。
29、从传输音频信号和空间元数据生成协方差矩阵可以包括基于该空间元数据和传输音频信号能量,生成目标协方差矩阵。
30、该方法可以进一步包括对协方差矩阵应用时间平均以生成平均协方差矩阵,该时间平均基于平滑控制,其中,基于该协方差矩阵生成处理矩阵可以包括从该平均协方差矩阵生成该处理矩阵。
31、从传输音频信号和空间元数据生成协方差矩阵可以包括基于经修改的能量比率,生成该协方差矩阵。
32、从传输音频信号生成协方差矩阵可以包括基于定向声音到由空间元数据确定的方向的定位,生成该协方差矩阵,其中,该定向声音的宽度基于编码度量。
33、基于编码度量和空间元数据从传输音频信号生成空间音频信号可以包括:基于该空间元数据,获得至少一个直接对总能量比率参数;基于来自该空间元数据的至少一个直接对总能量比率参数,将该传输音频信号在频带中划分成定向部分和非定向部分;使用幅度平移将该传输音频信号的定向部分定位到多个扬声器中的至少一个扬声器;将该传输音频信号的非定向部分分发到所有多个扬声器并进行去相关;以及基于组合所定位的该传输音频信号的定向部分和该传输音频信号的非定向部分,生成组合音频信号。
34、扬声器可以是虚拟扬声器,并且,该方法可以进一步包括通过将头部相关传递函数应用于组合音频信号来生成双耳空间音频信号。
35、基于空间元数据获得至少一个直接对总能量比率参数可以包括从经修改的能量比率获得该至少一个直接对总能量比率。
36、使用幅度平移将传输音频信号的定向部分定位到多个扬声器中的至少一个扬声器可以包括基于平滑控制,使用该幅度平移将该传输音频信号的定向部分定位到该多个扬声器中的至少一个扬声器。
37、将定向声音定位到由空间元数据确定的方向可以包括使用幅度平移将该定向声音定位到多个扬声器中的至少一个扬声器,其中,该定位的宽度基于编码度量。
38、生成编码度量可以包括基于空间元数据的表示质量,生成该编码度量。
39、生成编码度量可以包括从编码空间元数据和空间元数据生成该编码度量。
40、从编码空间元数据和空间元数据生成编码度量可以包括:确定第一参数,该第一参数指示旨在用于或者被分配用于针对帧对空间参数进行编码的比特数量;确定第二参数,该第二参数指示在已针对该帧执行空间参数的编码之后使用的比特数量;以及将该编码度量生成为第一参数与第二参数之间的比率。
41、空间参数可以是表示量化方向参数值的方向索引。
42、生成编码度量可以包括基于以下中的至少一项,生成该编码度量:空间元数据的量化分辨率;以及该空间元数据的至少两个量化分辨率之间的比率。
43、根据第三方面,提供了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少:获得比特流,该比特流包括编码空间元数据和编码传输音频信号;从该比特流的编码传输音频信号解码传输音频信号;从该比特流的编码空间元数据解码空间元数据;生成编码度量;以及基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号。
44、可以进一步使该装置基于编码度量,生成平滑控制,并且其中,被使得基于该编码量度和空间元数据从传输音频信号生成空间音频信号的该装置可以被使得基于该平滑控制和空间元数据,从该传输音频信号生成空间音频信号。
45、被使得基于编码度量和空间元数据从传输音频信号生成空间音频信号的该装置可以被使得基于编码度量,至少修改来自该空间元数据的能量比率,其中,该空间音频信号可以是基于经修改的能量比率和空间元数据从该传输音频信号生成的。
46、被使得基于编码度量和空间元数据从传输音频信号生成空间音频信号的该装置可以被使得将定向声音定位到由该空间元数据确定的方向,其中,该定向声音的宽度基于该编码度量。
47、被使得基于编码度量和空间元数据从传输音频信号生成空间音频信号的该装置可以被使得:基于该编码度量,从该传输音频信号和空间元数据生成协方差矩阵;基于该协方差矩阵,生成处理矩阵;以及基于该处理矩阵,对该传输音频信号进行去相关和/或混合以生成该空间音频信号。
48、协方差矩阵可以包括以下中的至少一项:输入协方差矩阵,其表示传输音频信号;以及目标协方差矩阵,其表示空间音频信号。
49、被使得从传输音频信号和空间元数据生成协方差矩阵的该装置可以被使得通过在时频域中测量该传输音频信号来生成输入协方差矩阵。
50、被使得从传输音频信号和空间元数据生成协方差矩阵的该装置可以被使得基于该空间元数据和传输音频信号能量,生成目标协方差矩阵。
51、可以使该装置对协方差矩阵应用时间平均以生成平均协方差矩阵,该时间平均基于平滑控制,其中,被使得基于该协方差矩阵生成处理矩阵的该装置可以被使得从该平均协方差矩阵生成该处理矩阵。
52、被使得从传输音频信号和空间元数据生成协方差矩阵的该装置可以被使得基于经修改的能量比率,生成该协方差矩阵。
53、被使得从传输音频信号生成协方差矩阵的该装置可以被使得基于定向声音到由空间元数据确定的方向的定位,生成该协方差矩阵,其中,该定向声音的宽度基于编码度量。
54、被使得基于编码度量和空间元数据从传输音频信号生成空间音频信号的该装置可以被使得:基于该空间元数据,获得至少一个直接对总能量比率参数;基于来自该空间元数据的至少一个直接对总能量比率参数,将该传输音频信号在频带中划分成定向部分和非定向部分;使用幅度平移将该传输音频信号的定向部分定位到多个扬声器中的至少一个扬声器;将该传输音频信号的非定向部分分发到所有多个扬声器并进行去相关;以及基于组合所定位的该传输音频信号的定向部分和该传输音频信号的非定向部分,生成组合音频信号。
55、扬声器可以是虚拟扬声器,并且,可以进一步使该装置通过将头部相关传递函数应用于组合音频信号来生成双耳空间音频信号。
56、被使得基于空间元数据获得至少一个直接对总能量比率参数的该装置可以被使得从经修改的能量比率获得该至少一个直接对总能量比率。
57、被使得使用幅度平移将传输音频信号的定向部分定位到多个扬声器中的至少一个扬声器的该装置可以被使得基于平滑控制,使用该幅度平移将该传输音频信号的定向部分定位到该多个扬声器中的至少一个扬声器。
58、被使得将定向声音定位到由空间元数据确定的方向的该装置可以被使得使用幅度平移将该定向声音定位到多个扬声器中的至少一个扬声器,其中,该定位的宽度基于编码度量。
59、被使得生成编码度量的该装置可以被使得基于空间元数据的表示质量,生成该编码度量。
60、被使得生成编码度量的该装置可以被使得从编码空间元数据和空间元数据生成该编码度量。
61、被使得从编码空间元数据和空间元数据生成编码度量的该装置可以被使得:确定第一参数,该第一参数指示旨在用于或者被分配用于针对帧对空间参数进行编码的比特数量;确定第二参数,该第二参数指示在已针对该帧执行空间参数的编码之后使用的比特数量;以及将该编码度量生成为第一参数与第二参数之间的比率。
62、空间参数可以是表示量化方向参数值的方向索引。
63、被使得生成编码度量的该装置可以被使得基于以下中的至少一项,生成该编码度量:空间元数据的量化分辨率;以及该空间元数据的至少两个量化分辨率之间的比率。
64、根据第四方面,提供了一种装置,其包括:获得电路,被配置为获得比特流,该比特流包括编码空间元数据和编码传输音频信号;解码电路,被配置为从该比特流的编码传输音频信号解码传输音频信号;解码电路,被配置为从该比特流的编码空间元数据解码空间元数据;生成电路,被配置为生成编码度量;以及生成电路,被配置为基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号。
65、根据第五方面,提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质],这些指令/程序指令用于使装置至少执行以下操作:获得比特流,该比特流包括编码空间元数据和编码传输音频信号;从该比特流的编码传输音频信号解码传输音频信号;从该比特流的编码空间元数据解码空间元数据;生成编码度量;以及基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号。
66、根据第六方面,提供了一种包括程序指令的非瞬态计算机可读介质,这些程序指令用于使装置至少执行以下操作:获得比特流,该比特流包括编码空间元数据和编码传输音频信号;从该比特流的编码传输音频信号解码传输音频信号;从该比特流的编码空间元数据解码空间元数据;生成编码度量;以及基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号。
67、根据第七方面,提供了一种装置,其包括:用于获得比特流的部件,其中,该比特流包括编码空间元数据和编码传输音频信号;用于从该比特流的编码传输音频信号解码传输音频信号的部件;用于从该比特流的编码空间元数据解码空间元数据的部件;用于生成编码度量的部件;以及用于基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号的部件。
68、根据第八方面,提供了一种包括程序指令的计算机可读介质,这些程序指令用于使装置至少执行以下操作:获得比特流,该比特流包括编码空间元数据和编码传输音频信号;从该比特流的编码传输音频信号解码传输音频信号;从该比特流的编码空间元数据解码空间元数据;生成编码度量;以及基于该编码度量和空间元数据,从该传输音频信号生成空间音频信号。
69、一种装置,包括用于执行如上所述的方法的动作的部件。
70、一种装置,被配置为执行如上所述的方法的动作。
71、一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。
72、一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。
73、一种电子设备可以包括如本文所述的装置。
74、一种芯片组可以包括如本文所述的装置。
75、本技术的实施例旨在解决与现有技术相关联的问题。