用于对多声道音频信号进行编码的旋转矩阵的优化编码的制作方法

文档序号:35282014发布日期:2023-09-01 01:50阅读:41来源:国知局
用于对多声道音频信号进行编码的旋转矩阵的优化编码的制作方法

本发明涉及空间声音数据的编码/解码,特别是在立体声背景下(下文也称为“高保真立体声(ambisonics)”)。


背景技术:

1、目前在移动电话中使用的编码器/解码器(下文称为“编解码器”)是单声道的(用于在单一扬声器上呈现的单个信号声道)。3gpp evs(“增强型语音服务”)编解码器允许提供“超hd”音质(也称为“高清加”或hd+语音),其中,为以32khz或48khz采样的信号提供超宽带(swb)音频带或者为以48khz采样的信号提供全带(fb);音频带宽的范围在swb模式(从9.6千比特/秒到128千比特/秒)下为从14.4khz到16khz,并且在fb模式(从16.4千比特/秒到128千比特/秒)下为20khz以上。

2、由运营商提供的会话服务中下一质量演变应该由沉浸式服务组成,这些沉浸式服务使用如配备有多个麦克风的智能手机、或者远程呈现或360°视频类型的空间音频会议或视频会议设备、或者甚至用于利用比简单的2d立体声呈现更具沉浸感的3d空间声音呈现共享“实时”音频内容的设备等终端。随着使用耳机在移动电话上进行收听的运用日益广泛以及先进的音频设备(如3d麦克风、具有声学天线的语音助手、虚拟现实头戴式耳机等附件)的出现,拾取并呈现空间声音场景以提供沉浸式通信体验如今已经相当普遍。

3、在这方面,未来的3gpp“ivas”(“沉浸式语音和音频服务”)标准提议通过接受至少以下所列的空间声音格式(及其组合)作为编解码器的输入格式来扩展evs编解码器以实现沉浸式音频:

4、-立体声或5.1类型的多声道格式(基于声道),其中,每个声道供应一个扬声器(例如,立体声中的l和r或5.1中的l、r、ls、rs和c);

5、-对象格式(基于对象),其中,声音对象被描述为与描述该对象的属性(空间中的位置、源的空间宽度等)的元数据相关联的音频信号(通常是单声道的);

6、-高保真立体声格式(基于场景),该格式描述了给定点的声场,该声场通常由球形麦克风拾取或在球谐函数域中合成。

7、通常,通过实施例的方式,在下文中关注的是以高保真立体声格式对声音进行编码(其中,在下文关于本发明所呈现的至少一些方面也能够适用于除高保真立体声格式以外的格式)。

8、高保真立体声是用于录制(声学意义上的“编码”)空间声音的方法以及再现系统(声学意义上的“解码”)。高保真立体声麦克风(一阶)包括布置在球面网格(例如,正四面体的顶点)上的至少四个振膜舱(典型地为心型或亚心型)。与这些振膜舱相关联的音频声道被称为“a格式”声道。该格式被转换成“b格式”,其中,声场分解为以w、x、y、z表示的四个分量(球谐函数),这四个分量与四个重合的虚拟麦克风相对应。分量w与声场的全向拾取相对应,而更具方向性的分量x、y和z类似于沿着空间的三个正交轴定向的具有压力梯度的麦克风。高保真立体声系统在录音和呈现分开并且分离的意义上是一种灵活的系统。其允许对任何配置的扬声器(例如,双耳、5.1类型“环绕”声或7.1.4类型全向电话通讯(具有仰角))进行(声学意义上的)解码。高保真立体声方法可以一般化为四个以上b格式声道,并且这种一般化表示通常被称为“hoa”(“高阶高保真立体声”)。将声音分解到更多的球谐函数上改善了在扬声器上呈现时的空间呈现准确度。

9、m阶高保真立体声信号包括k=(m+1)2个分量,并且对于一阶(如果m=1),存在通常被称为foa(一阶高保真立体声)的四个分量w、x、y和z。还存在高保真立体声的变体(w、x、y),被称为“平面”高保真立体声,它将定义的声音分解到通常是水平平面(其中,z=0)的平面中。在这种情况下,分量的数量是k=2m+1个声道。一阶高保真立体声(4个声道:w、x、y、z)、一阶平面高保真立体声(3个声道:w、x、y)以及更高阶高保真立体声在下文中均被同样地称为“高保真立体声”以便于阅读,其中,所描述的过程可独立于平面或非平面类型以及高保真立体声分量的数量而应用。然而,如果在一些段落中需要区分,则使用术语“一阶高保真立体声”和“一阶平面高保真立体声”。

10、在下文,b格式信号将被称为具有预定的阶数和特定数量的高保真立体声分量的“高保真立体声信号”。在各变体中,高保真立体声信号可以以另一种格式来定义,如a格式或通过固定矩阵化预组合的声道。

11、要由编码器/解码器处理的信号是一系列声音样本块的形式,下文称为“帧”或“子帧”。

12、此外,在下文,数学符号符合以下约定:

13、-标量:s或n(小写字母用于变量或大写字母用于常量);

14、-向量:q(小写、粗体和斜体);

15、-矩阵:m(大写、粗体和斜体)。

16、用于对高保真立体声信号进行编码的最简单方法涉及使用单声道编码器(例如,evs)并且同时将该单声道编码器应用于所有声道,可选地,其中,比特的不同分配随每个输入声道而变。该方法在本文被称为“多单声道”方法。多单声道方法可以扩展到多立体声编码(其中,声道对由立体声编解码器单独编码)或者更一般地扩展到使用相同核心编解码器的多个相似实例。

17、在多单声道编码中,输入信号被划分成单独编码的声道(单声道)。在解码之后,声道被重新组合。相关联的质量根据所使用的单声道编码而变化,并且通常只有在非常高的速率下才能是令人满意的,例如对于evs编码,每个单声道为至少48千比特/秒的速率。因此,对于一阶,获取至少4×48=192千比特/秒的最低速率。

18、由于多单声道编码方法没有考虑到声道间关联,因此该方法在低速率下产生了空间变形和各种伪像,如幻象声源的出现、漫射噪声或声源轨迹的移动。因此,根据该方法对高保真立体声信号进行编码导致了空间化的退化。

19、已经提出了各种更先进的解决方案来对高保真立体声信号进行编码。在本发明中关注的是使用旋转矩阵的量化和插值进行高保真立体声编码的特定方法,如例如在专利申请wo 2020/177981中所描述的。

20、在这种方法中,例如,在应用逆转换之前将4×4旋转矩阵(从pca/klt分析得到,如例如在前述专利申请中所描述的)转换为通过均匀标量量化进行编码的6个广义欧拉角,以便找到已解码旋转的矩阵,然后通过子帧在四元数域中应用插值。作为提醒,davidk.hoffman、richard c.raffenetti和klaus ruedenberg发表在《数学物理杂志》13,528(1972)上的名称为“generalization of euler angles to n-dimensional orthogonalmatrices[欧拉角到n维正交矩阵的一般化]”的文章中提供了一种用于将旋转矩阵转换为广义欧拉角的方法。

21、这种类型的高保真立体声编码的策略是尽可能地使高保真立体声信号的声道解相关,并且然后使用核心编解码器(例如,多单声道)对这些声道进行单独编码。这种策略允许限制已解码的高保真立体声信号中的伪像。更具体地,在编码(例如,多单声道)之前,对输入信号应用优化的解相关。此外,四元数的域允许对为pca/klt分析计算的变换矩阵进行插值,而不是每帧多次地重复分解为特征值和特征向量;在变换矩阵是旋转矩阵的情况下,对于解码,逆矩阵化运算是简单地通过对应用于编码的矩阵进行转置来执行的。

22、图1展示了根据现有技术的这种方法的编码。编码分几个步骤发生:

23、-假设声道的信号(例如,对于foa的情况为w、y、z、x)呈具有矩阵n×l(每帧有n个高保真立体声声道(在这种情况下是4)和l个样本)的矩阵形式x。可选地,可以例如由高通滤波器对这些声道进行预处理;

24、-对这些信号应用主分量分析(pca)或等效地卡-洛变换(klt),其中,估计协方差矩阵(框100)并分解成特征值(表示为evd(特征值分解))(框110),以便从n个信号的协方差矩阵获取特征值和特征向量矩阵;

25、-为当前帧t获取的特征向量矩阵经历有符号排列(框120),使得其尽可能与类型相同于前一帧t-1的矩阵对齐,以便确保两个帧之间的矩阵之间的最大相干性。此外,在框120中做出规定,使得因此通过有符号排列进行校正的当前帧t的特征向量矩阵实际上表示旋转的应用;

26、-将当前帧t的特征向量矩阵(其为旋转矩阵)转换为适当的量化参数域(框130)。在专利申请wo 2020/177981的一个实施例中,对于4×4矩阵,这些参数对应于6个广义欧拉角;对于3×3矩阵,将存在3个欧拉角。

27、然后将这些参数编码在分配给参数量化的多个比特上(框140)。可以使用广义欧拉角的标量量化,例如,每个角度具有相同的量化间距。

28、-在专利申请wo 2020/177981的一个实施例中,将已解码的参数(形式是广义欧拉角)转换为旋转矩阵(框142),然后将因此获取的旋转矩阵转换为四元数(框143)。将当前帧分割成子帧,这些子帧的数量可以是固定的或自适应的,在后一种情况下,可以将这个数量确定为从pca/klt分析得到的信息,并且可以可选地传输该信息(框150)的函数。通过从前一帧t-1到当前帧t的连续子帧对四元数表示进行插值(框160),以便随着时间的推移平滑矩阵化之间的差异。将每个子帧中的插值四元数转换为旋转矩阵(框162),并且然后应用由此产生的已解码和插值旋转矩阵(框170)。在每个帧中,在框170的输出处获取表示高保真立体声声道的信号的k个子帧中的每一个的矩阵n×(l/k),以便在编码(例如,多单声道编码)之前尽可能地将这些信号解相关。还执行对单独声道的二进制分配。

29、图2展示了对应的解码。

30、在框200中对当前帧中的旋转矩阵的量化参数的量化索引进行解码。解码器的转换和插值步骤(框242、243、260、262)与在编码器上执行的步骤(框142、143、160和162)相同。如果插值子帧的数量是自适应的,则对这进行解码(框210),否则,将该插值子帧数量设置为预定值。

31、框220每个子帧地将源自框262的逆矩阵化应用于高保真立体声声道的已解码信号;作为提醒,旋转矩阵的逆矩阵是其转置。

32、在上述的专利申请中,优选地在欧拉角(3×3情况)或广义欧拉角(4×4情况)的域中执行3×3或4×4旋转矩阵的量化,并且在四元数域中执行插值。这涉及到矩阵与各种参数之间的多次转换,并且因此复杂度增加,因为两种不同类型的参数用于量化和插值。此外,根据hoffman等人在文章中所描述的方法转换为欧拉角、特别是广义欧拉角在实践中可能会提出某些问题,因为它可能在数字上是“不稳定”的,从某种意义上说,直接转换和逆转换的组合(对具有欧拉角的矩阵进行的,然后进行逆转换)可能无法完全恢复原始矩阵(即使在缺乏角度的量化的情况下),并且量化可能引起如“万向节锁”等问题,这涉及当在三维空间中应用或补偿旋转所需的三个万向节中的两个万向节的轴由同一方向支持时发生的失去自由度。在这样的情况下,pca/klt解相关不再是最优的。

33、依靠仅一种类型的参数来对旋转矩阵进行编码并对其进行插值将是更有利的,可以在四元数域中执行旋转矩阵的转换,并且可以执行由该转换产生的参数的量化,以便替换对如欧拉角(其可以是广义的或可以不是广义的)等参数的量化。在文献中,没有找到在以与欧拉角(其可以是广义的或可以不是广义的)的量化类似的精度并且以给定的比特预算来表示旋转矩阵的约束下对四元数或对偶四元数进行编码的有效方法;

34、-例如,大约25比特/四元数或50比特/对偶四元数。

35、因此,存在对在速率和/或复杂度和/或信息存储方面优化参数的这个量化的要求。


技术实现思路

1、本发明旨在改进现有技术。

2、为此,本发明涉及一种用于对多声道音频信号进行编码的方法,包括形成要应用于输入信号的呈旋转矩阵形式的变换矩阵、量化该旋转矩阵、以及在应用该旋转矩阵之后对经变换的信号进行编码,其中,量化该旋转矩阵包括以下操作:

3、-在四元数域中用至少一个第一四元数来转换该旋转矩阵;

4、-强制使所述第一四元数具有正分量;

5、-将该至少一个第一四元数转换为球面坐标,其中,这些球面坐标之一与该第一四元数的正强制分量相关联;

6、-量化这些所获取的球面坐标,其中,与该第一四元数的正强制分量相关联的球面坐标在半长度区间内被量化。

7、用于对旋转矩阵进行编码的四元数的量化允许避免多次转换,因为四元数域也用于在将旋转矩阵应用于多声道信号之前对该矩阵进行插值。

8、进一步优化这种量化以通过强制使四元数的参数之一为正来限制要使用的速率并且因此仅对相关的正四元数进行编码,其中,负四元数与相同的旋转相对应。转换为球面坐标并对这些球面坐标进行量化允许使用在存储空间和处理能力两个方面都不需要使用繁琐字典的量化方法。在二分之一区间内的量化还允许在速率方面提供节省。

9、在特定实施例中,所述第一四元数的正分量是实数分量。

10、简单地说,按照约定选择第一四元数的实数分量(a1)。

11、在一个实施例中,将该旋转矩阵转换为对偶四元数、第一四元数和第二四元数,该第一四元数的分量被强制为正。

12、根据一个实施例,该第一四元数的量化比该第二四元数的量化少使用一个比特。因此,速率得到了优化。

13、在一个实施例中,将该对偶四元数的两个四元数中的每一个转换为球面坐标会产生三个角度,并且与该第一四元数的正分量相关联的角度的量化是以相对于用于量化该第二四元数中的相同分量的区间的半长度区间来执行的。

14、获取针对每个四元数获取的这些角度允许获取量化起来不太复杂的参数。实际上,对因此获取的角度进行量化而不是对正在考虑的四元数进行量化是不太复杂的,因为它在存储空间和处理能力两个方面都不一定需要使用繁琐的字典。

15、考虑第一四元数的正分量会允许在受限制区间内对该四元数执行量化,从而最小化要为该四元数的量化分配的速率。

16、在这个实施例的特定实施例中,通过均匀标量量化来执行六个所获取的角度的量化。

17、这种量化方法简单且不是非常复杂。

18、在另一特定实施例中,通过超矩形支持的向量量化来执行六个所获取的角度的量化。

19、这种量化方法是另一种简单且不是非常复杂的替代方案。

20、在特定实施例中,还对二进制指示进行编码,以指示该至少一个第一四元数是否采用默认值。

21、四元数的默认值通常可以使得q=(1,0,0,0),这指示变换矩阵是恒等矩阵。在这种情况下,如果二进制指示表明四元数采用了这些默认值,则这表明针对当前帧将变换撤销激活。

22、本发明还涉及一种用于对多声道音频信号进行解码的方法,包括接收源自多声道信号的已编码信号,并且进一步包括以下操作:

23、-接收至少一个第一四元数的集合的已量化球面坐标的参数以及存在正分量的指示;

24、-通过采用半长度量化区间从这些接收到的已量化参数对该至少一个第一四元数进行解码,以便对与该所指示的正分量相关联的球面坐标进行解码;

25、-从该至少一个第一已解码四元数构造逆旋转矩阵;

26、-在对所述信号进行解码之前,将所述逆旋转矩阵应用于这些接收到的已编码信号。

27、因此,解码器可以接收并解码一组四元数,这允许构造对于对多声道信号进行解码有用的旋转矩阵。

28、获取至少一个四元数的分量的正性索引允许通过仅对正四元数进行解码以便从中推导出负四元数来应用合适的解码。

29、这组四元数还允许其用于对所获取的旋转矩阵进行插值,而不必执行这个矩阵的其他转换,以便获取适用于多声道信号的信号的插值矩阵。

30、这组四元数可以以较低的复杂度进行解码,特别是当已编码参数是从对偶四元数得到的角度时。

31、例如,可以在这种情况下实施标量逆量化方法。

32、本发明还涉及一种编码设备,该编码设备包括用于实施如上所述的编码方法的处理电路。本发明还涉及一种解码设备,该解码设备包括用于实施如上所述的解码方法的处理电路。本发明涉及一种计算机程序,该计算机程序包括当由处理器执行时用于实施如上所述的编码方法或解码方法的指令。

33、最后,本发明涉及一种处理器可读存储介质,该处理器可读存储介质存储有计算机程序,该计算机程序包括用于执行上述编码或解码方法的指令。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1