对声场的高阶立体混响表示进行压缩和解压缩的方法和设备的制造方法
【技术领域】
[0001] 本发明涉及对声场的高阶立体混响表示进行压缩和解压缩的方法和设备。
【背景技术】
[0002] 高阶立体混响(表示为Η0Α)提供了表示三维立体声的一种方式。其它的技术是 波场合成(WFS)或者像22. 2的基于声道的方法。相比于基于声道的方法,HOA表示提供了 独立于特定扬声器配置的优点。然而,这种灵活性是以牺牲解码过程为代价的,对于在特定 扬声器配置上的HOA表示的回放,需要解码过程。与需要的扬声器数量通常很大的WFS方 法相比,HOA也可以被提供给只包括较少扬声器的配置。HOA的其它优点是,在没有针对对 耳机的双耳呈现的任何修改的情况下,也可以采用相同的表示。
[0003] HOA是基于按照截短的球面谐波(SH)展开的、复杂谐波平面波振幅的空间密度的 表示。每个展开系数是角频率的函数,所述角频率的函数可以通过时域函数来等价表示。因 此,不失一般性地,实际上可以假设完整的HOA声场表示由0个时域函数组成,其中0表示 展开系数的数量。在下文中,这些时域函数将会等同地称为HOA系数序列。
[0004] HOA表示的空间分辨率随着展开的最大阶N的增长而提高。不幸地,展开系数0的 数量随着阶N二次方地增长,具体地是0= (N+1)2。例如,典型的使用阶N = 4的HOA表示 需要0 = 25的HOA(展开)系数。根据上述考虑,给定期望的单声道采样速率fs以及每个 样本的比特数量N b,针对HOA表示的传输的总比特率由0 · fs · Nb确定。使用每个样本Nb =16个比特、以样本速率fs= 48kHz传输阶N = 4的HOA表示将会导致19. 2 MBits/s的 比特率,这对于许多实际应用(例如流传输)来说非常的高。因此,非常需要HOA表示的压 缩。
【发明内容】
[0005] 处理HOA表示(具有N > 1)的压缩的现有方法是很少的。由E.Hellerud, I. Burnett,A Solvang and U. P. Svensson, " Encoding Higher Order Ambisonics with AAC",124th AES Convention,Amsterdam,2008提出的最直接的方法是使用高级音频编码 (AAC)执行各个HOA系数序列的直接编码,所述高级音频编码(AAC)是感知编码算法。然 而,该方法固有的问题是从未听见的信号的感知编码。重建的回放信号经常通过HOA系数 序列的加权和来获得,并且当解压缩的HOA表示在特定的扬声器配置上呈现时,有很大的 可能会暴露感知编码噪音。针对感知编码噪音暴露的主要问题是各个HOA系数序列之间的 高互相关性。由于各个HOA系数序列中的编码噪音信号经常是相互之间不相关的,因此可 能会出现感知编码噪音的有益的叠加,同时无噪音HOA系数序列在叠加处消除。其它的问 题是,这些互相关性导致感知编码器效率下降。
[0006] 为了使两种效果的程度降到最低,在EP 2469742 A2中提出了在感知编码之前,将 HOA表示变换为离散空间域中的等价表示。从形式上看,该离散空间域是在一些离散方向处 采样的、复杂谐波平面波振幅的空间密度的时域等价物。因此离散空间域由O个传统时域 信号来表示,如果扬声器恰好位于与针对空间域变换假设的方向相同的方向,则传统时域 信号可以解释为从采样方向冲击的大体平面波,并且传统时域信号将会与扬声器信号相对 应。
[0007] 向离散空间域的变换降低了各个空间域信号之间的互相关性,但是没有完全消除 这些互相关性。相对高的互相关性的示例是方向在由空间域信号覆盖的相邻方向中间的方 向的定向信号。
[0008] 两种方法的主要缺点是:感知编码信号的数量是(N+1)2,并且针对压缩的HOA表 示的数据速率随着立体混响阶N二次方地增长。
[0009] 为了降低感知编码信号的数量,专利申请EP 2665208 Al提出了将HOA表示分解 为给定的最大数量的主导定向信号和残余环境分量。要感知编码的信号数量的降低是通过 降低残余环境分量的阶来实现的。该方法背后的原理是:在通过较低阶HOA表示使用足够 精度来表示残余的同时,保持关于主导定向信号的高空间分辨率。
[0010] 只要满足关于声场的假设,该方法会很好的工作,即,假设声场由少量的主导定向 信号(代表使用完整的阶N编码的大体平面波函数)和没有任何方向性的残余环境分量组 成。然而,如果在分解之后残余环境分量仍然包含一些主导定向分量,则阶降低会导致在分 解之后的呈现处明显可以感知到的错误。违反了假设的HOA表示的典型示例是以低于N的 阶编码的大体平面波。这样的阶低于N的大体平面波可以产生于艺术创作,以便使得声源 看起来更广泛,并且这样的阶低于N的大体平面波还可以随着通过球形麦克风记录HOA声 场表示而出现。在两种示例中,由大量高度相关的空间域信号来表示声场(其解释还可以 参见 Spatial resolution of Higher Order Ambisonics) 〇
[0011] 本发明要解决的问题是消除专利申请EP 2665208A1中描述的过程引起的缺点, 由此也避免了上述其它引用的现有技术的缺点。该问题是由权利要求1和3公开的方法解 决的。权利要求2和4中公开了利用这些方法的对应的设备。
[0012] 本发明改进了专利申请EP 2665208 Al中描述的HOA声场表示压缩过程。首先,像 EP 2665208 Al中描述的,针对主导声源的存在对HOA表示进行分析,估计所述主导声源的 方向。利用主导声源方向的信息,将HOA表示分解为多个表示大体平面波的主导定向信号 和残余分量。然而,将该残余HOA分量的阶变换到离散空间域,而不是立即降低该残余HOA 分量的阶,以便获得在表示残余HOA分量的均匀采样方向处的大体平面波函数。此后,根据 主导定向信号预测这些平面波函数。该操作的原因在于,残余HOA分量的一部分可能与主 导定向信号高度相关。
[0013] 所述预测可以是简单的预测,从而只产生少量的辅助信息。在最简单的情况下,预 测由适当的缩放和延时组成。最后,预测误差变换回HOA域,并且当作残余环境HOA分量, 针对所述残余环境HOA分量执行阶降低。
[0014] 有利的是,从残余HOA分量中减去可预测的信号的效果是减小其总功率并且保持 主导定向信号的数量,并且通过这种方式来减少由于阶降低导致的分解误差。
[0015] 在原则上,本发明的压缩方法适用于压缩声场的高阶立体混响(表示为Η0Α)表 示,所述方法包括以下步骤:
[0016] -根据HOA系数的当前时帧,估计主导声源方向;
[0017] -基于所述HOA系数并且基于所述主导声源方向,将所述HOA表示分解为时域中的 主导定向信号和残余HOA分量,其中所述残余HOA分量变换到离散空间域,以便在表示所述 残余HOA分量的均匀采样方向处获得平面波函数,并且其中所述平面波函数是根据所述主 导定向信号预测的,由此提供描述所述预测的参数,并且对应的预测误差变换回HOA域;
[0018] -将所述残余HOA分量的当前阶降低到更低的阶,得到降阶残余HOA分量;
[0019] -对所述降阶残余HOA分量进行去相关,以获得对应的残余HOA分量时域信号;
[0020] -对所述主导定向信号和所述残余HOA分量时域信号进行感知编码,从而提供压 缩的主导定向信号和压缩的残余分量信号。
[0021] 原则上,本发明的压缩设备适用于压缩声场的高阶立体混响(表示为Η0Α)表示, 所述设备包括:
[0022] -适于根据HOA系数的当前时间帧来估计主导声源方向的装置;
[0023] -适于基于所述HOA系数并且基于所述主导声源方向,将所述HOA表示分解为时域 中的主导定向信号和残余HOA分量的装置,其中所述残余HOA分量变换到离散空间域,以便 在表示所述残余HOA分量的均匀采样方向处获得平面波函数,并且其中所述平面波函数是 根据所述主导定向信号预测的,由此提供描述所述预测的参数,并且对应的预测误差变换 回HOA域;
[0024] -适于将所述残余HOA分量的当前阶降低到更低的阶,得到降阶残余HOA分量的装 置;
[0025] -适于对所述降阶残余HOA分量进行去相关,以获得对应的残余HOA分量时域信号 的装置;
[0026] -适于对所述主导定向信号和所述残余HOA分量时域信号进行感知编码,从而提 供解压缩的主导定向信号和解压缩的残余分量信号的装置;
[0027] 原则上,本发明的解压缩方法适用于解压缩根据上述压缩方法压缩的高阶立体混 响表示,所述解压缩方法包括以下步骤:
[0028] -对所压缩的主导定向信号和所压缩的残余分量信号进行感知解码,从而提供解 压缩的主导定向信号和表示空间域中的残余HOA分量的解压缩的时域信号;
[0029] -对所述解压缩的时域信号进行重新相关,来获得对应的降阶残余HOA分量;
[0030] -将所述降阶残余HOA分量的阶增大到原始的阶,从而提供对应的解压缩残余HOA 分量;
[0031] -使用所述解压缩主导定向信号、所述原始阶解压缩残余HOA分量、所述估计的主 导声源方向和描述所述预测的所述参数来组成对应的HOA系数的解压缩且重新组成的帧。
[0032] 在原则上,本发明的解压缩设备适于解压缩根据上述压缩方法压缩的高阶立体混 响表示,所述解压缩设备包括:
[0033] -适于对所压缩的主导定