本申请是申请号为201480023877.0、申请日为2014年4月24日、发明名称为“对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置”的发明专利申请的分案申请。
本发明涉及通过有区别地处理定向和环境信号分量对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。
背景技术:
更高阶高保真度立体声响复制(hoa)连同像波长合成(wfs)这样的其他技术或者像22.2这样的基于信道的方法一起提供表示三维声音的一种可能性。然而,相对于基于信道的方法,hoa表示提供独立于具体扬声器设置的优点。然而,这个灵活性以hoa表示在特殊的扬声器设置上回放所必需的解码处理为代价。与必需的扬声器的数量通常非常大的wfs方法相比,hoa还可以被呈现给包括仅几个扬声器的设置。hoa的另外的优点在于,对于到头戴耳机的双耳呈现,也可以使用相同的表示而不用做任何修改。
hoa基于按照截断的球谐(sphericalharmonics,sh)扩展的复谐平面波(complexharmonicplanewave)幅度的空间密度的表示。每个扩展系数是角频率的函数,其可以由时域函数等同地表示。因此,在不失一般性的情况下,完整的hoa声场表示实际上可以被假设为包括o个时域函数,其中o标记扩展系数的数量。这些时域函数将等同地被称作hoa系数序列或者称作hoa信道。
hoa表示的空间分辨率随着扩展的最大阶n的增长而提高。不幸地,扩展系数的数量o随着阶n二次方地增长,具体地,o=(n+1)2。例如,使用阶n=4的典型的hoa表示需要o=25个hoa(扩展)系数。根据先前做出的考虑,给定期望的单信道采样率fs和每个样本的位数nb,用于传输hoa表示的总比特率由o·fs·nb确定。因此,以fs=48khz的采样率并且使用每个样本nb=16位来传输阶n=4的hoa表示导致19.2mbits/s的比特率,这对于许多实际的应用(例如对于流传输)非常高。
hoa声场表示的压缩在专利申请ep12306569.0和ep12305537.8中提出。代替单独地对hoa系数序列中的每一个进行感知编码,例如像在e.hellerud、i.burnett、a.solvang和u.p.svensson的“encodinghigherorderambisonicswithaac”(第124届aes会议,阿姆斯特丹,2008年)中执行的那样,具体通过执行声场分析并且将给定的hoa表示分解成定向和残余环境分量来试图减少被感知编码的信号的数量。定向分量通常应当由可以被视为一般平面波函数的少量的支配定向信号来表示。残余环境hoa分量的阶减小,因为假设在提取支配定向信号之后,更低阶的hoa系数承载大部分相关信息。
技术实现要素:
总之,通过这样的操作,要被感知编码的hoa系数序列的初始数量(n+1)2被减少至固定数量的d个支配定向信号以及表示具有截断的阶nred<n的残余环境hoa分量的数量(nred+1)2个hoa系数序列,从而要编码的信号的数量是固定的,亦即d+(nred+1)2。特别地,该数量独立于在时帧(timeframe)k中的活动的支配(dominant)定向声源的实际检测到的数量dact(k)≤d。这意味着,在时帧k中,其中活动的支配定向声源的实际检测到的数量dact(k)小于定向信号的最大允许数量d,要被感知编码的支配定向信号中的一些或者甚至是全部为零。最后,这意味着这些信道根本不用于捕捉声场的相关信息。
在该背景下,ep12306569.0和ep12305537.8会议录中的另外可能的弱点是用于在每个时帧中确定活动的支配定向信号的数量的标准,因为不试图确定关于声场的相继感知编码的活动的支配定向信号的最佳数量。例如,在ep12305537.8中,使用简单的功率标准,也就是通过确定属于最大特征值的系数间相关矩阵的子空间的维度,来估计支配声源的量。在ep12306569.0中,提出对支配定向声源的递增检测,其中如果来自各自方向的平面波函数的功率关于第一定向信号足够高,则定向声源被认为是支配的。使用像在ep12306569.0和ep12305537.8中那样的基于功率的标准可能导致关于声场的感知编码是次优的定向环境分解(directional-ambientdecomposition)。
本发明所要解决的问题是通过对当前的hoa音频信号内容确定如何分配到预先确定的减少数量的信道、定向信号以及环境hoa分量的系数来改进hoa压缩。该问题由在权利要求1和3中公开的方法来解决。使用这些方法的装置在权利要求2和4中公开。
本发明在两个方面改进在ep12306569.0中提出的压缩处理。第一,更好地利用由将被感知编码的给定数量的信道提供的带宽。在没有检测到支配声源信号的时帧中,最初被保留用于支配定向信号的信道被用于以残余环境hoa分量的另外的hoa系数序列的形式来捕捉关于环境分量的另外的信息。第二,考虑到利用给定数量的信道对给定hoa声场表示进行感知编码的目标,关于该目的,适配用于确定要从hoa表示中提取的定向信号的量的标准。确定定向信号的数量,使得经解码和重构的hoa表示提供最低的感知误差。该标准比较由提取定向信号并且使用更少的hoa系数序列来描述残余环境hoa分量而引起的建模误差,或者由不提取定向信号并且代替地使用另外的hoa系数序列来描述残余环境hoa分量而引起的建模误差。该标准进一步针对两种情况考虑由定向信号和残余环境hoa分量的hoa系数序列的感知编码引入的量化噪声的空间功率分布。
为了实现上述处理,在开始hoa压缩之前,指定总数量i个信号(信道),与其相比,hoa系数序列的最初数量o减少。假设环境hoa分量由最小数量ored个hoa系数序列来表示。在一些情况下,该最小数量可以是零。剩余的d=i-ored个信道应当包含定向信号或者环境hoa分量的另外的系数序列,取决于定向信号提取处理决定什么在感知上更有意义。假设定向信号或者环境hoa分量系数序列到剩余的d个通道的分配可基于逐个帧(onframe-by-framebasis)地改变。为了在接收侧重构声场,将关于分配的信息作为额外的边信息(sideinformation)来传输。
原则上,本发明的压缩方法适合于使用固定数量的感知编码对被标记为hoa的声场的更高阶高保真度立体声响复制表示进行压缩,其使用hoa系数序列的输入时帧,所述方法包括基于逐个帧地执行的下面的步骤:
-对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-将所述当前帧的hoa系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的hoa系数序列以及所述减少的数量的残余环境hoa系数序列的索引的对应数据集表示的残余环境hoa分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-将所述定向信号以及所述残余环境hoa分量的hoa系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境hoa系数序列的索引的数据集;
-对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的压缩装置适合于使用固定数量的感知编码对被标记为hoa的声场的更高阶高保真度立体声响复制表示进行压缩,其使用hoa系数序列的输入时帧,所述装置执行基于逐个帧的处理并且包括:
-适合于进行如下处理的部件:对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-适合于进行如下处理的部件:将所述当前帧的hoa系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的hoa系数序列以及所述减少的数量的残余环境hoa系数序列的索引的对应数据集表示的残余环境hoa分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-适合于进行如下处理的部件:将所述定向信号以及所述残余环境hoa分量的hoa系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境hoa系数序列的索引的数据集;
-适合于进行如下处理的部件:对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的解压缩方法适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述解压缩包括步骤:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-使用检测到的定向信号的索引的数据集以及所选择的环境hoa系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境hoa分量的对应帧;
-使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境hoa分量的所述帧,重新组成hoa表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境hoa分量重新组成所述当前经解压缩的帧。
原则上,本发明的解压缩装置适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述装置包括:
-适合于进行如下处理的部件:对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及所选择的环境hoa系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境hoa分量的对应帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境hoa分量的所述帧,重新组成hoa表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境hoa分量重新组成所述当前经解压缩的帧。
在相应的从属权利要求中公开本发明的有利的另外的实施例。
附图说明
参考附图描述本发明的示例性实施例,其中:
图1示出hoa压缩的框图;
图2示出支配声源方向的估计;
图3示出hoa解压缩的框图;
图4示出球面坐标系;
图5示出对于不同的高保真度立体声响复制阶n以及对于角度θ∈[0,π]的规一化分散函数vn(θ)。
具体实施方式
a.改进的hoa压缩
在图1中例示根据本发明的基于ep12306569.0的压缩处理,其中使用粗体框显示与ep12306569.0相比较已经修改或者新引入的信号处理块,并且其中本申请中的′g′(如这样的方向估计)和′c′分别对应于ep12306569.0中的′a′(方向估计的矩阵)和′d′。对于hoa压缩,使用长度l的hoa系数序列的不重叠的输入帧c(k)的逐帧(frame-wise)的处理被使用,其中k标记帧索引。关于在等式(45)中指定的hoa系数序列将帧定义为:
c(k):=[c((kl+1)ts)c((kl+2)ts)c((k+1)lts)],(1)
其中ts指示采样周期。
图1中的第一步骤或阶段11/12是可选的,并且包括将hoa系数序列的不重叠的第k和(k-1)帧串接成长帧
该长帧与相邻的长帧50%重叠,并且该长帧被相继地用于支配声源方向的估计。与
原则上,如在ep13305156.5中所提出的那样地执行支配声源的估计步骤或阶段13,但是具有重要的修改。修改涉及确定要检测的方向的量,亦即应当从hoa表示中提取多少定向引号。这通过只有在与替代地使用另外的hoa系数序列进行环境hoa分量的更好的近似相比其在感知上更相关的情况下才激发提取定向信号来实现。在部分a.2中给出对该技术的详细描述。
该估计提供已经检测到的定向信号的索引的数据集
在步骤或阶段14中,将hoa系数序列的当前(长)帧
在步骤或阶段15中,智能地减少环境hoa分量camb(k-2)的系数的数量,以仅包含ored+d-ndir,act(k-2)个非零的hoa系数序列,其中
具体地,将区别下面三种情况:
a)ndir,act(k-2)<ndir,act(k-3):在这种情况下,假设选择与在帧k-3中相同的hoa系数序列。
b)ndir,act(k-2)<ndir,act(k-3):在这种情况下,可以使用比在最后的帧k-3中更多的hoa系数序列来表示在当前帧中的环境hoa分量。假设在k-3中被选择的那些hoa系数序列也在当前帧中被选择。可以根据不同的标准来选择另外的hoa系数序列。例如,选择camb(k-2)中具有最高平均功率的那些hoa系数序列,或者关于它们的感知重要性选择hoa系数序列。
c)ndir,act(k-2)>ndir,act(k-3):在这种情况下,可以使用比在最后的帧k-3中更少的hoa系数序列来表示在当前帧中的环境hoa分量。这里需要回答的问题是必须使先前选择的hoa系数序列中的哪些不活动(deactivate)。合理的解决方案是使在帧k-3时在信号分配步骤或阶段16分配给信道
为了避免在使另外的hoa系数序列活动或不活动时在帧边界处的不连续性,使得各个信号平滑地淡入(fadein)或淡出(fadeout)是有利的。
具有减少的数量ored+ndir,act(k-2)个非零系数序列的最终的环境hoa表示由camb,red(k-2)标记。所选择的环境hoa系数序列的索引在数据集
在步骤/阶段16中,xdir(k-2)中包含的活动的定向信号和camb,red(k-2)中包含的hoa系数序列被分配给i个信道的帧y(k-2)以便进行个体的感知编码。为了更详细地描述信号分配,假设帧xdir(k-2)、y(k-2)和camb,red(k-2)包括各个信号xdir,d(k-2),d∈{1,...,d}、yi(k-2),i∈{1,...,i}和camb,red,o(k-2),o∈{1,...,o},如下:
分配活动的定向信号,使得它们保存(keep)它们的信道索引以便获得连续的信号用于相继的感知编码。这可以表示为:
yd(k-2)=xdir,d(k-2)对于所有
环境分量的hoa系数序列被分配为使得最小数量的ored个系数序列总是包含在y(k-2)的最后的ored个信号中,亦即
yd+o(k-2)=camb,red,o(k-2)对于1≤o≤ored。(5)
对于环境分量的另外d-ndir,act(k-2)个hoa系数序列,它们是否也在前一个帧中被选择是有区别的:
a)如果它们也被选择在前一个帧中传输,亦即,如果各自的索引也包含在数据集
b)否则,如果一些系数序列是新选择的,亦即,如果它们的索引包含在数据集
这个具体的分配提供如下优点:在hoa解压缩处理期间,可以在不知道哪个环境hoa系数序列包含在y(k-2)的哪个信道的情况下执行信号的重新分布和组成。代替地,可以在hoa解压缩期间仅使用数据集
有利地,该分配操作还提供分配矢量
对于没有从步骤/阶段16传输矢量γ(k)的帧,在解压缩侧,代替矢量γ(k),使用数据参数集
a.1支配声源方向的估计
在图2中更详细地图示图1的支配声源方向的估计步骤/阶段13。其基本上根据ep13305156.5来执行,但是具有决定性的差异,即确定与要从给定的hoa表示中提取的定向信号的数量相对应的支配声源的数量的方式。这个数量是重要的,因为它用于控制给定的hoa表示是通过使用更多的定向信号还是代替地通过使用更多的hoa系数序列来更好地表示,以对环境hoa分量更好地建模。
支配声源方向的估计在步骤或阶段21中开始,使用输入的hoa系数序列的长帧
在步骤或阶段22中,使用这些量以及输入的hoa系数序列的帧
在步骤或阶段23中,根据声源运动模型来平滑得到的方向轨迹,并且确定声源中的哪些应当是活动的(参看ep13305156.5)。最后的操作提供活动的定向声源的索引的集合
a.2被提取的定向信号的数量的确定
为了在步骤/阶段22中确定定向信号的数量,假设存在将被用于捕捉在感知上最相关的声场信息的给定总量的i个信道的情况。因此,确定要提取的定向信号的数量,由如下问题激发:对于整体的hoa压缩/解压缩质量,当前的hoa表示是通过使用更多的定向信号还是更多的hoa系数序列来更好地表示以对环境hoa分量更好地建模。
为了在步骤/阶段22中导出用于确定要提取的定向声源的数量的标准(该标准与人类感知相关),考虑具体通过下面的两个运算来实现hoa压缩:
-用于表示环境hoa分量的hoa系数序列的减少(这意味着相关信道的数量的减少);
-定向信号的感知编码以及用于表示环境hoa分量的hoa系数序列的感知编码。
取决于所提取的定向信号的数量m(0≤m≤d),第一个运算近似地得到
其中
标记包括应当由m个单独考虑的声源创建的hoa声场分量
来自第二个运算的近似可以表示为:
其中
标准的公式化
要提取的定向信号的数量
其中
其分量
接下来,对于每个测试方向ωq和临界带b,计算总误差的感知级别
执行′1′与相继最大值运算的减法以确保感知级别为零,只要误差功率低于掩蔽阈值。
最后,可以将要提取的定向信号的数量
应当注意,替代地,能够在等式(15)中用平均运算替换最大值。
定向感知掩蔽功率分布的计算
为了计算由于原始hoa表示
到空间域的变换由下面的运算来表达
其中ξ标记关于测试方向ωq(q=1,...,q)的模式矩阵,被定义为
其中
由于原始hoa表示
定向功率分布的计算
下面,给出用于计算定向功率分布
a.一种可能性是通过计算在部分a.2的开始提及的两个运算来实际地计算期望的hoa表示
到空间域的变换由下面的运算表示:
通过计算各个临界带b内的一般平面波函数
b.替代的解决方案是仅计算近似值
可以假设它们彼此独立。由于这种独立性,总误差
下面描述如何计算各个巴克标度临界带的三个误差的定向功率分布:
a.为了计算误差
其中近似误差
因此,通过计算各个临界带b内的一般平面波函数
b.为了计算误差
其中
当关于旋转的方向
hoa分量
因此,真实的定向hoa分量
与按照
由经感知解码的定向信号
而表示为
空间域中关于测试方向ωq(q=1,...,q)的误差
用
c.为了计算由环境hoa分量的hoa系数序列的感知编码造成的误差
元素
b.改进的hoa解压缩
对应的hoa解压缩处理在图3中图示并且包括下面的步骤或阶段。
在步骤或阶段31中,执行对
在信号重新分布步骤或阶段32中,重新分布
在组成步骤或阶段33中,使用定向信号的帧
c.更高阶高保真度立体声响复制的基础
更高阶高保真度立体声响复制(hoa)基于补充假设为没有声源的所关注的紧密区域(compactarea)内的声场的描述。在该情况下,在所关注的区域内、在时间t时和位置x处的声压p(t,x)的时空行为在物理上由齐性波等式(homogeneouswaveequation)充分确定。下面,假设如图4中示出的球面坐标系。在使用的坐标系中,x轴指向前面位置,y轴指向左边并且z轴指向顶部。空间x=(r,θ,φ)t中的位置由半径r>0(亦即,到坐标原点的距离)、从极轴z测量的倾角θ∈[0,π]以及在x-y平面中从x轴逆时针地测量的方位角φ∈[0,2π[来表示。另外,(·)t标记转置。
可以示出(参看e.g.williams,“fourieracoustics”,appliedmathematicalsciences的93卷,academicpress,1999年),由
(其中ω标记角频率并且i指示虚数单位)可以根据下式来扩展成球谐函数的级数:
在等式(40)中,cs标记声速,并且k标记角波数(angularwavenumber),其按照
如果声场由从角度元组(θ,φ)指定的所有可能方向到达的不同角频率ω的无限数量的平面谐波的叠加来表示,则可以示出(参看b.rafaely,“plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution”,journaloftheacousticalsocietyofamerica,第4卷(116),2149-2157页,2004年),各个平面波复数幅度函数c(ω,θ,φ)可以由下面的球谐函数扩展来表示
其中扩展系数
与扩展系数
假设各个系数
其可以按照c(t)=(44)
收集在单个矢量c(t)中。矢量c(t)内的时域函数
最终的高保真度立体声响复制格式将使用采样频率fs的c(t)的采样版本提供为
其中ts=1/fs标记采样周期。c(lts)的元素在这里被称作高保真度立体声响复制系数。时序信号
c.1实值球谐函数的定义
实值的球谐函数
给出,其中
相关联的勒让德函数(legendrefunctions)pn,m(x)使用勒让德多项式pn(x)定义为
并且不像上面提及的williams的文章,没有康登-肖特莱相位项(condon-shortleyphaseterm)(-1)m。
c.2更高阶高保真度立体声响复制的空间分辨率
从方向ω0=(θ0,φ0)t到达的一般平面波函数x(t)在hoa中由下式表示
平面波幅度
从等式(51)中可以看出,其是一般平面波函数x(t)与空间分散函数vn(θ)的乘积,其可以显示为仅取决于ω与ω0之间的角度θ,具有如下性质
cosθ=cosθcosθ0+cos(φ-φ0)sinθsinθ0.(52)
如预期的那样,在无限阶的极限下,亦即n→∞,空间分散函数变成狄拉克德尔塔(diracdelta)δ(·),亦即
然而,在有限阶n的情况下,来自方向ω0的一般平面波的贡献被抹去到邻近方向,其中模糊的程度随着增加的阶而减小。在图5中示出n的不同值的规一化函数vn(θ)的图表。
应当指出,对于任何方向ω,平面波幅度的空间密度的时域行为是它在任何其他方向上的行为的倍数。特别地,一些固定的方向ω1和ω2的函数c(t,ω1)和c(t,ω2)关于时间t彼此高度相关。
c.3球谐函数变换
如果平面波幅度的空间密度在几乎均匀分布在单位球面上的数量o个空间方向ωo(1≤o≤o)上是离散的,则获得o个定向信号c(t,ωo)。通过使用等式(50)将这些信号收集到矢量中,作为
cspat(t):=[c(t,ω1)...c(t,ωo)]t,(54)
,可以验证可以通过简单的矩阵乘法根据在等式(44)中定义的连续的高保真度立体声响复制表示d(t)将该矢量计算为
cspat(t)=ψhc(t),(55)
其中(·)h指示联合点转置和结合(jointtranspositionandconjugation),并且ψ标记由下式定义的模式矩阵
ψ:=[s1....so](56)
其中
因为方向ωo几乎均匀分布在单位球面上,所以模式矩阵一般是可逆的。因此,可以按照下式根据定向信号c(t,ωo)来计算连续的高保真度立体声响复制表示
c(t)=ψ-hcspat(t).(58)
两个等式构成高保真度立体声响复制表示与空间域之间的变换和逆变换。这些变换在这里被称作球谐函数变换和逆球谐函数变换。
应当注意,因为方向ωo几乎均匀分布在单位球面上,近似
ψh≈ψ-1(59)
是可用的,这证明在等式(55)中使用ψ-1来替代ψh是正当的。
有利地,所有所提及的关系对于离散的时域也是有效的。
本发明的处理可以由单个处理器或电子电路或者由并行操作和/或在本发明的处理的几个部分上操作的若干处理器或电子电路来执行。