专利名称:在变换域中用于有效的双耳声音空间化的方法和装置的制作方法
技术领域:
本发明涉及对压缩音频信号的空间化,通常称为3D-渲染声音。
背景技术:
上述的操作例如是在对 一 个压缩的3 D音频信号的解压缩中进 行的,例如,将以一定数量的声道表示的该信号,解压缩为由不同 数量的声道,例如2个声道,来表示,从而允许在一对耳机上重构 3D音频效果。
因此,术语"双耳的"用于在一对立体声的耳机上重构一个音频 信号且仍具有空间化效果。本发明并不限于前述的技术,而且本发 明显著地适用于从"双耳的"技术衍生的技术,例如称为 TRANSAURAI^的重构技术,换言之,在远程的扬声器上重构音频信 号的技术。TRANSAURAL⑧是COOPER BAUCK CORPORATION公司 的商业上的商标。这样的技术可以接着采用一种包括消除交叉声道 在内的"串扰消除"技术,以使得经过该方式处理并由扬声器发出的 声音,仅能由听众的两耳的其中一只耳朵听到。
因此,本发明还涉及对多声道音频信号的传输和重构,还涉及 将该多声道音频信号转化到用户的设备所加的重构装置即变换器 上。例如,其可以是通过一对音频耳机或一对喇叭重构5.1声道声音 的场景。
本发明还涉及,例如在一个游戏或视频录像的场景下,为了声 音的空间化,对存储在文件中的一个或多个声音采样进行重构。 在双耳声音空间化的领域中的已知技术中,已经提出了多种不
同的方法。
特别地,参照图la,双声道双耳合成包括,通过对应于适当方
6向的频域中的左HRTF-1和右HRTF-r声学传递函数,基于重构/人多 个声源Si中滤出希望定位于空间某一位置的信号,该适当方向由极 坐标(^,cp,)定义。上述的传递函数HRTF,即"头部相关传递函数"的 缩写,是空间中各位置与耳道之间的听众的头部的声学传递函数。 此外,它们的时域图形为HRIR,即"头部相关冲击响应,,的缩写。这些 函凄丈也可以包括空间残响(room effect)。
对于每个声源Si,获取左侧和右侧两个信号,并叠加到来自其 他声源的空间化的左信号和右信号上,并最终生成发送至听众的左 耳和右耳的信号L和R。
静态双耳合成需要滤波器或者传递函数的数量为2.N,而动态双 耳合成需要滤波器或者传递函数的数量为4.N,其中,N表示需要进 行空间化的声源或音频流的数量。
公布于J. A函st. Soc. Am. 91(3): pp. 1637-1647 (1992),由D. Kistler 和F丄.Wightman发表的题为"爿mode/ frara^^/"w"/ora
(一种基于主要成分分析和最小相位重构的头部相关传递函数模 型)"的论文,以及由A.Kulkami于1995发表的IEEE目录号为 95TH8144的 "/EEE1爿5^尸fforA^o/ ow J/TpZ/cadom1 o/iS7gwa/尸race^/"g to爿w&o朋d JcWcs (音频和声学信号处理的应用的IEEE ASSP讨论 会)"的论文证实,HRTF的相位可以分解为两项的和, 一项对应于两耳 间的延迟,另一项等于与HRTF的模相关的最小相位。 因此,HRTF传递函数可以表示为如下形式
p(/) = 一—(/) + —n(/) ^fe/a少(/) = 2;r/t 3于应于两耳间的延迟;
<^^11(/) = //(1叩(|//(/)|))为与滤波器H的才莫相关的最小相位。 通常地,双耳滤波器是通过两个最小相位滤波器和一个纯延迟 的形式实现的,该纯延迟是与作用于与声源距离最远的 一 个耳朵的 左延迟和右延迟的差值相对应的。该延迟通常是通过延迟线实现的。最小相位滤波器是一个有限沖击响应滤波器并且可以应用于时
域或频域。可以探求无限冲击响应滤波器以接近最小相位HRTF滤
波器的模值。
考虑到双耳立体声(binauralization),参考图lb,情形是非限 制性地以5.1模式空间化的声音场景,其目的是在一个人HB的音频 耳机上重构后者(5.1的音频信号)。
5个扬声器,C:中间,Lf:左前,Rf:右前,Sl:环绕左,Sr: 环绕右,每个扬声器均生成一个声音由人HB的两个接收器即他的 双耳接听。声信号所经历的变化由一个滤波函数模拟,其表示了在 重构该声信号的扬声器和一个给定的耳朵之间的传播过程中该声音 所经历的变化。
特别地,从扬声器Lf发出的声音通过一个HRTF滤波器A作用 于左耳LE,但是该同样的声音到达右耳RE时被一个HRTF滤波器 B改变。
扬声器相对于上述的个人HB的位置可以是对称的,也可以是其
他形式。
因此,每个耳朵从5个扬声器接收到的贡献的信号以如下形式 表示
左耳LE:Bl = ALf+CC + BRf+DSl + ESr, 右耳RE:Br = ARf+CC + BLf+DSr + ESl, 其中,Bl是左耳LE的双耳立体声信号而Br是右耳RE的双耳 立体声信号。
滤波器A,B,C,D和E通常是由线性数字滤波器模拟的,在图lb 所示的结构中,因此需要应用IO个滤波函数,在对称的情况下,可 以减少至5个。
已知地,上述的滤波操作可以在频域进行,例如,通过在4專立 叶域中进行快速巻积。使用一个FFT,即快速傅立叶变换,以〗更于 有效地实现双耳立体声。
HRTF滤波器A, B, C, D和E可以简化为一个频域均衡器和 一个延迟的形式。HRTF滤波器A可以具体化为一个简单的均衡器的形式,因为其为一个直接的路径,而HRTF滤波器B还包括一个 附加的延迟。通常,HRTF滤波器可以分解为一个最小相位滤波器和 一个纯延迟。最接近声源的耳朵的延迟可以取0。
通过空间解码来对一个3D音频声音场景进行重构的操作,如图 lc所示,使用数目减少的传输信道,在现有技术中也是已知的。图 1 c中所示的结构涉及对频域中具有局部化参数的已编码的音频信道 的解码,以重构5.1空间化的声音场景。
上述的重构是通过频域子带的空间解码器实现的,例如图lc所 示。编码的音频信号m经过5个空间化的处理步骤,该步骤由编码 器所计算的复空间化参数或者系数CLD或ICC所控制,且允许通过 解相关和增益修正操作,以真实的方式重构由6声道构成的声音场 景,其中包括图lb所示的五个声道以及新增的低频效果信道lfe。
当希望对来自例如图1 c所示的空间解码器的音频声道进行双耳 立体声操作时,在现在,实际上我们仅限于根据图ld所示的方案执 4亍一个处理方法。
参考上述的方案,在对信号进行双声道立体声处理之前进行声 道的变换似乎是必要的,其可以在时域中实现。该变换回时域的操 作表示为合成模块"合成(Synth)",其对来自空间解码器(SD) 的每一个声道进行频-时变换操作。根据传统的滤波,HRTF滤波器 的滤波可以由应用或未应用均衡方案的滤波器A, B, C, D, E完成。
如图le所示,来自空间解码器的音频声道的双声道立体化的一 个变化例也可以包括,通过一个合成器"合成"在时域对由音频解 码器传送的每个音频声道进行转换,然后在经过FFT变换后,在傅 立叶频域执行空间解码和双声道立体声操作,或空间化。
在这种情景中,每个对应于一个解码系数矩阵的模块OTT,必 须在傅立叶域进行变换,其代价是近似性,因为操作不是在同一个 域内进行的。此外,由于合成操作"合成"后紧跟着3个FFT变换, 因此,复杂度进一步增加。
因此,为了对来自 一个空间解码器的一个声音场景进行双声道立体声处理,几乎不存在除以下方式的其他实施的可能性
-或者进行6个时频变换,如果希望在空间编码器之外进行双声 道立体化;
-或者进行一个合成操作其后面跟随三个FFT变换,如果希望 在快速傅立叶变换域进行操作。
如图lf所示,如果需要也可以使用另外一种方案,即在子带的 域中直接进行HRTF滤波处理。
然而,在上述情形中,HRTF滤波操作的应用非常复杂,因为后 者需要使用最小长度固定的子带滤波器并且必须考虑子带的频率混 叠现象。
由于要在PQMF,也即伪-正交镜像滤波域中进行滤波操作,变 换操作的减少所带来的节约被需要进行的滤波操作的数量的大幅增 加所抵消了 。
发明内容
本发明的目的在于,克服上述的现有技术中的3D音频信号的声 音空间化技术的缺陷,尤其是克服3D音频信号的跨声道立体声 (transauralization )或双耳立体声技术的缺陷。
特别地,本发明的一个目的在于在空间解码的频率子带的域中 对空间编码的音频信号或信道执行 一 个特另'j的滤波,以限制变换对 的数目,同时将滤波操作减小到最小,但保留源空间化的高质量, 尤其是对于跨声道立体声或双耳立体声。
根据本发明的 一个显著的方面,前述的特定的滤波器依赖于以 均衡器-延迟的形式施行空间化、跨声道或双耳滤波器,以在子带域 中通过均衡器-延迟直接进行滤波。
本发明的另一个目的在于,通过在变换域中,在一个传统的空 间解码之后简单的添加一个复杂度非常低的跨声道(transaural)空
间处理,以达到非常接近于用例如原始HRTF滤波器这样的模拟滤
波器所得到的3D渲染效果。本发明的最后一个目的是一个新颖的源空间化技术,不仅适用 于对单声道声音的跨声道或双耳立体声渲染,也适用于多个单声道
声音,并且显著地适用于5.1, 6.1, 7.1, 8.1甚至更高模式的立体声
系统的多通道。
本发明的 一个主题在于 一种用于对音频场景声音空间化的方 法,包括一个第一集合,该第一集合包括至少一个声道,这些第一 集合的声道在一个给定数目的频率子带上进行空间编码,并在变换
域进行解码,生成一个第二集合,该第二集合包括至少2个声道,
这些第二集合的声道用于利用滤波器模拟第 一 集合声道的音频信号
的声学传播,以在时域进行重构。
根据本发明,该方法值得注意的是,对于每个转换为可用于变 换域的至少一个增益和一个延迟的形式的模拟滤波器,其包括在变
换域的每个频率子带上,至少进行以下操作
-通过对子带信号分别应用一个增益和一个延迟,通过均衡-延 迟对子带信号进行滤波,以从空间编码信道开始,在所讨论的频率 子带中生成一个经特定值延迟的经均衡的成分;
-将经过均衡且经过延迟的多个成分的一个子集合进行累加,以 在变换域生成与所述第二集合的用于时域重构的声道的数目相对应 的多个经滤波的信号,所述第二集合中的声道的数目为大于或等于 2;
-通过一个合成滤波器对每个上述在变换域中经过滤波的信号 进行合成,以获取第二集合,其具有大于或等于2个用于在时域进 行重构的音频信号。
本发明的方法,值得注意的还有,通过均衡-延迟对子带信号进 行滤波包括对至少一个频域子带,至少应用一个相移,以及,在合 适的时候通过存储器对其应用 一个纯延迟。
本发明的方法,值得注意的还有,其还包括在混合变换域通过 均衡-延迟进行滤波,包括一个将频率划分为附加子带的附加步骤, 经过抽取或未经过抽取。
ii本发明的方法,值得注意的还有,为了将每个模型滤波器在变 换域中各自转换为一个增益值和一个延迟值,其包括至少将每个子 带与一个定义为该子带中的模拟滤波器的模值的平均值的实数联系 在一起作为增益值,以及将每个子带与一个对应于左耳和右耳之间 对不同位置的接收延迟的延迟值联系在 一起作为延迟值。
相关地,本发明的另一个主题在于, 一种用于音频场景声音空 间化的装置,其包括一个第一集合,该第一集合包括至少一个声道, 这些第 一 集合的声道在 一 个给定数目的频率子带上进行空间编码,
并在变换域进行解码,生成一个第二集合,该第二集合包括至少2
个声道,这些第二集合的声道用于利用滤波器模拟第一集合声道的 音频信号的声学传播,以在时域进行重构。
根据本发明,该装置值得注意的是,对于变换域的空间解码器
的每一个频率子带,该装置除了该空间解码器还包括
- 一个模块,用于通过对子带信号分别应用一个增益和一个延 迟,通过均衡-延迟对子带信号进行滤波,以在所讨论的频率子带中, 从每个空间编码信道生成一个经过均衡并经过特定值延迟的成分;
- 一个模块,用于对经过均衡且经过延迟的多个成分的一个子集 合进行累加,以在变换域生成与所述第二集合的用于时域重构的声 道的数目相对应的多个经滤波的信号,所述第二集合中的声道的数 目为大于或等于2;
波的信号进行合成,以获取第二集合,其包括数目大于或等于2的 用于在时域进行重构的声道。
本发明的方法和装置,可以应用于高保真音频和/或视频电子产 业,还可以用于本地或在线的音^L频游戏产业。
通过阅读说明书和附图将更好地理解本发明,其中,除了图la-lf 与现有技术相关以外,
12图2a显示了根据本发明的声音空间化方法的执行步骤的示意流
程图2b通过示例的方式,显示了本发明的如图2a所示的方法的 一个变化的实施例,通过在没有抽取的情况下产生附加的子带来获
取;
图2c通过示例的方式,显示了本发明的如图2a所示的方法的一 个变化的实施例,通过在抽取的情况下产生附加的子带来获取;
图3a通过示例的方式,显示了根据本发明的一个声音空间化装 置的一个空间解码器的一个频率子带的分段(stage);
图3b通过示例的方式,显示了可以实现如图3a所示本发明的 装置的 一 个均衡延迟滤波器的实现细节;
图4通过示例的方式,显示了根据本发明的装置的一个示例的 实施例,其中,均衡延迟滤波器的计算离开了原位置。
具体实施例方式
结合图2a和下面的各个附图,将对根据本发明的主题的音频场 景的声音空间化的方法进行具体描述。
根据本发明的方法,适用于一个音频场景,例如3D音频场景, 表示为包括N个声道,其中N大于或等于1,这些声道在给定数目 的频率子带上进行空间编码并在变换域进行解码。
变换域,可以理解地,意味着一个变换频率域,例如傅立叶域, PQMF域或任意混合域,通过时域抽取或者其他步骤,创建附加的 频域子带而获取。
然后,形成第 一集合N个声道的经空间编码的声道以非限制性 的形式表示为本说明书前述的Fl, Fr, Sr, SI, C, lfe声道,并如说 明书前文所述的对应于在对应的变换域中一个3D音频场景的解码 模式。该模式正是前述的5.1模式。
此外,这些信号在前述变换域中根据一个该解码特定的给定数 目的子带进行解码,该子带集合由(SBktf表示,k表示所讨论的子带的秩。
本发明的方法,允许前述的经空间编码的声道集合变换为 一个 第二集合,该第二集合包括大于或等于2的用于进行时域重构的声
道,重构声道在图2a中,非限制性地分别表示为左、右双声道的B1 和Br。可以理解,特别地,除了双声道,本发明的方法适用于任意 大于2的声道,例如,允许3D音频场景的实时重构,如图lb所示 以及前文中结合图lb所述。
根据本发明的 一 个显著的方面,本发明通过使用滤波器模拟经 空间编码的声道的第 一 集合的音频信号的声学传播,考虑到以适用 于变换域的至少 一个增益和延迟的形式的转换,这将在说明书的后 文中详尽描述。以非限制性的方式,模拟滤波器在本文以下部分表 示为HRTF滤波器。
前述的任一 HRTF滤波器的变换考虑秩为k的子带SBk,以生成 一个增益值gk以及相应的延迟值4,如图2a所示,前述的变换表示 为HRTF.三(gk,dk)。
考虑到前述的变换,本发明的方法包括,对于变换域的秩为k 的任一频域子带,执行步骤A,通过分别对子带信号应用一个增 益值gk和延迟值dk以通过均衡-延迟对子带信号进行滤波,以从前述 的空间编码的信道,亦即从声道F1、 C、 Fr、 Sr、 Sl、 C、 lfe,在所 讨论的秩为k的频率子带SBk中生成一个经均衡并经给定延迟值延 迟的成分。
在图2a中,通过均衡-延迟的滤波操作以符号表示为 CEDkdFl,C,Fr,Sr,Sl,lfeKgkx,4x)。
在上述的符号等式中,FEBkx表示通过对每个经空间编码的声 道,换言之声道F1、 C、 Fr、 Sr、 Sl、 C、 lfe,应用增益值gk以及延 迟值dk而得到的的任一经均衡和延迟的成分。
因此,在前述的符号等式中,对于秩为k的相应子带,x可以实 际取值为Fl、 C、 Fr、 Sr、 Sl、 C、 lfe。
然后,在变换域中步骤B紧跟着步骤A,步骤B对经均衡和延迟的多个成分的一个子集合进行累加,以在变换域中生成与数目为 N ,的用于在时域重构的第二集合的声道相对应的多个经滤波的信
号,N,大于或等于2。
在图2a的步骤B中,累加的操作由符号等式所表示
F{Fl,C,Fr,Sr,SUfe} =2CEDkx
在上述的符号等式中,F(Fl,C,Fr,Sr,Sl,lfe)表示将经均衡和延迟的 成分CEDkx的子集累加而获取的在变换域中的经滤波的信号的子集。
通过非限制性地以及教导性的例子,对于一个包括数目N二6的 经空间编码的声道的第一集合,对应于5.1模式,经均衡和延迟的成 分的子集可以包括将对于每个耳朵的5个经均衡和延迟的成分加在 一起,以得到一个N,个变换域的经滤波的信号,N,等于2,在稍后 的下文中将在说明书中详尽描述。
前述的累加步骤B后,接着步骤C,步骤C用于将在变换域中 的每个经滤波的信号通过一个合成滤波器进行合成,以获取一个数 目为N,的用于在时域重构的音频信号第二集合,N,大于或等于2。
在图2a的步骤C中,相应的合成操作由以下符号等式所表示
Bl,Br = Synth(F{Fl,C,Fr,Sr,Sl,lfe})
一般说来,在此声明,本发明的方法可以应用于任意3D音频场 景,包括将N个经空间编码的路径或声道,变换为N,个重构的声道, 其中N在1至无穷大之间变化,N,在2至无穷大之间变化。
就图2a所示的步骤B中的加法步骤而言,在此声明,后者(步
加在一起,以为每个子带生成N,个成分。
更具体的,在此声明,通过均衡-延迟对子带信号进行的滤波包 括至少应用对至少一个频率子带的相移,该相移可以是通过由存储 器实现的纯延迟来完成的。
纯延迟的应用在图2a的步骤A中用等式gEx = 1表示,其代表了 对秩为k-E的子带中的序号为x的声道集合不进行均衡,数值1表 示对每个经空间编码的声道的幅度无调整地传输。
如前面的说明书中所提到的,变换域可以对应于混合变换域,以下将结合图2b描述在对应的子带中不进行频域抽取的情形下的频
率变换域。
参考前述图2b,如图2a的步骤A所示的通过均衡-延迟的滤波, 将由图2b所示的三个子步骤Al, A2和A3所执行。
在该种情形下,步骤A包括一个未经过抽取而将频率分为附加 子带的附加步骤,其后为一个将附加子带重新组合的步骤,以增加 所用的增益值的数目,并因而增加频域的精确度,所述的增益值应 用在所述附加子带上。
频分然后重组的操作如图2b中的子步骤A!和AJ斤示。
频分步骤在子步骤A!中由以下等式表示
HRTF E{gkz,dkz}:=〖
重组步骤在子步骤八2中由以下等式表示〖x = {Fl,C,Fl,Sr,Sl,lfe}(gkz)
在子步骤A!中,可以理解,所讨论的秩为k的子带的增益和延
迟的值细分为Z个相应的增益值,一个增益值gkz用于每个附加子带,
在子步骤12中,可以理解,对附加的子带的重组的步骤通过使用对
应于相应序号为x的经编码的声道执行,在所讨论的附加的子带中 增益gb已经应用于该声道。
在前述的等式中,[GCEDkz];:f代表对附加的子带的重组,所讨
论的附加的子带已经使用了增益。
子步骤A2之后是子步骤A3,包括对重组的附加子带进行延迟, 并且,特别地,以与图2a的步骤A类似的方式对相对于序号x的经 空间编码的声道通过延迟dkx进行延迟。
相应的操作由下式表示
CEDkzx=[GCEDkz]〗:〖x(dkx)
此外,本发明的方法,也可以包括在混合变换域中通过均衡-延 迟进行的滤波,其包括 一 个经过抽取将频率分为附加子带的附加步 骤,如图2c所示。
在该场景中,图2c中的步骤A、与图2b中的步骤A!等同,用于执行生成附加的经抽取的子带。
在该场景中,对图2c中的步骤A,,的抽取是在时域中进行的。 步骤A、后跟着步骤A,2,步骤A,2对应于对附加子带进行重组,
所述附加子带上所使用的前述的增益值考虑了抽取。
重组步骤A'2自身之前或之后跟随延迟dh的应用,如双箭头表
示步骤A,2和A,3的交换。
可以理解,特别地,当在重组步骤之前进行延迟,延迟直接应 用于在重组之前的附加子带的信号。
关于将每个HRTF滤波器转换为变换域中的一个增益和一个延 迟值,该操作可以有利地包括将每个秩为k的子带与一个定义为 对应于HRTF滤波器的模的平均值的实数值联系起来作为增益值, 以及将每个秩为k的子带与一个对应于听者的左耳和右耳之间对不 同位置的传播延迟的延迟值联系起来作为延迟值。
因此,使用一个HRTF滤波器,可以自动计算应用于子带的增 益和延迟时间。基于HRTF滤波器组的频率分辨率,对应于听者的 左耳和右耳之间对不同位置的传播延迟值的延迟值被与每个子带 SBk相关耳关。
因此,使用HRTF滤波器,可以自动计算子带所用的增益和延
迟时间。
基于对滤波器组的频域分辨率,将一个实数值与每个频带相关 联。通过非限定性的例子,从HRTF滤波器的模值开始,可以计算 每个子带的前述的HRTF滤波器的模值的平均值。上述的操作类似 于HRTF滤波器的倍频带(octave band)或巴克带(Bark band )分 析。类似地,可以确定间接声道所使用的延迟,换言之,延迟值更 特别地适用于那些延迟值不是最小值的声道。自动确定耳间的延迟 有多种方法,表示为ITD,即耳间的时间差值,其对应于听者左耳 和右耳之间对于不同位置的延迟。在一个非限制性的例子中,可以 4吏用S. Busson在Universit6 de la M6diterran6e Est-Marseille II, 2006戶斤发 表的博士 i仑文中描述的阈值法,其标题为"/"Wv/o" o/acowWc
17J/c^/or 6/""wra/ w^/z&s^" 「乂,双孚合4'的,# ^个#必J 。用 于估计阈值类型的耳间延迟的方法的原则是确定到达时间,或者 确定波在右耳的初始延迟Td和波在左耳的初始延迟Tg。耳间延迟 由下式给出
ITD threshold = Td - Tg.
最普遍使用的方法是将到达时间估计为HRIR时间滤波器超过 一个乡会定阈值的时刻。例如,到达时间可以对应于HRIR滤波器的响 应达到其最大值的10%的时间。
在PQMF变换域的一个特殊实现的例子将在以下给出。
通常说来,在复数P Q MF域中运用 一 个增益值包括将 一 个实数 形成的增益和以复数值表示的子带信号的每个采样值相乘。
实际上,众所周知,使用一个复数PQMF变换域允许在使用增 益的同时避免由滤波器组固有的欠采样产生的频域混叠问题。每个 信道的每个子带SBk因此获取了一个分配的给定增益值。
此外,在PQMF域中使用一个延迟值至少包括,对子带信号的 由复数表示的每个采样值,通过将这些采样值乘以 一 个复数指数值 以引入 一 个在复数平面的旋转,该复数指数值是所讨论的子带的秩、 所讨论的子带的欠采样率以及与听者的双耳之间的延迟差相关联的 延迟参数的函数。
紧跟在在复数平面的旋转后面的是对旋转后的采样的纯时间延 迟。该纯时间延迟是听者的双耳之间的延迟差和所讨论的子带的欠 采样率的函数。
实际来说,前述的延迟适用于结果信号,换言之经过均衡的信 号,并且特别的,适用于这些未从直接声道受益的信号或信道的子集合。
特别地,旋转以对如下形式的指数值的复数乘的形式实现
exp(-j*pi*(k+0.5)*d/M)
并通过延迟线实现一个纯延迟,例如进行下列操作
y(k,n) = x(k, n画D)
18在前面的等式中
exp表示指数函数; j定义为j*j = -l; k是所讨论的子带信号SBk的秩;
M是所讨论的子带信号的欠采样率;例如,M应该取等于64;
y(k,n)是在秩为k的子带SBk的秩为n的时间采样上应用了纯延 迟之后的输出采样值,换言之,应用了延迟B的采样x(k,n)。
前述等式中的d和D的取值对应于在非欠采样时间域运用延迟 D*M + d。延迟D承M + d对应于先前计算的耳间的延迟。d可以取负 值,其可以允许模拟相位超前以取代延迟。
进行的操作带来了适合于所寻求的效果的近似值。
对于计算操作,所执行的处理包括执行在 一个复指数和一个由 复数值形成的子带采样值之间的 一个复数乘法。
如果所使用的总的延迟大于一个值M,可能会插入一个延迟, 但是该操作不包括算数运算。
本发明的方法,也可以在混合变换域中实现。该混合变换域是 频率域,在其中PQMF带可以有益地由经抽取的或未经抽取的滤波 器组进行重新划分。
如果滤波器组经过抽取,抽取被理解为时域抽取,则有益地在 包括纯延迟和相移的步骤之后引入一个延迟。
如果滤波器组未经过抽取,则只能在合成时应用延迟。对于每 个分支应用相同的延迟实际上是无意义的,因为合成是线性操作, 不需要欠采样。
增益的应用与之前保持类似,后面仅仅包括多个,例如前述的 结合图2b所述,因此可以紧跟着有更高精确度的频率划分。然后在 每个附加的子带上使用一个实数的增益。
最后,根据一个变化的实施例,本发明的方法在至少两个均衡-延迟对上重复,并且将获取的信号求总和,以获取时域的声道。
以下将结合图3a和图3b,详细描述根据本发明的目的音频场景声音空间化的装置,其声音场景包括第一集合,第一集合包括至少 一个声道,该至少一个声道在一个给定数目的频率子带上进行空间 编码,并在变换域进行解码,以生成一个第二集合,该第二集合包 括至少2个声道,用于在时域进行重构。
如前文所述,本发明的装置,是基于以下原则转换可用于变 换域的至少 一 个增益和 一 个延迟的形式的滤波器,该滤波器用于模 拟前述的第一集合信道的音频信号的声学传输。本发明的装置,允 许声音场景的声音空间化,如将3D音频场景转换为第二集合,该第 二集合包括数量大于或等于2的用于进行时域重构的声道。
如图3a所示的本发明的装置,涉及在变换域专用于每个秩为k 的子带SBk以进行解码的一个分段。
特别地,可以理解,图3a所示的对于每个秩为k的子带SBk, 其分段实际上对于每个子带都是可以复制的,以最终形成根据本发 明的主题的声音空间化装置。
按照惯例地,图3a所示的分段在本发明的下文中标记为声音空 间化装置。
参考前述的附图,本发明的装置,例如图3a所示,除了示出的 空间解码器,还包括模块OTTo至OTT4 ,大致与图lc所示的现有 技术的空间解码器SD相对应,但是还使用了,通过加法器S,以现 有技术已知的方式求出前声道C和低频声道lfe的总和,以及一个的 模块1,用于通过对子带信号分别应用一个增益和一个延迟,通过均 衡-延迟对子带信号进行滤波。
在图3a中,增益的应用在每个空间编码音频信道上均示出,以 放大器lo至18表示,后者(lo至18)生成一个均衡的成分,可能 会也可能不会经标识为19至112的延迟元件进行延迟,以从每个经空 间编码的声道生成经过在频域子带S B k的 一 个给定延迟值均衡和延 迟的组成部分。
参考图3a,放大器1。至18的增益分别具有任意值A,B,B,A,C,D, E,E,D。此外,延迟模块19至112使用的延迟值为Df,Bf,Ds,Ds。在前述的附图中,所引入的增益和延迟是对称的。在不偏离本发明主 题的范围内,也可以运用不对称的结构。
本发明的装置,还包括模块2,用于将经均衡和延迟的成分的子 集合累加在一起,以生成在变换域中的多个经滤波的信号,对应于
用于在时域中重构声道的第二集合的数目N,,N,大于或等于2。
最后,本发明的装置,包括一个模块3,用于在变换域中合成每
个经滤波的信号,以获取第二集合,该第二集合包括N,个用于在时
域中重构的声道,N,大于或等于2。因此,在图3a所示的实施例中,
合成模块3包括, 一个合成器3。和3,,其中每个合成器允许一个音
频信号在时域中进行重构,B,表示欲传输的左双声道信号,且Br
表示欲传输的右双声道信号。
在图3a的实施例中,经均衡和延迟的成分通过以下方式获取
-A[k]表示秩为k的子带SBk的放大器lo, 13的增益,
-B[k]表示图3a所示的放大器1,, 12的增益,
-C[k]表示放大器U的增益,
-D[k]表示放大器15,18的增益,
-E[k]表示放大器16, 17的增益。
关于经空间编码的声道,尤其是子带SBk的这些声道Fl, Fr, C, lfe,
Sl和Sr,子带SBk的第n个釆样表示为Fl[k][n],Fr[k][n],Fc[k][n],
lfe[k][n], Sl[k][n],Sr[k][n]。因此,每个放大器1。 to 18相继传输如下的
经均衡的成分 -A[k]承Fl[k][n], -B[k]*Fl[k][n], -B[k]承Fr[k][n], -A[k]承Fr[k][n], -C[k]*Fc[k][n], -D[k]*Sl[k][n], -E[k]*Sl[k][n], -E[k]承Sr[k][n], -D[k]*Sr[k][n],
说明书中所描述的前述的操作,在这种情形下,是以对复数进 行实数乘的形式进行的。
21由延迟元件19, 11Q, ln和112所引入的延迟应用于前述的经均衡的
成分,以生成经均tf和延迟的组成部分。
在图3a所示的例子中,延迟应用于未从直接路径受益的子集合 上。在对图3a的描述中,指的是那些由放大器或乘法器lbl2,U和17 以增益B[k]和E[k]进行乘的那些信号。
对例如以倍增放大器1!和延迟元件19形成的均衡-延迟进行滤波 的滤波器或滤波元件的更详尽的描述在以下将参照图3 b给出。
关于应用增益,如图3b所示的相应的滤波元件包括一个数字乘 法器,换言之,乘法器或放大器1。至18之一,在图3b中以增益值 gkx表示,该乘法器允许来自每个对应于信道Fl, Fr, C, lfe, Sl或Sr的 序号为x的经编码的声道的任意复数采样与一个实数值相乘,也即, 在说明书前文中描述的增益值。
此外,图3b所示的滤波元件包括至少一个复数数字乘法器,允 许在复平面中的子带信号的任意一个采样引入一个旋转,以乘以一 个复指数值,其值为exp(-jcp(k,SSk)),其中cp(k,SSk)表示一个相位值, 是所讨论的子带欠采样率和所讨论的子带的秩k的函数。
在一个实施例中,cp(k,SSk) = cp*(A:+0.5)*c//M。
紧随复数数字乘法器是延迟线,标识为D丄.,其为每个经旋转 的采样引入一个纯延迟,允许引入一个纯时间延迟,其为听者的双 耳延迟之间的差值和所讨论的子带SBk的欠采样率M的函数。
因此,延迟线D丄.允许在经过旋转的复数的采样以y(k,n)二 x(k,n-D)的形式引入延迟。
最后,d和D的值满足这些值对应于在未采样的时间域应用 延迟D承M+d,并且该D申M+d对应于前述的双耳间的延迟。
为了实现本发明的装置,如图3a所示,可以观察到信号Fr[k][n] 被增益值B[k]乘,然后延迟,根据本发明的一个值得注意的方面, 其相当于将该信号乘以一个复数增益。增益B[k]和复指数的乘积可 以一次性地彻底地进行,因此避免了对每个后继采样Fr[k][n]的补充 处理。左侧的经均衡和延迟的成分指代为U至L4,右侧的经均衡和延迟的组成部分指代为Ro至R4,在图中分别由累加模块2。和2,结
合在一起,然后验证等式 表格T
L0[k][n] = A[k]Fl[k][n]
R0[k][n]=经过Df采样延迟的B[k]Fl[k][n]
Rl[k][n]二A[k]Fr[k][n]
Ll[k][n]=经过Df采样延迟的B[k]Fr[k][n]
L2[k][n] = R2[k][n〗二C[k](Fc[k][n]+lfe[k][n〗)
L3[k][n] = D[k]Sl[k][n]
R3[k][n]=经过Ds采样延迟的E[k]Sl[k][n] R4[k][n]=D[k]Sr[k][nJ
L4[k][n]=经过Ds采样延迟的E[k]Sr[k〗[n]
为了获取用于时域重构的声道,即分别为图3a所示的左信道B,
和右信道B"也即,在图3a的实施例中的双声道信号,对于每个辟失
为n的采样,累加经均衡和延迟的成分,也即,累加成分
对于累加模块20:L0[k][n]+Ll[k][n]+L2[k][n]+L3[k][n]+L4[k][n]且
对于累力口才莫^: 2R0[k][n]+Rl [k][n]+R2[k][n]+R3[k][n]+R4[k][n]
然后,由累加模块20和2J专送的结果信号各自通过合成滤波器
3。和3p以分别在时域B!和Br获取双声道的信号。
可以将前述的信号提供给 一 个数字-模拟转换器,以允许左声音 B,和右声音B"在例如一对音频耳机上可以听到。
合成操作由合成模块3Q和3,执行,包括,当合适的时候,例如 说明书前文中描述的混合合成操作。
本发明的方法,有利地可以包括分离均衡操作和延迟操作,其 可以在不同数量的频率子带上进行。在一个变化例中,均衡器可以 例如在一个混合域中进行,而延迟在PQMF域中进行。
可以理解,本发明的方法和装置,尽管描述为将6个信道进行 双声立体声进入一对耳机,其也可以用于实现3争声道立体声,换言 之,在一对扬声器上对3D声音场的重构,或者以一种相对非复杂的 方式,将来自一个空间解码器或多个单声道解码器的表示为N个的 声道或声源转换为N,个用于重构的声道。如果需要可以倍增滤波操
23作。
作为一个补充的非限制性的例子,本发明的方法和装置,可以
应用于声音由不同物体或声源发出的3D互动游戏的情形,其可以作 为它们与听者之间的相对位置的函数进行空间化。声音采样然后被
间化,他们可以部分解码,以保存在编码域,并在编码域由根据本 发明所描述的合适的双声道滤波器进行滤波。
实际上,通过将解码和空间化操作结合起来,操作的总的复杂 度将大大降低,同时不会带来任何质量的损失。
最后,本发明覆盖了包括一系列保存在存储媒介中的指令的计 算机程序,用于由计算机或专用的声音空间化设备执行,在执行的 过程中,执行结合图2a到2c, 3a、 3b在说明书前述的滤波、累加和 合成步骤。
特别地,可以理解,前述的附图中所示的操作可以有利地通过 在图3a中未示出的中央处理器、 一个工作存储器和程序存储器的方 式在复数数字采样上进行。
最后,形成均衡-延迟滤波器的增益和延迟的计算可以在如图3a 和3b所示的本发明的装置的外部执行,将结合图4在下文中进行描 述。
参考前述的附图,考虑一个用于空间编码和以降低数据率进行 解码的第一单元I,包括例如如图3a, 3b所示的根据本发明的装置, 允许进行前述的空间编码,始于例如5.1模式的声音场景, 一方面传 输编码声音,另一方面传输空间参数,传输至解码和空间解码单元 II。
对于均衡-延迟滤波器的计算可以由 一 个分离的单元III执行,其 使用模拟滤波器、HRTF滤波器,计算增益均衡和延迟值并将其传输 至空间编码单元I和空间解码单元II。
因此,空间编码可以考虑HRTF,应用HRTF以校正其空间参数 并优化3D渲染。类似地,数据率降低的编码器能够使用这些HRTF以测量频率量化的听得见的效果。
解码时,传输的HRTF将用于空间解码,并且允许,在合适的
情形中,重新生成重构的声道。
在前述的例子中,将从5个声道重新生成2个声道,但在其他 情形中,可以如上所示地包括从3个信道构造5个声道。空间解码 方法将应用如下
-使用空间信息(上行混合,upmix)将接收到的3个信道投 射到一组虚拟信道上(大于5个输出信道);
-使用HRTF将虛拟信道减少至5个输出信道。 如果在编码器中使用了 HRTF,可选地,可以在上行混合之前去 除他们贡献,以实现上述方案。
转换后的HRTF,他们的增益/延迟优选地可以以如下的形式进 行量化
对他们的值以微分的模式编码,然后量化他们的差值如果均
衡器的增益值表示为G[k],则量化的值为
e[k] = G[k+l]-G[k]
将以线性或对数的形式传输。
更具体地,参考前述图4,本发明的方法和装置所执行的操作, 因此允许执行对音频场景的声音空间化,其中包括给定个数的经空 间编码的声道的第 一 集合,和包括用于时域重构的数目较少的声道 的第二集合。其还允许解码时执行将多个经空间编码的声道逆变换 为 一 个包括高于或等于用于时域重构的声道的数目的集合。
权利要求
1. 一种用于音频场景的声音空间化的方法,包括第一集合,该第一集合包括至少一个在一个给定数目的频率子带上进行空间编码的声道,并在变换域进行解码,以生成一个第二集合,该第二集合包括至少2个声道,用于利用滤波器模拟所述第一集合声道的音频信号的声学传播,以在时域进行重构,其特征在于,对于每个转换为可用于变换域的至少一个增益和延迟形式的模拟滤波器,该方法,对每个所述变换域的频率子带,至少包括-通过对子带信号分别应用一个增益和一个延迟,通过均衡-延迟对子带信号进行滤波,以从空间编码信道开始,在所讨论的频域子带中生成一个经特定值延迟的经均衡的成分;-对经过均衡且经过延迟的成分的一个子集合进行累加,以在变换域生成与所述第二集合的用于时域重构的声道的数目相对应的多个经滤波的信号,所述第二集合中的声道的数目为大于或等于2;-通过一个合成滤波器对每个在变换域中经过滤波的信号进行合成,以获取第二集合,其包括大于或等于2个用于在时域进行重构的音频信号。
2. 根据权利要求1所述的方法,其特征在于,所述通过均衡-延迟对子带信号进行滤波包括对至少一个频率子带至少应用一个相
3. 根据权利要求2所述的方法,其特征在于,所述通过均衡-延迟进行滤波还包括对至少一个频率子带通过存储器应用一个纯延迟。
4. 根据权利要求1至3中任一项所述的方法,其特征在于,所 述在混合域通过均衡-延迟进行滤波,包括一个未经抽取将频率划分 为附加子带的附加步骤,以增加应用的增益值的数目,其后为一个 重组所述附加子带的步骤,前述的增益值应用在所述附加子带上, 然后进行所述延迟。
5. 根据权利要求1至3中任一项所述的方法,其特征在于,所 述在混合域通过均衡-延迟进行滤波,包括一个经过抽取将频率划分 为附加子带的附加步骤,以增加应用的增益值的数目,其后为一个 重组所述附加子带的步骤,前述的增益值应用在所述附加子带上, 所述重组步骤其自身在所述延迟应用之前或之后。
6. 根据权利要求1至5中任一项所述的方法,其特征在于,为了将每个模拟滤波器在变换域中分别转换为一个增益值和一个延迟 值,其至少包括-将每个子带与一个定义为模拟滤波器的模值的平均值的实数 联系在一起作为增益值;-将每个子带与一个对应于左耳和右耳之间对不同位置的接收 延迟的延迟值联系在 一起作为延迟值。
7. 根据权利要求1至3或6中任一项所述的方法,去除权利要 求4或5,其特征在于,在PQMF域中运用增益包括,将以复数值 表示的子带信号的每个采样值,乘以一个由实数形成的增益值。
8. 根据权利要求1至3或6或7中任一项所述的方法,去除权 利要求4或5,其特征在于,在PQMF域中运用增益至少包括,对 以复数值表示的子带信号的每个采样值-通过将这些采样乘以一个复数指数值以引入一个在复数平面 的旋转,该复数指数值是所讨论的子带的秩,所讨论的子带的欠采 样率以及与听者的双耳之间的延迟差相关联的延迟参数的函数;-对旋转后的采样引入纯时间延迟,所述纯时间延迟是听者的双 耳之间的延迟差和所讨论的子带的欠采样率的函数。
9. 根据权利要求1至8中任一项所述的方法,其特征在于,对 于音频场景的声音空间化,其中在5.1模式中,第一集合包括N二6 个空间编码的声道,所述第二集合包括2个用于时域重构的声道, 用于在一对音频耳机上重构。
10. 根据权利要求1至9中任一项所述的方法,其特征在于,所 述方法至少在两个均衡-延迟对上重复,并且将获取的信号求总和,以获取时域的声道。
11. 根据权利要求1至9中任一项所述的方法,其特征在于,对 于音频场景的声音空间化,第一集合包括给定数目的经空间编码的 声道,第二集合包括数目较少的用于时域重构的声道,在解码时, 该方法还包括将多个经空间编码的声道逆变换为一个包括大于或等 于用于时域重构的声道数目的集合。
12. 根据权利要求1至11中任一项所述的方法,其特征在于, 将所述与模拟滤波器关联的增益和延迟值以量化的形式传输。
13. —种用于音频场景的声音空间化的装置,包括第一集合,该 第一集合包括至少一个在一个给定数目的频率子带上进行空间编码 的声道,并在变换域进行解码,以生成一个第二集合,该第二集合 包括至少2个声道,用于利用滤波器模拟所述第一集合声道的音频 信号的声学传播,以在时域进行重构,其特征在于,对于在变换域的一个空间解码器的每个频率子带,所述装置,除了所述空间解码 器,还包括- 一个装置,用于通过对所述子带信号分别应用一个增益和一个 延迟,通过均衡-延迟对子带信号进行滤波,以从每个空间编码信道 开始,在所讨论的频域子带中生成经过一个经均衡的并经特定值延 迟的成分;- 一个装置,用于对经过均衡且经过延迟的成分的一个子集合进 行累加,以在变换域生成与所述第二集合的用于时域重构的声道的 数目相对应的多个经滤波的信号,所述第二集合中的声道的数目为 大于或等于2;- 一个装置,用于通过一个合成滤波器对每个在变换域中经过滤 波的信号进行合成,以获取第二集合,其包括大于或等于2个用于 在时域进行重构的音频信号。
14. 根据权利要求13所述的装置,其特征在于,所述以应用增 益进行滤波的装置包括 一 个数字乘法器,用于将每个空间编码声道 的任意复数采样乘以 一 个实数值。
15. 根据权利要求13或14所述的装置,其特征在于,所述通过应用一个延迟进行滤波的装置包括至少一个复数数字乘法器,允许 在子带信号的任意采样的复数平面引入一个旋转,用于与 一个复数 指数值相乘,该复数指数值是所讨论的子带的秩,所讨论的子带的 欠采样率以及与听者的双耳之间的延迟差相关联的延迟参数的函数。
16. 根据权利要求15所述的装置,其特征在于,所述滤波装置 还包括一个对旋转后的每个采样的纯延迟线,允许引入一个纯时间 延迟,该纯时间延迟是听者的双耳之间的延迟差和所讨论子带的欠采样率的函数。
17. 计算机程序,该计算机程序包括存储在存储介质上的由计算 机或专用设备执行的一系列指令,其特征在于,在执行过程中,所 述程序执行如权利要求1至12中任一项所述的滤波,累加和合成步骤。
全文摘要
本发明涉及用于声音空间化的方法和系统,其中,第一集合不少于1个声道,在多个频率子带(SBk)上编码,并在变换域(Fl,C,Fr,Sr,Sl)上进行解码,以在时域中生成不少于2个(Bl,Br)声道的第二集合,从模拟滤波器转换为应用于变换域中的一个增益值和一个延迟值,包括通过均衡器进行滤波(A),通过应用至少一个增益值和延迟值来进行信号的子带延迟以从每个编码信道生成一个经过均衡和延迟的成分;将经均衡和延迟的信号的子集合进行累加(B)以生成对应于不少于2个的多个经滤波的信号;将每个所述经滤波的信号进行合成(C),以获取不少于2个的时域重构的声道的第二集合。
文档编号H04S3/02GK101455095SQ200780020028
公开日2009年6月10日 申请日期2007年3月8日 优先权日2006年3月28日
发明者皮耶里克·菲利普, 达维德·维雷特, 马克·埃默里 申请人:法国电信