专利名称:从立体声信号产生多声道音频信号的方法
从立体声信号产生多声道音频信号的方法
背景技术:
在双声道立体声以外的许多的技术革新因为成本、无法实施性(例 如,扬声器的数目)已经失败,并且最后但并非最不重要的是用于向后
兼容的需求。而5.1环绕多声道音频系统正在由用户广泛地采用,此外,
这个系统就扬声器的数目而言,以及由于向后兼容的限制(前左和右扬
声器被放置在与双声道立体声相同的角度上,即+/-30°,导致窄的正面 虚拟声级)是折衷办法。
事实是在双声道立体声格式中进一步大多数音频内容是可用的。 对于增强立体声以外的声音体验的音频系统,与传统系统相比,借助 于改善的体验可以令人向往地播放立体声音频内容因此是至关紧要的。
此外对于不完全设置在棒头击球面的中心点中的收听者已经长时 间实现使用更多的前扬声器改善虚拟声级。对于改善结果存在经两个 以上的扬声器播放立体声信号的目的。特别地,对于利用额外的中央 扬声器播放立体声信号存在许多的关注。但是,在常规的立体声播放 上的这些技术的改进不是清楚足够的,它们已经被广泛地使用。这些 技术的主要限制是,它们仅仅考虑位置,并且没有明确地考虑其它的 方面,诸如周围环境和收听者包络。此外,在这些技术之后的位置理 论是基于一个虚拟信源情形,当许多的信源同时地出现于不同的方向 的时候也限制其性能。
这些弱点是由在本说明书中提出的通过使用可感知地激发立体声 音频信号的空间分解的技术克服的。给出这个分解,可以对于增加数 目的扬声器、扬声器行阵列和波场合成系统呈现音频信号。
该提出的技术对于借助于更多的声道将立体声信号(两个声道)转 换为音频信号没有限制。但是通常地,具有L个声道的信号可以被转 换为具有M个声道的信号。该信号可以或者是立体声,或者是目的在 于用于播放的多声道音频信号,或者它们可以是未加工的麦克风信号, 或者麦克风信号的线性组合。其也示出该技术如何应用于麦克风信号 (例如,立体混响声B格式),并且矩阵的环绕下混频信号用于在各种各 样的扬声器总体布置上再现这些。
当我们提到立体声或者具有许多的声道的多声道音频信号的时 候,我们指的是当我们提到许多的(单声)音频信号的时候是相同的。
发明内容
按照应用于多个音频信号的主要实施例,其提出了从多个输入音
频信号(x,,…,xj中产生多个输出音频信号(yp ..., yM),其中输出的 数目等于或者高于输入信号的数目,这个方法包括步骤
-利用输入子频带X,(i), ..., XL(i)的线性组合的方式,计算表示信 号分量的一个或多个独立的声音子频带,该信号分量在输入子频带之 间是独立的;
-利用输入子频带X"i), ..., XL(i)的线性组合的方式,计算表示信 号分量的一个或多个局部的直达声子频带,该信号分量被包含在输入 子频带的一个以上中,和表示比值的方向因子,这些信号分量被以该 比值包含在两个或多个输入子频带中;
-产生输出子频带信号Y,(i)...YM(i),在这里每个输出子频带信号是 独立的声音子频带和局部的直达声子频带的线性组合;
-将输出子频带信号Y,(i)...YM(i)转换为时间域音频信号yi...yM。
该指标i是考虑的子频带的指标。按照第一实施例,这个方法可 以每个音频声道仅一个子频带而使用,即使每个声道更多的子频带给 出更好的声音结果。
该提出的方案是以以下的理由为基础的。许多的输入音频信号 X,,...,化被分解成表示声音的信号分量,该声音是在音频声道和信号 分量之间独立的,该信号分量表示在音频声道之间相关的声音。这是 由这两个类型的信号分量具有的不同的知觉效果启发的。该独立的信 号分量表示有关信源宽度、收听者包络和周围环境的信息,并且该相 关的(从属的)信号分量表示听觉事件的位置或者听觉地直达声。对于每 个相关的信号分量,存在相关的方向信息,其可以由一比值表示的, 这个声音被以该比值包含在许多的音频输入信号中。当在扬声器(或者 头戴耳机)上播放的时候,为了再现特定的听觉空间图像的目的可以给 出这个分解产生许多的音频输出信号。该相关的信号分量被呈现为输
出信号(y,,…,yM),使得其由收听者从期望的方向感知。该独立的信
号分量被呈现为输出信号(扬声器),使得其模拟非直达声和其期望的知 觉效果。在高标准上描述的这个功能是从输入音频信号中提取空间信 息,并且将这个空间信息变换为在该输出声道中具有期望的参数的空 间信息。
由于附加的附图将更好地理解本发明,其中 图1示出标准立体声扬声器设置;
图2示出对于二个相干扬声器信号的不同的电平差值的感知的听 觉事件的位置,在一对相干扬声器信号之间的电平和时间差值确定出 现在二个扬声器之间的听觉事件的位置;
图3(a)示出从具有听觉事件扩大效果的侧面扬声器发出的早期反
射;
图3(b)示出从涉及作为收听者包络的更多环境的侧面扬声器发出 的后期反射;
图4示出混合模拟直达声的立体声信号和侧向反射的方式;
图5作为时间函数示出表示将信号分解为子频带的时间-频率平铺
显示; 图6示出方向因子A以及S和AS的归一化幂; 图7示出最小平方估算权重w和W2,以及用于计算估算s的后 标度因子;
图8示出最小平方估算权重W3和w4,以及用于计算估算NJ勺后 标度因子;
图9示出最小平方估算权重Ws和w6,以及用于计算估算N2的后 标度因子;
图10示出估算的s、 A、 n,和n2;
图11示出将土30。虚拟声级(a)转换为具有扬声器阵列(b)的缝隙的 宽度的虚拟声级;
图12示出扬声器对选择1和与立体声信号电平差有关的因子ai和
a2;
图13示出经由多个扬声器发出的平面波;
图14示出将士30。虚拟声级(a)转换为具有扬声器阵列的缝隙的宽 度的虚拟声级,并且通过从侧边扬声器(b)发出独立的声音来提高收听 者包络;
图15示出对于如在图14(b)中的设置产生的八个信号;
图16示出对应于解释为虚拟源的前声级的每个信号。该独立的横
向声音被作为平面波(在远场中的虚拟源)发出;
图17示出四声道立体声的伴音系统(a)扩展为供更多的扬声器(b)使用。
具体实施例方式
空间倾听和立体声扬声器播放
该提出的方案启发对于两个输入声道(立体声音频输入)和M个音 频输出声道(M22)的重要情形的描述。稍后,其描述如何将与在立体声 输入信号的例子中推导出的相同的理由应用于更多的常规L输入声道 的情形。
最通常使用的用于空间音频的用户播放系统是如图1所示的立体
声扬声器设置。两个扬声器被放置在该收听者的左侧和右侧前面。通
常,这些扬声器被以角度-30°和+30°设置在圆上。当收听这样的立体声
播放系统的时候感知的听觉空间图像的宽度近似限于在两个扬声器之 间和在两个扬声器之后的区域。
在自然收听和当收听再现的声音的时候,该感知的听觉空间图像
主要地取决于双耳位置提示,即,耳间时间差(ITD)、耳间电平差(ILD) 和耳间相干性(IC)。此外,其己经示出感知的仰角与非立体声的提示相关。
使得借助于立体声扬声器播放生成模拟声级的听觉空间图像的能 力通过位置求和的知觉现象是可能的,S卩,通过控制在赋予该扬声器 的信号之间的电平和/或时间差,听觉事件可以以在收听者前面的扬声 器对之间的任何角度出现。在1930年,Blumlein认识到这个原理的威 力,并且他申请的现在著名的有关立体音响的专利。位置求和是基于 以下的事实,gp,在耳朵上引起的ITD和ILD提示粗杂地近似占支配
地位的提示,如果物理源位于在扬声器之间出现的听觉事件的方向上, 其将出现。
图2举例说明对于两个相干扬声器信号的不同的电平差感知的听 觉事件的位置。当左和右扬声器信号是相干的,具有相同的电平,并 且没有延迟差的时候, 一个听觉事件出现在两个扬声器之间的中央, 如由图2中的区域1举例说明的。通过在一侧,例如右侧上提高电平, 该听觉事件移动到如由在图2中的区域2举例说明的那侧。在非常情 形下,当仅仅在左侧上的信号是有效的时候,出现在左侧扬声器位置 上的该听觉事件如由在图2中的区域3举例说明的。可以类似地通过 改变在扬声器信号之间的延迟来控制该听觉事件的位置。当该扬声器 对没有在收听者的前面的时候,控制在扬声器对之间的听觉事件位置 所描述的原理也是可适用的。但是,对于扬声器的一些限制适用于收 听者的侧面。
如在图2中举例说明的,位置求和可用于模拟一种情形,这里不 同的仪器在虚拟声级上位于不同的方向上,g卩,在两个扬声器之间的 区域中。在下文中,除了可以控制位置之外,描述可以如何控制其它 的属性。
一致地重要的场馆音响效果是考虑从侧面在收听者上到达的反 射,目卩,侧向反射。已经示出原始侧向反射具有扩大听觉事件的效果。 具有小于大约80ms的延迟的原始反射的效果近似是恒定的,并且因此,
已经定义在这个范围中考虑到原始反射表示的横向部分的具体措施。 该横向部分是横向声能对总的声能的比值,总的声能是在直达声抵达
之后,在最初的80ms内得到的,并且测量听觉事件的宽度。
在图3(a)中举例说明用于模仿早期侧向反射的实验设备。该直达 声是从中央扬声器发出的,而独立的早期反射是从左侧和右侧扬声器 发出的。当早期侧向反射的相对强度提高时,该听觉事件的宽度增加。
在直达声抵达之后,80ms以上侧向反射倾向于除听觉事件本身之 外更加有助于环境的感知。在经常表示收听者包络的"包络"或者"宽 广的环境"的意义上这是明显的。作为用于早期反射的横向部分的类 似的措施也可适用于供测量收听者包络程度的后期的反射。这个测量 表示后期的横向能量部分。可以以如图3(b)所示的设置模拟后期的侧向 反射。该直达声是从中央扬声器发出的,而独立的后期的反射是从左 侧和右侧扬声器发出的。当后期的侧向反射的相对强度提高时,该收 听者包络的感测增加,同时该听觉事件的宽度是期望几乎不受影响的。
立体声信号被记录或者混合,使得对于每个信源,该信号连贯地 以特定的方向提示(电平差、时间差)进入左侧和右侧信号声道,并且反 射/反响的独立的信号进入确定听觉事件宽度和收听者包络提示的声 道。进一步论述混合和记录技术是在本说明书的范围以外。
立体声信号的空间分解
与使用来自真实信源的直达声相反,如在图3中举例说明的,人 们可以使用对应于利用位置求和产生的虚拟源的直达声。该阴影区表 示感知的听觉事件。也就是说,如在图3中示出的实验可以仅仅借助 于两个扬声器实现。这些在图4中举例说明,这里信号S模拟来自由因
子a确定的方向的直达声。该独立的信号nl和n2对应于侧向反射。该
描述的情形是借助于一个听觉事件对于立体声信号的自然分解, <formula>formula see original document page 12</formula>
捕获该听觉事件和收听者包络的位置和宽度。
为了进行分解,在一个听觉事件情形下,其不仅仅是有效的,而 是,同时具有多个有效信源的非静态情形,该描述的分解是独立地在
许多的频带范围和自适应地在时间中实现的,
<formula>formula see original document page 12</formula>,
这里i是子频带指标,并且k是子频带时间指标。这在图5中举 例说明,即,在具有指标i和k的每个时间-频率平铺显示,该信号S、 N,、 N2和方向因子A被独立地估算。为了标记的简便起见,该子频带 和时间指标在下文中通常被忽略。我们借助于知觉地激发子频带带宽 使用子频带分解,即,子频带的带宽被选择等于一个临界频带。在每 个子频带中大约每20ms估算S、 N" N2和方向因子A。
注意到, 一般地说,人们也可以在公式(2)中考虑直达声的时间差。 也就是说,人们将不仅使用方向因子A,而且使用方向延迟,该方向 延迟将被定义为具有S包含在X,和X2中的延迟。在以下的描述中, 我们不考虑上述的延迟,但是,应该明白,该分析可以容易地扩展为 考虑上述的延迟。
给出立体声子频带信号X,和X2,该目标是计算S、 N,、 &和A 的估算值。X,的乘幂的短时估算值被表示<formula>formula see original document page 12</formula>。对于其
它的信号,使用相同的约定,艮卩,Px2、 Ps和PfPN产pn2是相应的短时 乘幂估算值。N,和N2的乘幂被假设为是相同的,即,假设横向独立的 声音量对左和右是一样的。
注意到,可以使用除PN=PN1=PN2之外的其它的假设。例如,
A Pni二Pn2。
估算Ps、 A和PN。
给出该立体声信号的子频带表示,计算该乘幂(P^P^)和标准化的 互相关。在左和右之间的标准化的互相关是-
A、 Ps和PN被计算为估算的Pxl、 Pw和(D的函数。涉及巳知和未
知的变量的三个公式是
V尸A尸12
(4)
8 =尸;c, — P;r,十如r,-尸x,)2 + 4尸义力,*:C = 尸i,尸jc,
— _ _ — (6)
S、 N,和N2的最小平方估算。
到
得
p
口
s 2
p c
2
A 一t
出
求
5
式 -一
公
这垂
且
并
接下来,S、 N!和N2的最小平方估算被计算为A、 Ps和Pn的函
数。对于每个i和k,该信号S被估算为
(7)
这里co,和。2是实值的权重。该估算误差是:
当该误差E是正交于X!和X2的时候,该权重c^和c02在最小均方 感测中是最佳的,艮P,
得到两个公式, <formula>formula see original document page 14</formula>(10)
该权重从其中被计算,
类似地,N,和N2被估算。A的估算值是<formula>formula see original document page 14</formula>
(12)
该估算误差是 <formula>formula see original document page 14</formula>(13)
同样,计算该权重使得该估算误差正交于X,和X2,结果形成: <formula>formula see original document page 14</formula>
用于计算N2的最小平方估算的权重是: <formula>formula see original document page 15</formula>
(15)是<formula>formula see original document page 15</formula>(16)
后标度
给出最小平方估算,这些被(可选择地)后标度,使得估算S、 A
l的乘幂等于PS和PN=PN1=PN2。 S的乘幂是
<formula>formula see original document page 15</formula> (17)
因此,为了借助于被标度的乘幂PS、 S获得S的估算值
<formula>formula see original document page 15</formula>
(18)
借助于类似的理由,M和iV2被标度,即,<formula>formula see original document page 15</formula>
(19)
数值实例
该方向因子A和S和AS的归一化幂在图6中被显示为立体声信 号电平差和O的函数。
用于计算S的最小平方估算值的权重W和《2在图7的上两个板中 被示为立体声信号电平差和O)的函数。用于S(18)的后标度因子在底端 板中示出。
用于计算N,的最小平方估算和相应的后标度因子(19)的权重C03和
C02在图7中示为立体声信号电平差和①的函数。
用于计算N2的最小平方估算和相应的后标度因子(19)的权重cos和 6在图7中被示为立体声信号电平差和O的函数。
在图IO中示出一个利用居中的歌手用于空间分解立体声摇滚音乐 夹的例子。s、 A、 n,和H2的估算值被示出。在时域中示出该信号,并 且对于每个时间-频率平铺显示示出A。与独立的横向声音w和n2相比, 该估算的直达声s是相对地强的,因为居中的歌手是占主要地位的。
在不同的播放设置上播放分解的立体声信号
给出立体声信号的空间分解,即,用于估算的局部的直达声》、 方向因子A和横向独立的声音^'和A的子频带信号,人们可以定义有 关如何从不同的播放设置发出对应于》、A和A的信号分量的规则。
多个扬声器在收听者的前面
图11举例说明阐明的情形。在该附图的部分(a)中示出的虚拟声级 宽度小(T30。被縮放为在该附图的部分(b)中示出的虚拟声级宽度A,该 虚拟声级宽度A被借助于多个扬声器再现。
该估算的独立的横向声音^和A被从在该侧面上的扬声器发出, 例如,在图ll(b)中的扬声器1和6。也就是说,因为从侧面发出的横 向声音越高,将收听者包围进该声音明确地是越有效的。给出估算的 方向因子A,使用"立体声正弦定律"(或者将A相关感知的角度的其 它的法律)估算听觉事件相对于±(()()虚拟声级的角度小,
<formula>formula see original document page 16</formula>
(20)
这个角度被线性地縮放以计算相对于扩大的声级的角度,
<formula>formula see original document page 17</formula>
(21)
围绕f的扬声器对被选择。在图ll(b)举例说明的例子中,这个对 具有标志4和5。用于在这个扬声器对之间摇动幅度相关的角度Yo和^ 定义为在图中示出。如果该选择的扬声器对具有标志1和1+1,那么, 这些扬声器给出的该信号是
<formula>formula see original document page 17</formula>(22)
这里借助于立体声正弦定律(或者其它幅度摇动定律)计算和标准 化幅度摇动因子a,和a2,使得0,2+^=1,
<formula>formula see original document page 17</formula>(23)
并且
<formula>formula see original document page 17</formula>(24)
在(22)中的因子VI7Z是这样的,这些信号的总功率等于在该立 体声信号中相干分量S和AS的总功率。做为选择地,人们可以使用幅 度摇动定律,其对两个以上的扬声器同时地赋予信号。
图12示出用于扬声器对1和1+1,和在角度{-30°, -20°, -12°, -4°, 4°, 12°, 20°, 3(n上对于M-8个扬声器的^^A-30。的幅度摇动因子 a,和a2选择的例子。
给出以上的理由,该输出信号声道的每个时间-频率平铺显示i和 k被计算为
<formula>formula see original document page 18</formula>(25)
这里
<formula>formula see original document page 18</formula>(26)
并且m是输出声道标志1^1^M。该输出声道的子频带信号被转换 回时域,并且形成输出声道y,至yM。在下文中,这个最后的步骤并不 总是再次被明确地提及。
该描述的方案的限制是,当收听者是在一侧上,例如接近于扬声 器1的时候,与来自另一侧的横向声音相比较,该横向独立的声音将 以更大的强度到达他。为了产生两个横向平面波的目的,这个问题可 以通过从所有扬声器发出横向独立的声音来规避。这些在图13中举例 说明。该横向独立的声音被随着以某个方向模拟平面波的延迟赋予给 所有扬声器,<formula>formula see original document page 18</formula> (27)
这里d是延迟, <formula>formula see original document page 18</formula>(28)
s是在等间隔的扬声器之间的距离,v是音速,f;是子频带采样频
率,并且士oc是两个平面波的传播方向。在我们的系统中,该子频带采 样频率不是足够高的,使得d可以表示为一个整数。因此,我们最初 将A和A转换为时域,然后我们将其各种各样的延迟版本添加到该输
出声道。
多个前扬声器加侧扬声器
先前描述的播放情形目的在于扩大虚拟声级,并且目的在于产生 与收听者的位置无关的感知的声级。
选择性地,人们可以利用更加设置于收听者侧面的单独的两个扬
声器播放独立的横向声音^和A ,如在图14中举例说明的。将±30° 虚拟声级(a)转换为具有扬声器阵列(b)的缝隙的宽度的虚拟声级。另外, 该横向独立的声音被借助于用于更强壮的收听者包络的单独的扬声器 从侧面播放。人们期望的是,这些结果形成收听者包络的更强壮的印 象。在这种情况下,该输出信号也是通过(25)计算的,这里具有标志1 和M的指示是在侧面上的扬声器。该扬声器对选择1和1+1处于这种 情形中,使得;'永远不赋予给具有指标1和M的信号,因为该虚拟级 的整个宽度仅仅被投影给前扬声器2^r^M-l。
图15示出一个用于对于在图14中示出的供相同的音乐夹设置产 生的八个信号的例子,用于音乐夹的该空间分解在图IO中示出。注意 到,居中占主要地位的歌手是在中央两个扬声器信号y4和y5之间幅度 摇动的。
常规的5.1环绕扬声器设置
将立体声信号转换为5.1环绕兼容的多声道音频信号的一个可能 性是使用如图14(b)所示的具有如以5.1标准规定安排的三个前扬声器 和两个后扬声器的设置。在这种情况下,该后扬声器发出独立的横向 声音,同时该前扬声器用于再现虚拟声级。非正式的收听表示与立体 声播放相比,何时播放如收听者包络描述的音频信号是更加显著的。
将立体声信号转换为5.1环绕兼容的信号的另一个可能性是使用 如图11所示的设置,这里该扬声器被重新安排以匹配5.1结构。在这 种情况下,±30°虚拟级被扩展为环绕收听者的±110°虚拟级。
波场合成播放系统
首先,信号yp y2, ...yM被与如在图14(b)中举例说明的设置那样 类似地产生。然后,对于每个信号yp y2, ...yM,虚拟源被在波场合成 系统中定义。横向独立的声音y,和yM被如在图16中对于M二8举例说 明的那样作为平面波或者在远场中的信源发出。对于相互的信号,虚 拟源被依照要求以位置定义。在图16示出的例子中,该距离对于不同 的信源是变化的,并且一些信源被定义为是在声音发出阵列的前面, 即,可以以特殊的距离对于每个限定的方向定义该虚拟声级。
用于2到M转换的通用化的方案
一般而言,用于任何描述方案的扬声器信号可以被阐明为
这里N是包含信号A、 A和,的矢量。该矢量Y包含所有的扬 声器信号。该矩阵M具有许多元素,使得在矢量Y中的该扬声器信号 将与由(25)或者(27)计算的是相同的。作为选择的,不同的矩阵M可以 使用滤波和/或不同的幅度摇动定律(例如,使用两个以上的扬声器的》 的摇动)实现。对于波场合成系统,该矢量Y可以包含该系统的所有扬 声器信号(通常地〉M)。在这种情况下,该矩阵M也包含延迟、全通滤 波器,并且滤波器通常去实现对应于与^、 A和》相关的虚拟源的波 场的发出。在权利要求中,具有延迟、全通滤波器和/或通常作为M的 矩阵元素的滤波器的类似(29)的关系式表示在N中元素的线性组合。
修改分解的音频信号 控制声基的宽度
通过修改估算的方向因子,例如,A(i,k),人们可以控制虚拟声级 的宽度。通过以大于1的因子线性标度方向因子,属于该声级的仪器 被进一步移动到侧面。相反可以通过以小于1的因子标度实现。做为 选择的,人们可以修改用于计算局部直达声的角度的幅度摇动定律 (20)。
修改在局部的直达声和独立的声音之间的比率
为了控制周围环境的数值,人们可以标度独立的横向声音信号A
和A,以便得到或多或少地周围环境。类似地,可以利用标度i'信号
在强度方面修改局部的直达声。 修改立体声信号
人们还可以无需增加声道的数目使用用于修改立体声信号提出的 分解。在这里,该目的仅仅是或者修改虚拟声级的宽度,或者在局部 的直达声和独立的声音之间的比率。在这种情况下,用于该立体声输 出的子频带是
这里该因子V,和V2用于控制在独立的声音和局部的声音之间的比 率。对于V-1,同样,该声级的宽度被修改(而在这种情况下,V2被修 改以补偿对于V-l在局部的声音方面电平变化)。
通用化为两个以上的输入声道
总之表明,用于两个输入声道情形的A、 A^和S'的产生如下(这
是最小均方估算的目的)。该横向独立的声音^是通过从x,除去同样
包含在X2中的信号分量计算的。类似地,^是通过从&除去同样包 含在&中的信号分量计算的。计算该局部的直达声i',使得其包含存
在于X,和X2两者之中的信号分量,并且A是计算的幅度比率,》以 该比率被包含在X,和X2中。A表示局部的直达声的方向。
作为一个例子,现在描述具有四个输入声道的方案。假定具有如
在图17(a)中举例说明的扬声器信号x,至X4的四声道立体声系统被认为 是扩展为如在图17(b)中举例说明的更多的播放声道。与在两个输入声 道情形下类似,计算独立的声音声道。在这种情况下,这是四个(或者 如果想要更少的)信号A、 〈;、 A ;和A。这些信号被在与如上对于两
个输入声道情形所述相同的精神下计算。也就是说,该独立的声音M是 通过从X,除去或者同样包含在X2或者X4(相邻的四声道立体声扬声器 的信号)中的信号分量计算的。类似地,计算A、 A和A。对于相邻 的扬声器的每个声道对计算局部的直达声,即,S'l2、 S'23、》34和纟41。 计算该局部的直达声^u,使得其包含存在于X,和X2两者之中的信号 分量,并且A12是计算的幅度比率,S',2被以该比率包含在X,和X2 中。A12表示局部的直达声的方向。由于类似的理由,计算^'23、 }34和 》41、 A23、 A34禾BA^。为了在图17(b)中示出的具有十二个声道的系统 上播放,A、 A、 A^和A被从扬声器以信号y^ y4、 y7和y!2发出。 对于前扬声器力至y4,类似的算法被应用于供发出;',2的两个输入声道 情形,即,在最接近于由A12限定的方向的扬声器对上的》u的幅度摇
动。类似地,》23、 S'34和》4,被作为A23、 A34和A4,的函数从指向三个
其他侧面的扬声器阵列发出。做为选择的,如在两个输入声道情形下, 可以作为平面波发出该独立的声音声道。同样,通过对于在图17(b)中 的每个扬声器使用供两个输入声道情形的波场合成类似的精神定义虚 拟源,在具有围绕收听者的扬声器阵列的波场合成系统上播放是可能 的。同样,这个方案可以被类似于(29)地通用化,这里在这种情况下, 矢量N包含所有计算的独立的和局部的声音声道的子频带信号。
由于类似的理由,5.1多声道环绕音频系统可以扩展为以五个以上 主扬声器播放。但是,中央声道需要特别的注意,因为通常在这里生 成内容,幅度摇动应用在左前和右前之间(不经中央)。有时幅度摇动也 应用在左前和中央之间,和右前和中央之间,或者同时地在所有三个 声道之间。与先前描述的四声道立体声例子相比,这是不同的,这里 我们已经使用信号模拟假定仅仅在相邻的扬声器对之间存在公共的信 号分量。或者人们因此考虑到这些去计算局部的直达声,或者更简单 的解决方案是将前面的三个声道下混合为两个声道,并且然后应用该 系统描述为四声道立体声。
一种用于将具有两个输入声道的方案扩展用于更多的输入声道的
更简单的解决方案是,在某些声道对之间启发式地应用供两个输入声 道的方案,然后合成产生的分解以在四声道立体声的情形下计算例如,
;;、〈;、;;、;;、S'12、 S'23、 S'34、 y41、 A12、 A23、A34和A41。这 些的播放可用作供四声道立体声情形的描述。
用于立体混响声扬声器信号的计算
该立体混响声系统是特点在于信号与特定的播放设置无关的环绕 音频系统。 一阶立体混响声系统以以下的信号为特色,其被相对于在 空间中特定的点p定义
X = S cos\|/ cos<J> y = S sin\|/ cos4>
这里W二S是(全方向的)在P中的声压信号。该信号X、 Y和Z是 在P中从偶极天线获得的信号,即,这些信号在笛卡儿坐标方向x、 y 和z中(这里源点是在点P)与粒子速度成正比。角度V);和0分别地表示方 位角和仰角(球极坐标)。所谓的"B格式"信号另外以用于W、 X、 Y 和Z的VJ的因子为特色。
为了产生用于在M个声道三维的广播系统上播放的M个信号,计 算表示从八个方向x、 -x、 y、 -y、 z、 -z得到的声音的信号。这是通过 合成W、 X、 Y和Z以得到方向性(例如,心脏形曲线)响应完成的,例 如,(31)
A-W + X x3 = W + Y x5 = W+ Z
x2 = W-X Xj = W — Y x6 = W-Z
给出这些信号,如为描述以上四声道立体声系统类似的理由被用 于计算八个独立的声音子频带信号(或者如果期望的话更 少)A(1^^8)。例如,该独立的声音众是通过从X,除去或者同样包含 在空间地相邻声道X3、 X4、 Xs或者X6中的信号分量计算的。另外, 就按在相邻的对之间或者三倍的输入信号局部的直达声以及表示其方 向的方向因子。给出这个分解,类似地如在先前的四声道立体声例子
中描述的,在扬声器上发出该声音,或者通常(29)。
对于二维的立体混响声系统,
<formula>formula see original document page 24</formula>
(33)
结果形成四个输入信号Xl至x4,该处理类似于描述的四声道立体 声系统。
矩阵环绕的解码
矩阵环绕编码器将多声道音频信号(例如,5.1环绕信号)下混频为 立体声信号。表示多声道音频信号的这个格式表示"矩阵环绕"。例 如,5.1环绕信号的声道可以由矩阵编码器以以下的方式下混频(为简单
起见,我们忽略低频效果声道)
<formula>formula see original document page 24</formula>
这里I、 r、 c、 U和G分别地表示左前、右前、中央、左后和右后 部声道。j表示卯度相移,并且-j是-90度相移。其它的矩阵编码器可 以使用描述的下混频的变型。
与先前对于2至M个声道转换所描述的类似,人们可以将空间分 解适用于矩阵环绕下混频信号。因此,对于每个子频带,每次独立的 声音子频带,计算局部的声音子频带和方向因子。独立的声音子频带 和局部的声音子频带的线性组合被从该环绕系统的每个扬声器发出, 也就是说,发出矩阵解码的环绕信号。
注意到,由于在矩阵的环绕下混频信号中的异相分量,标准化的 相关很可能同样采用负值。如果是这种情形,相应的方向因子将是负 值,表示在原始多声道音频信号中声音来源于后面的声道(在矩阵下混 频之前)。
这种解码矩阵环绕的方式是非常有吸引力的,因为其具有低的复 杂度,并且同时丰富的周围环境是由估算的独立的声音子频带再现的。 不需要产生人造的周围环境,其是完全可计算的集合体。
实施例细节
为了计算子频带信号,可以使用离散(快速)傅里叶变换(DFT)。为 了降低由复杂度降低和更好的音频质量激发的频带的数目,该DFT频 带可以被合成使得每个合成的频带具有由人类听觉系统的频率分辨率 激发的频率分辨率。该描述的处理过程然后对于每个合成的子频带执 行。做为选择的,可以使用正交镜像滤波器(QMF)组或者任何其它的非 级联的或者级联的滤波器组。
两个临界信号类型是瞬态和静态的/音调的信号。为了有效地阐明 两者,可以以自适应的时间-频率分辨率方式使用滤波器组。将检测瞬 态,并且该滤波器组的时间分辨率(或者做为选择的,仅该处理过程) 将被增加以有效地处理该瞬态。静态的/音调的信号分量同样将被检测, 并且该滤波器组的时间分辨率和/或处理过程对于这种类型的信号将被 降低。作为用于检测稳定的/音调的信号分量的准则,人们可以使用"音 调测量"。该算法我们的实施例使用快速傅里叶变换(FFT)。对于44.1kHz采 样速率,我们使用在256和1024之间的FFT大小。我们合成的子频带 具有大约人类听觉系统的两倍临界带宽的带宽。这导致对于44.1kHz 采样速率使用大约20个合成的子频带。
应用例子 电视机
为了播放基于立体声视听TV内容,为了得到"稳定的中心"(例 如,电影对白出现在屏幕的中央,用于在所有位置上的收听者)的好处 可以产生中央声道。做为选择的,如果想要的话,立体声可以转换为 5.1环绕。
立体声到多声道转换盒
转换设备将转换音频内容为一种适用于在两个以上的扬声器上播 放的格式。例如,这个盒子可以被用于立体声音乐播放器,并且连接 到5.1扬声器装置。该用户可以具有多种选择具有前虚拟级的立体声 +中央声道5.1环绕,和具有环绕收听者的±110°虚拟声级的周围环境 5.1环绕,或者所有扬声器安排在前面,用于更好的/更宽的前虚拟级。
这样的转换盒可以以立体声模拟线路输入音频输入和/或数字 SP-DIF音频输入为特色。该输出或者是多声道线路输出,或者做为选 择的数字音频输出,例如,SP-DIF。
具有改进的播放性能的设备和装置
就以更多的扬声器播放立体声或者多声道环绕音频内容而言,与 传统地相比较这样的设备和装置将支持改进的播放。此外,它们可以 支持转换立体声内容为多声道环绕内容。
多声道扬声器装置
多声道扬声器装置展望具有转换其音频输入信号为其特点用于每 个扬声器的信号的性能。
汽车音响
汽车音响是一个挑战性话题。由于收听者的位置,和由于障碍物 (座位、各个收听者人体),以及用于扬声器放置的限制,其很难播放立 体声或者多声道音频信号,使得它们再现好的虚拟声级。该提出的算 法可以用于计算用于设置在特殊位置上的扬声器的信号,使得虚拟声 级对于不在棒头击球面的中心点中的收听者被改善。
其他的使用领域
描述了用于立体声和多声道音频信号的知觉地激发的空间分解。 横向独立的声音和局部的声音以及其特定的角度(或者电平差)被在许 多的子频带中和作为时间函数估算。给出一个假设的信号模拟,计算 这些信号的最小均方估算。
此外,其描述了该分解的立体声信号可以如何在多个扬声器、扬 声器阵列和波场合成系统上播放。此外,其描述了提出的空间分解如 何应用于"解码"用于多声道扬声器播放的立体混响声信号格式。此
外,其略述了描述的原理如何应用于麦克风信号、立体混响声B格式 信号和矩阵的环绕信号。
权利要求
1.一种从多个输入音频声道(x1,...,xL)产生多个输出音频声道(y1,...,yM)的方法,其中输出声道的数目等于或者高于输入声道的数目,该方法包括步骤-利用输入子频带X1(i),...,XL(i)的线性组合,计算表示信号分量的一个或多个独立的声音子频带,该信号分量在输入子频带之间是独立的;-利用输入子频带X1(i),...,XL(i)的线性组合,计算一个或多个局部的直达声子频带,其表示被包含在一个以上的输入子频带中的信号分量,和计算表示比率的相应的方向因子,这些信号分量被以该比率包含在两个或更多个输入子频带中;-产生输出子频带Y1(i)...YM(i),包括步骤-将输出子频带设置为零;-对于每个独立的声音子频带,选择输出子频带的子集,并且将这些添加给相应的独立的声音子频带的缩放版本;-对于每个方向因子选择一对输出子频带,并且将这些添加给相应的局部的直达声子频带的缩放版本;-将输出子频带,Y1(i)...YM(i),转换为时域音频信号y1...yM。
2. 根据权利要求1的方法,其中,至少一个独立的声音子频带N(i) 是通过从输入子频带中除去也存在于另一输入子频带的一个或多个之 中的信号分量计算的,并且在至少一个选择的一对输入子频带上,局部的直达声子频带S(i)是按照包含在属于相应的对的输入子频 带中的信号分量计算的,并且方向因子A(i)被计算为一比率,直达声子 频带S(i)被以该比率包含在属于相应的对的输入子频带中。
3. 根据权利要求1或者2的方法,其中,独立的声音子频带N(i), 局部的直达声子频带S(i),和方向因子A(i)的计算被计算为输入子频带 Xi(i)...XL(i)、输入子频带功率、和在输入子频带对之间的标准化互相关的函数。
4. 根据权利要求1至3的方法,其中,独立的声音子频带N(i)和 局部的直达声子频带S(i)的计算是输入子频带XKi)...XL(i)的线性组合,这里线性组合的权重是借助于最小均方准则确定的。
5. 根据权利要求4的方法,其中,估算的独立的声音子频带N(i) 和局部的直达声子频带S(i)的子频带功率被调整,使得其子频带功率等 于被计算为输入子频带功率和在输入子频带对之间标准化的互相关的 函数的相应的子频带功率。
6. 根据权利要求1至5的方法,其中,输入声道x卜.XL仅是多声 道音频信号x,…Xd的声道的子集,这里输出声道y卜.yM被以无处理的 输入声道补充。
7. 根据权利要求1的方法,其中,输入声道x卜.XL和输出声道 yi...yM对应于用于位于相对于特定的收听位置的特定的方向上的扬声 器的信号,并且输出信号子频带的产生如下-独立的声音子频带N(i)和局部的直达声子频带S(i)的线性组合使 得该输出子频带Y"i)...YM(i)按照以下产生独立的声音子频带N(i)被混合进输出子频带中,使得模拟预先定 义的方向发出相应的声音;局部的直达声子频带S(i)被混合进输出子频带中,使得模拟由相 应的方向因子A(i)确定的方向发出相应的声音。
8. 根据权利要求7的方法,其中,通过将子频带信号应用于对应 于最接近于特定的方向的扬声器的输出子频带来模拟特定的方向发出声音。
9. 根据权利要求7的方法,其中,通过将具有不同增益的相同的子频带信号应用于对应于直接邻近于特定的方向的二个扬声器的输出 子频带来模拟特定的方向发出声音。
10. 根据权利要求7的方法,其中,通过将具有特定的延迟和增 益因子的相同的滤波子频带信号应用于多个输出子频带以模拟声波场 来模拟特定的方向发出声音。
11. 根据权利要求l至10的方法,其中,该独立的声音子频带N(i)、 局部的声音子频带S(i)和方向因子A(i)被修改以控制再现的虛拟声级这 样的宽度的属性,并且指向独立的声音比率。
12. 根据权利要求1至11的方法,其中,所有的方法步骤被作为 时间的函数重复。
13. 根据权利要求12的方法,其中,该处理的重复率适用于特定 的输入信号特性,诸如,瞬态的存在或者静态的信号分量。
14. 根据权利要求1至13的方法,其中,使用模拟人类听觉系统 的频率分辨率的准则选择子频带的数目和相应的子频带带宽。
15. 根据先前权利要求的任何一个的方法,其中,该输入声道表 示立体声信号,并且该输出声道表示多声道音频信号。
16. 根据权利要求1至14的方法,其中,该输入立体声声道表示 矩阵编码的环境信号,并且该输出声道表示多声道音频信号。
17. 根据权利要求1至14的方法,其中,该输入声道是麦克风信 号,并且该输出声道表示多声道音频信号。
18. 根据权利要求1至14的方法,其中,该输入声道是立体混响 声B格式信号的线性组合,并且该输出声道表示多声道音频信号。
19. 根据权利要求1至18的方法,其中,该输出多声道音频信号表示用于在波场合成系统上重放的信号。
20. —种音频转换设备,其中该设备包括执行权利要求1至19的 方法中的一个方法的步骤的装置。
21. 根据权利要求20的音频转换设备,其中,该设备被嵌入在音 频汽车系统中。
22. 根据权利要求20的音频转换设备,其中,该设备被嵌入在电 视或者电影院系统中。
全文摘要
提出了一种知觉地启发的用于双声道立体声音频信号的空间分解,捕获有关虚拟声级的信息。该空间分解允许重新合成用于在除双声道立体声之外的其它的声音系统上播放的音频信号。借助于更靠前的扬声器的使用,虚拟声级的宽度可以增加超出+/-30°,并且可受的中心点区域被扩展。可选择地,横向独立的声音分量可以在收听者的两侧上分别地在扬声器上播放以提高收听者包络。其也解释环绕声和基于波场合成的音频系统可以如何使用空间分解。按照本发明适用于多个音频信号的主要实施例,提出了从多个输入音频信号(x<sub>1</sub>...,x<sub>L</sub>)中产生多个输出音频信号(y<sub>1</sub>,...,y<sub>M</sub>),其中输出的数目等于或者高于输入信号的数目,这个方法包括步骤利用输入子频带X<sub>1</sub>(i),...,X<sub>L</sub>(i)的线性组合的方式,计算表示信号分量的一个或多个独立的声音子频带,信号分量在输入子频带之间是独立的;利用输入子频带X<sub>1</sub>(i),...,X<sub>L</sub>(i)的线性组合的方式,计算表示被包含在输入子频带的一个以上中的信号分量的一个或多个局部的直达声子频带,和计算表示一比率的相应的方向因子,这些信号分量被以该比率包含在两个或多个输入子频带中;产生输出子频带信号Y<sub>1</sub>(i)...Y<sub>M</sub>(i),这里每个输出子频带信号是独立的声音子频带和局部的直达声子频带的线性组合;将输出子频带信号Y<sub>1</sub>(i)...Y<sub>M</sub>(i)转换为时域音频信号y<sub>1</sub>...y<sub>M</sub>。
文档编号H04S5/00GK101341793SQ200680032228
公开日2009年1月7日 申请日期2006年9月1日 优先权日2005年9月2日
发明者克里斯托夫·法勒 申请人:Lg电子株式会社