专利名称:生成3d声音的方法和设备的制作方法
技术领域:
本发明涉及处理音频数据的设备。本发明还涉及处理音频数据的方法。本发明进一步涉及程序单元。并且,本发明涉及计算机可读介质。
背景技术:
随着虚拟空间中的声音处理开始吸引人们的注意,音频声音,特别是3D音频声音在提供人造的真实感方面变得越来越重要,例如在各种游戏软件和与图像结合的多媒体应用中。在音乐中频繁使用的很多效果之中,声场效果被认为是重新产生在特殊空间中听到
的声音的一种尝试。在本上下文中,经常被称作空间声音的3D声音是这样的声音,其被处理以便给听众提供(虚拟)声音源在三维环境中的特定位置上的印象。在从特定方向到达听众的声学信号到达听众两个耳朵中的鼓膜之前,该信号与听众身体部分进行交互。这种交互的结果是,到达鼓膜的声音被从听众肩膀的反射、与头的交互、耳廓响应和耳道中的共振所修改。可以说身体对到来的声音有滤波效果。具体滤波特性取决于声源位置(相对于头)。并且,由于声音在空气中的速度有限,根据声源位置能够注意到显著的耳间(inter-aural)时延。最近更多地被称为解剖学转移函数(ATF)的头部相关转移函数(Head-Related Transfer Functions, HRTF)是声源位置处方位角和仰角 (elevation)的函数,其描述了从特定声源方向到听众鼓膜的滤波效果。HRTF数据库是通过关于声源测量从大的位置集合(通常在1到3米的固定距离上, 在水平和垂直方向上分隔开大约5到10度)到两耳的转移函数来构建的。这种数据库可以针对各种声学条件而获得。例如,在消声环境中,由于不存在反射,HRTF只捕捉从位置到鼓膜的直接转移。HRTF还可以在回声条件下测量。如果还捕捉到反射,这种HRTF数据库则是房间特定的。HRTF数据库经常用于定位“虚拟”声源。通过用一对HRTF卷积声音信号,并将作为结果得到的声音通过耳机呈现出来,则听众能够感知到该声音是从对应于HRTF对的方向过来的,这与感知到声源“在头中”相反,其中后者发生在当未处理的声音通过耳机呈现出来的时候。在这个方面,HRTF数据库是定位虚拟声源的受欢迎的手段。其中使用HRTF数据库的应用包括游戏、电话会议设备和虚拟现实系统。本发明的目标和内容
本发明的目标是改善用于产生空间化声音的音频数据处理,允许以高效的方式对多个声源进行虚拟化。
为了达到上述目标,提供了定义在独立权利要求中的处理音频数据的设备、处理音频数据的方法、程序单元和计算机可读介质。根据本发明的实施例,提供了一种处理音频数据的设备,其中该设备包括输入端,用于接收包括多个音频输入信号的组合信号;滤波单元(103),适用于根据滤波器系数 (SF1,SF2)对所述组合信号进行滤波,结果产生至少两个音频输出信号(0S1,0S2),和参数变换单元(104),适用于接收表示所述音频输入信号的声源的空间位置的位置信息、表示每个声源在频带中的能量的谱功率信息以及转移函数参数,该参数变换单元适用于基于该位置信息、该谱功率信息和转移函数参数生成所述滤波器系数(SF1,SF2),并且其中该参数变换单元(104)适用于通过使用每个声源在频带中的能量加权每个声源的空间参数来生成平均空间参数集以及响应于所述平均空间参数集确定所述滤波器系数。并且,根据本发明另一个实施例,提供一种处理音频数据的方法,该方法包括如下步骤接收包括多个音频输入信号的组合信号,根据滤波器系数对所述组合信号进行滤波, 结果产生至少两个音频输出信号,接收表示所述音频输入信号的声源的空间位置的位置信息、表示每个声源在频带中的能量的谱功率信息以及转移函数参数,基于该位置信息、该谱功率信息和转移函数参数生成所述滤波器系数,通过使用每个声源在频带中的能量加权每个声源的空间参数来生成平均空间参数集,以及响应于所述平均空间参数集确定所述滤波器系数。根据本发明处理音频数据可由计算机程序、即由软件来实现,也可利用一个和更多专用电子最优化电路、即硬件来实现,还可以混合的形式、即借助软件组件和硬件组件来实现。常规的HRTF数据库就信息量来说通常非常大。每个时域冲激响应可以包括约64个采样(对低复杂度,消声条件)大到几千个采样长(在混响房间内)。如果HRTF 对是以在垂直和水平方向上的10度的分辨率来测量,则要被存储的系数量达到至少 360/10*180/10*64=41472个系数(假设64采样冲激响应),但是能够容易地达到更高的数量级。对称的头将会需要(180/10)* (180/10) *64个系数(是41472个系数的一半)。根据本发明的特征性特征尤其具有如下优点,对多个虚拟声源的虚拟化可以以几乎独立于虚拟声源数目的计算复杂度得以实现。换句话说,可以有益地对多个同时的声源以粗略地等于单个声源的处理复杂度来进行合成。通过降低的处理复杂度,可以有益地实现实时处理,即使是对大量声源也可以实现。本发明实施例预期的另一个目标是在听众鼓膜处再现这样的声压级,即该声压级等于如果将实际声源放置在虚拟声源的位置(3D位置)中将会出现的声压。在进一步的方面,目的在于产生丰富的听觉环境,其可对视觉减弱的人和有视力的人用作用户接口。根据本发明的应用能够呈现(rendering)虚拟声学声源,所述虚拟声学声源给听众以该源处于它们的正确空间位置的印象。本发明的进一步实施例将在后面结合从属权利要求来进行描述。现在将描述处理音频数据的设备实施例。这些实施例还可应用于处理音频数据的方法、计算机可读介质和程序单元。在本发明的一个方面中,如果音频输入信号已经被混合,则每个个别音频输入信号的相对等级可以基于谱功率信息而在一定程度上得到调整。这种调整只能在一定限度内 (例如,最大变化6和IOdB)进行。通常,由于信号等级尺度与声源距离的倒数成近似线性关系的事实,距离效果比IOdB大得多。有益地,该设备可以另外还包括缩放单元,其适用于基于增益因子对音频输入信号进行缩放。在本上下文中,参数变换单元可以另外还适用于有益地接收表示音频输入信号声源距离的距离信息,并基于所述距离信息生成增益因子。由此,可以以简单且令人满意的方式获得距离效果。通过该距离增益因子可以减1。声源功率可以因此根据声学原理建模或改变。可选地,由于可以适用于远距离声源的情况,增益因子将会反映空气吸收效应。因此,可获得更现实的声音感受。根据实施例,滤波单元基于快速傅立叶变换(FFT)。这样可实现高效和快速处理。HRTF数据库可包括虚拟声源位置的有限集合(通常在固定距离和5到10度的空间分辨率)。在很多情况下,不得不为测量位置之间的位置生成声源(特别是如果虚拟声源正随时间移动)。这种生成需要对可获得的冲激响应进行内插。如果HRTF数据库包括针对垂直和水平方向的响应,则必须对每个输出信号实施内插。因此,对每个声源来说,需要对每个耳机输出信号进行4个冲激响应的组合。如果有更多声源必须同时被“虚拟化”,则所需冲激响应的数目变得更加重要。在本发明的有益方面,HRTF模型参数和代表HRTF的参数可以在被存储的空间分辨率之间被内插。通过根据本发明在常规HRTF表上提供HRTF模型参数,可以实现有益的更快处理。根据本发明的系统的主要应用领域是处理音频数据。然而,本系统可以嵌入在除了音频数据之外还处理附加数据,例如与视觉内容相关的数据的情形中。因此,本发明可以在视频数据处理系统框架内实现。根据本发明的设备可被实现为下述一组设备中的其中一种,该组设备包括车辆音频系统、便携式音频播放器、便携式视频播放器、头盔显示器(head-mounted display)、移动电话、DVD播放器、⑶播放器、基于硬盘的媒体播放器、互联网无线电设备、公共娱乐设备和MP3播放器。尽管提到的这些设备与本发明主要应用领域有关,但是任意其它的应用也是可以的,例如在电话会议或远程出席(tel印resence);为视觉减弱的人提供的音频显示器;远程学习系统和用于电视电影的专业声音和图片编辑,以及喷气式战斗机(3D音频可以帮助飞行员)和基于PC的音频播放器。根据将在下面描述的实施例,本发明上面定义的方面和进一步的方面是明显的, 并将结合这些实施例进行解释。附图的简要说明
本发明将在下面结合实施例的例子对本发明进行更加详细的描述,本发明不限于这些例子。
图1示出了根据本发明优选实施例处理音频数据的设备。图2示出了根据本发明进一步实施例处理音频数据的设备。图3示出了根据本发明实施例,包括存储单元的处理音频数据的设备。图4详细示出了在图1或图2所示处理音频数据的设备中实现的滤波单元。
图5示出了根据本发明实施例的又一个滤波单元。实施例的说明
附图中的图解是示意性的。在不同附图中,同样的附图标记表示相似的或同一个元素。现在将参照图1,对根据本发明实施例的处理输入音频数据\的设备100进行描述。设备100包括求和单元102,该求和单元102适用于接收多个音频输入信号Xi,以便从该音频输入信号\生成总和信号SUM。总和信号SUM被提供给滤波单元103,该滤波单元103适用于基于滤波器系数,即在当前例子中的第一滤波器系数SFl和第二滤波器系数 SF2,对所述总和信号SUM进行滤波,得到第一音频输出信号OSl和第二音频输出信号0S2。 下面给出对滤波单元103的详细描述。并且,如图1所示,设备100包括参数变换单元104,该参数变换单元104适用于接收一方面表示所述音频输入信号\声源空间位置的位置信息Vi和另一方面表示所述音频输入信号\谱功率的谱功率信息Si,其中该参数变换单元104适用于基于对应于输入信号的位置信息\和谱功率信息Si生成所述滤波器系数SF1、SF2,并且其中该参数变换单元 104另外还适用于接收转移函数参数以及另外根据所述转移函数参数生成所述滤波器系数。图2示出了在本发明进一步实施例中的配置200。配置200包括根据图1所示实施例的设备100并且另外还包括缩放单元201,该缩放单元201适用于基于增益因子&对音频输入信号\进行缩放。在本实施例中,参数变换单元104另外还适用于接收表示音频输入信号声源距离的距离信息,并基于所述距离信息生成增益因子&,再将这些增益因子 gi提供给缩放单元201。因此,通过简单的措施可靠地获得距离效果。现在将结合图3,对根据本发明的系统或设备实施例进行更详细描述。在图3的实施例中,所示的系统300包括根据图2所示实施例的配置200,并且另外还包括存储单元301、音频数据接口 302、位置数据接口 303、谱功率数据接口 304和HRTF 参数接口 305。存储单元301适用于存储音频波形数据,音频数据接口 302适用于基于所存储的音频波形数据提供多个音频输入信号&。在本例子中,音频波形数据对每个声源以脉冲编码调制(PCM)波表格的形式存储。 然而,波形数据可被另外还或单独地存储为其它形式,例如根据标准MPEG-I层3 (MP3)、高级音频编码(AAC)、AAC-pIus等的压缩格式。在存储单元301中,还为每个声源存储位置信息Vi,且位置数据接口 303适用于提供所存储的位置信息Vi。在本例子中,优选实施例直接指向计算机游戏应用。在这种计算机游戏应用中,位置信息Vi随着时间变化并取决于空间中编程的绝对位置(即在计算机游戏场景中的虚拟空间位置),但是还取决于用户动作,例如当游戏场景中的虚拟人或用户旋转或改变他/她的虚拟位置时,相对于用户的声源位置变化或者也应该变化。在这种计算机游戏中,通过在计算机游戏场景中不同空间位置的每个乐器,从单个声源(例如从后面的射击)到复调音乐的任何情况都是可能的。同时的声源数可以例如达到64这么高,因此,音频输入信号Xi范围为从&到X64。
7
接口单元302基于所存储的大小为η的帧的音频波形数据提供多个音频输入信号 &。本例子中,向每个音频输入信号&都提供IlkHz的采样率。其它的采样率也可以,例如对每个音频输入信号\的采样率是44kHz。 在缩放单元201中,根据方程(1 ),利用每个声道的增益因子或加权gi,大小为η的输入信号Xi即被组合为总和信号SUM,即单音信号m[n]。增益因子&由参数变换单元104基于如上所述的存储的伴随有位置信息Vi的距离信息来提供。位置信息Vi和谱功率信息SiS数通常具有低得多的更新率,例如,每第11 毫秒进行更新。本例子中,每个声源的位置信息Vi由方位角、仰角和距离信息的三元组构成。可替换地,可使用笛卡儿坐标(X,y,z)或可替换的坐标。可选地,位置信息可包括组合或子集中的信息,即仰角信息和/或方位角信息和/或距离信息方面的信息。在原理上,增益因子是依赖于时间的。然而,由于所需的这些增益因子的更新率大大低于输入音频信号^Ci的音频采样率这一事实,假设增益因子& [η]对于短的时间段(如上所述,大约为11毫秒到23毫秒)是恒定的。该特性允许进行基于帧的处理,其中增益因子&是恒定的,总和信号m[n]由方程(2)来表示现在将结合图4和5对滤波单元103进行解释。图4所示的滤波单元103包括分段单元401、快速傅立叶变换(FFT)单元402、第一子带分组单元403、第一混合器404、第一组合单元405、第一逆FFT单元406、第一重叠相加单元407、第二子带分组单元408、第二混合器409、第二组合单元410、第二逆FFT单元411 和第二重叠相加单元412。第一子带分组单元403、第一混合器404和第一组合单元405构成第一混合单元413。同样地,第二子带分组单元408、第二混合器409和第二组合单元410 构成第二混合单元414。在本例子中,分段单元401适用于将进来的信号,即总和信号SUM和信号m[n]分别分段为重叠的帧,并为每个帧加窗。在本例子中,用汉明窗来加窗。还可使用其它方法, 例如韦尔奇(Welch)或三角形窗。接下来,FFT单元402适用于利用FFT将每个加窗信号变换到频域。在给出的例子中,利用FFT将每个长度为N(N=0. . N_l)的帧m[n]变换到频域这种频域表达M[k]被复制到第一声道(也被进一步称作左声道L)和第二声道(也被进一步称作右声道R)。接下来,频域信号M[k]通过为每个声道对FFT处理箱(bins)进行分组而被分割为子带b (b=0. . B-1),即通过用于左声道L的第一子带分组单元403并通过用于右声道R的第二子带分组单元408来实施分组。然后一个带接一个带地生成左输出帧 L[k]和右输出帧RDO (在FFT域中)。实际的处理包括根据相应的缩放因子修改(缩放)每个FFT处理箱(其中对当前 FFT处理箱对应的频率范围的缩放因子被存储),以及根据存储的时间或相位差来修改相位。关于相位差,该差可以以任意的方式(例如对全部两个声道(分成两个)或者只对一个声道)应用。通过滤波器系数向量提供每个FFT处理箱的相应缩放因子,即在本例子中,第一滤波器系数SFl向第一混合器404提供,第二滤波器系数SF2向第二混合器409提供。在本例子中,滤波器系数向量为每个输出信号提供用于频率子带的复数值的缩放因子。然后,在缩放之后,修改的左输出帧L[k]通过逆FFT单元406变换到时域,获得左时域信号,而右输出帧R[k]由逆FFT单元411进行变换,获得右时域信号。最后,对获得的时域信号进行重叠相加操作得到对每个输出声道的最后时域,即通过第一重叠相加单元 407获得第一输出声道信号0S1,并通过第二重叠相加单元412获得第二输出声道信号0S2。图5所示的滤波单元103’与图4所示的滤波单元103的差别在于提供去相关单元501,其适用于将去相关信号提供给每个输出声道,该去相关信号从由FFT单元402获得的频域信号导出。在图5所示的滤波单元103’中,提供与图4所示的第一混合单元413相似的第一混合单元413’,但是其另外还适用于处理去相关信号。同样地,提供与图4所示的第二混合单元414相似的第二混合单元414’,图5所示的第二混合单元414’另外还适用于处理去相关信号。在本例子中,然后按照下面的方法一个带接一个带地生成两个输出信号L[k]和 R[k](在 FFT 域中)。
权利要求
1.一种处理音频数据(Xi)的设备(100),其中该设备(100)包括输入端,用于接收包括多个音频输入信号的组合信号;滤波单元(103),适用于根据滤波器系数(SFl,SF2)对所述组合信号进行滤波,结果产生至少两个音频输出信号(0S1,0S2),和参数变换单元(104),适用于接收表示所述音频输入信号的声源的空间位置的位置信息、表示每个声源在频带中的能量的谱功率信息以及转移函数参数,该参数变换单元适用于基于该位置信息、该谱功率信息和转移函数参数生成所述滤波器系数(SF1,SF2),并且其中该参数变换单元(104)适用于通过使用每个声源在频带中的能量加权每个声源的空间参数来生成平均空间参数集以及响应于所述平均空间参数集确定所述滤波器系数。
2.根据权利要求1所述的设备(100),其中转移函数参数是表示对于每个音频输出信号的头部相关转移函数(HRTF)的参数,所述转移函数参数将频率子带中的功率和每个输出声道的头部相关转移函数之间每个频率子带的实数值相位角或复数值相位角表示为方位角和仰角的函数。
3.根据权利要求2所述的设备(100),其中每个频率子带的复数值相位角表示每个输出声道的头部相关转移函数之间的平均相位角。
4.根据权利要求1或2所述的设备(100),另外还包括缩放单元(201),适用于基于增益因子对音频输入信号进行缩放。
5.根据权利要求4所述的设备(100),其中参数变换单元(104)另外还适用于接收表示音频输入信号的声源的距离的距离信息,并基于所述距离信息生成增益因子。
6.根据权利要求1或2所述的设备(100),其中滤波单元(103)基于快速傅立叶变换 (FFT)或者实数值或复数值的滤波器组。
7.根据权利要求6所述的设备(100),其中滤波单元(103)另外还包括去相关单元,适用于向至少两个音频输出信号的每一个施加去相关信号。
8.根据权利要求6所述的设备(100),其中滤波单元(103)适用于处理滤波器系数,其中所述滤波器系数对于每个输出信号以用于频率子带的复数值缩放因子的形式提供。
9.根据权利要求1至8中任意一项所述的设备(300),另外还包括存储音频波形数据的存储装置(301),和基于所存储的音频波形数据提供多个音频输入信号的接口单元 (302)。
10.根据权利要求9所述的设备(300),其中存储装置(301)适用于将音频波形数据存储为脉冲编码调制(PCM)格式和/或压缩格式。
11.根据权利要求9或10的设备(300),其中存储装置(301)适用于存储每个时间和 /或频率子带的谱功率信息。
12.根据权利要求1所述的设备(100),其中位置信息包括仰角信息和/或方位角信息和/或距离信息方面的信息。
13.根据权利要求9所述的设备(100),实现为下述一组设备中的其中一种,该组设备包括便携式音频播放器、便携式视频播放器、头盔显示器(head-mounted display)、移动电话、DVD播放器、⑶播放器、基于硬盘的媒体播放器、互联网无线电设备、公共娱乐设备、MP3 播放器、基于PC的媒体播放器、电话会议设备和喷气式战斗机。
14.一种处理音频数据(101)的方法,其中该方法包括如下步骤接收包括多个音频输入信号的组合信号,根据滤波器系数对所述组合信号进行滤波,结果产生至少两个音频输出信号, 接收表示所述音频输入信号的声源的空间位置的位置信息、表示每个声源在频带中的能量的谱功率信息以及转移函数参数,基于该位置信息、该谱功率信息和转移函数参数生成所述滤波器系数,其中生成所述滤波器系数包括如下步骤通过使用每个声源在频带中的能量加权每个声源的空间参数来生成平均空间参数集,以及响应于所述平均空间参数集确定所述滤波器系数。
全文摘要
一种处理音频数据(101)的设备(100),其中该设备(100)包括适用于接收多个音频输入信号以用于生成总和信号的求和单元(102),适用于根据滤波器系数(SF1,SF2)对所述总和求和信号进行滤波以作为结果产生至少两个音频输出信号(OS1,OS2)的滤波单元(103),和参数变换单元(104),其适用于接收一方面表示所述音频输入信号声源空间位置的位置信息,和另一方面表示所述音频输入信号谱功率的谱功率信息,其中该参数变换单元适用于基于该位置信息和该谱功率信息生成所述滤波器系数(SF1,SF2),并且其中该参数变换单元(104)另外还适用于接收转移函数参数并根据所述转移函数参数生成所述滤波器系数。
文档编号H04S7/00GK102395098SQ20111036772
公开日2012年3月28日 申请日期2006年9月6日 优先权日2005年9月13日
发明者布里巴尔特 J. 申请人:皇家飞利浦电子股份有限公司