用于改进音频虚拟化的系统和方法与流程

文档序号:16514044发布日期:2019-01-05 09:31阅读:610来源:国知局
用于改进音频虚拟化的系统和方法与流程

本发明总体上涉及通过耳机(headphone或earphone)的三维音频再现或音频虚拟化领域。



背景技术:

双耳房间脉冲响应的捕获及其随后用于创建虚拟化声音的用法是众所周知的,参见例如国际专利申请wo2006024850。总之,双耳房间脉冲响应包括房间内声源的脉冲响应数据,例如扬声器,放置在相对于头部的特定方位,通过将麦克风放入左耳和右耳管中或周围,在头部测量其传递函数。

双耳脉冲响应的常见用途是用于通过耳机虚拟化扬声器。通过用双耳脉冲响应卷积或渲染音频信号来实现虚拟化,然后通过耳机将其呈现给收听者。在这些应用中,意图通常是在空间性、音色和房间混响方面忠实地再现真实扬声器的声音。

不幸的是,真实度,即,通过耳机听到的虚拟化扬声器相比于真实扬声器的相似程度取决于收听者是使用在他们自己的耳朵处还是在不同头部的耳朵处测量的脉冲数据。当使用在他们自己的耳朵处测量的脉冲数据时,虚拟和真实声音好像可以几乎相同,从而产生非常有效的外放体验。另一方面,使用在别处测量的脉冲数据来收听呈现的虚拟化声音,真实度通常会相当低。

尽管个性化脉冲测量(prir)非常有效,但是除非收听者能够访问具有良好声学特性的专业音响室、高质量的声音再现设备和适当的扬声器布局,否则难以获得高保真度测量。在家中进行测量,虽然足够简单,但通常只能达到它们所制造的房间的相同声学特性。提高房间的保真度通常需要对房间表面进行结构改变和巨大的声学处理,所有这些通常都超出普通收听者的范围。

因此,希望改进通过耳机(headphone或earphone)呈现的虚拟音响室或音频虚拟化。



技术实现要素:

本发明的第一方面提供了一种根据权利要求1所述的用于创建双耳房间脉冲响应数据的方法。

本发明的第二方面提供了一种根据权利要求29所述的用于修改表示双耳房间脉冲响应的数据的方法。

本发明的第三方面提供了一种根据权利要求37所述的用于产生双耳房间脉冲响应数据的数字信号处理装置。

本发明的第四方面提供了一种根据权利要求39所述的用于修改表示双耳房间脉冲响应的数据的数字信号处理装置。

本发明的第五方面提供了一种根据权利要求40所述的音频虚拟化方法。

本发明的第六方面提供了一种根据权利要求41所述的音频虚拟化系统。

本发明的优选实施例涉及修改双耳房间脉冲响应,无论是使用假人的头部还是人类受试者的头部来记录,都是为了改善虚拟化房间的真实性和声音质量。本发明的各方面提供了一种方法和装置,其允许通过操纵brir或prir数据来主观改进在耳机上呈现的虚拟音响室。

双耳房间脉冲响应包括对收听者的每个耳朵(左和右)的相应脉冲响应。当记录脉冲响应时,目标收听者可以是真人(在这种情况下,可以说得到的响应数据是对该人个性化的),或者可以是假人或除目标收听者之外的人(在这种情况下,可以说得到的响应数据是非个性化的)。每个脉冲响应的特征在于传递函数。传递函数确定或表征输入信号如何变换以产生输出信号。在房间脉冲函数的上下文中,传递函数包括头部相关传递函数(hrtf),其表征耳朵如何从空间中的点接收声音。每个脉冲响应包括头部相关脉冲响应(hrir)部分、早期反射部分和混响部分。在时域中,hrir是这些部分中的第一部分,即它包括初始时间段内的脉冲响应部分。该初始时间段对应于任何反射声音到达耳朵之前的时间段。这样,hrir可以视为脉冲响应的非房间相关部分。

早期反射部分出现在hrir部分之后,即它包括在所述初始时间段之后的第二时间段内的一部分脉冲响应。第二时间段对应于反射从房间中的表面(例如物体、墙壁、地板和天花板)到达耳朵的时间段。这些反射可以认为是早期反射,因为它们可以主要包括在到达耳朵之前已经反射过一次的信号。混响部分(也可以称为后期反射部分)出现在早期反射部分之后,即它包括在所述第二时间段之后的第三时间段内的一部分脉冲响应。第三时间段对应于进一步的反射从房间中的表面(例如物体、墙壁、地板和天花板)到达耳朵的时间段。这些反射可以认为是后期反射,因为它们可以主要包括在到达耳朵之前已经反射不止一次的信号。早期反射部分和混响部分可以认为是脉冲响应的房间相关部分。

从每个或至少一对脉冲响应(即,对于左耳和右耳中的每一个)可以确定耳间延迟(itd)。itd(也可称为耳间差异)表示两耳之间的声学路径差异。

通常,双耳房间脉冲响应数据集包括表示多个双耳房间脉冲响应的数据,每个双耳房间脉冲响应与不同的扬声器到头部方向相关联。通常,指示itd的数据包括在双耳房间脉冲响应数据集中。

双耳房间脉冲数据集用在数字信号处理装置中,例如称为音频虚拟器的类型,以将从扬声器接收的输入音频信号变换为虚拟化音频信号。通过耳机将虚拟化的音频信号呈现给收听者。因此,音频虚拟器可以包含在耳机的输入接口和输出接口之间。双耳房间脉冲数据集可以称为数字滤波器。

出于本发明的目的,prir定义为在同一个人(即,目标(人类)收听者)的耳朵处测量的双耳房间脉冲响应,其听取由这种脉冲数据(即个性化)呈现的虚拟化耳机或耳机电话声音。而brir定义为通用双耳房间脉冲响应,其不是在目标收听者的耳朵处测量的,即非个性化的。希望使用本发明以改善他们通过耳机听到的内容的人本文称为收听者。本文使用的术语“耳机(headphone)”旨在包括“耳机(earphone)”。

根据本发明的一个方面,提供了一种方法和装置,用于通过将来自收听者的prir数据集的某些信息结合到所述brir数据集中来获取brir数据集并改善该虚拟音响室的感知质量。这种方法很重要,因为收听者在他们自己的家中测量他们自己的prir相对容易,并且然后,例如,通过互联网下载从世界上的任何地方获得高质量的音响室brir。可以说本发明的这个和类似的方面涉及用另一个双耳房间脉冲响应数据集的相应的一个或多个非房间相关部分替换双耳房间脉冲响应数据集的一个或多个非房间相关部分,特别是前者是非个性化的而后者是个性化的。

根据本发明的另一方面,提供了一种方法和装置,用于通过使其混响特性和/或其早期反射特性与brir数据集的特性一致来获取收听者的prir数据集并改善所述prir虚拟音响室的感知质量。这种方法在prir和brir数据集表示相似大小的房间和扬声器布局以及它们之间的混响特性差异适中的情况下是特别有效的。该方法的示例应用是当收听者希望通过使用更高质量的brir数据集作为参考来改善其家庭影院prir数据集的声音质量时。可以说本发明的这个和类似的方面涉及用另一个双耳房间脉冲响应数据集的一个或多个相应房间相关部分替换双耳房间脉冲响应数据集的一个或多个房间相关部分,特别是后者数据集是在具有比前者数据集更好的声学特性的房间中创建的(并且通常前者数据集是个性化的而后者是非个性化的)。

根据本发明的另一方面,提供了一种方法和装置,用于允许收听者在时间和频率上手动调整prir、brir、混合prir或混合brir数据集的混响特性,作为改善其中包含的虚拟音响室的感知质量的装置。

从另一方面来看,本发明提供了一种通过改变所述brir脉冲数据的某些特征来改善非个性化双耳房间脉冲响应(brir)的感知空间和/或音色自然度的方法,以更接近地匹配在收听者自己的个性化双耳房间脉冲数据集(prir)中发现的那些特征。

有利地,所述brir的头部相关部分(hrir)被收听者自己的个性化hrir数据替换。在优选实施例中,hrir数据的一个或多个特定频率分量或一系列频率分量被替换。优选地,改变所述brir数据集的耳间定时以更接近地匹配从收听者自己的头部相关脉冲响应中提取的那些。优选地,所述brir数据集的全向头部相关传输函数(hrtf)与收听者自身的全向头部相关传递函数(hrtf)结合使用,以改变所述brir数据集的反射和/或混响部分。优选地,使用表示所述brir和收听者之间的全向hrtf之间的差异的滤波器来改变所述brir数据的反射和/或混响部分,通过直接分析两个传递函数或凭经验使用两者之间的ab听力测试来确定差异。

本发明的另一方面提供了一种通过改变所述prir或brir数据集的反射和/或混响部分的频率响应和时间衰减特性,改善任何个性化或非个性化双耳房间脉冲响应(prir或brir)的感知声音质量的方法。

在优选实施例中,改变频率响应和时间衰减以符合参考prir或brir数据集的所述特性。优选地,通过直接分析要改变的数据集和参考数据集,或者凭经验使用两者之间的ab听力测试,使所述特性符合。

在所附的从属权利要求中叙述了本发明的优选特征。

通过阅读具体实施例的以下描述并参考附图,本发明的其他有利方面对于本领域普通技术人员将是显而易见的。

附图说明

现在通过示例并参考附图来描述本发明的实施例,其中:

图1是由五个扬声器包围的头部的平面图;

图2是进行房间中单个扬声器的双耳房间脉冲测量的头部的平面图;

图3是在时域中绘制的双耳房间脉冲响应的简单图,示出了头部相关的脉冲响应(hrir)、早期反射和混响部分;

图4是进行具有最大耳间时间延迟(itd)的双耳房间脉冲测量的头部的平面图;

图5是说明用来于自prir的更高频brirhrir信息替换更高频brirhrir信息的方法或装置的方框图;

图6是说明用于来自prir的中频brirhrir信息替换中频brirhrir信息的方法或装置的方框图;

图7是说明用于产生平滑的平均hrtf响应的方法或装置的方框图;

图8是说明用于从两个平滑的平均hrtf响应直接产生均衡滤波器系数的方法或装置的方框图;

图9是说明用于通过收听通过两组hrir滤波的声音来产生均衡滤波器系数的主观ab比较方法或装置的方框图;

图10是说明使用来自prir的信息产生混合brir的步骤的方框图;

图11是说明用于直接改变prir中的混响的时间和频率特性以符合在brir中测量的以产生混合混响样本的子带方法或装置的方框图;

图12是说明用于改变prir中混响的时间和频率特性以符合在brir中听到的子带主观ab比较方法或装置的方框图;

图13是说明用于使用来自brir的信息产生混合prir的步骤的方框图;

图14是说明用于调整prir或brir的时间和频率特性以生成混合版本的子带方法或装置的方框图;

图15示出了子带混响信号的指数衰减幅度特性;以及

图16示出了用于实现动态包络控制的示例指数函数。

具体实施方式

双耳房间脉冲响应通常表示人类受试者感知的虚拟音响室中的虚拟扬声器。图1示出了示例虚拟音响室10的平面图,该虚拟音响室10包含位于圆上的五个虚拟扬声器(l、c、r、ls和rs),其中人类受试者位于中心并且其高度均在耳朵水平。为了清楚起见,人类受试者的图示仅示出了头部1以及左耳朵2和右耳朵3,其中头部指向中心扬声器4。如果这个虚拟音响室通过耳机呈现,则中心扬声器4将直接在收听者前方听到,左扬声器5在中心左侧30度左右,左环绕扬声器6将在中心左侧90度听到,依此类推。应该理解,图1的配置不限制本发明。通常,存在一个或多个扬声器,每个扬声器相对于头部位置在任何相应位置处定位(通常由相对于头部位置的方位角和仰角限定)。

图2示出了可以测量双耳房间脉冲响应的一个过程。在该示例中,左扬声器5将在房间10中测量。设置适当的头部(人或假人)到扬声器方向,使得实现期望的扬声器角度和距离。在该示例中,扬声器5位于中心左侧30度。接下来,使用位于每只耳朵中的麦克风7向扬声器5播放单个脉冲信号9并记录8双耳房间脉冲响应。该双耳房间脉冲响应包括表示每个耳朵的脉冲的数据和包含在脉冲数据中的是除别的以外的关于两耳之间的声学路径距离的信息,称为耳间时间延迟(itd),受试者外耳(或耳廓)、头部和肩部的形状,称为头部相关传递函数(hrtf)以及脉冲在到达麦克风之前在房间周围行进的所有不同路径。

通常为以下任何一个或多个创建双耳房间脉冲响应(无论是个性化的还是非个性化的):扬声器或每个扬声器;头部位置相对于扬声器或每个扬声器的方向和/或每个方向。这导致针对多个扬声器到头部方向中的每一个的相应双耳房间脉冲响应。总的来说,这些响应,或者更具体地说,表示这些响应的数据,可以称为双耳房间脉冲响应数据集,例如,brir数据集或prir数据集。

图3是用于一个耳朵记录的典型时域双耳房间脉冲响应的简单图示。从t=0开始,在扬声器脉冲首先到达耳朵之前,麦克风记录静音。然后,当使用最直接的路径到达脉冲时,记录起始点11。在接下来的3到10毫秒内,麦克风记录这种直接脉冲与受试者的耳朵、头部和肩部之间的相互作用(在时域中,这称为头部相关脉冲响应或hrir),但是在任何反射从房间表面或房间内的物体到达之前。接下来,记录从例如房间的墙壁、地板和天花板发出的早期反射12,接着是大量的后期反射13,也称为房间混响。在实践中,脉冲9很少直接用于以这种方式测量脉冲响应,因为脉冲响应信噪比通常太低。大多数测量涉及高能量信号,例如扫描或噪声,并且记录的信号去卷积以产生脉冲响应。尽管如此,图3中概述的所得脉冲特性对于所有方法都是相同的。

在本说明书中,没有尝试在时间方面严格地划分双耳房间脉冲响应中的这些hrir、早期反射或混响样本,因为这些将取决于房间的尺寸和表面特征以及该房间中的受试者的位置。然而,成人受试者在起居室中测量的双耳房间脉冲通常包括跨越第一时间段的hrir部分,例如,前5毫秒(ms),从起始点11开始(图3),然后是包括早期反射12的第二时间段,其例如可以跨越另外的50ms,然后是包括混响13的第三时间段,其可以例如包括所述200ms的另一个时间段,给出总脉冲响应,在该示例中该总脉冲响应跨越255ms。对于48khz的采样频率,这将转换为:hrir前240个样本;早期反射接下来的2400个样本;混响接下来的9600个样本。另一方面,在小型电影院中测量的双耳房间脉冲可能跨越400ms,或者在大教堂中制造的4000ms,因此显然实施例中使用的边界需要是灵活的以适应一系列测量条件。

图4示出了与图2类似的设置,不同之处在于测量中的扬声器6垂直于受试者的头部,即在中心左侧九十度处,并且升高到耳朵水平。该扬声器位置是导致左耳和右耳脉冲响应之间的最大声学路径差异或itd的位置,视为记录的脉冲响应8的脉冲起始之间的时间延迟。同样,中心右侧90度的扬声器将表现出相同的最大延迟。

当收听者自己成为双耳房间脉冲响应测量的受试者时,虚拟音响室渲染是最逼真的。换句话说,收听者必须到一个房间进行测量以获得最佳性能。不幸的是,音响室的声学特性对再现声音的感知质量具有显著影响。音乐和电影制片厂、专业聆听室和礼堂的设计考虑到了这一点,并且通常听起来比一般的起居室或家庭影院更令人愉悦。因此,收听者寻找最佳音响室进行prir测量是有道理的。这种方法的困难在于良好的音响室很少,而且可能无法被普通大众访问。因此,挑战在于创造一种装置,通过该装置,收听者可以进行由任意人在任意音响室中进行的brir测量,并且在通过他们自己的耳机收听时,改善这种非个性化音响室的虚拟真实性。以这种方式,可以通过因特网下载良好音响室的brir,例如,处理以改善特定收听者的渲染,并且用作在这样的音响室中制作的prir的替代。不会期望处理过的brir听起来优于同一房间内收听者所做的prir,但目的是使brir更容易听到。

人体声音定位和演绎受三个主要过程的影响。首先,大脑可以使用声音到达每个耳朵的时间以确定声音的方向,即,如果它首先到达左耳,则声音来自左侧。第二,声音在进入耳道之前与外耳(耳廓)、头部和肩部相互作用的方式。当耳朵之间没有时间延迟时,例如当声音直接来自前方时,大脑使用该修改以帮助确定方向。第三,接收最响声的耳朵向大脑指示,声源与该耳朵在同一侧。

对于低频声音,双耳听到的信号大致相同,因为诸如头部和耳廓等障碍物与声波的波长相比较小,并且对于这些频率基本上是不可见的。因此可以推断出双耳房间脉冲响应的低频分量在一般人群中是相似的,除了仅仅两耳之间的时间延迟,该延迟与受试者耳朵之间的距离有关。

随着声音频率的增加,与头部的相互作用水平也会增加,并且尤其是来自头部一侧或另一侧的声音在到达远侧耳道时会逐渐衰减-称为头部阴影。进一步增加声音的频率-当波长下降到受试者外耳的物理尺寸以下时,在进入耳道之前,声音通过围绕该结构设置的反射和共振来改变。这些频率也受到头部阴影的严重影响。

因此可以做出的另一个推论是,低于那些开始与外耳相互作用的brir频率主要受头部阴影的影响,并且由于头部组成和尺寸在人与人之间变化不大,因此头部之间的衰减特性可能相似。同样,受试者耳朵之间的距离变化会产生最大的影响。

另一个推论是,由于外耳的形状在一般人群中明显不同,因此brir之间的最大差异发生在声音与外耳相互作用的频带中。在个性化方面,这是一个使得音响室呈现prir声音逼真并且brir声音模糊不清的区域。更糟糕的是,聆听另一个人的prir不仅会导致虚拟扬声器位置的模糊,而且还会导致在耳机上听到的整体声音的音调或音色不自然,即它们通常听起来太洪亮或太平淡。

使用来自prir的信息修改brir

本发明的实施例的一个特征是通过将来自收听者的prir数据集的某些信息结合到所述brir数据集中来改善brir数据集的感知声音质量的设施。合并该信息的优选过程包括以下三个步骤。在替代实施例中,这些步骤中的任何一个可以单独使用,或者任何两个可以彼此组合使用。

1.使用priritd信息

首先,brir扬声器数据中的耳间时间延迟(itd)信息被收听者的等效prir扬声器数据的耳间时间延迟(itd)信息替换。在wo2006024850中公开了这种itd信息的示例。对于每个头部方向和每个扬声器(或者对于每个扬声器到头部方向),该信息优选地包括右耳到左耳延迟值,通常在分数采样时间段中测量。替换此数据可确保收听者体验与其头部大小和耳朵分离相匹配的虚拟化延迟。

2.使用prirhrir信息

其次,对于在brir中表示的每个扬声器,收听者应该具有相同或相似的扬声器位置的个性化测量(prir)。用于制作此prir的房间并不重要,因为仅使用数据集的hrir部分。参考图3,对于每个brir扬声器,脉冲响应被修改,由此hrir部分被hrir、hrir的带通滤波版本或hrir的高通滤波版本取代,取自相应的prir扬声器数据。进行这种替换的主要好处是可以显著改善直接扬声器定位,而不会影响音响室的早期反射12和混响13特性,这些特性在很大程度上定义了音响室的保真度。

参考图1,假设收听者在高质量的音响室中测量了brir,并且扬声器布局如图所示,包含左5、中心4、右、右环绕和左环绕6的五个扬声器的脉冲数据该左5、中心4、右、右环绕和左环绕6具有零仰角,并且其方位角分别为中心左侧30度、零度、中心右侧30度、中心右侧90度和中心左侧90度。对于收听者希望在该brir数据集中改进的任何扬声器,他们必须首先提供prir数据集,其中包括以相同或相似的高度、方位角和扬声器到头部距离测量的扬声器,以便为该扬声器位置提供所需的个性化数据。如果该prir数据不存在,那么收听者需要进行适当的一个或多个prir测量。图2示出了来自左5扬声器的这种测量设置。通常,这将针对其他扬声器位置重复以创建与brir的prir数据集匹配的完整prir数据集。通常,brir扬声器到头部方向将形成brir数据文件的一部分(如在wo2006024850中作为示例所公开的),或者信息将可从音响室或演播室的所有者获得。如果无法获得信息,那么收听者需要通过将文件加载到他们的耳机虚拟器中并且听取各个虚拟扬声器本身来估计相对brir扬声器位置。

图5示出了用于仅针对一个扬声器脉冲响应的一个耳朵信号用类似的hp滤波的prirhrir覆盖高通(hp)滤波的brirhrir的数据处理步骤的示例。通常,双耳脉冲响应的hrir区域包括开始并超过3至10毫秒,这取决于受试者与房间表面的接近程度。将提取的brirhrir样品加载到brir缓冲器14中,并将prirhrir样品加载到prir缓冲器25中。然后优选地使用线性相位fir滤波器或具有低相位失真的iir滤波器对缓冲器的样本25进行高通滤波17并存储26,以便尽可能多地保留相位信息。在缓冲器的brir样本14上重复相同的hp滤波17并存储18。使用单位增益重叠互补响应72还对brir样本进行低通(lp)滤波15并存储在缓冲器16中。如果hp和lp滤波器都具有类似的延迟,则过滤的数据准备好被使用,否则必须将lp滤波的样本16与hp滤波的样本18和26重新对准。接下来,计算22hp滤波后的brir18和prir26缓冲器的能量,并用于产生单个增益因子23。增益阶段的目的是确保prirhrir的感知音量与其正在替换的brirhrir相似。接下来,hp滤波后的prirhrir样本26全部乘以增益因子23并写入brirhrir缓冲器18中,覆盖旧值。最后,将两个brir缓冲器16、18相加以产生新的混合brirhrir20。然后,该新数据将覆盖原始brir扬声器文件中的旧hrir数据,同时考虑由lp和hp滤波引起的任何延迟。然后通过重复图5的步骤,对该扬声器的另一个耳朵信号重复该相同的过程。同样,对于希望修改的所有其他扬声器brir,将重复这一过程。为了清楚起见,框72中示出了优选的重叠单位增益互补lp和hp滤波器响应。

图6示出了与图5类似的过程,除了仅使用带通(bp)滤波版本的prirhrir27、26来代替bp过滤后的brirhrir样本。在这种情况下,brirhrir的lp和hp部分都保留并复制回原始brir。同样为了清楚起见,在框73中示出了重叠的lp-bp-hp滤波器响应的单位增益。

尽管图5和图6的方法仅使用prirhrir光谱的一部分,但是将原始prirhrir直接插入到brir中是完全可行的,前提是prir测量是使用全频扬声器进行的。然而,其他方法具有实际优点,因为它们允许使用比用于测量brir的扬声器小得多的扬声器进行必要的prir测量。实际上,如果将lp截止点设置在1到2khz的范围内,则可以仅使用安装在相机三脚架上的轻型高音扬声器换能器来进行prir制作。同样对于图6的三频带方法,如果lp截止点设置在1到2khz的范围内并且hp截止点设置在10到12khz的范围内,则可以进行prir制作,例如,使用安装在手持式棒上的智能手机,不仅可以输出激励音频,还可以记录双耳麦克风信号。这样的布置将大大减少进行prir测量的不便,这对改进通用brir非常重要。

尽管不需要精确匹配,用于替换brirhrir信息的prir扬声器的扬声器到头部方向优选地具有与它们正在替换的扬声器类似的方向。在收听者使用图5或图6的方法的情况下,扬声器位置中的错误表现为扬声器本身的剪切。例如,比如说prir扬声器是在中心左侧30度和耳朵水平处测量的,而修改的brir扬声器是在中心左侧35度和耳朵水平处测量的。如果使用图5的方法,交叉频率为2khz,则收听者会听到低频(dc至2khz)似乎来自左边35度的来源,而高频(2khz以上)似乎来自左边30度的来源。显然,如果收听者要听到所有频率来自空间中的单个点,最好是做一些努力来测量其扬声器位置与brir扬声器的方位角和仰角位置在几度内紧密匹配的prir,,,。然而,如果完全替换brirhrir,即不进行滤波,则由于早期反射和混响声具有较少的位置信息,所以不匹配将更不明显。此外,在实践中,扬声器到头部距离的不匹配也不太明显。在两米处测量的hrir听起来将与在三米甚至六米处测量的hrir非常相似。因此,用于此目的的prir测量通常不需要精确匹配brir扬声器距离。

3.使用prir全向hrtf信息

第三,虽然以这种方式使用prirhrir将显著提高收听者正确定位brir扬声器的能力,但早期反射和混响仍然保留用于进行brir测量的人或假人的hrtf编码。特别是如果它们的耳廓形状与收听者显著不同,则收听者可能在虚拟化房间混响中感知到不自然的音色。幸运的是,由于反射和混响是由同时从多个方向到达的脉冲组成的,因此大脑似乎无法判断定位的准确性,并因此,一个人的双耳混响通常听起来像另一个人的混响一样外放。因此,可以通过简单的均衡滤波来减少着色,而不会显著降低brir的外放性能。

为了实现这种均衡,首先需要估计brir和prir数据集的全向hrtf。通过这些估计,可以通过分析两者之间的差异直接创建均衡函数,或者通过设置允许收听者通过主观比较创建一个的a-b收听装置。然后,可以使用该响应过滤所有brir虚拟扬声器的早期反射和混响样本,以减少虚拟音响室的着色。使用brir和prir的混响数据直接计算这样的全向hrtf是不可取的,因为房间的频率响应也嵌入在这个数据中,至少对于brir的响应,我们可以假设是未知的。由于双耳房间响应中唯一未与任何房间表面接触的部分是hrir,因此该数据是更好的候选者。使用hrir的缺点是通常只有一组相对稀疏的测量,特别是brir数据集,并因此估计brirhrtf的良好全向平均值将更具挑战性。

幸运的是,许多prir/birir数据集(参见例如wo2006024850)包括围绕收听者放置的多达七个不同的扬声器并且以三个视角(即相对于扬声器的头部位置)进行测量,使得每个耳朵产生多达12个不同的hrir方向。方向的该数量可能会产生有用的平均值,但越多越好。实际上,设想prir数据集格式将在未来扩展,以包括测量音响室的受试者(人或假人)的全向hrtf数据。此后,固定数据集将自动插入由受试者制作的任何prir文件中,以帮助其他收听者自动化着色减少步骤。虽然良好的平均值将要求受试者在头部周围的均匀3d扩散中进行大约二十到三十次测量,但这不会过于繁重,因为它只需要进行一次并存储以备将来使用。另外,由于感兴趣的主要区域是由耳廓引起的平均hrir着色,如果需要,这种测量可以涉及小型扬声器或高音扬声器,并且可以有效地在任何类型的房间中进行,而不会降低数据的有效性。

图7示出了用于估计平均hrtf的一种方法。对于尽可能多的不同扬声器到头部方向的hrir,首先加载到缓冲器30。通常,对于prir和brirhrtf平均计算,优选使用具有大致相同方向的相同数量的扬声器,以使它们保持平衡。然后使用快速傅里叶变换(fft)将缓冲器30的内容转换到频域31。然后,复数系数组被单独缩放32,使得它们的dc值或低频系数幅度的平均值在所有组中匹配。然后将复系数集合在一起以形成复数平均值。然后计算33平均复系数的大小并用于替换实数值,同时将虚数值设置为零。然后在系数34上施加运行平均平滑函数,以帮助平坦化仍然存在于平均响应中的任何强极点或零点。平均响应的扬声器位置越少,平滑函数通常就越激进。对prir和brir重复该过程,得到两个平滑的全向系数数据集。图8输入该数据34并将每个prir系数与其对应的brir系数35分开,从而产生均衡曲线。然后,通过使用逆fft36转换回时域,将均衡系数转换为线性相位fir38,然后加窗37。然后通常对得到的fir系数38进行归一化,以便产生单位增益滤波器。对于每个耳朵将重复图7和8的步骤,从而产生单独的左耳和右耳均衡滤波器。本领域技术人员将理解,图7的方法仅是产生平均hrtf的一种方式,并且在不脱离本发明的该特征的精神的情况下,可以同等地部署其他方法。

图8中描述的步骤的替代方案是图9中所示的a-b收听比较过程。在该方法中,收听者将他们自己的prir全向hrir的频率响应与brir全向hrir的频率响应实时比较。这是通过收听白噪声39或覆盖感兴趣频率的任何其他信号来实现的,通过可重新配置的带通滤波器40进行滤波,其输出通过两组hrir30进行滤波,并调整均衡滤波器53,使得通过耳机45听到的滤波噪声的音量对于开关41的位置a和b都是类似的。通常,将使用覆盖感兴趣的频率范围的五至二十个均匀或不均匀的均衡带来实现良好的频率分辨率。每次调整频带增益44时,收听者将有条不紊地移动通过每个频带40、43,直到在该频带的耳机中听到a-b音量匹配。每次用户更改频带或调整频带增益时,必须重新计算均衡滤波器。动态更新均衡滤波器系数的过程遵循图8的步骤36、37和38,除了使用频带增益控制44直接修改分箱的fft实数系数42的幅度。fft系数42分组为频率区,其对应于用于使噪声信号39带通40的子带分频。以这种方式,当收听者调整频带增益时,仅改变该频带的fft系数的幅度。一旦收听者已完成调整频带增益,就可以保存最终的均衡滤波器系数组53并用于均衡brir。同样,对于每个耳朵将重复该听力测试以获得最佳结果。

图9的方法还可以通过用一系列预滤波的噪声信号文件替换39和40并且在设置频带控制43的控制下从prir和brirhrir30中选择其中一个进行卷积来实现。此外,prirhrir集30也可以仅加总成一个脉冲响应以卷积噪声信号。同样适用于brirhrir集。此外,prir和hrir集30可以由两个平滑的平均值34代替,这两个平均值已经使用步骤36、37和38转换回时域。

图10示出了优选brir改进方法的概述,其中来自brir47的耳脉冲响应由相应的prir耳脉冲响应46并由均衡滤波器53修改,以产生新的混合brir耳脉冲49。为了清楚起见,该图示不区分左耳和右耳双耳房间脉冲数据,因此如果需要单独的左/右耳处理,则需要将图10的步骤分别应用于每个耳朵。

例如,如果收听者想要修改左前扬声器5的左耳brir,则他们将从brir文件中提取那些脉冲样本并将其放置在brir缓冲器47中。同样,他们将采用prir左前扬声器的左耳脉冲样本并将它们放置在prir缓冲器46中。左耳均衡滤波器53加载有由直接方法图7/8或主观方法图9生成的滤波器系数。brirhrir数据集将包括对应于一系列头部方向的多个左耳扬声器测量值,并且prirhrir数据集将包括具有相似头部方向的多个左耳扬声器测量值。对于收听者希望在brir中修改的每个扬声器的每个耳朵进行图10的步骤,除了相同的左耳均衡滤波器53用于所有左耳扬声器响应,并且相同的右耳均衡滤波器用于所有右耳扬声器响应。

尽管图10示出了使用均衡滤波器来过滤brir的早期反射和混响部分,但是另一种方法是仅过滤混响部分并将brir的早期反射部分直接复制到混合brir上。此外,以上描述分别涉及左耳和右耳脉冲。还可以组合耳脉冲以产生用于过滤耳脉冲的单个均衡滤波器。这可能是一种更好的方法,扬声器hrir数据集的可用性有限,并且存在平均hrir太稀疏的风险。同样,图9的主观方法可以在任一模式下操作。

均衡(eq)滤波器53的频率范围可以是从dc至fs/2,或者可以在范围上限制它以关注特定的感兴趣区域。由于brir反射和混响样本中的大部分着色源于进行测量的受试者的耳廓,因此一种操作模式将操作eq滤波器,例如,在3khz至20khz的范围内。然而,由于着色也可能由受试者的其他较大的物理特征引起,因此不会重新开始对最小频率的硬限制。尽管如此,如前所述,如果收听者正在进行prir测量,目的是使用高通hrir部分替换brir数据集或者进行测量集合以创建不需要低频的全向hrtf,然后可以使用小型扬声器换能器(如高音扬声器或智能手机)而不是全频扬声器。

最后,将混合brir49加载到收听者虚拟器中并用于实时卷积音频,从而通过耳机重建虚拟音响室。

使用来自brir的信息修改prir

房间的明显声音质量在很大程度上取决于早期反射和混响的特征。通常设计高质量的音响室以实现特定的频率响应和阻尼混响特性。混响衰减率在整个频率范围内不会固定,并且对于较高频率通常会衰减得更快。房间的低频混响特别难以适当地抑制,并且通常需要专门的结构特征来控制这种传播。因此,当用作音响室时,常规起居室通常会遭受混响阻尼的缺乏,特别是在较低的音域中。因此,对于在标准的未经处理的房间中进行的prir测量,以将其混响特性修改为遵循可以在brir数据集中表示的高质量音响室或演播室的混响特性将是有益的。

虽然下面描述了许多替代实施方式,但是该方面的优选实施例采用收听者的prir数据集,并通过使其混响时间和频率特性与brir数据集的混响时间和频率特性一致来改善该虚拟音响室的感知质量。而不是如前所述尝试改善非个性化双耳房间响应(brir),如果prir的虚拟音响室具有合理的质量,那么尝试并使其听起来更像brir的虚拟音响室可能是值得的。在这种情况下,prir的hrtf部分已经是最优的,因为它是收听者的并且不包含任何房间反射或混响。prir音响室的混响频率响应和时间衰减特性可能不是最佳的。

直接使用brir混响信息

图11示出了使用子带分析滤波器组的这种方法的示例。尽管在该示例和其他示例中示出了四个子带56,但是所描述的方法对于更多或更少的频率划分也是有效的,并且频率划分可以是均匀的或不均匀的。为了清楚起见,示出了74示例性四频带非均匀划分。首先如前所述均衡brir扬声器的混响部分并将其加载到brir缓冲器61中。如果收听者只想改变prir中的较低频率混响,即太长而不能与外耳相互作用的波长,则可能不需要这种均衡步骤-在这种情况下,人们只需加载原始brir混响数据。接下来,将来自要修改的prir的同一扬声器的混响部分加载到prir缓冲器62中。使用相同的滤波器组55将混响样本滤波到单独的子带56中。然后分析57子带混响缓冲器56以估计每个的混响衰减曲线。可以以许多方式计算这种曲线。一种这样的方法是计算缓冲器中所有时间样本的绝对幅值的移动平均值,其中平均窗口跨越多个相邻样本。跨越滑动窗口的样本越多,包络越平滑。最后,从缓冲器中读出prir混响子带样本56,并且逐个样本地修改58它们的幅度并存储到新缓冲器中。还通过将对应子带brir包络的幅度除以该样本的子带prir包络的幅度,在每个采样时间段计算修改这些样本的增益因子58。以这种方式,prir子带混响衰减现在匹配相应的brir子带的衰减。然后将修改的prir混响子带重新组合59成单个全频带混响样本集60。然后使用这些混合混响样本来替换该扬声器和该耳朵的原始prir中的那些。

图11的简化是仅使用一个brir扬声器或平均brir扬声器为每个子带产生混响衰减曲线,并然后使用这些相同的参数来改变所有prir扬声器的所有混响子带,假设房间的混响特性从扬声器位置到扬声器位置没有显著变化。

使用brir混响信息作为主观参考

在图12中示出了修改prir混响以匹配brir混响的主观方法,作为直接法的替代方法。在该方法中,收听者在通过耳机收听时,通过a-b比较过程实时改变子带的增益和混响衰减曲线。如图11所述生成其样本的子带混响缓冲器56以循环方式输出到收听者的耳机中,在dac转换之前首先将样本缩放并转换为pcm。现在,耳机收听者通过选择开关68听到任何子带通过a-b开关65的自身prir混响64或brir混响63的重复混响衰减序列。该过程是有条理地遍历每个子带68并调整prir混响子带的增益66和混响包络67,使得峰值音量和衰减特性类似于在相应的brir混响子带中听到的峰值音量和衰减特性。

包络控制67通常将驱动某种类型的指数或对数函数,其中功率的大小和符号由收听者改变。这是因为房间混响表现出类似的衰减特性。每次收听者调整包络控制时,调整相应子带prir缓冲器中的混响样本的幅度以符合新的指数曲线。图15示出了四个子带中的示例性混响衰减包络,其中第四子带在缓冲器中的样本中表现出明显的指数衰减,而第三子带表现出浅层的衰减。这些仅用于说明,但概念是prir子带最终得到相应brir子带的衰减包络。关于如何动态地改变衰减包络存在许多变化,但是图16示出了用于这种函数的示例等式。该图示出了包络幅度如何随着在例如12000个缓冲器样本的范围内改变功率而变化,其中n是缓冲器56中的第n个样本,gain是增益值66并且env是包络控制值67。在图16的示例中,子带缓冲器保持12000个混响样本。显然,用于实现图12的方法的任何指数或对数函数将根据使用中的实际缓冲长度进行调整。

如图11所示,一旦收听者对子带匹配感到满意,就将prir混响子带样本重新组合成全带混响集59,并用于替换原始prir混响样本。通常对于收听者希望修改的每个扬声器的每个耳朵重复图12的方法。与图11一样,使用仅一个brir扬声器或平均brir扬声器的能量和混响衰减曲线进行简化,作为与所有不同prir扬声器的比较。

图11和12中所示的滤波器组55可以具有任何数量的频带并且可以以许多不同的方式实现。如果子带的数量相对较小,则一种方法是使用部署iir或fir的带通滤波器。带通滤波器的使用简化了非均匀子带74的设计,这些子带74更好地匹配人类对声音的感知。例如,在图11或12中,第一子带可以跨越dc至250hz,第二子带250至750hz,第三子带750至1750hz,以及第四子带1750hz至fs/2。

为了清楚起见,图13示出了使用图11的直接修改方法改善prir虚拟室的混响所采取的步骤的概述。在这个示例中,prir46和brir47的早期反射和混响样本都用于计算子带增益和衰减包络,这些包络又用于修改prir(46)中的早期反射和混响样本,从而创建混合prir49。来自prir的hrir样本无需修改即可复制。应当注意,该实施例的该特征可以仅对混响样本进行操作,或者它可以对早期反射和混响样本进行操作,并且该选择通常由收听者基于其主观偏好来选择。

图12的方法是产生图13的修改的prir早期反射和混响样本的替代方式,只要进行将prir早期反射和混响子带转换回全频带的附加步骤。同样,图12的方法可以根据收听者偏好仅使用混响,或者根据早期反射和混响样本来操作。

最后,图13中的混合brir49加载到收听者虚拟器中并用于实时卷积音频,从而通过其耳机重建虚拟音响室。

本领域技术人员将理解,有许多方法可以在时间和频率上分析和合成信号,并且图11和12的子带滤波器组方法只是实现这一目的的一种方法,并且在不脱离本发明的这个特征的精神的情况下,可以同样地部署用于此的其他方法以及相关的混响衰减分析和一致性。

修改prir或brir以改善声音

本发明的实施例的另一个特征是允许耳机收听者在时间和频率上覆盖prir、brir、均衡brir、混合prir或混合brir数据集的混响特性的设施,作为改变虚拟音响室的感知质量的手段。如前所述,通常是房间混响的受控阻尼定义了良好的音响室,在常规客厅环境中特别难以控制的阻尼,而房间本身没有重大的结构变化。

图14中所示的图11的简化消除了参考另一房间测量来修改一个房间测量的声音质量的能力。在这种情况下,收听者通过修改子带衰减来改变混响时间和频率特性,并根据他们的个人品味手动获得71。,如前面所述并在图12、15和16中示出,允许收听者修改子带衰减的一种方法是实现指数函数,其功率由71操纵。改变子带的增益也可以使用图12和16的方法。这种方法同样适用于prir、brir和内部讨论的均衡brir和混合prir/brir,并且通常与实时虚拟器一起运行,每次收听者改变包络或增益设置时,所有扬声器混响样本都在运行中进行修改,并以最小的中断加载回虚拟器。通过这种方式,收听者几乎可以立即听到他们调整的效果。滤波器组55可以具有任何数量的频带并且可以以许多不同的方式实现。如果子带的数量相对较小,则一种方法是使用部署iir或fir的带通滤波器。带通滤波器的使用简化了非均匀子带74(图11)的设计,其与人类对声音的感知更好地匹配。特别地,由于普通起居室的混响在较低的音域中具有最小的阻尼,因此该区域将是最感兴趣的。例如,在图14中,第一子带可以跨越dc至250hz,第二子带250至750hz,第三子带750至1750hz,并且第四子带可以跨越采样频率的一半(fs/2)。

图14的步骤也可以用于对包括hrir在内的整个脉冲响应进行操作,或者可以限制为仅调整早期反射样本和混响样本,或仅调整混响样本本身。此外,应当理解,包络和增益控制器71可以一起对两个耳朵信号进行操作,或者可以为每个耳朵信号提供单独的控制。

本领域技术人员将理解,有很多种方法可以在时间和频率上分析和合成信号,图11、12和14的子带滤波器组方法仅是实现该目的的一种方式并且在不脱离本发明该方面的精神的情况下,可以同样地采用其他方法和相关的混响衰减修改。

可以通过适当配置的数字信号处理(dsp)装置来实现本发明的任何方面的实施例。dsp装置可以方便地包括硬件、固件和/或软件。本文根据处理方法描述了图5至12和14的主题,但是可以同等地表示用于执行相应处理步骤的架构。本文公开的方法可以称为数字信号处理。

本发明的各方面可以体现在用于通过耳机虚拟化一组扬声器的音频系统中(其中“耳机(headphone)”旨在包括“耳机(earphone)”),其中,所述系统包括音频虚拟器,其配置为将音频扬声器信号转换为虚拟化的扬声器信号以通过耳机回放,使用一组双耳房间脉冲响应来呈现。有利地,双耳房间脉冲响应具有本文所述的修改或以其他方式体现本发明的任何各个方面。

本发明的各方面可以体现为音频虚拟器,其配置为将音频扬声器信号转换为虚拟化扬声器信号以通过耳机回放,使用一组双耳房间脉冲响应来呈现。有利地,双耳房间脉冲响应具有本文所述的修改或以其他方式体现本发明的任何各个方面。音频虚拟器实时地将音频扬声器信号转换成由耳机实时呈现的变换或虚拟化信号给收听者。

显而易见的是,本发明的优选实施例以允许收听者更好地体验他们没有机会亲自访问的虚拟音响室的方式操纵数字房间脉冲响应。

已经出于说明的目的呈现了本发明的实施例的前述描述;它并非旨在穷举或将本发明限制于所公开的精确形式。相关领域的技术人员可以理解,鉴于上述教导,许多修改和变化是可能的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1