响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频的制作方法

文档序号:8447801阅读:552来源:国知局
响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频的制作方法
【专利说明】响应于多通道音频通过使用至少一个反馈延迟网络产生双 耳音频
[0001] 相关申请的交叉引用
[0002] 本申请要求2014年1月3日提交的美国临时申请No.61/923579的提交日期的权 益。
技术领域
[0003] 本发明涉及用于如下该样的方法(有时称为耳机虚拟化方法)和系统,其响应于 多通道输入信号通过对于音频输入信号的一组通道中的每一个通道(例如,对于所有通 道)应用双耳房间脉冲响应炬RIR)而产生双耳信号。在一些实施例中,至少一个反馈延迟 网络师脚向通道的下混应用下混BRIR的晚期混响部分。
【背景技术】
[0004] 耳机虚拟化(或双耳呈现)是一种旨在通过使用标准立体声耳机传输环绕声体验 或身临其境的声场的技术。
[0005] 早期耳机虚拟化器在双耳呈现中应用头部相关传递函数(HRT巧W传送空间信 息。HRTF是表征在无回声的环境中声音如何从空间中的特定点(声源位置)发送到收听者 的两耳的一组方向和距离相关滤波器对。可在呈现的经HRTF滤波的双耳内容中感知诸如 耳间时间差(ITD)、耳间水平差(ILD)、头部遮蔽效果、由于肩部和耳廓反射导致的谱峰和 谱凹口的必要空间线索(cue)。由于人头部大小的约束,HRTF不提供足够的或鲁棒的关于 超出大致1米的源距离的线索。作为结果,仅基于HRTF的虚拟化器通常不能实现良好的外 在化(externalization)或感知距离。
[0006] 我们日常生活中的大多数的声音事件发生在混响环境中,在该环境中,除了通过 HRTF被模型化的直接路径(从源到耳朵)W外,音频信号也通过各种反射路径到达收听者 的耳朵。反射引入了对诸如距离、房间大小和空间的其它属性的听知觉深刻影响。为了在双 耳呈现中传送该信息,除了直接路径HRTF中的线索W外,虚拟化器需要应用房间混响。双 耳房间脉冲响应炬RIR)表征在特定声学环境中从空间中的特定点到收听者的耳朵的音频 信号的变换。理论上,BRIR包含关于空间感知的所有声音线索。
[0007]图1是被配置为向多通道音频输入信号的各全频率范围通道狂1、…、Xw)应用双 耳房间脉冲响应炬RIR)的一种类型的常规耳机虚拟化器的框图。通道Xi、…、Xw中的每一 个是与相对于假定的收听者的不同源方向(即,从相应的扬声器的假定位置到假定的收听 者位置的直接路径的方向)对应的扬声器通道,并且,每个该种通道与用于相应的源方向 的BRIR卷积。需要对于每个耳朵模拟来自各通道的声音路径。因此,在本文件的剩余部分 中,术语BRIR将指的是一个脉冲响应或者与左耳和右耳相关联的一对脉冲响应。因此,子 系统2被配置为将通道Xi与BRIRi(用于相应的源方向的BRIR)卷积,子系统4被配置为将 通道Xn与BRIRn(用于相应的源方向的BRIR)卷积,等等。各BRIR子系统(子系统2、、…、 4中的每一个)的输出是包含左通道和右通道的时域信号。BRIR子系统的左通道输出在加 算元件6中被混合,并且BRIR子系统的右通道输出在加算元件8中被混合。元件6的输出 是从虚拟化器输出的双耳音频信号的左通道以元件8的输出是从虚拟化器输出的双耳音 频信号的右通道R。
[000引多通道音频输入信号还可包含在图1中被标识为"L阳"通道的低频效果(L阳)或 低音炮通道。W常规的方式,LFE通道不与BRIR卷积,而作为替代,在图1的增益级5中衰 减(例如,衰减-3地或更多),并且增益级5的输出(通过元件6和8)均等地混合到虚拟 化器的双耳输出信号的各通道中。为了使级5的输出与BRIR子系统(子系统2、、…、4) 的输出时间对准,在LFE路径中可能需要附加的延迟级。作为替代方案,LFE通道可简单 地被忽略(即,不通过虚拟化器被断言(assert)或者被处理)。例如,本发明的图2实施例 (后面将描述)简单地忽略由此处理的多通道音频输入信号的任何LFE通道。许多消费者 耳机不能精确地再现LFE通道。
[0009]在一些常规的虚拟化器中,输入信号经受到变换到QMF(正交镜像滤波器)域中的 时域到频域变换,W产生QMF域频率成分的通道。该些频率成分在QMF域中经受滤波(例 女口,在图1的子系统2、、…、4的QMF域实现中),并且,得到的频率成分典型地然后变换回 时域(例如,在图1的子系统2、、…、4中的每一个的最后级中),使得虚拟化器的音频输出 是时域信号(例如,时域双耳信号)。
[0010] 一般地,输入到耳机虚拟化器的多通道音频信号的各全频率范围通道被假定为指 示从在相对于收听者的耳朵的已知位置处的声音源发射的音频内容。耳机虚拟化器被配置 为向输入信号的每个该种通道应用双耳房间脉冲响应炬RIR)。各BRIR可分解成两个部分: 直接响应和反射。直接响应是与声音源的到达方向值0A)对应的、由于(声音源与收听者 之间的)距离而W适当的增益和延迟被调整的并且可选地对于小距离随视差效果而增扩 的HRTF。
[0011]BRIR的剩余部分模型化反射。早期反射通常是一次和二次反射,并且具有相对稀 疏的时间分布。各一次或二次反射的微结构(例如,ITD和ILD)是重要的。对于稍晚反射 (在入射到收听者之前从多于两个的表面反射的声音),回声密度随反射次数增加而增加, 并且,各单次反射的微观属性变得难W观察。对于越来越晚的反射,宏观结构(例如,整个 混响的空间分布、耳间相干性和混响延迟率)变得更重要。因此,反射可进一步分成两个部 分:早期反射(earlyreflection)和晚期混响(latereverberation)。
[0012] 直接响应的延迟是距收听者的源距离除W声音的速度,并且其水平(在没有接近 源位置的大的表面或墙壁的情况下)与源距离成反比。另一方面,晚期混响的延迟和水平 一般对源位置不敏感。由于实际的考虑,虚拟化器可选择时间对准来自具有不同的距离的 源的直接响应,并且/或者压缩它们动态范围。但是,BRIR内的直接响应、早期反射和晚 期混响之间的时间和水平关系应被保持。
[0013] 典型的BRIR的有效长度在大多数的声学环境中延长到几百毫砂或更长。BRIR的 直接应用需要与具有数W千计的抽头(tap)的滤波器卷积,该在计算上是昂贵的。另外,在 没有参数化的情况下,为了实现足够的空间分辨率,将需要大的存储器空间W存储用于不 同的源位置的BRIR。最后的但同样重要的,声音源位置可随时间改变,并且/或者,收听者 的位置和取向可随时间改变。该种移动的精确仿真需要时变BRIR脉冲响应。如果该样的 时变滤波器的脉冲响应具有许多抽头,那么该种时变滤波器的适当的内插和应用可能是挑 战性的。
[0014] 具有称为反馈延迟网络(抑脚的公知的滤波器结构的滤波器可被用于实现空间 混响器,该空间混响器被配置为对于多通道音频输入信号的一个或更多个通道应用仿真混 响。抑N的结构是简单的。它包含数个混响箱(例如,在图4中抑N中,包含增益元件gi 和延迟线的混响箱),每个混响箱具有延迟和增益。在抑N的典型的实现中,来自所有 混响箱的输出通过单一反馈矩阵被混合,并且矩阵的输出被反馈到混响箱的输入并与其求 和。可对混响箱输出进行增益调整,并且,对于多通道或双耳回放可适当地重新混合混响箱 输出(或它们的增益调整版本)。可通过具有紧凑的计算和存储器印迹的FDN产生和应用 自然发声(sounding)混响。因此,抑N已被用于虚拟化器中W补充通过HRTF产生的直接 响应。
[0015] 例如,市售的Do化yMobile耳机虚拟化器包含具有基于抑N的结构的混响器,该 混响器可操作为对于五通道音频信号(具有左前、右前、中也、左环绕和右环绕通道)的各 通道应用混响,并通过使用一组五个头部相关传递函数("HRTF")滤波器对的不同的滤波 器对来对各混响通道进行滤波。Do化yMobile耳机虚拟化器也可响应二通道音频输入信号 而操作,W产生二通道"经混响的"双耳音频输出(已被应用了混响的二通道虚拟环绕声输 出)。当经混响的双耳输出通过一对耳机被呈现和再现时,在收听者的耳膜处感知为来自位 于左前、右前、中也、左后(环绕)和右后(环绕)位置的五个扬声器的经HRTF滤波的混 响声音。虚拟化器上混经下混的二通道音频输入(没有使用与音频输入一起接收的任何空 间线索参数)W产生五个上混音频通道,对于经上混的通道应用混响,并且下混五个经混 响的通道信号W产生虚拟化器的二通道混响输出。在不同的HRTF滤波器对中对用于各上 混通道的混响进行滤波。
[0016] 在虚拟化器中,抑N可被配置为实现一定的混响衰变时间(reverbdecaytime) 和回声密度。但是,FDN缺少仿真早期反射的微观结构的灵活性。并且,在常规的虚拟化器 中,抑N的调谐和配置主要是启发式的。
[0017] 不仿真所有反射路径(早期和晚期)的耳机虚拟化器不能实现有效的外在化。发 明人认识到,使用试图仿真所有反射路径(早期和晚期)的FDN的虚拟化器在仿真早期反 射和晚期混响两者并将两者应用于音频信号时通常只获得有限的成功。发明人还认识到, 使用FDN但不具有适当地控制诸如混响衰变时间、耳间相干性和直接与晚期比的空间声学 属性的能力的虚拟化器可实现某种程度的外在化,但代价是引入过量的音色失真和混响。

【发明内容】

[0018] 在第一类的实施例中,本发明是一种响应多通道音频输入信号的一组通道(例 女口,通道中的每一个或者全频率范围通道中的每一个)产生双耳信号的方法,包括W下的 步骤;(a)对于该组通道中的每一通道应用双耳房间脉冲响应炬RIR)(例如,通过将该组通 道中的每一通道和与所述通道对应的BRIR卷积),由此产生经滤波的信号(包含通过使用 至少一个反馈延迟网络(抑脚W向该组通道中的通道的下混(例如,单音下混(mono地onic downmix))应用公共晚期混响(commonlatereverberation));和(b)组合经滤波的信 号W产生双耳信号。典型地,抑N的群被用于向该下混应用公共晚期混响(例如,使得各 抑N向不同的频带应用公共晚期混响)。典型地,步骤(a)包含向该组通道中的每一通道 应用用于该通道的单通道BRIR的"直接响应和早期反射"部分的步骤,并且,公共晚期混响 被产生W模仿单通道BRIR中的至少一些(例如,全部)的晚期混响部分的共同宏观属性 (collectivemarcoattribute)。
[0019] 用于响应多通道音频输入信号(或响应该种信号的一组通道)产生双耳信号的方 法有时在该里被称为"耳机虚拟化"方法,并且,被配置为执行该种方法的系统有时在该里 被称为"耳机虚拟化器"(或"耳机虚拟化系统"或"双耳虚拟化器")。
[0020] 在第一类的典型的实施例中,在滤波器组域(例如,混合复正交镜像滤波器 (肥QMF)域或正交镜像滤波器(QMF)域或可包含抽取(decimation)的另一变换或子带域) 中实现抑N中的每一个,并且,在一些该种实施例中,通过控制用于应用晚期混响的各抑N 的配置,控制双耳信号的频率相关空间声学属性。典型地,为了实现多通道信号的音频内 容的高效的双耳呈现,通道的单音下混被用作FDN的输入。第一类的典型的实施例包括例 如通过对反馈延迟网络断言控制值W设定所述反馈延迟网络的输入增益、混响箱(reverb tank)增益、混响箱延迟或输出矩阵参数中的至少一个来调整与频率相关属性(例如,混响 衰变时间、耳间相干性、模态密度和直接与晚期比(
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1