本申请总体涉及音频处理,并且更具体地,涉及用于融合麦克风信号的系统和方法。
背景技术:
智能电话、平板电脑以及其它移动装置的激增已经从根本上改变了人们访问信息和通信的方式。人们现在在各种各样的地点(诸如拥挤的酒吧、繁忙的城市街道以及有风的户外)打电话,在这些地点中,不利的声学状况对话音通信的质量提出严重的挑战。另外,话音命令已经变成与应用中的电子装置交互的重要方法,在应用中,用户必须将他们的眼睛和手保持在诸如例如驾驶的主任务上。随着电子装置变得越来越紧凑,话音命令可能变成与电子装置交互的优选方法。然而,尽管存在语音技术的新发展,但在嘈杂状况下识别话音依然困难。因此,减轻噪声的影响对于话音通信的质量和话音识别的性能这两者是重要的。
因为耳机在使用时提供免手持便利性和私密性,所以它们是电话终端和音乐播放器的自然延伸。与其它免手持选择相比,耳机表示麦克风可以被放置在靠近用户的嘴附近的位置处的选择,在用户的嘴与麦克风之间具有受约束几何结构。这产生具有更佳信噪比(snr)且在应用基于多麦克风的噪声降低时控制更简单的麦克风信号。然而,在与传统耳机使用进行比较时,耳机麦克风离用户的嘴较远。因此,耳机不提供由用户的手和电话听筒的体积提供的噪声屏蔽效应。由于对精细且隐密的耳机的需要,耳机在近年变得更小且更轻,该问题变得甚至更具有挑战性。
在用户戴耳机时,自然使用户的耳道屏蔽外部声学环境。如果耳机向耳道提供紧密的声学密封,则被放置在耳道内部的麦克风(内部麦克风)将与外部环境声学地隔离,使得将显著衰减环境噪声。另外,在被密封的耳道内部的麦克风无风振效果。另一方面,因为用户的话音被困于耳道内部,所以它可以借助用户头部中的各种组织来传导到达耳道。由此,由内部麦克风拾取的信号与在用户耳道外部的麦克风(外部麦克风)相比应具有远远更高的snr。
然而,内部麦克风信号摆脱不了组织。首先,身体传导的话音往往使其高频内容严重衰减,由此与借助空气传导的话音相比具有远远更窄的有效带宽。此外,在身体传导话音被密封在耳道内部时,它在耳道内部形成驻波。因此,由内部麦克风拾取的话音经常听起来模糊不清且起回声,同时缺乏由外部麦克风拾取的话音的自然音色。而且,有效带宽和驻波图案跨不同用户和耳机适配状况显著变化。最后,如果扬声器也位于同一耳道中,则由扬声器形成的声音也将被内部麦克风拾取。即使通过声学回声消除(aec),扬声器与内部麦克风之间的紧密耦合也在aec之后经常导致严重的话音失真。
过去已经尝试了其它努力以利用内部麦克风信号的独特特性用于优秀噪声降低性能。然而,跨不同用户和不同使用状况保持一致性能依然具有挑战性。
技术实现要素:
提供本发明内容以按简化形式介绍下面在具体实施方式中进一步描述的概念的选择。本发明内容不旨在识别所要求保护主题的关键特征或必要特征,也不旨在用作确定所要求保护主题的范围的帮助。
根据所描述技术的一个方面,提供了一种用于融合麦克风信号的示例方法。在各种实施方式中,该方法包括以下步骤:接收第一信号和第二信号。第一信号包括至少话音分量。第二信号包括由至少人体组织修改的话音分量。该方法还包括以下步骤:处理第一信号,以获得第一噪声估计。该方法还包括以下步骤:将第二信号与第一信号对齐。该方法中还包括以下步骤:至少基于第一噪声估计,混合第一信号和已对齐的第二信号,以生成增强话音信号。在一些实施方式中,该方法包括以下步骤:处理第二信号,以获得第二噪声估计,并且混合至少基于第一噪声估计和第二噪声估计。
在一些实施方式中,第二信号表示由位于耳道内部的内部麦克风捕获的至少一个声音。在特定实施方式中,可以在使用期间密封内部麦克风,以便提供与来自耳道外部的声学信号的隔离,或者可以根据用户和内部麦克风在耳道中的用户放置来部分地密封内部麦克风。
在一些实施方式中,第一信号表示由位于耳道外部的外部麦克风捕获的至少一个声音。
在一些实施方式中,该方法还包括以下步骤:在对齐信号之前基于第一噪声估计执行第一信号的噪声降低。在其它实施方式中,该方法还包括以下步骤:在对齐信号之前,基于第一噪声估计执行第一信号的噪声降低,并且基于第二噪声估计执行第二信号的噪声降低。
根据本公开的另一个方面,提供了一种用于融合麦克风信号的系统。示例系统包括数字信号处理器,该数字信号处理器被配置为接收第一信号和第二信号。第一信号包括至少话音分量。第二信号包括由至少人体组织修改的至少话音分量。数字信号处理器可操作为处理第一信号,以获得第一噪声估计,并且在一些实施方式中,数字信号处理器可操作为处理第二信号,以获得第二噪声估计。在示例系统中,数字信号处理器将第二信号与第一信号对齐,并且至少基于第一噪声估计混合第一信号和已对齐的第二信号,以生成增强话音信号。在一些实施方式中,数字信号处理器将第二信号与第一信号对齐,并且至少基于第一噪声估计和第二噪声估计混合第一信号和已对齐的第二信号,以生成增强话音信号。
在一些实施方式中,该系统包括内部麦克风和外部麦克风。在特定实施方式中,可以在使用期间密封内部麦克风,以便提供与来自耳道外部的声学信号的隔离,或者可以根据用户和内部麦克风在耳道中的用户放置来部分地密封内部麦克风。第二信号可以表示由内部麦克风捕获的至少一个声音。外部麦克风位于耳道外部。第一信号可以表示由外部麦克风捕获的至少一个声音。
根据本公开的另外示例实施方式,用于融合麦克风信号的方法的步骤被存储在包括指令的非暂时性机器可读介质上,这些指令在由一个或更多个处理器实现时执行所列步骤。
本公开的其它示例实施方式和方面将从连同附图采取的以下描述变得清晰。
附图说明
在附图的图中以示例的方式且不限制地例示实施方式,在附图中,相同附图标记指示相同元件。
图1是根据示例实施方式的系统和使用系统的环境的框图。
图2是根据示例实施方式的适于实现本技术的耳机的框图。
图3至图5是由外部麦克风和内部麦克风捕获的信号的波形和频谱分布的示例。
图6是例示了根据示例实施方式的用于融合麦克风信号的数字处理单元的细节的框图。
图7是示出了根据示例实施方式的用于融合麦克风信号的方法的流程图。
图8是根据示例实施方式的可以用于实现用于本技术的方法的计算机系统。
具体实施方式
这里所公开的技术涉及用于融合麦克风信号的系统和方法。本技术的各种实施方式可以用被配置为接收和/或向其它装置提供音频的移动装置(诸如例如,蜂窝电话、电话听筒、耳机、可穿戴设备以及会议系统)来实践。
本公开的各种实施方式利用至少一个内部麦克风信号和至少一个外部麦克风信号的对比特性提供这两个信号的无缝融合以用于实现噪声降低与话音质量之间的最佳平衡。
根据示例实施方式,一种用于融合麦克风信号的方法可以开始于接收第一信号和第二信号。第一信号包括至少话音分量。第二信号包括由至少人体组织修改的话音分量。示例方法提供用于:处理第一信号,以获得第一噪声估计,并且在一些实施方式中,处理第二信号,以获得第二噪声估计。该方法可以包括以下步骤:将第二信号与第一信号对齐。该方法可以提供:至少基于第一噪声估计(并且在一些实施方式中,还基于第二噪声估计),混合第一信号和已对齐的第二信号,以生成增强话音信号。
现在参照图1,示出了用于融合麦克风信号的示例系统100及其环境的框图。示例系统100包括至少内部麦克风106、外部麦克风108、数字信号处理器(dsp)112以及无线电或有线接口114。内部麦克风106位于用户的耳道104内部,并且相对地被屏蔽外部声学环境102。外部麦克风108位于用户的耳道104外部,并且暴露到外部声学环境102。
在各种实施方式中,麦克风106和108为模拟的或数字的。在任一情况下,来自麦克风的输出以合适采样频率转换成同步脉冲编码调制(pcm)格式,并且连接到dsp112的输入端口。信号xin和xex分别指示表示由内部麦克风106和外部麦克风108捕获的声音的信号。
dsp112执行适当信号处理任务,以提高麦克风信号xin和xex的质量。被称为发出信号(sout)的dsp112的输出借助无线电或有线接口114被传输到期望目的地(例如,网络或主机设备116)(参见被识别为sout上行的信号)。
如果需要双向话音通信,则由网络或主机设备116从合适源(例如,经由无线电或有线接口114)接收信号。该信号被称为接收入(receive-in)信号(rin)(在网络或主机设备116处被识别为rin下行)。接收入信号可以经由无线电或有线接口114耦合到dsp112以用于必要处理。被称为接收出(receive-out)信号(rout)的所得到信号借助数模转换器(dac)110被转换成模拟信号,并且然后连接到扬声器118以呈献给用户。在一些实施方式中,扬声器118位于与内部扬声器106相同的耳道104中。在其它实施方式中,扬声器118位于与耳道104相对的耳道中。在图1的示例中,发现扬声器118处于与内部麦克风106相同的耳道中,因此,可能需要声学回声消除器(aec)来防止所接收信号到另一端的反馈。可选地,在一些实施方式中,如果没有对所接收信号的另外处理是必要的,则接收入信号(rin)可以在不穿过dsp112的情况下耦合到扬声器。
图2示出了适于实现本公开的方法的示例耳机200。耳机200包括用于用户的各耳朵的示例耳内(ite)模块202以及耳后(bte)模块204和206。ite模块202被配置为插入到用户的耳道中。bte模块204和206被配置为放置在用户耳朵的后面。在一些实施方式中,耳机200借助蓝牙无线电链路与主机设备通信。蓝牙无线电链路可以符合低功耗蓝牙(ble)或其它蓝牙标准,并且可以为了私密而以各种不同的方式加密。
在各种实施方式中,ite模块202包括关于耳道面向内的内部麦克风106和扬声器118。ite模块202可以提供耳道104与外部声学环境102之间的声学隔离。
在一些实施方式中,bte模块204和206中的每个包括至少一个外部麦克风。bte模块204可以包括dsp、控制按钮以及到主机设备的蓝牙无线电链路。bte模块206可以包括具有充电电路的合适电池。
麦克风信号的特性
外部麦克风108暴露到外部声学环境。用户的话音借助空气被传输到外部麦克风108。在外部麦克风108被放置为合理地靠近用户的嘴且无障碍时,由外部麦克风108拾取的话音听起来自然。然而,在各种实施方式中,外部麦克风108暴露到环境噪声,诸如由风、汽车以及串音背景语音生成的噪声。当存在时,环境噪声降低外部麦克风信号的质量,并且可能使得话音通信和识别困难。
内部麦克风106位于用户耳道内部。在ite模块202提供与外部环境的良好声学隔离(例如,提供良好密封)时,用户的话音主要借助身体传导被传输到内部麦克风106。由于人体的解剖构造,身体传导话音的高频内容与低频内容相比被严重衰减,并且经常降至预定噪声基底以下。因此,由内部麦克风106拾取的话音可能听起来模糊不清。用户所感知的模糊程度和频率响应可以取决于特定用户的骨骼结构、用户咽鼓管(该咽鼓管将中耳连接到上喉咙)的特定构造以及其它相关用户解剖构造。另一方面,内部麦克风106由于声学隔离而相对于免受来自环境噪声的影响。
图3示出了分别由外部麦克风108和内部麦克风106捕获的信号302和304的波形和频谱分布的示例。信号302和304包括用户的话音。如该示例例示,由内部麦克风106拾取的话音具有朝向更低频率的远远更强频谱倾斜。与由外部麦克风拾取的信号302相比,示例波形的信号304的较高频率内容被严重衰减,由此产生远远更窄的有效带宽。
图4示出了分别由外部麦克风108和内部麦克风106捕获的信号402和404的波形和频谱分布的另一个示例。信号402和404在该示例中仅包括风噪声。信号402和404的实质差别指示风噪声明显地存在于外部麦克风108处,但在该示例中在很大程度上从内部麦克风106被屏蔽。
由内部麦克风106拾取的话音的有效带宽和频谱平衡可以根据诸如用户头部的解剖构造、用户的话音特性以及由ite模块202提供的声学隔离的因素而显著变化。即使在完全相同用户和耳机的情况下,状况也可能在穿戴之间显著变化。最显著可变因素中的一个是由ite模块202提供的声学隔离。当ite模块202的密封紧密时,用户的话音主要借助身体传导到达内部麦克风,并且其能量被良好地保持在耳道内部。因为由于紧密密封,环境噪声在很大程度上被阻止进入耳道,所以内部麦克风处的信号具有非常高的信噪比(snr),但通常具有非常有限的有效带宽。在外部环境与耳道之间的声学泄漏(例如,由于ite模块202的部分密封)变得显著时,用户的话音还借助空气传导到达内部麦克风,由此有效带宽提高。然而,随着环境噪声进入耳道且身体传导话音逸出耳道,内部麦克风106处的snr也可能降低。
图5示出了分别由外部麦克风108和内部麦克风106捕获的信号502和504的波形和频谱分布的又一个示例。信号502和504包括用户的话音。图5中的内部麦克风信号504具有比图3的内部麦克风信号304更强的更低频内容,但在2.0-2.5khz之后具有非常强的滚降。相比之下,图3中的内部麦克风信号304具有更低电平,但在该示例中达到4.0-4.5khz具有显著话音内容。
图6例示了根据本公开的各种实施方式的适于融合麦克风信号的dsp12的框图。信号xin和xex是表示分别从内部麦克风106和外部麦克风108捕获的声音的信号。信号xin和xex不需要是直接来自相应麦克风的信号;它们可以表示直接来自相应麦克风的信号。例如,来自麦克风的直接信号输出可以以某一方式被预处理,例如,以合适采样频率转换成同步脉冲编码调制(pcm)格式,已转换信号为由方法处理的信号。
在图6中的示例中,首先由噪声跟踪/噪声降低(nt/nr)模块602和604处理信号xin和xex,以获得在各麦克风处拾取的噪声电平的运行估计。可选地,噪声降低(nr)可以通过nt/nr模块602和604使用所估计的噪声电平来执行。在各种实施方式中,麦克风信号xin和xex(经受或未经受nr)和来自nt/nr模块602和604的噪声估计(例如,从nt/nr602输出的“外部噪声和snr估计”和/或从nt/nr604输出的“内部噪声和snr估计”)被发送到麦克风频谱对齐(msa)模块606,在该模块中,自适应地估计频谱对齐滤波器(spectralalignmentfilter)并将其应用于内部麦克风信号xin。msa的主要目的是在耳道内话音信号的有效带宽内将在内部麦克风106处拾取的话音频谱地对齐到在外部麦克风108处拾取的话音。
外部麦克风信号xex和频谱对齐的内部麦克风信号xin,align对齐、以及两个麦克风106和108处的所估计噪声电平然后被发送到麦克风信号混合(msb)模块608,在该模块处,基于电流信号和噪声状况智能地组合两个麦克风信号,以形成具有最佳话音质量的信号输出。
以下以各种不同方式阐述与图6中的模块有关的另外细节。
在各种实施方式中,模块602-608(nt/nr、msa以及msb)在全带域(时域)或特定子带域(频域)中操作。对于具有在子带域中操作的模块的实施方式,对于到模块的输入,应用合适分析滤波器组(afb),以将各时域输入信号转换到子带域中。在一些实施方式中设置匹配合成滤波器组(sfb),以根据接收模块的域按需将各子带输出信号转换回时域。
滤波器组的示例包括数字傅里叶变换(digitalfouriertransform,dft)滤波器组、修改后的数字余弦变换(mdct)滤波器组、1/3-倍频程滤波器组、小波滤波器组或其它合适感知激发滤波器组。如果连续模块602-608在同一子带域中操作,则可以去除中间afb和sfb以用于最大效率和最小系统时延。即使两个连续模块602-608在一些实施方式中在不同子带域中操作,也可以通过组合更早模块的sfb和更晚模块的afb来使用它们的协同以用于最小化时延和计算。在各种实施方式中,所有处理模块602-608在同一子带域中操作。
在麦克风信号到达模块602-608中的任一个时,它们可以由合适预处理模块(诸如直流(dc)阻塞滤波器、风振减轻(wbm)、aec等)来处理。类似地,来自msb模块608的输出可以由合适后处理模块(诸如静态或动态均衡(eq)和自动增益控制(agc))来进一步处理。此外,其它处理模块可以被插入到图6所示的处理流程中,只要所插入的模块不干扰本技术的各种实施方式的操作即可。
处理模块的另外细节
噪声跟踪/噪声降低(nt/nr)模块
nt/nr模块602和604的主要目的是获得麦克风信号中的运行噪声估计(噪声电平和snr)。这些运行估计被进一步提供给随后模块,以促进它们的操作。通常,噪声跟踪在它以足够频率分辨率在子带域中执行时更有效。例如,当使用dft滤波器组时,对于8khz和16khz的采样率分别优选128和256的dft尺寸。这产生62.5hz/带,其满足对更低频带(<750hz)的要求。对于1khz以上的频带,可以减小频率分辨率。对于这些更高的频带,所需的频率分辨率可以与带的中心频率实质上成比例。
在各种实施方式中,具有足够频率分辨率的子带噪声电平提供与噪声有关的更丰富信息。因为不同类型的噪声可能具有非常不同的频谱分布,所以具有相同全带电平的噪声可能具有非常不同的感知影响。子带snr对于对信号执行的均衡也更有弹性,因此所估计的内部麦克风信号的子带snr根据本技术在由随后msa模块执行的频谱对齐之后保持有效。
许多噪声降低方法基于噪声电平的有效跟踪,由此对于nt/nr模块可以为杠杆式的。在该阶段执行的噪声降低可以提高进入到随后模块中的麦克风信号的质量。在一些实施方式中,在nt/nr模块处获得的估计与在其它模块中获得的信息组合,以执行稍后阶段的噪声降低。
用示例的方式且不限制,由ephraim和malah在“speechenhancementusingaminimummean-squareerrorshort-timespectralamplitudeestimator,”(ieeetransactionsonacoustics,speech,andsignalprocessing,1984年12月)中描述了合适的噪声降低方法,此处为了上述目的而以引证的方式将上述内容全文并入。
麦克风频谱对齐(msa)模块
在各种实施方式中,msa模块606的主要目的是频谱地对齐由内部麦克风和外部麦克风拾取的话音信号以提供用于在随后msb模块608处无缝地混合两个话音信号的信号。如以上所讨论的,由外部麦克风108拾取的话音通常更多被频谱地平衡,由此听起来更自然。另一方面,由内部麦克风106拾取的话音可能往往丢失高频内容。因此,msa模块606在图6中的示例中用于在内部麦克风话音的有效带宽内将内部麦克风106处的话音频谱地对齐到外部麦克风108处的话音。虽然频谱振幅的对齐是各种实施方式中的主要关注,但频谱相位的对齐也是实现最佳结果的关注。从概念上讲,麦克风频谱对齐(msa)可以通过向内部麦克风信号应用频谱对齐滤波器(hsa)来实现:
xin,align(f)=hsa(f)xin(f)(1)
其中,xin(f)和xin,align(f)分别是原始内部麦克风信号和频谱对齐的内部麦克风信号的频率响应。频谱对齐滤波器在该示例中需要满足以下准则:
其中,ωin,voice是耳道中的话音的有效带宽,xex,voice(f)和xin,voice(f)分别是由外部麦克风和内部麦克风拾取的话音信号的频率响应。在各种实施方式中,δ的确切值是方程(2)不临界,然而,它应为较小数字以避免放大耳道中的噪声。频谱对齐滤波器可以在时域或任意子带域中实现。根据外部麦克风的实际位置,合适延迟到外部麦克风信号的添加对于保证所需频谱对齐滤波器的因果关系可能是必要的。
获得频谱对齐滤波器的直观法是测量外部麦克风和内部麦克风处的话音的频谱分布并基于这些测量构造滤波器。该直观法可以在良好控制的场景中工作良好。然而,如以上所讨论的,耳道中的话音和噪声的频谱分布高度可变且取决于在特定情况(例如,密封)下特定于用户、装置以及装置多么好地适配到用户耳朵中的因素。基于所有状况的平均设计对齐滤波器将仅在特定状况下工作良好。另一方面,基于特定状况设计滤波器冒着过适配的风险,这可能导致过多失真和噪声伪影。由此,需要不同设计方法来实现期望平衡。
聚类方法
在各种实施方式中,收集由外部麦克风和内部麦克风拾取的话音信号,以覆盖一组各种各样的用户、装置以及适配状况。可以从这些话音信号对中的每一个估计经验(empirical)频谱对齐滤波器。然后可以使用启发式或数据驱动方法来将这些经验滤波器分为多个群集,并且训练用于各群集的相应滤波器。共同地,来自所有群集的代表性滤波器在各种实施方式中形成一组候选滤波器。在运行时间操作期间,可以获得对期望频谱对齐滤波器相应的粗略估计,并且可以将其用于选择要应用于内部麦克风信号的最合适候选滤波器。
另选地,在其它实施方式中,从所收集的话音信号对连同经验滤波器提取一组特征。这些特征应更多可观察,并且与频谱对齐滤波器的理想响应(诸如话音的基频、内部麦克风话音的频谱斜率、话音的音量以及耳道内部的snr)的可变性相关联。在一些实施方式中,这些特征被添加到聚类过程中,使得对于各群集训练代表性滤波器和代表性特征向量。在运行时间操作期间,可以提取同一特征组并将其与这些代表性特征向量进行比较,以找到最紧密匹配。在各种实施方式中,然后向内部麦克风信号应用来自与最紧密匹配特征向量相同的群集的候选滤波器。
用示例的方式且不限制,标题为“noisereductionusingmulti-featureclustertracker,”(2015年4月14日被发布为美国第9008329号专利)的美国第13/492780号专利申请中描述了示例群集跟踪方法,此处为了上述目的而以引证的方式将该申请全文并入。
自适应方法
除了从一组预训练候选选择之外,可以应用自适应滤波方法来从外部麦克风信号和内部麦克风信号估计频谱对齐滤波器。因为麦克风处的话音分量不直接可观察且耳道中的话音的有效带宽不确定,所以为了实践目的而将方程(2)中陈述的准则修改为:
其中,上标*表示复共轭,并且e{·}表示统计期望。如果耳道被有效地屏蔽外部声学环境,则话音信号将是方程(3)中的分子处的互相关项的唯一贡献者,并且方程(3)中的分母处的自相关项将是内部麦克风处的话音在其有效带宽内的功率。在话音的有效带宽之外,分母项将为内部麦克风处的噪声基底的功率,并且分子项将接近0。可以表明基于方程(3)估计的滤波器是方程(2)中陈述的准则的最小均方误差(mmse)估计器。
当在外部环境与耳道之间的声学泄漏变得显著时,因为泄漏到耳道中的噪声也促成麦克风信号之间的互相关,所以基于方程(3)估计的滤波器不再是方程(2)的mmse估计器。因此,方程(3)中的估计器将具有双模型分布,具有与表示无偏估计器的话音关联的模式和与有助于偏置的噪声关联的模式。使声学泄漏的影响最小化可能需要合适自适应控制。以下进一步详细地描述用于提供该合适自适应控制的示例实施方式。
时域实现
在一些实施方式中,在方程(3)中定义的频谱对齐滤波器可以如下转换成时域表示:
其中,hsa是由长度n有限脉冲响应(fir)滤波器的系数构成的向量:
hsa=[hsa(0)hsa(1)…hsa(n-1)]t(5)
并且xex(n)和xin(n)是由在时间n的对应信号的最近n个样本构成的信号向量:
x(n)=[x(n)x(n-1)…x(n-n+1)]t(6)
其中,上标t表示向量或矩阵转置,并且上标h表示厄密转置。频谱对齐的内部麦克风信号可以通过向内部麦克风信号应用频谱对齐滤波器来获得:
在各种实施方式中,可以采用许多自适应滤波方法来实现方程(4)中定义的滤波器。一个这种方法是:
其中,
其中,αsa(n)是自适应平滑因子,该平滑因子被定义为:
αsa(n)=αsaoγsa(n).(11)。
基础平滑常数αsa0确定多快地更新运行估计。它取0至1之间的值,更大值与更短基础平滑时间窗对应。语音似然估计γsa(n)也取0至1之间的值,1指示语音显性(dominance)的确定性,并且0指示语音缺乏的确定性。该方法提供使声学泄漏的影响最小化并将所估计的频谱对齐滤波器维持为无偏置所需的自适应控制。以下将进一步讨论与γsa(n)有关的细节。
方程(8)所示的滤波器自适应可能需要矩阵求逆。随着滤波器长度n增大,这变得既在计算上复杂,也在数字上具有挑战性。在一些实施方式中,对于在方程(4)中定义的滤波器采用最小均方(lms)自适应滤波器实现:
其中,μsa是0至1之间的常数自适应步长,||xin(n)||是向量xin(n)的范数,并且esa(n)是被如下定义的频谱对齐误差:
与方程(8)-(11)所示的直接方法类似,可以使用语音似然估计γsa(n)来控制滤波器自适应,以使声学泄漏对滤波器自适应的影响最小化。
比较两种方法,lms收敛更慢,但在计算上更高效且在数字上稳定。该折衷随着滤波器长度增大而更有意义。还可以应用其它类型的自适应滤波技术(诸如快速仿射投射(fap)或格-梯结构)来实现不同的折衷。关键是设计用于这些其它技术的有效自适应控制机制。在各种实施方式中,合适子带域中的实现可以产生与收敛、计算效率以及数字稳定性有关的更佳折衷。以下进一步详细地描述子带域实现。
子带域实现
在将时域信号转换到子带域中时,每个子带的有效带宽仅是全带带宽的一部分。因此,通常执行降采样来去除冗余,并且降采样因子d通常随着频率分辨率而增大。在将麦克风信号xex(n)和xin(n)转换到子带域中之后,第k个中的信号分别被表示为xex,k(m)和xin,k(m),其中,m是降采样离散时标中的样本索引(或帧索引),并且通常被定义为m=n/d。
方程(3)中定义的频谱对齐滤波器可以如下转换成子带域表示:
这在每个子带中并行实现(k=0,1,…,k)。向量hsa,k由子带k的长度mfir滤波器的系数构成:
hsa,k=[hsa,k(0)hsa,k(1)…hsa,k(m-1)]t(15)
并且xex,k(m)和xin,k(m)是由时间m处的对应子带信号的最近m个样本构成的信号向量:
xk(m)=[xk(m)xk(m-1)…xk(m-m+1)]t.(16)。
在各种实施方式中,由于降采样,在子带域中要求覆盖类似时间跨度的滤波器长度远远短于在时域中。通常,m与n之间的关系是
其中,hsa,k是复杂单抽头滤波器。子带频谱对齐的内部麦克风信号可以通过向子带内部麦克风信号应用子带频谱对齐滤波器来获得:
xin,align,k(m)=hsa,kxin,k(m).(18)。
方程(17)中定义的子带滤波器的直接自适应滤波器实现可以被公式化为:
其中,
rin,in,k(m)=kin,in,k(m-1)+αsa,k(m)(|xin,k(m)|2-rin,in,k(m-1))(20)
其中,αsa,k(m)是子带自适应平滑因子,该平滑因子被定义为:
αsa,k(m)=αsa0,kγsa,k(m).(22)。
子带基础平滑常数αsa0,k确定在每个子带中多么快地更新运行估计。它取0至1之间的值,更大的值与更短的基础平滑时间窗对应。子带语音似然估计γsa,k(m)也取0至1之间的值,1指示语音显性的确定性,并且0指示该子带中语音缺乏的确定性。类似于时域中的情况,这提供使声学泄漏的影响最小化并保持所估计的频谱对齐滤波器不偏置所需的自适应控制。然而,因为语音信号通常跨频率均匀分布,所以能够单独控制每个子带中的自适应提供更细化控制的灵活性,由此提供更佳性能的可能性。另外,方程(8)中的矩阵求逆被减少至方程(19)中的简单除运算,使得大大减少计算和数字问题。以下将进一步讨论与γsa,k(m)有关的细节。
类似于时域情况,可以对于方程(17)中定义的滤波器采用lms自适应滤波器实现:
其中,μsa是0至1之间的常数自适应步长,||xin,k(m)||是xin,k(m)的范数,并且esa,k(m)是被如下定义的子带频谱对齐误差:
与方程(19)-(22)所示的直接方法类似,可以使用子带语音似然估计γsa,k(m)来控制滤波器自适应,以使声学泄漏对滤波器自适应的影响最小化。此外,因为这是单抽头lms滤波器,所以收敛比方程(12)-(13)所示的其时域配对物显著更快。
语音似然估计
方程(11)和(12)中的语音似然估计γsa(n)以及方程(22)和(23)中的子带语音似然估计γsa,k(m)可以提供用于对应自适应滤波器的自适应控制。存在使子带似然估计公式化的许多可能性。一个这种示例是:
其中,ξex,k(m)和ξin,k(m)分别是子带信号xex,k(m)和xin,k(m)的信号比。它们可以使用由nt/nr模块602提供的运行噪声功率估计(pnz,ex,k(m),pnz,in,k(m))或snr估计(snrex,k(m),snrex,k(m)),诸如:
如以上所讨论的,方程(3)中的频谱对齐滤波器的估计器在存在显著声学泄漏时展示双峰分布。因为与话音关联的模式通常具有比与噪声关联的模式更小的状况均值,所以方程(25)中的第三项帮助排除噪声模式的影响。
对于语音似然估计γsa(n),一个选项是用方程(25)中的分量的全带配对物简单地替代方程(25)中的分量。然而,因为声学信号的功率往往集中于更低频率范围内,所以应用用于时域自适应控制的这种决策往往在更高频率范围内不良好地工作。考虑内部麦克风106处的话音的有限带宽,这通常导致所估计频谱对齐滤波器的高频响应的易变性。因此,在各种实施方式中使用基于感知的频率加权来强调计算全带snr中的高频功率将跨频率引起更平衡性能。另选地,将子带语音似然估计的加权平均数用作语音似然估计也实现类似效果。
麦克风信号混合(msb)模块
msb模块608的主要目的是组合外部麦克风信号xex(n)和频谱对齐的内部麦克风信号xin,align(n),以生成具有噪声降低与话音质量之间的最佳折衷的输出信号。该过程可以在时域或子带域中实现。虽然时域混合提供了一种混合两个信号的简单且直观方式,但子带域混合提供更多控制灵活性,由此提供实现噪声降低与话音质量之间的更佳折衷。
时域混合
时域混合可以被公式化为如下:
sout(n)=gsbxin,align(n)+(1-gsb)xex(n)(27)
其中,gsb是用于频谱对齐的内部麦克风信号的信号混合权重,该权重取0至1之间的值。可以观察到,用于xex(n)和xin,align(n)的权重总是合计为1。因为两个信号在耳道中的话音的有效带宽内在频谱上对齐,所以混合信号中的话音随着权重变化应在该有效带宽内保持不变。这是在msa模块606中执行振幅和相位对齐的主要益处。
理想地,gsb在安静环境中应为0,因此然后应使用外部麦克风信号作为输出,以具有自然话音质量。另一方面,gsb在非常嘈杂的环境中应为1,因此然后应使用频谱对齐的内部麦克风信号作为输出,以利用由于与外部环境的声学隔离而产生的频谱对齐内部麦克风信号的降低噪声。随着环境从安静到嘈杂转变,gsb的值增大,并且混合输出从外部麦克风朝向内部麦克风转移。这还导致更高频率话音内容的逐渐丢失,由此,话音可能变成听起来低沉的声音。
用于gsb的值的转变过程可以为不连续的,并且通过由nt/nr模块602提供的外部麦克风处的噪声电平(pnz,ex)的估计驱动。例如,噪声电平的范围可以被分成(l+1)个地带(zone),地带0覆盖最安静的情况,并且地带l覆盖最嘈杂的情况。用于这些地带的阈值上限和阈值下限应满足:
其中,tsb,hi,l和tsb,lo,l是地带l(l=0,1,...,l)的阈值上限和阈值下限。应注意,没有用于地带0的下界且没有用于地带l的上界。这些阈值应满足:
tsb,lo,l+1≤tsb,hi,l≤tsb,lo,l+2(29)
使得在相邻地带之间存在重叠,但非相邻地带之间没有重叠。这些重叠用作减轻由于地带之间的过多反复切换而引起的信号失真的滞后。对于这些地带中的每一个,可以设置候选gsb值。这些候选应满足:
gsb,0=0≤gsb,1≤gsb,2≤…≤gsb,l-1≤gsb,l=1.(30)。
因为噪声状况以比采样频率远远更慢的速度变化,所以麦克风信号可以被分成样本的连续帧,并且可以对于被表示为pnz,ex(m)的每个帧跟踪外部麦克风处的噪声电平的运行估计,其中,m为帧索引。理想地,在将所估计的噪声频谱功率聚合为全带噪声电平估计时,应该应用基于感知的频率加权。这将使得pnz,ex(m)更佳地关联到当前环境噪声的感知影响。通过将帧m处的噪声地带进一步表示为λsb(m),用于msb模块608的基于状态机的算法可以被定义为:
1.将帧0初始化为处于噪声地带0中,即,λsb(0)=0。
2.如果帧(m-1)处于噪声地带1中(即,λsb(m-1)=l),则通过将噪声电平估计pnz,ex(m)与噪声地带1的阈值进行比较来确定用于帧m的噪声地带(λsb(m)):
3.将用于帧m中的xin,align(n)的混合权重设置为地带λsb(m)中的候选:
并且使用它来基于方程(27)计算用于帧m的混合输出。
4.对于下一帧返回至步骤2。
另选地,用于gsb的值的转变过程应为连续的。代替将噪声基底估计的范围分成多个地带并在这些地带中的每一个中分配混合权重,噪声电平估计与混合权重之间的关系可以被定义为连续函数:
gsb(m)=fsb(pnz,ex(m))(33)
其中,fsb(·)是具有在0至1之间的范围的pnz,ex(m)的不减函数。在一些实施方式中,在确定gsb(m)的值的过程中还可以包括诸如来自之前帧的噪声电平估计和snr估计的其它信息。这可以基于数据驱动(机器学习)方法或启发式规则来实现。用示例的方式且不限制,2013年10月4日提交的标题为“noisesuppressionforspeechprocessingbasedonmachine-learningmaskestimation”的美国第14/046551号专利申请中描述了各种机器学习和启发式规则方法的示例。
子带域混合
时域混合提供了一种用于基于环境噪声状况组合内部麦克风信号和外部麦克风信号的简单且直观机制。然而,在高噪声状况下,选择将在具有带有噪声的更高频率话音内容和具有带有模糊不清的话音质量的降低噪声之间产生。如果耳道内部的话音具有非常有限的有效带宽,则其可理解性可能非常低。这严重限制话音通信或话音识别的有效性。另外,由于时域混合中的频率分辨率的缺乏,在由于混合权重不那么频繁但更显著的变化而产生的切换伪影与由于更微细但更恒定的变化而产生的失真之间执行平衡。另外,对于时域混合来说基于所估计的噪声电平控制混合权重的有效性高度依赖于诸如音频链中的调谐和增益设置、麦克风的位置以及用户话音的响度的因素。另一方面,将snr用作控制机制由于频率分辨率的缺乏而可能在时域中不那么有效。鉴于时域混合的限制,子带域混合根据各种实施方式可以提供用于msb模块的灵活性以及提高鲁棒性和性能的可能性。
在子带域混合中,如下向子带外部麦克风信号xex,k(m)和子带频谱对齐的内部麦克风信号xin,align,k(m)应用在方程(27)中定义的信号混合过程:
sout,k(m)=gsb,kxin,align,k(m)+(1-gsb,k)xex,k(m)(34)
其中,k为子带索引,并且m为帧索引。子带混合输出sout,k(m)可以被转换回时域,以形成混合输出sout(n),或者停留在子带域中,以由下游的子带处理模块处理。
在各种实施方式中,子带域混合提供对于每个子带单独设置信号混合权重(gsb,k)的灵活性,由此该方法可以更佳地处理诸如耳道中话音的有效带宽以及话音和噪声的频谱功率分布的因素的可变性。由于精细频率分辨率,基于snr的控制机制在子带域中可以有效,并且提供针对各种因素(诸如音频链的增益设置、麦克风的位置以及用户话音的响度)的可变性的期望鲁棒性。
可以如下基于内部麦克风和外部麦克风中的snr之间的微分调节子带信号混合权重:
其中,snrex,k(m)和snrin,k(m)分别是外部麦克风信号和内部麦克风信号的运行子带snr,并且从nt/nr模块602来提供。βsb是取正值的偏置常数且通常被设置为1.0。ρsb是也取正值的转变控制常数且通常被设置为在0.5至4.0之间的值。在βsb=1.0时,从方程(35)计算的子带信号混合权重将有利于在对应子带中具有更高snr的信号。因为频谱地对齐两个信号,所以该决策将允许在耳道中话音的有效带宽内选择具有更低噪声基底的麦克风。在该带宽外部,它将朝向自然话音带宽内的外部麦克风信号偏置,或者当在子带中没有话音时在两者之间分割。将βsb设置为大于或小于1.0的数字将使决策分别朝向外部麦克风或内部麦克风偏置。βsb的影响与其对数尺度成比例。ρsb控制麦克风之间的转变。更大的ρsb导致更尖锐的转变,而更小的ρsb导致更柔和的转变。
可以使方程(35)中的决策暂时地平滑以用于更佳的话音质量。另选地,可以使方程(35)中所用的子带snr暂时地平滑,以实现类似的效果。在用于内部麦克风和外部麦克风信号的子带snr低时,平滑过程应减速以用于更一致的噪声基底。
在每个子带中独立地进行方程(35)中的决策。可以添加跨带决策以用于更佳的鲁棒性。例如,为了更佳噪声降低,具有比其它子带相对更低的snr的子带可以朝向具有更低功率的子带信号偏置。
用于gsb,k(m)的基于snr的决策在很大程度上独立于音频链中的增益设置。虽然可以将噪声电平估计直接或间接地结合到决策过程中以用于针对snr估计中的可变性的增强鲁棒性,但作为结果可能降低针对其它类型的可变性的鲁棒性。
示例另选用途
本技术的实施方式不限于具有单个内部麦克风和单个外部麦克风的装置。例如,在存在多个外部麦克风时,可以首先向外部麦克风信号应用空间滤波算法,以生成具有更低噪声电平的单个外部麦克风信号,同时将其话音质量对齐到具有最佳话音质量的外部麦克风。然后可以由所提出的方法处理产生的外部麦克风信号,以与内部麦克风信号融合。
类似地,如果存在两个内部麦克风(一个在用户的一个耳道中),则可以首先向两个内部麦克风信号应用相干处理,以生成具有更佳声学隔离、更宽有效话音带宽或这两者的单个内部麦克风信号。在各种实施方式中,然后使用本技术的方法和系统的各种实施方式处理该单个内部信号,以与外部麦克风信号融合。
另选地,本技术例如可以分别应用于在用户的左耳和右耳处的内部-外部麦克风对。因为输出将保存对应外部麦克风处的话音的频谱振幅和相位,所以它们可以由下游的合适处理模块来处理,以进一步提高话音质量。本技术还可以用于其它内部-外部麦克风构造。
图7是示出了根据示例实施方式的用于融合麦克风信号的方法700的流程图。方法700可以使用dsp112来实现。示例方法700以在框702中接收第一信号和第二信号开始。第一信号表示由外部麦克风捕获的至少一个声音,并且包括至少话音分量。第二信号表示由位于用户的耳道内部的内部麦克风捕获的至少一个声音,并且包括由至少人体组织修改的至少话音分量。适当地,可以密封内部麦克风,以便提供与来自耳道外部的声学信号的隔离,或者可以根据用户和内部麦克风在耳道中的用户放置来部分地密封内部麦克风。
在框704中,方法700允许处理第一信号,以获得第一噪声估计。在框706(因为对于一些实施方式可选,所以被示出为虚线的)中,方法700处理第二信号,以获得第二噪声估计。在框708中,方法700将第二信号对齐到第一信号。在框710中,方法700包括以下步骤:至少基于第一噪声估计(并且可选地还基于第二噪声估计),混合第一信号和已对齐的第二信号,以生成增强话音信号。
图8例示了可以用于实现本发明的一些实施方式的示例性计算机系统800。图8的计算机系统800可以在计算系统、网络、服务器或其组合的语境等中实现。图8的计算机系统800包括一个或更多个处理器单元810和主存储器820。主存储器820部分地存储用于由处理器单元810执行的指令和数据。主存储器820在该示例中存储操作时的可执行代码。图8的计算机系统800还包括大容量数据存储器830、便携式存储装置840、输出装置850、用户输入装置860、图形显示系统870以及外围装置880。
图8中所示的组件被描绘为经由单个总线890连接。组件可以借助一个或更多个数据传输装置来连接。处理器单元810和主存储器820经由局部微处理器总线连接,并且大容量数据存储器830、外围装置880、便携式存储装置840以及图形显示系统870经由一个或更多个输入/输出(i/o)总线连接。
可以用磁盘驱动器、固态驱动器或光盘驱动器实现的大容量数据存储器830是用于存储用于由处理器单元810使用的数据和指令的非易失性存储装置。大容量数据储存器830存储用于实现本公开的实施方式的软件以用于将该软件加载到主存储器820中的目的。
便携式存储装置840连同便携式非易失性存储介质(诸如闪存驱动器、软盘、光盘、数字视频盘或通用串行总线(usb)存储装置)一起操作为向和从图8的计算机系统800输入和输出数据和代码。用于实现本公开的实施方式的系统软件被存储在这种便携式介质上,并且经由便携式存储装置840输入到计算机系统800。
用户输入装置860可以提供用户接口的一部分。用户输入装置860可以包括一个或更多个麦克风、用于输入字母数字和其它信息的字母数字小键盘(诸如键盘)或定点装置(诸如鼠标、跟踪球、触针或光标方向键)。用户输入装置860还可以包括触摸屏。另外,如图8所示的计算机系统800包括输出装置850。合适的输出装置850包括扬声器、打印机、网络接口以及监测器。
图形显示系统870包括液晶显示器(lcd)或其它合适显示装置。图形显示系统870可被配置为接收文本和图形信息,并且处理该信息,以便输出到显示装置。
外围装置880可以包括向计算机系统添加另外功能的任意类型的计算机支持装置。
在图8的计算机系统800中设置的组件是通常在可以适于与本公开的实施方式一起使用的计算机系统中找到的那些组件,并且旨在表示本领域中众所周知的广泛类别的这种计算机组件。由此,图8的计算机系统800可以为个人计算机(pc)、手持计算机系统、电话、移动计算机系统、工作站、平板电脑、平板手机、移动电话、服务器、小型计算机、大型计算机、可穿戴计算机或任意其它计算机系统。计算机还可以包括不同的总线构造、网络平台、多处理器平台等。可以使用包括unix、linux、windows、macos、palmos、qnxandroid、ios、chrome、tizen以及其它合适操作系统的各种操作系统。
用于各种实施方式的处理可以在基于云的软件中实现。在一些实施方式中,计算机系统800被实现为基于云的计算环境(诸如在计算云内操作的虚拟机)。在其它实施方式中,计算机系统800可以本身包括计算机系统800的功能以分布式方式来执行的基于云的计算环境。由此,计算机系统800在被配置为计算云时可以包括各种形式的多个计算装置,如以下将更详细描述的。
通常,基于云的计算环境是通常组合一大组处理器的计算功率(诸如在网络服务器内)和/或组合一大群计算机存储器或存储装置的存储容量的资源。提供基于云的资源的系统可以由它们的拥有者来唯一地使用,或者这种系统可以由将应用部署在计算基础设施内以获得大计算或存储资源的益处的外部用户可接入。
云例如可以由包括多个计算装置(诸如计算机系统800)的网络服务器的网络来形成,每个服务器(或至少多个服务器)提供处理器和/或存储资源。这些服务器可以管理由多个用户(例如,云资源顾客或其它用户)提供的工作负荷。通常,每个用户对实时(有时动态地)变化的云提出工作负荷需求。这些变型例的性质和范围通常取决于与用户关联的业务类型。
以上已经参照示例实施方式描述了本技术。因此,本公开旨在覆盖示例实施方式的其它变型例。