用于嘈杂环境中语音信号分离的头戴式耳机的制作方法

文档序号:2829191阅读:1833来源:国知局

专利名称::用于嘈杂环境中语音信号分离的头戴式耳机的制作方法
技术领域
:本发明涉及一种用于从嘈杂的声环境分离语音信号的电子通信设备。更具体地,本发明的一个实施例提供了一种用于生成语音信号的头戴式耳机(headset)或耳塞(earpiece)。
背景技术
:声环境通常是嘈杂的,因此难于可靠地检测期望的信息信号并对之产生影响。例如,一个人可以期望利用语音通信信道与另一个人进行通信。所述信道例如可以由移动无线手持装置、步谈机、双向无线电装置或其他通信设备来提供。为了改进可用性,人们可以利用与上述通信设备相连的头戴式耳机或耳塞。头戴式耳机或耳塞通常具有一个或多个耳用扬声器和麦克风。麦克风通常在话筒吊杆(boom)上向人的嘴延伸,以提高麦克风拾取人讲话声音的可能性。人在讲话时,麦克风接收人的语音信号并将其转换成电子信号。麦克风还会接收到来自各种噪声源的声音信号,因此在电子信号中还会包括噪声成分。由于手持装置可以使麦克风距离人嘴几英寸,而环境可具有许多无法控制的噪声源,因此最后获得的电子信号可以具有实质的噪声成分。这种实质的噪声导致令人不满意的通信过程,并且可以导致通信设备无法有效地工作,从而增加电池的消耗。在一个特殊的实施例中,语音信号是在嘈杂的环境中生成的,语音处理方法用于使该语音信号与环境噪声分离。这种语音信号处理在日常通信的许多领域都是非常重要的,因为在真实世界的条件下噪声几乎总是存在的。噪声被定义为所有干扰或降低感兴趣的语音信号的信号组合。真实世界中充满多种噪声源,包括单一的点噪声源,点噪声源通常会侵入多个声音中,从而引起混响。除非与背景噪声分开和隔离,否则将难以可靠而有效地使用期望的语音信号。背景噪声可以包括由普通环境产生的多种噪声信号、由其他人的背景谈话产生的信号以及每个信号生成的反射和混响。当使用者在经常为嘈杂的环境中交谈时,期望使用者的语音信号与背景噪声分离。诸如蜂窝电话、扬声器电话、头戴式耳机、无绳电话、电话会议、CB收音机、步谈机、计算机电话应用软件、计算机和汽车语音指令应用程序以及其他不用手的应用程序、对讲机和麦克风系统等的语音通信媒介,可以利用语音信号处理来使期望的语音信号与背景噪声分离。已经创建了许多方法来使期望的声音信号与背景噪声信号分离,其中包括简单的滤波处理。现有技术的噪声滤波器将具有预定特征的信号识别为白噪声信号,并且从输入信号中去除这种信号。尽管这些方法对于声音信号的实时处理来说是足够简单和迅速的,但是它们并不能容易地适用于不同的语音环境,并且可能会导致要分解的语音信号产生实质性衰减。预定假设的噪声特征可能是包含过多的(over-inclusive)或包含过少的(under-inclusive)。因此,通过这些方法可以将人的语音的一部分视为“噪声”,从而从输出的语音信号中将该部分去除,并且通过这些方法可以将背景噪声的一部分(例如音乐或谈话)视为非噪声,从而将该部分包含在输入的语音信号中。在信号处理应用程序中,通常利用传感器(例如麦克风)来获取一个或多个输入信号。传感器所提供的信号是许多信号源的混合信号。总的来说,信号源及其混合特征是未知的。除了信号源独立性的一般统计假定之外,在不了解信号源的其他信息的情况下,信号处理问题在本领域中公知为“盲源分离(BSS)问题”。盲分离问题会以许多常见的形式出现。例如,众所周知的是,即使在包含许多单个声音源的环境中人们也可以将精力集中于单个声音源,这一现象通常称作“鸡尾酒会效应(cocktail-partyeffect)”。在从信号源到麦克风的传输过程中,每个源信号都以时变方式被延迟和削弱,然后每个源信号又与其他被独立延迟和削弱的源信号混合,从而包括了源信号本身的多径版本(混响),即,来自不同方向的被延迟的版本。接收所有这些声信号的人能够收听声音信号的特定集合,而过滤或忽略其他的干扰源(包括多径信号)。现有技术中,在物理设备和这些设备的计算仿真方面,投入了相当大的努力来解决鸡尾酒会效应。各种噪声缓解技术被普遍采用,包括从在分析前对信号进行简单消除到用于噪声谱的自适应估计方案,其中用于噪声谱的自适应估计方案依赖于语音信号和非语音信号之间的正确辨别。这些技术的总的特征在第6,002,776号美国专利(该专利的内容通过引用而并入本文)中进行了描述。具体地,第6,002,776号美国专利描述了一种用于分离源信号的方案,其中两个或两个以上的麦克风安装在包含相等数量或更少数量的不同声音源的环境中。第一模块利用信息到达方向(direction-of-arrival)尝试提取出原始的源信号,而信道之间的任何剩余的串扰都由第二模块去除。这种配置在分离空间局部化的点声音源并且该点声音源具有清晰定义的到达方向时可能是有效的,但是这种配置在真实世界空间分布噪声环境中却不能分离出语音信号,因为对于这种环境来说无法确定特定的信号到达方向。例如独立分量分析(ICA)的方法提供了使语音信号和噪声源分离的相对精确和灵活的方式。ICA是一种用于分离混合的源信号(分量)的技术,其中假定所述混合的源信号相互独立。在最简单的形式中,独立分量分析对混合信号的权值进行“非混合”矩阵运算,例如将该矩阵与混合信号相乘,以产生分离的信号。对所述权值指定初始值,然后对所述权值进行调整,以最大化信号的联合熵,从而最小化信息冗余。该权值调整和熵增大过程重复进行,直到信号的信息冗余减小到最小为止。由于这一技术不需要与每个信号的来源有关的信息,因此它被称为“盲源分离”法。盲源分离问题指的将来自多个独立信号源的混合信号进行分离的思想。已经开发了许多流行的ICA算法以优化其性能,其中包括许多通过对仅在十年前存在的算法进行重大修改而演变的算法。例如,A.J.Bell和TJSejnowski在NeuralComputation71129-1159(1995)中描述的成果、以及Bell,AJ.的第5,706,402号美国专利中描述的成果通常并不按照其取得专利的形式被使用。相反地,为了优化该算法的性能,该算法通过多个不同的实体(entity)而经历了几次重新定性。这种变化之一包括采用Amari,Cichocki,Yang(1996)中所描述的“自然梯度”。其他流行的ICA算法包括计算例如累积量的高阶统计量的方法(Cardoso,1992;Comon,1994;HyvaerinenandOja,1997)。然而,许多公知的ICA算法并不能有效地分离真实环境中所记录的信号,其中真实环境中固有地包括回声(例如与反射有关的、由房间结构引起的回声)。需要强调的是,到目前为止所提到的方法局限于将由源信号的线性静止混合产生的信号进行分离。由于直接路径信号(directpathsignal)与其回声副本相加而导致的现象被称作混响,并给人工语音增强和识别系统带来了较多的问题。ICA算法可能需要能够分离这些时延信号和回声信号的长滤波器,因而排除了有效的实时应用。公知的ICA信号分离系统通常采用作为神经网络的滤波器网络,而从输入到滤波器网络中的任意数量的混合信号中分解出单独的信号。也就是说,ICA网络用于将一组声音信号分成多个有序的信号集(其中每个信号都代表特定的声音源)。例如,如果ICA网络接收包括钢琴音乐和人的谈话的声音信号,那么双端口的ICA网络便会将该声音信号分成两个信号其中一个信号主要包括钢琴音乐,而另一个信号则主要包括谈话。另一种现有的技术是基于听觉场景分析来分离声音。在这种分析中,有力的应用是基于对声音源存在的本质的假设而实现的。假定声音可以分解成例如音调和冲击脉冲的较小元素,接着可以根据例如调和性和时间连续性的属性将这些较小元素进行分组。可以利用来来自单个麦克风或来自多个麦克风的信息来执行听觉场景分析。导致计算的听觉场景分析或CASA的计算机器学习方法的可用性,使得听觉场景分析的领域吸引了更多的注意力。尽管在科学上是有趣的,因为它包括了对人的听觉处理的理解,模型假设和计算技术仍然处于解决现实的鸡尾酒会情况的初期。用于分离声音的其他技术是通过对这些声音源进行空间分离而工作的。基于该原理的设备具有不同的复杂性。这种设备中最简单的是具有较高选择性和固定灵敏度模式的麦克风。定向麦克风(directionalmicrophone)例如被设计成对从特定方向发出的声音具有最大的灵敏度,因而可用于使一个声音源相对于其他声音源增强。类似地,靠近说话者的嘴安装的近讲话麦克风(close-talkingmicrophone)可以丢弃某些较远的声音源。麦克风阵列处理技术用于通过使用已察觉的空间分离技术来分离声音源。这些技术并不实用,因为假定至少一个麦克风只包含期望的信号,则将无法实现对竞争的声音源进行充分的抑制,这在声环境中是不可行的。被广泛了解的用于线性麦克风阵列处理的技术通常称作“波束形成(beamforming)”。在该方法中,利用由麦克风的空间差而引起的信号之间的时间差来增强信号。更具体地说,可以是这样一种情况麦克风之一将更直接地“注视(look)”语音源,而其他麦克风则可能会产生相对衰减的信号。虽然可以实现某些衰减,但是波束形成仪并不能提供波长大于阵列的波长的频率分量的相对衰减。这些技术是用于进行以下操作的方法进行空间滤波以朝声音源控制波束,从而在其他方向清空。波束形成技术没有对声音源进行假定,但是假定声音源与传感器或声音信号本身之间的几何关系是已知的,以便对信号去反响或定位声音源。在稳健的自适应波束形成中一项公知的技术被称作“广义旁瓣对消(GSC)”,在发表于IEEETransactionsonSignalProcessing,vol47,No10,pp2677-2684,October1999的、Hoshuyama,O.、Sugiyama,A.以及Hirano,A.的题为“ARobustAdaptiveBeamformerforMicrophoneArrayswithaBlockingMatrixusingConstrainedAdaptiveFilters(采用约束自适应滤波器的用于具有模块化矩阵的麦克风阵列的稳健自适应波束形成仪”的文章中对这项技术进行了讨论。GSC的目的在于从一组测量值x中过滤掉单个期望的源信号z_i,在发表于IEEETransactionAntennasandPropagation,vol30,no1,pp.27-34,Jan1982的、Griffiths、L.J.、Jim、以及C.W.的题为“Analternativeapproachtolinearconstrainedadaptivebeamforming(线性约束自适应波束形成的可选方法)”的文章中对GSC原理进行了更为全面的说明。总的来说,GSC预先定义独立于信号的波束形成仪c对传感器信号进行过滤,以使得来自期望的信号源的直接路径保持不失真,并且在理想情况下其他方向应当受到抑制。在大多数情况下,期望的信号源的位置必须通过附加的定位方法来预先确定。在低侧路径中,自适应模块矩阵B用来抑制来自期望信号z_i的所有分量,以使得B的输出中仅存在噪声分量。从这些方面可以看出,自适应干扰消除器a通过使总的输出功率E(z_i*z_i)的估计值最小,而推导出波束形成仪c的输出中的剩余的噪声分量的估计值。这样,固定的波束形成仪c和干扰消除器a便共同完成干扰抑制。由于GSC要求将期望的说话者限制在有限的跟踪区域内,因此其适用性局限于对空间要求严格的场景中。另一项公知的技术是一类与声音分离相关的有源消除算法。然而,该项技术需要“参考信号”,即仅来自一个信号源的信号。有源噪声消除和回声消除技术通过过滤仅包含噪声的已知信号并将其从混合声音中去除而广泛采用该项技术,并且噪声减少是相对于噪声对混合信号的贡献而言的。该方法假定被测信号中的一个信号有且仅有一个信号源组成,而这一假定在许多真实生活背景中是不现实的。不需要参考信号的有源消除技术被称作“盲有源消除技术”并且主要对这一应用感兴趣。目前基于对声处理(通过该处理多余的信号也到达麦克风)的潜在假定能够实现的程度,对上述技术进行了分类。一类盲有源消除技术可以称作“基于增益”的消除技术,或者也公知为“瞬时混合”消除技术其假定麦克风同时接收各个信号源所产生的波形,但是各个信号源所产生的波形的相对增益是变化的。(定向麦克风大多数常用于产生所需的增益差)。因而,基于增益的系统试图通过将相对增益应用于麦克风信号中并去除该信号,但并不采用时延或其他滤波,从而消除不同的麦克风信号中的不期望的信号源的副本。已经提出了多种用于盲有源消除的基于增益的方法;参见Herault和Jutten(1986)、Tong等人(1991)、以及Molgedey和Schuster(1994)的文章。当麦克风在空间中隔开时(如在大多数声应用中那样),则会违反基于增益或瞬时混合的假定。该方法的简单延伸包括时延因素,但是不包括任何其他滤波,并且该方法可在无回声的条件下工作。然而,当存在回声和混响时,声从声源到麦克风传播的这一简单模型的使用便会受到限制。目前已知的大多数真实的有源消除技术都是“卷积”消除技术声从每个声源到每个麦克风传播的效果被模拟为卷积滤波器。这些技术比基于增益的技术和基于延迟的技术更真实,因为它们明确包含了麦克风内分离、回声和混响的作用。它们还更具有一般性,因为在理论上增益和延迟是卷积滤波的特殊情况。卷积盲消除技术已被许多研究人员描述过,其中包括Jutten等人(1992)、VanCompernolle和VanGerven(1992)、Platt和Faggin(1992),Bell和Sejnowski(1995)、Torkkola(1996)、Lee(1998)以及Parra等人(2000)。在通过麦克风阵列进行多信道观察时主要使用的数学模型、多信号源模型可以用公式表示为xi(t)=Σ1=0LΣi=1maij1(t)sj(t-1)+ni(t)]]>其中x(t)表示观察到的数据,s(t)为被隐藏的源信号,n(t)为感觉的加性噪声信号,a(t)为混合滤波器。参数m为信号源的数量,L为卷积阶数并且其取决于环境声学,t表示时间系数。第一个和是由于环境中的信号源的滤波而产生的,第二个和是由于不同信号源的混合而产生的。与ICA有关的大多数工作都集中于瞬时混合场景的算法上,其中第一个和被去除,而任务被简化以对混合矩阵a求逆。在假定没有混响时作出微小的修改,除了振幅因素和延迟之外,在不同的麦克风位置记录信号时,来源于点信号源的信号可以视为相同的。以上等式中所描述的问题被公知为多信道盲去卷积问题。在自适应信号处理方面的代表性的成果包括Yellin和Weinstein(1996),其中高阶统计信息用来对传感输入信号中的共有信息进行近似。ICA和BSS的扩展对于卷积混合的成果包括Lambert(1996)、Torkkola(1997)、Lee等人(1997)以及Parra等人(2000)的文章。基于用于解决多信道盲去卷积问题的ICA和BSS算法,由于其在解决声混合信号源的分离方面的潜力而逐渐受到欢迎。然而,在这些算法中仍然存在强大的假设,而这些假设限制了这些算法在现实情况中的适用性。最矛盾的假定之一是要求具有至少与待分离的信号源数量相同的传感器。该假定在数学上是有意义的。然而,实际上信号源的数量通常是动态变化的,而传感器的数量却需要固定。此外,设置大量的传感器在许多应用中是不实际的。在大多数算法中,统计的源信号模型适于保证适当的密度估计,从而可以分离大量的源信号。这一要求导致了繁重的计算,因为除了滤波器的自适应之外,源信号模型的自适应也需要在线执行。对于信号源之间统计独立性的假定是非常现实的假定,但是共同信息的计算是密集而困难的。需要对实际系统进行好的近似。此外,通常不考虑传感器噪声,当采用高端麦克风时,这一点便成为有效的假定。然而,简单的麦克风是存在传感器噪声的,因此算法必须考虑到这一点,以达到合理的性能。最后,大多数ICA公式都暗自假定潜在的源信号在本质上都来源于空间分布的点信号源,虽然这些点信号源具有其各自的回波和反射。这一假定对于强烈扩散的噪声源或空间分部的噪声源(例如在可比较的声压水平上从多个方向发出的风噪声一样)通常是无效的。对于这些类型的分布式噪声场景,仅采用ICA方法来实现分离是不够的。期望一种简化的语音处理方法,该方法可以接近实时地使语音信号与背景噪声分离,并且该方法不要求实质的计算能力,但是仍然能够产生相对精确的结果,并且可以灵活地适用于不同的环境。
发明内容简言之,本发明提供一种头戴式耳机,其被构造成在嘈杂的声环境中产生从听觉能够区别的语音信号。所述头戴式耳机将多个分开的麦克风定位在用户的嘴附近。所述麦克风中的每一个都接收用户的语音,并且还接收声环境噪声。包含噪声和信息分量的麦克风信号被接收到分离处理中。所述分离处理产生噪声分量被充分减少的语音信号。然后对所述语音信号进行处理,以便进行传输。在一个实施例中,传输过程包括利用蓝牙无线电装置将所述语音信号发送到本地控制模块。在更具体的实施例中,所述头戴式耳机为可戴在耳朵上的耳塞。所述耳塞具有容纳处理器和蓝牙无线电装置、并支撑吊杆的外壳。第一麦克风定位于所述吊杆末端,而第二麦克风以分开的方式定位于所述外壳上。每个麦克风都产生电信号,所述电信号包含噪声和信息分量。所述麦克风信号被接纳到所述处理器中,在所述处理器中利用分离处理对所述信号进行处理。所述分离处理例如可以是盲信号源分离处理或独立分量分析处理。所述分离处理产生噪声分量被充分减少的语音信号,并且还可以产生指示噪声分量的信号,所述噪声分量用来对所述语音信号进行进一步的后处理。然后对所述语音信号进行处理,以便通过所述蓝牙无线电装置进行传输。所述耳塞还可以包括话音活动检测器,在语音可能出现时,所述话音活动检测器产生控制信号。该控制信号能够根据语音出现的时间激活、调整或者控制所述处理,从而实现更有效和更实际的操作。例如,当所述控制信号被关闭并且语音不存在时,独立分量分析处理可以停止。有利地,本发明的头戴式耳机产生高质量的语音信号。此外,所述分离处理能够以稳定和可预见的方式工作,从而提高了整体有效性和效率。所述头戴式耳机的结构适于多种设备、处理和应用。在附图中示出、在下面的“具体实施方式”部分描述、或者由权利要求的范围限定了其他方面和实施方案。图1是根据本发明的无线头戴式耳机的图;图2是根据本发明的头戴式耳机的图;图3是根据本发明的无线头戴式耳机的图;图4是根据本发明的无线头戴式耳机的图;图5是根据本发明的无线耳塞的图;图6是根据本发明的无线耳塞的图;图7是根据本发明的无线耳塞的图;图8是根据本发明的无线耳塞的图;图9是在根据本发明的头戴式耳机上执行的处理的方框图;图10是在根据本发明的头戴式耳机上执行的处理的方框图;图11是根据本发明的语音检测处理的方框图;图12是在根据本发明的头戴式耳机上执行的处理的方框图;图13是根据本发明的语音检测处理的方框图;图14是在根据本发明的头戴式耳机上执行的处理的方框图;图15是根据本发明的分类处理的流程图;图16是根据本发明的改进的ICA处理子模块的一个实施方案的方框图;以及图17是根据本发明的改进的ICA语音分离处理的一个实施方案的方框图。具体实施例方式现在参照图1,图1中示出了无线头戴式耳机系统10。无线头戴式耳机系统10具有与控制模块14进行无线通信的头戴式耳机12。头戴式耳机12被构造成由使用者配戴或附在使用者身上。头戴式耳机12具有束发带(headband)17形式的外壳16。虽然头戴式耳机12被示出为立体声头戴式耳机,但是应当理解,头戴式耳机12可以采取可选的形式。束发带17具有电子外壳23,用于容纳所需的电子系统。例如,电子外壳23可以包括处理器25和无线电装置27。无线电装置27可以具有例如天线29的各种子模块,以便能够与控制模块14进行通信。电子外壳23通常容纳例如电池或可再充电的电池的便携式电源(未示出)。尽管在优选实施方案的上下文中描述了头戴式耳机系统,但是本领域的技术人员可以理解的是,所描述的用于从嘈杂的声环境分离语音信号的技术同样适用于在嘈杂环境或多噪声环境中使用的各种电子通信设备。因此,仅以实施例的方式而不是以限定的方式描述了用于语音应用的无线头戴式耳机系统的示例性实施方案。电子外壳内的电路耦合到一组立体声耳用扬声器。例如,头戴式耳机12具有设置用来为使用者提供立体声的耳用扬声器19和耳用扬声器21。更具体地,每个耳用扬声器都被设置成靠在使用者的耳朵上。头戴式耳机12还具有一对音频麦克风32和33形式的变换器。如图1所示,麦克风32靠近耳用扬声器19,而麦克风33则位于耳用扬声器19上方。按照这种方式,当使用者配戴头戴式耳机12时,每个麦克风都具有到达说话者嘴巴的不同的音频路径,并且麦克风32总是更靠近说话者的嘴巴。因此,每个麦克风都接收使用者的语音和周围噪声。由于麦克风是分开的,因此每个麦克风都将接收略微不同的周围噪声信号,以及说话者语音的稍微不同的版本。音频信号中的这些小的差别能够增强处理器25中的语音分离。此外,由于麦克风32比麦克风33更靠近说话者的嘴巴,因此来自麦克风32的信号将总是首先接收期望的语音信号。这一已知的语音信号排序使得信号分离处理更加简化和有效。虽然麦克风32和33被示出靠近耳朵的扬声器,但是可以理解,许多其他的位置也是可以有用的。例如,一个麦克风或两个麦克风都可以在吊杆上延伸。可选地,麦克风可以在不同方向上或者以例如阵列的分开配置方式位于使用者头部的不同侧。根据特定的应用和物理限制,还可以理解,麦克风可以朝向前方或朝向侧面,可以是全方向的或定向的,或者具有其他的位置或物理限制,以使得至少两个麦克风中的每一个都将接收不同比例的噪声和语音。处理器25接收来自麦克风32的电子麦克风信号和来自麦克风33的原始麦克风信号。可以理解,可以将上述信号进行数字化、滤波或其他预处理。处理器25执行将语音从噪声分离的信号分离处理。在一个实施例中,信号分离处理为盲信号分离处理。在更特别的实施例中,信号分离处理为独立分量分析处理。由于麦克风32比麦克风33更靠近说话者的嘴巴,因此来自麦克风32的信号将总是首先接收期望的语音信号,并且该期望的语音信号在麦克风32的记录信道中比在麦克风33的记录信道中更响亮,这样则有助于识别语音信号。信号分离处理的输出为清晰的语音信号,并由无线电装置27对其进行处理和传输。尽管所述清晰的语音信号中已经去除了噪声的实质部分,但是某些噪声分量也有可能仍然存在于语音信号中。无线电装置27将经过调制的语音信号发送到控制模块14。在一个实施例中,无线电装置27遵守蓝牙通信标准。蓝牙是众所周知的个人区域网通信标准,其使得电子设备能够在短距离(通常小于30英尺)内进行通信。蓝牙还使得能够以足以支持音频水平传输的速率通信。在另一个实施例中,无线电装置27可以根据IEEE802.11标准或其他无线通信标准工作,如本文中所采用的,术语无线电通信是指这种无线通信标准。在另一个实施例中,无线电装置27可以根据能够实现特定通信和安全通信的私有商业标准或军事标准工作。控制模块14还具有配置用来与无线电装置27通信的无线电装置49。因此,无线电装置49根据与无线电装置27相同的标准工作,并且在与无线电装置27相同的信道配置上工作。无线电装置49接收来自无线电装置27的经调制的语音信号,并且利用处理器47来执行对输入信号的任何需要的操作。控制模块14被示为无线移动设备38。无线移动设备38包括图形显示器40、输入键盘42以及其他的用户控制装置39。无线移动设备38根据无线通信标准工作,例如CDMA、WCDMA、CDMA2000、GSM、EDGE、UMTS、PHS、PCM或其他通信标准。因此,无线电装置45被构造成根据所需的通信标准工作,并方便与无线基础设施系统通信。这样,控制模块14便具有到无线通信公司的基础设施的远程通信链路51和到头戴式耳机12的本地无线链路50。在操作中,无线头戴式耳机系统10作为用于放置和接收语音通信的无线移动设备而工作。例如,用户可以利用控制模块14来拨打无线电话。处理器47和无线电装置45合作建立到无线通信公司的基础设施的远程通信链路51。一旦建立了具有无线通信公司的基础设施的语音信道,用户便可以使用执行语音通信的头戴式耳机12。当用户讲话时,用户的语音以及周围噪声一起被麦克风32和麦克风33接收。在处理器25处接收麦克风信号。处理器25利用信号分离处理来产生清晰的语音信号。所述清晰的语音信号由无线电装置27例如利用蓝牙标准发送到控制模块14。然后对接收的语音信号进行处理和调制,以便进行使用无线电装置45实现的通信。无线电装置45通过通信链路51而将语音信号传送到无线基础设施。这样便可以将清晰的语音信号传送给远程的收听者。来自远程收听者的语音信号通过无线基础设施和通信链路51而发送到无线电装置45。处理器47和无线电装置49将接收的信号转换并格式化成例如蓝牙的本地无线电格式,并将引入的信号传送到无线电装置27。引入的信号然后被发送到耳用扬声器19和21,从而使本地用户可以听到远程用户的语音。这样便实现了全双工语音通信系统。这种麦克风配置使得从一个麦克风到另一个麦克风的期望的语音信号的延迟足够大、以及/或者两个被记录的输入信道间的期望的讲话内容充分不同,以便能够分离期望的说话者的话音,例如在主麦克风中的语音拾取更为理想。这样便包括通过利用定向麦克风或非限定排列的全向麦克风来调制语音与噪声的混合物。还应当根据预期的环境特征(例如预期的噪声、可能的风噪声、生物力学设计考虑和来自扩音器的回声)来考虑和调整麦克风的特定放置。一种麦克风配置可以很好地处理噪声情况和回声。然而,噪声/回声消除任务通常需要远离主麦克风的朝向的辅助麦克风(声音中心的麦克风或者负责记录包含实质噪声的声音混合的麦克风)。如本发明中所使用的那样,主麦克风是距离目标说话者最近的麦克风。最佳的麦克风配置可以是方向或位置(非线性麦克风配置、麦克风特征方向性模式)和麦克风膜抵抗风扰动的声屏蔽之间的折衷。在像蜂窝电话手持装置和头戴式耳机一样的移动应用中,通过自适应而细微地调整分离ICA滤波器的方向性模式(通过采用和选择在最可能的设备/说话者嘴的配置范围能够导致相同的语音/噪声信道输出顺序的麦克风配置),从而实现对于期望的说话者移动的稳健性。因此,麦克风优选设置在移动设备的分割线上,并且不对称地设置在硬件的每一侧。这样,当使用移动设备时,同一麦克风总是被定位成最有效地接收大部分语音,而不考虑本发明的设备的位置,例如,主麦克风被定位成最靠近说话者的嘴,而不考虑用户对设备的定位。这种一致的、预先定义的定位使得ICA处理能够具有更好的缺省值,并且更易于识别语音信号。在处理声噪声时,优选采用定向麦克风,因为定向麦克风通常可以获得更佳的初始SNR。然而,定向麦克风对于风噪声更敏感,并且具有更高的内部噪声(低频电子噪声拾取)。该麦克风的配置可适合于与全向麦克风和定向麦克风一起工作,但是为了去除风噪声而需要放弃对声噪声的去除。风噪声通常是由直接施加到麦克风变换器薄膜的空气的延伸力而引起的。高灵敏度的薄膜产生较大且有时饱和的电信号。该信号淹没并经常破坏麦克风信号中的有用信息(包括任何讲话内容)。此外,由于风噪声十分强大,因此它可能会在信号分离处理中以及后期处理步骤中导致饱和和稳定性问题。另外,发送的任何风噪声都会给收听者带来不愉快和不舒服的收听感受。不幸的是,风噪声已成为便随头戴式耳机和耳塞式耳机的特别困难的问题。然而,无线头戴式耳机的双麦克风配置提供了检测风的更有力的方式,并且是使风噪声的干扰影响最小的麦克风配置或设计。由于无线头戴式耳机具有两个麦克风,因此头戴式耳机可以运行能够更精确地识别风噪声存在的处理。如上所述,可以配置两个麦克风,以使它们的输入端口面向不同的方向,或者使它们的输入端口被屏蔽,从而使每个麦克风接收来自不同方向的风。在这种配置中,风的冲击脉冲将使得面向风的麦克风中的动态能级提高,而最低限度地影响另一个麦克风。因而,当头戴式耳机仅在一个麦克风检测到较大的能量峰值时,头戴式耳机可以确定该麦克风正在受风的影响。此外,可以对麦克风信号进行其他处理,以便进一步确认尖峰信号是由风噪声引起的。例如,风噪声通常具有低频模式,并且当在一个或两个信道上都发现这种模式时,则表明存在风噪声。可选地,对于风噪声也可以考虑特定的机械设计或工程设计。一旦头戴式耳机发现两个麦克风之一受到风的影响,那么头戴式耳机便可以运行某个处理以最小化风的影响。例如,该处理可以中断来自受风影响的麦克风的信号,而仅处理另一个麦克风的信号。在这种情况下,分离处理不再起作用,并且噪声减小处理就像更为传统的单麦克风系统那样工作。一旦麦克风不再受风的影响,那么头戴式耳机便可以恢复正常的双信道操作。在某些麦克风配置中,离说话者较远的麦克风接收有限水平的语音信号,从而使得其不能够象单麦克风输入那样工作。在这种情况下,不能使最靠近说话者的麦克风失去作用或者降低它的重要性,即使在它受到风的影响时。因而,通过将麦克风配置成面向不同的风方向,有风的环境可能只在一个麦克风中引起实质噪声。由于另一个麦克风可能几乎不受影响,因此它可以独自用来为头戴式耳机提供高质量的语音信号,而另一个耳机则承受风的攻击。利用该处理,无线头戴式耳机可以有利地用于有风的环境中。在另一个实施例中,头戴式耳机在外部具有机械按钮,以使得用户可以从双信道模式切换到单信道模式。如果单独的麦克风为定向的,那么即使单个麦克风操作也依然对风噪声非常敏感。然而,当单独的麦克风为全向麦克风时,虽然噪声抑制将会恶化,但是也应当略微减轻风噪声伪迹(artifact)。在同时处理风噪声和声噪声时,信号质量中存在固有的权衡关系(trade-off)。这种平衡中的一些可以由软件来提供,同时可以响应于用户的喜好而作出某些决定,例如,通过使用户在单信道操作和双信道操作之间进行选择。在某些配置中,用户还可以选择采用哪个麦克风来作为单信道输入。图2示出了有线头戴式耳机系统75。有线头戴式耳机系统75与先前描述的无线头戴式耳机系统10类似,因此对系统75不再进行详细描述。有线头戴式耳机系统75具有头戴式耳机76,头戴式耳机76具有如参照图1描述的那样的一组立体声耳用扬声器和两个麦克风。在头戴式耳机系统75中,每个麦克风被设置成靠近各自的耳塞式耳机。这样,每个麦克风都被设置成距说话者嘴的距离大约相同。因此,分离处理可以采用用于识别语音信号的更加完善的(sophisticated)方法和更加完善的BSS算法。例如,可能需要增大缓冲器的尺寸,以及需要采用附加的处理能力以更精确地测量信道间的分离程度。头戴式耳机76还具有用于容纳处理器的电子外壳79。然而,电子外壳79具有与控制模块77相连的电缆81。因此,头戴式耳机76通过电线81与控制模块77通信。这样,模块化的电子装置83不需要用于本地通信的无线电装置。模块化的电子装置83具有处理器和用于建立与无线基础设施系统通信的无线电装置。现在参照图3,其中示出了无线头戴式耳机系统100。无线头戴式耳机系统100与先前描述的无线头戴式耳机系统10类似,因此对系统100不再进行详细描述。无线头戴式耳机系统100具有束发带102形式的外壳101。束发带102保持电子外壳107,而电子外壳107具有处理器和本地无线电装置111。本地无线电装置111例如可以是蓝牙本地无线电装置。无线电装置111被配置成与局域控制模块通信。例如,如果无线电装置111根据IEEE802.11标准工作,那么其相关的控制模块则应当一般位于无线电装置111的大约100英尺之内。可以理解,所述控制模块可以是无线移动设备或者可以被构造成供更加局部的使用。在特定的实施例中,头戴式耳机100作为商业或工业应用(例如快餐店中)的头戴式耳机使用。控制模块可以位于餐馆的中心,并且使邻近于餐馆区域中的任何地方的员工彼此之间或者员工与消费者之间能够进行通信。在另一个实施例中,无线电装置111被构造成用于广域通信。在一个实施例中,无线电装置111为能够在几英里范围内进行通信的商业无线电装置。这种配置将允许在发生紧急情况时第一急救者(first-responders)在特殊的地理区域中保持通信,而不必依赖任何特殊基础设施的可用性。继续描述该实施例,外壳102可以是头盔的一部分或者其他紧急保护装置。在另一个实施例中,无线电装置111被构造成在军用信道上工作,而外壳102在军用组件或头戴式耳机中一体地形成。无线头戴式耳机100具有单个非立体声的耳用扬声器104。第一麦克风106靠近耳用扬声器104设置,而第二麦克风105则位于耳塞上方。这样,麦克风被隔开,但仍然使从说话者的嘴发出的声音到达麦克风。此外,麦克风106将总是更靠近说话者的嘴,以便能够简化语音源的识别。可以理解的是,可以以可选的方式来放置麦克风。在一个实施例中,一个麦克风或两个麦克风都可以设置在吊杆上。图4示出了无线头戴式耳机系统125。无线头戴式耳机系统125与先前描述的无线头戴式耳机系统10类似,因此对系统125不再进行详细描述。无线头戴式耳机系统125具有头戴式耳机外壳,头戴式耳机外壳具有一组立体声扬声器131和127。第一麦克风133附接在头戴式耳机外壳上。第二麦克风134位于电线136末端的第二外壳中。电线136连接到头戴式耳机外壳上,并且与处理器电耦合。电线136可以包含夹子138,用于将第二外壳和麦克风134固定在相对一致的位置。这样,麦克风133被设置成靠近用户的一只耳朵,而第二麦克风134可被放置在用户的衣服上,例如,在胸部的中间。这种麦克风配置使得麦克风能够间隔非常远,但仍然允许在说话者的嘴到每个麦克风之间建立通信路径。在优选的使用中,第二麦克风距离说话者的嘴总是比第一麦克风133远,从而能够简化信号识别处理。然而,用户可能会无意地将麦克风放置在非常靠近嘴巴的地方,从而导致麦克风133远离。因此,用于头戴式耳机125的分离处理可需要额外的技巧(sophistication)和处理、以及更强大的BSS算法,以解决麦克风的不确定的布置安排。图5示出了无线头戴式耳机系统150。无线头戴式耳机系统150被构造成具有集成的吊杆麦克风(boommicrophone)的耳塞式耳机。图5从左手侧151和右手侧152示出了无线头戴式耳机系统150。无线头戴式耳机系统150具有附接到用户耳朵上或环绕用户耳朵的耳夹157。外壳153容纳扬声器156。在使用时,耳夹157使外壳153靠着用户的一只耳朵,从而将扬声器156放置在靠近用户耳朵的地方。外壳还具有麦克风吊杆(microphoneboom)155。麦克风吊杆155可以具有各种长度,但是其通常在1到4英寸范围内。第一麦克风160位于麦克风吊杆155的末端。第一麦克风160被构造成具有通往说话者的嘴的相对直接的路径。第二麦克风161也位于外壳153上。第二麦克风161可以设置在麦克风吊杆155上与第一麦克风160隔开的位置。在一个实施例中,第二麦克风161被定位成具有通往说话者的嘴的较为间接的路径。然而,可以理解,如果吊杆155足够长,那么两个麦克风则可以设置在吊杆的同一侧,以便具有通往说话者的嘴的相对直接的路径。然而,如图所示,第二麦克风161位于吊杆155的外侧,因为吊杆内侧可能会与用户脸部接触。还可以理解的是,可以在吊杆上或者在外壳的主体部分上进一步向后设置麦克风161。外壳153还容纳处理器、无线电装置和电源。电源通常为可再充电的电池形式,而无线电装置可以遵循例如蓝牙标准。如果无线头戴式耳机系统150遵循蓝牙标准,那么无线头戴式耳机系统150则与本地蓝牙控制模块进行通信。例如,本地蓝牙控制模块可以是被构造成在无线通信基础设施上工作的无线移动设备。这样便需要在控制模块中提供相对较大、较复杂的电子设备来支持广域的无线通信,而该电子设备可以配带在腰带上或者放在公文包中,从而使得外壳153中可以只容纳更为紧凑的本地蓝牙无线电装置。然而,可以理解的是,随着技术的进步,广域的无线电装置也可以并入外壳153中。这样,用户便可以利用语音激活命令和指令来实现通信和控制。在一个特定的实施例中,用于蓝牙头戴式耳机的外壳大约为6cm×3cm×1.5cm。第一麦克风160为噪声消除定向麦克风,并且噪声消除端口与麦克风拾取端口成180度。第二麦克风也为定向噪声消除麦克风,并且其拾取端口与第一麦克风160的拾取端口垂直。麦克风之间隔开3-4cm。麦克风之间不应靠得太近,以便能够分离低频分量,但是也不应离得太远,以避免高频带中的空间假频现象。在可选的配置中,两个麦克风均为定向麦克风,但是噪声消除端口与麦克风拾取端口成90度。在这种配置中,希望麦克风之间的距离稍微大一些,例如为4cm。如果采用全向麦克风,那么则可以将间距增大到约6cm,并且使噪声消除端口与麦克风拾取端口成180度。如果麦克风的配置容许每个麦克风中存在充分不同的信号混合,那么则可以采用全向麦克风。麦克风的拾取方式可以的全向的、定向的、心形线式的、8字形的或远声场噪声消除方式。可以理解的是,可以选择其他配置以支持特殊的应用和物理限制。在图5的无线头戴式耳机150中,麦克风的位置与说话者的嘴之间的关系被恰当地限定。在这种成脊状的、预先确定的物理配置中,无线头戴式耳机可以采用广义旁瓣消除器来滤掉噪声,从而获得相对清晰的语音信号。这样,无线头戴式耳机不再执行信号分离处理,但是会根据扬声器以及将会产生噪声的限定区域的限定位置,而在广义旁瓣消除器中设置滤波器系数。图6示出了无线头戴式耳机系统175。无线头戴式耳机系统175具有第一耳塞式耳机176和第二耳塞式耳机177。这样,用户可以将一个耳塞式耳机放在左耳上,而将另一个耳塞式耳机放在右耳上。第一耳塞式耳机176具有用于与用户的一只耳朵相连的耳夹184。外壳181具有吊杆麦克风182,而麦克风183则位于吊杆麦克风182的远端。第二耳塞式耳机具有用于附接到用户的另一只耳朵上的耳夹189和外壳186,并且吊杆麦克风187具有位于其远端的第二麦克风188。外壳181容纳有例如蓝牙无线电装置的本地无线电装置,以便与控制模块进行通信。外壳186也具有例如蓝牙无线电装置的本地无线电装置,以便与控制模块进行通信。耳塞式耳机176和177中的每一个都将麦克风信号传送到本地模块。本地模块具有用于执行语音分离处理以使清晰的语音信号与噪声分离的处理器。还可以理解,无线头戴式耳机系统175可以被构造成其中一个耳塞式耳机将麦克风信号传递到另一个耳塞式耳机,并且另一个耳塞式耳机具有用于应用分离算法的处理器。这样便可以将清晰的语音信号发送到控制模块。在可选的结构中,处理器25与控制模块14关联。在这种配置中,无线电装置27将从麦克风32接收的信号以及从麦克风33接收的信号发送出去。利用本地无线电装置27将麦克风信号发送到控制模块,其中无线电装置27可以是蓝牙无线电装置,并且上述麦克风信号由控制模块14接收。处理器47然后可以运行信号分离算法,以产生清晰的语音信号。在可选的配置中,处理器包含在模块化的电子装置83中。这样,麦克风信号便通过电线81发送到控制模块77,而控制模块中的处理器则应用信号分离处理。图7示出了无线头戴式耳机系统200。无线头戴式耳机系统200为耳塞式耳机形式,并且具有用于连接或环绕用户的耳朵的耳夹202。耳塞式耳机200具有外壳203,而外壳203具有扬声器208。外壳203还容纳处理器和本地无线电装置(例如蓝牙无线电装置)。外壳203还具有吊杆204,吊杆204容纳有MEMS麦克风阵列205。MEMS(微机电系统)麦克风是一种将多个麦克风设置在一个或多个集成电路器件上的半导体器件。这些麦克风的制造相对较便宜,并且具有稳定的和一致的特性,从而使它们满足头戴式耳机应用的需要。如图7所示,几个MEMS麦克风可以沿着吊杆204设置。基于声环境,可以选择特殊的MEMS麦克风而作为第一麦克风207和第二麦克风206工作。例如,可以基于风噪声、或者基于对增大麦克风之间的空间距离的要求来选择特殊的麦克风组。外壳203内的处理器可以用来选择和激活可用的MEMS麦克风的特殊组。还可以理解,麦克风阵列可以位于外壳203上的可选位置,或者可以用于补充较传统的变换器类型的麦克风。图8示出了无线头戴式耳机系统210。无线头戴式耳机系统210具有耳塞式耳机外壳212,外壳212具有耳夹213。外壳212容纳处理器和本地无线电装置(例如蓝牙无线电装置)。外壳212具有吊杆205,吊杆205在其远端设有第一麦克风216。电线219与外壳212中的电子设备相连,并且在其远端设有具有麦克风217的第二外壳。夹子222可以设置于电线219上,以便将麦克风217更稳固地附着到用户上。使用时,将第一麦克风216定位成具有到说话者的嘴的相对直接的路径,而将第二麦克风217夹在某个位置,以使其具有到用户的不同的直接音频路径。由于第二麦克风217可以被固定在距离说话者嘴的适当的距离处,因此在保持通往说话者嘴的声音路径的同时,可以使麦克风216和217相对较远地隔开。在优选的使用中,第二麦克风217距离说话者的嘴总是比第一麦克风216距离说话者的嘴要远,以便简化信号识别处理。然而,用户可能无意地将麦克风放置在非常靠近嘴的位置,从而导致麦克风216距离嘴更远。因此,用于头戴式耳机210的分离处理可能需要额外的技巧和处理、以及更强大的BSS算法,以解决麦克风的不确定的布置安排。图9示出了用于在头戴式耳机上实现通信的处理225。处理225具有用于产生第一麦克风信号的第一麦克风227和用于产生第二麦克风信号的第二麦克风229。虽然示出的方法225中具有两个麦克风,但是可以理解的是,可以采用两个以上的麦克风和麦克风信号。麦克风信号被接收到语音分离处理230中。语音分离处理230例如可以是盲信号分离处理。在较为特定的实施例中,语音分离处理230可以独立分量分析处理。题为“多变换器配置中的目标声信号的分离”的第10/897,219号美国专利申请更加全面的阐述了用于产生语音信号的特定处理,而该申请的全部内容被并入本文。语音分离处理230产生清晰的语音信号231。清晰的语音信号231被接收到传输子系统232中。传输子系统232例如可以是蓝牙无线电装置、IEEE802.11无线电装置或有线连接。此外,可以理解的是,上述传输可以是传输到局域无线电通信模块,或者可以是传输到用于广域基础设施的无线电装置。这样,发送的信号235具有指示清晰的语音信号的信息。图10示出了用于在头戴式耳机上实现通信的处理250。通信处理250具有用于为语音分离处理254提供第一麦克风信号的第一麦克风251。第二麦克风252为语音分离处理254提供第二麦克风信号。语音分离处理254产生清晰的语音信号255,而清晰的语音信号255被接收到传输子系统258中。传输子系统258例如可以是蓝牙无线电装置、IEEE802.11无线电装置或有线连接。传输子系统将传输信号262发送到控制模块或其他远程无线电装置。清晰的语音信号255还被侧音处理模块256接收。侧音处理模块256将经衰减的清晰的语音信号馈送回本地扬声器260。这样,头戴式耳机上的耳塞便为用户提供更自然的音频反馈。可以理解的是,侧音处理模块256可以调节响应于本地声环境而发送到扬声器260的侧音信号的音量。例如,语音分离处理254还可以输出指示噪声音量的信号。在局部噪声环境中,侧音处理模块256可以被调整为将高水平的清晰的语音信号作为反馈输出给用户。可以理解的是,在为侧音处理信号设置衰减水平时也可以采用其他因素。用于无线通信头戴式耳机的信号分离处理可以受益于稳健而精确的语音活动检测器。图11示出了特别稳健而精确的语音活动检测(VAD)处理。VAD处理265具有两个麦克风,其中第一麦克风位于无线头戴式耳机上,以使它比第二麦克风更靠近说话者的嘴,如方框266所示。每个麦克风产生各自的麦克风信号,如方框267所示。语音活动检测器监测每个麦克风信号中的能量水平,并且将测得的能量水平进行比较,如方框268所述。在一个简单的实现中,当信号间的能量水平的差异超过预定的阈值时,监测麦克风信号。该阈值可以是固定的,或者可以根据声环境而调整。通过比较能量水平的大小,语音活动检测器可以精确地确定能量峰值是否是由目标用户讲话而引起的。通常,上述比较会导致下列情况(1)第一麦克风信号具有比第二麦克风信号高的能量水平,如方框269所示。信号的能量水平之间的差异超过预定的阈值。由于第一麦克风更靠近说话者,因此能量水平的这一关系指示目标用户正在说话,如方框272所示;可以采用控制信号来指示出现了期望的语音信号;或者(2)第二麦克风信号具有比第一麦克风信号高的能量水平,如方框270所示。信号的能量水平之间的差异超过预定的阈值。由于第一麦克风更靠近说话者,因此能量水平的这一关系指示目标用户不说话,如方框273所示;可以采用控制信号来指示该信号仅为噪声。事实上,由于一个麦克风更靠近用户的嘴,因此在该麦克风中的讲话内容将更加响亮,并且可以通过在两个被记录的麦克风信道间附加较大的能量差,以跟踪用户的讲话活动。另外,由于BSS/ICA阶段从其他信道中去除了用户的语音,因此在BSS/ICA输出级信道间的能量差会变得更大。图13示出了利用BSS/ICA处理的输出信号的VAD。VAD处理300具有两个麦克风,其中第一麦克风位于无线头戴式耳机上,以使它比第二麦克风更靠近说话者的嘴,如方框301所示。每个麦克风产生各自的麦克风信号,该麦克风信号被接收到信号分离处理中。信号分离处理产生噪声占支配地位的信号以及包含讲话内容的信号,如方框302所示。语音活动检测器监测每个信号中的能量水平,并且将测得的能量水平进行比较,如方框303所述。在一个简单的实现中,当信号间的能量水平的差异超过预定的阈值时,监测麦克风信号。该阈值可以是固定的,或者可以根据声环境而调整。通过比较能量水平的大小,语音活动检测器可以精确地确定能量峰值是否是由目标用户讲话而引起的。通常,比较导致出现下列情况(1)讲话内容信号具有较高的能量水平,然后噪声占支配地位的信号再具有较高的能量水平,如方框304所示。信号的能量水平之间的差异超过预定的阈值。由于预先确定讲话内容信号包含讲话的内容,因此能量水平的这一关系指示目标用户正在说话,如方框307所示;可以采用控制信号来指示出现了期望的语音信号;或者(2)噪声占支配地位的信号具有较高的能量水平,然后讲话内容信号再具有较高的能量水平,如方框305所示。信号的能量水平之间的差异超过预定的阈值。由于预先确定讲话内容信号包含讲话的内容,因此能量水平的这一关系指示目标用户没有在说话,如方框308所示;可以采用控制信号来指示信号仅为噪声。在双信道VAD的另一个实施例中,参照图11和图13描述的处理均被采用。在这种配置中,VAD利用麦克风信号进行一种比较(图11),并利用信号分离处理的输出进行另一种比较(图13)。位于麦克风记录级的信道和位于ICA阶段的输出级的信道之间的能量差的组合,可以用来提供稳健的评估,以确定当前被处理的帧是否包含期望的语音。双信道语音检测处理265与已知的单信道检测器相比具有显著的优点。例如,通过扩音器的语音可以使单信道检测器指示语音存在,而双信道语音检测处理265将会理解扩音器比目标说话者还要远,因此不会在信道间引起较大的能量差,因此将指示该信号为噪声。由于仅基于能量测量的信号信道VAD非常不可靠,因此其效用也大大受到限制,并且需要像过零速率或先验的期望的说话者讲话时间和频率模型等的附加标准对其进行补充。然而,双信道语音检测处理265的稳健性和准确性使得VAD能够在监督、控制和调整无线头戴式耳机的操作中担任重要角色。可以采用多种方式来实施在其中VAD检测数字语音样本(不包含活动的(active)语音)的机制。一种这样的机制需要监测较短的周期内(周期长度通常在10到30msec范围内)数字语音样本的能量水平。如果信道间能量水平的差超过固定的阈值,那么则表明数字语音样本为活动的,否则表明它们是不活动的。可选地,VAD的阈值水平可以是自适应的,并且背景噪声能量可以被跟踪。这一点也可以采用多种方式实现。在一个实施方案中,如果当前周期中的能量充分大于特定的阈值(例如由舒适噪声估计器(comfortnoiseestimator)作出的背景噪声估计),那么则表明数字语音样本为活动的,否则表明它们是不活动的(inactive)。在利用自适应阈值水平的单信道VAD中,测量例如过零速率、频谱倾斜、能量和频谱动态的语音参数,并将其与用于噪声的值进行比较。如果用于语音的参数与用于噪声的参数明显不同,那么则表明存在活动的语音,即使数字语音样本的能量水平较低。在当前的实施方案中,可以在不同的信道间进行比较,特别是可以将语音中心信道(例如,语音+噪声或其他)与其他信道进行比较,无论该其他信道是否是被分离的噪声信道,是否是可以被增强或不可以被增强、或被分离(例如噪声+语音)的噪声中心信道、或者用于噪声的存储值或估计值。尽管测量数字语音样本的能量对于检测不活动的语音来说可能是足够的,但是相对于固定阈值的数字语音样本频谱动态,在区分具有声频频谱的长语音片段和长期背景噪声时可能是有用的。在采用频谱分析的VAD的示例性实施方案中,VAD利用Itakura或Itakura-Saito失真来执行自相关,以便将基于背景噪声的长期估计与基于数字语音样本的周期的短期估计进行比较。此外,如果得到语音编码器的支持,那么则可以采用线谱对(LSP)来比较基于背景噪声的长期LSP估计与基于数字语音样本的周期的短期估计。可选地,当可以从另一软件模块获得频谱时,可以采用FFT方法。优选地,应当在具有有源语音的数字语音样本的活动周期的末尾施加将尾响(hangover)应用于。尾响跨接较短的不活动片段,以确保静止的拖尾、无声的音(例如/s/)或低SNR转换内容被分类为活动的。可以根据VAD的操作模式来调整尾响的量。如果较长活动周期之后的周期明显是不活动的(即能量非常低,并且频谱类似于测得的背景噪声),那么则可以减少尾响周期的长度。通常,跟随活动语音冲击脉冲的、大约20到500msec范围的不活动的语音将由于尾响而被声明为活动语音。阈值可以在大约-100dBm到大约-30dBm的范围内可调,并具有在大约-60dBm和大约-50dBm之间的缺省值,并且阈值取决于语音质量、系统效率和带宽要求、或听觉的阈值水平。可选地,阈值可以是自适应的,以便为大于或等于噪声(例如来自其他信道)值的某些固定值或可变值。在示例性实施方案中,VAD可以被构造成工作在多个模式下,以便在语音质量、系统效率和带宽要求之间提供系统折衷。在一种模式中,VAD总是不起作用的,并且将所有数字语音样本表明为活动语音。然而,典型的电话交谈具有60%的沉默内容或不活动的内容。因此,如果数字语音样本在这些周期内受到活动VAD的抑制,那么则可以实现高宽带增益。此外,通过VAD、特别是自适应VAD可以实现多种系统效率,例如节能、减少处理要求、提高语音重量或改善用户界面。活动的VAD不但会检测包含活动语音的数字语音样本,而且高质量的VAD还可以检测和利用数字语音(噪声)样本(已分离的或未分离的)的参数,其中包括范围在噪声和语音样本之间的值、或者噪声或语音的能量。因此,活动的VAD、特别是自适应VAD可以实现提高系统效率的多个附加特征,其中包括调制分离步骤和/或后处理(前处理)步骤。例如,将数字语音样本识别为活动语音的VAD可以接通或断开分离处理或任何前/后处理步骤,或者可选地应用不同的分离和/或处理技术,或应用分离和处理技术的组合。如果VAD不识别活动的语音,那么VAD还可以调制不同的处理,其中包括衰减或消除背景噪声、估计噪声参数、使信号和/或硬件参数标准化、或调制信号和/或硬件参数。图12示出了通信处理275。通信处理275具有用于产生第一麦克风信号278的第一麦克风277,其中第一麦克风信号278被接收到语音分离处理280中。第二麦克风279产生第二麦克风信号282,第二麦克风信号282也被接收到语音分离处理280中。在一种配置中,语音活动检测器285接收第一麦克风信号278和第二麦克风信号282。可以理解的是,可以对麦克风信号进行滤波、数字化或其他处理。第一麦克风277被定位成比麦克风279更靠近说话者的嘴。这种预定的配置能够简化语音信号的识别,并改进语音活动的检测。例如,双信道语音活动检测器285可以执行与参照图11或图13描述的处理类似的处理。语音活动检测电路的总体设计是众所周知的,因而对其不再进行详细描述。有利地,语音活动检测器285为双信道语音活动检测器,如参照图11或图13描述的那样。这就意味着VAD285对于合理的SNR是特别稳健而精确的,因此在通信处理275中VAD285可以确实地用作核心控制机构。双信道语音活动检测器285在检测语音时,产生控制信号286。在通信处理275中,控制信号286可以有利地用于激活、控制或调节几个处理。例如,语音分离处理280可以是自适应的,并且可以根据特定的声环境而学习。语音分离处理280还可以适用于特殊的麦克风布置、声环境或特殊的用户语音。为了改善语音分离处理的适应性,可以响应于语音活动控制信号286而激活学习处理288。这样,在语音可能出现时,语音分离处理仅采用其适应的学习处理。此外,在仅存在噪声时(或者可选地在噪声不存在时),不进行学习处理,这样可以节约处理和电池能量。出于说明的目的,语音分离处理将被描述为独立分量分析(ICA)处理。总的来说,在期望的说话者没有说话的任何时间间隔内,ICA模块不能够执行其主要的分离功能,因此可以将其关闭。可以基于对输入信道间的能量大小的比较、或者基于期望的说话者的先验的知识(例如特定的频谱特征),由语音活动检测模块285来监测和控制这种“开”和“关”状态。在不存在语音时,通过关闭ICA,ICA滤波器便不会不适当地执行自适应处理,从而使这种自适应仅在能够实现分离改进时才执行。即使在期望的说话者沉默的延长期之后,对ICA滤波器的自适应的控制还允许ICA处理实现和保持较好的分离质量,并且可以避免由用于解决ICA级不能解决的情况的徒劳的分离努力而引起的算法异常。各种ICA算法对无向性噪声具有不同的稳健程度或稳定性,但是,在期望的说话者保持沉默(或者没有噪声)时关闭ICA级,为方法学增加了显著的稳健性或稳定性。此外,在只存在噪声时,由于ICA处理不起作用,因而可以节约处理和电池的能量。由于在用于ICA实现的一个实施例中采用了无限脉冲响应滤波器,因此在理论上不能总是保证组合/学习过程的稳定性。然而,与具有相同性能的FIR滤波器相比,IIR滤波器系统具有更理想的效率(即等价的ICAFIR滤波器要长得多,需要高得多的MIPS),而且采用当前的IIR滤波器结构不存在白化失真,并且近似与闭环系统的极点配置有关的一组稳定性检验也包括在内,从而触发滤波器历史的初始条件以及ICA滤波器的初始条件复位。由于过去的滤波器错误(数字不稳定性)的积累可以使IIR滤波本身导致非有界的输出,因此可以采用在进行有限精度编码(finiteprecisioncoding)以检验不稳定性时所采用的技术的宽度。对ICA滤波级的输入和输出能量的明确评估用来检测异常,并使滤波器和滤波历史复位到监督模块所提供的值。在另一实施例中,话音活动监测器控制信号286用于设定音量调节289。例如,在没有检测到话音活动时,语音信号281的音量可以充分降低。那么,当检测到话音活动时,语音信号281的音量可以增大。也可以在任何后处理级的输出进行音量调节。这样不仅可以提供更好的通信信号,而且可以节省有限的电池电量。噪声估计处理290可以采用类似的方式来确定,当没有检测到话音活动时噪声减少处理何时可以更主动地(aggressively)执行。由于噪声估计处理290现在意识到何时信号仅为噪声,因此它可以更准确地表现噪声信号的特征。这样,噪声处理可以更好地调整到实际的噪声特征,并且可以更有效地应用于没有语音的周期。然后,当检测到话音活动时,噪声减少处理可以调整以使得对语音信号的不利影响较少。例如,某些噪声减少处理被公知为在语音信号中创建不期望的假象,尽管它们在减少噪声方面可能非常有效。在语音信号不存在时可以执行这些噪声处理,而当语音可能存在时可以使其失去作用或对其进行调整。在另一个实施例中,控制信号286可以用来调整某些噪声减少处理292。例如,噪声减少处理292可以是谱相减的处理。更具体地说,信号分离处理280产生噪声信号296和语音信号281。语音信号281可以具有噪声分量,并且由于噪声信号296准确地表现了噪声的特征,因此谱相减处理292可以用于进一步去除语音信号中的噪声。然而,这种谱相减还用于降低剩余的语音信号中的能量水平。因此,当控制信号指示语音存在时,噪声减少处理则可以调整为通过对剩余的语音信号进行相对较小的放大,以补偿谱相减。这种较小水平的放大会使语音信号更自然、更一致。此外,由于噪声减少处理290知道谱相减是如何有效地执行的,因此可以相应地调整放大的水平。控制信号286还可以用来控制自动增益控制(AGC)功能294。AGC应用于语音信号281的输出,并且用来使语音信号保持在可用的能量水平。由于AGC知道语音何时存在,因此AGC可以更精确地对语音信号施加增益控制。通过更精确地控制输出的语音信号或使其正常化,可以更容易和更有效地应用后处理功能。此外,可以降低在后处理和传输中饱和的风险。可以理解,控制信号可以有益地用来控制或调节通信系统中的包括其他的后处理295功能的几个处理。在示例性的实施方案中,AGC可以是完全自适应的或者具有固定的增益。优选地,AGC支持大约-30dB到30dB范围内的完全自适应操作模式。可以独立建立缺省的增益值,并且缺省的增益值通常为0dB。如果采用自适应增益控制,那么初始增益值便由该缺省增益来指定。AGC根据输入信号281的功率水平来调整增益因素。具有较低能量水平的输入信号281被放大到舒适的声音水平,而高能量水平的信号则被衰减。乘法器将增益因素应用于输入信号,输入信号然后便为输出信号。通常为0dB的缺省增益被初始地应用于输入信号中。功率估计器估计增益调整信号的短期平均功率。优选每进行八次采样便计算一次输入信号的短期平均功率,对于8kHz的信号通常每1ms计算一次输入信号的短期平均功率。剪辑逻辑(clippinglogic)对短期平均功率进行分析,以识别幅度大于预定的剪辑阈值的、增益经过调整的信号。剪辑逻辑控制AGC旁路开关,当增益经过调整的信号的幅度超过预定的剪辑阈值时,AGC旁路开关直接将输入信号连接到媒体队列。AGC旁路开关保持在开启位置或旁路位置,直到AGC进行自适应,从而使增益经过调整的信号的幅度落到剪辑阈值以下为止。在已描述的示例性实施方案中,虽然如果检测到溢出或剪辑时AGC应当非常快速地进行自适应,但是AGC还是被设计成缓慢的进行自适应。从系统方面来看,如果VAD确定话音是非活动的,那么AGC自适应应当保持固定,或者被设计成使背景噪声衰减或消除。在另一实施例中,控制信号286可以用来激活传输子系统291或使其不活动。具体地,如果传输子系统291为无线电装置,那么当检测到话音活动时,无线电装置则只需被激活或者被充分供电。这样,当没有检测到话音活动时,则可以降低传输功率。由于本地无线电系统可能由电池来供电,因此节省传输功率可以提高头戴式耳机系统的可用性。在一个实施例中,从传输系统291发送的信号为蓝牙信号293,而蓝牙信号293由控制模块中的相应的蓝牙接收机接收。图14示出了通信处理350。通信处理350具有用于向语音分离处理355提供第一麦克风信号的第一麦克风351。第二麦克风352向语音分离处理355提供第二麦克风信号。语音分离处理355产生相对清晰的语音信号356以及指示声噪声的信号357。双信道话音活动检测器360从语音分离处理接收一对信号,以确定语音何时可能出现,并且在语音可能出现时产生控制信号361。话音活动检测器360执行如参照图11或图13所描述的VAD过程。控制信号361可以用来激活或调整噪声估计处理363。如果噪声估计处理363知道信号357中何时可能不包含语音,那么噪声估计处理363则可以更精确地描述噪声的特征。噪声减少处理365然后可以利用对声噪声特征的了解,而更全面、更精确地减少噪声。由于来自语音分离处理的语音信号356可能具有某些噪声分量,因此附加的噪声减少处理365可以进一步改善语音信号的质量。这样,传输处理368接收的信号便是噪声分量较少的质量较好的信号。还可以理解的是,控制信号361可以用来控制通信处理350的其他方面,例如噪声减少处理或传输处理的激活,或者语音分离处理的激活。(已分离的或未分离的)噪声样本的能量可以用来调制输出增强的话音的能量或远端用户语音的能量。此外,VAD可以在本发明的处理之前、本发明的处理当中以及本发明的处理之后调制信号的参数。总的来说,所描述的分离处理采用一组由至少两个分开的麦克风构成的麦克风组。在某些情况下,希望所述麦克风具有通往说话者话音的相对直接的路径。在这种路径中,在不存在任何物理障碍的情况下,说话者的话音直接传送到每个麦克风。在其他情况下,所述麦克风可以被放置成其中一个麦克风具有相对直接的路径,而另一个麦克风远离说话者。可以理解的是,例如可以根据预期的声环境、物理限制和可用的处理功率来实现特定的麦克风配置。对于需要更稳健的分离的应用来说,或者在配置约束使更多的麦克风有用时,分离处理可以具有两个以上的麦克风。例如,在某些应用中,说话者可以位于与一个或多个麦克风屏蔽的位置是有可能的。在这种情况下,采用附加的麦克风以提高至少两个麦克风具有通往说话者话音的相对直接的路径的可能性。每个麦克风都接收来自语音源和噪声源的声能量,并产生具有语音分量和噪声分量的组合的麦克风信号。由于每个麦克风都与其他麦克风隔开,因此每个麦克风都将产生略有不同的组合信号。例如,噪声和语音的相对容量可以发生变化,并且对于每个声源来说,定时和延迟也可以发生变化。每个麦克风所产生的组合信号被分量处理接收。分离处理对所接收的组合信号进行处理,并产生语音信号和指示噪声的信号。在一个实施例中,分离处理利用独立分量分析(ICA)处理来产生上述两个信号。ICA处理利用交叉滤波器(crossfilter)过滤掉所接收的组合信号,其中交叉滤波器优选为具有非线性有界函数的无限脉冲响应滤波器。非线性有界函数是具有可被快速计算出的预定的最大值和最小值的非线性函数,例如基于输入值而输出正值或负值的符号函数。在信号重复反馈之后,产生双信道输出信号,其中一个信道中噪声占支配地位,因而它基本由噪声分量组成,而另一个信道则包含噪声和语音的组合。可以理解,根据本公开内容可以采用其他的1CA滤波函数和处理。可选地,本发明预期采用其他的源分离技术。例如,分离处理可以采用盲源分离(BSS)处理,或者利用一定程度的声环境的先验知识的应用特定自适应滤波处理,以实现基本类似的信号分离。在头戴式耳机配置中,麦克风的相对位置可以是事先已知的,并且该位置信息在识别语音信号时是有用的。例如,在某些麦克风配置中,其中一个麦克风很可能距离说话者最近,而所有其他麦克风则距离说话者较远。利用这一预定的位置信息,识别过程便能够确定哪一个被分离的信道会是语音信号、以及哪一个是噪声占支配地位的信号。采用该方法的优点在于能够识别哪一个是语音信道以及哪一个是噪声占支配地位的信道,而基本不必首先对信号进行处理。因此,该方法是有效的并且允许快速的信道识别,但是由于采用了更加确定的(defined)麦克风配置,因此该方法较不灵活。在头戴式耳机中,可以选择麦克风的配置,以使其中一个麦克风几乎总是最靠近说话者的嘴。识别处理可以仍然采用一个或多个确保信道被正常识别的其他识别处理。现在参照图15,其中示出了特定的分离处理400。处理400将变换器定位成接收声信息和噪声,并产生组合信号以进一步处理,如处理402和404所示。如处理406所示,组合信号被处理到信道中。处理406通常包括一组具有自适应滤波系数的滤波器。例如,如果处理406采用ICA处理,那么处理406便具有多个滤波器,并且其中每个滤波器都具有自适应的、可调整的滤波系数。在执行处理406时,将上述系数进行调整以改善分离性能,如处理421所示,并且在滤波器中应用和采用新的系数,如处理423所示。滤波系数的这种连续自适应使得处理406即使在变化的声环境中也能够提供足够的分离水平。处理406通常产生两个信道,在处理408中对所述两个信道进行识别。特别地,一个信道被识别为噪声占支配地位的信号,而另一个信道被识别为语音信号,其中语音信号可以是噪声和信息的组合。如处理415所示,可以测量噪声占支配地位的信号或组合信号,以检测信号分离水平。例如,可以测量噪声占支配地位的信号,以检测语音分量的水平,并且可以响应于测量结果来调整麦克风的增益。在运行处理400期间或者在该处理的准备期间可以执行测量和调整。这样,在设计、测试或制造处理中,可以为上述处理选择并预先确定期望的增益因素,从而使处理400免于在运行处理中执行测量和设定操作。此外,增益的适当设置可以从例如高速数字示波器的精密电子测试装置的使用中获益,其中所述精密的电子测试装置会非常有效地用于设计、测试或制造阶段。可以理解的是,可以在设计、测试或制造阶段进行初始增益设置,并且在处理100的现场运行期间,可以对增益设置进行附加的调整。图16说明了ICA或BSS处理功能的一个实施方案500。参照图16和17描述的ICA处理特别适于图5、6和7中说明的头戴式耳机的设计。这些结构较好地限定并预先确定了麦克风的定位,并允许从位于说话者嘴前方的相对较小的“气泡(bubble)”中提取出两个语音信号。分别从信道510和520接收输入信号X1和X2。通常,这些信号中的每一个都可以来自至少一个麦克风,但是可以理解的是,也可以采用其他的信号源。交叉滤波器W1和W2被应用于每个输入信号,以产生被分离的信号U1的信道530和被分离的信号U2的信道540。信道530(语音信道)包含占支配地位的期望的信号,信道540(噪声信道)包含占支配地位的噪声信号。应当理解,虽然采用术语“语音信道”和“噪声信道”,但是“语音”和“噪声”是可以基于愿望进行互换的,例如愿望可以是一个语音和/或噪声比其他语音和/或噪声更令人想得到。此外,所述方法还可以用于使混合的噪声信号与两个以上的信号源分离。无限脉冲响应滤波器优选用于本发明的处理中。无限脉冲响应滤波器是这样一种滤波器其输出信号作为输入信号的至少一部分被馈送回滤波器中。有限脉冲响应滤波器是这样一种滤波器其输出信号并不作为输入而被反馈。交叉滤波器W12和W21可以具有在时间上稀疏分布的系数,以捕获较长周期的时间延迟。在最简单的形式中,交叉滤波器W12和W21为每个滤波器仅具有一个滤波系数的增益因素,例如,输出信号和反馈输入信号之间的时间延迟的延迟增益因素,以及对输入信号进行放大的幅度增益因素。在其他形式中,交叉滤波器可以各自具有数以十计、数以百计或数以千计的滤波系数。如下面所描述的那样,输出信号U1和U2可由后处理子模块、降噪模块或语音特征提取模块进一步处理。虽然已明确导出了ICA学习规则以实现盲源分离,但是其对于在声环境中的语音处理的实际实施可以导致滤波方案的不稳定行为。为了确保该系统的稳定性,W12以及类似的W21的自适应动力学在第一位置必须是稳定的(stable)。这种系统的增益余量在一般意义上是较低的,因而输入增益的增大(其例如与非静止语音信号冲突)可以导致不稳定,从而导致权值系数的指数地增长。由于语音信号一般呈现零平均值的稀疏分布,因此符号函数将会在时间上出现频繁振荡,并导致不稳定的行为。最后,由于快速收敛希望得到较大的学习参数,因此在稳定性和性能之间存在固有的折衷,因为较大的输入增益将使得系统更不稳定。已知的学习规则不但导致出现不稳定,而且往往由非线性符号函数而引起振荡,尤其是在接近稳定性极限时,从而导致滤波的输出信号U1(t)和U2(t)产生混响。为了解决这些问题,W12和W21的自适应规则需要保持稳定。如果用于滤波系数的学习规则是稳定的,并且从X到U的系统传递函数的闭环极点位于单位圆内,那么广泛的分析和经验研究显示出,系统在BIBO(有界输入有界输出)中是稳定的。因此,总的处理方案的最后相应目标是在稳定约束下的噪声语音信号的盲源分离。因此,保证稳定性的主要方法是适当地对输入进行缩放。在该架构中,基于引入的输入信号的特征来调整缩放因数sc_fact。例如,如果输入太高,那么将导致sc_fact增大,从而减小输入幅度。在性能和稳定性之间存在妥协。将输入缩小sc_fact会降低SNR,从而导致分离性能降低。因而,输入应当仅被缩放到保证稳定性所需的程度。对于交叉滤波器来说,可以通过运行在每个样本都引起权值系数短期波动的滤波器架构,从而避免相关混响,来获得附加的稳定。该自适应规则的滤波可以看作是时域平滑。在频域中可以执行进一步的滤波器平滑,以加强相邻频率点上收敛的分离滤波的相干性。通过将K-tap滤波器零抽头(zerotapping)为长度L,然后利用增强的时间支持对该滤波器进行傅立叶变换,随后再进行傅立叶反变换,可以方便地实现这一点。由于已经使滤波器有效地具有矩形时域窗口,因此在频域中由正弦函数使其相应地平滑。在规则的时间间隔内可以完成该频域平滑,以便周期地将被调整的滤波系数重新初始化为相干的解。以下等式为可以用于每个时间样本t的ICA滤波器结构的实施例,其中k为时间增量变量。U1(t)=X1(t)+W12(t)U2(t)(等式1)U2(t)=X2(t)+W21(t)U1(t)(等式2)ΔW12k=-f(U1(t))×U2(t-k)(等式3)ΔW21k=-f(U2(t))×U1(t-k)(等式4)函数f(x)为非线性有界函数,即具有预定的最大值和预定的最小值的非线性函数。f(x)优选为可以快速接近由变量x的符号所决定的最大值或最小值的非线性有界函数。例如,符号函数f(x)是根据x的正负而取二进制值1或-1的函数。示例性非线性有界函数包括但不限于(等式7)f(x)=tanh(x)=ex-e-xex+e-x]]>(等式8)(等式9)这些规则假定浮点精度是可用的,以执行必要的计算。虽然浮点精度是优选的,但是也可以采用定点运算,尤其是当用于具有最小化的计算处理能力的设备时。尽管能够采用定点运算,但是收敛到最佳ICA的解则更加困难。事实上,ICA算法是基于干扰源必须被消除的原则的。由于定点运算在减去几乎相等的数字时(或者在加上完全不同的数字时)存在一定的不精确,因此ICA算法可能未显示出最佳的收敛特性。可以影响分离性能的另一个因素是滤波因数量化误差效果。由于滤波系数的分辨率是有限的,因此滤波系数的自适应将在某个点产生逐渐成增加的分离改进,从而在确定收敛特性时需要进行考虑。量化误差效果取决于多个因素,但是主要为所采用的滤波长度和位分辨率的函数。前面提到的输入缩放问题在防止数字溢出的有限精度计算中也是必不可少的。由于滤波处理中所涉及的卷积可能潜在地增加到大于可用分辨率范围的数字,因此缩放因数必须保证滤波器的输入足够小,以防止这一情况出现。本处理的功能从至少两个音频输入信道(例如麦克风)接收输入信号。音频输入信道的数量可以增大到超过两个信道的最小值。随着输入信道数量的增加,语音分离质量通常可以改善到输入信道的数量与音频信号源的数量相等时的情形。例如,如果输入的音频信号的来源包括说话者、背景说话者、背景音乐来源以及由远处的公路噪声和风噪声产生的一般的背景噪声,那么四个信道的语音分离系统通常将胜过两个信道的系统。当然,采用的输入信道越多,则需要的滤波器和计算功率就越多。可选地,通常实现为少于信号源的总数量,只要存在用于期望的被分离信号和噪声的信道即可。本处理的子模块和处理可以用于分离输入信号的两个以上的信道。例如,在蜂窝电话应用中,一个信道可以基本包含期望的语音信号,另一个信道可以基本包含来自一个噪声源的噪声信号,再一个信道可以基本包含来自另一个噪声源的音频信号。例如,在多用户环境中,一个信道可以包括主要来自一个目标用户的语音,而另一个信道可以包括主要来自不同的目标用户的语音。第三个信道可以包括噪声,并且对于进一步处理两个语音信道是有用的。可以理解,附加的语音信道或目标信道可能是有用的。虽然某些应用仅涉及期望的语音信号的一个源,但是在其他应用中可能存在期望的语音信号的多个源。例如,远程会议应用或音频监视应用可能需要使多个说话者的语音信号与背景噪声分离、以及使多个说话者的语音信号彼此分离。本处理不但可以用于使语音信号的一个源与背景噪声分离,而且可以用于使一个说话者的语音信号与另一个说话者的语音信号分离。只要至少一个麦克风具有到达说话者的相对直接的路径,本发明则将容纳多个信号源。如果无法获得这种直接路径,像两个麦克风都位于用户的耳朵附近、并且通往嘴的直接的声路径被用户的面颊封闭的头戴式耳机应用中那样,本发明还是会起作用的,因为用户的语音信号仍被限制在合理小的空间区域中(围绕嘴的语音气泡)。本处理将声音信号分散到至少两个信道中,例如,其中一个信道中噪声信号处于支配地位(噪声支配的信道),而另一个信道则是用于语音信号和噪声信号的信道(组合信道)。如图15所示,信道630为组合信道,而信道640为噪声支配的信道。很可能噪声支配的信道仍包含某些低水平的语音信号。例如,如果存在两个以上的重要声源并且仅有两个麦克风,或者如果两个麦克风距离较近,而声源却离地很远,那么单独处理则不可能总是完全分离出噪声。因此,经处理的信号可能需要附加的语音处理,以去除剩余水平的背景噪声和/或进一步改善语音信号的质量。这一点可以通过对已分离的输出执行单信道或多信道语音增强算法,例如使用具有利用噪声支配输出信道估计的噪声谱的Wiener滤波器(由于第二个信道是只有噪声占支配地位的信道,因此通常不需要VAD)来实现。Wiener滤波器还可以采用利用话音活动检测器检测的非语音时间间隔,以便使由长时间支持的背景噪声而降低的信号达到更好的SNR。此外,有界函数仅仅是相关熵计算的简化近似,并且不可能总是完全降低信号的信息冗余。因此,在利用本分离处理将信号分离之后,可以执行后处理以进一步改善语音信号的质量。基于噪声支配的信道中的噪声信号与组合信道中的噪声信号具有类似的信号特征(signalsignature)这一合理假定,在语音处理功能中应当过滤掉组合信道中的、特征与噪声支配的信道中的信号的特征类似的噪声信号。例如,谱相减技术可用来执行这种处理。噪声信道中的信号的特征可被识别。与依赖于预定的噪声特征假定的现有噪声滤波器相比,所述语音处理更灵活,因为其分析特定环境的噪声特征并去除代表特定环境的噪声信号。因此,在去除噪声时较少地出现包含过多或包含过少的现象。可以采用例如Wiener滤波和Kalman滤波的其他滤波技术来执行语音后处理。由于ICA滤波的解仅收敛于真实解案的极限环(limitcycle)内,因此滤波系数会保持自适应,而不会导致较好的分离性能。已经观察到某些系数偏离到其分辨率极限。因此,包含期望的语音信号的ICA输出的后处理版本通过如图所示的HR反馈结构而被反馈,收敛的极限环被克服,并且不会使ICA算法失去稳定。该处理所带来的有益之处是收敛大大加速。在对ICA处理作出一般解释后,可获得某些特定的特征用于头戴式耳机或耳机设备。例如,对一般的ICA处理进行调整以提供自适应的复位机构。如上所述,ICA处理具有可在操作处理中进行自适应的滤波器。由于这些滤波器进行自适应,因此整个处理最终会变得不稳定,并且最后获得的信号会变得失真或饱和。一旦输出信号饱和,滤波器便需要复位,这样会导致在生成的信号中出现令人烦恼的“毛刺(pop)”。在一种特别期望的配置中,ICA处理具有学习级和输出级。学习级采用相对有效的ICA滤波配置,但其出仅用来“学习”输出级。输出级提供“光滑(smooth)”的功能,并且更慢地进行自适应以改变条件。这样,学习级快速地进行自适应并调整输出级的改变,而输出级对改变具有惯性或抵抗。ICA复位处理监视每个级的值,以及最后的输出信号。由于学习级快速地执行,因此,学习级比输出级可能更经常出现饱和。一旦出现饱和,学习级的滤波系数便被复位到缺省状态,而学习ICA便以当前采样值来替换其滤波历史。然而,由于学习ICA的输出没有直接与输出信号相连,因此最后获得的“假信号(glitch)”不会导致任何可察觉的或可听到的失真。事实上,这种改变仅导致不同的滤波系数集被发送到输出级。但是,由于输出级相对较慢地发生改变,因此其也不会产生任何可察觉的或可听到的失真。通过仅对学习级进行复位,使得ICA处理在没有由于复位而产生的实质失真的情况下进行。当然,输出级可能偶尔仍然需要复位,这会导致通常的“毛刺”。然而,这种情况在现在是相对较罕见的。此外,期望复位机构产生稳定的分离ICA滤波输出,以使用户感觉最后获得的音频信号中存在最小的失真和中断。由于饱和检验是根据一批立体声缓冲器采样来进行评估的,并且在ICA滤波之后,缓冲器应当被选择为如实用的那样小,因为ICA级的复位缓冲器将被丢弃,并且在当前的采样周期中没有足够的时间重新进行ICA滤波。对于具有当前记录的输出缓冲器值的两个ICA滤波级,重新初始化过去的滤波历史。后处理级将接收当前记录的语音信号+噪声信号、以及当前记录的噪声信道的信号,以作为参考。由于ICA缓冲器的尺寸可以减少到4ms,因此这样使得在期望的说话者语音输出中察觉不到不连续。当ICA处理被启动或者被复位时,滤波器值或抽头(tap)被复位为预定值。由于头戴式耳机或耳机通常仅具有有限范围的操作条件,因此可以选取抽头的缺省值以解决期望的操作配置。例如,每个麦克风与说话者的嘴之间的距离通常保持在较小的范围内,并且期望的说话者的话音频率也可能在相对较小的范围内。利用这些约束以及实际的操作值,可以确定相当精确的抽头值的集合。通过认真选择缺省值,可以缩短ICA执行期望的分离的时间。应当包括对滤波器抽头范围的明确约束,以约束可能的解决方案空间。这些约束可以来源于方向性考虑或者在先前的实验中通过收敛到最佳解决方案而获得的实验值。还应当理解,缺省值可以在时间上以及根据环境条件进行自适应。还可以理解,通信系统可以具有一个以上的缺省值集合。例如,在非常嘈杂的环境中可以采用一个缺省值集合,而在较安静的环境中则可以采用另一个缺省值集合。在另一个实施例中,可以为不同的用户存储不同的缺省值集合。如果提供一个以上的缺省值集合,那么则会包含监督模块,以确定当前的操作环境,以及确定将采用哪个可用的缺省值。然后,当收到复位命令时,监督处理会将所选的缺省值引导至ICA处理,并将新的缺省值存储在例如芯片上的闪存中。从初始状态集合开始启动分离优化的任何方法被用来加速收敛。对于任何给定的场景(scenario),监督模块应当决定特定的初始状态集合是否是适当的并实施该特定的初始状态集合。头戴式耳机中自然会出现声回声(echo)问题,因为空间或设计的限制可使麦克风定位成靠近耳部扬声器。例如,在图17中,麦克风32靠近耳部扬声器19。当在耳部扬声器中播放来自远端用户的语音时,该语音也会被麦克风拾取,并产生回声而返回到远端用户。根据耳部扬声器的音量和麦克风的位置,这种不期望的回声可能是响亮而令人烦恼的。声回声可被认为是干扰噪声,并可采用相同的处理算法来去除。对一个交叉滤波器的滤波器约束反应了需要从一个信道中去除期望的说话者语音,并限制了其解决方案的范围。其他的交叉滤波器从扩音器中去除任何可能的外部干扰和声回声。因此,通过给予足够的自适应灵活性以去除回声,从而确定关于第二交叉滤波器抽头的约束。对于该交叉滤波器来说,学习速度可能也需要改变,并且不同于噪声抑制所需的学习速度。根据头戴式耳机的设置,可以固定耳部扬声器相对于麦克风的位置。为了去除耳部扬声器中的语音,可以提前学习和固定必要的第二交叉滤波器。另一方面,麦克风的传输特性可随着时间漂移或者随着例如温度的环境条件改变而漂移。麦克风的位置在某种程度上可由用户调整。所有这些方面都需要对交叉滤波系数进行调整,以便更好地消除回声。在自适应处理中,可以将这些系数限制在固定的已学习的系数集合附近。与等式(1)至(4)中所描述的算法相同的算法可以用来去除声回声。在没有回声的情况下,输出U1将是期望的近端用户的语音。U2将是去除了近端用户语音的噪声参考信道。按照惯例,利用自适应归一化最小均方(NLMS)算法并将远端信号作为参考,从而在麦克风信号中去除声回声。需要检测近端用户的沉默,然后假定麦克风拾取的信号仅包含回声。NLMS算法通过将远端信号作为滤波输入、以及将麦克风信号作为滤波输出,从而建立声回声的线性滤波模型。当检测到远端用户和近端用户都在讲话时,学习的滤波器便被冻结并被应用于引入的远端信号,以生成回声的估计。然后从麦克风信号中减去该估计的回声,并且随着回声被去除,最后获得的信号被发送出去。上述方案的缺点在于需要较好地检测近端用户的沉默。如果用户处于嘈杂的环境中,那么这一点便是难以实现的。上述方案还假定在引入的远端电信号-耳部扬声器-麦克风拾取路径中进行线性处理。在将电信号转换成声音时,耳部扬声器很少是线性设备。当以较高的音量驱动扬声器时,非线性效应则是明显的。这样会出现饱和,并且会产生谐波或失真。利用双麦克风配置,来自耳部扬声器的失真的声信号将由两个麦克风拾取。第二交叉滤波器会将回声估计为U2,而第一交叉滤波器则会从主麦克风中去除该回声。这样便产生不含回声的信号U1。该方案不需要远端信号-麦克风这一路径的模型为非线性。无论近端用户是否是沉默的,学习规则(3-4)都会起作用。这样可以去除双讲话检测器,并且在整个对话处理中可以对交叉滤波器进行更新。在第二麦克风不可用的情况下,近端麦克风信号和引入的远端信号可用作输入X1和X2。可以仍然采用本专利中所描述的算法来去除回声。当远端信号X2不包含任何近端语音时,唯一的修改在于权值W21k全部设为零。因此将去除学习规则(4)。尽管在单一麦克风设置的情况下,不会解决非线性问题,但是在整个对话处理中仍然可以更新交叉滤波器,并且不需要双谈话检测器。在双麦克风或单一麦克风的配置中,传统回声抑制方法可仍然用来去除任何残留的回声。这些方法包括声回声抑制和互补的梳状滤波。在互补的梳状滤波中,到达耳部扬声器的信号首先通过梳状滤波器的频带。麦克风与阻带为第一滤波器的通带的互补的梳状滤波器耦合。在声回声抑制方面,当检测到近端用户沉默时,麦克风信号衰减6dB或者更多。通信处理通常具有后处理步骤,以从语音内容信号中去除附加的噪声。在一个实施例中,噪声特征用来从语音信号中光谱地(spectrally)减去噪声。相减的主动性(aggressiveness)由过饱和因数(OSF)来控制。然而,谱相减的主动应用可以导致令人不舒适的或不自然的语音信号。为了降低需要的谱相减,通信处理可以对ICA/BSS处理的输入进行缩放。为了在话音+噪声信道和仅存在噪声的信道之间的每个频率点对噪声特征和幅度进行匹配,左输入信道和右输入信道可相对于彼此进行缩放,因此从噪声信道中可以获得话音+噪声信道中的噪声的尽可能接近的模型。在处理级进行缩放而不是调节OSF(Over-SubtractionFactor,过量相减因数),通常会产生更好的话音质量,因为ICA级被迫去除尽可能多的无向性噪声的定向分量。在特殊的实施例中,在需要减少附加的噪声时,噪声支配的信号可被更加放大。这样,ICA/BSS处理便提供附加的分离,并且需要较少的后处理。实际的麦克风可能存在频率与灵敏度的失配,而ICA级可能会产生每个信道中高/低频的不完全分离。因此,为了实现可能的最佳的语音质量,在每个频率点或频率点的范围内对OSF进行单独缩放可能是必不可少的。此外,为了改进感觉,可以强调或不强调所选择的频率点。还可以根据期望的ICA/BSS学习速度而调整来自麦克风的输入水平,以允许更有效地应用后处理方法。ICA/BSS和后处理采样缓冲器在多变化的幅度范围内逐渐发展。在高输入水平下,ICA学习速度缩小是期望的。例如,在高输入水平下,ICA滤波器值可以迅速改变,并且更快速地饱和或变得不稳定。通过对输入信号进行缩放或衰减,学习速度可以适当降低。也期望对后处理的输入进行缩小,以避免计算语音的粗略估计和导致失真的噪声功率。为了避免ICA级中的稳定性和溢出问题、以及为了从后处理级中的最大可能的动态范围中获益,因而对ICA/BSS和后处理级的输入数据进行自适应地缩放。在一个实施例中,通过适当选择较高的中间级输出缓冲器分辨率(与DSP输入/输出分辨率相比而言),可以在整体上增强声音质量。还可以利用输入缩放来协助两个麦克风之间的幅度校准。如前所述,期望两个麦克风可以正常匹配。尽管某些校准可以动态地执行,但是在制造处理中也可以执行其他校准和选择。应当对两个麦克风进行校准,以便与频率和总的灵敏度匹配,从而使ICA和后处理级中的调谐最小。这样可能需要对一个麦克风的频率响应的进行反相(inversion),以获得另一个麦克风的频率响应。为此,可以采用本领域中公知的所有用于实现信道反相的技术,其中包括盲信道反相。通过对多个产品麦克风中的麦克风进行适当匹配,可以实现硬件校准。可以考虑离线或在线调谐。在线调谐将会需要VAD的帮助,以便在仅存在噪声的时间间隔中调整校准设置,即,麦克风的频率范围需要由白噪声优先激发为能够校正所有频率。虽然已经公开了本发明的特殊的优选实施方案和可选实施方案,但是可以理解的是,可以利用本发明的教导实施上述技术的各种修改和延伸。所有这些修改和延伸都被认为包含在所附权利要求的真实精神和范围之内。权利要求1.一种头戴式耳机,包括外壳;耳部扬声器;与所述外壳相连的第一麦克风;与所述外壳相连的第二麦克风;以及与所述第一麦克风和所述第二麦克风耦合的处理器,所述处理器执行以下步骤从所述第一麦克风接收第一语音信号加噪声信号;从所述第二麦克风接收第二语音信号加噪声信号;将所述第一语音信号加噪声信号以及所述第二语音信号加噪声信号作为信号分离处理的输入;产生语音信号;以及发送所述语音信号。2.如权利要求1所述的头戴式耳机,进一步包括无线电装置,并且其中所述语音信号被发送到所述无线电装置。3.如权利要求2所述的头戴式耳机,其中所述无线电装置根据蓝牙标准工作。4.如权利要求1所述的头戴式耳机,进一步包括远程控制模块,并且其中所述语音信号被发送到所述远程控制模块。5.如权利要求1所述的头戴式耳机,进一步包括侧音电路,其中所述语音信号被部分地发送到所述侧音电路,并且在所述耳部扬声器中播放。6.如权利要求1所述的头戴式耳机,进一步包括第二外壳;位于所述第二外壳中的第二耳部扬声器;并且其中所述第一麦克风位于所述第一外壳中,而所述第二麦克风位于所述第二外壳中。7.如权利要求1所述的头戴式耳机,其中所述耳部扬声器、所述第一麦克风以及所述第二麦克风位于所述外壳中。8.如权利要求7所述的头戴式耳机,其中所述麦克风中至少之一与另一个麦克风被定位成朝向不同的风向。9.如权利要求1所述的头戴式耳机,其中所述第一麦克风被定位成距离用户嘴至少3英寸。10.如权利要求1所述的头戴式耳机,其中所述第一麦克风和所述第二麦克风被构造成MEMS麦克风。11.如权利要求1所述的头戴式耳机,其中所述第一麦克风和所述第二麦克风是从MEMS麦克风的集合中选取的。12.如权利要求1所述的头戴式耳机,其中所述第一麦克风和所述第二麦克风被定位成所述第一麦克风的进入端口与所述第二麦克风的输入端口正交。13.如权利要求1所述的头戴式耳机,其中所述麦克风之一与所述外壳隔开。14.如权利要求1所述的头戴式耳机,其中所述信号分离处理为盲源分离处理。15.如权利要求1所述的头戴式耳机,其中所述信号分离处理为独立分量分析处理。16.一种无线头戴式耳机,包括外壳;无线电装置;耳部扬声器;与所述外壳相连的第一麦克风;与所述外壳相连的第二麦克风;以及处理器,其执行以下步骤从所述第一麦克风接收第一信号;从所述第二麦克风接收第二信号;检测话音活动;响应于对所述话音活动的检测而生成控制信号;利用信号分离处理生成语音信号;以及将所述语音信号发送到所述无线电装置。17.如权利要求16所述的无线头戴式耳机,其有且仅有一个外壳,其中所述无线电装置、耳部扬声器、第一麦克风、第二麦克风以及处理器位于所述外壳中。18.如权利要求16所述的无线头戴式耳机,其中所述第一麦克风位于所述外壳中,而所述第二麦克风位于第二外壳中。19.如权利要求16所述的无线头戴式耳机,其中所述第一外壳和所述第二外壳连接在一起,以形成立体声头戴式耳机。20.如权利要求16所述的无线头戴式耳机,其中所述第一麦克风与所述外壳隔开,而所述第二麦克风与所述第二外壳隔开。21.如权利要求16所述的无线头戴式耳机,其中所述第一麦克风与所述外壳隔开,并通过导线与所述外壳相连。22.如权利要求16所述的无线头戴式耳机,其中所述处理进一步执行以下步骤响应于所述控制信号而使所述信号分离处理不起作用。23.如权利要求16所述的无线头戴式耳机,其中所述处理进一步执行以下步骤响应于所述控制信号而调节所述语音信号的音量。24.如权利要求16所述的无线头戴式耳机,其中所述处理进一步执行以下步骤响应于所述控制信号而调整噪声减少处理。25.如权利要求16所述的无线头戴式耳机,其中所述处理进一步执行以下步骤响应于所述控制信号而激活学习处理。26.如权利要求16所述的无线头戴式耳机,其中所述处理进一步执行以下步骤响应于所述控制信号而估计噪声水平。27.如权利要求16所述的无线头戴式耳机,进一步包括所述处理器生成噪声支配的信号的步骤,并且其中所述检测步骤包括接收所述语音信号和所述噪声支配的信号。28.如权利要求16所述的无线头戴式耳机,其中所述检测步骤包括接收所述第一信号和所述第二信号。29.如权利要求16所述的无线头戴式耳机,其中所述无线电装置根据蓝牙标准工作。30.如权利要求16所述的无线头戴式耳机,其中所述信号分离处理为盲源分离处理。31.如权利要求16所述的无线头戴式耳机,其中所述信号分离处理为独立分量分析处理。32.一种蓝牙头戴式耳机,包括外壳,其被构造成将耳部扬声器定位成将声音投射到佩带者的耳朵中;位于所述外壳上的至少两个麦克风,其中每个麦克风产生各自的传感器信号;处理器,其被配置成接收所述传感器信号,并且执行分离处理以生成语音信号。33.一种无线头戴式耳机系统,包括耳部扬声器;第一麦克风,用于生成第一传感器信号;第二麦克风,用于生成第二传感器信号;处理器;无线电装置;所述处理器执行以下步骤接收所述第一传感器信号和所述第二传感器信号;将所述第一传感器信号和所述第二传感器信号作为输出而提供给信号分离处理;生成语音信号;以及发送所述语音信号。34.如权利要求33所述的无线头戴式耳机,进一步包括外壳,所述外壳容纳所述耳部扬声器和所述两个麦克风。35.如权利要求33所述的无线头戴式耳机,进一步包括外壳,所述外壳容纳所述耳部扬声器、并且仅容纳所述两个麦克风之一。36.如权利要求33所述的无线头戴式耳机,进一步包括外壳,所述外壳容纳所述耳部扬声器而不容纳所述两个麦克风。37.如权利要求33所述的无线头戴式耳机,其中所述处理器、所述第一麦克风以及所述第二麦克风位于同一外壳中。38.如权利要求33所述的无线头戴式耳机,其中所述无线电装置、所述处理器、所述第一麦克风以及所述第二麦克风位于同一外壳中。39.如权利要求33所述的无线头戴式耳机,其中所述耳部扬声器和所述第一麦克风位于同一外壳中,而所述第二麦克风位于另一外壳中。40.如权利要求33所述的无线头戴式耳机,进一步包括用于定位第二耳部扬声器和所述耳部扬声器的部件,该部件通常形成立体声头戴式耳机。41.如权利要求33所述的无线头戴式耳机,进一步包括用于定位所述耳部扬声器的部件、以及用于容纳所述第一麦克风的独立外壳。42.一种头戴式耳机,包括外壳;耳部扬声器;第一麦克风,其与所述外壳相连,并具有空间限定的音量,其中以该音量生成语音;第二麦克风,其与所述外壳相连,并具有空间限定的音量,其中以该音量生成噪声;以及与所述第一麦克风和所述第二麦克风耦合的处理器,所述处理器执行以下步骤从所述第一麦克风接收第一信号;从所述第二麦克风接收第二信号;将所述第一信号和所述第二信号加上噪声信号作为输入而提供给广义旁瓣对消器;生成语音信号;以及发送所述语音信号。全文摘要头戴式耳机被构造成在嘈杂的声环境中产生听觉上不同的语音信号。所述头戴式耳机将一对分开的麦克风定位在用户的嘴附近。所述麦克风中的每一个都接收用户的语音,并且还接收声环境噪声。包含噪声和信息分量的麦克风信号被接收到分离处理中。所述分离处理产生具有基本减少了噪声分量的语音信号。然后对所述语音信号进行处理,以便进行传输。在一个实施例中,传输过程包括利用蓝牙无线电装置将所述语音信号发送到本地控制模块。文档编号G10L21/02GK101031956SQ200580029832公开日2007年9月5日申请日期2005年7月22日优先权日2004年7月22日发明者埃里克·维斯,杰里米·托曼,汤姆·戴维斯,布里安·莫迈耶申请人:索福特迈克斯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1