专利名称:用于话音信号提取的方法和设备的制作方法
技术领域:
本发明涉及基于语音的系统中的噪声减少领域。特别地,本发明涉及从信号环境中提取目标音频信号。
背景技术:
基于语音的系统和技术日益变得平常,其中一些较受欢迎的配置是依赖于语音识别功能的蜂窝电话机、手持计算装置和系统。因此,随着基于语音的技术变得日益平常,这样的基于语音的技术的增长和用户接受的主要障碍是污染语音信号并使语音处理结果的性能与质量恶化的噪声或干扰源。诸如噪声消除滤波器和噪声消除话筒的当前商业补救方法已不足以对付许多真实情况,这些补救方法至多提供有限的改善并且有时使事情更加恶化。
在从环境中存在的包括其他语音源的物体发出的声音波与利用需要的语音源生成的声音波混合并干扰此声音波时,出现语音信号的噪声污染。干扰沿三个方面出现,这些方面是时间、频率和到达方向。多个声音波同时在接收传感器或装置上登记的结果是出现时间重叠。在混合具有公共频率成分的声音源时,频率或频谱重叠出现并且特别麻烦。因为声音源可能占据接收装置周围的任何位置并因而在相应声音波的传播中呈现类似的方向属性,所以出现到达方向的重叠。
时间重叠导致在声音传感器或话筒上接收混合信号。此混合信号包含声音源的属性组合,使声音质量以及此信号后续处理的结果恶化。时间重叠的一般解决方案通过区分频率、内容或到达方向的信号属性来区别在时间上重叠的信号。然而,这些一般解决方案不能区分在时间、频谱或到达时间上同时重叠的信号。
可将通常技术一般分成两个通用组空间滤波器组;和频率滤波器组。空间滤波器组采用空间滤波器,根据各个信号的到达方向来区分信号。因此,频率滤波器组采用频率滤波器,根据各个信号的频率特性来区分信号。
至于频率滤波器,在从多个源始发的信号未在频谱上重叠并且知道这些信号的频谱内容时,一组频率滤波器(诸如,低通滤波器、带通滤波器、高通滤波器或这些滤波器的一些组合)能够用于解决此问题。频率滤波器用于滤除不是需要信号成分的频率成分。因而,频率滤波器在通过抑制伴随的环绕干扰音频信号隔离特定的需要信号方面提供有限的改善。然而,典型的基于频率滤波器的解决方案还不能区分在频率内容(即,频谱)上重叠的信号。
噪声抑制的示例性基于频率的方法是频谱相减,在讲话者安静的时间期间记录噪声内容并从讲话者讲话时记录的信号中减去此噪声内容的频谱。这可能产生不自然的效果并且不利地与噪声信号一起除去一些语音信号。
在从多个源始发的信号在其到达方向方面极少重叠或不重叠并且知道需要信号的到达方向时,利用空间滤波器能够在很大程度上解决此问题。许多阵列话筒利用空间滤波技术。方向性话筒也提供从此话筒的非优选方向到达的信号的一些衰减。例如,通过将方向性话筒举到嘴边,讲话者能保证方向性话筒主要拾取他/她的话音。然而,方向性话筒不能解决由于时间和频谱中的重叠而引起的问题。
因此,当前技术与许多其他的竞争噪声取消技术一样抑制噪声,这不一定得到需要信号的隔离,这是因为此需要信号的某些部分在滤波处理期间实际上容易被滤除或被破坏。而且,为了在设计参数内操作,典型技术一般要求干扰声音或从不同方向到达或包含不同的频率成分。因此,当前技术限于规定的声学领域和环境条件。
结果,用于产生干净音频信号的典型技术具有未解决要求同时考虑所有环境(例如,时间上的重叠、到达方向上的重叠、频谱上的重叠)的许多实际情况的缺点。因而,需要通过考虑所有类型的信号干扰来解决许多实际噪声情况的设备和方法。
发明内容
提供一种方法用于定位具有至少两个话筒单元的话筒布置(arrangement)的各个单元。在估算需要信号源的可能位置以及干扰信号源的可能位置之后,定义一组准则用于信号处理系统的可接受性能。此信号处理系统区分需要信号和干扰这些需要信号的信号。在定义准则之后,将话筒布置的第一单元定位在常规位置上。所定义的准则对后续话筒单元的设置施加限制。对于两个话筒布置来说,此准则可以包括避免导致相同信号利用两个话筒单元登记的话筒设置;和定位话筒单元,以使这两个话筒单元上登记的干扰声音源具有类似特征。对于具有两个以上的话筒单元的话筒布置来说,可以放松一些准则,或可以增加另外的限制。不管话筒布置中的话筒单元的数量如何,以保证符合定义的用于特定数量话筒的准则组的方式来定位话筒布置的后续单元。
这些定位方法用于提供许多话筒阵列或布置。提供这样的话筒布置的许多示例,其中一些示例与日常物体组合。还有,这些方法用于提供输入数据给信号处理系统或语音处理系统进行声音鉴别。而且,增强与扩展信号处理系统或语音处理系统以进行将话筒布置用做传感器前端的声音鉴别。这些话筒阵列组合在许多电子装置中。
本文中提供的描述是示例性和解释性的并且用于提供所要求保护的发明的示例。
这些附图表示所要求保护的发明的实施例。在这些附图中图1是与一个实施例的话音提取系统一起使用的用于确定话筒设置的方法流程图;图2表示满足设置准则的一个实施例的两个话筒的布置;图3是一个实施例的两话筒布置的具体图;图4A与4B表示一个实施例的话音提取系统的两话筒布置;图5A与5B表示一个实施例的话音提取系统的可替换的两话筒布置;图6A与6B表示一个实施例的话音提取系统的附加可替换的两话筒布置;图7A与7B表示一个实施例的话音提取系统的其他可替换的两话筒布置;图8是表示相对话筒的多个信号源设置的一个实施例的两话筒布置的俯视图;图9表示各种手持装置上一个实施例的话筒阵列设置;图10表示汽车电信息通信系统中一个实施例的话筒阵列设置;图11表示安装在一对眼镜或遮光板上的一个实施例的话音提取系统的两话筒布置;图12表示安装在塞绳上的一个实施例的话音提取系统的两话筒布置;图13A-C表示安装在钢笔或其他书写或指示仪器上的一个实施例的话音提取系统的两话筒布置;图14表示一个实施例的话音提取系统的许多两话筒布置;图15表示具有两个以上话筒的一个实施例的话筒阵列;图16表示具有两个以上话筒的一个实施例的另一话筒阵列;图17表示具有两个以上话筒的一个实施例的可替换话筒阵列;图18表示具有两个以上话筒的一个实施例的另一可替换话筒阵列;图19A-C表示具有两个以上话筒的一个实施例的其他可替换话筒阵列;图20A与20B表示典型的前馈与反馈信号分离结构;图21A表示接收两个输入和提供两个输出的一个实施例的示意性话音提取结构的方框图;图21B表示接收两个输入和输出五个输出的一个实施例的话音提取结构的方框图;图22A-D表示在一个实施例中使用的四种类型的话筒方向图。
具体实施例方式
用于在信号处理系统中执行盲信号分离的方法与系统公开在引入在此作为参考的题为“Method and Apparatus for Blind SignalSeparation”的美国申请系列号09/445778中。还有,此信号处理系统与方法扩展为包括根据引入在此作为参考的题为“Adaptive StateSpace Signal Separation,Discrimination and RecoveryArchitectures and Their Adaptations for Use in DynamicEnvironments”美国申请系列号09/701920中的状态空间方案的反馈结构。这些待审专利公开能够应用于利用能登记接收信号类型的传感器接收的许多类型的信号的信号分离、鉴别和恢复的一般技术,也公开利用这些信号处理技术的声音鉴别系统或话音提取系统。分离和获取需要的单个话音信号而至少部分地无其他声音或几乎不被其他声音阻碍或掩蔽的处理在此称为“话音提取”一个实施例的话音提取系统隔离需要的单个话音信号和混合或组合环境的干扰声音源,以提供纯话音信号给包括例如语音压缩、传输和识别系统的语音处理系统。隔离特别包括从出现在此环境中和/或利用一个或多个声音传感装置登记的所有声音之和中分离和隔离目标话音信号。出现的声音包括背景声、噪声、多个讲话者话音和需要话音,这些声音全部在时间、空间和频率上重叠。
需要的单话音信号可能从任何方向到达,并且此方向可能是知道或不知道的。而且,在任何给定时间可能具有一个以上的单信号源。尤其在将盲信号分离与自适应状态空间信号分离、鉴别和恢复技术应用于真实声学环境的音频信号处理的情况中,声音或信号接收装置或话筒的设置能够影响话音提取系统的性能。因此,话筒布置或设置是话音提取系统的一个重要方面。
特别地,一个实施例的话音提取系统区分在时间、频率和到达方向上重叠的干扰信号。此隔离基于话筒之间在信号幅度和独立信号源的统计特性中的差异,即基于与根据到达方向或频谱内容区分干扰信号的典型技术相反的技术。此话音提取系统不仅对单个版本的声音源信号执行信号提取,而且还对每个声音信号的多个延迟版本执行信号提取。此系统不引入频谱或相位失真。
将信号分离用于话音提取在接收话筒布置或阵列的设计中牵涉几个实施问题。一个问题涉及在单独或与话音提取结合或利用其他的信号处理方法检测需要的单话音信号(以及干扰声音)时使用的话筒的类型和布置。另一问题涉及布置两个或多个话筒用于话音提取以获得最佳性能的方法。还一问题是确定方法用于缓冲和时间延迟信号或反而处理接收的信号以保持因果律(causality)。又一问题是确定方法用于导出核心信号处理结构的分支来处理不确定系统,其中能够与其他信号区分开来的信号源的数量大于接收机的数量。一个示例是仅仅利用两个声音传感器能够从三个或多个信号之和中提取需要的单个信号源。
图1是用于与一个实施例的话音提取系统一起使用的用于确定话筒设置的方法流程图。通过考虑在特定情况中话音源或需要信号源能占据的所有定位开始操作,步骤102。也考虑特定情况中干扰声音源能占据的所有可能位置,步骤104。定义用于需要设备和装置中可接受的话音提取性能的准则,步骤106。研究话筒布置,并布置话筒,步骤108。随后,将此话筒布置与这些准则进行比较,以确定是否违背任何唯则,步骤110。如果违背任何准则,则研究新的布置,步骤108。如果未违背任何准则,则形成原型话筒布置,步骤112,并测试此布置的性能,步骤114。如果此原型布置呈现可接受性能,则最后确定此原型布置,步骤116。不可接受的单元性性能导致研究可替换的话筒布置,步骤108。
用于提取单个信号源的两话筒系统在包括一个实施例的话音提取系统的许多音频处理系统使用至少两个话筒或两个话筒单元时具有特别意义。而且,许多音频处理系统只协调最多两个话筒。因此,现在描述两话筒设置模型。
两个话筒用于在任何给定时间距离至多两个需要的信号源。换句话说,来自两个传感器或话筒单元的两个输入暗示基于信号分离的通用话音提取系统能生成两个输出。在此所述的扩展技术用于生成较大或较少数量的输出。
因为在许多情况中可能具有许多干扰源和需要的单个信号,所以人们时常对从所有其他干扰源中隔离出单个声音源(例如,诸如蜂窝电话机装置的用户的话音)感兴趣。在也可能具有非常广泛应用的此特定情况中,考虑许多设置准则,从此布置中具有两个话筒以及声音源和干扰源具有许多可能的位置组合的事实中推导出这些设置准则。首先考虑的是使需要的单个源与所有干扰源之和进行不同线性组合的需要。另一考虑是尽可能类似地登记干扰源之和的需要,以使利用一个话筒登记的和非常类似于利用另一话筒登记的和。第三考虑是将两个输出信道之一设计为最可能获取需要信号源的输出。
第一设置准则由于系统奇异性(singularity)限制的结果而出现,此系统在两个话筒提供冗余信息时失效。虽然真的奇异性在真实世界中难以实现,但数字评估在来自登记需要的话音信号和其他声音的组合的两个传感器的输入接近奇异点时变得更加不方便而且更加需要。因此,为了获得最佳性能,话筒布置通过使奇异区域以及利用两个声音传感器生成的奇异组输出的概率最小应控制尽可能远离奇异性。应注意,奇异性限制利用多次复杂的数字处理是可以克服的。
第二设置准则由于存在污染来自需要的单个信号源的声音信号的许多干扰声音源的结果而出现。此次问题要求重新形成信号分离问题的典型表示,这提供限制框架,其中利用两个话筒只能相互区分两个不同的信号源。在许多实际情况中,不是第二单个干扰源,而存在许多干扰源之和。如果许多信号源之和用作两个话筒的单个源,能够返回到典型问题陈述。假定,需要信号源的位置时常比干扰源能够占据的位置更靠近,这是合理的近似。因为干扰源经常远离需要的单个源,其话筒之间的幅度差异比利用假定更靠近这些话筒的需要的单个信号源生成的话筒之间的幅度差异低得多。
如下解释第三准则。在许多应用情况中,话音提取必须实施为由有限脉冲响应(FIR)和/或无限脉冲响应(IIR)滤波器构成的信号处理系统。为了可实现为由FIR或IIR滤波器组成的模拟或数字信号处理系统,系统必须遵循因果律。因果律的一个限制是它阻止估算还未获得的源信号值,即超越时刻(t)的信号值。即,滤波器只能估算时刻(t-δ)的源值,其中δ为非负值。结果,相对时间指定“需要源”话筒,以使之总是首先接收需要信号源。此话筒接收时间(t)的需要信号源,而第二话筒接收时间延迟(t-δ)的信号。在这种情况中,将利用这两个话筒之间的间距、需要信号源的位置和传播声音波的速度来确定δ。此要求利用其中通过减去干扰信号来查找源信号的反馈结构进一步得到加强。
利用一组特定话筒类型与方向图、设置位置和属性的进一步分析和实验支持在提到的参数和分离程度或话音提取成功之间建立一组关系。这三个准则用作查找此空间的指南。
图2表示满足设置准则的一个实施例的两个话筒的布置200。图3是一个实施例的两个话筒布置的具体图300。单个话音源利用S来表示。从噪声源到达的信号利用N来表示,现在提供一种分析,其中此布置表示为遵循此设置准则。
需要的主要信号源S位于距第一话筒(m1)r单位距离并距第二话筒(m2)r+d单位距离处。干扰信号源S的是多个噪声源,例如位于距这些话筒不同距离处的N0和Nθ。干扰噪声源分别利用伪噪声源Nθ来近似,每个伪噪声位于半径为R的圆上,其中心为第二话筒(m2)。噪声源的下标指示其角度位置(θ),即从噪声源至连接这两个话筒的线中点的视线和连接这两个话筒的线之间的角度。
将第二话筒选择为中心是为了方便并且是将第二话筒表示为所有干扰源之和的一种方式。注意,此表示不是严格的,这是具有需要信号源的情况,并且不表示利用噪声源生成的信号在它们到达第一话筒之前到达第二话筒。事实上,在θ>180时,相反的是正确的。而且,每个伪噪声源假定由于它正在接近的实际噪声源的距离而生成平面波前端。每个干扰伪噪声源距第二话筒为R单位距离并距第一话筒为R+dsin(θ)单位距离。
如果给定这些近似值,每个话筒上具有的实际信号如下进行估算m1(t)=S(t)r+ΣθNθ(t-dsin(θ)v)R+dsin(θ)]]>m2(t)=S(t-dv)r+d+ΣθNθ(t)R]]>其中v为传播声音波的速度。从这些等式中看出,这两个话筒具有单个需要信号源与所有干扰源之和的不同线性组合。通过将第一话筒表示为“需要话筒的信号源”,将第一输出信道表示为最有可能获取需要信号源的输出。因而,容易满足第一与第三设置准则。满足第二准则的程度(即,尽可能类似地登记干扰源之和)是这两个话筒之间距离d的函数。使d为小值有助于满足第二准则,但可能损害第一与第三准则。因而,d值的选择是这些相互冲突的限制之间的折衷。实际上,发现大致在0.5英寸至4英寸范围内的距离产生令人满意的性能。
对于多个需要信号源和两个以上话筒的设置,设置准则应用于两个以上话筒的设置要求修改此准则。第一准则修改为包括进行多个需要源与所有干扰源之和的不同线性组合的需要,第二准则修改为包括尽可能类似地登记干扰源之和以使一个和非常类似于另一和的需要。第三准则修改为包括将一组多个输出信道表示为最可能获取多个需要信号源的输出并对于其对应的需要信号源标记每个信道的需要。利用一组特定话筒类型与方向图、设置定位以及相对信号传播与目标声音环境的属性的进一步分析和实验支持确定对于利用两个以上话筒的话音提取是合适或最佳的特定布置与间距。
在许多应用中,话音提取实施为由FIR和/或IIR滤波器构成的信号处理系统。为了可实现为由FIR或IIR滤波器组成的模拟或数字信号处理系统,系统得遵循因果律。现在描述一直保持因果律的技术。
参见图3,对于干扰噪声源Nθ,其中180<θ<360,数量d sin(θ)<0。在这种情况中,第一话筒等式中的相加单元Nθ指未来的时刻并且因而还未获得的时刻。此因果律的损害能够通过适当地延迟第一话筒信号来弥补。如果将第一话筒延迟数量d/v,则话筒等式写为m1(t-dv)=S(t-dv)r+ΣθNθ(t-dsin(θ)v-dv)R+dsin(θ)]]>m2(t)=S(t-dv)r+d+ΣθNθ(t)R]]>现在,两个时间延迟版本的语音源和第一话筒定义为S′(t)=S(t-dv)]]>m1′(t)=m1(t-dv)]]>利用这些定义,用于话筒信号的新等式能够写为m1′(t)=S′(t)r+ΣθNθ(t-d(1+sin(θ))v)R+dsin(θ)]]>m2(t)=S′(t)r+d+ΣθNθ(t)R]]>因为(1+sin(θ))总是大于或等于零,所以利用延迟补偿修改,所有项表示当前或过去时刻并因而维持因果律限制。利用此方法,能够增加能提取的需要话音(或其他声音)源的数量。
一个实施例的话音提取系统利用盲信号分离来处理至少两个信号的信息。此信息利用两个话筒进行接收。由于许多话音信号处理系统只可以协调至多两个话筒,所以根据本文所述的技术提供许多两话筒设置。
本文所提供的两话筒布置区分单个讲话者的话音与此环境中出现的所有其他声音源之和(不管是环境噪声、机械噪声、风声还是其他的声音源)。期望用户的位置在位置范围内。
注意,利用手持话筒图标来描述话筒单元,这仅仅用于示意目的,这是因为这容易支持话筒轴的描述。实际的话筒单元具有本领域中发现的任何一种结构,具有各种尺寸和形状的单元。
图4A与4B表示一个实施例的话音提取系统的两话筒布置402。图4A是两话筒布置402的侧视图,而图4B是两话筒布置402的俯视图。此布置402表示两个话筒,其中这两个话筒具有超心形检测方向图404,但此实施例不如此进行限制,这是因为一个或两个话筒能够具有许多检测方向图之一或其组合,包括全向、心形或数字8检测方向图。间距表示为大约3.5cm。实际上,能呈现大致在1.0cm-10.0cm范围内的间距。
图5A与5B表示一个实施例的话音提取系统的可替换两话筒布置502-508。图5A是话筒布置502-508的侧视图,而图5B是话筒布置502-508的俯视图。每个话筒布置502-508将话筒轴设置为与声音传播方向510垂直或近似垂直。还有,这四个话筒对布置502-508之中的每个布置提供一个话筒更靠近信号源599的选择。因此,更靠近的话筒比远处的话筒更早地接收具有较大功率的话音信号,而远处话筒接收具有减弱功率的话筒信号。利用这些布置,声音源599能够假定沿跨越话筒502-508四周180度的弧512的宽阔范围的位置。
图6A与6B表示一个实施例的话音提取系统的另外可替换的两话筒布置602-604。图6A是话筒布置602-604的侧视图,而图6B是话筒布置602-604的俯视图。这些两话筒布置602-604支持需要的两个话音源698与699的近似同时的提取。在两个话音同时有效时能获取任何一个话音;而且,能够同时获取这两个话音。
这些话筒布置602-604也将话筒轴设置为与声音波传播方向610垂直或几乎垂直。还有,每个话筒对布置602-604提供第一话筒更靠近第一信号源698和第二话筒更靠近第二信号源699的选择。这导致第二话筒用作第一信号源698的远处话筒,而第一话筒用作第二信号源699的远处话筒。因此,更靠近每个信号源的话筒较早接收具有较大功率的信号,而远处话筒接收具有减弱功率的信号。利用此布置602-604,声音源612与614能够假定沿跨越话筒602-604四周180度的每个弧612与614的宽阔范围的位置。然而,为了获得最佳性能,声音源698与699应不同时处于奇异区域616中。
图7A与7B表示一个实施例的话音提取系统的还一可替换两话筒布置702-714。图7A是7个话筒布置702-714的侧视图,而图7B是话筒布置702-714的俯视图。这些话筒布置702-714将话筒轴设置为与声音波传播方向716平行或几乎平行。还有,这7个话筒布置702-714之中的每个布置提供一个话筒更靠近信号源799的选择。因此,较近的话筒较早接收具有较大功率的话音信号,而远处话筒接收具有减弱功率的话音信号。利用这些布置702-714,声音源799能假定沿跨越话筒702-714四周大约90-120度范围的弧718的宽阔范围的位置。
这些话筒布置702-714还支持需要的两个话音源的几乎同时提取。在两个话音同时有效时能获取任何一个话音;而且,能够同时获取两个话音。图8是一个实施例的这些话筒布置702-714之一802的俯视图,表示相对话筒802的源设置898与899。利用这7个布置702-714之中的任何一个布置802,一个声音源899能假定沿跨越话筒阵列802四周大约270度的弧804的宽阔范围的位置。将第二声音源898限制在话筒阵列802前面跨越大约90度的弧806的位置范围。这两个话音源898与899之间的角度分隔能较小,而两个话筒802之间的间距增加。
一个实施例的话音提取系统能够与许多语音处理系统和包括但不限于手持装置、机动车电信息通信装置、计算机、蜂窝电话机、个人数字辅助装置、个人通信装置、照相机、头盔安装通信系统、助听器和其他可携带声音增强装置、通信装置和基于话音的命令装置的装置一起使用。图9表示各种手持装置901-910上的一个实施例的话筒阵列设置999。
图10表示汽车电信息通信系统中一个实施例的话筒阵列1099布置。机动车内的话筒阵列设置根据被获取的信号源所占据的位置而能够变化。还有,在机动车内能使用多个话筒阵列,设置方向指向此机动车内特定旅客位置。机动车内话筒阵列位置包括但不限于支柱、遮光板装置1002、天花板或顶部衬垫1004、顶部仪表板、后视镜1006、挡泥板和仪表盘。能在其他的机动车类型(例如,空中客车、卡车、船和火车)中使用类似的位置。
图11表示安装在一对眼镜1106或遮光板上的一个实施例的话音提取系统的两话筒布置1100。此两话筒布置1100包括话筒单元1102和1104。此话筒阵列1100能够是助听器的一部分,增强从佩带眼镜1106的人面朝的方向到达的话音信号或声音源。
图12表示安装在塞绳1202上的一个实施例的话音提取系统的两话筒布置1200。耳机1204将利用装置1206播放或接收的音频信号传送至用户的耳朵。两个话筒1208与1210是至话音提取系统的两个输入,增强输入至装置1206的用户的话音信号。
图13A、B与C表示安装在钢笔1302或其他书写或指示仪器上的一个实施例的话音提取系统的三个两话筒布置。钢笔1302也能是指示装置,诸如在演示期间使用的激光指针。
图14表示一个实施例的话音提取系统的许多两话筒布置。一个布置1410包括话筒1412与1414,其轴与支持物体1416的轴垂直。另一布置1420包括话筒1422与1424,其轴与支持物体1426的轴垂直。根据支持物体相对需要的声音源的位置来确定此布置。此支持物体包括能够佩带在身体1430或衣服物品1432与1434上的各种别针,但不如此进行限制。佩带别针的方式包括佩带在衬衣领1432上、用作发夹1430和佩带在衬衣袖口1434上,但不如此进行限制。
两个话筒设置准则的扩展也提供许多话筒设置布置用于具有两个以上话筒的话筒阵列。至于这两个话筒布置,用于两个以上话筒的布置能用于区分用户的话音与出现在此环境中的所有其他声音源之和,不管是环境噪声、机械声音、风声还是其他话音。
图15与16表示具有两个以上话筒的一个实施例的话筒阵列1500与1600。利用多个两话筒单元1502与1602形成阵列1500与1600。正好位于另一话筒单元后面的话筒单元用作两话筒单元,专用于从此阵列周围的相关区域中发出的话音源。这些实施例1500与1600包括9个两话筒单元,但不如此进行限制。利用阵列1500与1600能同时从9个讲话者(一个区域一个讲话者)中提取话音。提取的话筒数量在保持因果律时还能够增加到18。可选择地,一组9个或更少的讲话者能够在一个区域内或在区域之间移动。
图17表示具有两个以上话筒的一个实施例的可替换的话筒阵列1700。此阵列1700也通过将话筒设置在圆圈中来形成。在与此阵列的中心话筒1702配对时,阵列周边1704上的话筒和中心1702上的话筒用作两话筒单元1799,专用于从此阵列四周的相关区域1706中发出的话音源。然而,在此阵列中,中心话筒单元1702对于所有的两话筒单元是公用的。此实施例包括支持8个区域1706的话筒单元1799,但不如此进行限制。利用此阵列1700能同时进行提取来自8个讲话者(一个区域一个讲话者)的话音。提取的话音数量在保持因果律时还能增加至16(每个区域两个讲话者)。可选择地,一组8个或较少的讲话者能够在一个区域内或在区域之间移动。
图18表示具有两个以上话筒的一个实施例的另一可替换话筒阵列1800。此阵列1800也以类似于图17所示的布置的方式来形成,但沿此圆的话筒的轴指向远离此圆中心的方向。话筒单元1802/1804用作两话筒单元,专用于从此阵列1800四周的相关区域1820中发出的话音信号。在此布置中,与图17所示的布置中一样,中心话筒单元1802对于中心话筒与周围话筒单元形成的配对是公用的。具有如下的8个两话筒单元对1804/1802,1806/1802,1808/1802,1810/1802,1812/1802,1814/1802,816/1802和1818/1802。此实施例使用9个单元1802、1804、1806、1808、1810、1812、1814、1816和1818来支持8个区域,但不如此进行限制。例如,话筒单元1802/1804支持从区域1820提取话音;话筒单元1802/1808支持从区域1824提取话音;话筒单元1802/1812支持从区域1822提取话音;话筒单元1802/1816支持从区域1826提取话音,等等。因而,利用此阵列1800能够同时提取来自8个讲话者(一个区域一个讲话者)的话音。提取的话音的数量在保持因果律时能增至16。可选择地,一组8个或更少的讲话者能够在一个区域内或在区域之间移动。
具有能使用阵列1800的另一方式,能够将话筒1804与话筒1812配对以覆盖区域1820与1822,这不需要中心上的电话,这得到图19A-19C所示的布置。
图19A-C表示具有两个以上话筒的一个实施例的其他可替换话筒阵列。布置19A-19C类似于本文所讨论的其他布置,但不需要中心话筒或话筒的中央环。因此,在大多数情况中,利用此阵列能同时提取等于或少于话筒单元数量的一组话音,这是因为在使用三个布置19A-19C的大多数实际使用中,将需要的单个声音源指定给单个话筒,而不是指定给一对话筒。
布置19A具有沿半圆弧排列的4个话筒,其轴指向远离此圆圈中心的方向。相对平坦表面安装话筒布置19A的后侧。每个话筒覆盖此半圆的45度分段或一部分。能增加话筒的数量以得到较高分辨率。能将每个话筒单元指定为相关区域的主话筒。任何两个或三个或所有话筒能够用作两或三或四输入话音提取系统的输入。如果话筒的数量为大于4的数字N,则任何两个或三个或多个、至多N个话筒又能用作两、三或更多、至多N输入话音提取系统的输入。布置19A能够提取4个话音,每个区域一个话音。如果话筒的数量增至N,则能够覆盖N个区域,每个区域跨越180/N度,并且能够提取N个话音。
布置19B类似于19A,但包含沿一个圆排列的8个话筒而非沿半圆排列的4个话筒。布置19B能够覆盖8个区域,每个区域跨越45度。
布置19C包含其轴向上指的话筒。在话筒布置必须与平坦表面齐平而没有隆起时可以使用布置19C。一个实施例的布置19C包括能够以55种方式配对的11个话筒和至两输入话音提取系统的输入,这可能是提取比阵列中的话筒数量多的话音的一种方式。从N个话筒中提取的话音数量在保持因果律时还能够增至(N)*(N-1)个话音,这是因为能够以N*(N-1)/2种方式将N个话筒配对,并且每对能区分两个话音。然而,尤其在一对中的两个话筒相互靠近时,可以不使用这些配时。可选择地,所有话筒能够用作至11输入话音提取系统的输入。
具有两个以上话筒的话筒阵列提供附加优点,即它们对于单个用户提供扩展范围的位置以及同时提取多个需要话音的能力。因为这些附加话筒除去或放松对两个话筒阵列中发现的话音源位置的限制,所以扩展话音源定位的范围。
在两话筒阵列中,期望用户的位置在某一位置范围内。此范围多少取决于使用的话筒的方向图和特定布置。例如,在这些话筒与声音波传播平行定位时,得到好的话音提取性能的用户定位范围比在具有与声音波传播垂直定位的话筒的阵列中得到好性能的用户定位范围窄,这能够从图5与图7之间的比较中推断出。另一方面,令人不舒服的声音源能变得更靠近需要的话音源,这通过比较图6与图8能够推断出。相反地,具有两个以上话筒的话筒阵列允许需要的话音源位于沿包围此话筒布置的圆弧的任何点上。
至于同时提取多个需要声音的能力,利用两个话筒阵列假定存在需要的单个话音源。虽然两话筒阵列能扩展至需要的两个话音源,但提取的质量和效率取决于信号源的合适定位。相反地,具有两个以上话筒单元的话筒阵列减少或消除源定位限制。
利用本文所述的两话筒布置,对于话音提取系统能够形成结构变化。这些扩展直接转换为改变获得无干扰的需要话音或其他声音或源信号的程序。还有,这些结构变化对于其中在利用传感器登记之前混合在一起的信号源的数量大于登记这些信号源的传感器或传感器单元的数量的不确定系统尤其有用。这些结构扩展也可应用于除话音信号和声音信号之外的其他信号。在这种意义上说,信号分离结构扩展的应用区域具有超过话音提取的许多应用。
从典型信号分离结构的简单表示中进行扩展。图20A表示典型的前馈信号分离结构,图20B表示典型的反馈信号分离结构。在这些系统中,M(t)是从多个传感器登记的信号中形成的矢量。还有,Y(t)是利用输出信号形成的矢量。在对称结构中,M(t)与Y(t)具有相同数量的单元。
图21A表示接收两个输入并提供两个输出的一个实施例的话音提取结构的方框图。这样的话音提取结构和得到的方法与系统能够用于在例如图2所示的情况中获取需要的话音。传感器m1代表话筒1,而传感器m2代表话筒2。在这种情况中,话音提取系统2102的第一输出是提取的需要的话音信号,而第二输出2104近似于所有干扰噪声源之和。
图21B表示接收两个输入并提供五个输出的一个实施例的话音提取结构的方框图。此扩展提供计算提取的需要的话音信号的三种可替换方法。一种这样的程序(即,方法2a)是从第二话筒(即,话筒2一提取的噪声)减去第二输出或提取的噪声,这近似于语音信号或需要信号,即话筒2中的内容。在使用此方法时,将第二话筒设置得远离讲话人的嘴并因而第二话筒对于需要的源信号可能具有较低的信噪比(SNR)。在利用此方案实施的实验中,在其中多个源干扰单个话音信号的许多情况中,利用方法2a的语音输出提供较好的SNR。
除了从第二话筒中减去提取噪声的滤波版本以便更精确地匹配第二话筒的噪声分量之外,方法2b非常类似于方法2a。在许多噪声环境中,此方法比方法2a的简单减法方案更好地近似需要信号。与方法2b一起使用的滤波器类型能够变化。一个示例的滤波器类型是最小均方(LMS)自适应滤波器,但不如此进行限制。此滤波器通过改变滤波系数最佳滤除提取的噪声,以便最佳降低一个或多个差错信号(诸如滤波的提取噪声和第二话筒输入之间的差信号)的功率(自相关)。一般地,第二话筒的语音(需要信号)分量与那个话筒信号中的噪声不相关。因此,此滤波器只用于使方法2b提取的语音输出信号中剩余或残余噪声最少。
除了从第一话筒而非从第二话筒中减去滤波的提取噪声之外,方法2c类似于方法2b。此方法具有较高的开始SNR的优点,这是因为现在正在使用第一话筒,此话筒更靠近讲话人的嘴。此方案的一个缺点是从第二话筒中导出的提取噪声不太类似于在话筒一上发现的噪声并且要求更复杂的滤波。
注意所有话筒或声音检测装置具有一个或多个极性方向图,描述这些话筒如何从各个方向接收声音信号。图22A-D表示在一个实施例中使用的四种类型的话筒方向图。一个实施例的话筒阵列能够协调许多类型和方向图的组合,包括但不限于这四种类型。
图22A表示全向话筒信号检测方向图。全向话筒几乎相等地从此话筒四周的任何一个方向接收声音信号。这些检测方向图表示从此话筒四周的所有方向几乎相等幅度接收的信号功率。因此,自此话筒的电输出是相同的而不管此声音从哪个方向到达此话筒。
图22B表示心形话筒信号检测方向图。肾脏形状的心形检测方向图是有方向性的,在源声音位于此话筒前面时提供全灵敏度(自此话筒的最高输出)。在此话筒两侧(距前面±9 0度)接收的声音大约是此输出的一半,并且出现在此话筒后方(距前面180度)的声音衰减大约70%-90%。心形方向图话筒用于使周围(例如,房间)声音量相对直接声音最小。
图22C表示数字8话筒信号检测方向图。数字8检测方向图多少类似于背靠背设置的两个心形方向图。具有数字8方向图的话筒相等地在前面与后面位置上接收声音,同时拒绝在两侧接收的声音。
图22D表示超心形话筒信号检测方向图。超心形检测方向图生成来自话筒前面的全输出和来自前面位置±90度的较低输出,提供与心形方向图相比较窄角度的主要灵敏度。而且,超心形方向图在位于距前面大约±140度的两个点处具有最低灵敏度。因此,超心形方向图抑制从话筒两侧以及后面接收的声音。因此,超心形方向图最适合于从房间环境隔离出仪器和演唱者以及相互隔离仪器和演唱者。
一个实施例的话音提取系统的方法或技术在诸如计算机指令的机器可执行指令中进行实施。这些指令能够用于使利用这些指令编程的处理器对接收的信号执行话音提取,可选择低,一个实施例的方法能够利用包含适合于执行的方法的逻辑的特定的硬件部分或利用编程的计算机部分和定制的硬件部分的任何组合来执行。而且,一个实施例的话音提取系统能够用于分布式计算环境中。
这里为了示意和说明目的而提供了本发明的各种实施例的描述,并不是将本发明限于所公开的确切形式,许多修改和等效布置将是显而易见的。
权利要求
1.用于定位一种布置的各个接收机单元的一种方法,其中此布置包括至少两个接收机单元,提供至少两个输入至信号处理系统,此方法包括识别至少一个需要信号源的至少一个位置;确定至少一个第一接收机单元的定位;生成一组准则以响应至少一个需要信号的特征,其中此组准则提供此信号处理系统的满意性能;和确定至少一个附加接收机单元相对至少一个第一接收机单元的定位,以响应此组准则。
2.根据权利要求1的方法,其中此组准则包括导致利用多于特定数量的各个接收机单元登记相同信号的接收机单元设置的不合格。
3.根据权利要求1的方法,其中此信号处理系统利用由至少两个接收机单元登记的至少一个输入信号来区分至少一个需要信号和至少一个干扰信号。
4.根据权利要求3的方法,其中此组准则包括定位各个接收机单元,以使利用至少两个接收机单元登记的干扰信号之和具有类似特征。
5.根据权利要求3的方法,其中这至少两个接收机单元之间的间距大约在0.5英寸至5英寸范围内。
6.根据权利要求3的方法,其中这至少两个接收机单元包括至少两个话筒单元。
7.根据权利要求6的方法,其中这至少两个话筒单元之中的每个话筒单元的主轴与自至少一个需要信号的声音波传播方向近似垂直。
8.根据权利要求6的方法,其中这至少两个话筒单元之中的每个话筒单元的主轴与自至少一个需要信号的声音波传播方向近似平行。
9.根据权利要求6的方法,其中这至少两个话筒单元之一的主轴与自至少一个需要信号的声音波传播的方向近似垂直,并且这至少两个话筒单元之中的另一话筒单元的主轴与自至少一个需要信号的声音波传播方向近似平行。
10.根据权利要求1的方法,其中各个接收机单元耦合到从由计算机、监视器、手持计算装置、助听器、机动车电信息通信系统、蜂窝电话机、个人数字辅助装置和通信装置构成的一个组中选择的至少一个装置。
11.根据权利要求1的方法,其中耦合到机动车电信息通信系统的各个接收机单元位于从由支柱、遮光板、顶部衬垫、顶部仪表板、后视镜、挡泥板和仪表盘构成的一个组中选择的至少一个机动车组成部分中。
12.根据权利要求1的方法,其中各个接收机单元定位于从由钢笔、书写仪器、音频播放与记录装置、收听装置、耳机、耳塞、衣服物品、眼镜、头饰、表、手镯、耳环、珠宝、能够穿戴在身体上的物品和能够穿戴在衣服物品上的物品构成的一个组中选择的至少一个物品上。
13.根据权利要求1的方法,其中各个接收机单元耦合到插入在耳道中的装置。
14.用于定位信号处理系统的接收机阵列的一种方法,包括识别至少一个需要信号源的至少一个位置;确定接收机阵列的至少一个第一接收机单元相对至少一个位置的定位,其中至少一个第一接收机单元在第一时间接收至少一个需要信号;和确定接收机阵列的至少一个第二接收机单元相对至少一个第一接收机单元的定位,其中至少一个第二接收机单元第二时间接收至少一个需要信号,其中至少一个第一与第二接收机单元之间的间距提供至少一个时间延迟,此时间延迟支持至少一个需要信号与干扰源之和的多个线性组合的生成以及干扰源之和的登记,以使第一和类似于第二和。
15.根据权利要求14的方法,其中此间距支持对至少一个接收信号的多个延迟版本执行信号提取。
16.根据权利要求14的方法,其中至少一个第一接收机单元包括至少一个第一话筒,而至少一个第二接收机单元包括至少一个第二话筒。
17.根据权利要求16的方法,还包括在至少一个第一话筒和至少一个第二话筒之中的每一个话筒中利用至少一个话筒之间的信号幅度差异来隔离至少一个需要信号。
18.根据权利要求14的方法,还包括至少一个第一接收机单元和至少一个第二接收机单元对应于多个信号源之中的每一个信号源。
19.根据权利要求14的方法,还包括至少一个第一接收机单元对应于多个信号源之中的每一个信号源,其中至少一个第二接收机单元包括这多个信号源公用的至少一个话筒单元。
20.根据权利要求14的方法,其中至少一个第一接收机单元在第一时间从第一信号源中接收至少一个信号并在第二时间从第二信号源中接收至少一个信号,其中至少一个第二接收机单元在第一时间从第二信号源中接收至少一个信号并在第二时间从第一信号源中接收至少一个信号。
21.用于从组合音频信号中提取至少一个需要信号的一种方法,包括识别至少一个需要信号源的至少一个位置;确定话筒布置的至少一个第一话筒单元相对至少一个位置的定位;生成一组准则以响应此组合音频信号的特征,其中此组准则从此组合音频信号中提供令人满意的需要信号的提取;和确定此话筒布置的至少一个附加话筒单元相对至少一个第一话筒单元的定位,以响应此组准则。
22.根据权利要求21的方法,其中此组准则利用第二组准则来替代,其中第二组准则用于从此组合音频信号中满意除去需要信号。
23.根据权利要求22的方法,其中此组准则利用第二组准则来补充。
24.根据权利要求21的方法,其中此组准则包括在信号提取期间保持因果律。
25.根据权利要求24的方法,还包括通过延迟利用此话筒布置的至少一个话筒单元登记的至少一个输入信号来保持因果律。
26.用于从组合音频信号中提取至少一个需要信号的一种方法,包括确定接收机阵列的至少一个第一接收机单元相对至少一个需要信号源的至少一个位置的定位,其中至少一个第一接收机单元在第一时间接收至少一个需要信号;确定接收机阵列的至少一个第二接收机单元相对至少一个第一接收机单元的定位,其中至少一个第二接收机单元在第二时间接收至少一个需要信号,其中至少一个第一与第二接收机单元之间的间距允许至少一个源信号与干扰信号源之和的多个线性组合的生成以及干扰信号源之和的登记,以使第一和类似于第二和;利用接收机阵列来接收此组合音频信号;和利用至少一个接收机单元之间的信号幅度差异来提取至少一个需要信号。
27.根据权利要求26的方法,其中此间距支持对至少一个接收信号的多个延迟版本执行信号提取。
28.根据权利要求26的方法,还包括至少一个第一接收机单元对应于多个信号源之中的每一个信号源,其中至少一个第二接收机单元包括这多个信号源公用的一个话筒单元。
29.用于与语音处理系统一起使用的一种话筒阵列,包括至少一个第一话筒单元,定位于在第一时间从至少一个信号源中接收至少一个需要信号;至少一个第二话筒单元,定位于相对至少一个第一话筒单元在第二时间接收至少一个需要信号,其中至少一个第一与第二话筒单元之间的间距允许生成至少一个源信号与干扰信号源之和的多个组合。
30.根据权利要求29的话筒阵列,其中此间距支持干扰源之和的登记,以使利用至少一个话筒单元登记的和类似于利用至少一个其他话筒单元登记的和。
31.根据权利要求29的话筒阵列,其中至少两个话筒单元在未知时间接收至少一个需要信号,其中在信号处理之前对至少一个接收的话筒信号引入延迟。
32.根据权利要求31的话筒阵列,其中对第一话筒单元的接收信号施加第一长度的延迟,并对第二话筒单元的接收信号施加第二长度的延迟。
33.根据权利要求29的阵列,其中此间距大约在0.5英寸至5英寸范围内。
34.根据权利要求29的话筒阵列,还包括至少一个第一话筒单元和至少一个第二话筒单元,每个话筒单元对应于一组需要信号源之中的一个信号源。
35.根据权利要求29的话筒阵列,还包括至少一对话筒单元,其中每对话筒单元对应于至少一个需要信号源。
36.根据权利要求29的话筒阵列,其中至少一个话筒单元对于至少两个话筒对是公用的。
37.根据权利要求29的话筒,还包括对应于多个信号源之中的每一个信号源的至少一个第一话筒单元,其中至少一个第二话筒单元包括这多个信号源公用的一个话筒单元。
38.根据权利要求29的话筒阵列,其中此话筒阵列耦合到从由手持计算装置、助听器、机动车电信息通信系统、蜂窝电话机、个人数字辅助装置和通信装置构成的一个组中选择的至少一个装置。
39.根据权利要求28的话筒阵列,其中耦合到机动车电信息通信系统的话筒阵列位于从由支柱、遮光板、顶部衬垫、顶部仪表板、后视镜、挡泥板和仪表盘构成的一个组中选择的至少一个机动车组成部分中。
40.根据权利要求29的方法,其中此话筒阵列位于从由钢笔、书写仪器、音频播放与记录装置、收听装置、耳机、耳塞、衣服物品、眼镜、头饰、表、手镯、耳环、珠宝、能够穿戴在身体上的物品和能够穿戴在衣服物品上的物品构成的一个组中选择的至少一个物品上。
41.一种音频信号处理系统,包括至少一个信号处理器;至少一个话筒阵列,耦合在至少一个环境与至少一个信号处理器之间,其中至少一个信号处理器从组合音频信号中提取至少一个需要信号。
42.一种音频信号处理系统,包括至少一个信号处理器;至少一个话筒阵列,耦合在至少一个环境与至少一个信号处理器之间,其中至少一个话筒阵列包括至少一个第一话筒单元,定位于在至少一个环境中按时从至少一个信号源接收至少一个需要信号;至少一个第二话筒单元,定位于相对至少一个第一话筒单元在第二时间接收至少一个需要信号,其中至少一个第一与第二话筒单元之间的间距允许至少一个源信号与干扰源之和的多个组合的生成以及干扰源之和的登记,以使第一和类似于第二和。
43.用于利用至少两个话筒单元从组合音频信号中提取至少一个需要信号的一种方法,每个话筒单元对应于输入信道,此方法包括在至少两个输出信道之间分配至少一个输入信道的内容,其中至少两个输出信道之中的至少一个输出信道包括比至少一个输入信道高的至少一个需要信号的比例。
44.根据权利要求43的方法,其中至少一个输出信道包含比至少一个输入信道低的至少一个需要信号的比例。
45.根据权利要求43的方法,其中分配包括至少一个盲信号分隔方法。
46.根据权利要求43的方法,其中使用的许多输入信道变化,以响应至少一个输入信道的特征。
47.根据权利要求43的方法,其中使用的许多输出信道变化,以响应至少一个输入信道或至少一个输出信道的特征。
48.根据权利要求43的方法,其中分配包括至少一个输入信道和至少一个其他输入信道之间的至少一个操作。
49.根据权利要求43的方法,其中分配包括多个输出信道之间的至少一个操作。
50.根据权利要求43的方法,其中分配包括至少一个输入信道与至少一个输出信道之间的至少一个操作。
51.一种计算机可读介质,具有可执行指令,这些指令在处理系统中执行时提供信号处理系统的接收机布置的定位信息,此定位信息包括识别至少一个需要信号源的至少一个位置;确定至少一个第一接收机单元的定位;生成一组准则以响应至少一个需要信号的特征,其中此组准则提供此信号处理系统的满意性能;和确定至少一个附加接收机单元相对至少一个第一接收机单元的定位,以响应此组准则。
52.一种计算机可读介质,具有可执行指令,这些指令在处理系统中执行时提供信号处理系统的接收机阵列的定位信息,此定位信息包括识别至少一个需要信号源的至少一个位置;确定接收机阵列的至少一个第一接收机单元相对至少一个位置的定位,其中至少一个第一接收机单元在第一时间接收至少一个需要信号;和确定接收机阵列的至少一个第二接收机单元相对至少一个第一接收机单元的定位,其中至少一个第二接收机单元在第二时间接收至少一个需要信号,其中至少一个第一与第二接收机单元之间的间距提供至少一个时间延迟,此时间延迟支持至少一个需要信号与干扰源之和的多个线性组合的生成以及干扰源之和的登记,以使第一和类似于第二和。
53.一种计算机可读介质,具有可执行指令,这些指令在处理系统中执行时隔离至少一个需要信号和组合音频信号,此隔离包括确定接收机阵列的至少一个第一接收机单元相对至少一个需要信号源的至少一个位置的定位,其中至少一个第一接收机单元在第一时间接收至少一个需要信号;确定接收机阵列的至少一个第二接收机单元相对至少一个第一接收机单元的定位,其中至少一个第二接收机单元在第二时间接收至少一个需要信号,其中至少一个第一与第二接收机单元之间的间距允许至少一个源信号与干扰源之和的多个线性组合的生成以及干扰源之和的登记,以使第一和类似于第二和;利用此接收机阵列接收组合音频信号;和利用至少一个接收机单元之间的信号幅度差异来隔离至少一个需要信号。
54.一种计算机可读介质,具有可执行指令,这些指令在处理系统中执行时隔离至少一个需要信号和组合音频信号,此隔离包括将至少两个话筒单元耦合到至少一个输入信道;和在至少两个输出信道之间分配至少一个输入信道的内容,其中至少一个输出信道包括比至少一个输入信道高的至少一个需要信号的比例。
55.根据权利要求54的计算机可读介质,其中至少一个输出信道具有比至少一个输入信道低的至少一个需要信号的比例。
56.根据权利要求54的计算机可读介质,还包括确定至少一个需要信号源的至少一个位置相对话筒布置的至少一个话筒单元的近似定位。
57.一种计算机可读介质,具有可执行指令,这些指令在处理系统中执行时提供信号处理系统的接收机布置的定位信息,此定位信息包括识别至少一个需要信号源的至少一个位置;确定至少一个第一接收机单元的定位;生成一组准则,以响应至少一个需要信号的特征,其中此组准则提供信号处理系统的满意性能;和确定至少一个附加第一接收机单元相对至少一个第一接收机单元的定位,以响应此组准则。
全文摘要
提供用于定位具有至少两个单元的话筒布置的各个单元的一种方法。话筒单元之间的间距支持需要信号与干扰源之和的许多组合的生成。话筒单元设置方法的使用导致形成许多类型的具有至少两个话筒单元的话筒布置,并提供输入数据给信号处理系统进行声音鉴别。提供这些话筒布置的许多示例,其中一些示例与日常物体组合。也增强和扩展基于信号分离的处理系统通过将这些话筒布置用作传感器前端来进行声音鉴别。
文档编号H04R1/40GK1436436SQ01810581
公开日2003年8月13日 申请日期2001年3月30日 优先权日2000年3月31日
发明者G·埃尔滕 申请人:克拉里提有限公司