回声消除器和麦克风设备的制作方法

文档序号:7971616阅读:274来源:国知局
专利名称:回声消除器和麦克风设备的制作方法
技术领域
本发明涉及一种回声消除器和一种麦克风设备,更具体地,涉及一种能够进行自适应处理从而从音频输入信号中消除回声分量的回声消除器以及具有该回声消除器的麦克风设备。
背景技术
以电视会议系统为代表,会议系统是公知的,其中在远程会议中的远程终端之间进行发送和接收音频和视频信号数据。在会议系统中使用的麦克风设备(此后简称为麦克风)具有一个用于处理麦克风拾取到的音频输入信号的音频处理单元。音频处理单元中,一个与其结合为一体的回声消除器对会议系统的麦克风采集到的音频输入信号进行处理,以用于消除会议系统的扬声器发出的声音反射到麦克风中所引起的回声。
例如,上面提到的回声消除器获悉每个音频输入信号中包含的回声分量并利用一个自适应滤波器进行自适应操作,由此使回声消除操作稳定。在一个单个说话者正在发言的单方对话(single-talk)状态中,自适应操作正常工作。然而,在包括第一讲话者在内的两个或更多说话者参与发言的双方对话(double-talk)状态中,其他说话者产生的音频信号掺杂在其中,将导致该自适应功能无法正常工作。因此,在双方对话状态中执行自适应处理不仅消除了回声分量,还消除了讲话者的语音分量。为了将这种不利的影响最小化,回声消除器区分单方对话和双方对话,在双方对话的情况下不执行自适应处理。
区分单方对话和双方对话的方法之一是Geigel算法。在该算法中,计算出从扬声器输出的音频信号的音量与通过麦克风输入并拾取的音频信号的音量的比值。如果得出的比值小于一预定的固定值,则确定为单方对话;反之,则确定为双方对话。
还有一些回声消除器通过监听从麦克风输入的音频信号的传播路径以及输出至扬声器的音频信号的传播路径,如果沿着上述两个路径传播的音频信号持续进行发声超过一预定时间,则确定是双方对话(例如参见日本专利No.3579245, 至 段,图6)。

发明内容
然而,现有技术的回声消除器存在着有时错误区分单方对话和双方对话的问题。例如,由于Geigel算法通过计算从扬声器输出的音频信号的音量与从麦克风输入的音频信号的音量的比值,根据所获得的比值是否小于一预定固定值来区分单方对话和双方对话,则对于该算法来说,依据扬声器的音量或者扬声器与麦克风的位置关系做出错误的判断是有很大可能的。
根据输入端和输出端的音频信号是否发出声音来确定双方对话状态的技术,是通过比较每个音量和预定阈值来区别有声与无声的。因此,例如该技术将背景噪声很大的情况判断为有声,而将讲话者远离麦克风或者讲话者发言的声音低的情况判断为无声,从而确定是双方对话还是单方对话时就产生了错误。
因此,本发明探讨与现有技术的方法和装置有关的上述以及其他问题,并通过提供一种能够准确区分单方对话和双方对话并准确执行双方对话控制的回声消除器和麦克风装置来解决这些探讨的问题。
在实现本发明当中以及根据其中的一个实施例,提供一种用于为了消除混杂在音频输入信号中的回声分量而执行自适应处理的回声消除器。该回声消除器具有一音量比值获取器(learner),一双方对话检测器,以及一回声消除处理器。该音量比值获取器计算出外部输出的音频输出信号与混杂着回声分量的音频输入信号间的音量比值,该回声分量是音频输出信号反射到音频输入信号上所造成的,由此获得一常规状态下的音量比值。该双方对话检测器根据此时计算出的此时音量比值是否符合音量比值获取预测的双方对话状态来检测出双方对话状态。该回声消除处理器在通过了双方对话检测器的双方对话状态检测结果的基础上,进行回声分量的获取操作控制以完成自适应处理。
根据具有上述提及的配置的回声消除器,该音量比值获取器计算出外部输出的音频输出信号与混杂着的回声分量的音频输入信号间的音量比值,该回声分量是由音频输出信号反射到音频输入信号上所造成,由此获得一常规状态下自身设备中的音量比值(在单方对话状态中)。该双方对话检测器根据此时计算出的此时音量比值是否符合音量比值获取预测的双方对话状态来检测出双方对话状态。也就是说,在双方对话情况中,预测出音量比值将超出常规状态下的音量比值范围,因而用此时计算出的音量比值与常规状态下所获得的音量比值范围相比较,以此检测双方对话。回音消除器根据双方对话检测器的检测结果确定是否执行获取操作的自适应控制。
在实现本发明中以及根据其中另一个实施例,提供一种用于进行音频信号处理的麦克风装置,该音频信号处理包括用于消除混杂在音频输入信号中的回声分量以从音频输入信号中提取出讲话者的音频信号的自适应处理。该麦克风装置具有一音频输入部件,被配置为将拾取的音频信号转换为数字信号并将其作为音频输入信号进行输出;一音量比值获取器,被配置为计算外部输出的音频输出信号与混杂着回声分量的音频输入信号间的音量比值,该回声分量是由音频输出信号反射到音频输入信号上所造成的,由此获得一常规状态下自身设备中的音量比值;一双方对话检测器,被配置根据此时计算出的此时音量比值是否符合音量比值获取预算的双方对话状态来检测出双方对话状态;以及一音频信号处理器,被配置提取音频输入信号,其包括在通过了双方对话检测器的双方对话状态检测结果的基础上,进行回声分量的获取操控制作以进行自适应处理。
根据具有上述配置的麦克风装置,在由音量比值获取器在音频输入部件产生的音频输入信号与音频输出信号之间计算出音量比值。在计算出的音量比值的基础上,获取常规状态(或单方对话状态)下的依赖环境的音频输入信号与音频输出信号的音量比值。双方对话检测器根据此时计算出的音量比值是否符合目前为止所获知音量比值的预测的双方对话状态来检测出双方对话状态。音频信号处理器进行音频处理,包括根据是否检测到双方对话状态从而进行回声消除自适应处理,由此产生一输出到外界的音频信号。
在本发明的实施例中,总是获取音频输出信号与音频输入信号的音量比值以由该获取预测的双方对话状态下的音量比值为基础来检测双方对话状态,以使得该双方对话确定能够适应有关的设备。这一新颖的配置在双方对话校正控制方面有优势。


图1是表示本发明一个实施例的示意性方框图;图2A是单方对话状态下音频输入信号与音频输出信号的一个实例的曲线图;图2B是双方对话状态下音频输入信号与音频输出信号的一个实例的曲线图;图3是作为本发明的一个实施例的电视会议系统的示例性配置的方框图。
具体实施例方式
将参考附图以实施例的方式进行进一步详细描述本发明。首先,将对下述实施例所用的本发明的原理进行描述,接着是每个实施例的具体内容的描述。现在,参照图1,其中示出了下述实施例所用的本发明的原理。
作为本发明的一个实施例的回声消除器具有一音量比值获取器1,用于获取音频输出信号与音频输入信号之间的音量比值,一双方对话检测器2,用于检测双方对话状态,以及一回声消除处理器3用于进行回声消除处理。
音量比值获取器1计算出例如一讲话者发出的音频输出信号与例如一麦克风拾取的音频输入信号之间的比值,来获取该设备的一个常规状态的音量比值。该音量比值由多种因素来决定,如用于输出音频输出信号的扬声器的音量,用于产生音频输入信号的麦克风的灵敏度,以及麦克风和扬声器之间的距离,且该音量比值随时间变化。因此,音频输入信号与音频输出信号之间的音量比值要不断地被监测,以获得该设备当前的常规状态的音量比值。值得注意的是,该获取过程是通过将信号分划到预定的频率范围中并以每个频率范围为基础进行的。依据下面的公式(1)在此计算每个频率范围的音量比值音量比值=音频输入信号的信号电平/音频输出信号的信号电平...(1)并且,在音量比值的计算中,要考虑一个延迟时间,在该时间内音频输出信号反射混杂在音频输入信号中。此外,无需在扬声器没有输出音频信号的频率范围内进行该获取过程。
值得注意的是,获取过程在常规状态下进行,即,在单方对话状态下。在一个有关会议系统或电话的实际对话中,时间几乎是被一个讲话者的讲话所占用或根本没有讲话。因此,如果在计算的音量比值中发生猛烈变化时,那么无需考虑该猛烈变化的音量比值就能够获知常规状态的音量比值。另外,如果根据现有技术中的双方对话确定技术,例如Geigel算法,即以检验此时的音量比值是否超出预定阈值来确定的双方对话的结果为基础,来确定是否进行获取过程,则常规状态的获取过程就能进行得更加准确。此时计算出的音量比值和有关获取音量比值的信息被输出到双方对话检测器2中。
基于此时计算出的音量比值和有关从音量比值获取器1中接收的获取音量比值的信息,双方对话检测器2检测双方对话状态。如上所述,有关单方对话状态的音量比值获取过程在音量比值获取器1中进行。在双方对话状态下,另一个讲话者的音频信号被叠加到音频输入信号中;因此,由上述公式(1)所获得的音量比值将高于在单方对话状态下的值。因此,如果计算出的音量比值被发现超出了由音量比值获取器1所获取的单方对话状态下的音量比值范围,则能够推测出是双方对话状态。因此,在单方对话状态的音量比值范围的基础上,对假定是双方对话状态的所需超过的门限值进行指定。双方对话检测器2针对每个频率范围确定此时计算出的音量比值是否符合从单方对话状态的音量比值范围中预测出的双方对话状态的音量比值。如果在一预定频率范围内检测到双方对话,则双方对话检测器2确定该双方对话状态。该确定的结果提供给回声消除处理器3。
接收一音频输入信号,该回声消除处理器3消除由例如扬声器输出的音频输出信号反射到音频输入信号上所引起的回声。回声分量是音频信号分量,其通过例如会议系统或电话中的装置被检测到,并被传输到配对的装置中,且从该装置中被输出,并作为音频输入信号被反射到该装置。因此,进行自适应处理过程,在其中通过使用一从扬声器输出的音频输出信号来获取该回声分量,并将从该获取结果中推测出的回声分量从音频输入信号中消除。在此时,从扬声器中输出的声音经过一些延迟到达麦克风,从而在该自适应处理中考虑该延迟。还应注意的是,当双方对话检测器2没检测双方对话状态时,即在单方对话情况下,要执行获取操作。这是因为,在双方对话情况下,另一个讲话者的音频信号混杂在音频输入信号中,由此很难进行正确的获取过程。
在上述配置的回声消除器中,音量比值获取器1单独在每个频率范围内计算音频输出信号与音频输入信号之间的比值(或音量比值),并基于计算出的音量比值获取单方对话状态下的音量比值范围。
参照图2A,示出了一个在单方对话状态下音频输入信号和音频输出信号的例子。
音量比值获取器1根据上述的公式(1)在每个频率范围f1、f2、f3和f4内计算音频输出信号(以后称为输出信号)21的信号电平与音频输入信号(以后称为输入信号)22的信号电平之间的比值(或音量比值)。例如,在图2A中所示例子中的频率范围f1中,输出信号21的最大幅值A与输入信号22的最大幅值A’的比值大约为0.5。同样,对应每个频率范围f2、f3和f4获得0.5的音量比值。因此,针对每个频率范围计算输入信号与输出信号的音量比值以获取音量比值。值得注意的是,例如当通过Geigel算法检测到单方对话状态时执行获取操作。
假定通过上述处理进程,近似0.5的值已经被获得作为频率范围f1、f2、f3和f4中单方对话状态下的音量比值的获取结果。双方对话检测器2确定每个计算出的音量比值是否超出0.5+α(α是根据所用系统而设定的裕量值)。如果音量比值被发现没有超出该水平,则确定为单方对话状态。如果确定为单方对话状态,回声消除处理器3根据输出信号获取回声分量,并根据获取结果而估算出的回声分量,在输入信号中对回声分量进行消除操作。
现在,假定在上述情况下发生了双方对话状态。参见图2B,示出了一个双方对话状态下的音频输入信号与音频输出信号的例子。
在双方对话的情况下,如图2A所示,例如输出信号31是从扬声器输出的音频信号。在输入信号32的情况中,另一个讲话者的音频信号被叠加到原始输入信号上(讲话者的音频信号+由输出信号31反射引起的回声分量)。
音量比值获取器1根据上述的公式(1)在每个频率范围f1、f2、f3和f4内计算输出信号31的信号电平与音频输入信号32的信号电平之间的比值。在图2B中所示例的频率范围f1中,输出信号31的最大幅值B与输入信号32的最大幅值B’的比值大约为0.5。这一值与图2A中所示的单方对话状态下的值相同。然而,在频率范围f3中,输出信号31的最大幅值C与输入信号32的最大幅值C’的比值大约为7,这与单方对话状态下的0.5有很大不同。
在双方对话检测器2中,如果在音量比值获取器1计算得出的音量比值与获取的单方对话状态下的音量比值范围之间执行匹配,则这表明,在频率范围f1和f2中,音量比值近似地与在单方对话状态中的比值相同;而在频率范围f3中,音量比值远远超出了在单方对话状态下的比值。因此,确定为双方对话状态。如果确定了是双方对话状态,则回声消除处理器3停止基于输出信号获取回声分量,并基于目前为止所获取的估算的回声分量,来执行对输入信号中的回声分量进行消除的处理。
每个讲话者的声音的频率分布都互不相同。例如,如果在双方对话状态中叠加的另一个讲话者的音频电平相当低,则如果整个信号的音量比值已经进行了匹配,那么双方对话状态有时就不能被检测出来。因此,要提供大量频率范围并在每个频率范围内进行处理。在不同的频率范围内能够检测到不同的音量比值,从而确定双方对话状态。
如上所述,在每个预定的频率范围内获取常规状态下的输入信号与输出信号之间的音量比值,且从获取的结果中估算出的双方对话的音量比值与此时计算出的音量比值相比较,从而检测出双方对话状态。这种配置允许用对应于该装置的环境的最优阈值来进行双方对话状态的检测。另外,由于在每个频率范围内都计算该音量比值,因此检测的准确性也可以增强。
值得注意的是,用另一个双方对话检测算法来确定是否进行获取过程;然而,即使这个确定过程或多或少出现错误,而继续的获取过程能够加强最终确定双方对话的准确性。
接下来参照附图描述本发明一个实施例的电视会议系统中的麦克风。
参照图3,示出了本发明的一个实施例的电视会议系统的示例性的配置。
通过电视会议系统作为本发明的一个实施例,一麦克风1(100)和一麦克风2(101)分别通过通信路径301和302以及供电信号路径311和312级联接到电视会议系统的主体(后面称作主体)200。主体200还通过网络500连接到设在不同房间中的、由主体210和麦克风10(103)组成的电视会议系统。这些麦克风在配置上是彼此相同的,因此例如将使用具有代表性的麦克风1(100)进行描述。
麦克风1(100)具有一用于进行音频处理的DSP(数字信号处理器)110,一电源控制器120以及一用于进行供电操作的DC-DC转换器121,一用于控制串行通信的串行I/F FPGA(现场可编程门阵列)130,一通过它输入语音的拾音部件150,以及一A/D转换器151。在下面,串行I/F FPGA 130被称为串行I/F 130。
DSP 110具有一双方对话检测部件111,一回声消除器112,一噪声消除器113,一抑制器114,以及一个加法器115。
配置有音量比值获取器1和双方对话检测器2的双方对话检测部件111在每个频率范围内获取输出信号与输入信号的音量比值,通过使用获得的结果和此时计算出的音量比值来检查双方对话状态,并将检查结果输出给回声消除器112、噪声消除器113、以及抑制器114。回声消除器112为预测回声分量进行适应性控制以消除该回声。如果双方对话检测部件检测出了双方对话状态,则不执行自适应控制的获取过程。噪声消除器113从已经由回声消除器112消除了回声的输入信号中消除噪声。如果输入信号不包含音频信号,则抑制器114消除音频输出信号。在需要时噪声消除器113和抑制器114参考双方对话检测部件111的双方对话检测结果,从而执行每个操作。加法器115将经由串行I/F 130输入的另一个级联麦克风的音频信息(级联输入)加到麦克风的音频信号上,传输给串行I/F 130的一个合成的音频信号(级联输出)。一控制器,未示出,通过串行I/F 130输入控制命令以根据输入的命令(控制I/O)进行操作处理。值得注意的是,DSP 110根据通过串行I/F 130输入的下行数据产生一操作时钟。
电源控制器120向DC-DC 121提供从上行主体200提供的DC电源并确定是否向下行提供DC电源。如果需要向下行提供电源,则电源控制器120就通过电源信号路径312执行将提供DC电源给麦克风2(101)的控制。此时,考虑外部DC电源400是否连接到它自己的麦克风以及连接于下行的电源信号路径的长度,对下行电源进行确定。
串行I/F 130输入从主体200发送的下行数据来对该数据进行预定的处理操作并将处理过的数据输出给下行麦克风2(101)。同样,串行I/F 130还进行如下处理,如将自身的麦克风的音频信号加到从下行麦克风2(101)输入的上行数据的音频信息中,将处理过的音频信息输出给上行主体200。在下文中,进行通信的下行数据和上行数据统称为通信命令。
拾音部件150拾取外部语音并将拾取的语音信号传输给A/D转换器151。A/D转换器151将拾音部件150产生的模拟语音信号转换成数字信号并将该信号输出给回声消除器112。
主体200通过通信命令用级联的麦克风1(100)和麦克风2(101)交换信息以管理这些麦克风。主体200具有一扬声器201用于输出音频信号。
外部DC电源400在需要的时候连接到每个麦克风上,用于给连接的麦克风提供DC电源。
下面对具有上述配置的电视会议系统的操作进行描述。下面的描述是关于麦克风和麦克风系统的操作,重点是有关DSP 110进行的音频处理。
拾音部件150输入附近的语音,根据输入的语音产生一模拟信号,并将产生的模拟信号输出给A/D转换器151。A/D转换器151根据输入的语音将产生的模拟信号转换成数字信号并将该数字信号作为音频输入信号输出给DSP 110。
在DSP 110中,双方对话检测部件111获取单方对话状态下通过串行I/F130输入的音频输出信号与通过A/D转换器151输入的音频输入信号之间的音量比值,并根据获取的结果对双方对话状态进行检测。如果双方对话检测部件111没有检测到双方对话状态,则回声消除器112执行对自适应控制的获取并从音频输入信号中消除回声分量,从而产生音频信号。该音频信号进一步由噪声消除器113进行噪声消除,以及该经过噪声消除的信号由抑制器114进行抑制后输出给加法器115。加法器115将经由抑制器114输入的音频信号加到经由串行I/F 130输入的下行麦克风的音频信号(级联输入)上,并输出合成信号(级联输出)。
如上所述,将由于扬声器201的反射输出信号掺杂其中而引起的回声分量从拾音部件150拾取的输入信号中消除,为了使该回声消除操作准确地执行,本发明的一个实施例的麦克风装置根据单方对话和双方对话的不同而执行操作控制。双方对话检测部件111在每个频率范围内计算输出信号与输入信号之间的音量比值并获取预先确定的单方对话状态下的音量比值。之后,双方对话检测部件111相对于所获得的结果对计算出的音量比值进行匹配来检测双方对话状态。这一新颖的配置能够适应扬声器201的音量、拾音部件150的灵敏度、或者由于扬声器201和拾音部件150之间的位置关系发生变化引起的音量改变等因素,而校正检测双方对话状态。另外,音量比值的确定是基于一频率范围独立进行的,因而提高了检测的准确性。
尽管使用具体的术语描述了本发明的优选实施方案,但这些描述仅以说明性为目的,且应当理解在不脱离下述权利要求所概括的主旨和范围的情况下所有改变和变化都是允许的。
相关申请的交叉引用本申请包含2005年8月17日在日本专利局提交的日本专利申请JP2005-236251所涉及的主题内容,其全文内容在此引入作为参考。
权利要求
1.一种用于消除混杂在音频输入信号中的回声分量而进行自适应处理的回声消除器,包括音量比值获取器,被配置为计算外部输出的音频输出信号与混杂了回声分量的所述音频输入信号之间的音量比值,该回声分量是由所述音频输出信号反射到所述音频输入信号上而引起的,从而获取常规状态下自身设备的所述音量比值;双方对话检测器,被配置为根据此时计算出的此时音量比值是否符合所述获取的音量比值预测的双方对话状态来检测所述双方对话状态;以及,回声消除处理器,被配置为在通过了双方对话检测器的双方对话状态检测结果的基础上,进行回声分量的获取操作的操作以完成自适应过程。
2.根据权利要求1的回声消除器,其中所述音量比值获取器和所述双方对话检测器将每个所述音频输入信号和所述音频输出信号划分到多个预定频率范围内并在预定频率范围基础上进行处理。
3.根据权利要求1的回声消除器,其中所述音量比值获取器根据基于所述此时音量比值是否超出一预定阈值的双方对话确定结果来确定是否进行获取操作。
4.根据权利要求1的回声消除器,其中所述音量比值获取器考虑一个延迟时间来进行音频比值的获取操作,在该延迟时间中所述音频输出信号反射混杂在所述音频输入信号中。
5.一种用于进行音频信号处理的麦克风装置,该音频信号处理包括用于消除混杂在音频输入信号中的回声分量以从所述音频输入信号中提取出讲话者的音频信号的自适应处理过程,所述装置包括音频输入部件,被配置为将拾取的音频信号转换为数字信号并将所述数字信号作为音频输入信号进行输出;音量比值获取器,被配置为计算外部输出的音频输出信号与混杂着回声分量的音频输入信号间的音量比值,该回声分量是由音频输出信号反射到音频输入信号上所造成的,由此获得一常规状态下自身设备中的音量比值;双方对话检测器,被配置为根据此时计算出的此时音量比值是否符合所述音量比值获取预测的双方对话状态来检测出双方对话状态;以及音频信号处理器,被配置为从所述音频输入信号中提取所述音频信号,其包括在通过了双方对话检测器的双方对话状态检测结果的基础上,进行回声分量的获取操作的控制以完成自适应过程。
全文摘要
一种用于消除混杂在音频输入信号中的回声分量而进行自适应处理的回声消除器,包括音量比值获取器,被配置为计算外部输出的音频输出信号与混杂了回声分量的所述音频输入信号之间的音量比值,该回声分量是由所述音频输出信号反射到所述音频输入信号上而引起的,从而获取常规状态下自身设备的所述音量比值;双方对话检测器,被配置为根据此时计算出的此时音量比值是否符合所述获取的音量比值预算的双方对话状态来检测所述双方对话状态;以及回声消除处理器,被配置为在通过了双方对话检测器的双方对话检测结果的基础上,进行回声分量的获取操作控制以完成自适应过程。
文档编号H04M1/58GK1949795SQ20061014929
公开日2007年4月18日 申请日期2006年8月17日 优先权日2005年8月17日
发明者川口贵义, 樱庭洋平 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1