用于波束形成以获得语音和噪声信号的装置和方法

文档序号：9770009阅读：768来源：国知局

用于波束形成以获得语音和噪声信号的装置和方法
【技术领域】
[0001]本公开通常涉及语音处理，更具体地，涉及应用双重或多重输入噪声抑制的波束形成系统和方法。
【背景技术】
[0002]诸如但不限于移动电话、智能电话、个人数字助理(PDA)、平板电脑、笔记本电脑或其他电子设备等的移动设备越来越多地包括语音识别系统，以提供设备的免提语音控制。虽然语音识别技术已经改进，但是当感兴趣的声音存在于其它讲话者或环境噪声中时，准确的声音识别仍然是一个技术挑战。这些技术挑战不仅存在于语音识别技术，也存在于语音处理，诸如在今天可以使用具有合适的电话应用几乎任何电子设备进行的电话中使用，尽管流行移动电话和智能电话。
[0003]在移动设备上实现语音传输或语音识别系统时的一个特别挑战是许多类型的移动设备支持这样的使用情况，用户(因此用户的语音)根据使用情况相对于移动设备处于不同位置。而另外一个挑战是，包括其他讲话者的各种噪声源(即干扰机语音)也可能位于相对于移动设备的不同位置。这些噪声源中的一些根据位置和幅度可能随时间的函数而变化。所有这些因素构成移动设备操作和影响移动设备的麦克风拾取的声音的声学环境。此夕卜，随着移动或以特定方式定位移动设备，移动设备的声学环境也随之改变，从而也改变移动设备的麦克风拾取的声音。可以通过语音识别系统或语音传输系统的接收侧的收听者在一个声学环境下识别的语音声音由于移动设备的运动、定位或环境噪声水平而可能在特定改变的条件不能识别。在周围环境中的各种其他条件可以添加噪声、回声或导致也对语音识别系统或语音传输系统产生不利影响的其他不希望的声学条件。
[0004]更具体地，移动设备声学环境影响诸如麦克风阵列、噪声抑制器、回波消除系统的信号处理组件的操作和用于提高语音识别和语音呼叫性能两者的信号调节。对于移动设备，也对于固定设备，扬声器和其它干扰机扬声器或其它噪声源也可能相对于设备麦克风改变位置。这也导致对声学环境产生不利影响，并且可能导致由于干扰机扬声器或其它噪声源引起的噪声干扰而使语音不被语音识别系统或收听者识别。
【附图说明】
[0005]图1是根据实施例的装置的示意框图。
[0006]图2是提供根据各种实施例的图1的装置的操作的示例方法流程图。
[0007]图3是示出根据各种实施例的图1的装置的操作的另一示例方法的流程图。
[0008]图4是示出根据各种实施例的与形成虚拟麦克风以获得语音信号相关的操作的示例方法的流程图。
[0009]图5是示出根据各种实施例的与形成虚拟麦克风以获得语音信号相关的操作的另一示例方法的流程图。
[0010]图6是示出根据各种实施例的与形成虚拟麦克风以获得具有干扰机语音的噪声信号的操作的示例方法的流程图。
[0011]图7是示出根据各种实施例的与形成虚拟麦克风以获得噪声信号相关的操作的另一示例方法的流程图。
[0012]图8是示出根据各种实施例的与形成虚拟麦克风以获得噪声信号的操作的另一示例方法的流程图。
【具体实施方式】
[0013]简要地，所公开的实施例的操作的方法包括:波束形成多个麦克风输出以获得多个虚拟麦克风音频通道。每个虚拟麦克风音频通道对应于一个波束形成。虚拟麦克风音频通道包括至少一个语音通道和至少一个噪声通道。该方法包括对所述至少一个语音通道执行语音活动检测和调整相应的语音波束形成，直到语音活动检测指示声音存在于所述至少一个语音通道上。
[0014]所述方法还可以包括对所述至少一个噪声通道执行语音活动检测，以及调整对应的噪声波束形成，直到语音活动检测指示所述至少一个噪声通道基本不存在语音。所述方法还可以包括对所述至少一个噪声通道执行能量估计，以及调整对应的噪声波束形成，直到能量估计指示所述至少一个噪声通道从主导音频能量源接收音频。所述方法还可以包括对所述至少一个噪声通道执行语音识别，以及调整对应的噪声波束形成，以提高语音识别的语音识别置信度量。所述方法还可以包括对所述至少一个噪声通道执行语音识别，以及调整对应的噪声波束形成，以降低噪声波束上执行的语音视频的语音识别置信度量。
[0015]在一些实施例中，对所述至少一个噪声通道执行语音识别可以包括使用被训练成辨识特定说话者的经训练的语音识别对所述至少一个噪声通道执行语音识别。所述方法还可以包括初始基于检测到的对应麦克风组的方位来配置所述多个麦克风输出。
[0016]所公开的实施例的另一种操作方法包括波束形成多个麦克风输出以获得多个虚拟麦克风音频通道，其中，每一个虚拟麦克风音频通道对应于一个波束形成，并且具有至少一个语音通道和至少一个噪声通道。所述方法包括对所述至少一个语音通道执行语音识别，以及调整对应的语音波束形成，以提高语音识别的语音识别置信度量。
[0017]在一些实施例中，对所述至少一个语音通道执行语音识别可以包括使用被训练成辨识特定说话者的经训练的语音识别对所述至少一个语音通道执行语音识别。所述方法还可以包括对所述至少一个噪声通道执行语音活动检测，以及调整对应的噪声波束形成，直到语音活动检测指示在所述至少一个噪声通道上基本不存在语音。所述方法还可以包括对所述至少一个噪声通道执行能量估计，以及调整对应的噪声波束形成，直到能量估计指示所述至少一个噪声通道从主导音频能量源接收音频。所述方法还可以包括对所述至少一个噪声通道执行语音活动检测，以及调整对应的噪声波束形成，直到语音活动检测指示所述至少一个噪声通道上存在语音。所述方法还可以包括对所述至少一个噪声通道执行语音识另IJ，以及调整对应的噪声波束形成，以降低语音识别的语音识别置信度量。所述方法还可以包括使用被训练成辨识特定说话者的经训练的语音识别对所述至少一个噪声通道执行语音识别。所述方法还可以包括响应于指示所述至少一个噪声通道上存在语音的语音活动检测对所述至少一个噪音通道执行语音识别。所述方法还可以包括调整对应的噪声波束形成，以降低经训练的语音识别的语音识别置信度量。
[0018]所公开的实施例还提供了一种装置，包括波束形成器，该波束形成器操作地耦合到多个麦克风输出。波束形成器操作以提供多个虚拟麦克风音频通道作为波束形成器输出，其中，每一个虚拟麦克风音频通道对应于一个波束形成并具有至少一个语音通道和至少一个噪声通道。波束形成器控制器操作地耦合到波束形成器，并且操作以监视所述至少一个语音通道和所述至少一个噪声通道，以确定所述至少一个语音通道或所述至少一个噪声通道中的任一个上是否存在语音。波束形成器控制器还操作以控制波束形成器来调整与所述至少一个语音通道相对应的波束形成，直到所述至少一个语音通道上存在语音。在一些实施例中，波束形成器控制器还操作成控制波束形成器来调整与所述至少一个噪声通道相对应的波束形成，直到所述至少一个噪声通道上基本不存在语音。
[0019]在一个实施例中，语音活动检测器操作地耦合到波束形成器以接收所述至少一个语音通道，和操作地耦合到所述波束形成器控制器。本实施例的波束形成器控制器操作来监视所述至少一个语音通道，以通过监视从语音活动检测器接收到的输入确定是否存在语音。在另一个实施例中，语音识别引擎操作地耦合到波束形成器来接收所述至少一个语音通道，和操作地耦合到所述波束形成器控制器。语音识别引擎操作以对所述至少一个语音通道执行语音识别来检测语音，并且波束形成器控制器操作来监视所述至少一个语音通道，以通过监视从语音识别引擎接收到的输入确定是否存在语音。例如，该输入可以是语音置信度量。
[0020]在另一个实施例中，语音识别引擎操作地耦合到波束形成器来接收所述至少一个语音通道和至少一个噪声通道。语音识别引擎操作以对所述至少一个语音通道和至少一个噪声通道执行语音识别，以检测语音。波束形成器控制器操作地耦合到波束形成器、语音活动检测器、和语音识别引擎。除其他事项外，波束形成器控制器操作来监视语音活动检测器，以确定所述至少一个语音通道或所述至少一个噪声通道中的任一个上是否存在语音，并控制波束形成器以调整对应的语音波束形成，直到语音活动检测或语音识别引擎指示所述至少一个语音通道上存在语音，以及调整对应的噪声波束形成，直到语音活动检测或语音识别引擎指示所述至少一个噪声通道上基本不存在语音。
[0021]在一些实施例中，所述装置还可以包括能量估计器，该能量估计器操作地耦合到波束形成器和语音活动检测器。在一些实施例中，所述装置还可以包括麦克风配置逻辑，麦克风配置逻辑操作地耦合到波束形成器。麦克风配置逻辑可以包括切换逻辑，该切换逻辑操作以接通或断开多个麦克风输出的任何麦克风输出。在一些实施例中，所述装置还可以包括噪声估计器，该噪声估计器操作地耦合到语音活动检测器。
[0022]在另一个实施例中，一种操作方法包括:波束形成多个麦克风输出，以获得至少一个虚拟麦克风通道，对切换逻辑至少一个虚拟麦克风通道执行语音识别，以及调整对应的波束形成，直到语音识别指示以下中的一个:切换逻辑至少一个虚拟麦克风通道上存在语音、或所述至少一个虚拟麦克风通道上基本不存在语音。在一些实施例中，执行语音识别可以包括使用被训练成辨识特定说话者的经训练的语音识别对所述至少一个虚拟麦克风通道执行语音识别。
[0023]现在转到附图，图1是根据各种实施例的装置100的示意性框图。装置100可以并入和用于采用语音识别、语音传输、或语音捕获的任何电子设备中。装置100的一个应用可以用于各种移动设备中的任何一个，诸如但不限于，移动电话、智能电话、照相机、摄像机、平板电脑、笔记本电脑、或一些其他电池供电的电子设备等等。然而，装置100不限于在移动设备中使用。例如，装置100可以用于语音控制电视机、数字视频录像机、汽车控制系统、或采用语音识别或语音通信的任何其它设备或系统，诸如便携式或非便携式电话、扬声电话等。
[0024]可以理解，为了清楚的目的，图1受限于仅示出向本领域普通技术人员描述各种实施例的特征和优点以及描述如何作出和使用各种实施例有用的那些组件。因此，可以理解，可以存在各种其他组件、电路和设备等，以便实现装置，并且本领域普通技术人员可以理解为存在那些各种其它组件、电路、设备等。例如，装置可以包括用于从电源、可以连接到电池或容纳在装置100并入的电子设备或系统中的一个中的其它电源的配电总线接收电力的输入，以向装置100提供电力，或者将电力分配给装置100的各种组件。在另一示例中，装置可以包括一个或多个通信总线，用于发送控制信号或操作地耦合的组件之间的其他信息等。因此，可以理解，为了清楚的目的，省略了这样的各种其它组件、电路或设备。
[0025]另一示例是，装置100还可以包括内部通信总线，用于在各种组件、电路和设备之间提供操作地耦合。本文所使用的术语“操作地耦合”是指实现各种组件、电路和设备之间操作和/或功能通信的耦合以及被描述为操作地耦合的各种组件、电路和设备之间的关系，并且可以包括用于实现这样通信的任何中间

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：凯文·J·巴什迪尔;贾尔斯·T·戴维斯;普拉门·A·伊万诺夫;里瓦纳尔多·S·奥利韦拉;坦卡西·V·拉玛巴德兰;斯内海特哈·辛加拉朱;
技术所有人：谷歌技术控股有限责任公司;
我是此专利的发明人

上一篇：用于方位相依处理的音频处理器的制造方法
上一篇：用于电子轨道扬声器中音节栓的装置和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。