使用通过线性组合的频谱分析的源声分离器及其方法

文档序号：2823990阅读：262来源：国知局

专利名称：使用通过线性组合的频谱分析的源声分离器及其方法
技术领域：
本发明涉及源声分离器及其方法，更具体地，涉及用于分离目标声音并且隔离干扰声音的源声分离器和方法，所述干扰声音来自与目标声音的方向不同的方向。
背景技术：
这样的源声分离器适用于例如诸如移动电话等移动装置或诸如汽车导航系统等车载装置。在利用语音识别或电话消息记录时，可能产生下面的问题由麦克风捕获的语音可能因为环境噪声而在语音识别的精度上严重恶化，或者所记录的语音可能由于这样的噪声而变得难于辨别。在这样的情况下，已经试图使用麦克风阵列来控制定向特性，从而选择性地仅获得感兴趣的语音。然而，如果意欲取出感兴趣的语音、使其为与背景噪声分离的状态，那么，仅控制定向特性是不够的。通过麦克风阵列来控制定向特性的解决方案本身是已知的。例如，迄今已知用于通过延迟和阵列(Delayed Sum Array, DSA)或波束形成(Beam Forming, BF)的定向特性控制解决方案，或用于通过方向约束的功率最小化(Directionally Constrained Minimization of Power, DCMP)自适应阵列的定向特性控制解决方案。作为用于分离远处发出的语音的解决方案，已知一种被称为SAFIA的解决方案，在该方案中，如日本公开专利申请公报No. 313497/1998所公开的，对从固定的多个麦克风输出的信号进行窄带频谱分析，并且将在每一个频带中产生最大振幅的麦克风分配用于捕获该频带中的声音。在这种基于带宽选择(Bandwidth Selection, BS)的语音分离的解决方案中，选择位置最接近发出目标语音的声源的麦克风，并且使用分配给该麦克风的频带中的声音进行语音合成。在SAFIA中，如上所述，两个信号在重叠时可以被彼此分离。如果存在三个或更多个声源，那么这些信号在理论上可以被彼此分离，但分离的性能将严重地恶化。因此，如果存在多个噪声源，那么，将目标声音以高精度从接收到的、被多个噪声信号混杂的声音信号中分离出来会变得极其困难。Kobayashi等人的公开号为US 2009/0323977A1的美国专利申请中已提出了与频带选择相比有所改善的另一解决方案。在由KcAayashi等人教示的方法(下文中将详细所述)中，计算频率特性，使用该频率特性来适当地加强来自各声源的、诸如语音和声学信号等的声音信号。然而，由麦克风捕获的信号除了目标声音之外还可能包含干扰声音。因此，不得不说，这些解决方案不适用于消除干扰声音的最后阶段附近。在这样的情况下，在最后的源声分离后，声音质量会变差。

发明内容
本发明的目的是提供一种源声分离器及其方法，利用所述源声分离器及其方法，即使在存在多个干扰声音时，也能够容易地将源声以分离的目标声音的最佳声音质量分离出来。
4
根据本发明，提供了一种源声分离器，用于将目标声音和干扰声音彼此分离，所述干扰声音来自与所述目标声音的进入的方向不同的可选方向，所述源声分离器包括第一频谱产生器，用于使用布置为彼此分离的多个麦克风中的两个麦克风接收的声音信号来执行用于在时域或频域中加强目标声音的线性组合的第一处理，以产生至少一个第一目标声音占优势的频谱；第二频谱产生器，用于使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中加强目标声音的线性组合的第二处理，以产生至少一个第二目标声音占优势的频谱；第三频谱产生器，用于使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中抑制目标声音的线性组合的第三处理，以产生至少一个目标声音抑制的频谱，所述至少一个目标声音抑制的频谱将与所述第一目标声音占优势的频谱和所述第二目标声音占优势的频谱形成为一组；相位产生器，用于使用所述多个麦克风中的多个接收的声音信号来执行频域中的线性组合的处理，以产生相位信号；以及目标声音分离器，用于使用所述第一目标声音占优势的频谱、所述第二目标声音占优势的频谱、所述目标声音抑制的频谱和所述相位信号将所述目标声音和所述干扰声音彼此分离。另外，根据本发明，提供了一种用于将目标声音和干扰声音彼此分离的方法，所述干扰声音来自与所述目标声音进入的方向不同的方向，所述方法包括准备第一频谱产生器、第二频谱产生器、第三频谱产生器、相位产生器和目标声音分离器；由所述第一频谱产生器通过使用布置为彼此分离的多个麦克风中的两个麦克风接收的声音信号执行用于在时域或频域中加强目标声音的线性组合的第一处理，来产生至少一个第一目标声音占优势的频谱；由所述第二频谱产生器通过使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号执行用于在时域或频域中加强目标声音的线性组合的第二处理，来产生至少一个第二目标声音占优势的频谱；由所述第三频谱产生器通过使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中抑制目标声音的线性组合的第三处理，以产生至少一个目标声音抑制的频谱，所述至少一个目标声音抑制的频谱将与所述第一目标声音占优势的频谱和所述第二目标声音占优势的频谱形成为一组；由所述相位产生器通过使用所述多个麦克风中的多个接收的声音信号来执行频域中的线性组合的处理，以产生相位信号；以及由所述目标声音分离器通过使用所述第一目标声音占优势的频谱、所述第二目标声音占优势的频谱、所述目标声音抑制的频谱和所述相位信号，将所述目标声音和所述干扰声音彼此分离。根据本发明，提供了一种用于控制计算机的计算机程序，当所述计算机程序被安装在所述计算机中或在所述计算机上执行时，通过使得所述计算机作为如上所述的源声分离器来工作，将目标声音和干扰声音彼此分离。根据本发明，即使当存在多个干扰声音时，也可以容易地分离源声。另外，所分离的目标声音可以具有最佳的声音质量。

通过下面结合附图的详细描述，本发明的目的和特征将变得更清楚，在附图中图1是示出根据本发明的一个优选实施例的源声分离器的整体构成的示意性框图2是根据本发明的另一实施例的源声分离器的整体构成的示意性框图；图3是示出常规的源声分离器的构成的示意性框图；以及图4A和4B示意地示出了用于理解空间滤波器的声场。
具体实施例方式为了更好地理解本发明，在描述本发明的优选实施例之前，现在参考图3来详细描述Kobayashi等公开的源声分离方法。在KcAayashi等的方法中，两个麦克风21和22并排排列，以沿着与进入的目标声音的方向基本上垂直的方向延伸。在目标声音优势信号产生器330中，第一目标声音优势信号产生器331求麦克风 21接收的声音信号Xl (t)和时域或频域信号D(X2(t))之间的差，后一信号D(X2(t))是通过将麦克风22接收的声音信号延迟而获得的。所求得的这种差产生第一目标声音优势信号Xl (t) -D (X2 (t))。第二目标声音优势信号产生器332求麦克风22接收的声音信号X2 (t) 和时域或频域信号D(Xl(t))之间的差，后一信号D(Xl(t))是通过将麦克风21接收的声音信号延迟而获得的。所求的该差产生第二目标声音优势信号X2(t)-D (Xl(t))。目标声音劣势信号产生器340获得两个麦克风21和22接收的声音信号Xl (t)和X2 (t)之间在时域或频域中的差，以产生目标声音劣势信号Xl(t)-X2(t)。由频率分析器部350对这三个信号 Xl (t) -D (X2 (t))、X2 (t) -D (XI (t))和 Xl (t) -X2 (t)进行频率分析。在第一分离单元361中，使用第一目标声音优势信号和目标声音劣势信号的频谱来执行频带选择或频谱相减。这将来自第一麦克风21所位于的空间(即如下所述的图4B 的左侧的空间)的声音分离。另外，在第二分离单元362中，使用第二目标声音优势信号和目标声音劣势信号的频谱来执行频带选择或频谱相减。这将来自麦克风22所位于的空间 (即图4B的右侧的空间)的声音分离。在整合单元363中，通过利用对从第一分离单元361 和第二分离单元362输出的频谱的频谱整合处理来分离目标声音。在第一和第二目标声音优势信号产生器331和332与目标声音劣势信号产生器 340中，使用被称为空间滤波器的滤波器。现在参考图4A和4B来描述所述空间滤波器。假定在图4B中来自声源的声音以角度θ进入被布置为彼此距离为d的两个麦克风21和22中。在该情况下，麦克风21和声源之间的距离与另一麦克风22和声源之间的距离相差dXsin θ =T0这样，导致来自声源的声音到达两个麦克风的时间点之间出现由下面的表达式(1)表示的时间差t :t = (dXsin θ )/(声音传播速度)(1)另外，假定麦克风21的输出相对于来自麦克风22的输出延迟了时间差t，并且，从麦克风22的输出减去麦克风21产生的延迟输出。在该情况下，两个输出彼此抵消，因此，抑制了沿着抑制角度θ的方向的声音。图4Α示出就声源的可变方向而言被设置为抑制角度θ的空间滤波器的抑制后增益。第一和第二目标声音优势信号产生器331和332使用分别被设置为例如抑制角度-90° 和90°的空间滤波器，以提取目标声音分量并且抑制干扰声音分量。而且，目标声音劣势信号产生器340使用抑制角度θ被设置为0°的空间滤波器，以便抑制目标声音并且提取干
扰声音。
6
在第一或第二分离单元361或362中执行的频带选择处理包括利用表达式O) 限定的归一化进行的两个频谱的选择；以及表达式(3)限定的分离频谱的计算
权利要求
1.一种源声分离器，用于将目标声音和干扰声音彼此分离，所述干扰声音来自与所述目标声音进入的方向不同的方向，所述源声分离器包括第一频谱产生器，用于使用布置为彼此分离的多个麦克风中的两个麦克风接收的声音信号来执行用于在时域或频域中加强目标声音的线性组合的第一处理，以产生至少一个第一目标声音占优势的频谱；第二频谱产生器，用于使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中加强目标声音的线性组合的第二处理，以产生至少一个第二目标声音占优势的频谱；第三频谱产生器，用于使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中抑制目标声音的线性组合的第三处理，以产生至少一个目标声音抑制的频谱，所述至少一个目标声音抑制的频谱将与所述第一目标声音占优势的频谱和所述第二目标声音占优势的频谱形成为一组；相位产生器，用于使用所述多个麦克风中的多个接收的声音信号来执行频域中的线性组合的处理，以产生相位信号；以及目标声音分离器，用于使用所述第一目标声音占优势的频谱、所述第二目标声音占优势的频谱、所述目标声音抑制的频谱和所述相位信号将所述目标声音和所述干扰声音彼此分离。
2.一种用于将目标声音和干扰声音彼此分离的方法，所述干扰声音来自与所述目标声音进入的方向不同的方向，所述方法包括准备第一频谱产生器、第二频谱产生器、第三频谱产生器、相位产生器和目标声音分离器；由所述第一频谱产生器通过使用布置为彼此分离的多个麦克风中的两个麦克风接收的声音信号执行用于在时域或频域中加强目标声音的线性组合的第一处理，来产生至少一个第一目标声音占优势的频谱；由所述第二频谱产生器通过使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号执行用于在时域或频域中加强目标声音的线性组合的第二处理，来产生至少一个第二目标声音占优势的频谱；由所述第三频谱产生器通过使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中抑制目标声音的线性组合的第三处理，以产生至少一个目标声音抑制的频谱，所述至少一个目标声音抑制的频谱将与所述第一目标声音占优势的频谱和所述第二目标声音占优势的频谱形成为一组；由所述相位产生器通过使用所述多个麦克风中的多个接收的声音信号来执行频域中的线性组合的处理，以产生相位信号；以及由所述目标声音分离器通过使用所述第一目标声音占优势的频谱、所述第二目标声音占优势的频谱、所述目标声音抑制的频谱和所述相位信号，将所述目标声音和所述干扰声音彼此分离。
3.一种存储介质，该存储介质记录有计算机程序，并且当被安装在计算机中或在所述计算机上执行时，所述计算机程序将目标声音和干扰声音彼此分离，所述干扰声音来自与所述目标声音进入的方向不同的方向，所述程序使得所述计算机操作为第一频谱产生器，用于使用布置为彼此分离的多个麦克风中的两个麦克风接收的声音信号来执行用于在时域或频域中加强目标声音的线性组合的第一处理，以产生至少一个第一目标声音占优势的频谱；第二频谱产生器，用于使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中加强目标声音的线性组合的第二处理，以产生至少一个第二目标声音占优势的频谱；第三频谱产生器，用于使用用于产生所述第一目标声音占优势的频谱的所述两个麦克风接收的声音信号来执行用于在时域或频域中抑制目标声音的线性组合的第三处理，以产生至少一个目标声音抑制的频谱，所述至少一个目标声音抑制的频谱将与所述第一目标声音占优势的频谱和所述第二目标声音占优势的频谱形成为一组；相位产生器，用于使用所述多个麦克风中的多个接收的声音信号来执行频域中的线性组合的处理，以产生相位信号；以及目标声音分离器，用于使用所述第一目标声音占优势的频谱、所述第二目标声音占优势的频谱、所述目标声音抑制的频谱和所述相位信号将所述目标声音和所述干扰声音彼此分离。
全文摘要
在源声分离器中，由用于加强目标声音的线性组合的第一和第二处理操作，通过使用被排列为彼此间隔一定距离的两个麦克风接收的声音信号，来分别产生第一和第二目标声音占优势的频谱。由用于抑制目标声音的线性组合的处理通过使用这两个接收的声音信号来产生目标声音抑制的频谱。另外，由线性组合的处理通过使用这两个接收的声音信号来产生包含较大量的目标声音的信号分量并且显示出沿目标声音的方向的方向性的相位信号。通过利用第一和第二目标声音占优势的频谱、目标声音抑制的频谱和相位信号，将目标声音和干扰声音彼此分离。
文档编号G10L19/02GK102097099SQ201010592290
公开日2011年6月15日申请日期2010年12月10日优先权日2009年12月11日
发明者小川哲司, 小林哲则, 山田圭, 森户诚, 矢头隆, 赤桐健三申请人:冲电气工业株式会社, 学校法人早稻田大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：森户诚;矢头隆;山田圭;小林哲则;赤桐健三;小川哲司
技术所有人：冲电气工业株式会社;学校法人早稻田大学
我是此专利的发明人

上一篇：电子纸乐谱的制作方法
上一篇：移动装置金融看盘软件语音输入自选股的装置与方法