专利名称:用于自动地选择阈值以分离声音源的信号分离系统和方法
技术领域:
以下描述涉及一种用于自动地选择阈值以分离声音源的信号分离系统和方法。
背景技术:
虽然语音识别技术的性能已经极大地提高,但是语音识别的准确性通常在噪声环 境中降低。因此,需要有效地解决在消费产品中实际使用的语音识别系统中,语音识别的准 确性减小的问题。因此,需要一种用于从干扰声音源中有效地分离目标声音的系统和方法。
发明内容
在一个总体方面,一种信号分离系统包括幂序列计算器,基于从多个话筒接收的 信号使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;阈值 设置单元,对目标信号幂序列和干扰信号幂序列应用非线性,计算非线性目标信号幂序列 和非线性干扰信号幂序列的相关系数,以及设置最小化相关系数的噪声掩饰阈值。幂序列计算器可基于从接收的信号的耳间时间差值(ITD)、接收的信号的耳间相 位差值(IPD)和接收的信号的耳间强度差值(IID)中选择的至少一个差值,来产生目标掩 码和补充掩码。信号分离系统还可包括差值计算器,将短时傅里叶变换(STFT)应用于每个接收 的信号;以及基于STFT变换的信号计算所述至少一个差值。阈值设置单元可基于非线性目标信号幂序列、非线性干扰信号幂序列以及从接收 的信号的耳间时间差值(ITD)、接收的信号的耳间相位差值(IPD)和接收的信号的耳间强 度差值(IID)中选择的至少一个差值,来计算相关系数。阈值设置单元可将所述至少一个差值设置为最小化相关系数的噪声掩饰阈值。非线性可以是对数非线性或幂法则非线性。 目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。在另一总体方面,一种信号分离方法包括基于从多个话筒接收的信号使用目标 掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;对目标信号幂序列 和干扰信号幂序列应用非线性;计算非线性目标信号幂序列和非线性干扰信号幂序列的相 关系数;以及设置最小化相关系数的噪声掩饰阈值。在另一总体方面,一种信号分离系统包括掩饰单元,使用目标掩码和补充掩码分 别掩饰从多个话筒接收的信号;阈值设置单元,设置最小化在掩饰的信号之间的相关性的 噪声掩饰阈值。在另一总体方面,一种信号分离方法包括使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;以及设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。在另一总体方面,一种信号分离系统包括掩饰频谱产生器,使用目标掩码和补充 掩码从多个话筒接收的信号中产生掩饰的目标信号频谱和掩饰的干扰信号频谱;阈值设置 单元,基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小 化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰 幂序列之间的相关性。在另一总体方面,一种信号分离方法包括使用目标掩码和补充掩码从多个话筒 接收的信号产生掩饰的目标信号频谱和掩饰的干扰信号频谱;以及基于接收的信号之间的 差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非 线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。通过以下详细描述、附图和权利要求,其它特点和方面将会变得更加清楚。
图1示出左话筒、右话筒、目标声音源和干扰声音源的示例。图2示出选择用于声音源分离的最优掩饰耳间时间差值(ITD)阈值的过程的示 例。图3示出信号分离系统的示例。图4示出信号分离方法的示例。图5示出信号分离系统的示例。图6示出信号分离方法的示例。贯穿附图和详细描述,除非另外说明,相同的附图标号将被理解为表示相同的元 件、特征和结构。为了清楚、示出和方便的目的,可夸大这些元件的相对大小和描述。
具体实施例方式提供以下详细描述以助于读者获得对在此描述的方法、设备和/或系统的全面理 解。因此,在此描述的方法、设备和/或系统的各种改变、修改和/或等同物将被建议给本 领域的普通技术人员。另外,为了增加清楚和简明的目的,可省略已知功能和结构的描述。即使在混合有各种声音的噪声环境中,人类双耳系统也具有分离期望的声音的能 力。这往往称为双耳鸡尾酒会效应。在用于声音分离的技术中,可基于每种声音的唯一频率、关于声音到来的方向的 信息以及用于掩饰除了期望的声音之外的声音的听觉特征,来分离声音。已经使用耳间时间差值(ITD)、耳间相位差值(IPD)和耳间强度差值(IID)开发了 基于声音产生方向的信息的分离信号的各种方法。耳间强度差值(IID)也被称为耳间声级 差值(ILD)。由于通过频率分析容易获得相位信息,故相位信息可被广泛用于双耳处理。在基于如上所述的技术的许多算法中,二进制掩饰方案或连续掩饰方案可被用于 选择由目标声音源控制的时频bin。这里,时频表示针对时间变化的频率成分变化,bin表 示与各个频率相对应的值(或信息),时频bin表示相关时间中的各个频率成分。连续掩饰 方案通常呈现优于二进制掩饰方案的性能,但是通常需要知道噪声源的地点。然而,二进制 掩饰方案可用于全向噪声环境或当事先没有关于噪声源的位置或特性的信息的情况中。然而,二进制掩饰方案的性能取决于如何选择阈值,最优阈值取决于非已知的噪声源的位置 和强度。另外,如果噪声源的位置和强度可变,则最优阈值可随时间而改变。以下描述是ITD、IPD和IID中的ITD被设置为阈值时的二进制掩饰方案。大体上, 可从一组潜在的ITD候选中选择合适的ITD阈值。然而,最优ITD阈值将取决于噪声源的 数量和噪声源的位置,并可随时间而改变。例如,当来自噪声源的声音的方向与来自目标声 音源的声音的方向极大地不同时,包括更大范围的ITD的ITD阈值会提供更好的结果。然 而,如果当噪声源的位置与目标声音源很接近时使用这样的包括更大范围的ITD的ITD阈 值,则干扰声音源信号和目标声音源信号均会被ITD阈值允许通过。当存在多于一个噪声 源和/或当噪声源移动时,这个问题可变的更加复杂。因此,如下所述,可使用采用二进制阈值的两个补充掩码。当使用两个补充掩码 时,可获得两个不同频谱目标声音源的频谱和干扰声音源的频谱。还可从所述两个频谱获 得用于目标声音源和干扰声音源的多个短时幂作为短时幂序列。可将非线性应用于短时幂 序列。可使用应用的非线性从幂序列计算相关系数,并可选择最小化相关系数的ITD阈值。下面描述从相位信息中获得ITD的过程。假设和^[n]表示分别从左话筒 和右话筒接收的信号。图1示出左话筒101、右话筒102、目标声音源103和干扰声音源104的示例。如 图ι所示,目标声音源103位于两个话筒之间的中垂线105上,干扰声音源104位于从中垂 线105以顺时针方向旋转角θ的线106上。两个话筒分离距离Δ。从干扰声音源104到 左话筒101的距离长于从干扰声音源104到右话筒102的距离,这使来自干扰声音源104 的声音相比到达左话筒101更早地到达右话筒102,产生耳间时间差值(ITD)和耳间相位差 值(IPD)。在从干扰声音源104到左话筒101的距离与从干扰声音源104到右话筒102的 距离之间的差是Asine。由于声音的强度随着距离而减小,故所述距离的差值使在右话 筒102的声音的强度大于在左话筒101的声音的强度,从而产生耳间强度差值(IID)。当干 扰声音源的总数是S时,单独的声音源s具有各自的ITD δ (s)。S和δ (s)两者通常是未 知的。通过上述构想,可通过以下等式1来表示分别从左话筒101和右话筒102接收的由 xL[η]和χΕ [η]表示的信号
权利要求
1.一种信号分离系统,包括幂序列计算器,基于从多个话筒接收的信号,使用目标掩码计算目标信号的幂序列,并 使用补充掩码计算干扰信号的幂序列;和 阈值设置单元,用于对目标信号幂序列和干扰信号幂序列应用非线性; 计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;以及 设置最小化相关系数的噪声掩饰阈值。
2.如权利要求1所述的信号分离系统,其中,幂序列计算器基于从接收的信号的耳间 时间差值ITD、接收的信号的耳间相位差值IPD和接收的信号的耳间强度差值IID中选择的 至少一个差值,来产生目标掩码和补充掩码。
3.如权利要求2所述的信号分离系统,还包括差值计算器,用于 将短时傅里叶变换STFT应用于每个接收的信号;以及基于STFT变换的信号计算所述至少一个差值。
4.如权利要求1所述的信号分离系统,其中,阈值设置单元基于非线性目标信号幂序 列、非线性干扰信号幂序列以及从接收的信号的耳间时间差值ITD、接收的信号的耳间相位 差值IPD和接收的信号的耳间强度差值IID中选择的至少一个差值,来计算相关系数。
5.如权利要求4所述的信号分离系统,其中,阈值设置单元将所述至少一个差值设置 为最小化相关系数的噪声掩饰阈值。
6.如权利要求1所述的信号分离系统,其中,非线性是对数非线性或幂法则非线性。
7.如权利要求1所述的信号分离系统,其中,目标掩码和补充掩码的每一个是二进制 掩码或连续掩码。
8.一种信号分离系统,包括掩饰单元,使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;和 阈值设置单元,设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
9.如权利要求8所述的信号分离系统,其中,阈值设置单元 对掩饰的信号的每一个应用非线性;计算非线性掩饰的信号的相关系数;以及 设置噪声掩饰阈值,从而相关系数具有最小值。
10.一种在信号分离系统中的信号分离方法,包括基于从多个话筒接收的信号,使用目标掩码计算目标信号的幂序列,并使用补充掩码 计算干扰信号的幂序列;对目标信号幂序列和干扰信号幂序列应用非线性; 计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;以及 设置最小化相关系数的噪声掩饰阈值。
11.如权利要求10所述的信号分离方法,其中,计算幂序列的步骤包括基于从接收的 信号的耳间时间差值ITD、接收的信号的耳间相位差值IPD和接收的信号的耳间强度差值 IID中选择的至少一个差值,来产生目标掩码和补充掩码。
12.如权利要求11所述的信号分离方法,还包括 将短时傅里叶变换STFT应用于每个接收的信号;以及基于STFT变换的信号计算所述至少一个差值。
13.如权利要求10所述的信号分离方法,其中,计算相关系数的步骤包括基于非线性 目标信号幂序列、非线性干扰信号幂序列以及从接收的信号的耳间时间差值ITD、接收的信 号的耳间相位差值IPD和接收的信号的耳间强度差值IID中选择的至少一个差值,来计算 相关系数。
14.如权利要求13所述的信号分离方法,其中,设置噪声掩饰阈值的步骤包括将所述 至少一个差值设置为最小化相关系数的噪声掩饰阈值。
15.一种在信号分离系统中的信号分离方法,所述方法包括使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;以及设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
16.如权利要求15所述的信号分离方法,其中,所述设置的步骤包括对掩饰的信号的每一个应用非线性;计算非线性掩饰的信号的相关系数;以及设置噪声掩饰阈值,从而相关系数具有最小值。
17.一种信号分离系统,包括掩饰频谱产生器,使用目标掩码和补充掩码从多个话筒接收的信号中产生掩饰的目标 信号频谱和掩饰的干扰信号频谱;和阈值设置单元,基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而 所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的 非线性的干扰幂序列之间的相关性。
18.如权利要求17所述的信号分离系统,还包括分离的目标信号产生器,从掩饰的目 标信号频谱和由阈值设置单元设置的阈值中产生基本没有干扰信号的分离的目标信号。
19.如权利要求17所述的信号分离系统,其中,所述差值是耳间时间差值ITD。
20.如权利要求17所述的信号分离系统,其中,目标掩码和补充掩码的每一个是二进 制掩码。
21.如权利要求20所述的信号分离系统,其中,如果所述差值小于或等于所述阈值,则目标掩码具有值1,如果所述差值大于所述阈 值,则目标掩码具有值n ;以及如果所述差值大于所述阈值,则补充掩码具有值η,如果所述差值小于或等于所述阈 值,则补充掩码具有值1。
22.如权利要求21所述的信号分离系统,其中,值η表示实际是目标信号频谱的部分 的干扰信号频谱的部分。
23.如权利要求22所述的信号分离系统,其中,值η=0.01。
24.一种信号分离系统中的信号分离方法,所述方法包括使用目标掩码和补充掩码从多个话筒接收的信号产生掩饰的目标信号频谱和掩饰的 干扰信号频谱;以及基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化 在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂 序列之间的相关性。
25.如权利要求M所述的信号分离方法,还包括从掩饰的目标信号频谱和由阈值设置 单元设置的阈值中产生基本没有干扰信号的分离的目标信号。
26.如权利要求M所述的信号分离方法,其中,所述差值是耳间时间差值ITD。
27.如权利要求M所述的信号分离方法,其中,目标掩码和补充掩码的每一个是二进 制掩码。
28.如权利要求27所述的信号分离方法,其中,如果所述差值小于或等于所述阈值,则目标掩码具有值1,如果所述差值大于所述阈 值,则目标掩码具有值n ;以及如果所述差值大于所述阈值,则补充掩码具有值η,如果所述差值小于或等于所述阈 值,则补充掩码具有值1。
29.如权利要求观所述的信号分离方法,其中,值η表示实际是目标信号频谱的部分 的干扰信号频谱的部分。
30.如权利要求四所述的信号分离方法,其中,值η=0.01。
全文摘要
提供了一种用于自动地选择阈值以分离声音源的信号分离系统和方法。所述信号分离系统基于从多个话筒接收的信号,使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;对目标信号幂序列和干扰信号幂序列应用非线性;计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;设置最小化相关系数的噪声掩饰阈值。
文档编号G10L21/02GK102142259SQ20111003739
公开日2011年8月3日 申请日期2011年1月28日 优先权日2010年1月28日
发明者严基完, 李在原, 理查德·M·斯特恩, 金燦佑 申请人:三星电子株式会社