信号处理装置、方法以及程序的制作方法
【专利摘要】以提供比以往提高了噪音抑制性能的信号处理技术作为目的。第一分量提取部(14)根据目标区的功率谱密度通过时间平均处理,提取由从目标区到来的声音派生的非稳定分量以及由不相干的噪音派生的稳定分量第二分量提取部(15)根据噪音区的功率谱密度提取由干扰噪音派生的非稳定分量以及由不相干的噪音派生的稳定分量。
【专利说明】
信号处理装置、方法以及程序
技术领域
[0001] 本发明涉及利用多个话筒清楚地接收从目标方向到来的声源信号的技术。
【背景技术】
[0002] 首先,说明信号处理的基本框架。
[0003] 设想利用由Μ个话筒构成的阵列。Μ是2以上的整数。例如,将Μ设为2至4左右。也可 以将Μ设为100左右。在频率ω且帧时间τ的观测信号X m( ω,τ) (m = 1,2,…,Μ)中,包含相干 且具有不稳定性的一个目标音3〇(?,1)、1(个干扰噪音51{(?,1)仏=1,2,~,1〇、不相干的稳 定性噪音仏(《,τ)。将Κ设为规定的正整数。m是各话筒的编号,观测信号Χ η(ω,τ)是将通过 话筒m接收的时域的信号变换为频域的信号。
[0004]目标音是从规定的目标区到来的声音。目标区是包含想要接收的声源的区域。想 要接收的声源的数目以及想要接收的声源在目标区内的位置可以是未知的。例如,如图6所 例示,设配置有6个扬声器以及3个话筒的区域被分割为3个区(区1、区2、以及区3)。当想要 接收的声源包含于区1的情况下,区1成为目标区。
[0005] 另外,目标音中也可以包含来自目标区外的声源的反射音。例如,当目标区为区1 的情况下,目标音也可以包含,在从区2以及区3中包含的声源产生的声音中通过反射而从 区1的方向来到话筒的声音。
[0006] 目标区可以是离话筒规定的距离以内的区。换言之,也可以是具有有限的面积的 区。进而,目标区也可以有多个。图7是表示目标区有2个的情况下的例子的图。
[0007] 另外,也将包含发出噪音的声源的区称为噪音区。在图6的例子中,当发出噪音的 声源分别包含于区2以及区3中的情况下,区2以及区3分别成为噪音区。在本例中,将区2以 及区3分别设为噪音区,但也可以将整合了区2以及区3的区设为噪音区。也将包含发出干扰 噪音的声源的噪音区特别称为干扰噪音区。进行设定,使得噪音区不同于目标区。
[0008] 在将第m个话筒至目标音S〇( ω,τ)的传递特性记为Am,〇( ω ),将第m个话筒至第k个 干扰噪音的传递特性记为Am,k( ω )时,观测信号Xm( ω,τ)如以下那样建模。
[0009] 【数1】
[0011]当话筒数目少的情况下,即例如Μ〈Κ的情况下,结合了基于最小方差无失真响应 (MVDR)的波束成形与后置滤波器的框架可有效抑制噪音(例如,参照非专利文献1)。图1表 示后置滤波器型阵列的处理流程。被设计为强调目标音的滤波器系数《〇( ω ) = [W0>1 (ω),…,W0,M(co)]T可如以下计算。
[0012]【数2】
[0014] 在此,将x设为任意的向量或矩阵,xT表示x的转置,xH表示x的共辄转置。ho( ω )= [Ηο,ι( ω ),…,Hq,m( ω )]τ是目标音方向的阵列流形向量。阵列流形向量是将从声源至话筒 的传递特性Ho,m( ω )设为向量ho( ω )的向量,从声源至话筒的传递特性Ho,m( ω )是根据声源 和话筒位置而理论上能够算出的仅假设了直接音的传递特性、或实测的传递特性、通过镜 像法和有限元素法等计算机仿真来估计的传递特性。若假设为源信号互相不相干,则能够 将空间相关矩阵R( ω )如以下那样建模。
[0015] 【数3】
[0017] 在此,hk( ω )是第k个干扰噪音的阵列流形向量。波束成形的输出信号Υ〇( ω,τ)可 通过以下的式来获得。
[0018] 【数4】
[0020] 在此,χ( ω = ω,τ),···,ΧΜ( ω,τ)]τ。为了抑制在 Υ〇( ω,τ)中包含的噪音信 号,乘以后置滤波器6(ω,τ)。
[0021] 【数5】
[0022] Ζ( ω ,τ)=6( ω ,τ)Υ〇( ω ,τ)···(5)
[0023]最后,通过对Ζ( ω,τ)进行快速傅里叶反变换(IFFT),获得输出信号。
[0024] 接着,说明基于非专利文献2的后置滤波器设计法。
[0025] 在非专利文献2中,提出了基于利用多个波束成形而估计的各区的功率谱密度 (PSD)而设计后置滤波器的方式(例如,参照非专利文献2)。以下,将该方式称为LPSD法(基 于本地PSD的后置滤波器设计(Local PSD-based post-filter design))。利用图2,说明 LPSD法的处理流程。
[0026]当基于Wiener法设计后置滤波器的情况下,如以下那样计算G( ω,τ)。
[0027]【数6】
[0029] 在此,φ5(ω,τ)表示目标区的功率谱密度,φΝ(ω,τ)表示噪音区的功率谱密度。 在此,当称为某区的功率谱密度的情况下,意味着从该区到来的声音的功率谱密度。即,例 如,目标区的功率谱密度是指从目标区到来的声音的功率谱密度,噪音区的功率谱密度是 指从噪音区到来的声音的功率谱密度。用于根据Χ Β(ω,τ)而估计φ5(ω,τ)、φΝ(ω,τΜ9* 法有多种,但假设在观测信号中包含干扰噪音,因此利用LPSD法。
[0030] 在LPSD法中,假设在观测信号中包含有目标音与干扰噪音,且这些在时间频率区 域中稀疏。为了分析位于各方向的各区的功率谱密度,设计L+1个波束成形滤波器w u( ω )(u =0,1,…,L)。滤波器wu( ω )对第k个区方向的灵敏度I Du,k( ω ) 12、第u个输出信号的功率I Yu (?,1)|2、各区的功率谱密度卜1<(〇,1)|2之间的关系能够如以下那样建模。在此,|〇 11,1<(〇) 2例如是 |〇11,1{(?)|2=|¥1/1(?)1 11{(?)|2。作为|〇11,1{(?)|2,也可以利用实测值。
[0033] 在此,省略了各符号的索引。即,¥11 = 丫11(〇,1),且〇11,1{ = 011,1{(〇〇,311 = 311((〇,1)。此 外,设Φγ( ω,τ) = [ |Υ0( ω,τ) I2, |Yi( ω,τ) I2,···,|YL( ω,τ) |2]Τ、Φ5( ω,τ) = [ |S0( ω,τ) 2, |Si( ω,τ) |2,···,|Sk( ω,τ) |2]Τ。
[0034] 例如,通过解式(7)的反问题,算出各区的功率谱密度。
[0035] 【数8】
[0037] 在此,将b设为任意的矩阵,b+表示对b的伪逆矩阵运算。局部PSD估计部11将观测 信号Xm( ω,τ)(ηι=1,2,···,M)作为输入,从而输出例如通过式(8)而定义的局部功率谱密度 'ΦΚω,τΚΓ」表示是被估计的。
[0038] 局部是指区。在图6的例中,区1、区2、以及区3分别是局部。局部PSD估计部估计并 输出各区的功率谱密度~Φ5(ω,τ)。
[0039] 目标区/噪音区PSD估计部12以针对每个频率ω以及帧τ基于式(8)而估计的局部 功率谱密度~Φ5( ω,τ)作为输入,算出通过以下的式定义的~ φ5( ω,τ)以及~ φΝ( ω,τ)。
[0040] 【数9】
[0043] 最后,维纳增益计算部13以~Φ5(ω,τ)以及~φΝ(ω,τ)作为输入,计算并输出通过 式(6)定义的后置滤波器6(ω,τ)。具体来说,维纳增益计算部13分别输入~Φ 5(ω,τ)以及~ Φν( ω,τ)作为式(6)的<i>s( ω,τ)以及φΝ( ω,τ),从而计算并输出G( ω,τ)。
[0044] LPSD法的主要的优点有以下两点。(i)在功率谱区域定义波束成形的输出与各声 源的关系,能够获得超过麦克风的数量的控制自由度,因此能够有效地抑制噪音;以及(ii) 只要事先计算L个波束成形wu( ω )(ιι = 0,1,···,υ与式(7)的D( ω ),就能够以较低运算量实 现(i)的优点。
[0045] 现有技术文献
[0046] 【非专利文献】
[0047] 【非专利文献 1 】C · Marro et al ·,"Analys i s of no i se reduct ion and dereverberation techniques based on microphone arrays with postfiltering,', IEEE Trans.Speech,Audio Proc.,6,240-259,1998.
[0048] 【非专利文献2】Y.Hioka et al ·,"Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,', IEEE Trans.Audio,Speech,Language Proc.,21,1240-1250,2013.
【发明内容】
[0049] 发明要解决的课题
[0050] 在LPSD法中,假定目标音与干扰音混合存在的情况而定义了问题,但在实用上的 问题中,不仅是具有相干性的干扰噪音,多数情况是不相干性强的稳定噪音(空调的噪音、 麦克的内部噪音等)混合存在。此时,Φ 5(ω,τ)以及φΝ(ω,τ)的估计误差变大,有时导致噪 音抑制性能降低。
[0051] 本发明的目的在于,提供比以往提高噪音抑制性能的信号处理装置、方法以及程 序。
[0052] 用于解决课题的手段
[0053]本发明的一方式的信号处理装置具有:局部PSD估计部,基于根据通过构成话筒阵 列的Μ个话筒接收到的信号而获得的频域的观测信号,估计目标区以及不同于上述目标区 的至少一个噪音区各自的局部功率谱密度;目标区/噪音区PSD估计部,将ω设为频率,将τ 设为帧的索引,基于估计到的局部功率谱密度,估计目标区的功率谱密度~Φ5(ω,τ)以及 噪音区的功率谱密度~Φ Ν(ω,τ);第一分量提取部,根据目标区的功率谱密度~φ5(ω,τ), 提取由从目标区到来的声音派生的非稳定分量~Φ 5(Α)(ω,τ)以及由不相干的噪音派生的 稳定分量~Φ5(Β)(ω,τ);第二分量提取部,根据噪音区的功率谱密度~φ Ν(ω,τ),提取由干 扰噪音派生的非稳定分量~ΦΝ(Α)(ω,τ);以及各种噪音应对型增益计算部,至少利用由从 目标区到来的声音派生的非稳定分量~Φ 5(Α)(ω,τ)、由不相干的噪音派生的稳定分量~ Φ5(Β)(ω,τ)、以及由干扰噪音派生的非稳定分量~φΝ(Α)(ω, τ),计算用于强调从目标区到 来的声音的非稳定分量的后置滤波器~G( ω,τ)。
[0054] 发明效果
[0055] 能够比以往提尚卩栄首抑制性能。
【附图说明】
[0056] 图1是表示后置滤波器型阵列的处理流程的图。
[0057] 图2是以往的后置滤波器估计部的模块图。
[0058] 图3是本发明所涉及的后置滤波器估计装置的例的模块图。
[0059] 图4是本发明所涉及的后置滤波器估计方法的例的模块图。
[0060] 图5是用于说明实验结果的图。
[00611图6是用于说明目标区以及噪音区的例的图。
[0062]图7是用于说明目标区的例的图。
[0063]图8是用于说明增益成形的例的图。
【具体实施方式】
[0064]在以下说明的信号处理装置以及方法中,通过将LPSD法扩展,从而对各种噪音环 境稳健地估计后置滤波器。具体来说,按噪音的每个种类进行分割而估计功率谱密度,从而 减少目标音的功率与其他噪音的功率之比的估计误差。
[0065]图3表示本发明的一实施方式所涉及的信号处理装置即后置滤波器估计部1的例 的模块图。
[0066]如图3所示,信号处理装置例如具有局部PSD估计部11、目标区/噪音区PSD估计部 12、第一分量提取部14、第二分量提取部15、各种噪音应对型增益计算部16、时间频率平均 化部17、以及增益成形部18。
[0067] 例如,图4表示通过该信号处理装置实现的信号处理的各步骤。
[0068]以下,说明信号处理装置以及方法的实施方式的细节。另外,关于基本信号处理的 框架、语言的定义等,与在【背景技术】的栏中记载的一样。从而,省略这些重复说明。
[0069]〈局部PSD估计部11>
[0070] 局部PSD估计部11与现有的局部PSD估计部11 一样。
[0071]即,局部PSD估计部11基于根据由构成话筒阵列的Μ个话筒接收的信号获得的频域 的观测信号1(?,1)(!11=1,2,~,1〇,估计目标区以及噪音区各自的局部功率谱密度~〇5 (ω,τ)(步骤S1)。ω是频率,τ是帧的索引。Μ是2以上的整数。例如,将Μ设为2至4左右。也可 以将Μ设为100左右。
[0072]所估计的局部功率谱密度~Φ5(ω,τ)被输出到目标区/噪音区PSD估计部12。
[0073]估计局所功率谱密度的具体的处理例与在【背景技术】栏中记载的一样,因此这里省 略说明。
[0074]另外,设波束成形滤波器wu( ω )以及灵敏度|Du,k( ω ) |2在局部PSD估计部11的处理 之前预先设定。此外,在目标区的方向在一定程度上变化的情况下,局部PSD估计部11也可 以预先准备多个滤波器组,选择采用最大的功率的滤波器。
[0075]另外,局部PSD估计部11并非基于通过波束成形获得的Yu( co,T)(u = 0,lr",L), 而是基于由在各区的方向具有指向性的各一个话筒接收到的Yu(?,τ)(ιι = 0,1,···,υ而估 计局部功率谱密度~Φ5(ω,τ)。
[0076]〈目标区/噪音区PSD估计部12>
[0077]目标区/噪音区PSD估计部12与以往的目标区/噪音区PSD估计部12同样。
[0078] 即,目标区/噪音区PSD估计部12基于所估计的局部功率谱密度,估计目标区的功 率谱密度~Φ5(ω,τ)以及噪音区的功率谱密度~φ Ν(ω,τ)(步骤S2)。
[0079] 所估计的目标区的功率谱密度~ φ5( ω,τ)被输出到第一分量提取部14。所估计的 噪音区的功率谱密度~ Φν( ω,τ)被输出到第二分量提取部15。
[0080] 关于估计目标区的功率谱密度~φ5(ω,τ)以及噪音区的功率谱密度~φΝ(ω,τ)的 具体的处理例,与在【背景技术】栏中记载的同样,因此这里省略说明。
[0081 ]〈第一分量提取部14>
[0082] 例如在通过式(9)定义的~Φ5(ω,τ)中,包含由从目标区接收到的声音派生的非 稳定分量~Φ5 (Α)(ω,τ)以及由不相干的噪音派生的稳定分量·'巾,)(〇,〇。这里,稳定分量 是时间上变化少的分量,非稳定分量是时间上变化多的分量。
[0083] 这里,噪音有干扰噪音和不相干的噪音两种噪音。干扰噪音是从在噪音区配置的 噪音声源发出的噪音。不相干的噪音并非从目标区和噪音区发出的,而是从这些区以外的 场所发出,是稳定存在的噪音。
[0084]因此,第一分量提取部14根据目标区的功率谱密度~Φ5(ω,τ),通过平滑处理,提 取由从目标区到来的声音派生的非稳定分量~Φ5(Α)(ω,τ)以及由不相干的噪音派生的稳 定分量~φ5(Β)(ω,τ)(步骤S3)。例如,平滑处理通过式(11)以及式(12)那样的指数移动平 均处理、时间平均处理或加权平均处理实现。
[0085]由从所提取的目标区到来的声音派生的非稳定分量~φ5(Α)(ω,τ)以及由不相干 的噪音派生的稳定分量~ Φ s(B)( ω,τ)被输出到各种噪音应对型增益计算部16。
[0086] 例如,第一分量提取部14如式(11)以及式(12)那样,通过进行指数移动平均处理, 根据 ~Φ5(ω,τ)计算 ~φ5(Β)(ω,τ)。
[0087]【数10】
[0090] 在此,as是平滑系数,是规定的正实数。例如,设0〈<^〈1。此外,可以设为(^ =帧的时 间长/时间常数,从而将as设定为使时间常数成为150ms左右。TS是特定区间的帧的索引的 集合。例如,设定为使特定区间成为3至4秒左右。min是输出最小值的函数。
[0091] 如此,~Φ5(Β)(ω,τ)是例如通过式(11)以及式(12)对~φ 5(ω,τ)进行了平滑的分 量。更具体来说,~Φ5(Β)(ω,τ)是例如通过式(11)对~φ 5(ω,τ)进行了平滑的值在规定的时 间区间中的最小值。
[0092] 然后,第一分量提取部14如式(13)那样,从~Φ5(ω,τ)减去~φ5(Β)(ω,τ)从而计算 ~ φ5⑷(ω,τ)。
[0093] 【数11】
[0095] 在此,&( ω )是权重系数,是规定的正实数。β5( ω )例如被设定为1至3左右的实数。
[0096] 如此,<i>s(A)( ω,τ)是从 ~ (J)S( ω,τ)去除了 ~ (J)S(B)( ω,τ)的分量。
[0097] 另外,~Φ5(Α)(ω,τ)也可以以满足、^(?,1)_的条件的方式被进行向下取整 处理(Flooring processing)。该向下取整处理例如由第一分量提取部14进行。
[0098] 〈第二分量提取部15>
[0099] 例如通过式(10)定义的~φΝ(ω,τ)中,包含由干扰噪音派生的非稳定分量~φΝ(Α) (ω,τ)以及由不相干的噪音派生的稳定分量~ φ ν(β)( ω,τ)。
[0100] 因此,第二分量提取部15根据噪音区的功率谱密度~ΦΝ(ω,τ),通过平滑处理,提 取由干扰噪音派生的非稳定分量~ Φ ν(Α) ( ω,τ)以及由不相干的噪音派生的稳定分量~ φ ν(β) (ω,τ)(步骤S4)。例如,平滑处理通过如式(14)以及式(15)那样的指数移动平均处理、时间 平均处理或加权平均处理实现。
[0101] 由提取的干扰噪音派生的非稳定分量~φΝ(Α)(ω,τ)以及由不相干的噪音派生的 稳定分量~Φ Ν(Β)(ω,τ)被输出到各种噪音应对型增益计算部16。
[0102] 例如,第二分量提取部15通过如式(14)以及式(15)那样进行指数移动平均处理, 根据 ~ΦΝ(ω,τ)计算 ~φΝ⑶(ω,τ)。
[0103] 【数I2】
[0106]这里,αΝ是平滑系数,是规定的正实数。例如,设〇〈<^〈1。此外,也可以设为如=帧的 时间长/时间常数,从而将αΝ设定为时间常数成为150ms左右。ΤΝ是特定区间的帧的索引的 集合。例如,被设定为特定区间成为3至4秒左右。
[0107] 如此,~ΦΝ(Β)(ω,τ)是例如通过式(14)以及式(15)对~ΦΝ(ω,τ)进行了平滑的分 量。更具体来说,~ Φν(Β)( ω,τ)是例如通过式(14)对~ Φν( ω,τ)进行了平滑的值在规定的时 间区间中的最小值。
[0108]然后,第二分量提取部15通过如式(16)那样从~φΝ(ω,τ)减去、^(?,1),从而 计算~ φΝ(Α)( ω,τ)。
[0109]【数13】
[0111] 在此,βΝ( ω )是权重系数,是规定的正实数。βΝ( ω )被设定为例如1至3左右的实数。
[0112] 如此,φΝ(Α)(ω,τ)是从 ~φΝ(ω,τ)去除了 ~φΝ⑶(ω,τ)的分量。
[0113] 另外,~ΦΝ(Α)(ω,τ)也可以以满足兰〇的条件的方式被进行向下取整 处理。该向下取整处理例如可以在第二分量提取部15中进行。
[0114] αΝ可以与as相同也可以不同。Τ ν可以与T s相同也可以不同。βΝ( ω )可以与β5( ω ) 相同也可以不同。
[0115] 另外,在各种噪音应对型增益计算部16中不利用~ΦΝ(Β)(ω,τ)的情况下,第二分 量提取部15也可以不求出~巾, )(《,1)。换言之,此时,第二分量提取部15也可以根据~(^ (ω,τ)仅求出~ Φν(Α)( ω,τ)。
[0116] 〈各种噪音应对型增益计算部16>
[0117] 各种噪音应对型计算部16至少利用由从目标区到来的声音派生的非稳定分量·' 小5(4)(?,1)、由不相干的噪音派生的稳定分量~(^%(?,1)、以及由干扰噪声派生的非稳 定分量~巾一 4)(?,1),计算用于强调从目标区到来的声音的非稳定分量的后置滤波器~6 (ω,τ)(步骤S5)。
[0118] 所计算的后置滤波器~G( ω,τ)被输出到时间频率平均部17。
[0119] 由于按照噪音的种类(换言之,不相干的噪音、相干的噪音这样的噪音种类)估计 了功率谱密度,因此各种噪音应对型增益计算部16例如计算通过以下的式(17)定义的后置 滤波器~G( ω,τ)。
[0120] 【数14】
[0122]当~ <i>s(B)( ω,τ)的值的特性(behavior)与~ Φν(β)( ω,τ)的值的特性之间存在差 异,不相干性的假定被破坏的情况下,各种噪音应对型增益计算部16也可以计算通过以下 的式(18)定义的后置滤波器~G( ω,τ)。
[0123]【数15】
[0125] 〈时间频率平均部17>
[0126] 时间频率平均部17针对后置滤波器~G(co,τ),进行向时间方向与频率方向的至 少一个方向的平滑处理(步骤S6)。
[0127] 被平滑处理后的后置滤波器~G( ω,τ)被输出到增益成形部18。
[0128] 当在时间方向上进行平滑的情况下,将以及^设为0以上的整数,从而时间频率 平均部17只要针对例如后置滤波器~G(co,τ)的时间方向附近的后置滤波器即~G(co,τ-τ〇),…~G( ω ,τ+η)进行加法平均即可。时间频率平均部17也可以对~G( ω,τ-τ〇),···~G (ω ,τ+η)进行加权求和。
[0129] 此外,当在频率方向上进行平滑的情况下,只要将ω Q以及ω :设为〇以上的实数,从 而时间频率平均部17只要针对例如后置滤波器~G( ω,τ)的频率方向附近的后置滤波器即 ~G( ω - ω 〇,τ),…~G( ω + ω 1,τ)进彳丁平均即可。时间频率平均部17也可以对~G( ω - ω 〇, τ),…~G( ω + ω^τ)进行加权求和。
[0130]〈增益成形部18>
[0131] 增益成形部18通过对进行了平滑处理的后置滤波器~6(ω,τ)进行增益成形,从 而生成后置滤波器6(ω,τ)(步骤S7)。增益成形部18例如生成通过以下的式(19)定义的后 置滤波器6(ω,τ)。
[0132] 【数16】
[0133] ??οχτ) = '/{〇{(0,Γ) - 0.5) + 0.5 …(19)
[0134] 在此,γ是权重系数,是正实数,例如,将γ设定为1至1.3左右即可。
[0135] 增益成形部18可以对后置滤波器G(co,τ)进行向下取整处理,以便满足A = G(co, τ) 5 1 j是0至0.3的实数,通常设定为0.1左右。若6(ω,τ)比1大则存在过强调的可能性,此 外,若G( ω,τ)过小则存在发生音乐噪声(Musical noise)的可能性。通过进行适当的向下 取整处理,能够防止发生该强调以及音乐噪声。
[0136] 考虑定义域以及值域是实数的函数f。函数f例如设为非降函数。增益成形意味着 求出将增益成形前的~6(ω,τ)输入到函数f时的输出值的操作。换言之,对函数f输入了~ G(?,τ)时的输出值为G(co,τ)。函数f的例是式(19)。式(19)的函数f是f(x)= γ (x-0.5) + 0.5〇
[0137] 利用图8说明其他函数f的其他例。在图8中,省略了索引。即,图8的G表示G( ω,τ), ~G表示~G(co,τ)。首先,在该例中,如图8(A)至图8(B)所示,改变了函数f的图表的坡度。 此外,如图8(B)至图8(C)所示,进行向下取整处理以便满足0 5G(c〇,τ) 5 1。通过由该图8 (C)的粗线表示的图表确定的函数是函数f的其他例。
[0138] 函数f的图表并不限定于图8(C)表示的图表。例如,在图8(C)中,函数f的图表由直 线构成,但函数f的图表也可以由曲线构成。例如,函数f也可以是对双曲正切函数施加了向 下取整处理的函数。
[0139] 根据该信号处理装置以及方法,能够对具有各种性质的噪音存在的环境稳健地设 计用于噪音抑制的后置滤波器。此外,通过具有实时性的处理,能够设计这样的后置滤波 器。
[0140][实施例与实验结果]
[0141]以LPSD法为现有方式,进行了用于验证所提方式的效果的实验。如图5所示,在混 响时间110mS(1.0kHZ)的室内配置了声源或阵列。在有目标音(男女发声)、K = 3个干扰噪音 (#1:男女发声、#2,3:音乐)、从室内的四个角落的扬声器发出白噪声而再现的背景噪音时, 利用Μ = 4个全向话筒进行了录音。观测时的SN比平均为-ldB。此外,将采样频率设为 16.0kHz,将FFT分析长度设为512pt,将FFT偏移长度设为256pt。
[0142] 在该条件下,根据通过以下的式定义的谱失真(SD),评价了噪音抑制性能。
[0143] 【数17】
[0145] 这里,Ψ和|Ψ分别表示帧的索引集合以及其总数。Ω与| Ω |分别表示频率区间的 索引以及其总数。SD的值越小噪音抑制性能越高。对男女发声的650句计算SD,以往方式中 是14.0,在所提方式中成为11.5,SD降低。尤其提高了对发声区间外的背景噪音的抑制效 果。
[0146] [变形例等]
[0147] 时间频率平均部17以及增益成形部18的处理为了抑制所谓的音乐噪声而进行。时 间频率平均部17以及增益成形部18的处理也可以不进行。
[0148] 基于指数移动平均处理的~ Φ S(B) ( ω,τ)以及~ φ S(A) ( ω,τ)的计算是第一分量提取 部14的处理的一例。第一分量提取部14也可以通过其他的处理而提取~Φ5 (Β)(ω,τ)以及~ WA)(w,t)。
[0149] 同样地,基于指数移动平均处理的~ΦΝ(Β)(ω,τ)以及~φΝω(ω,τ)的计算是第二 分量提取部15的处理的一例。第二分量提取部15也可以通过其他的处理而提取~ Φν(β)( ω, τ)以及 ~ Φν(Α)( ω,τ)。
[0150] 在上述信号处理装置以及方法中说明的处理不仅按照记载的顺序时序地执行,也 可以根据执行处理的装置的处理能力或需要,并列地或者单独执行。
[0151 ]此外,当通过计算机实现在信号处理装置中的各部的情况下,通过程序来记述信 号处理装置的各部应具有的功能的处理内容。并且,通过计算机来执行该程序,从而在计算 机上实现该各部。
[0152] 记述了该处理内容的程序能够预先记录在计算机中能够读取的记录介质中。作为 计算机中能够读取的记录介质,例如可以是磁记录装置、光盘、光磁记录介质、半导体存储 器等的任意的介质。
[0153] 此外,各处理部件通过在计算机上执行规定的程序而构成,也可以通过硬件实现 这些处理内容的至少一部分。
[0154] 除此之外,在不脱离本发明的宗旨的范围内当然能够适当进行变更。
[0155] 产业上的可利用性
[0156] 作为智能手机的命令输入,一般利用了声音识别。认为在车内或工厂内的噪音下, 通过免提操作设备或者远程进行通话的需要较高。
[0157]本发明能够例如在这样的情况下利用。
【主权项】
1. 一种信号处理装置,包含: 局部PSD估计部,基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域的 观测信号,估计规定的目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱 密度; 目标区/噪音区PSD估计部,将ω设为频率,将τ设为帧的索引,基于上述估计到的局部 功率谱密度,估计目标区的功率谱密度~ φ5( ω,τ)以及噪音区的功率谱密度~ φΝ( ω,τ); 第一分量提取部,根据上述目标区的功率谱密度~ Φ s( ω,τ),提取由从目标区到来的声 音派生的非稳定分量~Φ5(Α)(ω,τ)以及由不相干的噪音派生的稳定分量~φ5 (Β)(ω,τ); 第二分量提取部,根据上述噪音区的功率谱密度~ΦΝ(ω,τ),提取由干扰噪音派生的非 稳定分量~ΦΝ(Α)(ω,τ);以及 各种噪音应对型增益计算部,至少利用由从上述目标区到来的声音派生的非稳定分量 ~ Φ s(A)( ω,τ)、由上述不相干的噪音派生的稳定分量~ φ S(B)( ω,τ)、以及由上述干扰噪音派 生的非稳定分量~巾/4)(?,1),计算用于强调从上述目标区到来的声音的非稳定分量的后 置滤波器~6(ω,τ)。2. 如权利要求1所述的信号处理装置,其中, 由上述不相干的噪音派生的稳定分量~ Φ s(B)( ω,τ)是对上述目标区的功率谱密度~ Φ s (ω,τ)进行了平滑的分量, 由从上述目标区到来的声音派生的非稳定分量~ Φ s(A)( ω,τ)是从上述目标区的功率谱 密度~φ5(ω,τ)去除了由上述不相干的噪音派生的稳定分量~φ5(Β)(ω,τ)的分量, 由上述干扰噪音派生的非稳定分量~ Φν(Α)( ω,τ)是从上述噪音区的功率谱密度~ φΝ (ω,τ)去除了对上述噪音区的功率谱密度~φΝ(ω,τ)进行了平滑的分量的分量。3. 如权利要求1所述的信号处理装置,其中, 上述第二分量提取部从上述噪音区的功率谱密度~ Φν( ω,τ)进一步提取由干扰噪音派 生的非稳定分量~ΦΝ(Α)(ω,τ), 上述第一分量提取部将as设为规定的实数,将T s设为特定区间的帧的索引的集合,将 &( ω )设为规定的实数,计算通过以下的式定义的~ Φ S(A)( ω,τ)以及~ φ^( ω,τ),将所计 算的~Φ5(Α)(ω,τ)作为由从上述目标区到来的声音派生的非稳定分量~(})^(。,1),并将 所计算的~Φ 5(Β)(ω,τ)作为由上述不相干的噪音派生的稳定分量~φ5(Β)(ω,τ),上述第二分量提取部将αΝ设为规定的实数,将Tn设为特定区间的帧的索引的集合,将 βΝ( ω )设为规定的实数,计算通过以下的式定义的~ φΝ(Α)( ω,τ)以及~ φΝ(Β)( ω,τ),并将所 计算的~ Φν(Α)( ω,τ)作为由上述干扰噪音派生的非稳定分量~ φΝ(Α)( ω,τ),将~ φΝ(Β)( ω, τ)设为由上述不相干的噪音派生的稳定分量~ΦΝ(Β)(ω,τ), 【数19】上述各种噪音应对型增益计算部进一步利用由上述不相干的噪音派生的稳定分量~ φ Ν(Β)( ω,τ),计算用于强调从上述目标区到来的声音的非稳定分量的后置滤波器~G( ω, τ)〇4. 如权利要求1至3的任一项所述的信号处理装置,进一步包含: 时间频率平均部,针对上述后置滤波器~G(co,τ)进行向时间方向和频率方向的至少 一个方向的平滑处理;以及 增益成形部,针对进行了上述平滑处理的后置滤波器~G( ω,τ)进行增益成形。5. -种信号处理方法,包含: 局部PSD估计步骤,基于根据通过构成话筒阵列的M个话筒接收到的信号而获得的频域 的观测信号,估计目标区以及不同于上述目标区的至少一个噪音区各自的局部功率谱密 度; 目标区/噪音区PSD估计部,将ω设为频率,将τ设为帧的索引,基于上述估计到的局部 功率谱密度,估计目标区的功率谱密度~ φ5( ω,τ)以及噪音区的功率谱密度~ φΝ( ω,τ); 第一分量提取步骤,根据上述目标区的功率谱密度~ Φ s( ω,τ),提取由从目标区到来的 声音派生的非稳定分量~Φ5(Α)(ω,τ)以及由不相干的噪音派生的稳定分量~φ^(ω,τ); 第二分量提取步骤,根据上述噪音的功率谱密度~ Φν( ω,τ),提取由干扰噪音派生的非 稳定分量<^(4)(?,1:);以及 各种噪音应对型增益计算步骤,至少利用由从上述目标区到来的声音派生的非稳定分 量、^?(?,。、由上述不相干的噪音派生的稳定分量^一坟^^^八以及由上述干扰噪音 派生的非稳定分量~巾/4)(?,1),计算用于强调从上述目标区到来的声音的非稳定分量的 后置滤波器~G(co,T)。6. -种程序,使计算机起到权利要求1至4的任一项所述的信号处理装置的各部的作 用。
【文档编号】H04R1/40GK106031196SQ201580009993
【公开日】2016年10月12日
【申请日】2015年2月25日
【发明人】丹羽健太, 小林和则
【申请人】日本电信电话株式会社