本发明涉及语音识别领域,尤其涉及一种降低语音泄露的鲁棒阻塞矩阵方法。
背景技术:
基于麦克风阵列的语音增强技术已经广泛应用于通信、人机交互、语音识别系统等中,其中广义旁瓣消除(GSC)方法应用最广,这种方法易于实现且性能很好。其中GSC分成上下两个通路,上通路是固定波束模块(FBF)用于估计目标语音的参考信号,下通路是阻塞矩阵模块(BM)和消除模块(MC),用于消除固定波束中的残留的噪声,其中阻塞矩阵模块用于消除目标语音信号而得到噪声信号。
从诸多实践系统来看,最容易让GSC的性能下降的就是BM模块中的语音泄露,也就是BM没有将目标语音信号阻塞,导致与FBF中的语音信号相减而抵消掉泄露的语音信号。传统的BM设计常用自适应BM或者直接用差分矩阵。因为麦克风阵列系统的误差,或者目标方向的估计出现误差,那么差分矩阵性能将大打折扣,而自适应BM要受到自适应权值更新步长的影响,自适应的收敛性是一个比较大的问题。
技术实现要素:
本发明所要解决的技术问题是提供一种降低语音泄露的鲁棒阻塞矩阵方法,能大幅度的减少语音泄露情况。
为实现上述技术效果,本发明公开了一种降低语音泄露的鲁棒阻塞矩阵方法,包括步骤:
提供一声音信号;
将所述声音信号输入至广义旁瓣对消结构的固定波束模块和阻塞矩阵模块中,所述广义旁瓣对消结构具有并联的第一通路和第二通路,所述固定波束模块位于所述第一通路,所述阻塞矩阵模块位于所述第二通路;所述第二通路还设有消除模块,所述消除模块的输入与所述阻塞矩阵模块的输出相连,所述消除模块的输出与所述固定波束模块的输出相连;
利用所述固定波束模块从输入的所述声音信号中获取目标语音信号,并输出所述目标语音信号;
利用所述阻塞矩阵模块从输入的所述声音信号中消除目标语音信号,以得到噪声信号;
利用所述固定波束模块估计所述噪声信号中存在目标语音信号的先验概率;
所述阻塞矩阵模块根据所述先验概率更新所述噪声信号,消除所述噪声信号中存在的目标语音信号,得到更新后的噪声信号并输出更新后的所述噪声信号;
利用所述消除模块从所述固定波束模块输出的所述目标语音信号中消除所述阻塞矩阵模块输出的所述噪声信号,形成输出信号并予以输出。
本发明由于采用了以上技术方案,使其具有以下有益效果:在利用消除模块对固定波束模块输出的目标语音信号和阻塞矩阵模块输出的噪声信号进行对消,以消除目标语音信号中残留的噪声信号之前,预先对阻塞矩阵模块输出的噪声信号进行存在目标语音信号的概率先验,更新阻塞矩阵模块的阻塞矩阵参数,以消除噪声信号中遗漏的目标语音信号,增强阻塞矩阵模块的消除目标语音信号的功能,避免因阻塞矩阵模块没有将目标语音信号阻塞完全,导致其与固定波束模块中的目标语音信号相减而抵消掉泄露的目标语音信号,达到大幅度减少语音泄露的情况。
所述降低语音泄露的鲁棒阻塞矩阵方法进一步的改进在于,所述声音信号的语音双态模型为:
H0:X=N
H1:X=S+N (式一)
其中,H0状态表示只存在噪声的状态,N表示噪声信号,H1状态表示存在噪音信号和目标语音信号的状态,S为目标语音信号。
所述降低语音泄露的鲁棒阻塞矩阵方法进一步的改进在于,所述声音信号为麦克风输入信号,所述固定波束模块从输入的麦克风输入信号中获取目标语音信号并予以输出;所述固定波束模块的输出YFBF为:
其中,M是麦克风数目,xi是第i个麦克风输入信号,w是固定波束模块的权重,wi是第i个固定波束的权重。
所述降低语音泄露的鲁棒阻塞矩阵方法进一步的改进在于,采用延迟求和方法或最小旁瓣类方法计算得到所述固定波束模块的权重w。
所述降低语音泄露的鲁棒阻塞矩阵方法进一步的改进在于,所述阻塞矩阵模块从输入的所述麦克风输入信号中消除目标语音信号,以得到噪声信号并予以输出;所述阻塞矩阵模块的输出Z为:
Z=B*X (式三)
其中,Z=[z1z2…zN],是阻塞矩阵模块的输出信号;X=[x1x2…xM],是麦克风输入信号;B是阻塞矩阵模块的阻塞矩阵。
所述降低语音泄露的鲁棒阻塞矩阵方法进一步的改进在于,利用所述固定波束模块的输出YFBF中的条件先验概率估计出噪声信号Z中存在目标语音信号的先验概率,包括步骤:
用控制递归平均算法估计出YFBF中存在目标语音信号的概率P(H1|YFBF),以求出Z中存在目标语音信号的先验概率P(H1):
P(H1)k=λP(H1)k-1+(1-λ)P(H1|YFBF) (式四)
其中,
H1是语音存在状态,λ是平滑系数,k是帧数;
则Z中不存在目标语音信号的先验概率P(H0),由以下方程求得
P(H0)=1-P(H1)。 (式六)
所述降低语音泄露的鲁棒阻塞矩阵方法进一步的改进在于,所述阻塞矩阵模块根据所述先验概率更新所述噪声信号,消除所述噪声信号中存在的目标语音信号,得到更新后的噪声信号的过程,包括步骤:
步骤一:求解Z中存在目标语音信号的条件先验概率P(H1|Z)
a、求解后验信噪比γ
其中,是噪声信号的估计;
b、采用判决引导方法求解先验信噪比ε
其中,η是平滑系数,取值0.92,γold是前一帧的后验信噪比,GH1是H1状态下的语音增益,MAX是取大函数;
c、求解语音存在似然度GLR
其中,
d、求解条件先验概率P(H1|BM)
步骤二:修正信噪比和更新语音增益
a、利用先验概率P(H1)修正信噪比
其中,是修正后的后验信噪比,是修正后的先验信噪比;
b、更新语音增益GH1,
其中,
exp是指数运算符,e是自然常数,x是积分变量;
步骤三:估计动态噪声平滑系数
其中,α取值为0.92;
步骤四:估计噪声
其中,E是期望操作,采用如下方程估计:
其中,k是帧数,ε代表先验信噪比,P(H0|BM)=1-P(H1|BM);
步骤五:计算语音增益
采用最优修正的对数幅度谱估计方法估计更新后的语音增益Gain
其中,Gmin是语音不存在时的增益下限约束,Gmin取值为0.01,是在H1状态时候的语音增益,是在H0状态时候的语音增益;
步骤六:计算得到更新后的噪声信号Z′
Z′=Z*(1-Gain)。 (式十七)
附图说明
图1为本发明一种降低语音泄露的鲁棒阻塞矩阵方法的功能模块示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
语音增强技术的主要任务是抑制背景噪声和干扰,从而增强后续处理对于输入噪声的鲁棒性。在传统的单通道语音增强算法中,由于只有单路模拟信号输入,无任何参考信号,只能利用含噪语音信号在时域和频域的统计特性来抑制噪声、增强语音。但语音信号在时域和频域上往往都被淹没于噪声和干扰当中,难以准确与之分离,因此算法效果提升的空间相对较小。麦克风阵列的引入为语音增强技术打开了一个崭新的思路,它利用目标语音和干扰在空间位置上的差异,以及各个麦克风信号彼此之间的相关性,通过波束形成算法对来波方向上和语音分离的背景噪声和干扰进行抑制,从而增强语音,已逐渐成为语音增强领域研究的热点。
现有的波束形成算法中,采用广义旁瓣对消(Generalized Sidelobe Canceller,简称GSC)结构的自适应波束形成算法占有重要的地位。
下面结合附图及具体实施方式对本发明作进一步详细的说明。
请参阅图1所示,图1为本发明降低语音泄露的鲁棒阻塞矩阵方法的功能模块示意图,也是广义旁瓣对消结构的示意图。
广义旁瓣对消结构(GSC)分成上下两个通路:第一通路101和第二通路102,该第一通路101与该第二通路102相互并联,在图中,第一通路101位于上通路,第二通路102位于上通路。广义旁瓣对消结构中主要具有一固定波束模块(fixed beam fomer,简称FBF)11、一阻塞矩阵模块(Blocking Matrix,简称BM)12及一消除模块(Multiplc-input Canceller简称MC)13三个功能模块。其中,固定波束模块(FBF)11位于第一通路101,阻塞矩阵模块(BM)12和消除模块(MC)13位于第二通路102。固定波束模块(FBF)11的输入与阻塞矩阵模块(BM)12的输入相连,阻塞矩阵模块(BM)12的输出与消除模块(MC)13的输入相连,消除模块(MC)13的输出与固定波束模块(FBF)11的输出相连,且在消除模块(MC)13的输出与固定波束模块(FBF)11的输出的相交节点处进行“+/-”(与/或逻辑运算)。
其中,固定波束模块(FBF)用于估计目标语音的参考信号,FBF采用系数固定的滤波器对原始各通道信号进行滤波,并将滤波后的各路信号相加,从而对来波方向不同于目标语音信号的干扰和噪声进行抑制,实现目标语音信号的初次增强。
阻塞矩阵模块(BM)用于消除目标语音信号而得到噪声信号,BM以FBF输出作为参考信号,对各通道原始信号进行自适应滤波,目的是去除其中的目标语音成分,从而得到N路的噪声信号(N为麦克风的个数),该过程的自适应滤波器可采用CCAF(系数界定的自适应滤波器)。
最后,消除模块(MC)用于消除固定波束中的残留的噪声,MC利用上面这N路噪声信号,对FBF输出做进一步的自适应降噪处理,再次对目标语音信号进行增强,从而得到最终的输出,该过程的自适应滤波器可采用NCAF(范围界定的自适应滤波器)。
本发明针对目前广义旁瓣消除(GSC)方法中,由于其阻塞矩阵(BM)模块没有将目标语音信号完全阻塞,导致与其固定波束模块(FBF)中的目标语音信号相减而抵消掉泄露的目标语音信号的问题,本发明提供一种降低语音泄露的鲁棒阻塞矩阵方法,以达到大幅度地减少语音泄露问题,提升广义旁瓣消除方法的语音增强效果,满足更加优越、更高标准的通信、人机交互、语音识别系统等。
本发明降低语音泄露的鲁棒阻塞矩阵方法的具体实现方法如下:
S001:提供一声音信号,该声音信号为含有噪声的语音信号;
S002:将该声音信号输入至广义旁瓣对消结构的固定波束模块11(FBF)和阻塞矩阵模块12(BM)中,广义旁瓣对消结构具有并联的第一通路101和第二通路102,固定波束模块11位于第一通路101,阻塞矩阵模块12位于第二通路102;第二通路102还设有消除模块(MC)13,消除模块13的输入与阻塞矩阵模块12的输出相连,消除模块13的输出与固定波束模块11的输出相连;
S003:利用固定波束模块11从输入的声音信号中获取目标语音信号,并输出目标语音信号;
S004:利用阻塞矩阵模块12从输入的声音信号中消除目标语音信号,以得到噪声信号;
S004:利用固定波束模块11估计噪声信号中存在目标语音信号的先验概率;
S005:阻塞矩阵模块12根据先验概率更新噪声信号,消除噪声信号中存在的目标语音信号,得到更新后的噪声信号并输出更新后的噪声信号;
S006:利用消除模块13从固定波束模块11输出的目标语音信号中消除阻塞矩阵模块12输出的噪声信号,形成输出信号并予以输出。
下面以一麦克风输入信号作为声音信号为例,将该麦克风输入信号输入至广义旁瓣对消结构中,并采用本发明的鲁棒阻塞矩阵方法对该输入的麦克风输入信号进行语音增强,具体如下:
(一)输入麦克风输入信号;
该麦克风输入信号的语音双态模型为:
H0:X=N
H1:X=S+N (式一)
其中,H0状态表示只存在噪声的状态,N表示噪声信号,H1状态表示存在噪音信号和目标语音信号的状态,S为目标语音信号。
(二)固定波束模块11(FBF)从输入的麦克风输入信号中获取目标语音信号并予以输出;
固定波束模块(FBF)的输出YFBF为:
其中,M是麦克风数目,xi是第i个麦克风输入信号,w是固定波束模块的权重,wi是第i个固定波束的权重;固定波束模块的权重w可采用延迟求和方法或最小旁瓣类方法计算得到。
(三)阻塞矩阵模块(BM)从输入的麦克风输入信号中消除目标语音信号,以得到噪声信号并予以输出;
阻塞矩阵模块(BM)的输出Z为:
Z=B*X (式三)
其中,Z=[z1z2…zN],是阻塞矩阵模块的输出信号(噪声信号);X=[x1x2…xM],是麦克风输入信号;B是阻塞矩阵模块的阻塞矩阵,阻塞矩阵常用差分的方法求得。
(四)利用固定波束模块(FBF)的输出YFBF中的条件先验概率估计出阻塞矩阵模块(BM)的输出信号Z(噪声信号)中存在目标语音信号的先验概率P(H1),具体如下:
用控制递归平均算法估计出YFBF中存在目标语音信号的概率P(H1|YFBF),以求出Z中存在目标语音信号的先验概率P(H1):
P(H1)k=λP(H1)k-1+(1-λ)P(H1|YFBF) (式四)
其中,
H1是语音存在状态,λ是平滑系数,k是帧数;
控制递归平均算法可参阅“Israel Cohen Noise Spectrum Estimation in Adverse Environments:Improved Minima Controlled Recursive Averaging”——IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL.11,NO.5,SEPTEMBER 2003/Page466-475。文章中详细介绍了控制递归平均算法的运算原理。
此时,阻塞矩阵模块(BM)的输出信号Z(噪声信号)中不存在目标语音信号的先验概率P(H0),由以下方程求得
P(H0)=1-P(H1)。 (式六)
(五)阻塞矩阵模块(BM)根据固定波束模块(FBF)估计出的先验概率P(H1)更新阻塞矩阵模块(BM)输出的噪声信号,以消除噪声信号中仍存在的目标语音信号,得到更新后的噪声信号,具体过程如下:
步骤一:求解Z中存在目标语音信号的条件先验概率P(H1|Z)
a、求解后验信噪比γ
其中,是噪声信号的估计;
b、采用判决引导方法求解先验信噪比ε
其中,η是平滑系数,取值0.92,γold是前一帧的后验信噪比,GH1是H1状态下的语音增益,MAX是取大函数;
c、求解语音存在似然度GLR
其中,
exp是指数运输符。
d、求解条件先验概率P(H1|BM)
步骤二:修正信噪比和更新语音增益
a、利用先验概率P(H1)修正信噪比
其中,是修正后的后验信噪比,是修正后的先验信噪比;
b、更新语音增益GH1,
其中,
exp是指数运算符,e是自然常数,x是积分变量;
步骤三:估计动态噪声平滑系数
其中,α取值为0.92;
步骤四:估计噪声
其中,E是期望操作,采用如下方程估计:
其中,k是帧数,ε代表先验信噪比,P(H0|BM)=1-P(H1|BM);
步骤五:计算语音增益
采用最优修正的对数幅度谱估计(OM-LSA)方法估计更新后的语音增益Gain
其中,Gmin是语音不存在时的增益下限约束,Gmin取值为0.01(-20dB),-20dB=(10*log10(0.01))dB,dB为分贝的单位;是在H1状态时候的语音增益,是在H0状态时候的语音增益,但是为了防止衰减过多,通常将GH0改为Gmin作为H0时的增益下限约束
OM-LSA(Optimally-Modified Log Spectral Amplitude最优修正的对数幅度谱估计)方法可参阅“Irael Cohen,Baruch BerdugoSpeech enhancement for non-stationary noise environment”——J.A couSsot.c Am 87(2).February1990,1990Acoustical Society of America/Page820-857。文章中详细介绍了OM-LSA方法的实现原理。
步骤六:计算得到更新后的噪声信号Z′
Z′=Z*(1-Gain)。 (式十七)
采用上述方法,阻塞矩阵模块根据先验概率更新噪声信号,消除噪声信号中存在的目标语音信号,最后输出更新后的噪声信号。
(六)利用消除模块从固定波束模块输出的目标语音信号中消除阻塞矩阵模块输出的噪声信号,形成输出信号并予以输出。
本发明降低语音泄露的鲁棒阻塞矩阵方法通过在利用消除模块对固定波束模块输出的目标语音信号和阻塞矩阵模块输出的噪声信号进行对消,以消除目标语音信号中残留的噪声信号之前,预先对阻塞矩阵模块输出的噪声信号进行存在目标语音信号的概率先验,更新阻塞矩阵模块的阻塞矩阵参数,以消除噪声信号中遗漏的目标语音信号,增强阻塞矩阵模块的消除目标语音信号的功能,避免因阻塞矩阵模块没有将目标语音信号阻塞完全,导致其与固定波束模块中的目标语音信号相减而抵消掉泄露的目标语音信号,达到大幅度减少语音泄露的情况。
需要说明的是,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上所述仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案的范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。