应用于双麦克风系统的语音增强方法

文档序号：2832191阅读：650来源：国知局

专利名称：应用于双麦克风系统的语音增强方法
应用于双麦克风系统的语音增强方法
技术领域：
本发明涉及一种语音增强方法，尤其涉及一种应用于双麦克风系统的语音增强的方法。
背景技术：
由于大量环境噪声的存在，手机等通讯设备的麦克风采集到的语音信号普遍信噪比不够高，特别是在街道汽车等高噪声环境中，需要提高音量才能使对方听清。所以需要通过语音增强的方法来提升输入语音的信噪比，改善通讯质量。然而传统的单通道语音增强方法降噪效果有限，并且会对语音造成较大失真。使用双麦克风阵列，可以引入语音与噪声信号的相位信息，提高噪声抑制的效果并减小语音的失真。

发明内容本发明要解决的技术问题是提供一种语音增强方法。为解决上述技术问题，本发明提供的技术方案为一种应用于双麦克风系统的语音增强方法，该双麦克风系统包括由第一麦克风和第二麦克风构成的麦克风阵列模块；用于接收该麦克风阵列模块发出的信号并控制该麦克风阵列的控制模块；用于接收控制模块发出的数据的处理模块；用于将处理模块输出的数据经过处理后输出的输出模块；该方法包括如下步骤步骤1.第一麦克风和第二麦克风分别接收到时域带噪语音信号(Si)，(S2)后，传送给控制模块，由控制模块对时域带噪语音信号(Si)，(S2)分别进行分帧、预加重处理、经短时傅里叶变换将时域带噪语音信号(Si)，(S2)别变换成频域带噪音信号(Xl)，(X2)；其中分帧时使相邻两帧的时域带噪信号之间有混叠部分；步骤2.由处理模块接收频域带噪语音信号(Xl)，(X2)，并分别得到频域带噪语音信号(XI)，(X2)自功率谱和频域带噪语音信号(XI)，(X2)的互功率谱，由处理模块根据得到的当前帧的先验信噪比值，得到当前帧频域带噪语音信号 (Xl)或(X2)的衰减增益；由处理模块用上述得到的衰减增益，乘以第一麦克风或第二麦克风频域带噪音信号的自功率谱，得到处理后的纯净语音估计信号的自功率谱；通过前一帧的衰减增益得到当前帧频域带噪音信号(XI)，(X2)的噪声互功率频谱；由处理模块通过得到的噪声互功率谱得到当前帧频域带噪音信号(XI)，(X2)的后验信噪比，并得到当前帧的先验信噪比值，输出给输出模块；步骤3.由输出模块将处理后的频域信号变换到时间域，进行去加重处理，变成输出信号。
5
本发明的有益效果在于，使用双麦克风阵列，计算双麦克风接收到信号的互功率谱，抑制非相关噪声，并通过从信号互功率谱中减去噪声互功率谱，以及先验信噪比估计值的计算，提高了对于相关噪声的衰减，性能优于现有单通道语音增强算法。

图1为本发明的语音增强方法应用的系统的结构框图；图2为本发明的语音增强算法的流程示意图。
具体实施方式
下面结合附图对本发明做进一步说明。一种应用于双麦克风系统的语音增强方法，参见图1，该双麦克风系统包括，由第一麦克风和第二麦克风构成的麦克风阵列模块；用于接收该麦克风阵列模块发出的信号并控制该麦克风阵列的控制模块；用于接收控制模块发出的数据的处理模块；用于将处理模块输出的数据经过处理后输出的输出模块；包括如下步骤步骤1.第一麦克风和第二麦克风分别接收到时域带噪语音信号S1，S2后，传送给控制模块，由控制模块对时域带噪语音信号Si，S2分别进行分帧、预加重处理、经短时傅里叶变换将时域带噪语音信号Si，S2分别变换成频域带噪音信号XI，X2 ；其中分帧时使相邻两帧的时域带噪信号之间有混叠部分；步骤2.由处理模块接收频域带噪语音信号X1，X2，并分别得到频域带噪语音信号 XI，X2自功率谱和频域带噪语音信号XI，X2的互功率谱，由处理模块根据得到的当前帧的先验信噪比值，得到当前帧频域带噪语音信号Xl 或X2的衰减增益；由处理模块用上述得到的衰减增益，乘以第一麦克风或第二麦克风频域带噪音信号的自功率谱，得到处理后的纯净语音估计信号的自功率谱；通过前一帧的衰减增益得到当前帧频域带噪音信号XI，X2的噪声互功率频谱；由处理模块通过得到的噪声互功率谱得到当前帧频域带噪音信号XI，X2的后验信噪比，并得到当前帧的先验信噪比值，输出给输出模块；步骤3.由输出模块将处理后的频域信号变换到时间域，进行去加重处理，变成输出信号。具体的，参见图2，本发明中的语音增强算法基本步骤如下1.对双麦克风接收到的带噪语音信号分别进行分帧，预加重处理，经短时傅里叶变换到频域；2.分别计算变换到频域后的两个带噪语音信号的自功率谱与互功率谱，并由前一帧信号的衰减增益得到估计的噪声互功率谱；3.通过前面得到的信号与噪声互功率谱计算当前帧信号的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值；4.根据得到的先验信噪比估计值，计算当前帧信号的衰减增益；5.用得到的衰减增益，对其中一路麦克风信号频谱进行处理；
6.将处理后的频域信号变换到时间域，进行去加重处理，变成输出信号。下面具体的实例介绍中，语音增强系统输入的噪语音信号的采样率为16kHZ，分辨率为16位。对两个麦克风接收到的时域带噪语音信号xl，x2进行分帧。是指将带噪语音信号以帧为单位等分成若干带噪信号单元。所述带噪信号单元由采样点组成，本发明中选取了 16kHz的采样频率，根据短时谱分析的需要，帧长一般设定成10 35ms之间，本实施方式以 16ms分帧，即一帧带噪信号单元设有256个采样点，自然地，任意一帧带噪信号单元具有一定的帧长，本发明中任意帧的帧长为256。为了防止相邻两帧的带噪信号单元间的块效应，在分帧时要使相邻两帧的带噪信号单元之间有一定的混叠部分，即，本帧数据中有D个数据为前一帧数据的部分数据，其中混叠部分描述如下Si (n) = Cli (m, D+n) 0 ^ η < L, i = 1,2其中Si表示输入带噪语音信号，i取1和2分别表示两路信号(Ii (m, n) = (Ii (m_l，L+n) 0 彡 η < D其中，Cli表示当前帧的256点采样信号，因为任意一帧的长度为256，重叠率为 75%，所以重叠部分的采样点个数D = 192。相邻帧的带噪信号单元的第一个采样点相隔的距离 L = 256-192 = 64。本发明相邻两帧的带噪信号单元之间可以具有50% 75%的重叠率。本实施方式选取相邻两帧的带噪信号单元之间具有75%的重叠率，即以本帧的前75% (192点)的带噪信号单元和前一帧后75% (192点)的带噪语音信号单元一致。分帧后的两路信号，分别经过同一个高通滤波器，作为预加重处理。由于语音信号中背景噪声在低频部分能量一般较大，所以使用所述高通滤波器可以衰减低频部分的分量，使增强效果更好。其形式如下Η(ζ)=1-αζ-1α 一般取值在0. 75-0. 95之间，这里α = 0. 9，可以取得较好的效果。由于语音信号是短时平稳的，所以对信号进行分帧处理是可行的，但分帧又会带来帧信号边界处的不连续造成的频率泄露。所以这里要进行短时傅里叶变换(STFT)。短时傅里叶变换可以理解为对帧信号先加窗再做傅里叶变换。加窗函数的目的就是为了在做短时傅里叶变换时，减少帧信号边界处的不连续造成的频率泄露。这里使用了一个长度等于帧长256点的汉明窗，它可以有效的降低吉布斯效应的震荡程度。汉明窗函数定义如下win (η) = {0. 54-0. 46cos (2* π *η/Μ) 0 彡 η 彡 Μ_10其余 η}则短时傅里叶变换如下XXf,m) =——V wm(n-m)xx,(m)e ‘' M0 < kl < M-I
MtjO其中，M = 256，为短时傅利叶变换的计算长度。m表示第m帧信号。i = 1，2表示
7两路信号。这样就将当前帧的带噪语音信号Si从时域变换到为频域信号Xi。接着使用如下公式计算两路带噪语音信号的自功率谱和互功率谱，同时考虑到帧与帧之间的连续性，对各个信号能量谱进行平滑其中，m表示当前帧的序号，f表示经过FFT变换后不同的频率点，λ χ = 0. 6为平滑因子。Pxixj表示经平滑后的信号的能量谱。当i = j = 1，表示麦克风1接收到信号的自功率谱；当i = j = 2，表示麦克风2接收到信号的自功率谱；当i = 1、j = 2，表示麦克风1与麦克风2接收到带噪语音信号的互功率谱。对当前帧噪声信号的互功率谱进行估计其中，入11 = 0.9为平滑因子，(1仏111-1)表示前一帧计算得到的衰减因子。接着，通过前面得到的带噪语音信号互功率谱与噪声信号互功率谱计算当前帧信号的后验信噪比估计，如下然后基于Ephraim和Malah的先验信噪比估计公式，计算当前帧的先验信噪比估
计值接下来，进行衰减增益因子的计算。这里基于前面计算得出的先验信噪比估计值，采取不同的策略。对于信噪比大的频点，可认为是语音信号，采用频谱相减的方法得到衰减因子，对于信噪比小的频点，认为是噪声信号，对其进行一定程度的衰减。本发明中选择SNRPHOT > 1. 5为判断标准，高于1. 5的认为是语音信号，低于1. 5可认为是噪声。具体的增益衰减因子计算公式如下，将麦克风1当前帧的带噪语音信号X1(Lm),乘以前面得到的相应频率点的衰减增益因子，得到的就是该频点的增强后的语音信号。
S(f,m) = q{f,m)xX,(f,m)0 < k < N-I其中，§(/，)为m帧第f个频点增强后的语音信号估计值。最后的时域变换及输出部分进行的操作有第一步逆快速傅里叶变换(FFT)，把频域的语音谱变换到时间域，得到增强后的时域语音信号。时域的变换用通用的逆离散傅利叶变换(IDFT)实现。其中，M = 256，为帧长。s为变换到时域后的全频带增强后的语音信号。第二步进行去加重处理。和前面的预加重处理相反，这里将信号通过一个低通滤波器，最大程度的还原原有的信号。滤波器的频响如下；这里的系数与前面预加重处理相对应，取α =0.9。第三步将增强后的语音信号的相邻帧的重叠部分进行相加操作。具体的重叠部分相加可以用如下的方法来表示。 L = 64为相邻的帧信号开始处的距离，M = 256，为帧长。S’代表完成相加操作后的最终输出信号。与相关技术相比较，本发明提出的双麦克风语音增强算法有效地利用了双麦克风接收到是相关的语音和非相关的噪声信号的假设，抑制了语音信号中非相关噪声的干扰，同时通过从信号互功率谱中减去噪声互功率谱，以及先验信噪比估计值的计算，提高了对于相关噪声的衰减。以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。
9
权利要求
一种应用于双麦克风系统的语音增强方法，该双麦克风系统包括由第一麦克风和第二麦克风构成的麦克风阵列模块；用于接收该麦克风阵列模块发出的信号并控制该麦克风阵列的控制模块；用于接收控制模块发出的数据的处理模块；用于将处理模块输出的数据经过处理后输出的输出模块；其特征在于包括如下步骤步骤1.第一麦克风和第二麦克风分别接收到时域带噪语音信号(S1)，(S2)后，传送给控制模块，由控制模块对时域带噪语音信号(S1)，(S2)分别进行分帧、预加重处理、经短时傅里叶变换将时域带噪语音信号(S1)，(S2)别变换成频域带噪音信号(X1)，(X2)；其中分帧时使相邻两帧的时域带噪信号之间有混叠部分；步骤2.由处理模块接收频域带噪语音信号(X1)，(X2)，并分别得到频域带噪语音信号(X1)，(X2)自功率谱和频域带噪语音信号(X1)，(X2)的互功率谱，由处理模块根据得到的当前帧的先验信噪比值，得到当前帧频域带噪语音信号(X1)或(X2)的衰减增益；由处理模块用上述得到的衰减增益，乘以第一麦克风或第二麦克风频域带噪音信号的自功率谱，得到处理后的纯净语音估计信号的自功率谱；通过前一帧的衰减增益得到当前帧频域带噪音信号(X1)，(X2)的噪声互功率频谱；由处理模块通过得到的噪声互功率谱得到当前帧频域带噪音信号(X1)，(X2)的后验信噪比，并得到当前帧的先验信噪比值，输出给输出模块；步骤3.由输出模块将处理后的频域信号变换到时间域，进行去加重处理，变成输出信号。
2.根据权利要求1所述的应用于双麦克风系统的语音增强方法，其特征在于步骤1 中，分帧时的帧长设定在10 35ms之间；所述预加重处理为将经过分帧的时域带噪语音信号(Si)，(S2)分别衰减低频部分的分量；相邻两帧的时域带噪信号之间有重叠部分，其重叠率为50% 75%。
3.根据权利要求2所述的应用于双麦克风系统的语音增强方法，其特征在于混叠部分描述如下Si (n) = Cli (m, D+n)0 ^ η < L, i = 1,2其中Si表示时域带噪语音信号，Cli (m, n) = Cli (m_l，L+n)0 彡 η < D其中，Cli表示当前帧的采样信号，D表示重叠部分的采样点个数；L表示相邻帧的时域带噪语音信号的第一个采样点相隔的距离，m表示当前帧数，η表示当前帧中的某一点数据。
4.根据权利要求2所述的应用于双麦克风系统的语音增强方法，其特征在于时域带噪语音信号(Si)，(S2)分别衰减低频部分的分量方法为Η(ζ) = 1-α ζ—1其中，α —般取值在0.75-0. 95之间，Η(ζ)代表传递函数，
5.根据权利要求1所述的应用于双麦克风系统的语音增强方法，其特征在于步骤1中，短时傅里叶变换过程中为减少帧信号边界处的不连续造成的频率泄露的方法为对帧信号先加窗，win (η) = {·0. 54-0. 46cos (2* π *η/Μ)0 ≤ η ≤ M-I·0其余η}win (η)代表所使用的汉明窗，M代表短时傅利叶变换的计算长度η表示其中某一数据点。短时傅里叶变换的方法为其中，Xi(Lm)代表变换到频域的两路信号；m表示第m帧信号；M代表做傅里叶变换的帧长度η代表其中某一时域数据点，f表示频域某一频率点；i取1或2。
6.根据权利要求1所述的应用于双麦克风系统的语音增强方法，其特征在于步骤2中，得到频域带噪音信号XI，X2自功率谱和频域带噪音信号XI，X2的互功率谱的方法为其中，m表示当前帧的序号，f表示经过短时傅利叶变换后不同的频率点，λ x = 0. 6为平滑因子；Pxi5u表示经平滑后的信号的能量谱^(f, m)代表变换到频域的两路信号；m表示第m 帧信号；X/(f，m)代表信号取共轭；当i = j = 1，表示第一麦克风接收到的频域带噪音信号Xl的自功率谱；当i = j = 2，表示第二麦克风接收到的频域带噪音信号X2信号的自功率谱；当i = 1、j = 2，表示第一麦克风与第二麦克风接收到频域带噪音信号XI，X2的互功率谱；得到当前帧噪音互功率频谱的方法为其中，入11 = 0.9为平滑因子，(1&，111-1)表示前一帧计算得到并储存的衰减增益因子， PN1N2(f，m)表示当前帧的互功率谱，m表示当前帧的序号，f表示不同的频率点；得到当前帧信号的后验信噪比的方法为其中SNRp。st(f，m)表示当前帧的后验信噪比，m表示当前帧的序号，f表示不同的频率点ο得到当前帧的先验信噪比的方法为其中S^^,w(/，m)表示当前帧的先验信噪比，m表示当前帧的序号，f表示不同的频率点，q(f，m_l)表示前一帧计算得到并储存的衰减增益因子，Pnin2 (f，m)表示当前帧的互功率谱，SNRpost(f, m)表示当前帧的后验信噪比，α是平滑因子，一般取值在0. 7 0. 9。衰减增益得到方法为其中q(f，m)表示衰减增益因子，表示当前帧的先验信噪比，m表示当前帧的序号，f表示不同的频率点，PNiNj(f，m)表示当前帧的自(互)功率谱，SNRp。st(f，m)表示当前帧的后验信噪比。步骤2中，将第一麦克风当前帧的带噪语音信号Xl (f，m)，乘以前一帧得到的相应频率点的衰减增益因子，得到的就是该频点的增强后的语音信号 S(J\ m) = q、f, m) xX,(/,w)0 ^ k ^ N-I其中，釘/，《)为m帧第f个频点增强后的语音信号估计值，q(f，m)表示衰减增益因子。
全文摘要
本发明提供一种应用于双麦克风系统的语音增强方法，该双麦克风系统包括由第一麦克风和第二麦克风构成的麦克风阵列模块；用于接收该麦克风阵列模块发出的信号并控制该麦克风阵列的控制模块；用于接收控制模块发出的数据的处理模块；用于将处理模块输出的数据经过处理后输出的输出模块；该方法包括如下步骤步骤1.第一麦克风和第二麦克风分别接收到时域带噪语音信号(S1)，(S2)后，传送给控制模块，由控制模块对时域带噪语音信号(S1)，(S2)分别进行分帧、预加重处理、经短时傅里叶变换将时域带噪语音信号(S1)，(S2)别变换成频域带噪音信号(X1)，(X2)。提高了对于相关噪声的衰减。
文档编号G10L21/02GK101916567SQ20091010982
公开日2010年12月15日申请日期2009年11月23日优先权日2009年11月23日
发明者叶利剑申请人:瑞声声学科技(深圳)有限公司;瑞声声学科技(常州)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶利剑
技术所有人：瑞声声学科技（深圳）有限公司;瑞声声学科技（常州）有限公司
我是此专利的发明人