一种移动源信号混叠的盲分离方法与流程

文档序号:18402148发布日期:2019-08-10 00:00阅读:502来源:国知局
一种移动源信号混叠的盲分离方法与流程

本发明涉及盲信号分离技术领域,具体涉及一种移动源信号混叠的盲分离方法。



背景技术:

在经典的鸡尾酒会问题中,由于聚会上的人处于移动状态,采集的混叠声音比较复杂。如何仅仅从接收到的混叠信号中恢复原始的信号,同时混叠通道又是未知的,这种源信号分离过程被称为“盲分离”。近年来,盲分离技术在语音信号处理中得到了充分的应用。但是,多数的研究工作局限于源信号是不移动的,也就是时不变的混叠信号,对于时变的混叠信号的研究相对较少。

现有技术中,文献n.q.k.duong,e.vincent,under-determinedreverberantaudiosourceseparationusingafull-rankspatialcovariancemodel,ieeetrans.audiospeechlang.process.18(7)(2010)1830–1840.提出一种full-rank算法对移动的源信号混叠盲分离具有一定的鲁棒性,但是效果一般,主要原因是当源信号移动时,伴随着混叠滤波器也跟着改变,导致混叠信号的盲分离过程更加困难。然而,在实际生活中,这样的混叠信号是普遍存在。因此,如何提出更加高效的算法去分离移动的源信号,仍然是盲分离领域研究的热点。



技术实现要素:

本发明的目的在于克服现有技术的缺点与不足,提供一种移动源信号混叠的盲分离方法,该方法对移动的源信号混叠盲分离具有更好的鲁棒性。

本发明的目的通过下述技术方案实现:

一种移动源信号混叠的盲分离方法,包括下述步骤:

步骤一,对移动的声音源信号混叠进行数学建模;假设利用j个固定的麦克风去接收i个移动的声音源信号,产生的混叠信号的数学表达式为:

其中,xj(t)是第j个麦克风接收到的混叠信号(j=1,...,j),hijt(τ)是时变的空间脉冲响应,τ是时间延迟;

为了在频域上进行源信号的分离,对上述公式(1)进行短时傅里叶变换,则时变的空间脉冲响应hijt(τ)的混叠性质随着时间的变化是缓慢的,因此可以认为在一个很短的时间窗内混叠过程是时不变;所以,时变的混叠模型公式(1)可以近似于频域上的混叠模型如下述公式(2)所示:

其中,xfn=[xfn1,...,xfnj]t表示混叠信号的短时傅里叶变换,sfn,i表示第i个源信号的单通道短时傅里叶变换,hfn,i=[hfn1,...,hfnj]t是频域上的空间脉冲响应;

步骤二,时间延迟τ的估计;给定一组麦克风m和n,它们在笛卡尔坐标系的位置分别为m和n,即m∈r3,n∈r3,k0指代两个麦克风的中间位置p到声音源信号方向上的单位向量,即k0∈r3,||k0||=1,d是两个麦克风之间的距离;同时定义p=[0,0,0]t是笛卡尔坐标系上的原点,θ指代仰角,且-90°≤θ≤90°;

利用向量乘积,可得:

其中,||n||表示向量n的范数,τn(k0)表示声音传输到麦克风n和位置p时产生的时间延迟,v是声音在空气中的传播速度,取v=340m/s;

根据上式可得:

因此,麦克风m和n之间的时间延迟为:

其中,m=1,...,j,n=1,...,j;

步骤三,混叠滤波器的重构;基于步骤二估计的每组麦克风之间的延迟τ(m,n),对应于频域上的相位差是:

hmn,i=exp(-jωfτ(m,n)),

其中,ωf=2π(f-1)fs/n,fs是样本频率,n是短时傅里叶变换窗长度;

步骤四,源信号的分离;首先,定义源信号的功率谱密度的非负矩阵分解如下:

其中,是正实值幅度谱图,wfk表示单个非负矩阵分解分量k的振幅谱,hkn表示每一帧n的分量增益;

然后,将上述定义的非负矩阵分解源信号模型代入混叠模型公式(2)中,可得:

选用平方frobenius范数作为代价函数,其表达式如下:

然后,利用期望最大化算法即em算法迭代更新模型参数hfn,wfk,hkn;具体细节如下:

e-step:自然统计的条件期望:

rc,fn=diag([wfkhkn]k),

m-step:更新模型参数的公式:

其中,而且cfn=[c1,fn,…,ck,fn]t∈ck表示成分分量系数的向量,每个分量ck,fn遵循适当的多元复高斯分布,即,ck,fn~nc(0,wfkhkn);

同时,利用维纳滤波法从混叠信号中分离源信号,得到频域上的估计源信号:

最后,利用傅里叶变换的逆运算对估计的源信号进行重构,得到时域上的源信号。

本发明与现有技术相比具有以下的有益效果:

本发明提出一种移动源信号混叠的盲分离方法,首先利用时间差估计算法定位源信号的位置,给出了严格的数学理论推导;然后对混叠滤波器进行重构,利用期望最大化算法更新模型参数,再利用维纳滤波法分离源信号;最后,通过仿真实验验证所提算法的有效性,同时对比一种鲁棒的移动源信号混叠盲分离算法(full-rank算法),证明本发明所提算法对移动的源信号混叠盲分离具有更好的鲁棒性;另外,本发明可以很好地定位源信号的位置,为混叠滤波器的重建奠定了理论支撑,有效地避免了排序歧义性问题,提高了源信号的分离性能,特别是在低混响时间环境下源信号的分离效果显著,同时对于较高的回响时间环境具有一定的鲁棒性。

附图说明

图1为本发明的流程图;

图2为本发明的源信号定位示意图;

图3为本发明的源信号移动轨迹示意图;

图4为本发明回响时间150ms的stoi评价结果示意图;

图5为本发明回响时间150ms的fwsegsnr评价结果示意图;

图6为本发明回响时间200ms的stoi评价结果示意图;

图7为本发明回响时间200ms的fwsegsnr评价结果结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

本发明提出了一种移动源信号混叠的盲分离方法,由于在现实生活中,采集的混叠信号具有一定的可变性,例如在鸡尾酒会问题中有些人是移动的,导致采集的混叠信号是由移动的声音源信号混叠而成的。因此,它的混叠滤波器是时变的,与传统的时不变混叠滤波器相比,源信号的分离过程将变得更加困难,本发明针对这种时变的混叠情况,提出一种鲁棒的盲分离算法。首先,对移动源信号混叠问题进行数学建模,给出理想的数学模型;然后,基于时间到达差算法定位源信号的位置,去估计时间延迟,再利用估计的时间延迟重建混叠滤波器;最后,利用维纳滤波法实时分离源信号。

如图1所示,一种移动源信号混叠的盲分离方法,包括下述步骤:

步骤一,对移动的声音源信号混叠进行数学建模;假设利用j个固定的麦克风去接收i个移动的声音源信号,产生的混叠信号的数学表达式为:

其中,xj(t)是第j个麦克风接收到的混叠信号(j=1,...,j),hijt(τ)是时变的空间脉冲响应,τ是时间延迟;本发明的目的是在混叠滤波器hijt(τ)未知的情况下,仅根据接收到的混叠信号xj(t),j=1,...,j,去估计源信号si(t),i=1,...,i。

为了在频域上进行源信号的分离,对上述公式(1)进行短时傅里叶变换,则时变的空间脉冲响应hijt(τ)的混叠性质随着时间的变化是缓慢的,因此可以认为在一个很短的时间窗内混叠过程是时不变;所以,时变的混叠模型公式(1)可以近似于频域上的混叠模型如下述公式(2)所示:

其中,xfn=[xfn1,...,xfnj]t表示混叠信号的短时傅里叶变换,sfn,i表示第i个源信号的单通道短时傅里叶变换,hfn,i=[hfn1,...,hfnj]t是频域上的空间脉冲响应;

步骤二,时间延迟τ的估计;如图2所示,给定一组麦克风m和n,它们在笛卡尔坐标系的位置分别为m和n,即m∈r3,n∈r3,k0指代两个麦克风的中间位置p到声音源信号方向上的单位向量,即k0∈r3,||k0||=1,d是两个麦克风之间的距离;同时定义p=[0,0,0]t是笛卡尔坐标系上的原点,θ指代仰角,且-90°≤θ≤90°;

如图2所示,利用向量乘积,可得:

其中,||n||表示向量n的范数,τn(k0)表示声音传输到麦克风n和位置p时产生的时间延迟,v是声音在空气中的传播速度,取v=340m/s;

根据上式可得:

因此,麦克风m和n之间的时间延迟为:

其中,m=1,...,j,n=1,...,j;

步骤三,混叠滤波器的重构;基于步骤二估计的每组麦克风之间的延迟τ(m,n),对应于频域上的相位差是:

hmn,i=exp(-jωfτ(m,n)),

其中,ωf=2π(f-1)fs/n,fs是样本频率,n是短时傅里叶变换窗长度;

步骤四,源信号的分离;首先,定义源信号的功率谱密度的非负矩阵分解如下:

其中,是正实值幅度谱图,wfk表示单个非负矩阵分解分量k的振幅谱,hkn表示每一帧n的分量增益;

然后,将上述定义的非负矩阵分解源信号模型代入混叠模型公式(2)中,可得:

选用平方frobenius范数作为代价函数,其表达式如下:

然后,利用期望最大化算法即em算法迭代更新模型参数hfn,wfk,hkn;具体细节如下:

e-step:自然统计的条件期望:

rc,fn=diag([wfkhkn]k),

m-step:更新模型参数的公式:

其中,而且cfn=[c1,fn,…,ck,fn]t∈ck表示成分分量系数的向量,每个分量ck,fn遵循适当的多元复高斯分布,即,ck,fn~nc(0,wfkhkn);

同时,利用维纳滤波法从混叠信号中分离源信号,得到频域上的估计源信号:

最后,利用傅里叶变换的逆运算对估计的源信号进行重构,得到时域上的源信号。

下面通过两组具体仿真实施例来说明本发明算法的可行性与优越性,所有的仿真实验是在ubuntu15.04,inter(r)xeon(r)cpue5-2630v3@2.40ghz,32.00gb,matlabr2016b环境下编程实现的。

实施例一:

在实施例一中,考虑由两个麦克风接收三个移动源信号的混叠情形,源信号的移动轨迹如图3所示,两个麦克风之间的距离为5厘米,回响时间为150毫秒;为了评价盲分离性能的好坏,选择短时目标清晰度测量(stoi)和频率加权分段信噪比(fwsegsnr)作为评价准则,实验结果如图4和图5所示,由此可见,所提算法得到的stoi和fwsegsnr值比full-rank算法得到的结果更好,说明本发明所提算法对移动源信号混叠的盲分离具有更好的鲁棒性。

实施例二:

在实施例二中,同样考虑由两个麦克风接收三个移动源信号的混叠情形,源信号的移动空间如图3所示,两个麦克风之间的距离为5厘米,选择回响时间为200毫秒;实验结果如图6和图7所示,从得到的stoi值和fwsegsnr值来看,所提算法分离结果仍然比full-rank算法得到的结果更好;此外,对比实施例一的结果,可以发现,由于回响时间的增加导致分离结果的下降。因此,针对相对较低的回响时间下,本发明所提算法对于移动源信号混叠盲分离具有更好的分离性能。

本发明提出一种移动源信号混叠的盲分离方法,首先利用时间差估计算法定位源信号的位置,给出了严格的数学理论推导;然后对混叠滤波器进行重构,利用期望最大化算法更新模型参数,再利用维纳滤波法分离源信号;最后,通过仿真实验验证所提算法的有效性,同时对比一种鲁棒的移动源信号混叠盲分离算法(full-rank算法),证明本发明所提算法对移动的源信号混叠盲分离具有更好的鲁棒性;另外,本发明可以很好地定位源信号的位置,为混叠滤波器的重建奠定了理论支撑,有效地避免了排序歧义性问题,提高了源信号的分离性能,特别是在低混响时间环境下源信号的分离效果显著,同时对于较高的回响时间环境具有一定的鲁棒性。

上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1