基于空间稀疏性的分布式麦克风阵列声源定位方法
【技术领域】
[0001] 本发明属于声源定位技术领域,具体涉及一种基于空间稀疏性的分布式麦克风阵 列声源定位方法。
【背景技术】
[0002] 基于麦克风阵列的声源定位作为定位领域的一个重要的研究方向,具有广泛的应 用前景。在民用领域中它被广泛用于电话会议系统、视频会议系统和可视电话系统中,通过 对发声者的定位,实现会议现场声源及外接摄像机的实时跟踪。在助听器中的麦克风阵列 被用作语音增强的预处理系统,通过检测声源的位置信息,将阵列指向感兴趣的声源方向, 从而抑制掉其它方向的干扰和噪声。在军事领域,可利用麦克风阵列声源定位技术实现狙 击手定位,地面或低空声目标的定位与追踪等。分布式麦克风阵列由于比传统的单阵列具 有更大的空间孔径,可以获得更好的声源定位性能,因此基于分布式麦克风阵列的声源定 位方法成为当前麦克风阵列定位领域研究的热点之一。
[0003] 与声纳和雷达系统等传统的阵列定位技术所处理的对象不同,语音信号为宽带信 号,具有短时平稳特性,且所处环境一般还具有高混响,噪声大等特点。目前,常用的声源定 位算法一般可划分为三类:一是基于波束成型的方法;二是基于高分辨率谱估计的方法; 三是基于时延估计的方法。其中基于波束成形方法通过对麦克风阵列接收信号进行滤波、 加权求和,直接控制麦克风阵列指向使波束具有最大输出功率的方向,可实现多声源定位。 但该类方法需要知道声源和噪声的先验知识,并存在对初值敏感,计算量大,不利于实时处 理等问题。基于高分辨率谱估计的方法在理论上可以对声源的方向进行有效估计,但该类 算法是针对窄带信号的,并且该类算法无法处理高度相关的信号,因此混响会给算法的定 位精度带来较大影响。基于时延估计的方法是利用广义互相关等时延估计算法求出信号到 不同麦克风的相对时延,并利用时延信息与麦克风阵列的空间位置关系估计声源位置。由 于这一类方法计算量较小,容易实现实时定位,因此研究得较多,但其同样易受混响因素的 影响,特别是用于多声源定位时,性能严重下降。
[0004] 近年来,压缩感知(Compressive Sensing, CS)理论的成熟和发展给传统的 定位方法带来了一场革命性的变革,在声源定位的研究上也揭开了崭新一页。在麦克 风阵列声源定位系统中,声源一般可认为是一个点源,同时声源的数目有限,因此声源 定位问题本质上是稀疏的。根据定位问题的天然稀疏性,Cevher等人根据声音信号的 传播模型将声源定位问题建模为稀疏逼近问题(Cevher V,Baraniuk R. Compressive sensing for sensor calibration. 5th IEEE Sensor Array and Multichannel Signal Processing Workshop. 2008. 175-178.),展不;了较好的定位性能D 文献(Jiang H,Mathews B,Wilford P.Sound localization using compressive sensing. Proceedings of the 1st International Conference on Sensor Networks. 2012. 159-166.)则利用压缩感知 方法实现了声源信号达到时间差(time difference of arrival,TD0A)的精确估计,可 以获得比广义互相关方式更高的估计精度。Simard等人利用基于格林函数的声源稀疏定 位模型进行目标识别和定位,获得了比传统波束成型方法更好的性能(Simard P, Antoni J. Acoustic source identification !Experimenting the I1Ininimization approach. Applied Acoustics,2013, 74(7) :974-986.) 这些工作都显示了压缩感知理论与技术强大 的生命力及其在声源定位研究中广阔的应用前景。
[0005] 然而,与传统麦克风阵列定位方法一样,基于CS理论的声源定位方法依然面临着 复杂声学环境的影响,导致其定位精度难有实质性提高。一是噪声因素的影响,由于目前稀 疏重构普遍采用1:范数代替I c范数进行稀疏约束,而在1 :范数约束模型中,目标函数会对 大系数施加更多的约束以保证整个代价函数的收敛性。在定位应用中,大系数往往对应于 声源目标,而小系数可能对应于噪声,这样常用的贪婪算法和凸优化算法等可能在重构过 程中削弱大系数的贡献,而对小系数没有施加过多约束,从而导致重构准确性下降,在低信 噪比时甚至会出现将噪声误判为定位目标。另一方面室内环境中普遍存在混响,而且墙壁、 天花板等对声音的反射、散射作用具有时变特性和不可预知性,使得实际信号往往与稀疏 定位模型之间存在较大误差,最终影响到定位性能。
【发明内容】
[0006] 本发明的目的是提供一种基于空间稀疏性的分布式麦克风阵列声源定位方法,该 方法能够有效提高定位精度,抗混响能力强,自适应能力强。
[0007] 本发明的目的是针对现有技术中存在的不足,从构造语音信号特征入手,提出一 种鲁棒的基于CS理论的声源定位方法。该方法首先通过两步离散余弦变换(Discrete Cosine Transform, DCT)方式进行信号特征提取,然后用该特征构建稀疏定位模型,以便综 合利用语音信号的短时和长时特性,并能降低模型维数。为了克服1:范数代替I c范数进行 稀疏约束时可能造成的约束错误问题,本发明提出一种近似Ic范数稀疏重构算法,通过构 造合理的1。范数近似函数,直接在1。范数意义下进行稀疏重构,可以有效提高噪声条件下 的重构精度。同时利用字典学习技术,根据接收信号不断调整冗余字典,使之能够克服实际 信号与稀疏模型之间的失配问题,使得稀疏重构结果能够精确反映出位置信息。
[0008] 本发明提供了如下的技术方案:
[0009] -种基于空间稀疏性的分布式麦克风阵列声源定位方法,包括如下步骤:
[0010] S1、定位系统建立:分布式麦克风定位系统由M个已知自身位置的麦克风和K个待 定位声源组成,采用分步格点划分方法将整个定位区域均匀划分为若干个格点;每个麦克 风分别接收声源发出的信号,并传送给定位中心;
[0011] S2、语音信号特征提取:定位中心将任一麦克风接收到的语音信号首先经过加窗 处理,把原来长度为PXl的语音信号向量r分解为J个长度为QXl的短帧,即:
[0013] 其中,A (i = 1,…,P)表不输入信号向量r的每一个分量,Z是一个维数为JXQ 的矩阵,每一行代表经过加窗处理后的1帧数据;
[0014] 接下来对这J帧信号分别进行一次DCT变换:
[0015]
[0016] 式中D(〇表示DCT变换,乏.(/=人表示Zl(i = 1,…,J)经过DCT变换后的结 果;对变化后的每一帧数据通过除以该帧的最大值实现归一化处理,然后对每一帧数据进 行求平均计算:
[0017]
[0018] 接下来考虑连续多帧信号的长时特性,为此对求平均后的向量s再进行一次DCT 变换,得到
[0019]
[0020] 向量I的长度仍为JX 1,也即基于两步DCT变换的特征提取方法将计算复杂度从 样本长度级降低到帧长数量级;
[0021] S3、建立稀疏定位模型:当定位中心接收到各麦克风采集的信号后,按S2分别进 行特征提取,构成新的测量向量其中[*] T表示转置计算,从而稀疏定位模 型可表示为:
[0022] y =Ox+y (5)
[0023] 其中,X为NXl的稀疏向量,?为一个MXN的矩阵,表示冗余字典,V为MXl的 向量,表不噪声干扰;①中的任一项科i,I < i < M, I < j < N,表不第i个麦克风收到声源 在第j个格点处发出声波信号按S2进行提取后获得的特征量;
[0024] 一旦将定位区域内划分为N个格点,则声源在空间上的位置可精确地用一个NX 1 的稀疏索引向量X表示,声源位置所对应格点处索引值为1,而其他格点对应索引值为0,即
[0025] X = [0, 1,…,0, 1,0...0]T (6)
[0026] 如此一来,定位问题就转变为依据接收信号判断稀疏向量X中非零值所在位置的 问题;
[0027] S4、模型失配修正:修正式为:
[0028] y = (? + r)x+v = Hx+v (7)
[0029] 其中v为MX I的向量,表示噪声干扰;H= (? + r)表示真实的冗余字典,其中r 是预先未知的;
[0030] 采用字典学习:
[0032] 其中 Il ? Il F表示