一种分布式麦克风阵列的多声源定位及成像方法

文档序号:34765250发布日期:2023-07-13 07:40阅读:53来源:国知局
一种分布式麦克风阵列的多声源定位及成像方法

本发明属于信号处理领域,具体涉及一种复杂场景下的分布式麦克风阵列的多声源定位并显示声源位置的方法。


背景技术:

1、语音信号处理包括语音分离、语音识别、语音编解码等,而声源定位技术作为语音分离及语音识别过程的前端处理,是其中不可或缺的重要环节。

2、麦克风阵列由多个麦克风按照一定几何拓扑结构排列组成。由于麦克风阵列可通过对所接收的多路信号进行联合的空时处理,其不仅可以有效抑制噪声、混响等干扰,获得良好的音质,还能提供声源的空域信息。目前麦克风阵列已广泛应用于多媒体会议、车载系统以及平板电脑、电视等消费电子产品中。

3、虽然麦克风阵列具有明显的优势,但在实际应用中仍然受到一些限制。例如,麦克风阵列只能采集局部声场,当声源距离相对较远时,采集的信号的信噪比会很低,算法处理难度很大;受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。为了克服这些限制,基于分布式麦克风阵列的语音处理技术近年来得到广泛关注。

4、在实际复杂的声学场景中,由于噪声、室内混响、同时存在多个说话人等等情况,使得室内多声源定位问题变得复杂,需要根据真实的声学场景,对分簇算法进行优化提高声源定位精度和声像结合的方法生成声源位置。本发明将考虑多声源在存在噪声以及室内混响等环境下,用分布式麦克风阵列对多声源进行定位并显示声源的位置。

5、所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享。分布式麦克风阵列是麦克风阵列与分布式系统相结合的产物,在系统特点上与无线传感网络类似,同时又具有麦克风阵列语音拾取的功能,所以相比常规麦克风阵列,分布式麦克风阵列的应用更广泛、灵活。


技术实现思路

1、本发明提出了一种分布式麦克风阵列的多声源定位及成像方法,其主要目的在于解决分布式麦克风节点无法对同时发声的多声源进行有效分簇以及定位结果定位精度较差的问题。

2、本发明采用如下技术方案:

3、一种分布式麦克风阵列的多声源定位及成像方法,包括下列步骤:

4、s1:采用分簇算法,对不同分布式麦克风阵列节点进行分簇,将节点麦克风分为不同的簇,假设一个簇内只有一个主导声源,对簇内多个节点麦克风使用现有延时求和波束形成,得到声源的方位角和俯仰角;

5、s2:采用空间定位融合算法,将簇内不同节点得到的声源位置信息进行空间上的融合得到声源的三维位置信息;

6、s3:根据声源定位可视化模块在摄像头上显示出声源的位置。

7、语音信号是稀疏的,即使当多个说话人同时说话时,他们的主要时频能量成分也不太可能重叠。从统计学的角度来看,分布式节点聚类可以通过定义一个隐藏变量来实现,该变量可以识别每个时频块中混合物中的主导信号。

8、本发明方法,步骤s1所述的对不同分布式麦克风阵列节点进行分簇,参照图2,具体方法是:

9、假设在分布式麦克风节点布设的空间内同时有l个声源发出声音,但是单个节点接收到的语音信号仍然是由某个声源主导的信号,假设нl由声源l主导,分布式麦克风阵列节点的聚类相当于确定与聚类相关的后验概率,正确定义特征向量及其统计模型是实现准确聚类的最重要任务;

10、假设分布式麦克风节点n内所有麦克风的接收到信号之和为:

11、

12、其中,xn,l(k,t)表示第n个节点接收到声源l的信号,vn(k,t)为加性高斯白噪声,k为频率分量,t为帧数;

13、在实际计算中由节点内所有麦克风收到的信号进行堆叠得到yn(k,t),因为属于同一声源的后验概率序列在不同频率之间通常具有相似的模式,这是因为一个声源沿着时间轴有一个特定的活动模式,更具体地说,它有共同的沉默周期、开始和偏移;相反,对于不同的声源,后验概率序列具有不同的模式;且对音频信号的所有处理方法都是按每个频域进行的,因此,在下面列举公式的符号中省略了对频率的显式表示;假如空间中存在多个同时发声的声源,只考虑节点内能量是无法正确对麦克风节点进行分簇,需要同时考虑节点内能量和节点间能量比;

14、归一化节点内能量公式为:

15、节点间能量比公式为:

16、式中,y(t)为全局观测矢量,是所有节点信号的堆叠:y(t)=[y1(t)t…yn(t)t]t;

17、取节点间能量比的对数形式和节点内能量进行联合建模,节点间能量比的对数形式为:

18、εn(t)=-log(ρn(t))      (4)

19、为了求节点内能量和节点间能量比的对数形式与节点主导声源的关系,需要对其进行数学建模,根据节点内能量与节点间能量比的对数形式的直方图使用沃森分布和伽马分布来建模,εn(t)|нl~γ(ξn,lηn,),αn,l,kn,l为沃森分布的参数,mn为节点n的麦克风数量,ξn,lηn,l为伽马分布的参数;

20、为了估计给定的语音簇的节点内能量和节点间能量比的后验概率,假设节点内能量和节点间能量比的后验概率都是条件独立的,可以将节点n上第l个簇的后验概率分解为:

21、

22、p(нl|ψn(t))使用沃森分布的近似值表示,p(εn(t)|нl)使用伽马分布的近似值表示,通过考虑所有的对数能量比和节点内能量特征,整体模型参数为:

23、

24、其中ωl=p(нl);

25、使用em算法求沃森分布和伽马分布的参数,最终求得节点由声源主导的概率;

26、首先求似然函数:

27、

28、其中

29、为了求这些分布的参数,公式(7)分别对ωl求偏导等于0得到:

30、

31、αn,l是节点内能量协方差矩阵的最大特征值对应的特征向量,节点内能量协方差矩阵为:

32、

33、

34、其中m为所有节点麦克风总数;

35、公式(7)分别对ξn,l,ηn,l求偏导等于0得到:

36、

37、

38、其中为了方便表达,通过将得到节点内能量和节点间能量比带入公式(8),(9),(10),(11),(12)得到节点由声源主导的概率根据这些节点的概率将节点进行分簇,得到空间中不同声源主导的簇。

39、根据分簇的方法,将节点麦克风分为不同的簇,假设一个簇内只有一个主导声源,簇内节点麦克风使用延时求和波束形成得到声源的方位角和俯仰角,但是由于噪声和混响的影响,节点得到的信息总是有误差的,将簇内不同节点得到的声源位置信息进行空间上的融合得到声源的三维位置信息。

40、本发明方法,步骤s2所述的采用空间定位融合算法,得到声源的三维位置信息,具体是对步骤s1得到的簇内节点麦克风的位置和该节点麦克风得到的声源方位角和俯仰角,使用空间几何和坐标轴变换的方法求得三条直线之间两两最短距离和最短距离中心点的坐标,假设最短距离的长度分别为l1,l2,l3,最短距离中心坐标点的坐标分别为

41、(x1,y1,z1),(x2,y2,z3),(x3,y3,z3)

42、声源三维位置坐标为

43、

44、

45、

46、为实现将摄像头拍摄的图像与波束形成产生的声场声压图的数据进行融合,本发明方法,步骤s3所述根据声源定位可视化模块在摄像头上显示出声源的位置,参照图5,具体方法是:

47、首先,需要将波束形成计算的功率输出转化为色标图像中对应的颜色数据,得到由颜色表示的声压图像,与实物图的宽度和高度相对应,实现声压的可视化,这需要确立声压图与每个像素点之间的对应关系;

48、传声器输出的数据为pout(pa),则将其表示为db形式为

49、

50、式中,pref表示参考声压,其值为2×10-5pa,可以自定义显示的动态范围,参照图4,本发明采用自定义的64色显示,其中最大值显示为红色,与最大值的差等于动态范围的部分显示蓝色,在两者之间采用线性插值的方式确定颜色,与最大值插值大于动态范围的位置全部显示为白色;

51、其次,将摄像头采集到的图像转换成灰度格式然后对灰度图进行二值化处理将图像转换成黑白图像,对选取的感兴趣区域进行轮廓检测算法,阈值处理将图片中的物体区域转换成白色,所有的物体像素都具有相同的亮度值,从这些白色像素中通过算法获得物体的轮廓;

52、最后,使用opencv自带的一些轮廓检测算法得到图片轮廓,根据得到的三维声源位置信息寻找该位置附近最近的轮廓,并将其与波束图进行图片叠加得到更明显的声源位置显示。

53、由于声源定位算法中对于声源的假设是点源,属于理想情况下的假设。在实际的测量和成像过程中,声源是有大小的,而且不同的声源大小不一,基于空间搜索声源定位算法的结果也并不是完全准确,会有一定的误差,因此需要以初步假设的声源中心作为基准,向其四周扩展出一定距离初步来规划出一块声源可能存在的图像区域,又称为感兴趣区域。

54、本发明针对室内多声源同时发声导致声源分类效果以及定位能力不足的问题,提出了一种在室内复杂声场环境中,同时定位多个同时发声声源以及将声源位置信息显示的方法。该方法能够在多个声源同时发声的情况下对麦克风阵列节点进行分簇,基于节点内能量与节点间能量比的分簇方法和节点之间协作定位算法,实现复杂声场环境中多声源的定位以及成像,避免了传统分簇方法无法同时进行多个声源的区分的弊端。有效利用多传感信息,提高声源定位性能。并能在摄像头上显示声源位置信息,方便进行下一步的语音信号处理。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1