基于频域Bark子带的波束扫描方法及声源定向装置与流程

文档序号:23183682发布日期:2020-12-04 14:12阅读:240来源:国知局
基于频域Bark子带的波束扫描方法及声源定向装置与流程

本发明涉及一种基于频域bark子带的波束扫描方法及声源定向装置。



背景技术:

基于麦克风阵列的声源定向是语音信号处理中的一个重要问题,它在视频会议、智能监控、人机语音交互等领域有着广泛的应用。基于麦克风阵列的声源定向方法大致可以分为三类:基于到达时间差的定向方法、基于最大输出功率的可控波束形成方法和基于高分辨谱估计的定向方法。

由于语音信号属于宽带信号,传统基于高分辨谱估计的声源定向方法在处理宽带信号时大多采用子带波束扫描方法,根据均匀子带划分的方式,将语音信号按照频带连续的原则分割成若干个相同带宽间隔的子带,再分别对每个子带数据求取空间谱,然后对所有子带空间谱进行平均,通过利用平均空间谱搜索,估计最终宽带信号的波达方向。语音信号能量大多集中在低频段(小于3400hz),并不是在每个频段都一直包含语音成分,很大部分时间里,有些波段可能仅包含了噪声。传统子带波束扫描方法存在的不足之处在于,并未充分利用语音信号的频率特性,采用全频带定向,易受噪声波段影响,存在定向精度有限和计算复杂度高的问题,并且在低信噪比情况下算法极易发生失效。



技术实现要素:

本发明的发明目的在于提供一种基于频域bark子带的波束扫描方法及声源定向装置,有效提高声源定向精度,降低运算复杂程度。

基于同一发明构思,本发明具有两个独立的技术方案:

1、一种基于频域bark子带的波束扫描方法,其特征在于,包括以下步骤:

步骤1:麦克风阵列采集声音信号,计算获得阵列频域输出信号模型;

步骤2:根据采样频率和bark子带中心频率求取感兴趣频点;估计感兴趣频点处阵列频域输出信号的协方差矩阵;

步骤3:计算感兴趣频点对应的窄带空间谱;

步骤4:将所有感兴趣频点窄带空间谱进行平均,获得平均空间谱;

步骤5:在全角度区域进行平均空间谱搜索,获得声源方向。

进一步地,步骤1中,阵列频域输出信号模型通过如下方法计算,

第n个阵元时域输出为:

xn(t)=s(t+τn)+vn(t)

式中,vn(t)为第n个阵元的噪声,s(t)为声音信号,τn为信号到达第n个阵元对于到达参考原点的传播时延;

第n个阵元频域输出为:

式中,s(ωk)为频点ωk处信号的有限时间傅里叶变换,vn(ωk)为频点ωk处第n个阵元上噪声的有限时间傅里叶变换。

对于n元阵列,阵列频域输出信号矢量具有下述形式:

x(ωk)=[x1(ωk),…,xn(ωk)]t=a(ωk,θ)s(ωk)+v(ωk)

v(ωk)=[v1(ωk),…,vn(ωk)]t

式中,a(ωk,θ)为信号在频点ωk处的导向矢量,v(ωk)为频点ωk处噪声矢量。

进一步地,步骤2中,选取bark滤波器的前17个频带中心频率作为感兴趣频率,第一感兴趣频率设为60hz,除第一感兴趣频点采取向上取整,其余感兴趣频点采取向上向下取整。

进一步地,步骤2中,感兴趣频点ωk处阵列频域输出协方差矩阵rxx(ωk)通过如下方法估计,

选取阵列数据观测时间t0内snap帧语音数据,每帧点数wlen,利用离散傅里叶变换将snap帧数据分别变换至wlen个频点,然后对各帧对应于相同频点的频域数据进行平均,即:

式中,xp(k)为第p帧语音数据的离散傅里叶变换在频点ωk处的值。

进一步地,步骤3中,采用capon波束形成算法,对应于频点ωk的子带波束主瓣指向某一方向θ的输出功率不变,使总输出功率最小化,则子带波束形成的权矢量按下式进行设计:

s.t.wha(ωk,θ)=1

进一步地,步骤3中,对应于频点ωk的子带空间谱表达式为:

式中,

进一步地,步骤4中,用k表示感兴趣频点总数,则最终平均空间谱表达式为:

进一步地,步骤5中,在全角度区域进行平均空间谱搜索,平均空间谱峰值所在位置即声源方向。

2、一种基于麦克风阵列的声源定向装置,其特征在于,包括:

麦克风阵列,所述麦克风阵列用于采集声音信号;

平均空间谱计算单元,所述平均空间谱计算单元用于执行以下操作:计算获得阵列频域输出信号模型;根据采样频率和bark子带中心频率求取感兴趣频点;估计感兴趣频点处阵列频域输出信号的协方差矩阵;计算感兴趣频点对应的窄带空间谱;将所有感兴趣频点窄带空间谱进行平均,获得平均空间谱;

声源定向单元,所述声源定向单元用于在全角度区域进行平均空间谱搜索,获得声源方向;

显示单元,所述显示单元用于将声源方向识别结果进行显示。

进一步地,所述平均空间谱计算单元选取bark滤波器的前17个频带中心频率作为感兴趣频率,第一感兴趣频率设为60hz,除第一感兴趣频点采取向上取整,其余感兴趣频点采取向上向下取整。

本发明具有的有益效果:

本发明根据采样频率和bark子带中心频率求取感兴趣频点;估计感兴趣频点处阵列频域输出信号的协方差矩阵;计算感兴趣频点对应的窄带空间谱;将所有感兴趣频点窄带空间谱进行平均,获得平均空间谱;在全角度区域进行平均空间谱搜索,获得声源方向。本发明充分考虑语音信号的频谱特性,将语音能量集中的低频段作为感兴趣频段进行空间谱估计,降低高频噪声波段对定向性能的影响,有效提高声源定向精度;利用bark子带选取有效频点,充分利用人耳听觉的感知特点,bark子带对语音信号低频信息刻画较细致,使用较少bark子带计算代替传统全频带计算,在保证有效提高声源定向精度的前提下,有效降低运算复杂度。

本发明选取bark滤波器前17个频带中心频率作为感兴趣频率,考虑50hz通常会引入工频噪声,将第一感兴趣频率设置为60hz,为防止频点溢出,第一感兴趣频点采取向上取整,其余感兴趣频点采取向上向下取整,进一步保证声源定向精度。

附图说明

图1是本发明方法的流程图;

图2是均匀圆阵观测模型及远场信号传播示意图;

图3是输入信噪比为5db平均空间谱对比图;

图4是输入信噪比为20db平均空间谱对比图;

图5是分辨概率随输入信噪比变化图;

图6是角度估计均方根误差随输入信噪比变化图;

图7是本发明装置的原理框图。

具体实施方式

下面结合附图所示的实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。

实施例一:

基于频域bark子带的波束扫描方法

如图1所示,一种基于频域bark子带的波束扫描方法,包括如下步骤:

步骤1:麦克风阵列采集声音信号,计算获得阵列频域输出信号模型。

如图2所示,以均匀圆阵为例建立宽带信号处理数学模型。假设宽带信号(声音信号)s(t)从远场入射到一个由n个各向同性麦克风均匀分布的圆阵上,圆阵半径为r,令阵列中心(圆心)为参考原点;设入射信号俯仰角为方位角为θ0∈[0°,360°];各个麦克风阵元的噪声为空间白噪声,即各个噪声之间相互独立;噪声与信号之间相互独立。

声音信号s(t)的传播矢量为:

k0=-[cosθ0,sinθ0,0]t

用dn表示阵元n的位置矢量,则信号到达阵元n相对于到达参考原点的传播时延τn为:

式中,c为信号传播速度。

第n个阵元时域输出为:

xn(t)=s(t+τn)+vn(t)

式中,vn(t)为第n个阵元的噪声。

第n个阵元频域输出为:

式中,s(ωk)为频点ωk处信号的有限时间傅里叶变换,vn(ωk)为频点ωk处第n个阵元上噪声的有限时间傅里叶变换。

对于n元阵列,阵列频域输出信号矢量具有下述形式:

x(ωk)=[x1(ωk),…,xn(ωk)]t=a(ωk,θ)s(ωk)+v(ωk)

v(ωk)=[v1(ωk),…,vn(ωk)]t

式中,a(ωk,θ)为信号在频点ωk处的导向矢量,v(ωk)为频点ωk处噪声矢量。

步骤2:根据采样频率和bark子带中心频率求取感兴趣频点;估计感兴趣频点处阵列频域输出信号的协方差矩阵。

人耳在处理声音信号时,耳蜗具有与频谱分析仪类似的功能,耳蜗的基底膜对声音信号有频率选择作用。在20~22050hz范围内的频率可划分为25个频率群。频率群的划分相应于将基底膜划分成许多很小的部分,每部分对应一个频率群,这个频率群的频率范围也被称为不等带宽(bark)子带。人耳所听到的声音在同一频率群中,其能量互相叠加,构成了人耳听觉特性的临界带频率分布。bark子带划分充分利用人耳听觉的感知特点,对语音信号低频信息刻画较细致。bark滤波器的中心频率如下表所示:

选取bark滤波器前17个频带中心频率作为感兴趣频率,考虑50hz通常会引入工频噪声,将第一感兴趣频率设置为60hz,为防止频点溢出,第一感兴趣频点采取向上取整,其余感兴趣频点采取向上向下取整,计算公式如下:

式中,f为感兴趣频率,fs为信号采样率,wlen为离散傅里叶变换点数。

感兴趣频点ωk处阵列频域输出协方差矩阵rxx(ωk)通过如下方法估计,

选取阵列数据观测时间t0内snap帧语音数据,每帧点数wlen,利用离散傅里叶变换将snap帧数据分别变换至wlen个频点,然后对各帧对应于相同频点的频域数据进行平均,即:

式中,xp(k)为第p帧语音数据的离散傅里叶变换在频点ωk处的值。

步骤3:计算感兴趣频点对应的窄带空间谱。

空间谱采用capon空间谱或music空间谱。本实施例中采用capon空间谱,对应于频点ωk的子带波束主瓣指向方位角θ的输出功率不变,使总输出功率最小化,则子带波束形成的权矢量按下式进行设计:

s.t.wha(ωk,θ)=1

利用拉格朗日乘子法,可得上述问题的解:

对应于频点ωk的子带空间谱表达式为:

步骤4:将所有感兴趣频点窄带空间谱进行平均,获得平均空间谱。

用k表示感兴趣频点总数,则最终平均空间谱表达式为:

步骤5:在全角度区域进行平均空间谱搜索,获得声源方向。

利用capon平均空间谱并在全部角度区域上搜索其峰值,平均空间谱峰值所在位置即声源方向。

实施例二:

基于麦克风阵列的声源定向装置

如图7所示,一种基于麦克风阵列的声源定向装置,包括:

麦克风阵列,所述麦克风阵列用于采集声音信号;

平均空间谱计算单元,所述平均空间谱计算单元用于执行以下操作:计算获得阵列频域输出信号模型;根据采样频率和bark子带中心频率求取感兴趣频点;估计感兴趣频点处阵列频域输出信号的协方差矩阵;计算感兴趣频点对应的窄带空间谱;将所有感兴趣频点窄带空间谱进行平均,获得平均空间谱;

声源定向单元,所述声源定向单元用于在全角度区域进行平均空间谱搜索,获得声源方向;

显示单元,所述显示单元用于将声源方向识别结果进行显示。

所述平均空间谱计算单元选取bark滤波器的前17个频带中心频率作为感兴趣频率,第一感兴趣频率设为60hz,除第一感兴趣频点采取向上取整,其余感兴趣频点采取向上向下取整。

声源定向装置的声源定向工作原理(方法)同实施例一。

下面通过计算机仿真实验进一步说明本发明的有益效果,实验结果为30次独立重复实验的平均值。定向质量评价指标采用“分辨概率”和“角度估计均方根误差”。

分辨概率(resolutionprobability,rp):

假设信号估计角度和实际角度偏差的绝对值不超过10°,且空间谱中的最大谱峰值比可能的伪峰高1db以上,则认为信号被成功分辨,则分辨概率定义为:

式中,ts为所有实验中判为成功的次数,t为独立重复实验总次数。

角度估计均方根误差(rootmeansquareerror,rmse):

式中,θ为信号的真实入射角度,为信号的估计入射角度,t为独立重复实验总次数。

实验1:采用半径为6厘米的均匀圆阵,阵元个数为6,语音信号从远场入射,方位角为300°,真实语音数据在消声室采集,采样率为16khz;噪声为高斯白噪声;阵列数据观测时间t0内取16帧语音数据,每帧点数256。空间谱搜索步径设置为1°。图3和图4分别给出输入信噪比为5db和20db情况下本发明方法和传统方法平均空间谱对比图。实验结果展示,在所设定实验条件下,本发明方法能准确检测出信号;而传统方法伪峰较多,在低信噪比情况下几乎失效。

实验2:实验条件同实验1,图5给出两种方法分辨概率随输入信噪比变化图。实验结果展示,在所设定实验条件下,两种方法的分辨概率随输入信噪比的增加而增加,本发明方法的分辨力优于传统方法,在信噪比大于7.5db时,分辨概率接近于1;传统方法受伪峰影响较大,在低信噪比情况下分辨概率接近于0。

实验3:实验条件同实验1,图6给出两种方法角度估计均方根误差随输入信噪比变化图。实验结果展示,在所设定实验条件下,两种方法的角度估计均方根误差随输入信噪比的增加而减小,本发明方法的角度估计均方根误差控制在7°以内,当信噪比大于10db时,角度估计均方根误差小于2°。

实验4:实验条件同实验1。本实验比较两种方法的平均计算时间,仿真所用计算机的配置为:(1)cpu:intel(r)core(tm)i7-7700kcpu@4.20ghz;(2)内存:16.0gb;(3)系统:windows64位操作系统;(4)matlab版本:2016b。下表为两种方法不同空间谱搜索步径30次独立实验的平均计算时间,从下表可以看出,本发明方法的计算复杂度远低于传统方法。

两种方法计算时间比较(单位:秒)

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1