专利名称:一种基于子带信噪比估计的双耳声源定位方法
技术领域:
本发明属于声源定位技术领域,为一种基于子带信噪比估计的双耳声源定位方法。
背景技术:
声源定位技术作为一门新兴的边缘交叉学科,可以帮助传递和识别可视信息,增加三维仿真环境的逼真度。目前主要定位算法有多麦克风阵列的声源定位算法和基于双通路的声源定位算法。多麦克风阵列的声源定位算法存在计算量大、麦克风阵列尺寸大,并且算法受混响等因素干扰大等问题。基于双通路声信号的声源定位方法模拟人耳的听觉特征,可以实现较为准确的声源定位。最具有代表性的是基于互相关的耳间时间差ITDdnteraural Time Difference)估计,然而对于含噪信号,基于互相关的ITD估计的定位性能严重下降。
发明内容
本发明要解决的问题是目前的多麦克风阵列的声源定位算法存在计算量大、麦克风阵列尺寸大,并且算法受混响等因素干扰大等问题,现有基于双通路声信号的声源定位方法对于含噪信号的定位性能不足。本发明的技术方案为一种基于子带信噪比估计的双耳声源定位方法,先进行数据训练,训练数据为方位已知的声信号,经过特征提取,估计各方位声信号的耳间时间差ITD参数,将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ模型的参数,建立方位映射模型;实际声源定位时,输入双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,估计各子带信噪比,将各子带信噪比与设定的信噪比阈值进行比较,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数,根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,基于欧氏距离测度,输出方位。具体步骤包括1)数据训练11)使用KEMAR小耳廓水平面右侧37个方位,S卩θ = 0° 180°的头相关脉冲响应HMR数据,与白噪声卷积生成方位已知的虚拟声;12)对步骤11)所得虚拟声进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;13)将步骤1 所述的平稳的单帧信号进行端点检测,获得有效的单帧信号;14)计算各单帧信号进行耳间时间差ITD特征参数,得到ITD训练样本;15)根据步骤14)所得ITD训练样本,将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数,建立方位映射模型;2)对待定位声源定位的定位步骤为21)将采集的声信号进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;22)将步骤21)所得单帧信号进行端点检测,获得有效的单帧信号;23)将步骤2 所得有效的单帧信号进行FFT变换,划分为若干子带,计算估计各子带的信噪比,所述子带采用平均划分规则,划分为7-13个子带;24)将各子带信噪比与设定的信噪比阈值进行比较,将低于信噪比阈值的子带幅度设为0,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数;25)根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,根据欧氏距离测度,输出方位信息。与现有双通路声信号定位技术相比,本发明提出的方法能明显提高噪声下声源定位的性能,在信噪比为OdB时,本发明的定位正确率达到89%,原有方法定位正确率仅为63 %,信噪比IOdB时,本发明声源定位正确率可以达到94%,原有方法定位正确率为82 %。
图1为本发明声源定位的空间坐标系统示意图。图2为本发明定位系统框图。
具体实施例方式本发明先进行数据训练,训练数据为方位已知的声信号,经过特征提取,估计各方位声信号的耳间时间差ITD参数,将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ(VeCtor Quantization)模型的参数,建立方位映射模型;实际声源定位时,输入双通路声信号,输入声信号先经过频域变换,即快速傅里叶变换FFT (FastFourier Transform),在频域划分若干子带,估计各子带信噪比,将各子带信噪比与设定的信噪比阈值进行比较,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数,根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,基于欧氏距离测度,输出方位。图1为本发明声源定位的空间坐标系统示意图,在本发明中,声源位置由坐标(r, φ, 唯一确定。其中,0 ^r < +①为声源与原点的距离;仰角-90°,S+90°为方向矢量与水平面的夹角力=-90°、0°和+90°分别表示正下方、水平面和正上方;方向角0° ( θ< 360°为方向矢量在水平面的投影与中垂面的夹角。水平面上,θ =0°表示正前方,沿顺时针方向θ =90°、180°和270°分别表示正右、正后和正左方。本发明方法包括数据训练和声源定位两大步1)数据训练11)使用KEMAR小耳廓水平面右侧37个方位,S卩θ = 0° 180°的头相关脉冲响应HMR数据,与白噪声卷积生成方位已知的虚拟声;12)对步骤11)所得虚拟声进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;13)将步骤1 所述的平稳的单帧信号进行端点检测,获得有效的单帧信号;14)计算各单帧信号进行耳间时间差ITD特征参数,得到ITD训练样本;15)根据步骤14)所得ITD训练样本,将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数,建立方位映射模型;2)对待定位声源定位的定位步骤为21)将采集的声信号进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;22)将步骤21)所得单帧信号进行端点检测,获得有效的单帧信号;23)将步骤2 所得有效的单帧信号进行FFT变换,划分为若干子带,计算估计各子带的信噪比,所述子带采用平均划分规则,划分为7-13个子带;24)将各子带信噪比与设定的信噪比阈值进行比较,将低于信噪比阈值的子带幅度设为0,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数;25)根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,根据欧氏距离测度,输出方位信息。下面对应本发明的实施步骤,结合附图对本发明技术方案的具体实施进行详细说明图2给出了基于信噪比估计的双通路声信号的声源定位的实现框图,HRTF(Head-Response Transfer Function)为头相关传递函数,与白噪声卷积,产生用于训练的方位性虚拟声信号。图中分别对训练和测试阶段声信号的处理流程进行了标注,下面具体介绍各模块的功能和实现方案。1、预处理模块,对应步骤1 和21)中所述的预处理由于采集设备采集到的声信号中可能夹杂着很多电子噪声和背景噪声,为了抑制噪声影响到后续信号的分析,需要进行预处理;本方法的预处理包括幅度归一化、预加重、分帧及加窗。本发明采取帧长为30ms,帧移为10ms。预加重采用一阶数字滤波器H(z) = l-μ ^,其中μ = 0. 97。本方法使用汉明窗对分帧后的语音信号进行加窗处理,加窗后的第η帧信号可以表示为=wH(m)x(nN+m)0 ^ m < N, N为一帧采样数据长度,为1323,
t ,
0<m<N其中, (m)=L V /」为汉明窗。2、端点检测模块,对应步骤13)和22)中所述端点检测端点检测的目的就是从一段接收声信号中找出有效信号的起始点和结束点,从而只对有效信号进行处理。准确的端点检测不仅可以减少数据存储量和处理时间,而且能排除无声段和噪声的干扰。本发明方法采用短时能量和过零率特征相结合,对单耳信号进行检测,采用短时能量和过零率特征相结合进行语音端点检测的方法为现有技术,本发明在这里进行简单介绍短时能量即一帧信号所具有的平均能量,计算公式为
N-IN-I^=ZKH2=ZKW
m=0k=0其中,m = 0,1,. . . N-I为经过预处理的第η帧采集声信号,Xn(k),k = 0,1,... N-I为对应的频域信号。短时能量的门限值可以设为固定值也可以使用多帧平均能量作为判决门限。短时过零率为一帧信号波形穿过零电平的次数占帧长的百分比,对于离散信号,
权利要求
1.一种基于子带信噪比估计的双耳声源定位方法,其特征是先进行数据训练,训练数据为方位已知的声信号,经过特征提取,估计各方位声信号的耳间时间差ITD参数,将各方位多帧声信号的ITD参数的均值作为该方位ITD参数的矢量量化VQ模型的参数,建立方位映射模型;实际声源定位时,输入双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,估计各子带信噪比,将各子带信噪比与设定的信噪比阈值进行比较,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数,根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,基于欧氏距离测度,输出方位。
2.根据权利要求1所述的一种基于子带信噪比估计的双耳声源定位方法,其特征是具体步骤包括1)数据训练11)使用KEMAR小耳廓水平面右侧37个方位,S卩θ= 0° 180°的头相关脉冲响应HMR数据,与白噪声卷积生成方位已知的虚拟声;12)对步骤11)所得虚拟声进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;13)将步骤1 所述的平稳的单帧信号进行端点检测,获得有效的单帧信号;14)计算各单帧信号进行耳间时间差ITD特征参数,得到ITD训练样本;15)根据步骤14)所得ITD训练样本,将各方位多帧声信号的ITD训练样本的均值作为对应方位ITD的矢量量化VQ模型的参数,建立方位映射模型;2)对待定位声源定位的定位步骤为21)将采集的声信号进行预处理,包括幅度归一化、预加重、分帧和加窗,对各方位的每一帧声信号获得平稳的单帧信号;22)将步骤21)所得单帧信号进行端点检测,获得有效的单帧信号;23)将步骤2 所得有效的单帧信号进行FFT变换,划分为若干子带,计算估计各子带的信噪比,所述子带采用平均划分规则,划分为7-13个子带;24)将各子带信噪比与设定的信噪比阈值进行比较,将低于信噪比阈值的子带幅度设为0,选择信噪比高于信噪比阈值的子带,计算子带ITD特征参数;25)根据子带ITD特征参数与数据训练建立的方位映射模型进行逐一匹配,根据欧氏距离测度,输出方位信息。
全文摘要
一种基于子带信噪比估计的双耳声源定位方法,为一种改进的声源定位方法,将各方位耳间时间差ITD(Interaural Time Difference)的均值作为声源方位的定位特征线索,建立方位映射模型;实际声源定位时,输入为双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,在各子带内进行信噪比估计,根据子带信噪比,选择相应子带的功率谱计算各帧的ITD参数,根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配,基于欧氏距离测度,输出方位。本发明方法提高了噪声环境下声源定位的性能。
文档编号G01S5/18GK102565759SQ201110448129
公开日2012年7月11日 申请日期2011年12月29日 优先权日2011年12月29日
发明者吴镇扬, 周琳, 周菲菲 申请人:东南大学