本发明属于声源定位,特别是涉及一种麦克风阵列和摄像头联合标定声源位置的方法。
背景技术:
1、在语音识别、语音增强、噪声监测等领域,需要在实时环境下对声源的位置进行准确检测,以实现对声源的定位和分离。目前,常用的声源位置检测方法是使用麦克风阵列,通过声音到达时间差(tdoa)或差分阵列技术(doa),来确定声源的位置,但当存在噪音或多个声源时,麦克风阵列的准确性会受到影响。
2、为了解决这些问题,使用摄像头来获取声源图像,进而实现声源位置检测的方法被提出,比如申请公布号为cn114089277a的中国发明专利中公开的三维声源声场重构方法及系统,其中维声源声场重构方法包括利用双目摄像头绘制目标声源的空间三维模型,同时利用麦克风阵列从一角度测量该目标声源的二维声场分布以得到该目标声源的二维声场能量分布图像,多次变化该角度,每次变化角度后重新执行步骤a-c,得到多个该点云坐标数据,利用多个该点云坐标数据重建该目标声源的三维声场模型,但在进行三维声场的构建过程中需要准确有效的数据进行,通过较为准确的数据才能在三维模型中更为准确的判定声源的位置,所以需要一种能提高联合标定数据采集精度和可靠性的一种麦克风阵列和摄像头联合标定声源位置的方法。
技术实现思路
1、针对上述问题,本发明提出了一种麦克风阵列和摄像头联合标定声源位置的方法,很好的解决了现有技术中当存在噪音或多个声源时,麦克风阵列的准确性会受到影响,同时在联合标定过程中数据采集精度和可靠性不够高容易造成判定声源位置不够准确的技术问题。
2、为了实现上述目的,本发明采用的技术方案如下:一种麦克风阵列和摄像头联合标定声源位置的方法,包括以下步骤:
3、s1.使用阵列麦克风获取声源在不同位置的声波信号,并通过波束形成技术生成多个声强热力图和麦克风坐标系,将声强热力图中的最高峰在麦克风坐标系中标记为声源位置;
4、s2.获取摄像头捕捉的图像并生成摄像头坐标系,并通过特征点提取算法提取图像中的特征点,并在摄像头坐标系中将特征点标记声源图像位置;
5、s3.将每个声源位置和声源图像位置进行匹配,并计算得到声源图像位置与声源位置最接近的特征点;
6、s4.重复步骤s1-s3,计算声源的重投影位置并通过优化函数得到最小化重投影误差,所述优化函数为:;
7、所述 r cm表示摄像头坐标系与麦克风坐标系的旋转矩阵, t cm表示从摄像头坐标系与麦克风坐标系的平移向量,n是已知声源数量, p i和 q i分别为第i个声源的摄像头坐标系和麦克风坐标系中的位置,与分别为 p i和 q i在当前摄像头和麦克风系统的旋转矩阵和平移矩阵下的重投影位置;
8、s5.通过迭代优化算法求解优化函数,直到优化结果收敛得到标定结果;
9、s6.对标定结果利用误差指标进行评估。
10、通过阵列麦克风得到的声强热力图的特征点集,结合摄像头捕捉的特征点进行联合标定,并通过优化函数得到最小化重投影误差提高标定的精度。
11、进一步的,所述步骤s1中的声源可以是外部声源或者系统内部声源,所述声源选取外观具有较好图像特征的声源,通过具有较好图像特征点的声源便于进行联合标定和特征点的提取。
12、进一步的,所述步骤s1中波束形成技术可以是最大信噪比波束形成技术、阵列波束形成技术处理技术,通过波束成型技术得到声源在麦克风阵列坐标系下的水平角和俯仰角。
13、进一步的,当采用最大信噪比波束形成技术时,通过收集麦克风阵列的信号,并对收集到的麦克风阵列的信号计算各麦克风通道的权值,然后对麦克风通道采集到的信号进行线性加权,通过对麦克风通道采集的信号进行线性加权增强其在复杂环境下的稳定性、精度和鲁棒性。
14、进一步的,所述迭代优化算法可以是levenberg-marquardt算法或其他适合的迭代优化算法,levenberg-marquardt算法会自适应地调整参数,比如调整步长,从而在保证算法收敛的同时,尽量减少迭代次数,提高计算效率,同时levenberg-marquardt算法对噪声比较不敏感,可以在噪声比较大的情况下得到较为准确的结果。
15、进一步的,所述误差指标可采用均方误差和平均绝对误差,对标定结果的精度进行评估,通过精度评估可验证联合标定的精度。
16、进一步的,所述特征点提取算法可以是sift算法、surf算法、orb算法或其他合适的特征提取方法,通过特征点提取算法提取特征点找到声源在图像中的像素位置。
17、与现有技术相比,本发明具有以下有益效果:
18、本发明通过麦克风阵列和摄像头的联合标定并通过优化函数得到最小化重投影误差,可以应用于视频会议系统,可以提高音视频信号的匹配度,从而提高视频会议系统的质量和稳定性;
19、本发明通过麦克风阵列和摄像头的联合标定并通过优化函数得到最小化重投影误差,可以应用于语音识别系统,可以提高语音信号的精度和可靠性,从而提高语音识别系统的性能;
20、本发明通过麦克风阵列和摄像头的联合标定并通过优化函数得到最小化重投影误差,可以应用于音频处理系统,可以提高音频信号的定位精度和干扰消除能力,从而提高音频处理系统的效果。
1.一种麦克风阵列和摄像头联合标定声源位置的方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的麦克风阵列和摄像头联合标定声源位置的方法,其特征在于:所述步骤s1中的声源可以是外部声源或者系统内部声源,所述声源选取外观具有较好图像特征的声源。
3.根据权利要求1所述的麦克风阵列和摄像头联合标定声源位置的方法,其特征在于:所述步骤s1中波束形成技术可以是最大信噪比波束形成技术、阵列波束形成技术。
4.根据权利要求3所述的麦克风阵列和摄像头联合标定声源位置的方法,其特征在于:当采用最大信噪比波束形成技术时,通过收集麦克风阵列的信号,并对收集到的麦克风阵列的信号计算各麦克风通道的权值,然后对麦克风通道采集到的信号进行线性加权。
5.根据权利要求1所述的麦克风阵列和摄像头联合标定声源位置的方法,其特征在于:所述迭代优化算法可以是levenberg-marquardt算法或其他适合的迭代优化算法。
6.根据权利要求1所述的麦克风阵列和摄像头联合标定声源位置的方法,其特征在于:所述误差指标可采用均方误差和平均绝对误差,对标定结果的精度进行评估。
7.根据权利要求1所述的麦克风阵列和摄像头联合标定声源位置的方法,其特征在于:所述特征点提取算法可以是sift算法、surf算法、orb算法或其他合适的特征提取方法。