本技术属于语音处理,特别的涉及一种基于复杂混响会议室环境的时延计算方法及装置。
背景技术:
1、随着各种生活设备智能化程度的提高,语音交互越来越受到人们的重视。声源定位作为语音交互的一项关键技术,由于使用方便、定位结果不受电磁波和环境光强的影响,被广泛应用于各个领域。为了使其适用于更复杂的场景,近年来,国内外越来越多的学者致力于提高声源定位系统的性能,他们的研究重点集中于抗噪声、定位精度、实时性能、设备小型化和硬件成本等方面。其中,基于到达时间差的声源定位算法原理简单,计算量小,在实时声源定位中得到了广泛的应用。
2、时延估计算法是基于到达时间差的声源定位算法的关键技术,其对时间差估计的准确性直接影响最终声源定位的准确性。一般现有的时延估计算法计算量相对较小,理论简单,但是它是在某种假设的基础上进行运作的,例如两个信道的随机噪声是互不相关的,然而现实中这种假设往往是不成立的,因此这种理论的普适性在实际应用中较低;其次,在实际生活中会议室这种含有噪声和混响的环境,也会对现有的时延估计算法的准确性造成较大影响。
技术实现思路
1、本技术为解决上述提到的现有的时延估计算法计算量相对较小,理论简单,但是它是在某种假设的基础上进行运作的,例如两个信道的随机噪声是互不相关的,然而现实中这种假设往往是不成立的,因此这种理论的普适性在实际应用中较低;其次,在实际生活中会议室这种含有噪声和混响的环境会对现有的时延估计算法的准确性造成较大影响等技术缺陷,提出一种基于复杂混响会议室环境的时延计算方法及装置,其技术方案如下:
2、第一方面,本技术实施例提供了一种基于复杂混响会议室环境的时延计算方法,包括:
3、基于预设的声源位置、预设的接收器位置以及预设的墙壁反射系数,构建出与模拟会议室环境对应的脉冲传输函数;其中,预设的墙壁反射系数用于模拟会议室环境,预设的声源位置以及预设的接收器位置基于与会议室环境对应的空间直角坐标系确定;
4、获取第一音频信号,并对第一音频信号以及脉冲传输函数进行卷积运算,得到第二音频信号;
5、基于预设的滤波器参数对第二音频信号进行预处理,得到第三音频信号,并对第三音频信号进行转换处理,得到初始倒谱信号;
6、基于预设的滤波参数对初始倒谱信号进行滤波处理,得到最小相位倒谱信号,并对初始倒谱信号以及最小相位倒谱信号进行差值计算,计算出全通分量倒谱信号;
7、根据全通分量倒谱信号以及最小相位倒谱信号,得到目标频谱信号,并基于目标频谱信号计算出时延估计值。
8、在第一方面的一种可选方案中,基于预设的声源位置、预设的接收器位置以及预设的墙壁反射系数,构建出与模拟会议室环境对应的脉冲传输函数,包括:
9、基于预设的声源位置以及预设的接收器位置,在与会议室环境对应的空间直角坐标系中模拟出虚拟声源位置;
10、根据虚拟声源位置以及预设的接收器位置,计算出虚拟声源与接收器之间的距离,并基于虚拟声源与接收器之间的距离以及预设的声速参数,计算出虚拟声源与接收器之间的传播时间;
11、根据虚拟声源与接收器之间的距离、虚拟声源与接收器之间的传播时间以及预设的墙壁反射系数,构建出与模拟会议室环境对应的脉冲传输函数。
12、在第一方面的又一种可选方案中,基于预设的滤波器参数对第二音频信号进行预处理,得到第三音频信号,包括:
13、基于预设的通频带以及预设的缓冲带长度,对第二音频信号进行带通滤波处理;
14、基于预设的预加重参数,对经过带通滤波处理后的第二音频信号进行预加重处理;
15、基于预设的窗函数,对经过预加重处理后的第二音频信号进行分帧加窗处理,得到第三音频信号。
16、在第一方面的又一种可选方案中,对第三音频信号进行转换处理,得到初始倒谱信号,包括:
17、对第三音频信号进行快速傅里叶变换处理,并对经过快速傅里叶变换处理后的第三音频信号进行自然对数计算;
18、对经过自然对数计算后的第三音频信号进行快速傅里叶逆变换处理,得到初始倒谱信号。
19、在第一方面的又一种可选方案中,根据全通分量倒谱信号以及最小相位倒谱信号,得到目标频谱信号,包括:
20、基于预设的基音频率范围以及与第一音频信号对应的信号采样频率,确定出基音周期范围;
21、根据基音周期范围对最小相位倒谱信号进行滤波处理,并对全通分量倒谱信号以及经过滤波处理后的最小相位倒谱信号进行求和计算,得到目标倒谱信号;
22、对目标倒谱信号进行快速傅里叶变换处理,并对经过快速傅里叶变换处理后的目标倒谱信号进行指数函数计算;其中,指数函数的底数为自然常数;
23、对经过指数函数计算后的目标倒谱信号进行快速傅里叶逆变换处理,得到目标频谱信号。
24、在第一方面的又一种可选方案中,第一音频信号包括与第一阵元对应的音频接收信号以及与第二阵元对应的音频接收信号,第一阵元与第二阵元处于同一传声器阵列。
25、在第一方面的又一种可选方案中,基于目标频谱信号计算出时延估计值,包括:
26、对第一目标频域信号进行共轭计算,并对经过共轭计算后的第一目标频域信号以及第二目标频域信号进行乘积计算,得到互功率谱信号;其中,第一目标频域信号对应于与第一阵元对应的音频接收信号,第二目标频域信号对应于与第二阵元对应的音频接收信号;
27、对互功率谱信号进行加权计算,得到加权信号,并对加权信号以及互功率谱信号进行快速傅里叶逆变换处理,得到互相关信号;
28、基于互相关信号计算出时延估计值。
29、第二方面,本技术实施例提供了一种模拟基于复杂混响会议室环境的时延计算装置,包括:
30、函数构建模块,用于基于预设的声源位置、预设的接收器位置以及预设的墙壁反射系数,构建出与模拟会议室环境对应的脉冲传输函数;其中,预设的墙壁反射系数用于模拟会议室环境,预设的声源位置以及预设的接收器位置基于与会议室环境对应的空间直角坐标系确定;
31、第一计算模块,用于获取第一音频信号,并对第一音频信号以及脉冲传输函数进行卷积运算,得到第二音频信号;
32、第二计算模块,用于基于预设的滤波器参数对第二音频信号进行预处理,得到第三音频信号,并对第三音频信号进行转换处理,得到初始倒谱信号;
33、第三计算模块,用于基于预设的滤波参数对初始倒谱信号进行滤波处理,得到最小相位倒谱信号,并对初始倒谱信号以及最小相位倒谱信号进行差值计算,计算出全通分量倒谱信号;
34、第四计算模块,用于根据全通分量倒谱信号以及最小相位倒谱信号,得到目标频谱信号,并基于目标频谱信号计算出时延估计值。
35、在第二方面的一种可选方案中,函数构建模块用于:
36、基于预设的声源位置以及预设的接收器位置,在与会议室环境对应的空间直角坐标系中模拟出虚拟声源位置;
37、根据虚拟声源位置以及预设的接收器位置,计算出虚拟声源与接收器之间的距离,并基于虚拟声源与接收器之间的距离以及预设的声速参数,计算出虚拟声源与接收器之间的传播时间;
38、根据虚拟声源与接收器之间的距离、虚拟声源与接收器之间的传播时间以及预设的墙壁反射系数,构建出与模拟会议室环境对应的脉冲传输函数。
39、在第二方面的又一种可选方案中,第二计算模块用于:
40、基于预设的通频带以及预设的缓冲带长度,对第二音频信号进行带通滤波处理;
41、基于预设的预加重参数,对经过带通滤波处理后的第二音频信号进行预加重处理;
42、基于预设的窗函数,对经过预加重处理后的第二音频信号进行分帧加窗处理,得到第三音频信号。
43、在第二方面的又一种可选方案中,第二计算模块还用于:
44、对第三音频信号进行快速傅里叶变换处理,并对经过快速傅里叶变换处理后的第三音频信号进行自然对数计算;
45、对经过自然对数计算后的第三音频信号进行快速傅里叶逆变换处理,得到初始倒谱信号。
46、在第二方面的又一种可选方案中,第四计算模块用于:
47、基于预设的基音频率范围以及与第一音频信号对应的信号采样频率,确定出基音周期范围;
48、根据基音周期范围对最小相位倒谱信号进行滤波处理,并对全通分量倒谱信号以及经过滤波处理后的最小相位倒谱信号进行求和计算,得到目标倒谱信号;
49、对目标倒谱信号进行快速傅里叶变换处理,并对经过快速傅里叶变换处理后的目标倒谱信号进行指数函数计算;其中,指数函数的底数为自然常数;
50、对经过指数函数计算后的目标倒谱信号进行快速傅里叶逆变换处理,得到目标频谱信号。
51、在第二方面的又一种可选方案中,第一音频信号包括与第一阵元对应的音频接收信号以及与第二阵元对应的音频接收信号,第一阵元与第二阵元处于同一传声器阵列。
52、在第二方面的又一种可选方案中,第四计算模块还用于:
53、对第一目标频域信号进行共轭计算,并对经过共轭计算后的第一目标频域信号以及第二目标频域信号进行乘积计算,得到互功率谱信号;其中,第一目标频域信号对应于与第一阵元对应的音频接收信号,第二目标频域信号对应于与第二阵元对应的音频接收信号;
54、对互功率谱信号进行加权计算,得到加权信号,并对加权信号以及互功率谱信号进行快速傅里叶逆变换处理,得到互相关信号;
55、基于互相关信号计算出时延估计值。
56、第三方面,本技术实施例还提供了一种模拟基于复杂混响会议室环境的时延计算装置,包括处理器以及存储器;
57、处理器与存储器连接;
58、存储器,用于存储可执行程序代码;
59、处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现本技术实施例第一方面或第一方面的任意一种实现方式提供的模拟基于复杂混响会议室环境的时延计算方法。
60、第四方面,本技术实施例提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,可实现本技术实施例第一方面或第一方面的任意一种实现方式提供的模拟基于复杂混响会议室环境的时延计算方法。
61、在本技术实施例中,可在模拟的会议室环境下进行时延计算时,基于预设的声源位置、预设的接收器位置以及预设的墙壁反射系数,构建出与模拟会议室环境对应的脉冲传输函数;获取第一音频信号,并对第一音频信号以及脉冲传输函数进行卷积运算,得到第二音频信号;基于预设的滤波器参数对第二音频信号进行预处理,得到第三音频信号,并对第三音频信号进行转换处理,得到初始倒谱信号;基于预设的滤波参数对初始倒谱信号进行滤波处理,得到最小相位倒谱信号,并对初始倒谱信号以及最小相位倒谱信号进行差值计算,计算出全通分量倒谱信号;根据全通分量倒谱信号以及最小相位倒谱信号,得到目标频谱信号,并基于目标频谱信号计算出时延估计值。通过结合构建与模拟会议室环境对应的脉冲传输函数以及获取的音频信号,有效降低干扰噪声对计算精度的影响;其次,通过计算全通分量倒谱信号以及最小相位倒谱信号,可使目标频谱信号保留有脉冲响应的全通部分以及音频信号中的大量信息,不仅保障不同阵元之间接收信号的相关性,而且具有很强的抗混响性能,相较于现有的时延估计算法进一步提高了计算结果的精度。