房间声学冲激响应的估计方法、训练方法及装置与流程

文档序号:35696532发布日期:2023-10-11 19:30阅读:48来源:国知局
房间声学冲激响应的估计方法、训练方法及装置与流程

本说明书一个或多个实施例涉及音频数据处理领域,尤其涉及一种房间声学冲激响应的估计方法、训练方法及装置。


背景技术:

1、房间声学冲激响应(room impulse response rir)能完整表示声源到接收的语音采集设备,例如麦克风之间的声学特性,该声学特性对信号分析和语音处理都起到非常重要的作用,如增强现实音频,语音质量评估,语音去混响,远场语音识别等。

2、相关技术可以采用实地测量的方式,通过人工和器材的协助,在声源位置播放一段特殊信号(如扫频信号)来提取空间中声源位置到语音采集设备之间的传递函数,实地测量的方法耗时耗力,而且并不实用,甚至不是每个场景都能采集到。于是,出现了对房间声学冲激响应的盲估计(blind estimate)方法,从语音采集设备采集的语音信号中估计出几个声学参数,但仅仅基于几个声学参数无法重构出声学特征,无法得到准确的房间声学冲激响应。


技术实现思路

1、有鉴于此,本说明书一个或多个实施例提供一种房间声学冲激响应的估计方法、训练方法及装置,以解决相关技术中存在的问题。

2、为实现上述目的,本说明书一个或多个实施例提供技术方案如下:

3、根据本说明书一个或多个实施例的第一方面,提出了一种房间声学冲激响应的估计方法,包括:

4、从采集到的语音信号中,提取与所述语音信号的传输环境相关的声学环境信息,并基于所述声学环境信息生成与所述语音信号对应的特征向量;

5、将所述特征向量进行分片处理,得到多个向量分片;

6、将所述多个向量分片输入房间声学冲激响应估计模型中进行房间声学冲激响应估计,以得到与各个向量分片对应的冲激响应向量分片;其中,所述冲激响应向量用于表示所述语音信号从声源传输到所述语音采集硬件的声学特性;所述房间声学冲激响应估计模型为,以语音信号样本的特征向量为训练样本特征,以与语音信号样本对应的房间声学冲激响应为样本标签,进行训练得到的机器学习模型;

7、将各个冲激响应分片进行拼接,得到与所述语音信号对应的房间声学冲激响应。

8、根据本说明书一个或多个实施例的第二方面,提出了一种房间声学冲激响应估计模型的训练方法,包括:

9、从语音信号样本集的语音信号样本中,提取与所述语音信号样本的传输环境相关的声学环境信息,并基于所述声学环境信息生成与所述语音信号分别对应的特征向量;其中,所述语音信号样本集包括语音信号样本,以及作为样本标签的与所述语音信号样本对应的房间声学冲激响应;

10、对所述语音信号样本对应的特征向量进行分片处理,得到与所述语音信号样本对应的多个向量分片;

11、将与所述语音信号样本对应的多个向量分片输入到房间声学冲激响应估计模型中,进行房间声学冲激响应估计,输出得到与各个向量分片对应的冲激响应向量分片,并将各个冲激响应向量分片进行拼接,得到与所述语音信号样本对应的房间声学冲激响应;

12、基于所述房间声学冲激响应估计模型输出的房间声学冲激响应和作为标签的房间声学冲激响应得到模型损失,并基于所述模型损失对所述房间声学冲激响应估计模型进行训练。

13、根据本说明书一个或多个实施例的第三方面,提出了一种房间声学冲激响应的估计装置,包括:

14、语音采集模块,用于从采集到的语音信号中提取与所述语音信号的传输环境相关的声学环境信息,并基于所述声学环境信息生成与所述语音信号对应的特征向量;

15、分片处理模块,用于将所述特征向量进行分片处理,得到多个向量分片;

16、模型估计模块,用于将所述多个向量分片输入房间声学冲激响应估计模型中进行房间声学冲激响应估计,以得到与各个向量分片对应的冲激响应向量分片;其中,所述冲激响应向量用于表示所述语音信号从声源传输到所述语音采集硬件的声学特性;所述房间声学冲激响应估计模型为,以语音信号样本的特征向量为训练样本特征,以与语音信号样本对应的房间声学冲激响应为样本标签,进行训练得到的机器学习模型;

17、结果输出模块,用于将各个冲激响应分片进行拼接,得到与所述语音信号对应的房间声学冲激响应。

18、根据本说明书一个或多个实施例的第三方面,提出了一种房间声学冲激响应估计模型的训练装置,包括:

19、样本处理模块,用于从语音信号样本集的语音信号样本中,提取与所述语音信号样本的传输环境相关的声学环境信息,并基于所述声学环境信息生成与所述语音信号分别对应的特征向量;其中,所述语音信号样本集包括语音信号样本,以及作为样本标签的与所述语音信号样本对应的房间声学冲激响应;

20、特征分片模块,用于对所述语音信号样本对应的特征向量进行分片处理,得到与所述语音信号样本对应的多个向量分片;

21、模型计算模块,用于将与所述语音信号样本对应的多个向量分片输入到房间声学冲激响应估计模型中,进行房间声学冲激响应估计,输出得到与各个向量分片对应的冲激响应向量分片,并将各个冲激响应向量分片进行拼接,得到与所述语音信号样本对应的房间声学冲激响应;

22、模型训练模块,用于基于所述房间声学冲激响应估计模型输出的房间声学冲激响应和作为标签的房间声学冲激响应得到模型损失,并基于所述模型损失对所述房间声学冲激响应估计模型进行训练。

23、根据本说明书一个或多个实施例的第五方面,提出了一种电子设备,包括:

24、处理器;

25、用于存储处理器可执行指令的存储器;

26、其中,所述处理器通过运行所述可执行指令以实现如第一方面或第二方面所述的方法。

27、根据本说明书一个或多个实施例的第六方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面或第二方面所述方法的步骤。

28、在以上技术方案中,通过分段式的房间声学冲激响应估计模型,先对语音信号对应的特征向量进行分片处理,由房间声学冲激响应估计模型来盲估计与各个向量分片对应的冲激响应分片,再经过拼接得到完整的房间声学冲激响应,从而利用了神经网络的强大模型能力来估计出准确的房间声学冲激响应,还通过分段式的计算过程,使每个向量分片能够共享房间声学冲激响应估计模型中的网络参数,相当于产生独立输出的多个子带网络,大大减少了模型的复杂度和计算难度,在最大程度地逼近真实的房间声学冲激响应。



技术特征:

1.一种房间声学冲激响应的估计方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述向量分片包括用于表示所述向量分片在所述特征向量中的排列顺序的标识。

3.根据权利要求1所述的方法,其特征在于,所述多个向量分片中相邻向量分片之间存在部分重叠。

4.一种房间声学冲激响应估计模型的训练方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,所述模型损失包括第一模型损失和第二模型损失;

6.根据权利要求5所述的方法,其特征在于,所述房间声学冲激响应估计模型为生成式对抗神经网络中的生成式神经网络;

7.根据权利要求6所述的方法,其特征在于,所述判别模型用于,将所述房间声学冲激响应估计模型输入的特征向量和输出的房间声学冲激响应,以及作为样本标签的房间声学冲激响应作为输入,判别输入的房间声学冲激响应是否为所述房间声学冲激响应估计模型输出或者作为样本标签的房间声学冲激响应。

8.根据权利要求6所述的方法,其特征在于,训练所述房间声学冲激响应估计模型所采用的损失函数用以下公式表示:

9.根据权利要求4所述的方法,其特征在于,所述向量分片包括用于表示所述向量分片在所述特征向量中的排列顺序的标识。

10.根据权利要求4所述的方法,其特征在于,所述多个向量分片中相邻向量分片之间存在部分重叠。

11.一种房间声学冲激响应的估计装置,其特征在于,包括:

12.一种房间声学冲激响应估计模型的训练装置,其特征在于,包括:

13.一种电子设备,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-10中任一项所述方法的步骤。


技术总结
本说明书一个或多个实施例提供一种房间声学冲激响应的估计方法、训练方法及装置。该方法包括:从语音采集设备采集到的语音信号中提取与所述语音信号的传输环境相关的声学环境信息,并基于所述声学环境信息生成与所述语音信号对应的特征向量;将所述特征向量进行分片处理,得到多个向量分片;将所述多个向量分片依次输入到预先训练的房间声学冲激响应估计模型中进行房间声学冲激响应估计,以得到与各个向量分片对应的冲激响应向量分片;其中,所述冲激响应向量用于表示所述语音信号从声源传输到所述语音采集硬件的声学特性;将各个冲激响应分片进行拼接,得到与所述语音信号对应的房间声学冲激响应。

技术研发人员:熊飞飞,冯津伟
受保护的技术使用者:钉钉(中国)信息技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1