用于语音分离和增强的全深度学习最小方差无失真响应波束形成器的制作方法

文档序号：32680411发布日期：2022-12-24 04:55阅读：来源：国知局

技术特征：
1.一种由处理器执行的语音识别方法，包括：接收对应于一个或多个说话者的音频数据；基于门控循环单元的网络(gru-net)来估计与所接收的音频数据相关联的目标语音和噪声的协方差矩阵；以及基于所估计的协方差矩阵，通过最小方差无失真响应函数(mvdr)来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。2.根据权利要求1所述的方法，其特征在于，所述协方差矩阵对应于噪声功率密度谱和语音功率密度谱。3.根据权利要求1所述的方法，其特征在于，使用对应于所述协方差矩阵的mvdr系数来生成所述预测目标波形。4.根据权利要求3所述的方法，其特征在于，所述mvdr系数是由gru-net基于由所述gru-net连接的所述协方差矩阵的实部和虚部来计算的。5.根据权利要求1所述的方法，其特征在于，还包括：由所述gru-net递归地累积和更新一个或多个帧的所述协方差矩阵。6.根据权利要求5所述的方法，其特征在于，还包括：使用线性层来获得所述协方差矩阵的最终的实部和虚部。7.根据权利要求1所述的方法，其特征在于，基于与所接收到的音频数据相对应的到达方向来识别所述目标说话者。8.一种用于语音识别的计算机系统，所述计算机系统包括：一个或多个计算机可读非易失性存储介质，被配置为存储计算机程序代码；和一个或多个计算机处理器，被配置为访问所述计算机程序代码并按照所述计算机程序代码的指示来操作，所述计算机程序代码包括：接收代码，被配置为使所述一个或多个计算机处理器接收对应于一个或多个说话者的音频数据；估计代码，被配置为使所述一个或多个计算机处理器基于门控循环单元的网络(gru-net)来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵；以及生成代码，被配置为使所述一个或多个计算机处理器基于所估计的协方差矩阵通过最小方差无失真响应函数(mvdr)来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。9.根据权利要求8所述的计算机系统，其特征在于，所述协方差矩阵对应于噪声功率密度谱和语音功率密度谱。10.根据权利要求8所述的计算机系统，其特征在于，使用对应于所述协方差矩阵的mvdr系数来生成所述预测目标波形。11.根据权利要求10所述的计算机系统，其特征在于，所述mvdr系数是由gru-net基于由所述gru-net连接的所述协方差矩阵的实部和虚部来计算的。12.根据权利要求8所述的计算机系统，还包括：累积代码和更新代码，所述累积代码和更新代码被配置：使所述一个或多个计算机处理器通过所述gru-net递归地累积和更新一个或多个帧的所述协方差矩阵。13.根据权利要求12所述的计算机系统，还包括：获取代码，所述获取代码被配置为使
所述一个或多个计算机处理器使用线性层获取所述协方差矩阵的最终的实部和虚部。14.根据权利要求8所述的计算机系统，其特征在于，基于与所接收到的音频数据相对应的到达方向来识别所述目标说话者。15.一种非易失性计算机可读介质，其上存储有用于语音识别的计算机程序，所述计算机程序被配置为使一个或多个计算机处理器：接收对应于一个或多个说话者的音频数据；基于门控循环单元的网络(gru-net)来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵；以及基于估计到的所述协方差矩阵，通过最小方差无失真响应函数(mvdr)来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。16.根据权利要求15所述的计算机可读介质，其特征在于，所述协方差矩阵对应于噪声功率密度谱和语音功率密度谱。17.根据权利要求15所述的计算机可读介质，其特征在于，使用对应于所述协方差矩阵的mvdr系数来生成所述预测目标波形。18.根据权利要求17所述的计算机可读介质，其特征在于，所述mvdr系数是由gru-net基于由所述gru-net连接的所述协方差矩阵的实部和虚部来计算的。19.根据权利要求15所述的计算机可读介质，其特征在于，所述计算机程序进一步被配置为：使所述一个或多个计算机处理器通过所述gru-net递归地累积和更新一个或多个帧的所述协方差矩阵。20.根据权利要求19所述的计算机可读介质，其特征在于，所述计算机程序进一步被配置为：使所述一个或多个计算机处理器使用线性层获取所述协方差矩阵的最终的实部和虚部。

技术总结
提供了一种用于自动语音识别的方法、计算机程序和计算机系统。接收对应于一个或多个说话者的音频数据；基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵；基于所估计到的协方差矩阵，通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。测目标波形。

技术研发人员：徐勇于蒙张世雄俞栋
受保护的技术使用者：腾讯美国有限责任公司
技术研发日：2021.06.23
技术公布日：2022/12/23

完整全部详细技术资料下载

当前第2页1 2