音频处理模型的训练方法、音频处理方法及相关设备与流程

文档序号:33512184发布日期:2023-03-22 00:55阅读:来源:国知局

技术特征:
1.一种音频处理模型的训练方法,其特征在于,包括:将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络;利用损失函数确定第n次训练的损失值,n为正整数;基于所述损失值对所述待训练音频处理模型进行参数调整;在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型;其中,所述音频处理网络用于根据对所述音频样本数据对应的音频帧序列进行特征提取,获得用于表示所述音频帧序列的统计特征向量序列和每一所述音频帧对应的第二特征向量,并根据所述第二特征向量输出每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;所述说话人识别网络用于根据对所述音频处理网络获得的所述统计特征向量序列进行分类处理,获得每一所述统计特征向量对应的第二类别及每一所述音频帧对应的所述第二特征向量;所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别与预先标注的第二类别的差值确定的第二损失值。2.根据权利要求1所述的方法,其特征在于,所述音频处理网络包括:特征提取层,所述特征提取层用于对所述音频样本数据对应的音频帧序列进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应;特征统计层,所述特征统计层用于对所述第一序列中连续的至少两个所述第一特征向量进行统计处理,获得所述统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;身份向量提取层,所述身份向量提取层用于对所述统计特征向量序列进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;分类处理层,所述分类处理层用于对所述第二序列进行分类处理,获得每一所述音频帧对应的第一类别。3.根据权利要求2所述的方法,其特征在于,所述特征统计层包括:音频分割子层,所述音频分割子层用于对所述第一序列中的所述第一特征向量组合,获得特征组,其中,每一所述特征组内均包括至少两个连续的所述第一特征向量;池化操作子层,所述池化操作子层用于对每一所述特征组内的所述第一特征向量进行池化操作,获得每一所述特征组的统计特征向量,其中,所述统计特征向量中包括一个高阶统计量。4.一种音频处理方法,其特征在于,包括:将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;其中,所述音频处理模型利用如权利要求1至3中任一项所述的音频处理模型的训练方法训练获得。5.根据权利要求4所述的方法,其特征在于,所述将待处理的音频数据对应的音频帧序
列输入到音频处理模型,获得每一所述音频帧对应的第一类别,包括:将待处理的音频数据对应的音频帧序列输入到特征提取层进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应;将所述第一序列输入到特征统计层,多个对连续的至少两个所述第一特征向量进行统计处理,获得统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;将所述统计特征向量序列输入到身份向量提取层进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;将所述第二序列输入到分类网络层进行分类处理,获得每一所述音频帧对应的第一类别。6.一种音频处理模型的训练装置,其特征在于,包括:训练模块,用于将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络;第一确定模块,用于利用损失函数确定第n次训练的损失值,n为正整数;调整模块,用于基于所述损失值对所述待训练音频处理模型进行参数调整;第二确定模块,用于在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型;其中,所述音频处理网络用于根据对所述音频样本数据对应的音频帧序列进行特征提取,获得用于表示所述音频帧序列的统计特征向量序列和每一所述音频帧对应的第二特征向量,并根据所述第二特征向量输出每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;所述说话人识别网络用于根据对所述音频处理网络获得的所述统计特征向量序列进行分类处理,获得每一所述统计特征向量对应的第二类别及每一所述音频帧对应的所述第二特征向量;所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别与预先标注的第二类别的差值确定的第二损失值。7.根据权利要求6所述的音频处理模型的训练装置,其特征在于,所述音频处理网络包括:特征提取层,所述特征提取层用于对所述音频样本数据对应的音频帧序列进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应;特征统计层,所述特征统计层用于对所述第一序列中连续的至少两个所述第一特征向量进行统计处理,获得所述统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;身份向量提取层,所述身份向量提取层用于对所述统计特征向量序列进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;分类处理层,所述分类处理层用于对所述第二序列进行分类处理,获得每一所述音频帧对应的第一类别。8.一种音频处理装置,其特征在于,包括:
输入模块,用于将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;其中,所述音频处理模型利用如权利要求1至3中任一项所述的音频处理模型的训练方法训练获得。9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至3中任一项所述的音频处理模型的训练方法中的步骤,或实现如权利要求4或5所述的音频处理方法中的步骤。10.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至3中任一项所述的音频处理模型的训练方法中的步骤,或实现如权利要求4或5所述的音频处理方法中的步骤。

技术总结
本发明提供一种音频处理模型的训练方法、音频处理方法及相关设备。所述音频处理模型的训练方法包括将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络;利用损失函数确定第N次训练的损失值,N为正整数;基于所述损失值对所述待训练音频处理模型进行参数调整;在所述损失值满足损失收敛条件的情况下,将所述第N次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型。本发明解决了说话人分离的准确度较低的问题。明解决了说话人分离的准确度较低的问题。明解决了说话人分离的准确度较低的问题。


技术研发人员:王超
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2021.09.18
技术公布日:2023/3/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1