声纹识别方法、装置、电子设备和存储介质与流程

文档序号：31155413发布日期：2022-08-17 07:03阅读：来源：国知局

技术特征：
1.一种声纹识别方法，包括：获取待识别的目标音频数据，并基于所述目标音频数据，获取对应的局部音频特征和全局音频特征；将所述局部音频特征输入声纹识别模型的学生网络，以得到所述学生网络输出的第一声纹特征；将所述全局音频特征输入所述声纹识别模型的教师网络，以得到所述教师网络输出的第二声纹特征；基于所述第一声纹特征和所述第二声纹特征，确定所述目标音频数据对应的目标声纹特征。2.根据权利要求1所述的方法，其中，所述基于所述目标音频数据，对应的局部音频特征和全局音频特征，包括：对所述目标音频数据进行分帧，以得到多帧第一子音频数据；对各帧所述第一子音频数据进行特征提取，以得到各帧所述第一子音频数据对应的特征向量；对于各帧所述第一子音频数据，基于对应的特征向量，以及前后至少一帧的所述第一子音频数据对应的特征向量的平均值，获取所述第一子音频数据对应的局部音频特征；对于各帧所述第一子音频数据，基于对应的特征向量，以及各帧所述第一子音频数据对应的特征向量的平均值，获取所述第一子音频数据对应的全局音频特征。3.一种用于声纹识别的模型训练方法，包括：获取训练样本集，所述训练样本集中包括多个样本音频数据；基于所述样本音频数据，获取对应的样本局部音频特征和样本全局音频特征；将所述样本局部音频特征作为声纹识别模型中的学生网络的训练样本，将所述样本全局音频特征作为所述声纹识别模型中的教师网络的训练样本，对声纹识别模型中的教师网络和学生网络进行训练，以得到训练后的声纹识别模型。4.根据权利要求3所述的方法，其中，所述声纹识别模型包括教师网络分支和学生网络分支，所述教师网络分支包括所述教师网络，所述学生网络分支包括学生网络；所述教师网络和所述学生网络的网络结构相同；所述将所述样本局部音频特征作为声纹识别模型中的学生网络的训练样本，将所述样本全局音频特征作为所述声纹识别模型中的教师网络的训练样本，对声纹识别模型中的教师网络和学生网络进行训练，包括：将所述样本局部音频特征输入所述学生网络分支，以得到所述样本局部音频特征对应的第一声纹分布概率，并将所述样本全局音频特征输入所述教师网络分支，以得到所述样本全局音频特征对应的第二声纹分布概率；基于所述第一声纹分布概率与所述第二声纹分布概率之间的损失，对所述学生网络的模型参数进行调整；基于调整后的所述学生网络的模型参数，对所述教师网络的模型参数进行调整，以基于调整后的所述学生网络和所述教师网络，得到训练后的声纹识别模型。5.根据权利要求4所述的方法，其中，所述基于所述样本音频数据，获取对应的样本局部音频特征和样本全局音频特征，包括：
对所述样本音频数据进行增强处理，以获取所述样本音频数据对应的增强音频数据；对所述样本音频数据以及所述增强音频数据进行分帧，以得到多帧第二子音频数据；对各帧所述第二子音频数据进行特征提取，以得到各帧所述第二子音频数据对应的特征向量；对于各帧所述第二子音频数据，基于对应的所述特征向量，以及前后至少一帧的所述第二子音频数据对应的特征向量的平均值，获取所述第二子音频数据对应的样本局部音频特征。6.根据权利要求4或5所述的方法，其中，所述学生网络分支还包括与所述学生网络连接的第一归一化层；所述将所述样本局部音频特征输入所述学生网络分支，以得到所述样本局部音频特征对应的第一声纹分布概率，包括：将所述样本局部音频特征输入所述学生网络，以获取所述学生网络输出的所述样本局部音频特征对应的第一初始声纹分布概率；将所述第一初始声纹分布概率输入所述第一归一化层，以获取所述第一归一化层输出的所述样本局部音频特征对应的第一声纹分布概率。7.根据权利要求6所述的方法，其中，所述学生网络包括依次连接的声纹特征提取层以及声纹分布预测层；所述将所述样本局部音频特征输入所述学生网络，以获取所述学生网络输出的所述样本局部音频特征对应的第一初始声纹分布概率，包括：将所述样本局部音频特征输入所述学生网络中的声纹特征提取层，以获取所述声纹特征提取层输出的所述样本局部音频特征对应的第三声纹特征；将所述第三声纹特征输入所述学生网络中的声纹分布预测层，以获取所述声纹分布预测层输出的所述样本局部音频特征对应的第一初始声纹分布概率。8.根据权利要求4所述的方法，其中，所述基于所述样本音频数据，获取对应的样本局部音频特征和样本全局音频特征，包括：对所述样本音频数据进行分帧，以得到多帧第三子音频数据；对各帧所述第三子音频数据进行特征提取，以得到各帧所述第三子音频数据对应的特征向量；对于各帧所述第三子音频数据，基于对应的所述特征向量，以及各帧所述第三子音频数据对应的特征向量的平均值，获取所述第三子音频数据对应的样本全局音频特征。9.根据权利要求8所述的方法，其中，所述教师网络分支还包括与所述教师网络连接的中心化层，以及与所述中心化层连接的第二归一化层；所述将所述样本全局音频特征输入所述教师网络分支，以得到所述样本全局音频特征对应的第二声纹分布概率，包括：将各帧所述第三子音频数据对应的样本全局音频特征，输入所述教师网络，以获取所述教师网络输出的各帧所述第三子音频数据对应的第二初始声纹分布概率；将各帧所述第三子音频数据对应的第二初始声纹分布概率，输入所述中心化层，以利用各帧所述第三子音频数据对应的第二初始声纹分布概率的平均值，对所述中心化层输出的前一个样本音频数据对应的初始声纹分布概率进行更新，得到第三初始声纹分布概率；
将所述第三初始声纹分布概率，输入所述第二归一化层，以获取所述第二归一化层输出的所述第二声纹分布概率。10.根据权利要求5所述的方法，其中，所述训练样本集的数量为n，n为大于1的整数；所述方法还包括：获取n个所述训练样本集中的m个所述训练样本集，并基于m个所述训练样本集对所述声纹识别模型中的教师网络和学生网络进行一个阶段的训练；其中，m为大于0的整数；将经过p个阶段的训练后得到的声纹识别模型，确定为所述训练后的声纹识别模型；p为大于1的整数，且随着阶段数的增加，m的数值增大，对m个所述训练样本集中样本音频数据进行数据增强的方式增多。11.一种声纹识别装置，包括：第一获取模块，用于获取待识别的目标音频数据，并基于所述目标音频数据，获取对应的局部音频特征和全局音频特征；第一处理模块，用于将所述局部音频特征输入声纹识别模型的学生网络，以得到所述学生网络输出的第一声纹特征；第二处理模块，用于将所述全局音频特征输入所述声纹识别模型的教师网络，以得到所述教师网络输出的第二声纹特征；第一确定模块，用于基于所述第一声纹特征和所述第二声纹特征，确定所述目标音频数据对应的目标声纹特征。12.根据权利要求11所述的装置，其中，所述第一获取模块，包括：第一分帧子模块，用于对所述目标音频数据进行分帧，以得到多帧第一子音频数据；第一特征提取子模块，用于对各帧所述第一子音频数据进行特征提取，以得到各帧所述第一子音频数据对应的特征向量；第一获取子模块，用于对于各帧所述第一子音频数据，基于对应的特征向量，以及前后至少一帧的所述第一子音频数据对应的特征向量的平均值，获取所述第一子音频数据对应的局部音频特征；第二获取子模块，用于对于各帧所述第一子音频数据，基于对应的特征向量，以及各帧所述第一子音频数据对应的特征向量的平均值，获取所述第一子音频数据对应的全局音频特征。13.一种用于声纹识别的模型训练装置，包括：第二获取模块，用于获取训练样本集，所述训练样本集中包括多个样本音频数据；第三获取模块，用于基于所述样本音频数据，获取对应的样本局部音频特征和样本全局音频特征；训练模块，用于将所述样本局部音频特征作为声纹识别模型中的学生网络的训练样本，将所述样本全局音频特征作为所述声纹识别模型中的教师网络的训练样本，对声纹识别模型中的教师网络和学生网络进行训练，以得到训练后的声纹识别模型。14.根据权利要求13所述的装置，其中，所述声纹识别模型包括教师网络分支和学生网络分支，所述教师网络分支包括所述教师网络，所述学生网络分支包括学生网络；所述教师网络和所述学生网络的网络结构相同；所述训练模块，包括：
第一处理子模块，用于将所述样本局部音频特征输入所述学生网络分支，以得到所述样本局部音频特征对应的第一声纹分布概率，并将所述样本全局音频特征输入所述教师网络分支，以得到所述样本全局音频特征对应的第二声纹分布概率；第一调整子模块，用于基于所述第一声纹分布概率与所述第二声纹分布概率之间的损失，对所述学生网络的模型参数进行调整；第二调整子模块，用于基于调整后的所述学生网络的模型参数，对所述教师网络的模型参数进行调整，以基于调整后的所述学生网络和所述教师网络，得到训练后的声纹识别模型。15.根据权利要求14所述的装置，其中，所述第三获取模块，包括：第二处理子模块，用于对所述样本音频数据进行增强处理，以获取所述样本音频数据对应的增强音频数据；第二分帧子模块，用于对所述样本音频数据以及所述增强音频数据进行分帧，以得到多帧第二子音频数据；第二特征提取子模块，用于对各帧所述第二子音频数据进行特征提取，以得到各帧所述第二子音频数据对应的特征向量；第三获取子模块，用于对于各帧所述第二子音频数据，基于对应的所述特征向量，以及前后至少一帧的所述第二子音频数据对应的特征向量的平均值，获取所述第二子音频数据对应的样本局部音频特征。16.根据权利要求14或15所述的装置，其中，所述学生网络分支还包括与所述学生网络连接的第一归一化层；所述第一处理子模块，包括：第一处理单元，用于将所述样本局部音频特征输入所述学生网络，以获取所述学生网络输出的所述样本局部音频特征对应的第一初始声纹分布概率；第二处理单元，用于将所述第一初始声纹分布概率输入所述第一归一化层，以获取所述第一归一化层输出的所述样本局部音频特征对应的第一声纹分布概率。17.根据权利要求16所述的装置，其中，所述学生网络包括依次连接的声纹特征提取层以及声纹分布预测层；所述第一处理单元，包括：第一处理子单元，用于将所述样本局部音频特征输入所述学生网络中的声纹特征提取层，以获取所述声纹特征提取层输出的所述样本局部音频特征对应的第三声纹特征；第二处理子单元，用于将所述第三声纹特征输入所述学生网络中的声纹分布预测层，以获取所述声纹分布预测层输出的所述样本局部音频特征对应的第一初始声纹分布概率。18.根据权利要求14所述的装置，其中，所述第三获取模块，包括：第三分帧子模块，用于对所述样本音频数据进行分帧，以得到多帧第三子音频数据；第三特征提取子模块，用于对各帧所述第三子音频数据进行特征提取，以得到各帧所述第三子音频数据对应的特征向量；第四获取子模块，用于对于各帧所述第三子音频数据，基于对应的所述特征向量，以及各帧所述第三子音频数据对应的特征向量的平均值，获取所述第三子音频数据对应的样本全局音频特征。
19.根据权利要求18所述的装置，其中，所述教师网络分支还包括与所述教师网络连接的中心化层，以及与所述中心化层连接的第二归一化层；所述第一处理子模块，包括：第三处理单元，用于将各帧所述第三子音频数据对应的样本全局音频特征，输入所述教师网络，以获取所述教师网络输出的各帧所述第三子音频数据对应的第二初始声纹分布概率；第四处理单元，用于将各帧所述第三子音频数据对应的第二初始声纹分布概率，输入所述中心化层，以利用各帧所述第三子音频数据对应的第二初始声纹分布概率的平均值，对所述中心化层输出的前一个样本音频数据对应的初始声纹分布概率进行更新，得到第三初始声纹分布概率；第五处理单元，用于将所述第三初始声纹分布概率，输入所述第二归一化层，以获取所述第二归一化层输出的所述第二声纹分布概率。20.根据权利要求15所述的装置，其中，所述训练样本集的数量为n，n为大于1的整数；所述装置还包括：第四获取模块，用于获取n个所述训练样本集中的m个所述训练样本集；所述训练模块包括训练单元，用于基于m个所述训练样本集对所述声纹识别模型中的教师网络和学生网络进行一个阶段的训练；其中，m为大于0的整数；所述装置还包括：第二确定模块，用于将经过p个阶段的训练后得到的声纹识别模型，确定为所述训练后的声纹识别模型；p为大于1的整数，且随着阶段数的增加，m的数值增大，对m个所述训练样本集中样本音频数据进行数据增强的方式增多。21.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-2中任一项所述的方法，或者执行权利要求3-10中任一项所述的方法。22.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-2中任一项所述的方法，或者执行权利要求3-10中任一项所述的方法。23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-2中任一项所述的方法的步骤，或者实现权利要求3-10中任一项所述的方法的步骤。

技术总结
本公开提供了一种声纹识别方法、装置、电子设备和存储介质，涉及深度学习、语音技术等人工智能技术领域。具体实现方案为：获取待识别的目标音频数据，并基于目标音频数据，获取对应的局部音频特征和全局音频特征；将局部音频特征输入声纹识别模型的学生网络，以得到学生网络输出的第一声纹特征；将全局音频特征输入声纹识别模型的教师网络，以得到教师网络输出的第二声纹特征；基于第一声纹特征和第二声纹特征，确定目标音频数据对应的目标声纹特征。通过利用学生网络和教师网络，分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征，获取目标音频数据对应的目标声纹特征，提高了声纹识别的准确性。提高了声纹识别的准确性。提高了声纹识别的准确性。

技术研发人员：赵情恩
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.05.17
技术公布日：2022/8/16

完整全部详细技术资料下载

当前第2页1 2