合成语音检测方法、装置、电子设备和存储介质与流程

文档序号：41528542发布日期：2025-04-07 22:56阅读：4来源：国知局

本发明涉及语音检测，尤其涉及一种合成语音检测方法、装置、电子设备和存储介质。

背景技术：

1、随着信息技术的发展，语音作为一种具有独特生物特性的信息载体，在身份认证领域发挥着重要作用。然而，随着深度学习技术的发展，语音合成与转换技术飞跃式进步，其能够合成十分逼真的语音，这些高逼真度的虚假语音不仅会欺骗人类的听觉系统，还可能会引发社会舆论，以及对群众财产安全构成严重威胁。

2、目前，合成语音检测大多依赖于深度学习技术，通过将各种深度学习算法应用于合成语音检测，极大地提升了合成语音的检测效率。然而，当前主流的合成语音检测方法大多基于干净语音环境设计，即大多是针对没有经过处理的纯净语音进行检测，而实际应用中的合成语音往往是经过各种处理的，处理过程中语音信息大量丢失，导致合成语音的诸多痕迹被抹除掉，致使检测性能急剧下降。

技术实现思路

1、本发明提供一种合成语音检测方法、装置、电子设备和存储介质，用以解决现有技术中合成语音检测大多针对纯净语音，而在经过处理的语音上表现不佳，检测性能大幅下降的缺陷，通过修复处理过程中损失的信息，实现处理后合成语音的准确检测。

2、本发明提供一种合成语音检测方法，包括：

3、确定待检测语音；

4、对所述待检测语音进行语音修复，得到修复语音；

5、基于所述修复语音进行合成语音检测，得到语音检测结果。

6、根据本发明提供的一种合成语音检测方法，所述对所述待检测语音进行语音修复，得到修复语音，包括：

7、对所述待检测语音进行特征提取，得到语音频谱特征；

8、将所述语音频谱特征输入至语音修复模型，得到所述语音修复模型输出的修复语音；

9、所述语音修复模型基于样本压缩语音，以及所述样本压缩语音对应的样本纯净语音，联合判别模型进行对抗训练得到；

10、所述判别模型用于区分预测修复语音与所述样本纯净语音，所述预测修复语音由训练过程中的语音修复模型基于所述样本压缩语音确定；所述样本压缩语音基于对应样本纯净语音进行有损压缩得到。

11、根据本发明提供的一种合成语音检测方法，所述语音修复模型是在所述样本压缩语音的第一预测分类结果，以及所述样本压缩语音对应的样本纯净语音的类别标签的基础上，基于所述样本压缩语音及其对应的样本纯净语音，联合判别模型进行对抗训练得到；

12、所述类别标签用于表示对应样本纯净语音为真实语音或者合成语音；

13、所述第一预测分类结果用于表示对应样本压缩语音为真实语音或者合成语音；所述第一预测分类结果基于对应样本压缩语音对应的预测修复语音进行合成语音检测得到。

14、根据本发明提供的一种合成语音检测方法，所述基于所述修复语音进行合成语音检测，得到语音检测结果，包括：

15、将所述修复语音输入至分类模型，得到所述分类模型输出的语音检测语音；

16、所述分类模型是在初始分类模型的基础上，基于所述样本压缩语音的第二预测分类结果，以及所述样本压缩语音对应的样本纯净语音的类别标签训练得到的；所述初始分类模型基于样本纯净语音及其对应的类别标签训练得到；

17、所述第二预测分类结果用于表示对应样本压缩语音为真实语音或者合成语音；所述第二预测分类结果基于对应样本压缩语音对应的样本修复语音进行合成语音检测得到，所述样本修复语音由所述语音修复模型基于对应样本压缩语音确定。

18、根据本发明提供的一种合成语音检测方法，所述语音修复模型和所述判别模型基于如下步骤训练：

19、构建初始语音修复模型和初始判别模型；

20、将所述样本压缩语音的样本语音频谱特征输入至所述初始语音修复模型，得到所述初始语音修复模型输出的预测修复语音；

21、将所述预测修复语音，以及所述样本压缩语音对应的样本纯净语音分别输入至所述初始判别模型，得到所述初始判别模型输出的所述预测修复语音的判别结果，以及所述样本纯净语音的判别结果；

22、基于所述预测修复语音、所述样本纯净语音、所述预测修复语音的判别结果，以及所述样本纯净语音的判别结果，对所述初始语音修复模型和所述初始判别模型进行参数更新，得到所述语音修复模型和所述判别模型。

23、根据本发明提供的一种合成语音检测方法，所述基于所述预测修复语音、所述样本纯净语音、所述预测修复语音的判别结果，以及所述样本纯净语音的判别结果，对所述初始语音修复模型和所述初始判别模型进行参数更新，得到所述语音修复模型和所述判别模型，包括：

24、将所述预测修复语音输入至初始分类模型，得到所述初始分类模型输出的所述样本压缩语音的第一预测分类结果；

25、基于所述预测修复语音、所述样本纯净语音、所述样本压缩语音的第一预测分类结果，以及所述样本压缩语音对应的样本纯净语音的类别标签，确定生成损失；

26、基于所述预测修复语音的判别结果，以及所述样本纯净语音的判别结果，确定所述初始判别模型的判别损失；

27、基于所述生成损失和所述判别损失，对所述初始语音修复模型和所述初始判别模型进行参数更新，得到所述语音修复模型和所述判别模型。

28、根据本发明提供的一种合成语音检测方法，所述分类模型基于如下步骤训练：

29、将所述样本纯净语音输入至检测分类器，得到所述检测分类器输出的所述样本纯净语音的预测分类结果；

30、基于所述样本纯净语音的预测分类结果，以及所述样本纯净语音的类别标签，对所述检测分类器进行参数更新，得到初始分类模型；

31、将所述样本压缩语音对应的样本修复语音输入至所述初始分类模型，得到所述初始分类模型输出的第二预测分类结果；

32、基于所述第二预测分类结果，以及所述样本压缩语音对应的样本纯净语音的类别标签，对所述初始分类模型进行参数更新，得到分类模型。

33、根据本发明提供的一种合成语音检测方法，所述样本压缩语音基于如下步骤确定：

34、确定多个压缩比特率；

35、基于各个压缩比特率，对所述样本纯净语音进行有损压缩，得到样本目标语音；

36、基于所述样本目标语音进行音频格式解压缩，得到样本压缩语音。

37、本发明还提供一种合成语音检测装置，包括：

38、语音确定单元，用于确定待检测语音；

39、语音修复单元，用于对所述待检测语音进行语音修复，得到修复语音；

40、语音检测单元，用于基于所述修复语音进行合成语音检测，得到语音检测结果。

41、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述的合成语音检测方法。

42、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的合成语音检测方法。

43、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的合成语音检测方法。

44、本发明提供的合成语音检测方法、装置、电子设备和存储介质，通过对待检测语音进行语音修复，得到修复语音，基于修复语音进行合成语音检测，得到语音检测结果，克服了目前经过处理的合成语音的检测难度高、准确性不佳的缺陷，通过恢复处理过程中损失的信息，使得修复语音尽可能接近未经处理的纯净语音，基于此进行检测，可以较为准确地捕捉合成语音的痕迹，从而极大地提升了合成语音检测的准确性，以及检测结果的可靠性，并为基于语音的身份认证系统提供了安全保障，以及为群众的财产、信息安全提供了切实有效的保障。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李佳龙,来意哲,付中华,马峰,高建清
技术所有人：西安讯飞超脑信息科技有限公司
我是此专利的发明人

上一篇：一种配油盘组装设备的制作方法
上一篇：一种扩展坞及图像显示系统的制作方法