应用于金融服务的沟通语音纠正方法、装置、设备及介质与流程

文档序号：39050518发布日期：2024-08-17 22:12阅读：60来源：国知局

本申请适用于人工智能，尤其涉及一种应用于金融服务的沟通语音纠正方法、装置、设备及介质。

背景技术：

1、为了进一步拓展海外业务，外语的使用是非常重要的。然而对于英语母语者而言，非母语者的发音习惯仍旧难以贴近当地的日常，会略显生硬，不易理解。为了向不同地区都能提供周到的客户服务，提高语言可懂度，去模拟母语者的发音习惯非常重要的。现有技术中，一般基于各种语音自监督表示特征对非母语者的发音进行纠正，纠正后能很好地重构出语音的内容表征，而这些语音自监督单元其中含有更多副语言内容没有充分利用，使语音纠正精度较低，因此如何提高语音纠正精度，成为亟需解决的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种应用于金融服务的沟通语音纠正方法、装置、设备及介质，以解决语音纠正精度较低的问题。

2、本申请实施例的第一方面提供了一种应用于金融服务的沟通语音纠正方法，所述沟通语音纠正方法包括：

3、当用户在金融服务系统中进入会议时，检测所述会议的目标语言和所述用户的语言体系是否匹配，若所述会议的目标语言与所述用户的语言体系不匹配，则实时获取所述用户的源语音，另外还获取所述目标语言对应的参考语音；

4、对所述源语音与所述参考语音进行特征提取，得到对应所述源语音的n个第一语音帧特征与所述参考语音的m个第二语音帧特征，n，m为大于1的整数；

5、针对任一所述第一语音帧特征，通过最近邻算法，确定所述第一语音帧特征的k个近邻第二语音帧特征，计算k个近邻第二语音帧特征的均值，得到均值语音帧特征，遍历n个所述第一语音帧特征，得到n个所述均值语音帧特征；

6、对所述源语音进行声纹识别，得到声纹识别特征，根据n个所述均值语音帧特征与所述声纹识别特征，使用训练好的声码器进行语音预测，得到预测结果，所述预测结果表征所述源语音纠正后的语音结果。

7、本申请实施例的第二方面提供了一种应用于金融服务的沟通语音纠正装置，所述沟通语音纠正装置包括：

8、获取模块，用于当用户在金融服务系统中进入会议时，检测所述会议的目标语言和所述用户的语言体系是否匹配，若所述会议的目标语言与所述用户的语言体系不匹配，则实时获取所述用户的源语音，另外还获取所述目标语言对应的参考语音；

9、提取模块，用于对所述源语音与所述参考语音进行特征提取，得到对应所述源语音的n个第一语音帧特征与所述参考语音的m个第二语音帧特征，n，m为大于1的整数；

10、确定模块，用于针对任一所述第一语音帧特征，通过最近邻算法，确定所述第一语音帧特征的k个近邻第二语音帧特征，计算k个近邻第二语音帧特征的均值，得到均值语音帧特征，遍历n个所述第一语音帧特征，得到n所述个均值语音帧特征；

11、预测模块，用于对所述源语音进行声纹识别，得到声纹识别特征，根据n个所述均值语音帧特征与所述声纹识别特征，使用训练好的声码器进行语音预测，得到预测结果，所述预测结果表征所述源语音纠正后的语音结果。

12、第三方面，本发明实施例提供一种终端设备，所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的沟通语音纠正方法。

13、第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的沟通语音纠正方法。

14、本申请实施例与现有技术相比存在的有益效果是：

15、当用户在金融服务系统中进入会议时，检测会议的目标语言和用户的语言体系是否匹配，若会议的目标语言与用户的语言体系不匹配，则实时获取用户的源语音，另外还获取目标语言对应的参考语音，对源语音与参考语音进行特征提取，得到对应源语音的n个第一语音帧特征与参考语音的m个第二语音帧特征，n，m为大于1的整数，针对任一第一语音帧特征，通过最近邻算法，确定第一语音帧特征的k个近邻第二语音帧特征，计算k个近邻第二语音帧特征的均值，得到均值语音帧特征，遍历n个第一语音帧特征，得到n个均值语音帧特征，对源语音进行声纹识别，得到声纹识别特征，根据n个均值语音帧特征与声纹识别特征，使用训练好的声码器进行语音预测，得到预测结果，预测结果表征源语音纠正后的语音结果。本申请中，通过近邻算法，将参考语音帧特征中的k个语音帧特征均值替换对应源语音中的语音帧特征，并将替换的语音帧特征与源语音的声纹特征进行融合，根据融合特征进行语音合成预测，将预测结果作为纠正后的结果，纠正后的结果保留了源语音的声纹特征，提高了语音合成预测的精度，从而提高了语音纠正精度。

技术特征：

1.一种应用于金融服务的沟通语音纠正方法，其特征在于，所述沟通语音纠正方法包括：

2.如权利要求1所述的沟通语音纠正方法，其特征在于，所述对所述源语音与所述参考语音进行特征提取，包括：

3.如权利要求1所述的沟通语音纠正方法，其特征在于，所述通过最近邻算法，确定所述第一语音帧特征的k个近邻第二语音帧特征，包括：

4.如权利要求1所述的沟通语音纠正方法，其特征在于，所述对所述源语音进行声纹识别，得到声纹识别特征，包括：

5.如权利要求4所述的沟通语音纠正方法，其特征在于，所述将所述第一声纹特征与所述第二声纹特征进行特征融合，得到所述源语音的融合声纹特征，包括：

6.如权利要求1所述的沟通语音纠正方法，其特征在于，所述根据n个所述均值语音帧特征与所述声纹识别特征，使用训练好的声码器进行语音预测，得到预测结果之前，还包括：

7.一种应用于金融服务的沟通语音纠正装置，其特征在于，所述沟通语音纠正装置包括：

8.如权利要求7所述的沟通语音纠正装置，其特征在于，所述确定模块包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的沟通语音纠正方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的沟通语音纠正方法。

技术总结
本申请适用于人工智能技术领域，尤其涉及一种应用于金融服务的沟通语音纠正方法、装置、设备及介质。实时获取用户的源语音与目标语言对应的参考语音，通过特征提取，得到对应N个第一语音帧特征与M个第二语音帧特征，通过最近邻算法，确定每个第一语音帧特征的K个近邻第二语音帧特征，计算K个近邻第二语音帧特征的均值，得到均值语音帧特征，将参考语音帧特征中的K个语音帧特征均值替换对应源语音中的语音帧特征，并将替换的语音帧特征与源语音的声纹特征进行融合，根据融合特征进行语音合成预测，将预测结果作为纠正后的结果，纠正后的结果保留了源语音的声纹特征，提高了语音合成预测的精度，从而提高了语音纠正精度。

技术研发人员：张旭龙,王健宗,程宁,赵金凤
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：
技术公布日：2024/8/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张旭龙,王健宗,程宁,赵金凤
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人