音频翻译方法、装置、电子设备以及存储介质与流程

文档序号：36639095发布日期：2024-01-06 23:24阅读：60来源：国知局

本申请涉及语音翻译，更具体地，涉及一种音频翻译方法、装置、电子设备以及存储介质。

背景技术：

1、随着人工智能技术的快速发展，自然语言处理技术的应用越来越广泛，语音翻译任务是自然语言处理中的一个重要任务，即将原始语言音频翻译成目标语言文本，但是，目前的语音翻译任务存在语音翻译的准确性不佳的问题。

技术实现思路

1、鉴于上述问题，本申请提出了一种音频翻译方法、装置、电子设备以及存储介质，以解决上述问题。

2、第一方面，本申请实施例提供了一种音频翻译方法，所述方法包括：获取对应初始声纹的第一原始语言音频；提取所述第一原始语言音频对应的原始语言文本，并基于目标声纹对所述原始语言文本进行音频合成获得对应所述目标声纹的第二原始语言音频，以及对所述第二原始语言音频进行语音到本文翻译获得目标语言文本。

3、第二方面，本申请实施例提供了一种音频翻译装置，所述装置包括：原始语言音频获取模块，用于获取对应初始声纹的第一原始语言音频；目标语言文本获得模块，用于提取所述第一原始语言音频对应的原始语言文本，并基于目标声纹对所述原始语言文本进行音频合成获得对应所述目标声纹的第二原始语言音频，以及对所述第二原始语言音频进行语音到本文翻译获得目标语言文本。

4、第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

5、第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

6、本申请实施例提供的音频翻译方法、装置、电子设备以及存储介质，获取对应初始声纹的第一原始语言音频，提取第一原始语言音频对应的原始语言文本，并基于目标声纹对原始语言文本进行音频合成获得对应目标声纹的第二原始语言音频，以及对第二原始语言音频进行语音到文本翻译获得目标语言文本，以通过针对语音翻译场景将音频的声纹进行标准化处理的方式，可以避免不同的人说出相同的语音对应的翻译结果不同的问题，从而提升语音翻译的准确性。

技术特征：

1.一种音频翻译方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取所述第一原始语言音频对应的原始语言文本，并基于目标声纹对所述原始语言文本进行音频合成获得对应所述目标声纹的第二原始语言音频，以及对所述第二原始语言音频进行语音到文本翻译获得目标语言文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述语音翻译模型包括声纹转换模块和文本翻译模块，所述将所述第一原始语言音频输入已训练的语音翻译模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述声纹转换模块包括内容编码器和解码器，所述将所述第一原始语言音频输入所述声纹转换模块，通过所述声纹转换模块对所述第一原始语言音频进行内容特征提取获得所述原始语言文本，并基于所述目标声纹对所述原始语言文本进行音频合成，获得对应所述目标声纹的所述第二原始语言音频，包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，在所述将所述第一原始语言音频输入已训练的语音翻译模型之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述声纹转换模块通过预训练获得，在所述基于目标声纹和所述第一训练数据集对待训练的语音翻译模型进行训练，获得已训练的语音翻译模型之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述声纹转换模型包括内容编码器和解码器，所述内容编码器通过预训练获得，在所述基于所述第二训练数据集对声纹转换模型进行训练，获得预训练的声纹转换模块之前，还包括：

8.根据权利要求6所述的方法，其特征在于，所述声纹转换模型还包括发言者编码器，所述发言者编码器通过预训练获得，在所述基于所述第二训练数据集对声纹转换模型进行训练，获得预训练的声纹转换模块之前，还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种音频翻译装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-9任一项所述的方法。

12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。

技术总结
本申请公开了一种音频翻译方法、装置、电子设备以及存储介质，涉及语音翻译技术领域。该方法包括：获取对应初始声纹的第一原始语言音频，提取第一原始语言音频对应的原始语言文本，并基于目标声纹对原始语言文本进行音频合成获得对应目标声纹的第二原始语言音频，以及对第二原始语言音频进行语音到文本翻译获得目标语言文本。本申请通过针对语音翻译场景将音频的声纹进行标准化处理的方式，可以避免不同的人说出相同的语音对应的翻译结果不同的问题，从而提升语音翻译的准确性。

技术研发人员：张晓雷,薛征山
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：
技术公布日：2024/1/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晓雷,薛征山
技术所有人：OPPO广东移动通信有限公司
我是此专利的发明人

上一篇：5G MIMO移频双路系统的运行监测方法和系统与流程
上一篇：一种基于Zynq的多通道模拟数据采集系统的制作方法