用于语音合成的方法、装置、设备和存储介质与流程

文档序号：39043541发布日期：2024-08-16 16:13阅读：62来源：国知局

本公开的示例实施例总体涉及计算机领域，并且更具体地，涉及用于语音合成的方法、装置、设备和计算机可读存储介质。

背景技术：

1、随着人工智能和全球广域网(web)应用发展越来越成熟，文本到语音(text-to-speech)的语音合成技术在全球广域网中的应用越来越广泛，比如在线智能客服的语音交互、小说语音朗读、数字人语音播报等场景。因此，期待使合成语音的表现力更加丰富，以及保留合成语音的细节。

技术实现思路

1、在本公开的第一方面，提供一种用于语音合成的方法。该方法包括：获取目标文本和目标音色的标识信息；将目标文本和目标音色的标识信息输入声学模型，以获取目标文本对应的第一语音表征；通过将第一语音表征替换为从参考语音表征库中提取的第二语音表征，确定目标文本对应的目标语音表征，参考语音表征库包括具有目标音色的参考语音对应的参考语音表征；以及基于目标语音表征，合成目标文本对应的目标语音。

2、在本公开的第二方面，提供一种用于语音合成的装置。该装置包括：信息获取模块，被配置为获取目标文本和目标音色的标识信息；表征获取模块，被配置为将目标文本和目标音色的标识信息输入声学模型，以获取目标文本对应的第一语音表征；表征确定模块，被配置为通过将第一语音表征替换为从参考语音表征库中提取的第二语音表征，确定目标文本对应的目标语音表征，参考语音表征库包括具有目标音色的参考语音对应的参考语音表征；以及语音合成模块，被配置为基于目标语音表征，合成目标文本对应的目标语音。

3、在本公开的第三方面，提供了一种电子设备。该电子设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令在由至少一个处理单元执行时使客户端设备执行本公开第一方面的方法。

4、在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，其可由处理器执行以执行根据本公开的第一方面的方法。

5、应当理解，本
技术实现要素：
部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

技术特征：

1.一种语音合成方法，包括：

2.根据权利要求1所述的方法，其中确定所述目标文本对应的目标语音表征包括：

3.根据权利要求2所述的方法，其中从所述参考语音表征库中提取所述第二语音表征用于替换所述第一语音表征包括：

4.根据权利要求1所述的方法，其中所述参考语音表征库采用以下方式获取：

5.根据权利要求4所述的方法，其中所述语音模型通过以下方式被训练得到：

6.根据权利要求1所述的方法，其中所述声学模型通过以下方式被训练得到：

7.根据权利要求1所述的方法，其中合成所述目标文本对应的目标语音包括：

8.根据权利要求7所述的方法，其中所述声码器通过以下方式被训练得到：

9.一种用于语音合成的装置，包括：

10.一种电子设备，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。

技术总结
本公开的实施例提供一种用于语音合成的方法、装置、设备和介质。该方法包括：获取目标文本和目标音色的标识信息；将目标文本和目标音色的标识信息输入声学模型，以获取目标文本对应的第一语音表征；通过将第一语音表征替换为从参考语音表征库中提取的第二语音表征，确定目标文本对应的目标语音表征，参考语音表征库包括具有目标音色的参考语音对应的参考语音表征；以及基于目标语音表征，合成目标文本对应的目标语音。由此，通过将预测的语音表征替换为从参考语音表征库中提取出的表征，能够获得更精确的语音波形，从而提高语音合成的精确度。

技术研发人员：张雅洁,宋伟,吴友政
受保护的技术使用者：京东城市（北京）数字科技有限公司
技术研发日：
技术公布日：2024/8/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张雅洁,宋伟,吴友政
技术所有人：京东城市（北京）数字科技有限公司
我是此专利的发明人

上一篇：一种汽车空调滤芯传感器组件及其工作方法与流程
上一篇：一种飞行汽车的控制方法与流程