用于生成语音的方法、装置、电子设备和计算机可读介质与流程

文档序号：21621678发布日期：2020-07-29 02:27阅读：来源：国知局

技术特征：

1.一种用于生成语音的方法，包括：

获取用户语音和目标说话人语音；

提取所述用户语音中的文本特征向量；

根据所述目标说话人语音，得到目标说话人信息；

基于所述目标说话人信息和文本特征向量，生成目标语言的语音。

2.根据权利要求1所述的方法，其中，所述提取用户语音中的文本特征向量，包括：

提取所述用户语音中的声学特征；

通过提取模型对声学特征进行分析，得到文本特征向量，其中，所述提取模型已通过第一样本训练样本集合进行了训练，所述第一训练样本集合包括样本声学特征和样本文本特征向量。

3.根据权利要求2所述的方法，其中，所述提取模型是以所述样本声学特征作为输入并以所述样本文本特征向量用于作为期望输出进行训练的。

4.根据权利要求1所述的方法，其中，所述根据所述目标说话人语音，得到目标说话人信息，包括：

通过生成模型对目标说话人语音进行分析，得到目标说话人信息，其中，所述生成模型已通过第二样本训练集合进行了训练，所述第二训练样本集合包括样本目标说话人语音和样本目标说话人信息。

5.根据权利要求4所述的方法，其中，所述生成模型是以所述样本目标说话人语音作为期望输入并以所述样本目标说话人信息作为期望输出进行训练的。

6.根据权利要求1所述的方法，其中，所述基于所述目标说话人信息和文本特征向量，生成目标语言的语音，包括：

通过转换模型对目标说话人信息和文本特征向量进行分析，得到目标声学特征，其中，所述转换模型已通过第三样本训练集合进行了训练，所述第三训练样本集合包括样本目标说话人信息、样本文本特征向量和样本目标声学特征；

将所述目标声学特征转换为目标语言的语音。

7.根据权利要求6所述的方法，其中，所述生成模型是以所述样本目标说话人语音和样本文本特征向量作为期望输入并以所述样本目标声学特征作为期望输出进行训练的。

8.一种用于生成语音的装置，包括：

获取单元，被配置成获取用户语音和目标说话人语音；

提取单元，被配置成提取所述用户语音中的文本特征向量；

第一生成单元，被配置成根据所述目标说话人语音，得到目标说话人信息；

第二生成单元，被配置成基于所述目标说话人信息和文本特征向量，生成目标语言的语音。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结
本公开的实施例公开了用于生成语音的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取用户语音和目标说话人语音；提取用户语音中的文本特征向量；根据目标说话人语音，得到目标说话人信息；基于目标说话人信息和文本特征向量，生成目标语言的语音。该实施方式实现了任意的目标说话人声音的定制化语音生成，提升用户体验。

技术研发人员：汤本来;顾宇
受保护的技术使用者：北京字节跳动网络技术有限公司
技术研发日：2020.03.31
技术公布日：2020.07.28

完整全部详细技术资料下载

当前第2页1 2