语音转换方法、系统、装置及存储介质与流程

文档序号：21008867发布日期：2020-06-05 23:23阅读：来源：国知局

技术特征：

1.一种语音转换方法，其特征在于，所述方法包括：

获取待转换语音，提取所述待转换语音的声学特征；

从源向量池中获取与所述待转换语音对应的源向量，从目标向量池中选取目标语音对应的目标向量；

将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入，获取所述语音转换模型输出的目标语音声学特征；

采用声码器对所述目标语音声学特征进行转换得到目标语音。

2.根据权利要求1所述的方法，其特征在于，所述从源向量池中获取与所述待转换语音对应的源向量，从目标向量池中选取目标语音对应的目标向量，包括：

获取待转换语音对应的源语音标识，根据所述源语音标识从源向量池中获取与所述待转换语音对应的源向量；

获取目标语音对应的目标语音标识，根据所述目标语音标识从目标向量池中选取目标语音对应的目标向量。

3.根据权利要求1所述的方法，其特征在于，所述语音转换模型采用以下步骤得到：

获取多个源说话人语音对应的待训练源向量池，获取多个目标说话人语音对应的待训练目标向量池，所述待训练源向量池中包括每个源说话人语音的待训练源向量，所述待训练目标向量池包括每个目标说话人语音的待训练目标向量；

获取训练样本对集合，所述训练样本对集合中包括多个训练样本对，所述训练样本对中包括源说话人对应的训练语音样本和目标说话人对应的训练目标语音样本；

提取所述训练语音样本的声学特征，提取所述训练目标语音样本的声学特征；

将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入，将所述训练目标语音样本的声学特征作为期望的输出，对所述待训练语音转换模型进行训练，得到训练好的语音转换模型。

4.根据权利要求3所述的方法，其特征在于，所述将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入，将所述训练目标语音样本的声学特征作为期望的输出，对所述待训练语音转换模型进行训练，得到训练好的语音转换模型，包括：

将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入，获取所述待训练语音转换模型输出的实际语音声学特征；

根据所述训练目标语音样本的声学特征和所述实际语音声学特征计算得到损失值；

根据所述损失值对所述待训练语音转换模型中的参数、所述待训练源向量和所述待训练目标向量进行更新，直到所述损失值达到预设的收敛条件，将最后更新得到的待训练语音转换模型作为目标语音转换模型，将最后更新得到的待训练源向量作为训练好的源向量池中的源向量，将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量。

5.根据权利要求3所述的方法，其特征在于，在所述提取所述训练语音样本的声学特征，提取所述训练目标语音样本的声学特征之后，还包括：

将所述训练语音样本的声学特征与所述训练目标语音样本的声学特征进行对齐；

根据对齐结果得到对齐后的训练语音样本的声学特征，将所述对齐后的训练语音样本的声学特征作为待训练语音转换模型的输入。

6.根据权利要求1所述的方法，其特征在于，所述获取待转换语音，提取所述待转换语音的声学特征，包括：

转换所述待转换语音，得到待转换语音对应的待转换声学特征；

根据所述待转换声学特征，计算得到所述待转换语音的声学特征。

7.根据权利要求1所述的方法，其特征在于，所述声码器采用以下步骤得到：

获取多个目标说话人的语音数据，提取每个目标说话人的语音数据对应的声学特征和向量；

将声码器中的参数、所述声学特征和所述向量作为所述声码器的输入，将相应的目标说话人的语音数据作为期望的输出，对所述声码器进行训练，得到训练好的声码器，所述训练好的声码器用于对所述目标语音声学特征进行转换得到目标语音。

8.一种语音转换系统，其特征在于，所述系统包括：语音特征分析器，语音转换模型和声码器；

所述语音特征分析器用于获取待转换语音，提取所述待转换语音的声学特征；

所述语音转换模型用于对所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量进行转换，获取输出的目标语音声学特征；

所述声码器用于对所述目标语音声学特征进行转换得到目标语音。

9.一种语音转换装置，其特征在于，所述装置包括：

获取模块，用于获取待转换语音，提取所述待转换语音的声学特征；

选取模块，用于从源向量池中获取与所述待转换语音对应的源向量，从目标向量池中选取目标语音对应的目标向量；

训练模块，用于将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入，获取所述语音转换模型输出的目标语音声学特征；

转换模块，用于采用声码器对所述目标语音声学特征进行转换得到目标语音。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

技术总结
本申请公开了一种语音转换方法，所述方法包括：获取待转换语音，提取所述待转换语音的声学特征；从源向量池中获取与所述待转换语音对应的源向量，从目标向量池中选取目标语音对应的目标向量；将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入，获取所述语音转换模型输出的目标语音声学特征；采用声码器对所述目标语音声学特征进行转换得到目标语音。通过语音转换模型得到目标语音声学特征，再对目标语音声学特征进行转换得到目标语音，使得单个语音转换模型能够进行多对多的语音转换，同时可以解决因存放模型而产生额外成本的问题。此外，还提出了一种语音转换系统、装置及存储介质。

技术研发人员：王若童;汤志超;黄东延;谢杰斌;赵之源;刘洋;熊友军
受保护的技术使用者：深圳市优必选科技股份有限公司
技术研发日：2019.12.24
技术公布日：2020.06.05

完整全部详细技术资料下载

当前第2页1 2