用于转换语音音色的方法、装置、电子设备和可读介质与流程

文档序号：33990825发布日期：2023-04-29 15:19阅读：88来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开的实施例涉及计算机，具体涉及一种用于转换语音音色的方法、装置、电子设备和计算机可读介质。

背景技术：

1、在现有的跨语言音色转换方法中，由于目标语音的语言和源语音的语言有较大差异，生成的语音质量受到了严重影响。大多数跨语言音色转换模型是基于多领域对抗生成网络的或是自编码器网络的，它们需要提取参考语音的音色和内容语音的内容编码。

2、例如，使用英文目标语音提取音色编码向量，使用中文目标语音提取内容编码向量，转换得到的语音往往呈现出一种“洋腔洋调”的效果，即基频无法保持稳定。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了一种用于转换语音音色的方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题。

3、第一方面，本公开的一些实施例提供了一种用于转换语音音色的方法，该方法包括：获取目标语音和参考语音；对所述目标语音和所述参考语音进行频谱特征提取，得到所述目标语音对应的目标对数梅尔频谱以及所述参考语音对应的参考对数梅尔频谱；将所述目标对数梅尔频谱输入至预先训练的内容编码器，得到目标语音内容编码向量，其中，所述内容编码器由多层多头自注意力层以及至少两层卷积层组成；对所述参考对数梅尔频谱进行音色特征提取，得到参考语音音色编码向量；将所述参考语音音色编码向量和所述目标语音内容编码向量输入至预先训练的解码器中，得到预测梅尔频谱，以及根据所述预测梅尔频谱生成音色转换语音，其中，所述解码器包括至少一层重参数化卷积层、多层自注意力风格迁徙模块以及至少一层后处理网络。

4、第二方面，本公开的一些实施例提供了一种用于转换语音音色的装置，装置包括：获取单元，被配置成获取目标语音和参考语音；第一提取单元，被配置成对上述目标语音和上述参考语音进行频谱特征提取，得到上述目标语音对应的目标对数梅尔频谱以及上述参考语音对应的参考对数梅尔频谱；第二提取单元，被配置成将所述目标对数梅尔频谱输入至预先训练的内容编码器，得到目标语音内容编码向量，其中，所述内容编码器由多层多头自注意力层以及至少两层卷积层组成；第三提取单元，被配置成对上述参考对数梅尔频谱进行音色特征提取，得到参考语音音色编码向量；生成单元，被配置成将所述参考语音音色编码向量和所述目标语音内容编码向量输入至预先训练的解码器中，得到预测梅尔频谱，以及根据所述预测梅尔频谱生成音色转换语音，其中，所述解码器包括至少一层重参数化卷积层、多层自注意力风格迁徙模块以及至少一层后处理网络。

5、第三方面，本申请实施例提供了一种电子设备，该网络设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

6、第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

7、本公开的上述各个实施例中的一个实施例具有如下有益效果：首先获取目标语音和参考语音，之后对目标语音和参考语音进行频谱特征提取，以得到目标对数梅尔频谱以及参考对数梅尔频谱，再对目标对数梅尔频谱进行内容特征提取，得到目标语音内容编码向量，进而对参考对数梅尔频谱进行音色特征提取，得到参考语音音色编码向量，最后根据目标语音内容编码向量和参考语音音色编码向量，生成音色转换语音。本文提出的方法尝试设计更好的编解码器和风格迁移模块，即自注意力风格迁移模块，能够在各个说话人少样本的情况下，生成的音色转换语音能良好地进行多对多的跨语言交流，能使外国人说中文，或者中国人说外语，并且能够保证最后生成的音色转换语音具有优良的语音质量。

技术特征：

1.一种用于转换语音音色的方法，包括：

2.根据权利要求1所述的方法，其中，所述多头自注意力层依次包含一个256隐藏单元的自注意力层、一个ln层、一次残差连接层和一个2层的一维卷积网络；所述至少两层卷积层包括vae均值预测卷积层和vae标准差预测卷积层。

3.根据权利要求1所述的方法，其中，所述对所述参考对数梅尔频谱进行音色特征提取，得到参考语音音色编码向量，包括：

4.根据权利要求1所述的方法，其中，所述解码器是根据以下步骤训练得到的：

5.根据权利要求1所述的方法，其中，所述后处理网络包括3层卷积模块和一次残差连接模块。

6.一种用于转换语音音色的装置，包括：

7.根据权利要求6所述的装置，其中，所述多头自注意力层依次包含一个256隐藏单元的自注意力层、一个ln层、一次残差连接层和一个2层的一维卷积网络；所述至少两层卷积层包括vae均值预测卷积层和vae标准差预测卷积层。

8.一种电子设备，包括：

9.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。

技术总结
本公开的实施例公开了一种用于转换语音音色的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取目标语音和参考语音；对目标语音和参考语音进行频谱特征提取，得到目标语音对应的目标对数梅尔频谱以及参考语音对应的参考对数梅尔频谱；将目标对数梅尔频谱输入至预先训练的内容编码器，得到目标语音内容编码向量；对参考对数梅尔频谱进行音色特征提取，得到参考语音音色编码向量；将参考语音音色编码向量和目标语音内容编码向量输入至预先训练的解码器中，得到预测梅尔频谱，根据预测梅尔频谱生成音色转换语音。该实施方式能够生成音色转换语音，并且使生成的音色转换语音具有较高的语音质量。消除了人们跨语言交流的障碍。

技术研发人员：柯登峰,姚文翰,胡睿欣,罗琪,王运峰
受保护的技术使用者：澳克多普有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：柯登峰姚文翰胡睿欣罗琪王运峰
技术所有人：澳克多普有限公司
我是此专利的发明人

上一篇：不间断电源供电装置的制作方法
上一篇：一种直流输电系统直流侧谐振抑制装置的制作方法