语音转换方法、装置、电子设备及存储介质与流程

文档序号：32003842发布日期：2022-11-02 12:17阅读：66来源：国知局

1.本公开涉及语音转换领域，尤其涉及一种语音转换方法、装置、电子设备及存储介质。

背景技术：

2.相关技术中，语音转换任务是对一个用户的个性化特征进行处理，使其听起来像另一个用户的声音。目前，通常通过tts(texttospeech，从文本到语音)网络实现语音转换。但是，tts网络模型较大，其网络部署与运算时间均需要耗费较长时间。这会导致语音转换过程耗时较长，语音转换效率较低。

技术实现要素：

3.本公开提供一种语音转换方法、装置、电子设备及存储介质，以至少解决相关技术中语音转换模型的语音转换效果差的问题。本公开的技术方案如下：
4.根据本公开实施例的第一方面，提供一种语音转换方法，包括：
5.获取待转换语音数据，以及目标数据；
6.将所述待转换语音数据和所述目标数据输入至语音转换模型；其中，所述语音转换模型基于非平行语音数据和平行语音数据分阶段训练得到；
7.通过所述语音转换模型对所述待转换语音数据和所述语音数据进行语音转换处理，得到目标语音数据。
8.在一种可能的实施方式中，所述获取待转换语音数据之前，还包括：
9.获取预设训练样本数据；其中，所述预设训练样本数据包括非平行语音数据和平行语音数据；
10.基于所述非平行语音数据训练预设模型，得到预训练模型；
11.基于所述平行语音数据训练所述预训练模型，得到所述语音转换模型。
12.在一种可能的实施方式中，所述基于所述非平行语音数据训练预设模型，得到预训练模型，包括：
13.将第i条非平行语音数据输入至预设模型；i∈[1，i]，i为所述预设训练样本数据中非平行语音数据的数量；
[0014]
通过所述预设模型提取第i条非平行语音数据的说话人信息和语义信息；其中，所述说话人信息至少包括音色、语调、节奏；
[0015]
基于所述第i条非平行语音数据的说话人信息和语义信息，组合得到所述第i条非平行语音数据对应的第一语音数据；
[0016]
基于所述第i条非平行语音数据和所述第一语音数据，对所述预设模型进行修正，得到预训练模型。
[0017]
在一种可能的实施方式中，所述基于所述平行语音数据训练所述预训练模型，得到所述语音转换模型，包括：
[0018]
将第m条平行语音数据和第n条平行语音数据输入至所述预训练模型；m∈[1，l]，n∈[1，l]，l为所述预设训练样本数据中平行语音数据的条数，且m≠n；
[0019]
通过所述预训练模型提取所述第m条平行语音数据的说话人信息，以及提取所述第n条平行语音数据的语义信息；
[0020]
基于所述第m条平行语音数据的说话人信息，以及所述第n条平行语音数据的语义信息，组合得到所述第m条平行语音数据对应的第二语音数据；
[0021]
基于所述所述第m条平行语音数据和所述第二语音数据，对所述预训练模型进行修正，得到语音转换模型。
[0022]
在一种可能的实施方式中，所述将第m条平行语音数据和第n条平行语音数据输入至所述预训练模型之前，还包括：
[0023]
通过所述预训练模型对所述第m条平行语音数据和第n条平行语音数据进行动态时间规整处理，得到时间对齐后的所述第m条平行语音数据和第n条平行语音数据。
[0024]
在一种可能的实施方式中，所述通过所述语音转换模型对所述待转换语音数据和所述目标数据进行语音转换处理，得到目标语音数据，包括：
[0025]
通过所述语音转换模型提取所述待转换语音数据的语义信息，以及通过所述语音转换模型提取所述目标数据的说话人信息；
[0026]
基于所述待转换语音数据的语义信息和所述目标数据的说话人信息，组合得到所述目标语音数据。
[0027]
根据本公开实施例的第二方面，提供一种语音转换装置，包括：
[0028]
第一获取模块，用于获取待转换语音数据，以及目标数据；
[0029]
输入模块，用于将所述待转换语音数据和所述目标数据输入至语音转换模型；其中，所述语音转换模型基于非平行语音数据和平行语音数据分阶段训练得到；
[0030]
转换模块，用于通过所述语音转换模型对所述待转换语音数据和所述目标数据进行语音转换处理，得到目标语音数据。
[0031]
在一种可能的实施方式中，所述第一获取模块之前，还包括：
[0032]
第二获取模块，用于获取预设训练样本数据；其中，所述预设训练样本数据包括非平行语音数据和平行语音数据；
[0033]
第一训练模块，用于基于所述非平行语音数据训练预设模型，得到预训练模型；
[0034]
第二训练模块，用于基于所述平行语音数据训练所述预训练模型，得到所述语音转换模型。
[0035]
在一种可能的实施方式中，所述第一训练模块，包括：
[0036]
第一输入单元，用于将第i条非平行语音数据输入至预设模型；i∈[1，i]，i为所述预设训练样本数据中非平行语音数据的数量；
[0037]
第一提取单元，用于通过所述预设模型提取第i条非平行语音数据的说话人信息和语义信息；其中，所述说话人信息至少包括音色、语调、节奏；
[0038]
第一组合单元，用于基于所述第i条非平行语音数据的说话人信息和语义信息，组合得到所述第i条非平行语音数据对应的第一语音数据；
[0039]
第一修正单元，用于基于所述第i条非平行语音数据和所述第一语音数据，对所述预设模型进行修正，得到预训练模型。
[0040]
在一种可能的实施方式中，所述第二训练模块，包括：
[0041]
第二输入单元，用于将第m条平行语音数据和第n条平行语音数据输入至所述预训练模型；m∈[1，l]，n∈[1，l]，l为所述预设训练样本数据中平行语音数据的条数，且m≠n；
[0042]
第二提取单元，用于通过所述预训练模型提取所述第m条平行语音数据的说话人信息，以及提取所述第n条平行语音数据的语义信息；
[0043]
第二组合单元，用于基于所述第m条平行语音数据的说话人信息，以及所述第n条平行语音数据的语义信息，组合得到所述第m条平行语音数据对应的第二语音数据；
[0044]
第二修正单元，用于基于所述所述第m条平行语音数据和所述第二语音数据，对所述预训练模型进行修正，得到语音转换模型。
[0045]
在一种可能的实施方式中，所述第二输入单元之前，还包括：
[0046]
处理单元，用于通过所述预训练模型对所述第m条平行语音数据和第n条平行语音数据进行动态时间规整处理，得到时间对齐后的所述第m条平行语音数据和第n条平行语音数据。
[0047]
在一种可能的实施方式中，所述转换模块，包括：
[0048]
第三提取单元，用于通过所述语音转换模型提取所述待转换语音数据的语义信息，以及通过所述语音转换模型提取所述目标数据的说话人信息；
[0049]
第三组合单元，用于基于所述待转换语音数据的语义信息和所述目标数据的说话人信息，组合得到所述目标语音数据。
[0050]
根据本公开实施例的第三方面，提供一种电子设备，包括：
[0051]
处理器；
[0052]
用于存储所述处理器可执行指令的存储器；
[0053]
其中，所述处理器被配置为执行所述指令，以实现如第一方面中任一项所述的语音转换方法。
[0054]
根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述非临时性计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面中任一项所述的语音转换方法。
[0055]
根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的语音转换方法。
[0056]
本公开的实施例提供的技术方案至少带来以下有益效果：
[0057]
在本公开的实施例中，通过获取待转换语音数据，以及目标数据，然后将待转换语音数据和目标数据输入至语音转换模型，其中，语音转换模型基于非平行语音数据和平行语音数据分阶段训练得到，最后通过语音转换模型对待转换语音数据和目标数据进行语音转换处理，得到目标语音数据。这样，基于非平行语音数据和平行语音数据分阶段训练得到语音转换模型，可以很好的利用平行语音数据与非平行语音数据的优势，提升语音数据的利用率，从而可以提升语音转换模型与应用场景的贴合度，进而提升语音转换效果。
[0058]
应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
[0059]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
[0060]
图1是根据一示例性实施例示出的一种语音转换方法的流程图。
[0061]
图2是根据一示例性实施例示出的预训练模型的训练流程图。
[0062]
图3是根据一示例性实施例示出的语音转换模型的训练流程图。
[0063]
图4是根据一示例性实施例示出的一种语音转换装置的框图。
[0064]
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
[0065]
为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
[0066]
需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0067]
下面结合附图对本公开实施例提供的语音转换方法、装置、电子设备及存储介质进行详细说明。
[0068]
需要说明的是，本公开实施例提供的语音转换方法、装置、电子设备及非临时性计算机可读存储介质应用于语音转换任务，应用场景包括信息安全、影视配音和游戏变音，示例性的，当用户在打游戏时，可以录入语音，录入的语音可以经过语音转换模型转换为具有目标音色的语音，其中，目标音色可以通过目标音色的预先设置来指定，包括萝莉音、御姐音、正太音和大叔音等音色。
[0069]
图1是根据一示例性实施例示出的一种语音转换方法的流程图，该语音转换方法可以应用于电子设备，例如，可以为手机、平板电脑、电脑等。如图1所示，该语音转换方法可以包括以下步骤。
[0070]
在步骤s110中，获取待转换语音数据，以及目标数据。
[0071]
在本公开实施例中，可以获取待转换语音数据，以及目标数据。待转换语音数据可以是用户预先录入电子设备的语音数据，可以是用户自身的语音数据，也可以是其他人的语音数据；目标数据可以是具有用户想要转换实现的语音特征的语音数据，可以是电子设备预先存储的语音数据，也可以是用户自行录入的语音数据。也就是说，目标数据具有多种选项，可供用户选择，用户选择目标数据后，电子设备可以根据用户的选择获取目标数据。
[0072]
在步骤s120中，将待转换语音数据和目标数据输入至语音转换模型。
[0073]
其中，语音转换模型基于非平行语音数据和平行语音数据分阶段训练得到。非平行语音数据可以是多个人录制不同语句形成的语音数据，平行语音数据可以是多个人录制同一语句形成的语音数据。
[0074]
在本公开实施例中，在获取待转换语音数据，以及目标数据之后，可以将待转换语
音数据和目标数据输入至语音转换模型，以使电子设备可以通过语音转换模型进行语音转换处理。
[0075]
在步骤s130中，通过语音转换模型对待转换语音数据和目标数据进行语音转换处理，得到目标语音数据。
[0076]
在本公开实施例中，将待转换语音数据和目标数据输入至语音转换模型之后，可以通过语音转换模型对待转换语音数据和目标数据进行语音转换处理，得到目标语音数据。例如，可以将待转换语音数据的语义信息和目标数据的说话人信息，组合得到目标语音数据，即，目标语音数据可以是具有待转换语音数据的语义信息和目标数据的说话人信息的语音数据；或者，可以将待转换语音数据的说话人信息和目标数据的语义信息，组合得到目标语音数据，也即，目标语音数据也可以是具有待转换语音数据的说话人信息和目标数据的语义信息的语音数据。
[0077]
在本公开的实施例中，通过获取待转换语音数据，以及目标数据，然后将待转换语音数据和目标数据输入至语音转换模型，其中，语音转换模型基于非平行语音数据和平行语音数据分阶段训练得到，最后通过语音转换模型对待转换语音数据和目标数据进行语音转换处理，得到目标语音数据。这样，基于非平行语音数据和平行语音数据分阶段训练得到语音转换模型，可以很好的利用平行语音数据与非平行语音数据的优势，提升语音数据的利用率，从而可以提升语音转换模型与应用场景的贴合度，进而提升语音转换效果。
[0078]
在一种可能的实施方式中，获取待转换语音数据之前，还可以预先训练语音转换模型，其具体实现方式可以包括：
[0079]
获取预设训练样本数据；其中，预设训练样本数据包括非平行语音数据和平行语音数据；
[0080]
基于非平行语音数据训练预设模型，得到预训练模型；
[0081]
基于平行语音数据训练预训练模型，得到语音转换模型。
[0082]
其中，预设模型可以是预先构造的语音转换模型，但尚未经过训练；预训练模型可以是基于非平行语音数据对预设模型进行训练后获得的语音转换模型。
[0083]
在本公开实施例中，考虑到语音转换模型单方面依靠非平行语音数据或者平行语音数据进行训练，得到的语音转换模型对语音转换效果较差，在获取待转换语音之前，可以获取预设训练样本数据，其中，预设训练样本数据包括非平行语音数据和平行语音数据。然后基于非平行语音数据训练预设模型，得到预训练模型，最后基于平行语音数据训练预训练模型，得到语音转换模型。这样，相对于相关技术中，基于非平行数据训练语音转换模型，或者，通过基于非平行语音数据生成的平行语音数据训练语音转换模型而言，本公开实施例提出的方法不需要基于非平行语音数据生成平行语音数据进行模型训练，可以直接利用现有的非平行语音数据和平行语音数据训练模型，可以有效提高模型训练效率；同时，先基于非平行语音数据训练预设模型，再基于平行语音数据训练模型得到语音转换模型，还可以更好的利用平行语音数据与非平行语音数据的优势，降低语音转换模型的存储大小和训练流程难度，提升语音数据的利用率，从而可以提升语音转换模型的应用场景贴合度，进而提升语音转换效果。
[0084]
在一种可能的实施方式中，基于非平行语音数据训练预设模型，得到预训练模型的具体实施方式可以如下：
[0085]
将第i条非平行语音数据输入至预设模型；i∈[1，i]，i为预设训练样本数据中非平行语音数据的数量；
[0086]
通过预设模型提取第i条非平行语音数据的说话人信息和语义信息；其中，说话人信息至少包括音色、语调、节奏；
[0087]
基于第i条非平行语音数据的说话人信息和语义信息，组合得到第i条非平行语音数据对应的第一语音数据；
[0088]
基于第i条非平行语音数据和第一语音数据，对预设模型进行修正，得到预训练模型。
[0089]
其中，第一语音数据可以是通过组合第i条非平行语音数据的说话人信息和语音信息获得的语音数据。
[0090]
在本公开实施例中，可以获取预设训练样本中的第i条非平行语音数据，再将第i条非平行语音数据输入至预设模型，i∈[1，i]，i为预设训练样本数据中非平行语音数据的数量。再通过预设模型提取第i条非平行语音数据的说话人信息和语义信息，例如，提取第i条非平行语音数据的说话人信息可以是获取说话人的音色、语调、节奏等。然后，可以对第i条非平行语音数据的说话人信息和语义信息进行组合，得到第i条非平行语音数据对应的第一语音数据。最后，可以基于第i条非平行语音数据和第一语音数据，对预设模型进行修正，例如，可以计算第i条非平行语音数据和第一语音数据的频谱图的差值，将该差值作为loss函数对预设模型进行修正，在loss函数达到平稳状态的情况下，将训练后的预设模型确定为预训练模型。
[0091]
示例性的，图2是根据一示例性实施例示出的预训练模型的训练流程图，如图2所示，预设模型可以包括说话人编码器、语义编码器和解码器。在基于非平行语音数据训练预设模型时，可以先将第i条非平行语音数据分别输入至说话人编码器和语义编码器，通过说话人编码器提取第i条非平行语音数据的说话人信息，并通过语义编码器提取第i条非平行语音数据的语义信息。然后，可以将说话人信息和语义信息输入至解码器，通过解码器对上述说话人信息和语音信息进行组合，从而生成新的语音数据，即第一语音数据。之后，可以对比计算第i条非平行语音数据和第一语音数据的差值，即根据第i条非平行语音数据的频谱图和第一语音数据的频谱图计算两者频谱图的差值，将该差值作为loss函数完成对预设模型的迭代修正，在loss函数达到平稳状态的情况下，则可以获得预训练模型。可以理解的，说话人编码器、语义编码器，以及解码器的结构与相关技术中的相同，在此不再赘述。
[0092]
这样，相对于相关技术中，通过基于非平行语音数据生成的平行语音数据训练模型而言，本公开实施例的方法可以通过预设训练样本中的非平行数据训练预设模型。如此，无需基于非平行语音数据生成平行语音数据，直接利用现有的非平行语音数据即可训练预设模型，从而能够降低语音转换模型的大小和训练难度，提高语音转换模型的应用场景贴合度，进而可以提升语音转换效果。
[0093]
在一种可能的实施方式中，基于平行语音数据训练预训练模型，得到语音转换模型的具体实施方式可以如下：
[0094]
将第m条平行语音数据和第n条平行语音数据输入至预训练模型；其中，m∈[1，l]，n∈[1，l]，l为预设训练样本数据中平行语音数据的条数，且m≠n；
[0095]
通过预训练模型提取第m条平行语音数据的说话人信息，以及提取第n条平行语音
数据的语义信息；
[0096]
基于第m条平行语音数据的说话人信息，以及第n条平行语音数据的语义信息，组合得到第m条平行语音数据对应的第二语音数据；
[0097]
基于第m条平行语音数据和第二语音数据，对预训练模型进行修正，得到语音转换模型。
[0098]
其中，第二语音数据可以是将m条平行语音数据的说话人信息和第n条平行语音数据的语义信息组合得到的语音数据。
[0099]
在本公开实施例中，在获得预训练模型之后，可以从预设训练样本中获取第m条平行语音数据和第n条平行语音数据，将第m条平行语音数据和第n条平行语音数据输入至预训练模型，m∈[1，l]，n∈[1，l],l为预设训练样本数据中平行语音数据的条数，且m≠n。然后，可以通过预训练模型提取第m条平行语音数据的说话人信息，相同地，提取第m条平行语音数据的说话人信息可以是获取说话人的音色、语调、节奏等，以及提取第n条平行语音数据的语义信息。再对第m条平行语音数据的说话人信息以及第n条平行语音数据的语义信息进行组合，得到第m条平行语音数据对应的新的语音数据，即第二语音数据。最后，可以基于第m条平行语音数据和第二语音数据，对预训练模型进行修正，得到语音转换模型。上述预训练模型的修正过程和预设模型的修正过程类似，在此不再赘述。
[0100]
示例性的，图3是根据一示例性实施例示出的语音转换模型的训练流程图，如图3所示，训练预训练模型时，可以先将第m条平行语音数据输入至预训练模型的说话人编码器，获得第m条平行语音数据对应的说话人信息；同时，或者在输入第m条平行语音数据前后，可以将第n条平行语音数据输入至预训练模型的语义编码器，获得第n条平行语音数据对应的语义信息。再将第m条平行语音数据对应的说话人信息和第n条平行语音数据对应的语义信息，输入至预训练模型的解码器，通过解码器对上述说话人信息和语义信息进行组合，可以获得第二语音数据。最后，对比计算第二语音数据和第m条平行语音数据的差值，将该差值作为loss函数完成对预训练模型的迭代修正，获得语音转换模型。
[0101]
这样，可以在前期基于非平行语音数据训练预设模型的基础上，基于平行语音数据训练预训练模型，得到语音转换模型。如此，可以进一步充分利用非平行语音数据和平行语音数据各自的优势，从而可以进一步提高语音数据的利用率，提升语音转换模型的应用场景贴合度，进而提高语音转换效果。
[0102]
在一种可能的实施方式中，将第m条平行语音数据和第n条平行语音数据输入至预训练模型之前，还包括：
[0103]
通过预训练模型对第m条平行语音数据和第n条平行语音数据进行动态时间规整处理，得到时间对齐后的第m条平行语音数据和第n条平行语音数据。
[0104]
其中，动态时间规整处理可以是对第m条平行语音数据和第n条平行语音数据在相同文字发音时间上的对齐处理。
[0105]
在本公开实施例中，在将第m条平行语音数据和第n条平行语音数据输入至预训练模型之前，如图3所示，可以通过预训练模型对第m条平行语音数据和第n条平行语音数据进行动态时间规整处理，即将第m条平行语音数据和第n条平行语音数据在相同文字发音时间上对齐，得到时间对齐后的第m条平行语音数据和第n条平行语音数据。如此，通过对第m条平行语音数据和第n条平行语音数据进行动态时间规整处理，可以使得第m条平行语音数据
和第n条平行语音数据在时序上对齐，从而能够为模型训练提供更好的训练数据基础，进而可以提高模型训练效率，提升预训练模型的训练效果，获得训练效果较优的语音转换模型，进而在通过语音转换模型执行语音转换任务时，可以提升语音转换效果。
[0106]
在一种可能的实施方式中，通过语音转换模型对待转换语音数据和目标数据进行语音转换处理，得到目标语音数据的具体实施方式可以如下：
[0107]
通过语音转换模型提取待转换语音数据的语义信息，以及通过语音转换模型提取目标数据的说话人信息；
[0108]
基于待转换语音数据的语义信息和目标数据的说话人信息，组合得到目标语音数据。
[0109]
在本公开实施例中，可以通过语音转换模型提取待转换语音数据的语义信息，以及通过语音转换模型提取目标数据的说话人信息，例如可以通过语音转换模型的语义编码器提取待转换语音数据的语义信息、通过语音转换模型的说话人编码器提取待转换语音数据的语义信息。然后，可以对待转换语音数据的语义信息和目标数据的说话人信息进行组合，得到目标语音数据。也就是说，目标语音数据是组合待转换语音数据的语义信息和目标数据的说话人信息得到的，如此，可以通过语音转换模型实现语音转换。
[0110]
需要说明的是，也可以通过语音转换模型提取待转换语音数据的说话人信息，以及通过语音转换模型提取目标数据的语义信息，再基于待转换语音数据的说话人信息和目标数据的语义信息，组合得到目标语音数据。
[0111]
在一种可能的实施方式中，语音转换模型为变分自编码器vae。
[0112]
在本公开实施例中，考虑到语音转换模型的存储大小，语音转换模型可以为变分自编码器vae，vae模型包括说话人编码器、语义编码器、解码器，以及反向传播反馈机制，由于vae模型较小，且实时性较好，也可以满足电子设备离线运行语音转换模型时对实时性、模型大小和转换效果的要求。故而，基于vae训练得到的语音转换模型，不仅可以部署在服务器端，也可以部署在电子设备上，使得模型的部署更加灵活；同时，vae模型较小，其训练耗时也较短，从而可以提高模型训练效率。
[0113]
需要说明的是，类似的语音转换模型还包括高斯网络、gan(generative adversarial network)网络、tts(text to speech)网络等，可以用来出于其他有需要的目的替换本公开实施例中的vae模型。
[0114]
基于相同的发明构思，本公开的实施例还提供了一种语音转换装置，如图4所示，图4是根据一示例性实施例示出的一种语音转换装置的框图。参照图4，该语音转换装置400可以包括：
[0115]
第一获取模块410，用于获取待转换语音数据，以及目标数据；
[0116]
输入模块420，用于将待转换语音数据和目标数据输入至语音转换模型；其中，语音转换模型基于非平行语音数据和平行语音数据分阶段训练得到；
[0117]
转换模块430，用于通过语音转换模型对待转换语音数据和目标数据进行语音转换处理，得到目标语音数据。
[0118]
在一种可能的实施方式中，第一获取模块410之前，还包括：
[0119]
第二获取模块，用于获取预设训练样本数据；其中，预设训练样本数据包括非平行语音数据和平行语音数据；
[0120]
第一训练模块，用于基于非平行语音数据训练预设模型，得到预训练模型；
[0121]
第二训练模块，用于基于平行语音数据训练所述预训练模型，得到语音转换模型。
[0122]
在一种可能的实施方式中，第一训练模块，包括：
[0123]
第一输入单元，用于将第i条非平行语音数据输入至预设模型；i∈[1，i]，i为预设训练样本数据中非平行语音数据的数量；
[0124]
第一提取单元，用于通过预设模型提取第i条非平行语音数据的说话人信息和语义信息；其中，说话人信息至少包括音色、语调、节奏；
[0125]
第一组合单元，用于基于第i条非平行语音数据的说话人信息和语义信息，组合得到第i条非平行语音数据对应的第一语音数据；
[0126]
第一修正单元，用于基于第i条非平行语音数据和第一语音数据，对预设模型进行修正，得到预训练模型。
[0127]
在一种可能的实施方式中，第二训练模块，包括：
[0128]
第二输入单元，用于将第m条平行语音数据和第n条平行语音数据输入至预训练模型；m∈[1，l]，l为预设训练样本数据中平行语音数据的条数，且m≠n；
[0129]
第二提取单元，用于通过预训练模型提取第m条平行语音数据的说话人信息，以及提取第n条平行语音数据的语义信息；
[0130]
第二组合单元，用于基于第m条平行语音数据的说话人信息，以及第n条平行语音数据的语义信息，组合得到第m条平行语音数据对应的第二语音数据；
[0131]
第二修正单元，用于基于第m条平行语音数据和第二语音数据，对预训练模型进行修正，得到语音转换模型。
[0132]
在一种可能的实施方式中，第二输入单元之前，还包括：
[0133]
处理单元，用于通过预训练模型对第m条平行语音数据和第n条平行语音数据进行动态时间规整处理，得到时间对齐后的所述第m条平行语音数据和第n条平行语音数据。
[0134]
在一种可能的实施方式中，转换模块430，包括：
[0135]
第三提取单元，用于通过语音转换模型提取待转换语音数据的语义信息，以及通过语音转换模型提取目标数据的说话人信息；
[0136]
第三组合单元，用于基于待转换语音数据的语义信息和目标数据的说话人信息，组合得到目标语音数据。
[0137]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0138]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0139]
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备500旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0140]
如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(rom)
502中的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序，来执行各种适当的动作和处理。在ram503中，还可存储设备500操作所需的各种程序和数据。计算单元501、rom502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0141]
电子设备500中的多个部件连接至i/o接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0142]
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如语音转换方法。例如，在一些实施例中，语音转换方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到ram 503并由计算单元501执行时，可以执行上文描述的语音转换方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音转换方法。
[0143]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0144]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0145]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0146]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0147]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网和区块链网络。
[0148]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtual private server"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0149]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0150]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈绪浩史润宇
技术所有人：北京小米移动软件有限公司
我是此专利的发明人

上一篇：氧杂蒽酮酯类与糖类衍生物及其制备与抗菌用途
上一篇：一种OCA光学压敏胶及其制备方法