本发明涉及人工智能,尤其涉及一种模型训练、语音合成方法、装置、电子设备和存储介质。
背景技术:
1、随着人工智能技术的发展,语音合成已经从最初简单的文本到语音的转换(text-to-speech,tts)发展为侧重复杂情感表达和个性化音色生成的合成技术。如何准确重建和模仿特定音色,成为了语音合成技术的一个重要挑战。
2、由于每个人的发音习惯和语音特征都不尽相同,因此很难找到一种通用的方法来模拟所有的音色。即使能够模拟出特定的音色,也很难保证其自然度和真实感。目前的语音合成方案中通常是将音色、韵律、内容等信息混合一起进行约束训练,这也导致了音色重建的自然度不及预期。
技术实现思路
1、本发明提供一种模型训练、语音合成方法、装置、电子设备和存储介质,用以解决相关技术中语音合成的音色自然度不符合预期的缺陷。
2、本发明提供一种模型训练方法,包括:
3、获取生成模型输出的重建声学特征,并提取所述重建声学特征的重建周期性特征;
4、将所述重建周期性特征输入至判别模型中,得到所述判别模型输出的所述重建周期性特征的真伪判别结果;
5、基于所述真伪判别结果,对所述生成模型和所述判别模型进行对抗训练,将训练所得的生成模型作为声学模型。
6、根据本发明提供的一种模型训练方法,所述提取所述重建声学特征的重建周期性特征,包括:
7、提取所述重建声学特征在多个周期成分下的重建周期性特征;
8、所述将所述重建周期性特征输入至判别模型中,得到所述判别模型输出的所述重建周期性特征的真伪判别结果,包括:
9、将各个周期成分下的重建周期性特征分别输入至各个周期成分对应的判别模型中,得到各个周期成分对应的判别模型分别输出的真伪判别结果。
10、根据本发明提供的一种模型训练方法,所述多个周期成分为多个以质数为基础的周期成分。
11、根据本发明提供的一种模型训练方法,所述提取所述重建声学特征在多个周期成分下的重建周期性特征,包括:
12、将所述重建声学特征转换为线性幅度谱图;
13、从所述线性幅度谱图中提取在多个周期成分下的重建周期性特征。
14、根据本发明提供的一种模型训练方法,所述基于所述真伪判别结果,对所述生成模型和所述判别模型进行对抗训练,包括:
15、基于真实周期性特征的真伪判别结果、以及所述重建周期性特征的真伪判别结果,对所述生成模型和所述判别模型进行对抗训练;
16、所述真实周期性特征的真伪判别结果由所述判别模型基于所述真实周期性特征输出,所述真实周期性特征从真实声学特征中提取得到。
17、根据本发明提供的一种模型训练方法,所述基于真实周期性特征的真伪判别结果、以及所述重建周期性特征的真伪判别结果,对所述生成模型和所述判别模型进行对抗训练,包括:
18、基于所述真实周期性特征的真伪判别结果、以及所述重建周期性特征的真伪判别结果,确定判别损失,基于所述判别损失对所述判别模型进行参数迭代;
19、基于所述重建周期性特征的真伪判别结果,确定生成损失,基于所述生成损失对所述生成模型进行参数迭代。
20、本发明还提供一种语音合成方法,包括:
21、将文本输入到语音合成模型中,得到所述语音合成模型输出的合成语音;
22、所述语音合成模型包括模型训练方法训练得到的声学模型。
23、本发明还提供一种模型训练装置,包括:
24、特征提取单元,用于获取生成模型输出的重建声学特征,并提取所述重建声学特征的重建周期性特征;
25、真伪判别单元,用于将所述重建周期性特征输入至判别模型中,得到所述判别模型输出的所述重建周期性特征的真伪判别结果;
26、对抗训练单元,用于基于所述真伪判别结果,对所述生成模型和所述判别模型进行对抗训练,将训练所得的生成模型作为声学模型。
27、本发明还提供一种语音合成装置,包括:
28、语音合成单元,用于将文本输入到语音合成模型中,得到所述语音合成模型输出的合成语音;
29、所述语音合成模型包括模型训练方法训练得到的声学模型。
30、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述模型训练方法或语音合成方法。
31、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述模型训练方法或语音合成方法。
32、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述模型训练方法或语音合成方法。
33、本发明提供的模型训练、语音合成方法、装置、电子设备和存储介质,将生成模型输出的重建声学特征的重建周期性特征输入到判别模型中进行真伪判别,由此针对生成模型和判别模型进行对抗训练,在此过程中显式地将能够反映音色的周期性特征作为优化目标,由此使得对抗训练使得的生成模型在应用于语音合成时,合成语音的音色自然度和逼真度更高。
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的模型训练方法,其特征在于,所述提取所述重建声学特征的重建周期性特征,包括:
3.根据权利要求2所述的模型训练方法,其特征在于,所述多个周期成分为多个以质数为基础的周期成分。
4.根据权利要求2所述的模型训练方法,其特征在于,所述提取所述重建声学特征在多个周期成分下的重建周期性特征,包括:
5.根据权利要求1至4中任一项所述模型训练方法,其特征在于,所述基于所述真伪判别结果,对所述生成模型和所述判别模型进行对抗训练,包括:
6.根据权利要求5所述的模型训练方法,其特征在于,所述基于真实周期性特征的真伪判别结果、以及所述重建周期性特征的真伪判别结果,对所述生成模型和所述判别模型进行对抗训练,包括:
7.一种语音合成方法,其特征在于,包括:
8.一种模型训练装置,其特征在于,包括:
9.一种语音合成装置,其特征在于,包括:
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述模型训练方法,或如权利要求7所述的语音合成方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型训练方法,或如权利要求7所述的语音合成方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型训练方法,或如权利要求7所述的语音合成方法。