情感语音合成模型的训练方法、装置、设备及存储介质与流程

文档序号:41317946发布日期:2025-03-19 14:27阅读:73来源:国知局
情感语音合成模型的训练方法、装置、设备及存储介质与流程

本发明涉及人工智能,尤其涉及一种情感语音合成模型的训练方法、装置、设备及存储介质。


背景技术:

1、随着人工智能技术的快速发展,语音合成技术已经取得了显著进步,能够产生与真实人声几乎无异的高质量语音。例如,vits(variational inference transformer,变分推理变换器)通过复杂的神经网络结构和训练方法,使得合成语音与自然语音极为相似。在这一领域,为语音添加情感表达是持续关注的焦点。情感的融入不仅提升了语音合成的真实感,而且在电影、游戏和配音等多个实际应用中具有显著的价值。

2、目前,情感文本到语音合成的方案,大多是直接对于语音合成算法模型进行整个或者局部的直接微调,在训练阶段加入情感信息的做法限制了推理阶段只能使用固定数量的情感类别,这导致了其可扩展性和灵活性不足,并且,对大型模型进行全参数微调需要大量的计算成本。


技术实现思路

1、本发明所要解决的技术问题在于提供一种情感语音合成模型的训练方法、装置、设备及存储介质,以解决现有的语音合成模型可扩展性和灵活性不足,以及微调需要大量的计算成本的问题。

2、第一方面,提供了一种情感语音合成模型的训练方法,包括:获取预训练语音合成模型;选择预训练语音合成模型的至少一个层作为目标层,并为目标层加载vb-lora微调模块;获取情感语音数据,并基于情感语音数据对所述目标层的参数进行微调,得到训练好的情感语音合成模型,其中,情感语音数据包括情感文本、情感语音、情感嵌入数据、情感类别数据,情感文本、情感语音、情感嵌入数据、情感类别数据一一对应。

3、第二方面,提供了一种情感语音合成模型的训练装置,包括:

4、获取模块,用于获取预训练语音合成模型;

5、加载模块,用于选择预训练语音合成模型的至少一个层作为目标层,并为目标层加载vb-lora微调模块;

6、微调模块,用于获取情感语音数据,并基于情感语音数据对所述目标层的参数进行vb-lora微调,得到训练好的情感语音合成模型,其中,情感语音数据包括情感文本、情感语音、情感嵌入数据、情感类别数据,情感文本、情感语音、情感嵌入数据、情感类别数据一一对应。

7、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述情感语音合成模型的训练方法的步骤。

8、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述情感语音合成模型的训练方法的步骤。

9、上述情感语音合成模型的训练方法、装置、设备及存储介质,通过选定预训练语音合成模型的至少一个层作为目标层,并为目标层加载vb-lora微调模块,再利用情感语音数据进行微调,得到训练好的情感语音合成模型,使得原本不具备情感表达能力的预训练语音合成模型实现了情感语音合成和输出,模型在训练阶段不加入情感信息,只在微调过程中加入情感信息,从而可以通过加入不同情感类别的情感信息进行微调,赋予模型不同情感类别的表达能力,增强了模型的可扩展性和灵活性;而且,预训练语音合成模型在微调时,只调整加载了vb-lora微调模块的目标层的参数,无需对整个模型进行全参数微调,降低模型微调的工作量,降低了计算成本。



技术特征:

1.一种情感语音合成模型的训练方法,其特征在于,包括:

2.如权利要求1所述的情感语音合成模型的训练方法,其特征在于,所述目标层在加载vb-lora微调模块后表示为:h=wx+bax,其中,h为目标层的输出,x为目标层的输入,w为目标层的初始权重,b、a为vb-lora微调模块通过拆解目标层的权重变化量而得到的两个低秩矩阵。

3.如权利要求2所述的情感语音合成模型的训练方法,其特征在于,所述基于情感语音数据对所述目标层的参数进行微调,包括:

4.如权利要求3所述的情感语音合成模型的训练方法,其特征在于,所述目标层的输出包括预测情感语音、预测情感嵌入数据、预测情感类别数据,所述基于所述目标层的输出计算模型损失,包括:

5.如权利要求4所述的情感语音合成模型的训练方法,其特征在于,

6.如权利要求1所述的情感语音合成模型的训练方法,其特征在于,所述预训练语音合成模型包括文本编码器、随机时长预测器、投影层、流层和解码器,所述选择预训练语音合成模型的至少一个层作为目标层包括:从文本编码器、随机时长预测器、投影层、流层和解码器中选择任意一个或者任意组合作为目标层。

7.如权利要求1所述的情感语音合成模型的训练方法,其特征在于,所述获取预训练语音合成模型之前,包括:

8.一种情感语音合成模型的训练装置,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的情感语音合成模型的训练方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的情感语音合成模型的训练方法的步骤。


技术总结
本发明涉及人工智能技术领域,公开了一种情感语音合成模型的训练方法、装置、设备及存储介质,可应用于金融、保险、医疗等业务的智能语音对话场景中。本发明通过选定预训练语音合成模型的至少一个层作为目标层,并为目标层加载VB‑LoRA微调模块,再利用情感语音数据进行微调,使得模型实现了情感语音合成和输出,模型在训练阶段不加入情感信息,只在微调过程中加入情感信息,从而可以通过加入不同情感类别的情感信息进行微调,赋予模型不同情感类别的表达能力,增强了模型的可扩展性和灵活性;而且,在微调时,只调整加载了VB‑LoRA微调模块的目标层的参数,无需对整个模型进行全参数微调,降低模型微调的工作量,降低了计算成本。

技术研发人员:孙奥兰,王健宗,程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:
技术公布日:2025/3/18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1