图像生成模型的训练方法、装置、设备及存储介质与流程

文档序号:35027226发布日期:2023-08-05 13:21阅读:60来源:国知局
图像生成模型的训练方法、装置、设备及存储介质与流程

本申请涉及人工智能,特别涉及一种图像生成模型的训练方法、装置、设备及存储介质。


背景技术:

1、随着扩散模型(diffusion model)的发展,文生图(text-to-image)的创作能力大大提升,用户输入一个文本,模型对一个随机噪声图经过一系列操作即可生成与该文本相关的预测图像。

2、扩散模型的微调训练用于对未参与扩散模型的训练过程的新增样本再次进行训练,以使扩散模型可以基于新增文本生成与该新增文本对应的预测图像。相关技术中,对于扩散模型的微调训练,将需要进行训练的图文对输入到模型中,例如,可以将待训练的“张某某”的人物名称和人物图像输入到模型中进行训练,使得扩散模型应用时可以根据输入的“张某某”的人物名称,生成对应的人物图像。

3、然而,上述微调方法容易改变模型中训练好的参数,导致模型过拟合,从而导致模型生成的图像质量降低。


技术实现思路

1、本申请实施例提供了一种图像生成模型的训练方法、装置、设备及存储介质。所述技术方案包括如下几个方面。

2、根据本申请实施例的一个方面,提供了一种图像生成模型的训练方法,所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型,所述方法包括:获取所述图像生成模型的训练样本集,所述训练样本集中包括至少一个图文对,每个图文对中包括具有匹配关系的一个人物名称和一张人物图像;通过所述表征提取模块生成所述人物名称对应的人物表征;通过所述扩散模型的前向过程,生成随机噪声图像对应的隐空间表征;通过所述扩散模型的后向过程和所述旁路模块,根据所述人物表征和所述隐空间表征,生成所述人物名称对应的预测图像;根据所述预测图像和所述人物图像之间的差异,对所述表征提取模块和所述旁路模块的参数进行调整,得到训练后的图像生成模型。

3、根据本申请实施例的一个方面,提供了一种基于图像生成模型的图像生成方法,所述图像生成模型包括表征提取模块、旁路模块和扩散模型;所述方法包括:获取包含第一人物名称的输入文本;通过所述表征提取模块生成所述输入文本的文本表征;通过所述扩散模型的前向过程,生成随机噪声图像对应的隐空间表征;通过所述扩散模型的后向过程和所述旁路模块,根据所述文本表征和所述隐空间表征,生成与所述输入文本相匹配的输出图像。

4、根据本申请实施例的一个方面,提供了一种图像生成模型的训练装置,所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型,所述装置包括:样本获取模块,用于获取所述图像生成模型的训练样本集,所述训练样本集中包括至少一个图文对,每个图文对中包括具有匹配关系的一个人物名称和一张人物图像;表征提取模块,用于通过所述表征提取模块生成所述人物名称对应的人物表征;前向生成模块,用于通过所述扩散模型的前向过程,生成随机噪声图像对应的隐空间表征;后向生成模块,用于通过所述扩散模型的后向过程和所述旁路模块,根据所述人物表征和所述隐空间表征,生成所述人物名称对应的预测图像;模型训练模块,用于根据所述预测图像和所述人物图像之间的差异,对所述表征提取模块和所述旁路模块的参数进行调整,得到训练后的图像生成模型。

5、根据本申请实施例的一个方面,提供了一种基于图像生成模型的图像生成装置,所述图像生成模型包括表征提取模块、旁路模块和扩散模型;所述装置包括:文本获取模块,用于获取包含第一人物名称的输入文本;表征提取模块,用于通过所述表征提取模块生成所述输入文本的文本表征;前向生成模块,用于通过所述扩散模型的前向过程,生成随机噪声图像对应的隐空间表征;后向生成模块,用于通过所述扩散模型的后向过程和所述旁路模块,根据所述文本表征和所述隐空间表征,生成与所述输入文本相匹配的输出图像。

6、根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述图像生成模型的训练方法,或基于图像生成模型的图像生成方法。

7、根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法,或基于图像生成模型的图像生成方法。

8、根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法,或基于图像生成模型的图像生成方法。

9、本申请实施例提供的技术方案可以带来如下有益效果:一方面,通过在图像生成模型中加入旁路模块,使得在图像生成模型的迭代训练中,可以仅对表征提取模块和旁路模块进行训练,而不用对扩散模型进行训练,避免对经过预训练的扩散模型再次进行训练而导致扩散模型遗忘已训练好的参数,产生模型过拟合的问题,提升了模型生成的图像质量。另一方面,采用的训练样本集中包括同一人物名称对应的多个人物图像,使得训练后的图像生成模型可以生成同一人物名称的不同人物表征,从而可以满足不同的人物图像生成需求,提升了图像生成模型的功能多样性。



技术特征:

1.一种图像生成模型的训练方法,其特征在于,所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过所述扩散模型的后向过程和所述旁路模块,根据所述人物表征和所述隐空间表征,生成所述人物名称对应的预测图像,包括:

3.根据权利要求2所述的方法,其特征在于,所述扩散模型包括t个去噪网络,所述去噪网络包括下采样网络和上采样网络,所述旁路模块包括t个旁路网络;

4.根据权利要求3所述的方法,其特征在于,所述第i个旁路网络和所述第i个去噪网络的下采样网络具有相同的结构,所述第i个旁路网络包括n个级联的第一网络单元,所述第i个去噪网络的下采样网络包括n个级联的第二网络单元,n为大于1的整数;

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述获取所述图像生成模型的训练样本集,包括:

7.根据权利要求6所述的方法,其特征在于,所述通过人脸上妆模型根据至少一张妆容图,生成所述至少一张原始人物图像对应的至少一张带妆人物图像之后,还包括:

8.根据权利要求7所述的方法,其特征在于,所述对所述至少一张带妆人物图像和所述至少一张带妆人物图像分别对应的超分人物图像进行选取,得到所述训练样本集中的图文对,包括:

9.根据权利要求1至8任一项所述的方法,其特征在于,所述根据所述预测图像和所述人物图像之间的差异,对所述表征提取模块和所述旁路模块的参数进行调整,得到训练后的图像生成模型,包括:

10.一种基于图像生成模型的图像生成方法,其特征在于,所述图像生成模型包括表征提取模块、旁路模块和扩散模型;所述方法包括:

11.根据权利要求10所述的方法,其特征在于,所述通过所述表征提取模块生成所述输入文本的文本表征,包括:

12.根据权利要求11所述的方法,其特征在于,在所述人物表征库中,每个人物名称对应于一个人物表征,所述人物名称对应的人物表征是根据所述人物名称对应的多张人物图像得到的多个人物表征的均值。

13.根据权利要求11所述的方法,其特征在于,在所述人物表征库中,每个人物名称对应于多个人物表征,所述人物名称对应的一个人物表征是根据所述人物名称对应的一张人物图像得到的;

14.根据权利要求10至13任一项所述的方法,其特征在于,所述通过所述扩散模型的后向过程和所述旁路模块,根据所述文本表征和所述隐空间表征,生成与所述输入文本相匹配的输出图像,包括:

15.根据权利要求14所述的方法,其特征在于,所述扩散模型包括t个去噪网络,所述去噪网络包括下采样网络和上采样网络,所述旁路模块包括t个旁路网络;

16.根据权利要求15所述的方法,其特征在于,所述第i个旁路网络和所述第i个去噪网络的下采样网络具有相同的结构,所述第i个旁路网络包括n个级联的第一网络单元,所述第i个去噪网络的下采样网络包括n个级联的第二网络单元,n为大于1的整数;

17.一种图像生成模型的训练装置,其特征在于,所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型,所述装置包括:

18.一种基于图像生成模型的图像生成装置,其特征在于,所述图像生成模型包括表征提取模块、旁路模块和扩散模型;所述装置包括:

19.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的图像生成模型的训练方法,或者实现如权利要求10至16任一项所述的基于图像生成模型的图像生成方法。

20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至9任一项所述的图像生成模型的训练方法,或者实现如权利要求10至16任一项所述的基于图像生成模型的图像生成方法。


技术总结
本申请公开了一种图像生成模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取图像生成模型的训练样本集,训练样本集中包括至少一个图文对;通过表征提取模块生成人物名称对应的人物表征;通过扩散模型的前向过程,生成随机噪声图像对应的隐空间表征;通过扩散模型的后向过程和旁路模块,根据人物表征和隐空间表征,生成人物名称对应的预测图像;根据预测图像和人物图像之间的差异,对表征提取模块和旁路模块的参数进行调整,得到训练后的图像生成模型。本申请通过对表征提取模块和旁路模块进行训练,避免对经过预训练的扩散模型再次进行训练而导致模型产生过拟合的问题,提升了模型生成的图像质量。

技术研发人员:郭卉
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1