本发明属于计算机视觉的图像生成领域,尤其是涉及一种基于预训练编码器的图像生成器统一混合域迁移方法。
背景技术:
1、由于现代图像生成器取得了巨大的成功,生成式域迁移在过去几年取得了显著的进展。通常,它旨在使预先训练好的生成器迁移到一个新的目标域,同时保留源域的多样性,例如从“人类”域到“婴儿”域。根据参考模态的不同,生成式域迁移可以分为两种类型:文本驱动和图像驱动。比如2021年发表在acm siggraph上的《stylegan-nada:clip-guideddomain adaptation of image generators》为文本驱动的生成式域迁移提出了一种局部方向的clip损失,用于对齐生成图像和文本的嵌入向量;2022年发表在国际顶级计算机视觉会议ieee conference on computer vision and pattern recognition上的《few shotgenerative model adaption via relaxed spatial structural alignment》为图像驱动的生成式域迁移提出了一种弛豫的空间结构对齐方法来保持源域的空间结构信息。
2、尽管现有方法取得了一些令人期待的结果,但仍存在一些限制。现有方法的一个主要限制是它们只支持从源域到单个目标域的迁移。这些方法无法直接将生成器迁移到更实际的现实场景,比如有多重属性的混合域。对于更一般的用途,先前的方法也无法处理多模态的迁移。
技术实现思路
1、基于现有技术的不足,本发明提出了一种基于预训练编码器的图像生成器统一混合域迁移方法,通过利用预训练的clip模型将多模态参考信息映射到统一的嵌入空间,并通过源嵌入到目标嵌入的方向向量来表示域差异,进而通过对域方向向量进行插值来完成统一的混合域迁移。
2、本发明的具体技术方案如下:
3、(1)随机初始化一个高斯噪声,将高斯噪声分别输入到预训练的原始生成器和初始的目标生成器,分别得到原域和目标域的生成图片;
4、(2)将步骤(1)获得的两张生成图片输入预训练的图像编码器clip中得到各自的嵌入向量,相减得到样本方向向量;
5、(3)由目标域的真实图片、以及输入的目标文本和原始文本再结合样本方向向量设置平行损失函数;
6、(4)以平行损失作为总损失,回传梯度,以总损失最小为目标使用梯度下降法更新目标生成器;
7、(5)重复上述步骤(1)至步骤(4),达到预设训练次数后结束训练,并使用训练完毕的目标生成器用于域迁移,具体是自主自动将原始域的图片迁移生成目标域的图片。
8、所述步骤(1)中的噪声为高斯噪声。
9、所述原始生成器和目标生成器采用stylegan网络拓扑结构;
10、所述原始生成器是预先训练获得的,是由以多个噪声为输入、以多张图片为输出而预先训练优化获得。
11、所述目标生成器采用了和原始生成器相同的拓扑结构,且初始的目标生成器的参数和原始生成器的参数相同,即采用预先训练后的原始生成器。
12、所述步骤(2)中,是将目标域的生成图片对应获得的嵌入向量减去原域的生成图片对应获得的嵌入向量得到样本方向向量。
13、所述步骤(3)具体为:
14、(3.1)将目标域的真实图片输入同样的预训练的图像编码器clip中得到嵌入向量作为目标真实嵌入向量;
15、(3.2)随机产生多个高斯噪声,后输入原始生成器再随机生成若干张生成图片作为参考生成图片,将所有参考生成图片输入到同样的预训练的图像编码器得到多个嵌入向量,取平均后作为平均嵌入向量;
16、(3.3)将目标真实嵌入向量减去平均嵌入向量得到图像驱动的域方向向量;
17、(3.4)将输入的目标文本和原始文本输入预训练的文本编码器得到各自的嵌入向量,将目标文本的嵌入向量减去原始文本的嵌入向量得到文本驱动的域方向向量;
18、所述的目标文本代表了目标域,原始文本代表了原始域。
19、(3.5)将图像驱动的域方向向量和文本驱动的域方向向量进行相互插值得到最终域方向向量;
20、所述的图像驱动的域方向向量和文本驱动的域方向向量之间的相互插值具体采用加权相加方式进行处理。
21、(3.6)将域方向向量与步骤(2)获得的样本方向向量按照以下方式计算获得平行损失:
22、ldirect=1-cos(△fsamp,△fdom)
23、其中,ldirect表示平行损失,△fsamp表示样本方向向量,△fdom表示域方向向量。
24、所述步骤(2)和步骤(3)中的图像编码器clip的结构和参数均相同。
25、所述步骤(5)中,将噪声输入到训练后的目标生成器中用于生成目标域的图片。
26、本发明方法的目标是将不同数据集(域)之间的数据迁移生成,由其中一原始数据集(原域)中的图片通过方法能够转变成另一不同风格的目标数据集(目标域)下的图片,变成另一种不同风格的图片。
27、所述的混合域是指具有多个域的特征的一个新域。
28、不同风格可以是动画化、拟真人化等的风格变化。
29、所述的图片是具有人像/人脸的图片。
30、本发明的创新是在于通过步骤(2)~(3)等处理,而能将图片数据进行迁移的同时能够保持图片数据的多样性。
31、与现有技术相比,本发明具有以下有益效果:
32、1、本发明提出了一个统一且多功能的生成领域迁移框架,可以实现多模态参考到混合目标领域,例如,文本-文本、图像-图像和图像-文本。与其他方法相比,本发明实现了快速和通用的迁移,而不需要在多个独立域上训练模型。
33、2、对于混合域的迁移,本发明在与目标域的语义相似度、图像质量和跨域一致性方面都优于现有方法。定性和定量结果证明了本发明的有效性。
1.一种基于预训练编码器的图像生成器统一混合域迁移方法,其特征在于:方法包括:
2.根据权利要求1所述的一种基于预训练编码器的图像生成器统一混合域迁移方法,其特征在于:所述步骤(1)中的噪声为高斯噪声。
3.根据权利要求1所述的一种基于预训练编码器的图像生成器统一混合域迁移方法,其特征在于:所述原始生成器和目标生成器采用stylegan网络拓扑结构;所述原始生成器是预先训练获得的,是由以多个噪声为输入、以多张图片为输出而预先训练优化获得。
4.根据权利要求1所述的一种基于预训练编码器的图像生成器统一混合域迁移方法,其特征在于:所述步骤(2)中,是将目标域的生成图片对应获得的嵌入向量减去原域的生成图片对应获得的嵌入向量得到样本方向向量。
5.根据权利要求1所述的一种基于预训练编码器的图像生成器统一混合域迁移方法,其特征在于:
6.根据权利要求5所述的一种基于预训练编码器的图像生成器统一混合域迁移方法,其特征在于:
7.根据权利要求1所述的一种基于预训练编码器的图像生成器统一混合域迁移方法,其特征在于: