本发明涉及图像风格迁移领域,尤其涉及一种基于文本反演的内容语义分离图像风格表征学习方法及装置。
背景技术:
1、近年来,大规模预训练文生图扩散模型在文本到图像生成领域取得了进展,能够在文本的驱动下生成逼真的、多样化的图像内容。目前有一类基于文生图扩散模型的风格迁移方法,通常首先基于文本反演(textual inversion)技术,学习风格文本表示来表征参考风格图像的风格。在学习微调后,再使用该风格文本表示为条件控制图像生成过程以实现风格迁移。但现有方法学习到的风格文本表示中常常包含参考风格图像的内容语义信息,使得其引导生成的风格化图像容易混有参考风格图像的内容语义干扰。该问题被称为风格表征学习中的内容泄露问题。因此,如何在基于文本反演的风格文本表示学习过程中将内容语义信息从风格文本表示中分离出来,是解决这个问题的关键。
技术实现思路
1、本发明目的在于针对现有技术的不足,提出一种基于文本反演的内容语义分离图像风格表征学习方法及装置,以解决图像风格表征学习过程中内容语义泄露的问题。
2、本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于文本反演的内容语义分离图像风格表征学习方法,该方法包括以下步骤:
3、(1)获取原始的参考风格图像,基于图像风格编码器网络和图像内容编码器网络分别提取风格特征和内容特征;
4、(2)对原始的参考风格图像进行保留风格特征而破坏内容语义的数据增强,基于图像风格编码器网络提取风格特征;
5、(3)对原始的参考风格图像进行保持内容语义不变的风格变换数据增强,基于图像内容编码器网络提取内容特征;
6、(4)基于风格适配器网络和内容适配器网络将步骤(1)-步骤(3)得到的风格特征和内容特征均映射到文本空间得到对应的风格文本表示和内容语义文本表示;通过文本编码器和交叉注意力机制将这些表示注入到文生图扩散模型,基于文本反演方法进行训练;
7、(5)基于图像风格编码器网络提取参考风格图像的风格特征,基于训练完成后的风格适配器网络得到参考风格图像的最终风格文本表示,利用该风格文本表示进行图像风格迁移。
8、进一步地,步骤(2)中,对原始的参考风格图像进行数据增强包括如下步骤:
9、(2-1)依据原始的参考风格图像的像素尺寸和所采用的图像风格编码器输入要求,设定图像块的大小;
10、(2-2)基于设定的图像块大小,将原始的参考风格图像按照从左上到右下的光栅扫描顺序进行分割,并对图像块顺序进行标记;
11、(2-3)将图像块以随机的方式进行重新排列,破坏原始的参考风格图像的内容语义信息而保留原始的参考风格图像的风格信息,重新组成一组数据增强后的图像。
12、进一步地,步骤(3)中,对原始的参考风格图像进行数据增强得到一组保留原始的参考风格图像的内容语义信息而改变原始的参考风格图像的风格信息图像,具体包括以下方法:
13、a. 对原始的参考风格图像进行灰度转换,得到相对应的灰度图像,然后可以进行所需程度的高斯模糊。
14、b. 对原始的参考风格图像进行随机颜色变换,然后进行所需程度的高斯模糊。
15、进一步地,风格信息包括全局颜色分布和局部纹理细节。
16、进一步地,基于图像风格编码器网络提取原始的参考风格图像的风格特征,并将风格特征经过一个风格适配器网络得到最终的风格文本表示,该风格文本表示排除了原始的参考风格图像中的内容语义干扰。
17、进一步地,步骤(4)中,训练过程和损失函数设计如下:
18、使用原始的参考风格图像得到的风格文本表示和内容语义文本表示为条件,对原始的参考风格图像进行基于文本反演方法的训练,其损失函数为参考风格图像损失;
19、使用基于步骤(2)中风格特征得到的风格文本表示为条件,对步骤(2)中数据增强的图像进行基于文本反演方法的训练,其损失函数为整体风格损失;
20、使用基于步骤(3)中内容特征得到的内容语义文本表示为条件,对步骤(3)中数据增强的图像进行基于文本反演方法的训练,其损失函数为整体内容损失;
21、并使用风格一致性损失约束原始的参考风格图像得到的风格文本表示与基于步骤(2)中通过数据增强得到的图像的风格文本表示相近,并与步骤(3)中通过数据增强得到的图像的风格文本表示相远;使用内容一致性损失约束原始的参考风格图像得到的内容语义文本表示与基于步骤(3)中通过数据增强得到的图像的内容语义文本表示相近。
22、进一步地,步骤(5)中,使用参考风格图像得到的风格文本表示为条件进行文本到图像风格迁移;具体的,构建文本提示描述想要生成的内容,并将附在文本提示后,构造文本提示=“, ”或“ in the style of ”,将送入预训练文生图扩散模型以进行文本到图像生成;或将参考内容图像通过ddim inversion后得到对应的反转噪声,使用此反转噪声为初始噪声,并提供风格文本表示作为条件进行图像风格迁移。
23、第二方面,本发明还提供了一种基于文本反演的内容语义分离图像风格表征学习装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于文本反演的内容语义分离图像风格表征学习方法。
24、第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于文本反演的内容语义分离图像风格表征学习方法。
25、第四方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现所述的一种基于文本反演的内容语义分离图像风格表征学习方法。
26、本发明的有益效果:本发明能够在基于文本反演的风格表征学习过程中缓解参考风格图像中的内容语义干扰,从而抑制目前方法生成的风格化图像中常常混有参考风格图像内容语义的内容泄漏问题。
1.一种基于文本反演的内容语义分离图像风格表征学习方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种基于文本反演的内容语义分离图像风格表征学习方法,其特征在于,步骤(2)中,对原始的参考风格图像进行数据增强包括如下步骤:
3.根据权利要求1所述的一种基于文本反演的内容语义分离图像风格表征学习方法,其特征在于,步骤(3)中,对原始的参考风格图像进行数据增强得到一组保留原始的参考风格图像的内容语义信息而改变原始的参考风格图像的风格信息图像,具体包括以下方法:
4.根据权利要求2或3所述的一种基于文本反演的内容语义分离图像风格表征学习方法,其特征在于,风格信息包括全局颜色分布和局部纹理细节。
5.根据权利要求1所述的一种基于文本反演的内容语义分离图像风格表征学习方法,其特征在于,基于图像风格编码器网络提取原始的参考风格图像的风格特征,并将风格特征经过一个风格适配器网络得到最终的风格文本表示,该风格文本表示排除了原始的参考风格图像中的内容语义干扰。
6.根据权利要求1所述的一种基于文本反演的内容语义分离图像风格表征学习方法,其特征在于,步骤(4)中,训练过程和损失函数设计如下:
7.根据权利要求1所述的一种基于文本反演的内容语义分离图像风格表征学习方法,其特征在于,步骤(5)中,使用参考风格图像得到的风格文本表示为条件进行文本到图像风格迁移;具体的,构建文本提示描述想要生成的内容,并将附在文本提示后,构造文本提示=“, ”或“ in the style of ”,将送入预训练文生图扩散模型以进行文本到图像生成;或将参考内容图像通过ddim inversion后得到对应的反转噪声,使用此反转噪声为初始噪声,并提供风格文本表示作为条件进行图像风格迁移。
8.一种基于文本反演的内容语义分离图像风格表征学习装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-7中任一项所述的一种基于文本反演的内容语义分离图像风格表征学习方法。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7中任一项所述的一种基于文本反演的内容语义分离图像风格表征学习方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7任一项所述的一种基于文本反演的内容语义分离图像风格表征学习方法。