1.本发明涉及人工智能图像处理技术领域,更具体地,涉及一种基于隐空间主成分分析的图像可控生成方法及系统。
背景技术:2.深度学习技术的广泛应用于图像相关领域,可以更好的处理图像分类、图文检索、数据增强等问题。在处理图像领域相关问题时,深度学习模型通常需要大量的高质量图像数据集作为支撑,若数据集中存在某些图像数据缺失的情况,则通过训练得到的模型会产生过拟合、表达能力差的问题,在数据缺失的情况下通常要先对数据集做数据增强。传统的数据集扩充方法是通过对已有的图像数据进行像素操作,如剪裁、旋转、翻转等等,这些方法虽然可以对数据集进行扩充,但是由于其扩充后的图像是在基于原有的图像上进行改变,并且生成效率低下、生成的图像数据带有很多冗余信息,使得模型训练有太多不确定性,因此对深度学习模型不能带来太大的优化,并不能明显增强网络模型的性能。
3.如今最为先进的方法是通过生成模型来学习真实数据的分布从而对图像数据进行补充,生成对抗网络作为一种无监督深度生成模型,因其不依赖任何先验假设以及良好的生成效果一经推出就得到了广泛的关注,该模型由一个生成网络和一个判别网络构成,生成网络将一个低维的随机噪声向量映射成高维的图像,判别网络则是判断输入图像来自真实分布的概率,通过对抗训练的方式达到减小生成数据分布和真实数据分布之间js散度的目的。通过研究者们的不断改进优化,目前生成对抗网络已具备良好的生成能力,能够提供逼真、清晰的生成图像。然而,由于缺乏对生成过程的控制,因此不能根据使用者的需求精确的控制生成图像的变化,无法有效地解决图像数据集中某些图像缺失和数据分布不均的问题。
技术实现要素:4.本发明为克服上述现有技术所述的图像数据集中存在图像缺失和数据分布不均的缺陷,提供一种基于隐空间主成分分析的图像可控生成方法,以及一种基于隐空间主成分分析的图像可控生成系统。
5.为解决上述技术问题,本发明的技术方案如下:
6.一种基于隐空间主成分分析的图像可控生成方法,包括以下步骤:
7.s1:在隐空间随机采样隐向量后输入生成对抗网络中生成图像;
8.s2:对生成图像进行图像转换,得到目标属性变化的图像集合;
9.s3:通过重构损失最小化并利用梯度反向传播构建图像集合对应的隐向量集合;
10.s4:对隐向量集合进行主成分分析,找到隐向量集合方差变化最大的方向,即为属性变化方向;
11.s5:将隐向量沿属性变化方向进行不同程度的移动,然后输入所述生成对抗网络中,输出得到目标属性经过控制的图像。
12.作为优选方案,s2步骤中,对生成图像进行目标属性的图像转换主要包括:亮度变化、大小缩放、水平移动和垂直移动,即目标属性包括亮度、大小、水平位置、垂直位置等四种属性。
13.作为优选方案,s2步骤中,根据目标图像属性对生成图像进行图像转换操作,且设置有转换程度[
‑
5,5]。
[0014]
作为优选方案,s3步骤中,构建图像集合对应的隐向量集合的步骤包括:
[0015]
根据所述目标属性变化的图像集合,寻找与经过图像转换的图像近似的隐向量,构建隐向量集合,使重构损失l最小化,寻找隐向量过程的表达公式如下:
[0016][0017]
式中,表示要寻找的近似隐向量;t(i)表示经过图像转换操作的图像;g(
·
)为生成器,z为随机采样的隐向量;l(
·
)表示重构损失。
[0018]
作为优选方案,所述生成器包括biggan生成网络模型,上述biggan生成网络模型经imagenet数据集训练得到。
[0019]
作为优选方案,所述生成器包括1个连接模块、1个全连接层、1个自注意力模块和3个上采样残差块。
[0020]
作为优选方案,对所述重构损失函数在频域进行优化;其表达公式如下:
[0021]
l(i1,i2)=||f(i1‑
i2)f(σ)||2=||(i1‑
i2)*σ||
[0022]
式中,σ为高斯核,f(
·
)表示傅里叶函数,i1,i2表示优化损失进行比较的任意两张不同图像。
[0023]
作为优选方案,s4步骤中,采用奇异值分解法对隐向量集合进行主成分分析。
[0024]
作为优选方案,s5步骤中,将隐向量沿着属性变化方向移动的表达公式如下:
[0025]
z
′
=z+da
[0026]
式中,z为随机采样的隐向量,z
′
为移动后的隐向量,a为控制参数,其取值范围为[
‑
5,5];d表示属性变化方向。
[0027]
本发明还提出一种基于隐空间主成分分析的图像可控生成系统,应用于上述任一技术方案提出的基于隐空间主成分分析的图像可控生成方法。其具体包括:
[0028]
随机采样模块,用于在隐空间随机采样隐向量;
[0029]
图像转换模块,用于对生成图像进行图像转换,得到目标属性变化的图像集合;
[0030]
隐向量集合构建模块,用于通过重构损失最小化并利用梯度反向传播构建图像集合对应的隐向量集合;
[0031]
主成分分析模块,用于对隐向量集合进行主成分分析,找到隐向量集合方差变化最大的方向;
[0032]
隐向量属性控制模块,用于将隐向量沿属性变化方向进行不同程度的移动,然后输入生成对抗网络模块中;
[0033]
生成对抗网络模块,用于根据输入的隐向量生成相应的图像。
[0034]
与现有技术相比,本发明技术方案的有益效果是:本发明通过构造隐向量集合对转换图像集合进行重构损失,降低了高频的权值,能够有效保留图像更多的细节信息;通过在隐空间中对构造的隐向量集合进行主成分分析,进一步学习属性变化的方向,从而实现
很大程度地保持学习的属性信息之间互不影响,并且学习的方向具有很好的泛化能力,隐向量沿该方向移动通过生成对抗网络可以有效的控制输出图像的属性变化。
附图说明
[0035]
图1为实施例1的基于隐空间主成分分析的图像可控生成方法的流程图。
[0036]
图2为实施例1中构造隐向量集合的示意图。
[0037]
图3为实施例1中biggan生成网络模型的原理图。
[0038]
图4为实施例1中对隐向量主成分分析学习属性方向的示意图。
[0039]
图5为实施例1中采用图像可控生成方法的效果图。
[0040]
图6为实施例2的基于隐空间主成分分析的图像可控生成系统的原理图。
具体实施方式
[0041]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0042]
对于本领域技术人员来说,附图中某些公知技术及其说明可能省略是可以理解的。
[0043]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0044]
实施例1
[0045]
本实施例提出一种基于隐空间主成分分析的图像可控生成方法,如图1所示,为本实施例的基于隐空间主成分分析的图像可控生成方法的流程图。
[0046]
本实施例提出的基于隐空间主成分分析的图像可控生成方法中,包括以下步骤:
[0047]
步骤1:在隐空间随机采样隐向量后输入生成对抗网络中生成图像。
[0048]
步骤2:对生成图像进行图像转换,得到目标属性变化的图像集合。
[0049]
本步骤中,将生成图像进行图像转换的操作包括亮度变化、大小缩放、水平移动和垂直移动四种属性的转换。
[0050]
本实施例中根据目标属性每次对生成图像进行图像转换操作,且设置有转换程度[
‑
5,5],即每次转换操作生成10张图片,分别对应不同的转换程度。
[0051]
步骤3:通过重构损失最小化并利用梯度反向传播构建图像集合对应的隐向量集合。
[0052]
本步骤中,构建隐向量集合的示意图如图2所示,其具体步骤包括:
[0053]
根据所述目标属性变化的图像集合,寻找与经过图像转换的图像近似的隐向量,构建隐向量集合,使重构损失l最小化,寻找隐向量过程的表达公式如下:
[0054][0055]
式中,表示要寻找的近似隐向量;t(i)表示经过图像转换操作的图像;g(
·
)为生成器,z为随机采样的隐向量;l(
·
)表示重构损失。
[0056]
其中,要寻找的近似隐向量为128维向量。
[0057]
本实施例中所采用的生成器g为biggan生成网络模型,其经过imagenet数据集的训练得到。
[0058]
本实施例中所采用的biggan生成网络模型的结构示意图如图3所示,包括1个连接
模块(concat层)、1个全连接层(linear层)、1个自注意力模块(non
‑
local层)和3个上采样残差块(resblock层)。具体的,将随机采样的隐向量z和类别信息(class)通过连接模块生成一个向量并传递给每个上采样残差块,最终生成图像。其中隐向量z为128维向量,生成图像的大小为256*256。此约束可以使得生成的图像不断向转换图像逼近,最终生成图像会相似于转换图像,将所有生成图像所对应的隐向量提取,则完成隐向量集合的构建。
[0059]
进一步的,本实施例中还对所述重构损失函数在频域进行了优化;其表达公式如下:
[0060]
l(i1,i2)=||f(i1‑
i2)f(σ)||2=||(i1‑
i2)*σ||
[0061]
式中,σ为高斯核,f(
·
)表示傅里叶函数,i1,i2表示优化损失进行比较的任意两张不同图像。
[0062]
不同于一般的像素均方误差,本步骤中对重构损失降低了高频对于图像的惩罚,可以保留更多的图像高频细节。
[0063]
步骤4:对隐向量集合进行主成分分析,找到隐向量集合方差变化最大的方向,即为属性变化方向。
[0064]
本步骤中,采用奇异值分解法对隐向量集合进行主成分分析。如图4所示,为本实施例中对隐向量主成分分析学习属性方向的示意图。本实施例中只重构一个方向,使学习的方向信息变化最大,且方向的维度与隐向量维度都是128维。
[0065]
步骤5:将隐向量沿属性变化方向进行不同程度的移动,然后输入所述生成对抗网络中,输出得到目标属性经过控制的图像。
[0066]
本实施例中,先从imagenet公用数据集中随机采样多个隐向量,然后将隐向量沿着属性变化方向移动,其表达公式如下:
[0067]
z
′
=z+da
[0068]
式中,z为随机采样的隐向量,z
′
为移动后的隐向量,a为控制参数,其取值范围为[
‑
5,5];d表示属性变化方向。
[0069]
完成隐向量的移动后,将移动后的隐向量z
′
通过完成预训练的生成器g,则得到经过属性控制变化后的图像,完成图像可控生成。
[0070]
在具体实施过程中,从imagenet公用数据集中选取花、鸟、橘子图像进行实验,如图5所示,为本实施例采用图像可控生成方法的效果图,其中从左至右分别为经过大小属性控制后输出的生成图像,可以明显观察到图像进行了大小缩放。
[0071]
本实施例中,通过构造隐向量集合对转换图像集合进行重构损失,寻找近似的隐向量,该重构损失降低了高频的权值,因此能够有效保留图像更多的细节信息;
[0072]
本实施例还通过在隐空间中对构造的隐向量集合进行主成分分析,进一步学习属性变化的方向,从而实现很大程度地保持学习的属性信息之间互不影响,并且学习的方向具有很好的泛化能力,隐向量沿该方向移动通过生成对抗网络可以有效的控制输出图像的变化。
[0073]
实施例2
[0074]
本实施例提出一种基于隐空间主成分分析的图像可控生成系统,应用于实施例1提出的图像可控生成方法。如图6所示,为本实施例的图像可控生成系统的原理图。
[0075]
本实施例提出的基于隐空间主成分分析的图像可控生成系统中,包括:
[0076]
随机采样模块1,用于在隐空间随机采样隐向量;
[0077]
图像转换模块2,用于对生成图像进行图像转换,得到目标属性变化的图像集合;
[0078]
隐向量集合构建模块3,用于通过重构损失最小化并利用梯度反向传播构建图像集合对应的隐向量集合;
[0079]
主成分分析模块4,用于对隐向量集合进行主成分分析,找到隐向量集合方差变化最大的方向;
[0080]
隐向量属性控制模块5,用于将隐向量沿属性变化方向进行不同程度的移动,然后输入生成对抗网络模块中;
[0081]
生成对抗网络模块6,用于根据输入的隐向量生成相应的图像。
[0082]
其中,随机采样模块1的输出端与所述生成对抗网络模块6的第一输入端连接,用于将随机采样隐向量输入生成对抗网络模块6中生成相应的图像;
[0083]
生成对抗网络模块6的第一输出端与图像转换模块2的输入端连接,用于将生成图像进行图像转换,得到目标属性变化的图像集合;
[0084]
图像转换模块2的输出端与隐向量集合构建模块3的输入端连接,图像转换模块2将其构建的目标属性变化的图像集合输入隐向量集合构建模块3中,寻找与经过图像转换的图像近似的隐向量,构建隐向量集合;
[0085]
隐向量集合构建模块3的输出端与主成分分析模块4的输入端连接,隐向量集合构建模块3将其构建的隐向量集合输入主成分分析模块4中进行主成分分析,找到隐向量集合方差变化最大的方向;
[0086]
主成分分析模块4的输出端与隐向量属性控制模块5的输入端连接,主成分分析模块4将其学习得到的属性变化方向输入隐向量属性控制模块5中,隐向量属性控制模块5沿属性变化方向进行不同程度的移动;
[0087]
隐向量属性控制模块5的输出端与生成对抗网络模块6的第二输入端连接,生成对抗网络模块6根据输入的经过移动的隐向量输出相应的经过属性控制的生成图像。
[0088]
进一步的,本实施例中的生成对抗网络模块6采用经过imagenet数据集训练的biggan生成网络模型。
[0089]
相同或相似的标号对应相同或相似的部件;
[0090]
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0091]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。