一种基于堆叠生成对抗网络的图像补全方法

文档序号:24742168发布日期:2021-04-20 21:59阅读:143来源:国知局
一种基于堆叠生成对抗网络的图像补全方法

1.本发明涉及图像处理领域,尤其涉及一种基于堆叠生成对抗网络的图像补全方法。


背景技术:

2.近来,基于深度学习方法的图像补全任务得到长足发展,其应用范围也逐渐扩大。图像补全是图像处理领域的一个基本任务,它的难点在于需要为缺失的区域填补真实自然和语义正确的内容。早期的图像补全算法使用最近邻搜索方法,在背景区域搜索最相似的图像块填补缺失区域,但是这样并不能获取图像的高水平语义信息,因而其补全方法不能产生有意义的内容。另外一些图像补全算法是基于学习整个数据集分布的目标,通过大量数据的训练来构造缺失的内容,但是这样的补全效果特别缺乏图像高频信息,因而其补全图像总是模糊扭曲,图像质量不好。随后还有一些基于深度学习方法的图像补全提出学习图像数据的基本分布,即学习到一个函数能将缺失的图像映射到真实的图像。例如典型的图像补全方法一般使用基于generative adversarial network(gan)的方法,gan能将正态分布的噪声映射为图像,从而学习到真实图像的分布。gan作为生成模型使用无监督学习方式可以学习到数据的复杂分布,gan的生成器和判别器网络根据相反的目标联合训练:生成器最小化目标函数和判别器最大化目标函数来进行对抗训练,这样的对抗能促使它们拟合任何的数据分布,最终一旦训练成功生成器能够捕获真实数据分布。
3.现有技术方案存在以下的不足:
4.1、输出图像的修补区域会存在模糊不自然的缺陷
5.一些图像补全方法一般都会使用到全连接层,但是由于全连接层网络采用基于通道的全连接,会导致网络在获取图像语义信息的时候受到限制,因而最后的补全结果一般都会存在模糊不自然的问题。需要替换全连接网络结构来解决其瓶颈问题。
6.2、网络的训练时间和计算资源空间消耗量大
7.现有图像补全方法有的提出采用空洞卷积来增加网络的感受野,从而使网络更好地提取图像特征,最后提升补全图像的质量。但是由于较大空洞率造成了卷积核的稀疏性增大,带来了训练时间增加和计算资源成本提高,最终影响了网络的训练效率。需要设计训练时间少和计算成本低的网络来提高训练效率。
8.3、网络没有考虑到提取图像特征时,存在局部细节信息丢失的情况
9.现有图像补全方法忽略或没有完全考虑在图像下采样时会大量丢失局部细节信息,这样会使网络输出模糊的补全结果。还有的网络可能考虑到细节丢失,采用残差块或类残差块网络结构,但是这样利用细节信息还不充分,最后输出结果还是会存在模糊的缺陷。需要设计网络充分利用图像的局部细节信息,使网络产生高质量的结果。
10.因此迫切需要对现有的图像补全算法进行改进,使图像补全算法能够产生高质量的补全结果。


技术实现要素:

11.针对现有技术之不足,一种基于堆叠生成器网络的图像补全方法,所述方法包括:
12.步骤1:收集下载补全图像数据集places2和paris streetview,对所述补全图像数据集进行预处理;
13.步骤2:按照约定比例将所述补全图像数据集划分为训练集、验证集和测试集;
14.步骤3:采用所述训练集对构建好的图像补全网络进行训练,所述的图像补全网络包括生成器和判别器,所述生成器包括三层补全网络,每层补全网络均包括一个编码器和一个解码器,第三层补全网络连接至判别器,整个补全网络为堆叠的网络层次结构,将预处理好的所述训练集分别送入对应的网络层进行训练,训练方法具体包括:
15.步骤31:将四等分待补全图像i
m4
送入第一层补全网络,经第一编码器编码后分别输出4个块的特征图,将所述特征图按宽的维度拼接为2个第一特征图后送入第一解码器,由第一解码器输出2个块的第一补全图像;
16.步骤32:将将2个所述第一补全图像和所述二等分待补全图像i
m2
中的2个图像块对应相加后送入第二编码器,由第二编码器输出2个第二特征图,将其和2个所述第一特征图对应相加,再按高的维度拼接为1块第二特征图后再输入第二解码器,由第二解码器输出一整块的第二补全图像;
17.步骤33:将所述第二补全图像与所述待补全图像i
m
相加后作为第三层网络的输入,由第三编码器输出第三特征图,将第三特征图和第二层网络的所述第二特征图相加后送入第三解码器,然后由第三编码器输出最终补全图像;
18.步骤34:判别器,将所述最终补全图像及原始图像输入到判别器中,通过判别器判断真假。当判别器不能区分所述最终补全图像和原始图像时,表示生成器网络和判别器网络已达到平衡,生成器已经捕获图像数据的真实分布。
19.步骤35:按照设定批次大小对所述图像补全网络进行迭代训练,每个批次中先训练判别器,根据对抗损失函数更新判别器参数,更新完后冻结判别器参数,根据重构损失函数、内容损失函数和风格损失函数更新生成器参数,交替训练整个图像补全网络;
20.步骤36:判断是否达到设定的验证迭代次数,若达到,则验证一次模型和保存一次模型,若未达到则执行步骤37;
21.步骤37:判断是否达到设定的迭代总次数,若达到则结束训练,否则重复步骤31至步骤36。
22.根据一种优选的实施方式,所述图像补全方法的损失函数包括分别针对缺失区域和已知区域的重构损失函数、对抗损失函数、内容损失函数和风格损失函数,
23.重构损失函数用于约束生成图像的全局结构,
24.对抗损失函数用于约束判别器,提高判别器的识别准确度;
25.内容损失函数用于缩小生成图像和原始图像在预训练的vgg19网络中的特征之间的距离,进而使生成图像的质量得到提升;
26.风格损失函数计算图像在vgg网络中特征的格拉姆矩阵来把握图像的整体风格,通过约束生成图像和原始图像的风格差异亦可提高图像质量;
27.根据一种优选的实施方式,所述图像补全方法的预处理包括:
28.步骤11:首先将数据集中图像的大小统一处理为256*256;
29.步骤12:接着将图像的所有像素值归一化到0至1,并且使用mask将归一化的图像处理为缺失中间内容的待补全图像i
m

30.步骤13:将所述待补全图像i
m
分别裁剪为四等分待补全图像i
m4
、二等分待补全图像i
m2
,并将待补全图像i
m
、四等分待补全图像i
m4
及二等分待补全图像i
m2
作为补全网络的输入;
31.本发明的有益效果在于:
32.1、使用生成对抗网络来对生成器和判别器进行对抗训练,避免使用全连接层,从而解决了全连接层造成的图像边缘模糊的问题,提升了边缘细节的恢复能力,达到提升补全图像质量的目的。
33.2、使用堆叠的层级生成器网络分多尺度特征进行图像补全,堆叠的生成器网络结构可以实现对图像进行由粗到细地分阶段补全,这样可以使网络尽可能利用图像的多尺度特征,从而实现更好的补全效果;另一方面,通过对图像从小尺度到大尺度的特征提取,提高了训练时间和效率。
34.3、使用对抗损失、重构损失、内容损失和风格损失对网络约束,提升网络性能,内容损失和风格损失的引入可以使生成图像在vgg网络中的特征向其对应的原始图像的特征进行靠拢,使最终的补全结果在整体内容和风格上更接近原始图像。
附图说明
35.图1是本发明图像补全网络的方法流程图;
36.图2是本发明图像补全网络结构图;
37.图3是本发明的实验效果对比图;和
38.图4是本发明的另一例实验效果对比图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
40.本发明主要解决的是图像补全中存在不清晰不真实的图像质量问题。图像补全(图像内补)任务主要是填补缺失内容的图像,它是一种比较普遍的图像编辑任务,其应用范围相当广泛,例如应用于去除图像中多余的前景对象、修复破损缺失的照片等等。图像补全算法要求尽可能获取图像的结构信息和语义信息,这样才能使最终的补全内容显得自然真实和清晰美观。现有的大部分图像补全算法主要问题是获取的图像语义信息和结构信息不够,所以最终的补全结果会存在模糊扭曲的问题。因此迫切需要对现有的图像补全算法进行改进,使图像补全算法能够产生高质量的补全结果。
41.下面结合附图进行详细说明。
42.图1是本发明图像补全网络的方法流程图,现结合图1对本发明方法进行详细说明。本发明提出的一种基于堆叠生成器网络的图像补全方法,包括以下步骤:
43.步骤1:收集下载补全图像数据集places2和paris streetview,对补全图像数据
集进行预处理;预处理方法包括:
44.步骤11:首先将数据集中图像的大小统一处理为256*256。
45.步骤12:接着将图像的所有像素值归一化到0至1,并且使用mask将归一化的图像处理为缺失中间内容的待补全图像i
m

46.步骤13:将待补全图像i
m
分别裁剪为四等分待补全图像i
m4
、二等分待补全图像i
m2
,并将待补全图像i
m
、四等分待补全图像i
m4
及二等分待补全图像i
m2
作为补全网络的输入。
47.步骤2:按照约定比例将补全图像数据集划分为训练集、验证集和测试集。
48.步骤3:采用训练集对构建好的图像补全网络进行训练,的图像补全网络包括生成器和判别器,生成器包括三层补全网络,每层补全网络均包括一个编码器和一个解码器,第三层补全网络连接至判别器,整个补全网络为堆叠的网络层次结构,将预处理好的训练集分别送入对应的网络层进行训练。训练方法具体包括:
49.步骤31:将四等分待补全图像i
m4
送入第一层补全网络,经第一编码器编码后分别输出4个块的特征图,将特征图按宽的维度拼接为2个第一特征图后送入第一解码器,由第一解码器输出2个块的第一补全图像。
50.步骤32:将将2个第一补全图像和二等分待补全图像i
m2
中的2个图像块对应相加后送入第二编码器,由第二编码器输出2个第二特征图,将其和2个第一特征图对应相加,再按高的维度拼接为1块第二特征图后再输入第二解码器,由第二解码器输出一整块的第二补全图像。
51.步骤33:将第二补全图像与待补全图像i
m
相加后作为第三层网络的输入,由第三编码器输出第三特征图,将第三特征图和第二层网络的第二特征图相加后送入第三解码器,然后由第三编码器输出最终补全图像。
52.步骤34:判别器,将最终补全图像及原始图像输入到判别器中,通过判别器判断真假。当判别器不能区分最终补全图像和原始图像时,表示生成器网络和判别器网络已达到平衡,生成器已经捕获图像数据的真实分布。
53.步骤35:按照设定批次大小对图像补全网络进行迭代训练,每个批次中先训练判别器,根据对抗损失函数更新判别器参数,更新完后冻结判别器参数,根据重构损失函数、内容损失函数和风格损失函数更新生成器参数,交替训练整个图像补全网络。
54.步骤36:判断是否达到设定的验证迭代次数,若达到,则验证一次模型和保存一次模型,若未达到则执行步骤37。
55.步骤37:判断是否达到设定的迭代总次数,若达到则结束训练,否则重复步骤31至步骤36。
56.图像补全方法的损失函数包括分别针对缺失区域和已知区域的重构损失函数、对抗损失函数、内容损失函数和风格损失函数,数学表达式如下:
57.l
total
=λ1l
hole
+λ2l
valid
+λ3l
ad
+λ4l
perceptual
+l5l
style
ꢀꢀꢀꢀ
(1)
58.实验中,设置参数λ1=8.0,λ2=1.0,λ3=1.0,λ4=0.1,λ5=250.0。
59.重构损失函数用于约束生成图像的全局结构,数学表达式如下:
60.l
hole
=||(1

m)

(i
gen

i
gt
)||2ꢀꢀꢀꢀ
(2)
61.l
valid
=||(m

(i
gen

i
gt
)||2ꢀꢀꢀꢀ
(3)
62.其中,l
hole
表示缺失区域的重构损失函数,l
valid
表示已知区域的重构损失函数,m
表示mask,i
gen
表示生成图像,i
gt
表示原始图像。
63.对抗损失函数用于约束判别器,提高判别器的识别准确度;
64.内容损失函数用于缩小生成图像和原始图像在预训练的vgg19网络中的特征之间的距离,进而使生成图像的质量得到提升,数学表达是如下:
65.l
perceptual
=e[||φ
i
(i
gen
)

φ
i
(i
gt
)||1]
ꢀꢀꢀꢀ
(4)
[0066]
φ
i
(.)表示vgg网络中第i层网络的激活层,i
gen
表示生成图像,i
gt
表示原始图像。
[0067]
风格损失函数计算图像在vgg网络中特征的格拉姆矩阵来把握图像的整体风格,通过约束生成图像和原始图像的风格差异亦可提高图像质量;数学表达式如下:
[0068][0069]
g(.)表示特征图的格拉姆矩阵,φ
i
(.)表示vgg网络中第i层网络的激活层,i
gen
表示生成图像,i
gt
表示原始图像。
[0070]
图像补全方法还包括对训练好的补全网络进行测试,按步骤1方法处理好网络的输入图像i
m
及其分块图像i
m2
、i
m4
,并按1步骤分别操作第一至三层补全网络,最后由第三层网络的解码器输出测试结果。
[0071]
图像补全方法还包括对训练好的补全网络进行测试,按步骤1方法处理好网络的输入图像i
m
及其分块图像i
m2
、i
m4
,并按1步骤分别操作第一至三层补全网络,最后由第三层网络的解码器输出测试结果。
[0072]
在自然图像数据集places2和paris街景图像数据集上进行了评估。将places2分成308500张训练图片和20000张测试图像,并使用paris数据集的原始划分,它包括14900张训练图像和100张测试图像。此外,所有的训练和测试图像都被调整到256
×
256分辨率,将像素值归一化为[0,1]。训练和测试的输入是缺失区域不规则的图像。此外将本发明的方法与现有两种最新的补全方法进行比较:部分卷积(pconv)与连贯语义注意(csa),并使用相同的不规则掩膜数据集比较。
[0073]
首先,将本发明的方法与pconv和csa进行了定性比较。图3是不同方法在数据集paris街景图像上的测试结果,其中ours表示未加内容损失函数和风格损失函数的实验结果,ours
*
表示加入了内容损失函数和风格损失函数的实验结果。在图3(b)为输入图像,用黑色表示缺失区域。在图3(c)中,补全的结果表明pconv未能很好地修复缺失区域的内容和纹理,并且生成了一些模糊扭曲的结构。在图3(d)中,csa在已补全的区域上也表现得很差,例如它会产生很多意想不到的噪声和模糊的轮廓。相反,本发明的模型在图3(e)中实现了一个自然而真实的结果。为了进一步提高补全图像的质量,在模型中加入了内容损失和风格损失,视觉效果如图3(f)所示。实验结果表明,提出的带有内容损失和风格损失的模型可以提高生成图像的自然度和清晰度,最终生成高质量的补全结果。
[0074]
然后,图4是在自然图像数据集places2上进行的实验效果对比,图4显示了与现有方法相比的定性结果。在实验中,可以得到类似的结果。pconv和csa都无法重建自然合理的纹理,例如其补全的建筑和背景产生了模糊的内容和不自然的结构。而由本发明的模型产生的补全结果(见图4(e,f))比图4(c,d)更清晰,更自然。此外,本发明的方法解决了补全图像的模糊和失真问题,并保证了局部细节的一致性。
[0075]
表1 实验结果的客观评价指标对比
[0076]
methodis
+
fid

psnr
+
ssim
+
l1 loss

pconv2.687348.569226.95010.81164.7234csa2.754843.329029.00370.80314.3020ours2.822035.975831.97900.84562.9825ours*2.856215.462533.69950.89192.6240
[0077]
为了进一步评价该方法的有效性,还进行了定量比较实验。具体来说,表1显示了paris街景数据集上不同方法的定量结果,并包括100个测试图像的定量指标。本发明的模型实现了2.8220的is和35.9758的fid指标,其证明了本发明的模型产生的补全结果相对于对比方法的结果更加多样化和清晰。此外,本发明方法还实现了较好的31.9790的psnr,0.8456的ssim,这表明本发明补全方法生成的图像质量更高高。l1损失值越小,说明其结果更接近原始图像。为了提高结果的质量,在模型中加入了内容损失和风格损失,最后所有指标都有明显的改善。
[0078]
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1