一种基于自监督残差感知网络的数码变焦方法与流程

文档序号:20567885发布日期:2020-04-29 00:34阅读:267来源:国知局
一种基于自监督残差感知网络的数码变焦方法与流程

本发明涉及计算机视觉、数字图像分析、深度学习、机器学习等技术领,具体涉及一种基于自监督残差感知网络的数码变焦方法。



背景技术:

近年来,由新网络结构和大数据进步驱动的深度学习算法在许多人工智能系统中表现出惊人的高性能,例如图像识别和语义分割。深度学习在图像超分领域的应用也十分令人兴奋。在图像超分领域,由于获取成对训练数据(低分辨率图像和对应的高分辨率图像)是比较困难的,所以研究人员在前期的实验中假设超分辨率中的图像退化模型为双三次下采样或者高斯下采样,然后将高分辨率图像通过下采样获得对应的低分率图像作为神经网络的输入,高分辨率图像作为标记来训练神经网络。基于上述基本假设,研究人员在图像处理领域提出了很多模型来尝试解决这个问题。

chao等人首次提出将深度网络应用在图像超分领域。他们提出了一个简单的三层神经网络srcnn,取得了很棒的表现,不管是在重建效果还是在推断耗时等指标上。在这之后,很多神经网络的改进结构被应用到超分领域。例如kim等人设计了vdsr,ledig等人提出将残差块引入到网络结构中。随后,lim等人提出了一种非常深和宽的网络edsr,该网络通过叠加修改后的剩余块来实现。显著的性能增益表明表示深度在图像超分中起着关键的作用。其他最近的工作,如rdn,都是基于密集块并利用所有卷积层的所有层次特征。nlrg和rcan通过在空间和通道维度上考虑特征相关性来提高性能。

然而随着研究的进一步深入,研究人员发现基于双三次和高斯下采样训练出来的模型,并不能简单的迁移到真实的环境(光学变焦)中。也就是说在超分领域表现很好的模型在光学变焦中并比一定就能取得很好的表现。这个发现在最近引起了研究人员的广泛关注,chen等人提出了一个真实成像下的光学变焦数据集,city100,然后从相机镜头的角度研究图像超分,旨在缓解合成退化模型与真实成像系统的差异。zhang等人提供了一个数据集sr-raw,它包含原始raw数据和对应的真实高分辨率图像,用于真实世界的光学变焦,并采用带有上下文双边丢失(cobi)的srresnet来训练sr-raw数据集。此外,cvpr2019的第三届ntire挑战也集中在光学变焦的任务上。这个挑战基于realsr数据集。这个数据集是在不同的室内和室外环境中获得的图像。但是这些工作主要的贡献都集中在提出了一个数据集,然后基于他们提出的数据集研究了光学变焦与传统超分的不同之处:“真实环境中的图像退化模型比假设的双三次或者高斯退化要复杂很多,导致了真实环境下的低分图像中存在很多噪声,使得低分与高分图像相比,丢失了很多重要的信息”,但是这些研究都没有为光学变焦提出一个有效的解决方案。

因此本专利的目的是基于超分辨率和光学变焦任务的差异,开发一种适用于光学变焦任务的深度模型。



技术实现要素:

发明目的:本发明提出一种基于自监督残差感知网络的数码变焦方法,使变焦后的图像拥有更多的细节和边缘信息。

技术方案:本发明所述的一种基于自监督残差感知网络的数码变焦方法,包括以下步骤:

(1)对srraw数据集进行预处理,获取残差图像;

(2)使用边缘增强和细节增强操作作用在残差图像上,将残差图像的边缘和细节增强后作为残差感知辅助网络的标记;

(3)通过辅助网络将丢失的残差信息转化为特征表示融合到数码变焦的深度缩放网络中;

(4)通过加和的loss联合训练辅助网络和深度缩放网络,提高深度缩放网络的性能。

进一步地,所述步骤(2)包括以下步骤:

(21)定义边缘增强算子k1和细节增强算子k2为:

(22)对于边缘增强卷积,设定步长为1,边缘填充为0;对于细节增强卷积,我们设定补偿为6,边缘填充为0;

(23)将低分辨率图像y定义为该模块的输入,增强后的残差图像r作为标记,用l1范数定义辅助任务的损失来优化辅助任务参数,损失函数定义如下:

其中θ1表示辅助网络的参数,m表示训练集的样本数,yi∈y表示第i个低分图像,ri∈r表示对应的增强后的残差图像;frat(·)表示辅助任务的网络结构。

进一步地,步骤(3)所述的融合主要包括双向top-down连接融合特征以及通过多尺度池化旋转空间注意力机制调整融合后的特征。

进一步地,所述步骤(3)包括以下步骤:

(31)双向top-down融合方式会将辅助网络中语义级别的特征通过加和的方式融合到缩放网络的浅层(f0)中,而辅助网络中浅层的特征融合到缩放网络的语义层(fn)中;

(32)多尺度池化操作会将所有的通道分成n组,把平均池化应用到在不同的组中,获得多尺度的空间感知区域:

其中,favg(·)代表平均池化操作,ci表示通道池化的尺度;

(33)将所有特征映射旋转四次,然后将所有的特征映射在空间层面连接成一个新的特征:

其中frot(·)表示旋转操作,rij表示第i个特征映射旋转90×j的角度,表示连接操作;

(34)应用卷积层,通过融合局部感受野中的空间和通道信息来构造信息丰富的特征:

其中,wd表示卷积层的参数,表示矩阵加法;

(35)得到空间注意图α来重新缩放这些特征表示:

其中,αi和vi分别表示第i位置的缩放因子和特征映射。

进一步地,所述步骤(4)通过以下公式实现:

l(θ1,θ2)=lrat(θ1)+λ·ldfzn(θ2)

其中,θ2表示深度缩放网络的参数,λ是权衡参数。

有益效果:与现有技术相比,本发明的有益效果:1、与现有的超分辨率技术相比,本发明在不同的指标上都有提升,如psnr(峰值信噪比),lpips(深度感知图像相似性);2、经过本发明生成的图片拥有更多的细节和边缘信息;3、本发明在性能和计算复杂性上有很好的权衡。

附图说明

图1为本发明流程图;

图2为基于自监督残差感知网络的数码变焦模型的框架图;

图3为多尺度池化旋转空间注意力模型的框架图;

图4为多尺度池化旋转空间注意力算法流程图。

具体实施方式

数字变焦的主要任务是从低分辨率空间y中恢复高分辨率空间x,这些数据是由不同级别的光学变焦设备采集的,即通过长焦距摄像头采集高分辨rgb图像x和短焦距摄像头采集低分辨率rgb图像y。此任务的最大挑战是输入输出之间严重的信息丢失。设训练集为s={(x1,y1),(x2,y2),…,(xm,ym)},我们定义其中yi表示第i个低分辨率图像,xi表示对应的低分辨率图像。我们将r=[r1,r2,…,rm]t表示为自监督任务的标签,μ表示为缩放比。通过对数码变焦任务和传统超分任务细致的研究,发现两个任务之间的差异主要体现在输入与输出之间丢失信息的程度。相比于传统超分任务中的合成图像退化模型,真实环境中的图像退化模型会导致输入输出之间非常严重的信息丢失。

本发明的网络主要包括两部分:深度缩放网络(dfzn)和残差感知的辅助网络(rat)。在残差感知的辅助网络中基于输入与输出之间的残差信息定义一个自监督辅助任务,然后通过一个辅助神经网络将丢失的残差信息转化为特征表示融合到数码变焦的深度缩放网络中(主缩放任务),最后通过一个加和的loss联合训练辅助任务和主缩放任务,以此提高主缩放网络的性能。此外为了更好将辅助网络中的特征表示融合到主网络中,我们也基于空间注意力模型提出了一个新的改进方案,称为多尺度池化旋转空间注意力模型。我们将该发明所提出模型在sr-raw数据集上做了任意性实验,实验结果表明我们提出的辅助任务模块和空间注意力改进模块对数码变焦任务都是有很大的提升。而且,在数码变焦领域,我们的模型也取得了目前文献中所报告的最好的结果。

如图1所示,本发明具体包括以下步骤:

1、对srraw数据集进行预处理,获取残差图像。

使用zhang等人提出的srraw数据集验证发明方法的有效性,它由500个序列数据组成。对于4x变焦模型,我们从每个序列中得到3个输入输出对进行训练。对于8x变焦模型,我们从每个序列得到1个图像对。每对图像都包含一个低分辨率图像及其相应的全分辨率光学缩放图像。请注意,我们将这些对图像分成训练、验证和测试集。从训练序列数据中选择最后15对作为验证集。由于摄影焦点位在图像中间,所以我们从图像中间裁剪出512*512大小的补丁进行测试。

2、使用边缘增强和细节增强操作作用在残差图像上,将残差图像的边缘和细节增强后作为残差感知辅助网络的标记。

丢失的信息主要集中在边缘和纹理部分,因此为了引导辅助网络更好的学习到丢失的信息特征,我们使用边缘增强和细节增强操作作用在残差图像上,将残差图像的边缘和细节增强后作为辅助网络的标记。具体的来说,我们通过边缘增强和细节增强算子与残差图像卷积产生边缘和细节增强的效果。其中边缘增强算子k1和细节增强算子k2分别定义为:

此外,对于边缘增强卷积,我们设定步长为1,边缘填充为0。对于细节增强卷积,我们设定补偿为6,边缘填充为0。增强操作使得差值图像中的高频部分变得很显著,更有利于辅助任务学习。

对于残差感知辅助任务模块,我们将低分辨率图像y定义为该模块的输入,增强后的残差图像r作为标记。我们用l1定义辅助任务的损失来优化辅助任务参数。损失函数定义如下:

其中θ1表示辅助任务rat的参数,m表示训练集的样本数,yi∈y表示第i个低分图像,ri∈r表示对应的增强后的残差图像;frat(·)表示辅助任务的网络结构。

3、通过辅助网络将丢失的残差信息转化为特征表示融合到数码变焦的深度缩放网络中,如图2所示。

给定一个特征映射,大小为h×w×c。我们通过平展原始特征映射的宽度和高度来重塑v=[v1,…,vm],其中m等于h×w。我们可以把vi视为第i位置的视觉特征。多尺度池化旋转空间注意力模型的框架图如图3所示,其详细算法如图4所示。首先,多尺度池化操作会将所有的通道分成n组,例如1、2、4。然后我们把平均池化应用到在不同的组中,获得多尺度的空间感知区域。

favg(·)代表平均池化操作,ci表示通道池化的尺度,可取值分别为1、2、4。

为了更好的探索空间特征之间的全局上下文依赖关系,我们提出了旋转操作来重新整合特征表示。具体来说,我们将所有特征映射旋转四次,然后将所有的特征映射在空间层面连接成一个新的特征。

其中frot(·)表示旋转操作,rij表示第i个特征映射旋转90×j的角度。表示连接操作。

然后,我们应用卷积层,通过融合局部感受野中的空间和通道信息来构造信息丰富的特征。

wd表示卷积层的参数,表示矩阵加法。

最后,我们得到空间注意图α来重新缩放这些特征表示:

其中,αi和vi分别表示第i位置的缩放因子和特征映射。通过这样的空间注意,这些聚集特征和残差分量可以自适应地重新调整,以在空间表示上保持丰富的上下文关系。

4、通过加和的loss联合训练辅助网络和深度缩放网络,提高深度缩放网络的性能。

下定义dfzn的损失函数。与rat相同,我们也使用l1范数作为损失函数。

其中θ2表示dfzn的参数。我们使用两个任务的混合损失函数来联合的优化rat和dfzn网络。混合损失函数如下所示:

l(θ1,θ2)=lrat(θ1)+λ·ldfzn(θ2)(8)

其中λ是权衡参数,来平衡这两项任务重要性的。

我们对训练图像对执行数据增强,例如随机旋转90、180、270度并水平翻转。在每个训练批次中,随机抽取16个大小为64×64的(32×32用于8x变焦模型)低分辨率图像小块作为输入,然后将对应的的高分辨率图像和增强的残差图像上的对应位置分别作为dfzn和rat的标记。adam优化被用来更新参数其中设定β1=0.9、β2=0.999和∈=10-8。初始学习率设置为10-4,然后每50个学习率降低到一半。我们使用等式(8)中定义的混合损失l(θ1,θ2)作为模型损失韩式,其中设置平衡参数λ=1,并对本文中的所有比较方法采用l1损失函数。

我们对两个baseline模型进行消融研究,以验证我们提出的模块:rat和mpr-sa的有效性。这两个baseline模型分别是edsr和rcan。注意,对于rcanbaseline模型,我们在rir结构中将rg个数设置为1。在每个rg中,我们将rcab的个数设置为16。我们将提出的srnet变体在sr-raw验证集上的测试结果进行了比较。具体性能对比见表1和表2。

表1不同模块在edsr模型上的性能

表2不同模块在rcan模型上的性能

为了验证该发明中提出的srnet的有效性,我们将srnet与5种最先进的基于cnn的sr方法进行了比较,这些方法被迁移到zoom任务中:edsr、srresnet、rdn、san、rcan。我们在表3中报告了所有的定量结果。根据不同的标准(即、ssim、psnr和lpips),我们的srnet在不同的变焦率下都优于所有的比较方法。此外,srnet、rcan--和san获得了比其他方法更好的性能。主要原因是通道注意力机制(rcan--,san)和残差感知辅助任务(srnet)都会引导网络学习高频特征,从而使网络更加注重高频特征。然而,与其他两种方法相比,我们的srnet在纹理信息丰富的情况下取得了更好的效果,这表明定义一个用于显式地将残差信息编码融合到缩放网络训练过程中的辅助任务是有益的。

表3在x4和x8缩放比例下不同方法的性能比较

表4中显示了在x4缩放比率设定下,这些比较模型的参数规模和性能。该发明提出的srnet的参数只有edsr的两倍左右,但是获得了更高的性能,这意味着我们的srnet可以在性能和模型复杂性之间进行很好的权衡。结果表明,在变焦任务中,采用有效的训练策略设计轻量级的深度模型比设计深度或广度网络更容易获得更好的性能。

表4计算及参数比较(x4缩放比例)

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1