本申请涉及图像反射去除、实现背景恢复技术,特别是涉及一种背景重建方法及装置。
背景技术:
用相机拍摄,在经过诸如玻璃的半透明材料成像时,会把无用场景的反射叠加到背景上,反射不仅会降低图像的可见度,还会影响图像的后续分析。
常用的去除图像反光的方法有如下几种:
1、基于单图像滤波的方法去除图像反光,如快速双边滤波、带通滤波,由于过度依赖于图像本身符合某种假定(如图案呈一定的规律性),导致算法的应用面较为狭窄。
2、基于图层分解的方法去除图像反光,假定光照图的梯度直方图呈现短尾分布,而反射图呈现长尾分布,但当两个图层灰度平滑度相差不大时,该方法将无能为力。
3、通过识别照片中内容相同但光线强度深浅不同的相互错位的两个像围成的反光区域,再通过修图算法将所述照片被反光区域影响的错误图像进行修复,去除反光区域,但该方法采用图像的深浅错位来修复反光区域,仅适用与去除目标与相机之间透明物体产生的反光,通用性不强。
现有方法从中移除反射层一个或几个不确定的盲分离问题,因为需要有关背景层和反射层的先前信息来指导分离过程收敛到正确的解决方案。或者需要手动标记过程来指示图像中背景和反射梯度的位置,但是分离过程将不是自动的。
技术实现要素:
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种背景重建方法,所述方法包括:
利用损失函数lini训练cnn模型,并将待处理图像i输入到训练后的cnn模型中,其中,
lini=lrec+lfr
φi表示在imagenet数据集预训练的vgg-19网络特征在conv(i_2)层的特征,ib是真实背景图像,λ1、λ2、λ3为超参,f1表示所述的cnn,i表示所述cnn模型的输入;
在置信图上运行k-means聚类过程,以生成自适应阈值ξ,所述置信图的表达式为:
其中,gi表示真实图片的梯度分布,bini=f1(i),ε为常数,m为掩模,对于图像i中边缘梯度值大于1的像素,m的值为1,对于图像i中边缘梯度值小于1的像素,m的值为0;
将图像i、反射强度梯度eb和背景强度梯度er联合起来形成输入z,并将所述输入z输入到gan模型进行背景重建,其中,
er=ei·(crf>ξ);eb=ei·(crf<ξ)
ei为图像i中强度梯度大于1的像素的强度。
可选地,所述的gan模型在训练过程中使用的损失函数为:
其中,f2指代所述的gan模型,d是鉴别器,用于推断背景f2(i)和真实背景ib之间的相似度。
可选地,所述鉴别器d通过最小化损失函数ladv来进行训练:
ladv=d(f2(z))-d(ib)。
可选地,所述的λ1、λ2、和λ3的值分别为3、0.4和3。
可选地,所述的λ4的值为0.05。
本申请的背景重建方法,通过训练cnn来区分反射向量和背景向量,通过特征降维提高抑制反射能力,使用初始背景估计结果来生成用于识别强反射和背景梯度的置信度图,然后,生成对抗网络(gan)用于从分类的梯度重建背景图像。使用深度神经网络cnn和dan实现两阶段反射消除方法,当反射图像包含强度梯度成分时,本申请的方法可以完全去除传统方法中常出现的反射残留物,适用于日常摄影中经常遇到具有模糊反射的图像。
根据本申请的另一个方面,提供了一种背景重建装置,所述装置包括:
cnn训练模块,其配置成利用损失函数lini训练cnn模型,并将待处理图像i输入到训练后的cnn模型中,其中,
lini=lrec+lfr
φi表示在imagenet数据集预训练的vgg-19网络特征在conv(i_2)层的特征,ib是真实背景图像,λ1、λ2、λ3为超参,f1表示所述的cnn,i表示所述cnn模型的输入;
聚类模块,其配置成在置信图上运行k-means聚类过程,以生成自适应阈值ξ,所述置信图的表达式为:
其中,gi表示真实图片的梯度分布,bini=f1(i),ε为常数,m为掩模,对于图像i中边缘梯度值大于1的像素,m的值为1,对于图像i中边缘梯度值小于1的像素,m的值为0;和
背景重建模块,其配置成将图像i、反射强度梯度eb和背景强度梯度er联合起来形成输入z,并将所述输入z输入到gan模型进行背景重建,其中,
er=ei·(crf>ξ);eb=ei·(crf<ξ)
ei为图像i中强度梯度大于1的像素的强度。
可选地,所述的gan模型在训练过程中使用的损失函数为:
其中,f2指代所述的gan模型,d是鉴别器,用于推断背景f2(i)和真实背景ib之间的相似度。
可选地,所述鉴别器d通过最小化损失函数ladv来进行训练:
ladv=d(f2(z))-d(ib)。
本申请的背景重建装置,通过训练cnn来区分反射向量和背景向量,通过特征降维提高抑制反射能力,使用初始背景估计结果来生成用于识别强反射和背景梯度的置信度图,然后,生成对抗网络(gan)用于从分类的梯度重建背景图像。使用深度神经网络cnn和dan实现两阶段反射消除方法,当反射图像包含强度梯度成分时,本申请的方法可以完全去除传统方法中常出现的反射残留物,适用于日常摄影中经常遇到具有模糊反射的图像。
根据本申请的第三个方面,提供了一种计算设备,所述计算设备包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本申请所述的方法。
根据本申请的第四个方面,提供了一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现本申请所述的方法。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的一种背景重建方法的示意性流程图;
图2是根据本申请一个实施例的一种背景重建装置的示意性结构框图;
图3是根据本申请一个实施例的一种计算设备的示意性结构框图;
图4是根据本申请一个实施例的一种计算机可读存储介质的示意性结构框图。
具体实施方式
本申请实施例提出的一种背景重建方法通过两个阶段去除图像反射实,现背景恢复。上述方法采用的实验数据集为voc2012数据集,该数据集为图像识别和分类提供了一整套标准化的优秀的数据集。所述数据集共包含20类的物体,每张图片都有标注,标注的物体包括人、动物(如猫、狗、岛等)、交通工具(如车、船飞机等)、以及家具(如椅子、桌子、沙发等)等在内的20个类别,共有11530张图片。对于检测任务,voc2012的训练样本/测试样本包含2008年-2011年的所有对应图片。其中,训练样本包含11540张图片共27450个物体。对于分割任务,训练样本包含2913张图片共6929个物体。
图1是根据本申请一个实施例的一种背景重建方法的示意性流程图。所述的一种背景重建方法一般性地可包括:
s1、利用损失函数lini训练cnn模型,并将待处理图像i输入到训练后的cnn模型中,其中,
lini=lrec+lfr
φi表示在imagenet数据集预训练的vgg-19网络特征在conv(i_2)层的特征,ib是真实背景图像,λ1、λ2、λ3为超参,f1表示所述的cnn,i表示所述cnn模型的输入。
步骤s1为第一阶段,初始化背景估计。
最小化感知特征距离可以生成更接近人类感知期望的图像。感知特征可以通过提取预训练网络的中间层特征来获得,例如在大数据集上训练的vgg-16,vgg-19。当一个图像i2被叠加到另一个图像i1上时,生成的图像i将包含来自i1和i2的纹理。叠加后的图像i将包含比原始图像i1或i2更多的感知特征。我们认为,一个好的反射去除过程也应该尽量减少产生的图像中的感知特征。在该方法的第一阶段,用损失函数lini训练cnn模型。损失函数lini中,超参λ1、λ2、λ3优选为3、0.4和3。f1表示所使用的cnn模型,因此bini=f1(i)给出了背景图像的初始估计。lini由两个损失函数lrec和lfr组成。lrec本质上是一个损失函数,用于保存背景,它是特征距离和与真实背景像素级距离的加权和。由于用于训练网络的背景图像都是特征尖锐并清晰的,所以,lrec实际上引导网络删除像素或图像的模糊部分的感知特征,但如果在模糊区域中存在高梯度分量,则会使网络产生混淆,会使网络将保留模糊特征,也许还有邻近的像素。为了解决这个问题,本实施例在训练cnn模型时加入一个特征降维模块lfr,lfr给出了以bini为输入的vgg-19网络的前几层的总特征大小,它可以最小化bini的低级感知特性。由于lfr会对所有特征进行抑制,而lrec会尽量保留背景特征,所以,与背景特征相比,反射特征会被抑制得更多。更重要的是,对于模糊区域的高梯度分量,lfr和lrec会让网络具有更强的去除梯度能力,虽然这是以牺牲背景层的锐度为代价的,因为背景的梯度也会略有降低。
步骤s2和步骤s3为第二阶段,背景细化。
步骤s2、在置信度图上运行k-means聚类过程,以生成自适应阈值ξ,所述置信度图的表达式为:
其中,gi表示真实图片的梯度分布,所述的真实图片指不包含反射的图片,bini=f1(i)、即步骤s1的输出,所述的梯度指强度梯度,ε为常数,m为掩模,对于图像i中边缘梯度值大于1的像素,m的值为1,对于图像i中边缘梯度值小于1的像素,m的值为0。
bini中低层特征降维使其梯度值衰减,提供了有用的信息来识别背景和反射层的强烈梯度。背景层可以从其强度梯度重建,而具有弱梯度的平坦区域可以通过网络或优化过程容易地推断出来。本实施例考虑初始背景估计值的残差,即(i-bini),它主要包含反射层和衰减的背景梯度,与bini相比,(i-bini)中减弱的背景梯度与bini)中的背景梯度重叠。而根据梯度无关性质,背景和反射层的强度梯度往往不相关,很少重叠。这意味着在(i-bini)中发现强反射梯度的位置,不会在bini中发现任何强背景梯度。基于上述分析,定义了一个确定强反射梯度的置信度图:
然后在上述置信度图上运行一个k-means聚类过程(k=2),生成一个自适应阈值ξ,利用ξ将crf分成两组:反射强度梯度er和背景强度梯度eb,分组方法如下:
er=ei·(crf>ξ);eb=ei·(crf<ξ)
其中ei为图像i中强度梯度大于1的像素的强度。
s3、将图像i、反射强度梯度eb和背景强度梯度er联合起来形成输入z,并将所述输入z输入到gan模型进行背景重建,所述gan模型的输出即为不包含反射的图片,即真实图片,所述的gan模型在训练过程中使用的损失函数为:
其中,f2指代所述的gan模型,d是鉴别器,用于推断背景f2(i)和真实背景ib之间的相似度。l2是gan的总损失函数,包含了鉴别器的损失。
与第一阶段的lrec相似,
ladv=d(f2(z))-d(ib)。
本实施例的背景重建方法使用深度学习方法解决图像反射问题,把整个工程看成两个阶段,第一阶段识别背景区域,增强网络的反射抑制能力,生成初始的背景估计结果,第二阶段对背景细化,使用gan从梯度的分类中重建图像。
图2是根据本申请一个实施例的一种背景重建装置的示意性结构框图。所述装置一般性地可包括:cnn训练模块1、聚类模块2和背景重建模块3。
所述的cnn训练模块1配置成利用损失函数lini训练cnn模型,并将待处理图像i输入到训练后的cnn模型中,其中,
lini=lrec+lfr
φi表示在imagenet数据集预训练的vgg-19网络特征在conv(i_2)层的特征,ib是真实背景图像,λ1、λ2、λ3为超参,f1表示所述的cnn,i表示所述cnn模型的输入;
cnn训练模块1作为第一阶段,初用于始化背景估计。
最小化感知特征距离可以生成更接近人类感知期望的图像。感知特征可以通过提取预训练网络的中间层特征来获得,例如在大数据集上训练的vgg-16,vgg-19。当一个图像i2被叠加到另一个图像i1上时,生成的图像i将包含来自i1和i2的纹理。叠加后的图像i将包含比原始图像i1或i2更多的感知特征。我们认为,一个好的反射去除过程也应该尽量减少产生的图像中的感知特征。在该方法的第一阶段,用损失函数lini训练cnn模型。损失函数lini中,超参λ1、λ2、λ3优选为3、0.4和3。f1表示所使用的cnn模型,因此bini=f1(i)给出了背景图像的初始估计。lini由两个损失函数lrec和lfr组成。lrec用于保存背景,它是特征距离和与真实背景像素级距离的加权和。由于用于训练网络的背景图像都是特征尖锐并清晰的,所以,lrec实际上引导网络删除像素或图像的模糊部分的感知特征,但如果在模糊区域中存在高梯度分量,则会使网络产生混淆,会使网络将保留模糊特征,也许还有邻近的像素。为了解决这个问题,本实施例在训练cnn模型时加入一个特征降维模块lfr,lfr给出了以bini为输入的vgg-19网络的前几层的总特征大小,它可以最小化bini的低级感知特性。由于lfr会对所有特征进行抑制,而lrec会尽量保留背景特征,所以,与背景特征相比,反射特征会被抑制得更多。更重要的是,对于模糊区域的高梯度分量,lfr和lrec会让网络具有更强的去除梯度能力,虽然这是以牺牲背景层的锐度为代价的,因为背景的梯度也会略有降低。
聚类模块2和背景重建模块3为第二阶段,用于对背景进行细化。
所述聚类模块2配置成在置信图上运行k-means聚类过程,以生成自适应阈值ξ,所述置信图的表达式为:
其中,gi表示真实图片的梯度分布,bini=f1(i),ε为常数,m为掩模,对于图像i中边缘梯度值大于1的像素,m的值为1,对于图像i中边缘梯度值小于1的像素,m的值为0。
bini中低层特征降维使其梯度值衰减,提供了有用的信息来识别背景和反射层的强烈梯度。背景层可以从其强度梯度重建,而具有弱梯度的平坦区域可以通过网络或优化过程容易地推断出来。本实施例考虑初始背景估计值的残差,即(i-bini),它主要包含反射层和衰减的背景梯度,与bini相比,(i-bini)中减弱的背景梯度与bini)中的背景梯度重叠。而根据梯度无关性质,背景和反射层的强度梯度往往不相关,很少重叠。这意味着在(i-bini)中发现强反射梯度的位置,不会在bini中发现任何强背景梯度。基于上述分析,定义了一个确定强反射梯度的置信度图:
然后在上述置信度图上运行一个k-means聚类过程(k=2),生成一个自适应阈值ξ,利用ξ将crf分成两组:反射强度梯度er和背景强度梯度eb,分组方法如下:
er=ei·(crf>ξ);eb=ei·(crf<ξ)
其中ei为图像i中强度梯度大于1的像素的强度。
所述的背景重建模块3配置成将图像i、反射强度梯度eb和背景强度梯度er联合起来形成输入z,并将所述输入z输入到gan模型进行背景重建。所述的gan模型在训练过程中使用的损失函数为:
其中,f2指代所述的gan模型,d是鉴别器,用于推断背景f2(i)和真实背景ib之间的相似度。l2是gan的总损失函数,包含了鉴别器的损失。
与第一阶段的lrec相似,
ladv=d(f2(z))-d(ib)。
本实施例的背景重建装置使用深度学习方法解决图像反射问题,把整个工程看成两个阶段,第一阶段识别背景区域,增强网络的反射抑制能力,生成初始的背景估计结果,第二阶段对背景细化,使用gan从梯度的分类中重建图像。
本申请实施例还提供了一种计算设备,参照图3,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图4,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetictape),软盘(英文:floppydisk),光盘(英文:opticaldisc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。