一种基于U型动态网络的屏下相机图像复原方法

文档序号:32489986发布日期:2022-12-10 02:25阅读:25来源:国知局
一种基于U型动态网络的屏下相机图像复原方法
一种基于u型动态网络的屏下相机图像复原方法
技术领域
1.本发明涉及图像处理技术领域,更具体地,涉及一种基于u型动态网络的屏下相机图像复原方法。


背景技术:

2.屏下摄像系统(udc)是一种在传统数码相机镜头上安装显示屏的新型成像系统,可以在无需打孔切口的情况下实现全屏显示,以提供更好的用户体验,因而受到了业界的广泛关注。udc利用oled屏幕透光度高的特点,在不拍照的情况下,由oled正常显示手机内容。在拍照时,令外部光线通过oled屏幕成像。
3.然而,在显示器下保留成像传感器的全部功能相对困难,显示屏不可避免地会影响光的传播过程。在成像过程中,由于光的传播需要经过摄像头上覆盖的屏幕,进而产生各种形式的光学衍射和干涉,因此udc系统捕捉到的图像通常包含耀斑、雾霾、模糊和噪声等。此外,在真实场景中,udc图像往往是在高动态范围(hdr)场景下拍摄,高光区域会出现严重的过饱和问题,udc图像中的光晕和模糊等现象严重影响了用户体验。
4.图像复原任务的目标是从图像的退化偏移中恢复出干净的高质量图像,如去噪、去模糊、超分辨率和hdr重建等。与这些任务类似,udc图像恢复的目的是重建由udc系统生成的退化图像。为了对udc系统的复杂退化过程进行建模,现有技术建议利用一种特殊的衍射模糊核来恢复图像,即点扩散函数(psf)。例如,将udc图像恢复任务看作是给定精确测量psf的反演问题。又如,对udc系统的图像生成过程进行建模,基于反卷积(deconvolution-based pipeline,dep)和基于数据驱动学习的方法来解决udc图像恢复问题。这些unet的变体在数据生成和psf测量方面缺乏对hdr场景的考虑,导致由udc捕获的图像经常带有噪声、耀斑、雾霾和模糊的伪影等。尽管现有方法在图像复原方面已经取得了一定进展,但复原图像的质量仍有待改进。


技术实现要素:

5.本发明的目的是克服上述现有技术的缺陷,提供一种基于u型动态网络的屏下相机图像复原方法,该方法包括以下步骤:
6.采集目标图像;
7.将目标图像输入到经训练的图像复原模型,获得重建图像;
8.其中,所述图像复原模型包括基础网络、条件分支和内核分支,所述基础网络用于提取输入图像的多尺度信息;所述条件分支用于自适应地调制基础网络提取的中间特征,以针对输入图像生成不同空间分辨率的条件特征;所述内核分支基于输入图像和点扩散函数特征在通道维度上合并后的特征,生成不同空间分辨率的动态卷积核;所述基础网络对输入图像进行前向传播过程中,将所述条件特征和所述动态卷积核整合进设定位置。
9.与现有技术相比,本发明的优点在于,提出了一种新的深度网络模型,可用于解决hdr场景中已知点扩散函数(psf)的屏下摄像系统图像恢复问题。所提供的网络模型包括利
用多尺度信息的基础网络、进行空间变形调制的条件分支和提供给定psf先验知识的内核分支。此外,根据hdr数据的特点,针对网络模型进一步设计了色调映射损失,以稳定网络模型的优化,提升复原图像的视觉质量。
10.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
11.被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
12.图1是根据本发明一个实施例的基于u型动态网络的屏下相机图像复原方法的流程图;
13.图2是根据本发明一个实施例的图像复原模型的网络结构图;
14.图3是根据本发明一个实施例的图像复原效果图;
15.附图中,conv-卷积;down-sampling-下采样;up-sampling-上采样;residual block-残差块;residual sft block-残差空间特征变换块;dynamic conv-动态卷积;element-wise sum-逐点相加;concatenate-合并;element-wise multiply-逐点相乘。
具体实施方式
16.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
17.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
18.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
19.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
20.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
21.参见图1所示,所提供的基于u型动态网络的屏下相机图像复原方法包括以下步骤:
22.步骤s110,获取数据集和点扩散函数psf。
23.点扩散函数(psf)是一个物空间的点光源经过光学系统后的辐射照度分布,可用于描述成像系统对点源或点对象的响应。传统的图像复原方法通常先估计psf,再估计原始的清晰图像。psf的先验知识已被证明对图像的恢复有效。在本发明一个实施例中,为了降低模型训练成本,使用公开数据集和公开psf。
24.步骤s120,构建图像复原模型,该模型包括提取多尺度信息的基础网络、对不同区域的空间变换进行调制的条件分支以及用于生成动态卷积核的内核分支。
25.图2是所提出的新的图像复原模型示例,或称为udc-unet模型,可用于恢复udc在
hdr场景中捕获的图像。从上至下,该模型框架总体上包括条件分支、基础网络和内核分支,其中c表示通道数,k表示动态卷积核尺寸。首先,构建基础网络来分层提取多尺度信息。然后,为了实现对不同曝光度下的不同区域的空间变化调制,采用了多个空间特征变换(sft)层来构建条件分支。此外,添加了一个内核分支,其使用psf来细化基础网络的中间特性。优选地,考虑到hdr图像的数据特性,设计了一种新的色调映射损失,将图像值归一化为[0,1],这种方式不仅可以平衡不同强度像素带来的影响,还能够稳定模型的训练过程。
[0026]
在一个实施例中,采用u型结构来构建基础网络,用于提取不同尺度的特征,可划分为浅层特征和深层特征,其中浅层特征可以利用浅层网络通过不断增长的感受野逐步提取,并且浅层网络将输入图像映射为高维表示;深层特征可以从解码过程中学习获得。此外,u型网络的跳跃连接可以将浅层特征和深层特征有效结合。这种u型结构有助于网络充分利用输入图像的分层多尺度信息。
[0027]
例如,对于基础网络,可将特征通道维度c设置为32(c设置为20时可得到udc-unets版本,或称udc-unet的简化版),基础网络中residual sft block的数量分别设置为[2,2,2,8,2,2,2]。
[0028]
hdr场景中udc图像恢复的关键是处理光照不饱和区域(0≤像素值≤1)的模糊和解决过饱和区域(1<像素值≤500)产生的耀斑伪影等。传统的卷积核在整个图像上都应用相同的卷积权重,在处理不同空间具有不同特性的问题时也只能有固定的卷积操作。在本发明一个实施例中,利用空间特征变换(sft)层来实现具有去噪和去量化功能的hdr重建,使用可变换空间特征模块来构建条件分支,以自适应地调制基础网络提取的中间特征。
[0029]
例如,首先将输入图像输入到条件分支中,经过一个3
×
3卷积将通道变为c,然后进入到残差块层(residual block,例如数量设置为2)。再经由4个1
×
1卷积核和下采样层组成的支路,生成具有不同分辨率的空间条件特征,特征通道维度依次为c,2c,4c和8c。最终,这些特征通过sft层有机整合进入到基础网络的前向传播中。sft层的操作可以表示为:
[0030]
sft(x)=α

x+β
ꢀꢀꢀ
(1)
[0031]
其中
“⊙”
代表逐点乘法,x∈r^(c
×h×
w)是基础网络中的中间特征,而α∈r^(c
×h×
w),β∈r^(c
×h×
w)是sft层从条件分支的输出特征中学习的调制系数特征图,h表示特征图的高度,w表示特征图的宽度。使用这样的空间特征变换机制,使得所提出的网络模型可以很容易地对不同的区域进行空间各异的映射。因此,通过引入条件分支,网络能够对不同特点区域进行空间特征变换,从而区别地对不同区域进行信息提取。
[0032]
进一步地,考虑到udc成像系统中的点扩散函数(psf)可以作为udc图像恢复的先验知识来提升图像的恢复效果,引入内核分支利用psf,以完善或细化基础网络提取的中间特征。
[0033]
在一个实施例中,psf的利用包括以下步骤。首先,利用主成分分析(pca)的方法提取出psf中最重要的信息,将其扩大到与输入图像同样大小作为psf特征。然后,将这一psf特征与输入图像在特征维度合并作为内核分支的输入,3
×
3卷积变换通道数过后进入residual block(如数量设置为2)。最后,经过4个支路输出不同空间分辨率的动态卷积核。例如,对于维度为c
×h×
w的中间特征,所生成的对应动态卷积核维度为ck^2
×h×
w,其中k为动态卷积核的尺寸(如设置为3)。然后,对每个像素进行动态卷积,具体操作如下:
[0034]
f(i,j,c)=k(i,j,c)
·
m(i,j,c)
ꢀꢀꢀ
(2)
[0035]
其中k(i,j,c代表从特征(i,j,c位置学习到的k
×
k卷积核。m(i,j,c表示特征中以(i,j,c)为中心提取出来的图像块,f(i,j,c)表示动态卷积后输出的(i,j,c)位置上的元素值,“.”表示内积运算。内核分支生成出的动态卷积核使得浅层特征跳跃连接到深层时能够更为灵活,跳跃连接不再是直接相加,从而细化基础网络提取的中间特征。
[0036]
需要说明的是,内核分支输入可以选择多种类型的输入,包括:无输入;只输入图像信息;只输入点扩散函数信息;以及同时输入图像和点扩散函数psf四种类型。经过实验验证,在同时输入图像和点扩散函数psf的情况下,图像复原效果最佳。
[0037]
步骤s130,基于设定的损失函数训练图像复原模型。
[0038]
在一个实施例中,针对udc图像特性设计了一个新的损失函数,表示为:
[0039]
mapping_l1(y,x)=|mapping(y)-mapping(x)|
ꢀꢀꢀ
(3)
[0040]
其中,y表示网络模型生成的复原后的图像,x表示对应的真实图像,mapping是用于将图像转换为标准图像的色调映射函数,并将图像值归一化为[0,1]。优选地,设置mapping(i)=i/(i+0.25)用于将hdr图像转换为标准图像。将色调映射后的y和x之差的l1范数作为网络的损失函数,在这个损失函数的约束下进行训练,以得到网络模型中的待学习参数,如权重、偏置等。应理解的是,损失函数也可以替换为其他类型,例如l2损失。然而,经试验验证,基于mapping_l1损失训练的模型效果最佳。
[0041]
在实际的模型训练中,基于采集的训练数据集,可采用梯度下降算法,通过不断迭代优化网络模型,直到收敛,例如设计的损失函数mapping_l1损失不再降低或达到设定的损失标准。例如,初始学习率设置为2
×
10-4
,学习率变化策略使用余弦退火,设置最小学习率为η
min
=1
×
10-7
,最大学习率为η
max
=2
×
10-4
,并且在[5
×
104,1.5
×
105,3
×
105,4.5
×
105]次迭代后重启。
[0042]
具体地,图像复原模型的训练过程包括以下步骤:
[0043]
步骤s1,将udc图像作为输入,psf经过主成分分析(pca)得到一个5维向量,然后复制向量,将其空间维度扩充到与输入图像一致,从而得到psf特征;
[0044]
步骤s2,输入图像进入到条件分支生成不同空间分辨率的条件特征;
[0045]
步骤s3,输入图像与psf特征在通道维度上合并(concatenate),合并后进入内核分支,生成不同空间分辨率的动态卷积核;
[0046]
步骤s4,输入图像进入基础网络中进行前向传播,同时将得到的不同条件特征与动态卷积核整合进特定位置,通过不断迭代优化网络模型。
[0047]
综上,通过对udc数据进行多方面的分析和观察,本发明提供的图像复原模型在unet基础网络中加入了条件分支与内核分支,提升了网络的表征能力。并且,设计了适合训练数据的mapping_l1损失,以稳定网络优化,提升了复原图像的视觉质量。而常规的unet网络和本发明提供的网络结构相比,表现差异较大。同时,如果仅使用常规训练数据,而忽略本发明设计的内核分支无法实现预期效果。此外,通过设计mapping_l1损失,能够实现最优效果,并避免了训练过程无法收敛的风险。
[0048]
步骤s140,针对采集的目标图像,利用经训练的图像复原模型进行图像重建。
[0049]
在实际应用中,可直接将目标图片输入训练好的图像复原模型,即可得到重建后的图像。
[0050]
为了进一步验证本发明的效果,进行了仿真实验。图3是视觉效果对比,表1至表4
是定量实验结果。
[0051]
在表1中,参数量(params)以m为计数单位,m指百万;计算量以g为单位,是千兆次浮点运算的缩写;psnr和ssim分别表示峰值信噪比和结构相似性,反映图像重建效果,数值越大,复原效果越好;lpips代表图像相似度,数值越小,复原效果越好。uformer、hdrunet和discnet是现有的代表性的可用于udc图像复原的神经网络算法模型。udc-unets、udc-unet分别代表本发明的udc-unet方法,和简化版的udc-unet方法。
[0052]
表1:现有图像复原模型与本发明的对比试验结果
[0053]
方法psnrssimlpipsparamsuformer37.970.97840.028520.0mhdrunet40.230.98320.02401.7mdiscnet39.890.98640.01523.8mudc-unet47.180.99270.010014.0mudc-unets45.980.99130.01285.7m
[0054]
由表1可以看出,本发明在复原效果上(指标psnr,ssim和lpips)具有优越性能。此外,通过参数量(params)和计算量(gmacs)的对比,可以发现本发明的模型即使经过压缩,在进一步节省算力的前提下,依然具有超越其他模型的表现力。
[0055]
表2是结构烧蚀对比实验,其中√和
×
分别代表使用和不使用对应的结构。psnr和ssim分别表示峰值信噪比和结构相似性,反映算法的重建效果,数值越大,复原效果越好;lpips代表图像相似度,数值越小,复原效果越好。
[0056]
表2:结构烧蚀对比试验结构
[0057]
模型(a)(b)(c)(d)(e)u型基础网络
×
√√√√条件分支
×××
√√内核分支
××

×
√psnr42.1944.5044.5845.2345.37ssim0.98840.98970.98930.98970.9898lpips0.01640.01550.01570.01660.0162
[0058]
由表2可知,本发明所使用的u型基础网络、条件分支和内核分支可以显著提高网络的重建性能。在使用u型基础网络并添加条件分支和内核分支时,网络表现最佳。表2和表3中的实验结果也显示了该条件分支的有效性。
[0059]
表3反映内核分支中使用不同输入带来的定量结果变化。内核分支的输入包括:(a)无输入;(b)只输入图像信息;(c)只输入点扩散函数信息;(d)同时输入图像和点扩散函数psf四种。
[0060]
表3:内核分支中使用输入引起的定量结果变化
[0061]
方法输入psnrssimlpips(a)none45.230.98970.0166(b)image45.170.98960.0162(c)psf45.260.98950.0166
(d)image+psf45.370.98980.0162
[0062]
由表3可以观察到,本发明通过为网络增加单独的内核分支,综合使用来自输入图像本身和点扩散函数psf的信息,实现了较强的图像恢复效果。
[0063]
表4是损失函数对比实验。由表4可以观测到,本发明将现有技术中常用的l1损失替换为mapping_l1损失后,进一步提升了图像恢复效果。并且,实验证明使用的mapping_l1损失比mapping_l2损失更适合udc图像的恢复,能够获得更清晰的视觉质量。
[0064]
表4:损失函数对比试验结果
[0065]
损失函数psnrssimlpipsl141.300.98120.0301mapping_l240.190.98380.0238mapping_l145.370.98980.0162
[0066]
实验结果表明,本发明在定量性能和视觉质量上都超过了目前最先进的方法,可以生成视觉上令人满意的结果,即使在过度饱和的区域也没有明显的伪影出现。
[0067]
综上所述,相对于现有技术,本发明的技术效果主要体现在以下方面:
[0068]
1)、在现有技术中,在所有区域应用相同的过滤器权重。本发明使用空间特征变换层,使网络可以对不同动态范围的区域给予不同程度的关注,提高了模型性能。
[0069]
2)现有技术忽略模糊核信息,直接进行网络训练。本发明增加单独的内核分支,将测得的udc成像系统相关的点扩散函数psf作为先验知识加入网络训练,提高了模型性能。
[0070]
3)现有技术使用传统的l1或l2损失函数。本发明根据udc图像的特性设计色调映射损失mapping_l1损失函数,进一步提高模型性能,稳定网络优化,从而获得了更好的视觉质量。
[0071]
4)本发明提供一个端到端的网络来缓解hdr场景下udc图像中的光晕、雾霾、模糊和噪声等问题,可以为用户带来更好的感官体验,对udc系统的进一步推广和应用具有一定的意义。
[0072]
5)本发明不仅可以应用于udc图像的复原问题,还能够用在其他底层视觉任务中,特别是hdr场景下的图像复原,因此对其他hdr场景下的图像复原工作也具有一定的指导意义。此外,本发明的基础网络也可采用其他的现有网络结构。
[0073]
本发明可应用于电子设备、服务器或云端,对采集的目标图像利用经训练的图像复原模型进行重建,能够获得清晰的复原图像。该电子设备可以是终端设备或者服务器,终端设备包括手机、平板电脑、个人数字助理(pda)、销售终端(pos)、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)等任意终端设备。服务器包括但不限于应用服务器或web服务器,可以为独立服务器、集群服务器或云服务器等。
[0074]
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0075]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩
盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0076]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0077]
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++、python等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
[0078]
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0079]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0080]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0081]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代
表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
[0082]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1