一种基于改进Unet的RAW域夜景图像去噪方法

文档序号:32338281发布日期:2022-11-26 08:47阅读:695来源:国知局
一种基于改进Unet的RAW域夜景图像去噪方法
一种基于改进unet的raw域夜景图像去噪方法
技术领域
1.本发明属于图像去噪的技术领域,具体涉及一种基于改进unet的raw域夜景图像去噪方法。


背景技术:

2.图像去噪是计算机视觉领域非常重要的任务,随着手机等电子产品的普及,人们对于手机成像的质量有着越来越高的要求,但是处于成本考虑,这些便携式的电子产品在低光照的情况下,噪声对于成像质量的降级更加严重。特别使用手机等电子产品在夜晚进行照像时,由于低光照和高iso的原因噪声对成像质量的降级比较严重。
3.传统的图像处理方法已经获得了广泛的应用,例如高斯滤波,双边滤波,中值滤波等。但是采用卷积网络进行图像特征的提取时,由于感受视野的限制,网络不能很好地提取到全局图像的噪声信息。


技术实现要素:

4.本发明提供了一种基于改进unet的raw域夜景图像去噪方法,通过采用自注意力模型进行全局建模,获得图像的全局信息,并且将全局和局部的残差卷积块融合到unet网络中,很好的解决上述技术问题。
5.为了解决上述技术问题,本发明采用如下方案实现:
6.一种基于改进unet的raw域夜景图像去噪方法,包括如下步骤:
7.s1:获得噪声图像和高质量图像数据集,并且将图片进行像增强操作;
8.s2:采用类unet的训练网络,在图像下采样阶段,采用改进自注意力模块进行特征提取,提取全局信息;
9.s3:在图像上采样阶段,采用卷积模块,并结合像素重组方法,把低分辨率的潜在特征作为输入,并分阶段恢复出高分辨率的图像;并在网络添加全局和局部残差卷积块,
10.s4:将数据集分为训练集和测试级,记录训练损失值以及测试集的峰值信噪比psnr和结构相似性ssim作为模型的评估依据;
11.s5:将待处理的噪声图像加载到模型中,经过处理后获得去噪后的图像。
12.进一步优化,所述步骤s1中,获得噪声图像和高质量图像数据集并进行图像增强操作,具体包括如下步骤:
13.s11:针对同一场景,拍摄低iso图像作为真实标签,高iso图像作为噪声图像,并调整曝光时间等相机参数使得两张图像亮度一致;
14.s12:将图片进行随机裁剪、旋转和缩放,由于手机拍摄的图像分辨率较大,所以需要对图像进行切割,使其能够正常输入到网络模型中;且由于raw域图像读入时为单通道数组,进行通道数的改变以及归一化处理,如下公式所示:
15.16.其中,output为输出图像,raw为输入的raw格式的图像,black_level为传感器的黑电平,white_level为传感器的白电平。
17.进一步优化,所述步骤s2中,所述进自注意力模块包括self-attention模块和前馈神经网络;具体方法为:
18.s21:先对输入特征图进行逐层归一化,如下公式所示:
19.令第l层神经元的净输入为z
(l)
,计算第l层的均值和方差:
[0020][0021][0022]
式中,为第l层第i个神经元的净输入,n
(l)
为第l层神经元的数量;
[0023]
再进行层归一化:
[0024][0025]
式中,γ为缩放因子,β为平移因子,z
l
为逐层归一化后的第l层神经元,∈为一个较小值,防止除0操作;
[0026]
s22:层归一化向量之后特征图大小为x∈rh×w×c,再使用逐点卷积改变输入特征图的通道数,融合各个通道在相同空间位置上的特征信息;然后使用逐通道卷积,融合每个通道在不同空间位置上的特征信息;以此学习到self-attention中的产生q、k和v矩阵,如下公式:
[0027][0028][0029][0030]
其中,是尺寸为1
×
1的逐点卷积,是尺寸为3
×
3的逐通道卷积,h、w和c分别为输入特征图的宽、高和通道数;
[0031]
由于传统sa模块的计算量主要来自q与k矩阵的乘积,所以本发明中改变传统的乘积方式,生成rc×c大小的转置注意力图,而不是r
hw
×
hw
大小的巨大的常规特征图。
[0032]
s23:最后再经过一次逐层归一化后通过一个前馈神经网络得到最终输出;
[0033]
总的来说,整个自注意力模块的流程为:
[0034][0035]
t=attention(q,k,v)+x
[0036]
output=mlp(ln(t))+t
[0037]
其中,t为中间处理过程中的向量,out为经过自注意力模块的输出向量,ln(
·
)为层归一化,mlp(
·
)为多层感知机,为向量的维度;
[0038]
进一步优化,所述步骤s3中,在图像上采样阶段采用像素重组方法,把低分辨率的潜在特征作为输入并分阶段恢复出高分辨率的图像,具体包括:上采样阶段的每个卷积模块包括两个子模块,每个子模块都包括两个3
×
3卷积层和一个relu激活层,并且也都融合了全局和局部的残差连接;将下采样过后的低分辨率潜在特征图作为输入,通过融合各个通道的像素来重构特征图,以输入特征图(n,c,h,w)为例,其中,n为批量大小,c为通道数,h为图像的高度,w为图像的宽度;像素重组会将输入特征图变换成为通道数,h为图像的高度,w为图像的宽度;像素重组会将输入特征图变换成其中,r为图像扩大的倍数;最后再通过逐点卷积改变通道数;编码器的特征通过跳过连接与解码器的特征串联在一起。
[0039]
所述上采样阶段的融合低分辨率的潜在特征作为输入,具体为:在图像进行上采样的每个阶段,都需要对下采样阶段的特征图进行跳跃连接,融合了多尺度的信息。
[0040]
进一步优化,所述添加全局和局部残差块,是为了解决深度神经网络中的梯度消失和梯度爆炸的问题。全局残差块包括对下采样的每个改进transformer模块和上采样的cnn模块的输入输出都进行跳跃连接,局部残差块包括对每个模块内部进行阶段性的跳跃连接,如下公式所示:
[0041]
y=f(x)+x
[0042]
其中,x为输入特征图,f(x)为经过处理后的特征图,y为输出特征图。
[0043]
进一步优化,所述峰值信噪比psnr是一种评价图像的客观标准,指达噪音比率的顶点信号,结构相似性ssim是一种衡量两幅图像相似度的指标。
[0044]
所述步骤s4中,将数据集分为训练集和测试级,记录训练损失值以及测试集的峰值信噪比psnr和结构相似性ssim作为模型的评估依据,具体为:
[0045]
首先计算原图像与被处理图像之间的均方误差,再计算psnr:
[0046][0047][0048]
其中,x(h,w)为原图像位置为(h,w)的像素值,y(h,w)为处理后图像位置为(h,w)的像素值,max为图像可能的最大像素值;
[0049]
ssim比较亮度、对比度和结构三个指标,其计算流程如下:
[0050][0051][0052][0053][0054]
其中,μ
x
,μy分别原图像和处理后图像的均值,σ
x
,σy分别为原图像和处理后图像的
方差,σ
x
σy为原图像和处理后图像的协方差,c1,c2,c3为常数,避免除零。
[0055]
进一步优化,所述步骤s5中,所述将噪声图像加载到模型中,具体为:将噪声图像切分为较小的图像,将小图像加载到模型进行训练,再将输出图像进行拼接,即得到最终去噪后的图像。
[0056]
与现有技术相比,本技术的有益效果如下:
[0057]
本发明采用类unet的网络模型,使用编码器-解码器的结构,融合多尺度的特征对噪声图像进行修复。在下采样阶段使用自注意力模型进行特征提取,相比于直接使用卷积模型,自注意力模型更能提取到全局性的特征。并且采用深度可分离卷积方式处理输入特征图,可以有效减少计算量,更有利于处理图像去噪这样的密集预测型任务。在上采样阶段,使用像素重组方法来放大图像并避免上采样过程中的图像失真。本发明还采用了全局和局部残差连接块,即一个由两个连续的局部残块组成的全局残块,它不仅可以捕获局部特征和上下文特征,还可以更好地融合前一层和当前层的特征。
附图说明
[0058]
图1为本发明所述基于改进unet的raw域夜景图像去噪方法的基本流程示意图;
[0059]
图2(a)为噪声图像,图2(b)为去噪后图像;
[0060]
图3(a)为数据增强前的噪声图像,图3(b)为数据增强前的去噪图像;图3(c)为数据增强后的噪声图像,图3(d)为数据增强后的去噪图像。
[0061]
图4为本发明基于改进unet的raw域夜景图像去噪方法的整体网络架构示意图;
[0062]
图5为本发明所述自注意力模块示意图;
[0063]
图6为本发明所述卷积模块示意图;
[0064]
图7为本发明所述基于改进unet的raw域夜景图像去噪方法的各模型训练损失值变化曲线示意图;
[0065]
图8为本发明所述基于改进unet的raw域夜景图像去噪方法的各模型测试损失值变化曲线示意图。
具体实施方式
[0066]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0067]
如图1所示,一种基于改进unet的raw域夜景图像去噪方法,包括如下步骤:
[0068]
步骤1:制作训练集,本次训练数据集的制作方法为:拍摄高iso图像作为噪声图像(noisy),低iso图像作为真实标签(ground truth),并调整曝光时间等相机参数使得两张图像亮度一致。经过处理获得100组图像,分辨率为3472
×
4024,如图2所示,其中,图2(a)为噪声图像,图2(b)为去噪后图像。由于图像分辨率较大,为了方便训练,将每张图像切分为320张256
×
256大小的切片图。再将其中的80%划分为训练集,20%划分为测试集。
[0069]
步骤2:在pycharm上使用pytorch重写dataset类,如图3所示,将图片进行随机裁剪、旋转和缩放,并且由于raw域图像读入时为单通道数组,所以需要进行通道数的改变以
及归一化处理,如下公式所示:
[0070][0071]
其中,output为输出图像,raw为输入的raw格式的图像,black_level为传感器的黑电平,white_level为传感器的白电平。
[0072]
步骤3:如图4所示,采用改进unet网络进行训练,给定输入图像,首先使用一个卷积层改变输入图像通道,获得低级特征嵌入。然后进行三次连续的下采样,每个下采样阶段之前都经过多个自注意力子模块。具体如下:
[0073]
如图5所示,对于每个自注意力子模块,为了减少计算量,采用深度可分离卷积方式,在一个层归一化向量之后特征图大小为x∈rh×w×c,然后采用逐点卷积来聚合不同通道上同一位置的信息,再采用逐通道卷积聚合同一通道的空间信息来产生query(q)、key(k)和value(v)矩阵,如下公式:
[0074][0075][0076][0077]
其中,是尺寸为1
×
1的pw卷积,是尺寸为3
×
3的dw卷积,h,w,c分别为输入特征图的宽,高,通道数。
[0078]
并且由于传统sa模块的计算量主要来自q与k矩阵的乘积,所以本发明中改变传统的乘积方式,生成rc×c大小的转置注意力图,而不是r
hw
×
hw
大小的巨大的常规特征图。最后通过一个前馈神经网络得到最后输出。
[0079]
总的来说,整个自注意力模块的流程为:
[0080][0081]
t=attention(q,k,v)+x
[0082]
output=mlp(ln(t))+t
[0083]
其中,t为中间处理过程中的向量,out为经过自注意力模块的输出向量,ln(
·
)为层归一化,mlp(
·
)为多层感知机,为向量的维度;
[0084]
最后,在自注意力的局部残差连接的基础上进行一个全局残差连接,防止梯度在反向传播过程中消失或爆炸,使网络训练更加稳定,并且全局残差连接可以增强浅层信息向深层的流动,减少特征图信息的丢失。
[0085]
步骤4:进行上采样阶段,由于在下采样阶段时已经提取到图像的全局特征信息,所以上采样阶段采用卷积模块以减少计算量。如图6所示,每个模块包括两个子模块,每个子模块都包括两个3
×
3卷积层和一个relu激活层,并且也都融合了全局和局部的残差连接。将下采样过后的低分辨率潜在特征图作为输入,通过融合各个通道的像素来重构特征图,以输入特征图(n,c,h,w)为例,其中,n为批量大小,c为通道数,h为图像的高度,w为图像的宽度。像素重组会将输入特征图变换成其中r为图像扩大的
倍数。最后再通过逐点卷积改变通道数。为了帮助恢复过程,编码器的特征通过跳过连接与解码器的特征串联在一起。
[0086]
步骤5:采用学习率衰减策略,经过100个epoch学习率逐渐收敛到最小值。并采用adam优化器进行模型训练,采用mse计算损失值,记录每个epoch在训练集上的损失值和测试集上的的损失值。
[0087]
步骤6:进行对比实验,分别对比了目前主流的几个图像去噪的模型:unet、drunet、nafnet。并绘制几个模型的训练损失值和测试损失值变化曲线图。最后选取测试集中的数据,将噪声模型加载到网络中得到去噪后的图像,与真实标签进行对比,计算psnr和ssim,并根据psnr和ssim计算最后的得分。具体如下:
[0088]
首先计算原图像与被处理图像之间的均方误差,再计算psnr:
[0089][0090][0091]
其中,x(h,w)为原图像位置为(h,w)的像素值,y(h,w)为处理后图像位置为(h,w)的像素值,max为图像可能的最大像素值;
[0092]
ssim比较亮度、对比度和结构三个指标,其计算流程如下:
[0093][0094][0095][0096][0097]
最后根据psnr和ssim计算得分来评价模型好坏:
[0098]
score=(w
·
max(psnr-psnr_min,0)/(100-psnr_min)+(1-w)*max(ssim-ssim_min,0)/(1-ssim_min))*100
[0099]
其中:μ
x
,μy分别原图像和处理后图像的均值,σ
x
,σy分别为原图像和处理后图像的方差,σ
x
σy为原图像和处理后图像的协方差,c1,c2,c3为常数,避免除零。w为psnr(db)和ssim权重,psnr_min=60为psnr得分下限值,ssim_min=0.8为ssim得分下限值。
[0100]
如图7和图8所示,对比了不同模型在训练集上的损失值和测试集上的损失值随迭代次数的变化情况。可见,在训练初始阶段,其训练损失值随迭代次数的增加不断下降,但是由于学习率较大,所以测试集的损失值在初始的时候波动较大,但是随着学习率的降低,其结果也随之稳定。最后选取测试集中的数据,将噪声模型加载到网络中得到去噪后的图像,与其他图像去噪模型进行对比。
[0101]
本发明所述模型与其他各类模型对比结果如表1所示。
[0102]
表1:本发明所述模型与各类模型对比结果
[0103]
模型名称峰值信噪比结构相似性分数our_work57.5010.99830793.164unet_besline57.3760.99831192.835nafnet57.4600.99830693.058drunet56.2060.99805989.690
[0104]
通过表1对比表明本发明所述的方法对比其他模型而言其峰值信噪比较高,最终的分数也较高。
[0105]
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1