基于全局上下文感知的单图像阴影去除方法及计算机装置

文档序号:41342518发布日期:2025-03-19 14:57阅读:18来源:国知局
基于全局上下文感知的单图像阴影去除方法及计算机装置

本发明涉及阴影去除领域,具体涉及一种基于全局上下文感知的单图像阴影去除方法及计算机装置。


背景技术:

1、在计算机视觉和图像处理领域,图像阴影去除是一个旨在从数字图像中识别和消除阴影的技术。这项技术对于改善图像的视觉质量和进一步的图像分析处理(如目标检测、跟踪和场景理解)至关重要。阴影会干扰图像的特征提取和解释,影响图像的整体亮度、对比度和颜色平衡,从而对自动视觉系统的效果产生负面影响。因此,有效的阴影去除技术对于许多应用来说是必不可少的,包括但不限于安全监控、自动驾驶、工业自动化、医疗成像、图像编辑等领域。

2、阴影是由于光线被物体遮挡而在其他表面上形成的暗区。阴影通常可以分为自阴影和投射阴影。自阴影是物体自身阻挡光线而在其表面上形成的阴影,而投射阴影是物体阻挡光线而在其他物体或表面上形成的阴影。阴影的存在可以为三维场景的理解提供线索,但在二维图像中,阴影往往会引起误解,影响图像分析的准确性。因此,图像阴影去除面临多个挑战,主要包括:阴影区域与非阴影区域的区分,阴影属性的多样性,光照和颜色恢复。首先,正确识别图像中哪些区域为阴影是阴影去除的第一步。这一任务因为光照条件、阴影强度和阴影边界的模糊性而变得复杂。其次,不同的环境和不同类型的光源导致阴影的大小、形状、颜色和模糊度有很大的变化。去除阴影后,必须适当调整原阴影区域的光照和颜色,以与周围环境协调一致,这需要复杂的光照模型和颜色校正算法。

3、最初的阴影去除技术主要依赖简单的图像处理技巧,如阈值处理和光照补偿。这些方法往往假设阴影区域比非阴影区域亮度低,且颜色变化不大,但这些假设在复杂场景中经常不成立。后来,研究者们开始探索基于物理模型的阴影去除方法,如基于retinex理论的方法,这些方法试图通过模拟人眼对光照和颜色的感知来恢复阴影区域的真实光照和颜色。这类方法在处理阴影时能考虑到更多的自然光照变化,但计算复杂度较高,效率较低,且对参数选择敏感,无法精确地区分图像中的阴影与非阴影区域,也无法在不同光照条件下保持色彩和亮度的一致性。


技术实现思路

1、本发明的目的在于克服现有技术的缺点,提供一种基于全局上下文感知的单图像阴影去除方法及计算机装置,实现了在图像阴影去除过程中的高效性和准确性,同时引入全局上下文感知机制,能够更精确地区分图像中的阴影与非阴影区域,并在不同光照条件下保持色彩和亮度的一致性。

2、本发明采取如下技术方案实现上述目的,第一方面,本发明提供一种基于全局上下文感知的单图像阴影去除方法,包括:

3、s1、对原始数据集进行预处理;

4、s2、使用多尺度通道注意力机制构建编码器和解码器;

5、s3、基于所述编码器和解码器搭建基于transformer的阴影去除网络,所述阴影去除网络引入了基于retinex理论的阴影模型,并在阴影去除网络的瓶颈阶段引入阴影交互模块和阴影交互注意力机制;

6、s4、使用l1损失函数训练阴影去除网络;

7、s5、根据训练好的阴影去除网络进行图像阴影去除。

8、进一步的是,步骤s1具体包括:

9、从原始数据集中获取输入图像,将所有输入图像规范化到统一的尺寸和色彩空间,其中图像的尺寸为256×256,色彩空间由bgr格式转换为rgb格式,然后通过数据增强技术增加数据多样性,包括图像的随机旋转、翻转和裁剪。

10、进一步的是,基于retinex理论的阴影模型将图像分解为两个成分:照明和反射率,照明成分l代表图像中因光照变化而变化的部分,反射率成分r则代表物体本身的颜色和特性,去阴影任务是通过调整图像的照度和颜色,从含有阴影噪声的图像is中恢复底层无阴影图像isf,然后将无阴影图像定义为isf=lsf⊙r,对于阴影去除,基于retinex的阴影模型的公式如下:

11、is=im⊙ls⊙r+(1-im)⊙lns⊙r;

12、im表示掩码图像,阴影区域为1,非阴影区域为0,ls、lns和lsf分别表示阴影区域、非阴影区域和无阴影图像的照度。

13、进一步的是,步骤s3中,所述编码器由三个basicformer层序列和相对应的下采样层构成,解码器由三个basicformer层序列和相对应的上采样层构成,所述basicformer层包含自定义的transformer,transformer中包含了catransformer模块;

14、首先给定一个阴影输入is∈r3×h×w,对应的阴影掩码im∈rh×w,接着通过一个输入投影层在网络的初始阶段将输入数据的尺寸和通道数转换为阴影去除网络所需的嵌入维度,该投影层应用一个线性投影linearproj(·)得到输入的底层特征嵌入,表示为x0∈rc×h×w,其中c为嵌入维数,h和w分别为图像的高度和宽度,然后将x0输入到编码器中,以叠加多尺度全局特征,每个catansformer模块包括通道注意力模块,通道注意力模块是由通道注意力层组成;

15、通道注意力层首先对输入的每个通道的空间特征信息进行全局平均池化,即压缩为一个单一的标量值,公式如下:

16、

17、其中sc是对第c个通道进行全局平均池化操作的全局平均值,是第c个通道在位置(i,j)的特征值;

18、每个catansformer模块还包括两个卷积层,用于从全局平均池化得到的特征中学习到每个通道的权重,第一个卷积层使用1×1的卷积核,然后使用relu激活函数,该激活层用于引入非线性,第二个卷积层使用1×1的卷积核,通过扩张通道来恢复通道维度,同时输出每个通道应有的注意力权重,最后使用sigmoid激活函数,该激活函数用于将卷积层的输出压缩到[0,1]的范围内,表示每个通道的重要性,公式如下:

19、uc=σ(w2·relu(w1·sc+b1)+b2);

20、其中w1和b1是第一个卷积层的权重和偏置,w2和b2是第二个卷积层的权重和偏置,得到的每个通道的注意力权重uc,uc用于调整原始输入特征图中相应通道的激活强度,公式如下所示:

21、

22、其中是调整后的输出特征图的通道c在位置(i,j)的值;

23、通道注意力模块首先对给定输入的特征图x应用两次相同的卷积操作fconv得到输出x',即x'=fconv(fconv(x)),其中fconv(x)=prelu(w·x+b),w和b分别是卷积层的权重和偏置;

24、接着通过通道注意力层为x'中的每个通道分配注意力权重,最后通过残差连接将原始特征图输入x加回到经过通道注意力层调整后的结果y,输出为z,公式如下:

25、式中prelu(·)是一种激活函数;

26、通过catansformer模块首先对输入的特征图x进行层归一化操作,接着通过通道注意力模块依次压缩空间信息,然后和输入x进行残差连接,输出的特征图为公式如下:

27、ln(·)表示层归一化;

28、接着对得到的特征图进行层归一化操作,通过前馈mlp捕获远程相关性,最后和输入的进行残差连接,公式如下:

29、gelu(·)表示高斯误差线性单元激活层,mlp(·)表示多层感知机,多层感知机使用局部增强前馈网络leff;

30、通过catansformer模块在多个层级重复两次,形成网络的深度,公式如下:

31、xout=block2(block1(xin)),其中block1(·)和block2(·)表示两个相同的catransformer处理操作,输入的底层特征嵌入x0经过编码器中的三个basicformer层处理后得到了分层特征{x1,x2,x3},其中

32、编码器中每个basicformer层处理后进行下采样操作,下采样操作通过卷积核大小为4×4步长为2的卷积层将特征图的高度和宽度减半,解码器中的每个catransformer的输入是通过跳跃连接,将编码器的对应特征xl与上采样得到的特征进行拼接,上采样操作通过转置卷积层即卷积核大小为2×2步长为2将特征图的高度和宽度增加为输入尺寸的两倍,解码器最终输出为接着经过一个输出投影层将解码器最终得到的特征映射回原始数据的空间尺寸和通道数,该输出投影层应用一个线性投影linearproj(·)得到输出为ioutput,其中ioutput∈r3×h×w,阴影去除网络最终通过残差连接将修正的信息添加回原始的阴影输入图像is,输出得到阴影去除后的清晰图像公式为:

33、进一步的是,阴影去除网络的瓶颈阶段由一个basicformer层序列构成,basicformer层结构中使用两层simtransformer,simtransformer结合阴影交互注意力机制优化和调整阴影去除网络处理图像中的阴影特征;

34、首先对第三层编码器之后的下采样层输出的特征图经过ln(·)层归一化处理后,simtransformer使用通道注意力模块重新加权特征图的各通道,接着将重新加权通道注意力的特征图分割成一个非重叠的窗口序列x,其中每个窗口的尺寸大小是p×p,是窗口的总数量,之后在每个窗口中的扁平特征上执行阴影交互注意力机制,然后和窗口序列x进行残差连接,输出的特征图为公式如下所示:

35、其中∑表示补丁相关图,用于描述在各个窗口内的特征之间的相关性,cab表示通道注意力模块,sia表示阴影交互注意力机制;

36、对于第三层编码器之后的下采样层输出的特征图y中的一个位置向量该位置向量对应到输入阴影图像中的两个小区块,其中i,j为特征图中小窗口的位置索引,i,j的取值范围为0到n-1,特征图中位置i和位置j对应的掩码图为mi和mj,则窗口之间的相关图∑ij计算公式如下所示:

37、其中表示异或操作;

38、接着,通过利用小区块之间的相关图∑,重新加权注意力图,公式如下所示:

39、其中σ∈(0,1)用于调整阴影-阴影对和非阴影-非阴影对的权重,d是缩放参数;q,k,v分别代表输入特征图x的查询向量、键向量和值向量;

40、然后通过simtransformer对输出得到的特征图进行层归一化操作,通过前馈mlp捕获远程相关性,最后和输入的进行残差连接,公式如下所示:

41、其中ln(·)表示层归一化,geliu(·)表示高斯误差线性单元激活层,mlp(·)表示多层感知机,多层感知机使用局部增强前馈网络leff。

42、进一步的是,使用l1损失函数训练阴影去除网络具体如下:

43、其中是输出图像,igt是真实的无阴影图像。

44、进一步的是,步骤s5中,根据训练好的阴影去除网络进行图像阴影去除之前,还包括:利用istd和srd两个公共数据集对训练好的阴影去除网络进行测试以评估阴影去除网络的性能;

45、采用性能评估指标评估阴影去除网络的性能,性能评估指标包括峰值信噪比、结构相似性指数以及均方根误差;

46、峰值信噪比的计算方式如下:

47、

48、均方根误差的计算方式如下:

49、

50、式中,psnr表示峰值信噪比,rmse表示均方根误差,是实际值和预测值之间差异的平方值的平均数的平方根,maxi是真实图像i的最大像素值,对于范围在0到1的归一化图像,maxi=1;i(i,j)是真实图像在位置(i,j)的像素值,k(i,j)是处理后图像在位置(i,j)的像素值,m和n分别是图像的宽和高;

51、结构相似性指数计算方式如下:

52、

53、式中,ssim表示结构相似性指数,是一种衡量图像视觉效果相似度的指标,用于测量两幅图像的结构信息、亮度信息和对比度信息的相似性,其中μx和μy是x和y图像的平均值,和是x和y图像的方差,σxy是x和y图像的协方差,c1和c2是两个用来维持数值稳定的小常数。

54、第二方面,本发明提供一种计算机装置,包括存储器,所述存储器存储有程序指令,所述程序指令运行时,执行上述所述的基于全局上下文感知的单图像阴影去除方法。

55、本发明的有益效果为:

56、本发明引入一种基于retinex理论的阴影模型,该模型能够描述图像中阴影区域和非阴影区域之间的光照和颜色差异;然后使用多尺度通道注意力机制构建的编码器和解码器,高效捕捉层次化的全局信息;基于编码器和解码器构建基于上下文感知的阴影去除网络,基于阴影模型,在阴影去除网络的瓶颈阶段加入阴影交互模块和阴影交互注意力机制;有效建模阴影与非阴影区域之间的上下文相关性。

57、本发明在istd和srd这两个广泛流行的公共数据集上测试证明了该模型去除阴影性能的显著优势。这种方法对于图像处理和计算视觉领域的应用,尤其是在实现高质量图像恢复和视觉感知改善方面,具有显著的实际价值和广泛的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1