本发明涉及图像信息处理技术和计算机世界,具体涉及红外图像与可见光图像融合方法、系统、设备及存储介质。
背景技术:
1、随着科技的不断发展,图像处理技术在各个领域得到了广泛应用。然而,传统的单一类型图像传感器由于其硬件设计和成像方式的限制,无法全面捕获场景的全部信息。为了解决这一问题,图像融合技术应运而生。图像融合技术通过结合多种成像模式,能够从源图像中提取互补信息,生成包含丰富信息的复合图像。
2、其中,红外图像与可见光图像的融合是图像融合技术中最为常见的一种应用。红外传感器能够捕获目标的热辐射信息,生成红外图像。这种成像方式不易受到天气和光照条件的影响。然而,红外图像在清晰度、边缘结构和噪声等方面存在一些不足之处。相对而言,可见光图像则通过反射可见光进行成像,符合人类的视觉感知,能够提供更高的分辨率和丰富的细节纹理。但可见光图像的质量受天气条件的影响较大,尤其是在光照不足或大雾天气下,其辨识度往往较低。
3、红外与可见光图像的融合能够吸收两种模态图像中的互补特征,克服单一传感器的局限性,提供更丰富的空间细节和信息,进而辅助后续的图像处理任务。在近年来,红外与可见光图像融合算法已成为计算机视觉领域的一项关键技术,并广泛应用于图像分割、目标检测、目标跟踪等下游任务中。
4、目前,红外与可见光图像融合算法主要可以分为两大类:传统图像融合方法和基于深度学习的图像融合算法。传统图像融合方法包括多尺度变换、小波变换、稀疏表示、子空间分析和显著性变换等。这些方法主要依赖于手工设计的分解规则,往往只能捕获源图像中的有限特征,难以充分展现输入图像的丰富信息。例如,多尺度分解方法主要侧重于局部高频特征,往往难以捕捉大尺度的低频信息,导致融合图像在整体连贯性上存在不足。此外,小波变换在预处理过程中可能会导致一定的数据丢失,从而无法充分利用全局信息。
5、基于深度学习的图像融合方法则近年来得到了迅猛发展,主要分为基于cnn(卷积神经网络)、ae(自动编码器)、gan(生成对抗网络)以及transformer(深度学习模型)等方法。这些方法通过深度学习框架的优势,能够在特征提取和建模方面表现出色。尽管这些框架可以生成令人满意的融合结果,但它们仍然存在一些局限性。例如,cnn由于感受野的限制,难以捕捉非相邻像素之间的信息交互;而gan虽然在提升融合图像质量方面表现突出,但常常偏重于保留可见光图像的纹理细节,可能导致红外图像的温度显著性信息丢失。
6、综上所述,虽然基于深度学习的图像融合方法可以生成令人满意的融合结果,但是仍然存在一些局限性。
技术实现思路
1、本发明解决了基于深度学习的图像融合方法存在一些局限性的问题。
2、本发明所述的一种红外图像与可见光图像融合方法,具体为:
3、红外图像与可见光图像分别输入卷积嵌入模块进行特征提取,分别获得红外拼接特征和可见光拼接特征,其中,一路红外拼接特征和可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出初始尺度的双模态混合特征;
4、另一路红外拼接特征和可见光拼接特征分别输入多级联混合全局局部特征提取模块进行特征提取模块,分别输出第一尺度的红外拼接特征、第二尺度的红外拼接特征、第三尺度的红外拼接特征、第一尺度的可见光拼接特征、第二尺度的可见光拼接特征和第三尺度的可见光拼接特征;
5、第一尺度的红外拼接特征与第一尺度的可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出第一尺度的双模态混合特征;第二尺度的红外拼接特征与第二尺度的可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出第二尺度的双模态混合特征;第三尺度的红外拼接特征与第三尺度的可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出第三尺度的双模态混合特征;
6、第三尺度的双模态混合特征输入图像重建模块,输出重建特征图;重建特征图与第二尺度的双模态混合特征共同输入双模态交互残差融合模块进行特征融合,再输入图像重建模块,输出重建特征图;重建特征图与第一尺度的双模态混合特征共同输入双模态交互残差融合模块进行特征融合,再输入图像重建模块,输出重建特征图;重建特征图与初始尺度的双模态混合特征共同输入双模态交互残差融合模块进行特征融合,再输入图像重建模块,输出重建特征图;
7、重建特征图依次经过上采样、多个卷积层、激活函数以及拼接的操作,输出融合后的图像。
8、进一步地,在本发明的一个实施例中,所述的卷积嵌入模块,具体为:
9、图像分为两路,一路图像依次输入卷积层、归一化、激活函数以及展平的操作后,并将通道维度与展平后的空间维度进行交换,输出局部特征图;
10、另一路图像输入patch embedding,并将通道维度与展平后的空间维度进行交换后,输入位置编码,输出全局特征图;
11、局部特征图和全局特征图进行逐元素相加,输出特征图。
12、进一步地,在本发明的一个实施例中,所述的混合全局局部特征提取模块,具体为:
13、图像分为两路,一路图像依次进行重塑,输出特征图,特征图进行特征提取后,输入多级联局部特征提取模块进行特征提取后,再次进行重塑,输出局部特征图;
14、另一路图像进行重建,输入一维卷积层后,再次进行重塑,输出特征图,特征图输入多头注意力,输出全局特征图;
15、局部特征图和全局特征图进行逐元素相加,输出混合全局局部特征图。
16、进一步地,在本发明的一个实施例中,所述的特征图进行特征提取,具体为:
17、特征图分为两路,一路特征图输入残差块,另一路特征图输入二维卷积层,将经过残差块的一路特征图和经过二维卷积层的另一路特征图进行逐元素相加。
18、进一步地,在本发明的一个实施例中,所述的局部特征提取模块进行特征提取,具体为:
19、图像依次输入多级联卷积和多级联瓶颈层进行特征提取。
20、进一步地,在本发明的一个实施例中,所述的双模态交互残差融合模块,具体为:
21、输入双模态交互残差融合模块的图像至少包括两种,分别为第一种图像和第二种图像;
22、第一种图像和第二种图像分别进行全局平均池化后,分别输出第一种特征图和第二种特征图,分别对第一种特征图和第二种特征图进行注意力分配,分别输出第一权重和第二权重,第一权重与第一种特征图进行逐元素乘法,输出逐元素乘法后的第一种特征图,第二权重与第二种特征图进行逐元素乘法,输出逐元素乘法后的第二种特征图,逐元素乘法后的第一种特征图和逐元素乘法后的第二种特征图进行逐元素相加后,输入多联级卷积层后,输出特征图,特征图与第一种图像、第二种图像进行逐元素相加,输出特征融合后的图像。
23、进一步地,在本发明的一个实施例中,所述的图像重建模块,具体为:
24、图像输入卷积层进行特征提取后,输出特征图,特征图依次经过层归一化、多头注意力的操作,输出经过多头注意力操作后的特征图,经过多头注意力操作的特征图与特征图进行逐元素相加后,依次经过层归一化、多层感知机制的操作,输出经过多层感知机制操作的特征图,经过多层感知机制操作的特征图与头注意力操作的特征图进行逐元素相加。
25、本发明所述的一种红外图像与可见光图像融合系统,具体为:
26、红外图像与可见光图像分别输入卷积嵌入模块进行特征提取,分别获得红外拼接特征和可见光拼接特征,其中,一路红外拼接特征和可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出初始尺度的双模态混合特征;
27、另一路红外拼接特征和可见光拼接特征分别输入多级联混合全局局部特征提取模块进行特征提取模块,分别输出第一尺度的红外拼接特征、第二尺度的红外拼接特征、第三尺度的红外拼接特征、第一尺度的可见光拼接特征、第二尺度的可见光拼接特征和第三尺度的可见光拼接特征;
28、第一尺度的红外拼接特征与第一尺度的可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出第一尺度的双模态混合特征;第二尺度的红外拼接特征与第二尺度的可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出第二尺度的双模态混合特征;第三尺度的红外拼接特征与第三尺度的可见光拼接特征共同输入双模态交互残差融合模块进行特征融合,输出第三尺度的双模态混合特征;
29、第三尺度的双模态混合特征输入图像重建模块,输出重建特征图;重建特征图与第二尺度的双模态混合特征共同输入双模态交互残差融合模块进行特征融合,再输入图像重建模块,输出重建特征图;重建特征图与第一尺度的双模态混合特征共同输入双模态交互残差融合模块进行特征融合,再输入图像重建模块,输出重建特征图;重建特征图与初始尺度的双模态混合特征共同输入双模态交互残差融合模块进行特征融合,再输入图像重建模块,输出重建特征图;
30、重建特征图依次经过上采样、多个卷积层、激活函数以及拼接的操作,输出融合后的图像。
31、本发明所述的一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
32、存储器,用于存放计算机程序;
33、处理器,用于执行存储器上所存放的程序时,实现上述方法所述的方法步骤。
34、本发明所述的一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法所述的方法步骤。
35、本发明解决了基于深度学习的图像融合方法存在一些局限性的问题。具体有益效果包括:
36、1、本发明所述的红外图像与可见光图像融合方法,现有的深度学习的图像融合方法存在一些局限性的问题,旨在解决当前红外与可见光融合过程中的边缘信息丢失、伪影引入、以及全局语义信息缺失等问题。为解决上述技术问题,本发明设计了一种用于红外与可见光图像融合的混合局部全局特征多尺度双流编码器网络,充分考虑了红外与可见光模态的特异性和共性特征,并设计了一个特征交互模块,以实现多尺度特征的提取与融合;
37、2、本发明所述的红外图像与可见光图像融合方法,基于多尺度双流编码器的网络架构,采取混和局部细节信息、全局语义双模态信息和多尺度特征信息融合的方法,有效保留了多尺度双流编码器所提取的不同尺度特征信息;
38、本发明所述的红外图像与可见光图像融合方法,通过将两种不同模态的图像信息进行融合,提升整体场景感知能力,广泛应用于目标检测、监控、自动驾驶等领域。