本发明涉及图像处理,特别涉及一种基于频域信息融合的超高分辨率遥感图像分割方法。
背景技术:
1、遥感语义分割是一项关键的计算机视觉任务,旨在为遥感图像中的每个像素分配语义标签,从而提取地面物体信息,如建筑物、道路、植被和水体等。随着遥感技术的不断进步,尤其是光学传感器、无人机和卫星技术的创新,超高分辨率遥感影像的获取变得更加容易。这些高分辨率图像为灾害评估、环境监测、城市规划、农业管理等多个领域提供了宝贵的信息。
2、随着深度学习的发展,卷积神经网络(cnn)因其强大的特征提取能力在图像处理领域被广泛应用,为语义分割提供了强大的技术基础。许多学者提出了基于cnn的分割网络。尽管基于cnn的方法在遥感图像分割领域已经获得长足的发展,但由于卷积的固有局限,cnn网络对于长距离上下文信息的感知能力有限,缺乏对图像的全局理解。相比之下,transformer的自注意力机制可以有效解决这个问题。研究人员将transformer引入视觉领域后展示了其强大的全局信息编码能力。然而,transformer的高计算复杂性对网络的效率和内存占用都构成了巨大的挑战。因此,研究人员提出将cnn与transformer结合。geng等人利用swin transformer和cnn构建了一个双路径网络(j. geng, s. song, and w. jiang,“dual-path feature aware network for remote sensing image semanticsegmentation,” ieee trans. circ. syst. video tech., vol. 34, no. 5, pp. 3674–3686, may 2024., doi:doi: 10.1109/tcsvt.2023.3317937.),通过自适应特征融合机制,提高遥感目标特征的表达能力。wang等人提出的cagnet(s. wang, q. hu, s. wang,p. zhao, j. li, and m. ai, category attention guided network for semanticsegmentation of fine-resolution remote sensing images, international journalof applied earth observation and geoinformation, volume 127, 2024, 103661,issn 1569-8432, https://doi.org/doi: 10.1016/j.jag.2024.103661),通过类别注意力机制,优化了语义分割信息的提取。chen等人通过精心设计的特征提取器和双向解码器(c. lu, x. zhang, k. du, h. xu and g. liu, "ctcfnet: cnn-transformercomplementary and fusion network for high-resolution remote sensing imagesemantic segmentation," in ieee transactions on geoscience and remotesensing, vol. 62, pp. 1-17, 2024, art no. 5408717, doi: 10.1109/tgrs.2024.3458446),有效地整合了 cnn 和 transformer 的优势,从而获得精确的分割结果。尽管如此,基于混合的模型仍具有自注意力机制的二次复杂性,因此在面对uhr遥感图像时仍存在一定的挑战。
技术实现思路
1、发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于频域信息融合的超高分辨率遥感图像分割方法。本发明能够更加高效地整合局部特征和全局特征,多层次、多尺度进行特征提取与融合,从而提高超高分辨率遥感图像的分割精度,为该领域提供全新的解决方案。
2、本发明方法包含如下步骤:步骤1,获取vaihingen、potsdam遥感数据集,数据集中包含影像原图与对应的标签图;所述vaihingen数据集包含33张平均2496×2064像素的超高分辨率图像,所述potsdam数据集包含38张平均6000×6000像素的超高分辨率图像。
3、对vaihingen遥感数据集进行预处理后按照设定的比例5:2:3划分为vaihingen训练集、vaihingen验证集和vaihingen测试集。
4、对potsdam遥感数据集进行预处理后按照设定的比例5:2:3划分为potsdam训练集、potsdam验证集和potsdam测试集。
5、步骤2,搭建融合多元频域信息的超高分辨率遥感图像分割网络,包括大核残差网络(large kernel resnet-18,lkresnet-18)、判别式频谱增强mamba(discriminativespectral enhancement mamba, dse-mamba)网络、频谱融合小波下采样(spectral fusionwavelet downsampling, sfwd)模块、多尺度聚合增强(multiscale aggregation-enhanced wavelet upsampling, mawu)模块。
6、其中所述大核残差网络和频谱融合小波下采样模块构成超高分辨率遥感图像分割网络的局部分支。
7、所述判别式频谱增强mamba网络包括预处理stem模块和判别式频谱增强模块。
8、所述判别式频谱增强mamba网络构成超高分辨率遥感图像分割网络的全局分支。
9、所述局部分支和全局分支构成超高分辨率遥感图像分割网络的双分支编码器部分。
10、所述多尺度聚合增强模块构成超高分辨率遥感图像分割网络的解码器部分。
11、本步骤所构建的超高分辨率遥感图像分割网络专为超高分辨率遥感图像设计,能够有效解决遥感图像中存在的类内方差大、类间方差小,目标尺度差异大的问题。
12、步骤3,将vaihingen训练集输入超高分辨率遥感图像分割网络中训练,计算损失函数并进行反向传播,更新网络参数,获取最佳参数模型;每训练一定次数,将vaihingen验证集输入超高分辨率遥感图像分割网络中验证,观察训练效果并记录。
13、步骤4,将步骤3中vaihingen测试集输入到步骤3中训练好的最佳参数模型中,输出遥感图像的精确分割图。
14、步骤5,将数据集更换为potsdam训练集、potsdam验证集和potsdam测试集,重复步骤3~步骤4的操作。
15、步骤1包括:获取vaihingen遥感数据集,所述vaihingen遥感数据集包含五个前景类别和一个背景类别,以及对应的标签图,所述五个前景类别包括低矮植被、树木、不透水表面、汽车、建筑物。
16、获取potsdam遥感数据集,所述potsdam遥感数据集包含六个类别和对应的标签图,所述六个类别包括低矮植被、树木、不透水表面、汽车、建筑物、杂波。
17、根据实验设备的硬件条件,将vaihingen遥感数据集中的原图与对应的标签图按顺序裁剪为大小为256×256像素的图片,采用最远点随机裁剪数据增强方法,得到遥感原图和对应的标签图像。
18、根据实验设备的硬件条件,将potsdam遥感数据集中的原图与对应的标签图按顺序裁剪为大小为256×256像素的图片,采用随机旋转、翻折等图像增强技术,得到遥感原图和对应的标签图像。
19、将vaihingen遥感数据集按比例进行随机划分,得到vaihingen训练集、vaihingen验证集和vaihingen测试集;将potsdam遥感数据集按比例进行随机划分,得到potsdam训练集、potsdam验证集和potsdam测试集。为了保持一致性,以下步骤所使用的训练集、验证集以及测试集均来自vaihingen数据集。
20、步骤2包括:步骤2.1:所述局部分支包括5个阶段,将vaihingen训练集中的遥感图像jpg原图输入到局部分支中,得到局部分支5个阶段的输出特征图。
21、步骤2.2:所述全局分支包括5个阶段,将vaihingen训练集中的遥感图像jpg原图输入到全局分支中,得到全局分支5个阶段的输出特征图。
22、步骤2.3:将步骤2.1得到的第二至第五阶段的细节特征图和步骤2.2得到的第二至第五阶段的全局特征图输入到多尺度聚合增强模块中,输出最终的遥感图像分割图。
23、步骤2.1包括:所述局部分支的5个阶段中,第一阶段由残差预处理resstem模块构成,第二阶段由大核残差块lkresblock构成,第三阶段、第四阶段和第五阶段由大核残差块lkresblock和频谱融合小波下采样模块构成。
24、通过卷积、批标准化函数bn归一化、激活函数、快速傅里叶变换和小波变换操作,实现遥感图像从低级细节特征到高级细节特征的提取,具体包括:将jpg原图输入局部分支第一阶段,获取原始输入图像1/4分辨率的第一阶段细节特征图,将第一阶段细节特征图输入到局部分支第二阶段,得到第二阶段细节特征图,分辨率为原始输入图像的1/4,将第二阶段细节特征图输入到局部分支第三阶段,得到第三阶段细节特征图,分辨率为原始输入图像的1/8,将第三阶段细节特征图输入到局部分支第四阶段,得到第四阶段细节特征图,分辨率为原始输入图像的1/16,将第四阶段细节特征图输入到局部分支第五阶段,得到第五阶段细节特征图,分辨率为原始输入图像的1/32。
25、所述第一阶段的残差预处理resstem模块包括卷积、批标准化函数bn归一化和池化层,对jpg原图依次进行步长为2的3×3卷积、批标准化函数bn归一化和池化核为3,步长为2的最大池化操作,得到第一阶段细节特征图,分辨率为原始输入图像的1/4。
26、所述第二阶段的大核残差块lkresblock由三条分支构成,包括一条主分支,一条副分支和一条残差分支,在主分支中,依次对jpg原图进行7×7深度卷积、批标准化函数bn归一化、relu激活操作、7×7深度卷积和bn归一化,得到主分支特征图;在副分支中,依次对jpg原图进行批标准化函数bn归一化和3×3深度卷积,得到副分支特征图;残差分支不对原输入进行任何操作;最后将主分支、副分支和残差分支得到的特征图相加并进行relu激活操作,得到分辨率为原始输入图像1/4的第二阶段细节特征图。
27、所述第三阶段的大核残差块lkresblock与第二阶段的大核残差块lkresblock结构相同,第三阶段的频谱融合小波下采样模块以第三阶段的大核残差块lkresblock的输出作为输入,频谱融合小波下采样模块包括小波变换分支和快速傅里叶变换分支,在小波分支中,首先对输入进行离散小波变换,得到一个低频分量和3个高频分量,分辨率为输入分辨率的1/2,然后将一个低频分量和3个高频分量在通道维度拼接,再依次进行1×1卷积、批标准化函数bn归一化和relu激活操作,得到小波变换分支特征图;在快速傅里叶变换分支,首先对输入进行快速傅里叶变换,得到幅度谱和相位谱,接着,对幅度谱和相位谱分别进行1×1卷积、leakyrelu激活、通道注意力se层加权操作和1×1卷积操作;然后利用处理后的幅度谱和相位谱,通过复数合成得到频谱信息;通过逆傅里叶变换将频谱信息转换回空间域,得到快速傅里叶变换分支特征图,分辨率为输入的1/2;最后将小波变换分支特征图和快速傅里叶变换分支特征图相加并依次进行1×1卷积、批标准化函数bn归一化和gelu激活操作,得到第三阶段细节特征图,分辨率为原始输入图像的1/8。
28、所述通道注意力se层包括全局平均池化、全连接层和激活函数操作,具体包括:首先对输入特征图进行全局平均池化,然后依次经过降维的linear全连接层、relu激活、升维的linear全连接层和sigmoid激活函数,最后将生成的权重系数与输入特征图相乘,实现加权操作。
29、所述第四阶段的大核残差块lkresblock和频谱融合小波下采样模块与第三阶段的大核残差块lkresblock和频谱融合小波下采样模块的结构相同,将第三阶段细节特征图输入第四阶段,得到原始输入图像分辨率1/16的第四阶段细节特征图。
30、所述第五阶段的大核残差块lkresblock和频谱融合小波下采样模块与第三阶段的大核残差块lkresblock和频谱融合小波下采样模块的结构相同,将第四阶段细节特征图输入第五阶段,得到原始输入图像分辨率1/32的第五阶段细节特征图。
31、步骤2.2包括:所述全局分支的5个阶段中,第一阶段由预处理stem模块构成,第二阶段、第三阶段、第四阶段和第五阶段由判别式频谱增强网络构成,通过卷积、层标准化函数ln归一化、激活函数、快速傅里叶变换操作,实现遥感图像从低级全局特征到高级全局特征的提取;具体包括:将jpg原图输入全局分支第一阶段,获取原始输入图像1/2分辨率的第一阶段全局特征图,将第一阶段全局特征图输入到全局分支第二阶段,得到第二阶段全局特征图,分辨率为原始输入图像的1/4,将第二阶段全局特征图输入到全局分支第三阶段,得到第三阶段全局特征图,分辨率为原始输入图像的1/8,将第三阶段全局特征图输入到全局分支第四阶段,得到第四阶段全局特征图,分辨率为原始输入图像的1/16,将第四阶段全局特征图输入到全局分支第五阶段,得到第五阶段全局特征图,分辨率为原始输入图像的1/32。
32、第一阶段的预处理stem模块包括卷积和实例归一化,具体为:对jpg原图依次进行步长为2的7×7卷积和实例归一化操作,得到第一阶段全局特征图,分辨率为原始输入图像的1/2。
33、所述第二阶段的判别式频谱增强网络包括频谱增强部分和视觉状态空间模块(vss block),所述频谱增强部分具体包括:对输入使用1×1卷积,将通道数映射到更高维度,然后进行维度重构并分割成两个以上小块,对每个小块执行二维实数傅里叶变换,得到频域特征;定义一个用于滤波的可学习参数,将可学习参数与频域特征相乘,接着执行逆傅里叶变换,将频域特征转换回时域并重构回原来的维度;然后对频谱滤波后的特征使用深度可分离卷积,将输出沿通道维度分成第一部分和第二部分,使用gelu激活函数对第一部分进行非线性变换,再与第二部分相乘,最后通过1×1卷积将特征维度恢复为原始输入维度,得到频谱增强特征;所述视觉状态空间模块具体包括:对输入使用ln归一化,然后使用linear全连接层将特征通道数翻倍并从通道维度将特征分割为第一部分特征和第二部分特征,对第一部分特征依次执行深度卷积和silu激活操作,然后将处理后的第一部分特征输入计算单元状态空间模型ssm,输出4个特征;所述ssm为目前已有mamba网络的底层核心计算单元,所述4个特征为ssm固定输出;将4个特征相加,使用转置操作变换特征维度并进行ln归一化操作,得到状态学习后的输出;使用silu激活函数对第二部分特征进行非线性变换,再与状态学习后的输出相乘得到新的特征;对新的特征使用linear全连接层恢复原始维度,最后使用dropout函数进行特征正则化,得到最终输出特征,分辨率保持不变。
34、所述判别式频谱增强网络具体包括:对输入使用2×2卷积进行分块处理,然后将分块处理后的特征传入频谱增强部分,得到频谱增强特征,再输入视觉状态空间模块vssblock得到处理后的特征,最后将处理后的特征划从高度和宽度维度分为4个部分并沿通道维度拼接起来,进行ln归一化和linear全连接层后输出第二阶段全局特征图,分辨率为原始输入图像的1/4。
35、所述第三阶段的判别式频谱增强网络与第二阶段的判别式频谱增强网络结构相同,将第二阶段全局特征图输入第三阶段,得到第三阶段全局特征图,分辨率为原始输入图像的1/8。
36、所述第四阶段的判别式频谱增强网络与第二阶段的判别式频谱增强网络结构相同,将第三阶段全局特征图输入第四阶段,得到第四阶段全局特征图,分辨率为原始输入图像的1/16。
37、所述第五阶段的判别式频谱增强网络与第二阶段的判别式频谱增强网络结构相同,将第四阶段全局特征图输入第五阶段,得到全局分支第五阶段全局特征图,分辨率为原始输入图像的1/32。
38、步骤2.3包括:所述多尺度聚合增强模块包括4个结构一致的特征聚合部分和4个上采样部分,所述4个结构一致的特征聚合部分分别是第一特征聚合部分、第二特征聚合部分、第三特征聚合部分和第四特征聚合部分,分别以步骤2.1和步骤2.2所述第二、三、四和五阶段的输出作为输入;所述4个上采样部分分别是第一上采样部分、第二上采样部分、第三上采样部分和第四上采样部分。
39、所述特征聚合部分包括预处理环节、多头注意力环节和通道优化环节;所述预处理环节接收两个输入参数,首先将两个输入参数在通道维度拼接得到新的特征,然后对新的特征依次进行深度卷积、bn归一化、gelu激活函数、点卷积、bn归一化和gelu激活函数操作,得到预处理后的特征;所述多头注意力环节具体包括:以预处理环节的输出作为输入,对输入特征使用线性变换得到值向量v,再通过线性变换和特征维度重塑得到键向量k,接着使用深度可分离卷积对每个注意力头的键向量进行特征提取,得到特征,所述注意力头为模块初始化参数;对特征进行处理,包括扩展通道维度、归一化、激活和降维,然后用值向量对特征进行加权,最后通过投影层进行降维并应用神经元随机丢弃法(dropout),得到输出;所述通道优化环节由三条分支组成,其中第一条分支包含一个bn归一化操作;第二条分支包含深度卷积和bn归一化操作;第三条分支包含点卷积和bn归一化操作,将输入分别传入三条分支,最后三条分支的结果相加并进行gelu激活操作,得到最后输出。
40、所述特征聚合部分的具体操作包括:将输入依次传入预处理环节、多头注意力环节和通道优化环节,得到特征聚合输出。
41、所述上采样部分以两个特征聚合部分的输出作为输入,两个特征聚合部分的输出分别为第一输入和第二输入,首先对第一输入进行小波变换,提取1个低频分量和3个高频分量,将高频分量沿通道维度拼接起来并使用带有残差连接的卷积层进行处理,得到高频特征;将低频分量与第二输入沿通道维度拼接起来并使用带有残差连接的卷积层进行处理,将处理后的特征与高频特征沿通道维度拼接,最后执行逆小波变换得到输出。
42、所述多尺度聚合增强模块的具体操作包括:将第五阶段细节特征图与第五阶段全局特征图作为第四特征聚合部分的输入,得到第四特征聚合输出,将第四阶段细节特征图与第四阶段全局特征图作为第三特征聚合部分的输入,得到第三特征聚合输出,将第三阶段细节特征图与第三阶段全局特征图作为第二特征聚合部分的输入,得到第二特征聚合输出,将第二阶段细节特征图与第二阶段全局特征图作为第一特征聚合部分的输入,得到第一特征聚合输出。
43、将第四特征聚合输出和第三特征聚合输出作为第四上采样部分的输入,得到第三阶段输出;将第二特征聚合输出和第三阶段输出作为第三上采样部分的输入,得到第二阶段输出;将第一特征聚合输出和第二阶段输出作为第二上采样部分的输入,得到第一阶段输出;最后对第一阶段输出使用dysample上采样函数得到最终精准的遥感图像分割图。
44、步骤3包括:步骤3.1:对超高分辨率遥感图像分割网络进行参数随机初始化,将训练集和验证集数据输入至高分辨率遥感图像分割网络,生成语义分割概率图,计算交叉熵损失和dice损失。
45、步骤3.2:损失反向传播,更新网络参数,以损失函数最小化作为优化目标,获取最佳参数模型并保存。
46、步骤3.1中,所述交叉熵损失的计算公式为:
47、,
48、其中,n为像素个数,c为类别个数,为第i个像素中第k个类别的预测概率,则代表第i个像素属于类别k的one-hot编码中的值,如果第i个像素属于类别k,为1,否则为0。
49、所述dice损失的计算公式为:
50、,
51、其中,tp是真正例的数量,即预测和真实标签都为正的像素数量;fp是假正例的数量,即预测为正但实际为负的像素数量;fn是假负例的数量,即预测为负但实际为正的像素数量。
52、本发明还提供了一种电子设备,包括处理器和存储器,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行所述的方法的步骤。
53、本发明还提供了一种存储介质,存储有计算机程序或指令,当所述计算机程序或指令在计算机上运行时,执行所述的方法的步骤。
54、有益效果:本发明的模型通过引入lkresnet-18网络,提高了局部分支的感受野和特征表示能力。在局部分支中加入了频谱融合小波下采样模块,通过快速傅里叶变换和小波变换的有机结合,使网络在下采样阶段中可以保留更多有效特征。模型将mamba引入全局分支,替换了传统的transformer,为全局特征提取提供了新的解决方案,同时将fft引入mamba,提出了判别式频谱增强mamba,利用频域加权信息辅助空间域特征感知,提高了网络的全局特征提取能力。模型设计了mawu解码模块,能够将局部信息和全局信息多尺度融合并通过小波变换实现信息无损上采样。