基于多模态特征融合的双时相遥感影像语义变化检测方法与流程

文档序号:24238613发布日期:2021-03-12 13:12阅读:456来源:国知局
基于多模态特征融合的双时相遥感影像语义变化检测方法与流程

发明领域

本发明属于遥感图像处理领域,涉及计算机深度学习领域,具体涉及一种基于多模态特征融合的双时相遥感影像语义变化检测方法。



背景技术:

自然环境演变与人类行为的相互作用导致地球表面无时无刻不在发生着变化。对地表覆盖变化的及时发现以及周期性关注,对于人与自然和谐相处有着重要意义。基于遥感影像的地表变化检测是实现地表观测的重要途经和手段。随着近些年来高精度传感器技术和无人机、航拍技术的快速发展,遥感图像的空间分辨率越来越高,图像的地物特征越来越精细,数据量越来越大。随着深度学习技术以及计算机视觉分析能力的提升,利用深度学习的高层次特征提取能力进行遥感影像变化检测任务成为一种高效可行的方案。

目前,主流的利用深度学习进行遥感影像变化检测的方法只能检测出像素点是否发生变化,属于二分类问题,并不能检测出变化前后像素点分别属于什么类别。这种需要检测出由某一类别变化为另一类别的变化检测任务,一般常用的方法是先对t1时相和t2时相进行语义分割分类,然后再进行类后变化检测,但是有些数据集的标签数据只标注了变化部分,因此这种先分类再做变化检测的技术路线无法实现。



技术实现要素:

本发明要解决的技术问题在于针对上述方法的不足,提出了一个基于多模态特征融合的双时相遥感影像语义变化检测方法,在检测出变化像素的同时,检测出像素变化前后所属类别。

为解决上述问题,本发明方法主要包括以下步骤:

步骤1,对多时相遥感影像变化检测数据集进行预处理,数据集包括训练集、验证集和测试集;

步骤2,构建基于多模态特征融合的双时相遥感影像语义变化检测模型,使用步骤1中得到的训练集和验证集分别对变化检测模型进行训练和验证,输出训练后的模型;

步骤3,使用步骤2得到的模型对步骤1中的训练集进行数据清除;

步骤4,利用步骤3得到的训练集重新训练步骤2中的变化检测模型,得到最终的模型;再将步骤1中的测试集输入到模型中,通过一次前馈过程得到对应测试集的网络预测结果;

步骤5,对步骤4得到的预测结果进行后处理。

进一步的,所述预处理包括,对训练集使用随机放大裁剪、随机旋转以及随机垂直翻转的方式对数据进行数据增强,扩大数据集,并且还将t1、t2时相的影像进行对调,来进一步提高数据量,增强网络泛化能力。

进一步的,步骤2的具体实现方式如下,

步骤2.1,构建一个原始影像高维特征提取网络encoder,该网络由resnet系列网络的五个阶段组成,将两个不同时相的影像分别输入该网络中,每张原始影像获得四组高维特征,分别来自第二、三、四、五层提取出的特征,记作mti_j,其中,i=1,2;j=2,3,4,5;

步骤2.2,将步骤2.1中提取出的每一层的两个时相的特征图对应位置像素值相减,并对第三、四、五层相减后的特征分别进行2、4、8倍上采样,将第二层的特征与上采样后的特征融合起来得到t1时相特征图和t2时相特征图变化区域的二值图,即二分类变化图;

步骤2.3,构建变化区域以及类别检测网络decoder,decoder结构由多组csa、ga和fm模块交替组成,其中csa模块采用cbam对高层特征进行降维,减少计算量并加强特征表达能力,由通道注意力和空间注意力组成;ga模块用于提取全局信息捕获全局上下文特征,由最大池化和平均池化组成;fm模块主要负责融合底层特征、高层特征以及全局特征,由多重卷积和上采样组成;

步骤2.4,针对步骤2.1中获得两个不同时相的四组高维特征,将第五层特征输入步骤2.3中的ga模块和csa模块,与第四层特征一起输入fm模块,得到融合后的第四、五层特征;将融合后的第四、五层特征输入到csa模块,和经过ga模块后的第五层特征,以及第三层特征一起输入fm模块,得到融合后的第三、四、五层特征;将融合后的第三、四、五层特征输入到csa模块,和经过ga模块后的第五层特征,以及第二层特征一起输入fm模块,得到融合后的第二、三、四、五层特征,最后分别得到t1和t2时相的特征图;

步骤2.5,将步骤2.4中得到的t1和t2时相的特征图进行拼接,然后输入aspp模块,扩大感受野,分别预测t1和t2时相的多分类结果,得到掩膜影像,即多分类变化图;

步骤2.6,计算步骤2.5中预测得到的掩膜影像与人工标记得到的掩膜影像之间的损失,根据损失对梯度进行反向传播更新卷积神经网络的权重,重复该过程直到模型收敛,输出最终得到的收敛模型。

进一步的,步骤3进一步包括:

使用步骤2输出的模型对步骤1中的训练集进行预测,通过预测影像与标签的miou分数作为评价指标,对miou分数小于一定阈值的影像进行人工判读,将在标签数据上双时相前后标签相反的数据替换过来,将出现a-a变化标记为a-b、a-a变化标记为b-c、a-b变化标记为未变化以及a-b变化标记为a-c的数据从训练集中剔除。

进一步的,步骤4进一步包括:

利用步骤3得到的训练集重新训练步骤2中的变化检测模型,得到最终的模型,再将步骤1中的测试集输入到模型中,通过一次前馈过程得到对应测试集的网络预测结果。

进一步的,步骤5进一步包括:

采用步骤4中重新训练模型得到的二分类变化图与多分类变化图相乘,去除一部分误检区域,得到最终的变化区域及其类别的预测结果。

与现有技术相比,本发明的优点和有益效果如下:

1.本发明可以检测出多个时相的类别变化关系:现有技术只能检测出哪些区域发生了变化,并不能检测出变化前后的具体类别,但是本发明通过分别对不同时相的图像进行多类别语义分割,再进行变化检测,可以捕捉多个时相的类别变化关系。

2.本发明可以直接预测变化区域及变化类别:现有技术先进行不同时相的语义分割,利用不同时相的分割结果得到变化区域二值图,再将分割结果与二值图相乘得到变化区域,在语义分割时的误差一直传播到了最后的结果中,但是本发明分开进行多类别预测和二值图预测,然后将多类别检测结果和二值图检测结果相乘,避免了误差传播。

附图说明

图1是本发明提出的基于多模态特征融合的双时相遥感影像语义变化检测方法的深度学习网络框架图。

图2是本发明提出的注意力机制模块结构图。

图3是本发明提出的高层特征提取模块结构图。

图4是本发明提出的特征融合模块结构图。

具体实施方式

下面结合附图对本发明作进一步的说明。

如图1所示,本发明提出了一种基于多模态特征融合的双时相遥感影像语义变化检测方法,包括以下步骤:

步骤1,对多时相遥感影像变化检测数据集进行预处理。

数据集包括训练集、验证集和测试集,对训练集使用随机放大裁剪、随机旋转以及随机垂直翻转的方式对数据进行数据增强,扩大数据集,并且还将t1、t2时相的影像进行对调,来进一步提高数据量,增强网络泛化能力。

步骤2,构建基于多模态特征融合的双时相遥感影像语义变化检测模型。使用步骤1中得到的训练集和验证集分别对变化检测模型进行训练和验证,输出训练后的模型。

具体的,步骤2进一步包括:

步骤2.1,构建一个原始影像高维特征提取网络encoder,该网络由resnet系列网络的五个阶段组成。将两个不同时相的影像分别输入该网络中,每张原始影像获得四组高维特征,分别来自第二、三、四、五层提取出的特征,记作mti_j(其中,i=1,2;j=2,3,4,5)。

步骤2.2,将步骤2.1中提取出的每一层的两个时相的特征图对应位置像素值相减,记作mt1_j-mt2_j(j=2,3,4,5),并对第三、四、五层相减后的特征分别进行2、4、8倍上采样,将第二层的特征与上采样后的特征融合起来得到t1时相特征图和t2时相特征图变化区域的二值图,即二分类变化图。

步骤2.3,构建变化区域以及类别检测网络decoder。decoder结构由多组csa、ga和fm模块交替组成。其中csa模块采用cbam对高层特征进行降维,减少计算量并加强特征表达能力,结构如图2所示,由通道注意力和空间注意力组成,输入特征图首先经过通道注意力,接着经过空间注意力得到输出,具体的输入和输出将在步骤2.4说明;ga模块用于提取全局信息捕获全局上下文特征,结构如图3所示,由最大池化和平均池化组成,输入特征图分别经过最大池化和平均池化,然后再串联起来得到输出,将该输出称作全局特征图,具体的输入和输出将在步骤2.4说明;fm模块主要负责融合底层特征、高层特征以及全局特征,结构如图4所示,由多重卷积和上采样组成,图4中fh代表高层特征图,fl代表低层特征图,fg代表全局特征图,fo代表输出特征图,这里的高层特征和低层特征是相对的,如果输入是第二和第三层,那么第二层就是低层,第三层就是高层,如果输入是第三和第四,那么第三就是低层,第四就是高层。输入fh经过两层卷积和上采样,输入fl经过一层卷积,输入fg经过一层卷积和上采样,然后将处理后的fh、fl和fg串联起来经过卷积得到输出fo,具体的输入和输出将在步骤2.4说明。

步骤2.4,针对步骤2.1中获得两个不同时相的四组高维特征,将第五层特征输入步骤2.3中的ga模块和csa模块,与第四层特征一起输入fm模块,得到融合后的第四、五层特征;将融合后的第四、五层特征输入到csa模块,和经过ga模块后的第五层特征,以及第三层特征一起输入fm模块,得到融合后的第三、四、五层特征;将融合后的第三、四、五层特征输入到csa模块,和经过ga模块后的第五层特征,以及第二层特征一起输入fm模块,得到融合后的第二、三、四、五层特征,最后分别得到t1和t2时相的特征图。

步骤2.5,将步骤2.4中得到的t1和t2时相的特征图进行拼接,然后输入aspp模块,扩大感受野,分别预测t1和t2时相的多分类结果,得到掩膜影像,即多分类变化图。

步骤2.6,计算步骤2.5中预测得到的掩膜影像与人工标记得到的掩膜影像之间的损失,根据损失对梯度进行反向传播更新卷积神经网络的权重,重复该过程直到模型收敛,输出最终得到的收敛模型。

步骤3,对步骤1中的训练集进行数据清除。数据集有标注错误,具体的错误类型有双时相变化标签标反、a-a变化标记为a-b、a-a变化标记为b-c、a-b变化标记为未变化以及a-b变化标记为a-c。

使用步骤2输出的模型对步骤1中的训练集进行预测,通过预测影像与标签的miou分数作为评价指标,对miou分数小于0.25的影像进行人工判读,将在标签数据上双时相前后标签相反的数据替换过来,将出现a-a变化标记为a-b、a-a变化标记为b-c、a-b变化标记为未变化以及a-b变化标记为a-c的数据从训练集中剔除。

步骤4,利用步骤3得到的训练集重新训练步骤2中的变化检测模型,得到最终的模型。再将步骤1中的测试集输入到模型中,通过一次前馈过程得到对应测试集的网络预测结果。

步骤5,对步骤4得到的预测结果进行后处理。

步骤2.5中获取的多分类变化图包括较多的误检区域,而步骤2.2中获取的二分类变化图检测错误相比少一些,因此采用步骤4中重新训练模型时得到的二分类变化图与多分类变化图相乘,去除一部分误检区域,得到最终的变化区域及其类别的预测结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1