基于融合卷积注意力机制的遥感图像目标检测方法

文档序号:34385398发布日期:2023-06-08 05:49阅读:156来源:国知局
基于融合卷积注意力机制的遥感图像目标检测方法

本发明属于遥感图像目标检测,主要涉及光学遥感图像的目标检测,具体是一种基于融合卷积注意力机制的遥感图像目标检测方法。应用于航空飞机对地面目标实时检测等领域。


背景技术:

1、遥感技术是一种利用非接触方式获取远距离目标特征信息的技术。它通过在一定的技术设备和系统的支持下,对被测目标的电磁波特性进行非接触式记录和分析,以获得目标特征信息。在过去几十年的发展中,遥感技术已经广泛应用于多个领域,如农业发展、地质分析、海洋监测、军事侦察和环境保护等。

2、目标检测已成为遥感图像地物识别、计算机视觉等领域的重要研究热点。通过目标检测,可以识别图像中的特定目标,并获得其类型和具体位置,在智能交通、智慧城市、公共安全、军事战争等领域中发挥着重要作用。因此,对遥感图像数据进行目标检测的研究在海洋、军事、农业等领域具有重大意义,比如能够降低成本、提高效率,推进本领域的科技进步。随着高分辨率卫星的快速发展,高分辨率遥感图像数量急剧增加,因此基于大数据的遥感图像目标检测是当前高分辨率遥感图像检测领域的紧迫需求。

3、目标检测技术的发展起源可以追溯到20世纪90年代。当时的目标检测方法主要基于人工特征提取和分类器训练,如svm、adaboost等,但这些方法难以适应复杂的场景变化。随着深度学习技术的普及,目标检测技术取得了长足的进步。深度学习是一种有效的机器学习方法,具有很强的学习复杂数据表示的能力。在深度学习目标检测中,卷积神经网络(cnn)是最常用的模型之一,它可以学习图像中各个目标底层的复杂特征表示。

4、早期的目标检测方法如r-cnn系列、fast r-cnn、faster r-cnn等充分利用了cnn的学习能力,大大提高了目标检测的准确率。然而,这些方法仍然存在计算复杂度高、推理速度慢等问题。

5、针对这些问题,后来遥感图像目标检测技术的发展已经转向单阶段目标检测方法,如yolo、ssd、retinanet等。这些方法可以在单阶段进行目标检测,降低了计算复杂度,提高了检测精度以及推理速度。此外,在各类目标检测基准测试中也取得了较优秀的性能。

6、基于transformer的目标检测方法是近年来流行起来的目标检测领域的一个新方向。这类方法背后的主要思想是将最初为自然语言处理(nlp)任务提出的编码-解码架构应用于目标检测任务。

7、视觉transformer相比卷积而言,突破了传统卷积神经网络目标检测模型不能并行计算的限制;transformer对两个目标位置之间的关联性的计算次数不随距离增长;自注意力机制可以产生更具可解释性的模型,编码器模块会根据特征图计算注意力矩阵,该矩阵上的每个值其实已经构建出了预测框坐标,可以直接对目标框进行预测。

8、transformer方法的核心是自注意力机制(self-attention),使模型可以关注输入图像的不同区域并动态调整每个区域的重要性。与传统的基于卷积神经网络(cnn)的方法相比,基于transformer的目标检测方法更加灵活,能够处理具有多个对象的复杂场景。

9、该领域的首批工作之一是detr,它提出了一个基于transformer的端到端目标检测框架。detr使用一组队列来预测对象位置和类别,并使用编码-解码架构来处理图像并输出预测。自注意力机制使得detr可以处理不同尺度和形状的实例,并在一个阶段进行目标检测,使其比传统的两阶段方法更有效。

10、尽管在遥感图像目标检测领域,目前基于detr的transformer遥感图像端到端目标检测框架可以取得较好的检测效果,但仍存在一些难题,如注意力机制难以收敛导致的训练时间过长,注意力机制不能有效获取局部信息导致模型对小目标检测精度低等。

11、综上,尽管detr提出简化了遥感图像目标检测的框架并且提升了整体的检测性能,但对小目标检测性能低和模型收敛速度慢等问题仍没有得到解决。


技术实现思路

1、本发明的目的在于克服上述现有技术存在的缺陷,提出一种对图像局部特征获取能力更强,模型收敛速度更快的基于融合卷积注意力机制的遥感图像目标检测方法。

2、本发明是一种基于融合卷积注意力机制的遥感图像目标检测方法,其特征在于,包括有如下步骤:

3、步骤1,收集并处理遥感图像数据:从公开网站中获取公开的遥感图像,将其划分为训练数据集、验证数据集、测试数据集,总体构成遥感图像数据集,该遥感图像数据集共包含十五类目标,分别是:飞机、船、存储罐、棒球场、网球场、篮球场、操场、港口、桥梁、大型车辆、小型车辆、直升飞机、环岛、足球场、游泳池;将遥感图像数据集中的原始图像数据所有目标的坐标和类别信息生成txt文件,并和原始图像数据一起输入到搭建的特征提取主干网络中;

4、步骤2,搭建特征提取主干网络:搭建的特征提取主干网络由四个卷积组顺序连接构成,第一个卷积组依次通过卷积层、norm层、激活函数层、最大池化层构成残差连接单元;其中,第二、三、四卷积组分别由不同数目的残差连接单元顺序连接构成,每个残差连接单元的结构为卷积层、gn层、激活函数层顺序堆叠而成;输入的原始图像数据经过搭建的特征提取主干网络下采样操作后输出遥感图像特征矩阵;

5、步骤3,搭建融合卷积的transformer编码器:搭建的transformer编码器包含有卷积模块和注意力模块并行连接构成的融合卷积多头注意力模块,该编码器从输入端依次包括有融合卷积多头注意力模块、残差连接和层归一化模块、前向传播模块、残差连接和层归一化模块,其中,所述融合卷积多头注意力模块中的卷积模块包括有顺序连接的第一卷积层、第一激活函数层、第二卷积层、bn层、第二激活函数层、第三卷积层,注意力模块包括有顺序连接的ln层、自注意力层、前馈网络层;其中,卷积模块和注意力模块的比例为4:4,卷积模块与注意力模块输出后的矩阵大小相同,通过concat级联后形成与融合卷积的transformer编码器模块输入矩阵大小相同的输出矩阵;

6、步骤4,搭建混合注意力机制的transformer解码器:解码器通过自注意力机制对输入的目标查询矩阵进行冗余信息处理,交叉注意力机制对编码器输出的特征矩阵和目标查询矩阵进行关系建模,通过前向传播模块对图像特征和预测框进行特征变换;

7、步骤5,组成融合卷积注意力机制目标检测网络模型:建立依次由特征提取主干网络、融合卷积的transformer编码器、混合注意力机制的transformer解码器组成的融合卷积注意力机制目标检测网络模型,简称网络模型;

8、步骤6,训练网络模型:用训练数据集对网络模型进行训练,得到训练好的融合卷积注意力机制目标检测网络模型;

9、步骤7,测试网络模型:用训练好的融合卷积注意力机制目标检测网络模型对测试数据集进行检测,即将测试集输入到训练好的网络模型中,得到遥感图像数据集每一类目标的检测结果,包括平均精度ap及所有类目标的平均精度均值map。

10、本发明解决了端到端遥感图像目标检测框架中训练模型收敛速度慢、检测模型对小目标精度低的技术问题。

11、与现有技术相比,本发明的优点如下:

12、提高了模型对小目标的检测精度:本发明设计了一个编码器中的卷积模块,由逐点卷积、深度卷积、激活函数、归一化层组成,该模块在不改变编码器输入矩阵大小的前提下获取了图像的局部信息;由卷积模块和注意力模块并行连接而成的编码器,对图像的全局特征和局部特征都有较好的特征提取能力;本发明在保证融合卷积注意力机制目标检测网络模型对大目标检测精度的前提下提高了对小目标的检测精度。

13、降低了模型的训练耗时:现有技术中,基于注意力机制的编码器对图像进行编码时会进行图像像素量二次幂的计算,使得模型的计算复杂度高,参数量大;本发明设计的编码器中的卷积模块,使用的逐点卷积和深度卷积具有参数量小的优点,降低了模型的计算复杂度,加快了模型的收敛速度,降低了模型的训练耗时。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1