大尺寸航空遥感影像的目标检测方法

文档序号:28690641发布日期:2022-01-29 11:25阅读:125来源:国知局
大尺寸航空遥感影像的目标检测方法

1.本发明涉及大尺寸航空遥感影像的目标检测方法,属于目标检测技术领域。


背景技术:

2.随着图像传感器和航空技术的发展,航空遥感光学图像的分辨率逐渐提高,图像蕴含的数据量也显著提升。目标检测是计算机视觉的常用技术手段之一,用于推断图像中每个目标对象的位置和类别。在高分辨率的航空遥感图像应用领域中,目标检测技术可以在建筑识别、自然灾害管理、变化检测、交通规划、农业调查、军事等方面发挥重要作用。
3.与计算机视觉中的自然图像相比,航空遥感图像具有更大的分辨率和尺寸。许多航空图像数据集提供的大尺寸图像无法被gpu直接读取,例如dota数据集中包含10000
×
10000分辨率的大尺寸图像。如果仅仅直接将图片缩小到内存能容纳的程度会导致明显的精度下降。因此,学者们普遍采用的方法是在数据预处理过程中,将所有原始图像分割成固定大小显卡可以容纳的子图像,且子图像之间存在一定的重叠。然而,这种预处理方法往往会导致两个很容易被忽视的问题:一是来自全局的上下文信息随着图像被切分;二是即使相邻子图之间存在一定的重叠,一些超大的目标也可能在每个子图上都不完整,因而无法被完整的检测到。在航空图像中,许多目标都和大型场景相关联,比如飞机通常出现在机场,而港口只出现在大面积水体的边缘。在语义分割和医学图像领域,这些来自大尺寸图像的全局上下文已被证明有利于神经网络模型的精度提升。
4.如今许多应用在自然图像领域的优秀的目标检测模型已经出现,如fasterr-cnn、cascader-cnn和yolo。然而,这些方法只关注对象目标自身区域的特征,而忽略了对象的多尺度和上下文信息。人类的视觉系统可以利用上下文和更多的信息来支持我们的知觉推断和判断。在计算机视觉领域,上下文信息的作用也很重要。已有许多方法表明,多尺度特征和上下文信息有利于提升目标检测的精度。例如,特征金字塔(fpns)建立了自顶向下的金字塔结构,使得模型可以使用多尺度的联合特征。inside-outside网络利用循环神经网络捕获多尺度的上下文信息,显著提升检测精度,说明了多尺度上下文信息对目标检测的重要性。ac-cnn可以利用注意力机制和循环神经网络提取多尺度的上下文信息。ms-cnn模型用来感知对象的上下文信息。fpn结构也可以利用上采样程度较大的特征图提取周边上下文信息。fa-ssd能够使用注意力机制提取更显著的上下文信息,提升了小目标检测的性能。
5.对于航空图像目标检测来说,上下文信息的作用也很重要。例如,桥梁与道路在纹理信息上非常相似,但桥梁往往出现在水域上,因此桥梁周围的上下文给我们提供了判别的依据。许多学者们根据遥感图像的特征设计了特殊的上下文感知模型。上下文感知检测网络(cad-net)使用gc-net和plc-net分别在全局场景级和局部对象级感知上下文信息。ca-cnn通过多个不同尺寸的上下文锚框提取多尺度特征中的上下文信息。glnet使用长期短期记忆(lstm)网络结构来提取全局上下文信息。这些提取上下文信息的网络结构虽然取得了良好的结果,但是他们并不专门针对大尺寸图像,因此无法解决因图像切分而导致的上下文信息缺失问题。


技术实现要素:

6.针对大尺寸航空遥感影像因图像切分会导致上下文信息缺失的问题,本发明提供一种大尺寸航空遥感影像的目标检测方法。
7.本发明的一种大尺寸航空遥感影像的目标检测方法,包括,
8.由原始遥感图像组成原始遥感图像集,每张原始遥感图像配置原始图像名称;
9.将每张原始遥感图像按预定重叠率切分为预设大小的子图,每个子图配置子图名称,所述子图名称包括原始图像名称、子图序列号以及子图在原始遥感图像上的起始位置信息;
10.根据当前待检测子图的子图名称在原始遥感图像集中检索获得对应的当前原始遥感图像;
11.对当前待检测子图采用局部特征提取器进行特征提取获得一组多尺度子图特征图;
12.将当前原始遥感图像进行下采样后采用全局特征提取器进行特征提取获得一组多尺度原始图像特征图;
13.采用全局局部耦合机制的特征金字塔网络对多尺度子图特征图和多尺度原始图像特征图进行特征融合,获得融合后特征图;
14.融合后特征图经一号rpn生成侯选框,再经一号rolalign进行特征对齐,再经fc全连接层更改特征维度,获得一维融合特征图,将一维融合特征图分别进行分类和回归操作后获得融合目标预测结果;
15.将一组多尺度原始图像特征图进行多尺度变换后,经二号rpn生成侯选框,先过滤再经二号rolalign进行特征对齐,再经fc全连接层更改特征维度,获得一维全局特征图,将一维全局特征图分别进行分类和回归操作后再进行nls滤波,获得滤波后全局预测结果;
16.将融合目标预测结果和滤波后全局预测结果再融合,获得检测目标。
17.根据本发明的大尺寸航空遥感影像的目标检测方法,局部特征提取器输出的一组多尺度子图特征图包括四张不同尺度子图特征图;
18.全局特征提取器输出的一组多尺度原始图像特征图包括四张不同尺度原始图像特征图;
19.全局局部耦合机制的特征金字塔网络采用自顶向下的方式交互融合,分别将四张不同尺度子图特征图和四张不同尺度原始图像特征图变换为五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图;将五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图按对应尺度进行融合,获得多尺度融合后特征图。
20.根据本发明的大尺寸航空遥感影像的目标检测方法,将五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图按对应尺度进行融合的方法包括,将五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图按对应尺度先拼接后,再降维处理。
21.根据本发明的大尺寸航空遥感影像的目标检测方法,获得融合后特征图的过程包括:
22.对五张变换后多尺度子图特征图进行中间级别的选择获得选定子图特征图;
23.对五张变换后多尺度原始图像特征图进行中间级别的选择获得选定原始图像特
征图;
24.将选定原始图像特征图中对应选定子图特征图的指定区域裁剪后,上采样至原始图像特征图的大小,然后与选定子图特征图进行特征融合,获得融合后特征图。
25.根据本发明的大尺寸航空遥感影像的目标检测方法,局部特征提取器和全局特征提取器均采用resnet-50作为特征提取器。
26.根据本发明的大尺寸航空遥感影像的目标检测方法,全局局部耦合机制的特征金字塔网络中,采用映射函数根据目标侯选框的大小进行特征图级别的选择;映射函数为:
[0027][0028]
式中k为目标侯选框对应的级别号,w为目标侯选框的长,h为目标侯选框的宽。
[0029]
根据本发明的大尺寸航空遥感影像的目标检测方法,局部特征提取器与全局特征提取器进行特征提取的方式相同;
[0030]
局部特征提取器对当前待检测子图先采用卷积神经网络按特征维数逐渐增加的顺序在5个深度进行特征提取,将后四个深度提取的子图特征再进行1*1卷积计算,得到四张不同尺度子图特征图。
[0031]
根据本发明的大尺寸航空遥感影像的目标检测方法,全局局部耦合机制的特征金字塔网络将四张不同尺度子图特征图变换为五张变换后多尺度子图特征图的方式与将四张不同尺度原始图像特征图变换为五张变换后多尺度原始图像特征图的方式相同;
[0032]
将四张不同尺度子图特征图分别进行3*3卷积计算和最大池化得到五张变换后多尺度子图特征图。
[0033]
根据本发明的大尺寸航空遥感影像的目标检测方法,预定重叠率包括重叠200个像素。
[0034]
根据本发明的大尺寸航空遥感影像的目标检测方法,子图名称格式包括:
[0035]
原始图像名称_子图序列号_子图起始横坐标_子图起始纵坐标.jpg。
[0036]
本发明的有益效果:本发明可用于航空影像的目标检测,它通过融合模型缓解了由于超大目标缺失造成的目标无法被检测的问题,可有效提升大尺寸航空遥感影像的目标检测精度。
[0037]
本发明采用并行的局部特征提取器和全局特征提取器组成pgl并行特征提取模块来获取全局图像和子图像信息。又基于特征金字塔fpn结构设计了一个全局局部耦合机制的特征金字塔模块gl-fpn,通过对子图与原始遥感图像中信息的同步获取,显著缓解了由于切分大尺寸图像而导致的上下文信息的缺失。另个,本发明方法还设计了额外的全局检测器用于在全局图像的缩略图上检测特大目标,进一步保障了目标检测的可靠性。
[0038]
本发明可形成模块集成到常用的目标检测模型中,具有极大的应用范围。
附图说明
[0039]
图1是本发明所述大尺寸航空遥感影像的目标检测方法流程图;
[0040]
图2是pgl与gl-fpn的数据处理网络示意图;
[0041]
图3是全局局部耦合机制的特征金字塔网络的特征图融合示意图;
[0042]
图4是示例一从子图角度展示的真值标签;
[0043]
图5是示例一从子图角度展示的基准模型;
[0044]
图6是示例一从子图角度展示的本发明的检测结果示意图;
[0045]
图7是示例二从子图角度展示的真值标签;
[0046]
图8是示例二从子图角度展示的基准模型;
[0047]
图9是示例二从子图角度展示的本发明的检测结果示意图;
[0048]
图10是示例三从子图角度展示的真值标签;
[0049]
图11是示例三从子图角度展示的基准模型;
[0050]
图12是示例三从子图角度展示的本发明的检测结果示意图;
[0051]
图13是示例四从子图角度展示的真值标签;
[0052]
图14是示例四从子图角度展示的基准模型;
[0053]
图15是示例四从子图角度展示的本发明的检测结果示意图;
[0054]
图16是示例五从原始图像角度展示的基准模型;
[0055]
图17是示例五从原始图像角度展示的本发明的检测结果示意图;
[0056]
图18是示例六从原始图像角度展示的基准模型;
[0057]
图19是示例六从原始图像角度展示的本发明的检测结果示意图;
[0058]
图20是示例七从原始图像角度展示的基准模型;
[0059]
图21是示例七从原始图像角度展示的本发明的检测结果示意图;
[0060]
图22是示例八从原始图像角度展示的基准模型;
[0061]
图23是示例八从原始图像角度展示的本发明的检测结果示意图;
[0062]
图24是示例九从原始图像角度展示的基准模型;
[0063]
图25是示例九从原始图像角度展示的本发明的检测结果示意图;
[0064]
图26是示例十从原始图像角度展示的基准模型;
[0065]
图27是示例十从原始图像角度展示的本发明的检测结果示意图;
[0066]
图28是示例十一从原始图像角度展示的基准模型;
[0067]
图29是示例十一从原始图像角度展示的本发明的检测结果示意图;
[0068]
图30是示例十二从原始图像角度展示的基准模型;
[0069]
图31是示例十二从原始图像角度展示的本发明的检测结果示意图。
具体实施方式
[0070]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0071]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0072]
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0073]
具体实施方式一、结合图1至图3所示,本发明提供了一种大尺寸航空遥感影像的目标检测方法,其特征在于包括,
[0074]
由原始遥感图像组成原始遥感图像集,每张原始遥感图像配置原始图像名称;
[0075]
将每张原始遥感图像按预定重叠率切分为预设大小的子图,每个子图配置子图名称,所述子图名称包括原始图像名称、子图序列号以及子图在原始遥感图像上的起始位置信息;
[0076]
根据当前待检测子图的子图名称在原始遥感图像集中检索获得对应的当前原始遥感图像;
[0077]
对当前待检测子图采用局部特征提取器进行特征提取获得一组多尺度子图特征图;
[0078]
将当前原始遥感图像进行下采样后采用全局特征提取器进行特征提取获得一组多尺度原始图像特征图;
[0079]
采用全局局部耦合机制的特征金字塔网络对多尺度子图特征图和多尺度原始图像特征图进行特征融合,获得融合后特征图;
[0080]
融合后特征图经一号rpn生成侯选框,再经一号rolalign进行特征对齐,再经fc全连接层更改特征维度,获得一维融合特征图,将一维融合特征图分别进行分类和回归操作后获得融合目标预测结果;
[0081]
将一组多尺度原始图像特征图进行多尺度变换后,经二号rpn生成侯选框,先过滤再经二号rolalign进行特征对齐,再经fc全连接层更改特征维度,获得一维全局特征图,将一维全局特征图分别进行分类和回归操作后再进行nls滤波,获得滤波后全局预测结果;
[0082]
将融合目标预测结果和滤波后全局预测结果再融合,获得检测目标。
[0083]
本实施方式中,局部特征提取器和全局特征提取器构成pgl(并行的全局局部特征提取器,parallel global and local feature extraction),可分别提取子图和对应的全局图片的信息;然后通过全局局部耦合机制的特征金字塔网络gl-fpn(global and local feature pyramid networks)的耦合将多尺度的两部分特征进行深度融合。此外,后续的rpn、rolalign、fc全连接层形成计算量很小的检测分支,可检测到不易检测到的超大目标。将本发明形成一个整体模块很容易集成在大部分主流检测器上。
[0084]
本实施方式中,原始遥感图像均为具有较大尺寸的全局图像,例如10000*10000像素的尺寸大小。在深度学习模型中,这样的图像大小无法直接输入到网络中,因此需要预处理,按固定的大小切分成小图。对原始遥感图像可按照例如1024*1024的大小切分为多张子图,切分时不同子图之间会保证一定的重叠率。
[0085]
进一步,结合图1和图2所示,局部特征提取器输出的一组多尺度子图特征图包括四张不同尺度子图特征图;
[0086]
全局特征提取器输出的一组多尺度原始图像特征图包括四张不同尺度原始图像特征图;
[0087]
全局局部耦合机制的特征金字塔网络采用自顶向下的方式交互融合,分别将四张不同尺度子图特征图和四张不同尺度原始图像特征图变换为五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图,分别对应图2中两侧的p2-p6;将五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图按对应尺度进行融合,获得多尺度融合后特征图。
[0088]
再进一步,将五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图
按对应尺度进行融合的方法包括,将五张变换后多尺度子图特征图和五张变换后多尺度原始图像特征图按对应尺度先拼接后,再降维处理。
[0089]
再进一步,结合图3所示,获得融合后特征图的过程包括:
[0090]
对五张变换后多尺度子图特征图进行中间级别的选择获得选定子图特征图;
[0091]
对五张变换后多尺度原始图像特征图进行中间级别的选择获得选定原始图像特征图;
[0092]
将选定原始图像特征图中对应选定子图特征图的指定区域裁剪后,上采样至原始图像特征图的大小,然后与选定子图特征图进行特征融合,获得融合后特征图。
[0093]
图2中c1-c5和m2-m5对应局部特征提取器和全局特征提取器的操作过程。图1中nls滤波,将每个检测结果的置信度分数做了变换。
[0094]
c1-c5指的是图像经过卷积神经网络时在不同深度的特征,均为特征图,即神经网络中的特征向量,特征维数从c1到c5逐渐增加。m2-m5如图2所示由1*1卷积计算得到,p2-p6由3*3卷积和池化层得到。
[0095]
作为示例,局部特征提取器和全局特征提取器均采用resnet-50作为特征提取器。
[0096]
目前常用的目标检测方法在预处理步骤就将训练数据切分,对应的原始图像在模型训练过程中不会出现。本实施方式中,结合图1所示,为了提取全局上下文信息,首先建立了一个子图和对应的原始图像的索引结构,根据子图的图名可以很容易的找到对应的原始图像并缩放到和子图一样的大小,再将这两张图作为卷积模型的输入。局部特征提取器和全局特征提取器形成的并行主干网络具有与孪生网络相类似的结构,但本发明方法中未包含类似于孪生网络的权重共享机制,而是使用resnet-50作为特征提取器它有效地解决了梯度消失问题,并具有较强的特征提取能力。并行特征提取器最后会输出两组大小相同的特征。
[0097]
经典的特征金字塔网络fpn是一个自上而下的金字塔体系结构,通过相互连接来生成多尺度特征。它能有效地提高模型在航空图像上的目标检测性能。为了更有效地提供多尺度信息和捕获全局上下文,本实施方式基于金字塔网络设计了全局和局部的耦合金字塔模型。同时本实施方式注意到了耦合机制对尺度较为敏感,不同尺度的效果差别较大,因此进行广泛的实验后总结出了规律并选择了最优的尺度。特征金字塔fpn是一个包含多输入和多输出的模块,它使用一个映射函数来根据候选框的大小为其指定特征的级别。该映射函数描述如下:
[0098][0099]
其中k0是初始级别,在faster r-cnn的fpn结构中被定义为4。w和h为每一个候选框的长和宽。k对应着给每个候选框分配的级别号,结合图2所示,被分配为{p2,p3,p4,p5}中的一个。在resnet网络结构中这个分配策略被进一步改进,产生了五个级别的特征图,映射函数描述如下:
[0100]
再进一步,全局局部耦合机制的特征金字塔网络中,采用映射函数根据目标侯选框的大小进行特征图级别的选择;映射函数为:
[0101][0102]
式中k为目标侯选框对应的级别号,w为目标侯选框的长,h为目标侯选框的宽。
[0103]
图2所示,全局局部耦合机制的特征金字塔模块将来自子图像的特征融合上来自原始图像的特征,然后输出至模型的rcnn部分,来自原始图像的特征会与来自子图像的特征融合,同时还会直接输出至模型的额外全局检测器部分。将并行特征提取器的两组输出命名为和他们分别包含四个不同尺度的特征图.ci代表通道数,hi和wi分别代表每个尺度特征图的高和宽。在fpn模块计算之后,得到了和此时每一组包含五张不同级别的特征图,每一张都包含了其他尺度的信息,不同级别之间通道数相同,但尺寸不同。图3介绍了本发明的融合流程,从来自全局图像的特征组中取出特定的级别为然后,根据此时的子图在全局图像上的位置将的对应位置的特征图切分出来,表示为为了能与对应的融合,本实施方式中将上采样至与相同的大小。然后将和沿通道拼接在一起表示为lg
2c
×h×w,最终,再通过降维卷积将lg
2c
×h×w转化为lgc×h×w。
[0104]
gl-fpn的作用主要是对上一部分得到的两组特征图进行多尺度变化和融合,使得子图中能够包含来自原始全局图像的信息。图2针对一组特征子图和一组特征全局图,分别将一组特征之间通过自顶向下的方式交互融合,将每一组中的四个特征图变换成更具有代表性的五组特征图,从而得到两组多尺度特征图。特征融合是将两组特征图的对应尺度进行融合,融合时需要考虑子图在全局图像中的位置信息,将对应位置裁剪下来,然后上采样到相同的大小。再将两组特征图进行融合,融合方法时先拼接再降维。经历了融合的两组特征图按输入的尺寸和大小输出。
[0105]
来自全局图和子图的特征在经过融合后,分别被送到不同的检测模块中,rpn用于生成候选框,roialign用于特征对齐,fc全连接层用于更改特征维度,然后分类层和回归层用于目标的种类识别和精确定位。从而分别得到了子图的目标检测结果和全局图的目标检测结果。
[0106]
最后,将来自子图的目标检测结果与全局图的目标检测结果有机融合,使用过滤器和nls置信度限制算法将来自全局图的检测结果进行了筛选,最终得到了最优的检测结果。
[0107]
本发明中,没有融合所有级别的特征,因为yolof和augfpn提出了不同级别的特征图具有不同的特点。yolof[40]只使用一个输入和输出的级别并在扩展后取得了和全部输入输出几乎相同的性能。由于尺度的差异,不同的fpn特征级别在深层语义信息和浅层细节信息上各有侧重。这导致假设在fpn中不同级别对于本发明的耦合机制的响应是不尽相同的。为了进一步验证不同级别特征对结果的影响,可设计一套消融实验。
[0108]
再进一步,结合图2所示,局部特征提取器与全局特征提取器进行特征提取的方式相同;
[0109]
局部特征提取器对当前待检测子图先采用卷积神经网络按特征维数逐渐增加的顺序在5个深度进行特征提取,将后四个深度提取的子图特征再进行1*1卷积计算,得到四
张不同尺度子图特征图。
[0110]
再进一步,结合图2所示,全局局部耦合机制的特征金字塔网络将四张不同尺度子图特征图变换为五张变换后多尺度子图特征图的方式与将四张不同尺度原始图像特征图变换为五张变换后多尺度原始图像特征图的方式相同;
[0111]
将四张不同尺度子图特征图分别进行3*3卷积计算和最大池化得到五张变换后多尺度子图特征图。
[0112]
基于卷积神经网络的模型通常使用1
×
1卷积操作来降维,fpn模型在特征融合过程中附加了3
×
3卷积用以缓解上采样导致的叠置效应。在本发明的模型中,全局特征图也是通过上采样形成的,相邻像素之间的相关性较强,但是本发明方法的上采样倍率与原始图像的大小有关,而特征金字塔fpn都是标准的两倍上采样。在此基础上,设计了一套消融实验来探索降维卷积核的大小如何影响耦合机制。分别讨论以下几种情况:{1
×
1,3
×
3,5
×
5,n
×
n},实验结果如表8所示,3*3的卷积核能够稳定的取得最优的效果,因为3*3的大小可以有效的缓解叠置效应并避免过多的干扰。n是指一组由上采样倍率决定的分组卷积,具体分配标准如下式:
[0113][0114]
当切分大尺寸航空图像时,一些宽度或高度较大的物体,如机场和大型船舶,可能被切割成几部分从而导致检测精度下降。尽管普遍使用的预处理方法都保持了一定的重叠率,但过大的重叠率会导致过多的重复检测,过小的重叠率的作用又比较有限。因此本实施方式设计了一个额外的检测器,旨在从原始图像的缩略图上检测特大目标,通过一些控制算法既可有效的降低计算量,又可避免影响主检测器的精度。
[0115]
图1中包含了全局检测器的结构,它类似于二阶段的目标检测模型,包括rpn(候选框生成网络)、分类器和回归器。为了减少计算量并专用于检测超大的目标,全局检测器通过阈值函数删去那些较小的候选框,具体描述如下:
[0116][0117]
其中height和width为候选框的宽和高,阈值为200是因为常规的切分预处理步骤的重叠率是200,认为超过这个长度的目标被切分的概率较大,当flag为0时意味着这个候选框会被抛弃。但是,如果一个目标在主探测器和全局检测器的输出都具有相同的置信度,则应该放弃来自全局检测器的检测结果,因为主检测器有更高的定位精度。因此,当两个检测器的预测框具有较高的重叠度时,来自全局检测器的结果应当被适当抑制。
[0118]
本发明基于soft-nms的想法设计了一种名为非局部抑制(nls)的算法,可以依据重叠率有效抑制来自全局检测器的置信度。
[0119][0120][0121]
nls算法中,gi和si分别是来自全局检测器的预测框和其置信度,l指代来自主检测器的所有预测框,nls线性地降低了重复检测结果的置信度,重复的区域越多,抑制的程度就越大。因为nls算法并不需要在极限情况下的突变抑制,因此不需要使用高斯形式的惩罚函数。x为图像的横坐标,y为图像的纵坐标。
[0122]
最终在训练过程中,本模型的损失函数可以如下定义:
[0123][0124]
和分别代表来自主检测器的分类和回归损失,和代表来自全局检测器的分类和回归损失。tc和t
l
代表来自主检测器的预测结果,t'c和t
l
'代表来自全局检测器的预测结果。λ代表了分类和回归损失之间的平衡超参数,可设置为和fasterr-cnn相同的值。
[0125]
作为示例,预定重叠率包括重叠200个像素。
[0126]
作为示例,子图名称格式包括:
[0127]
原始图像名称_子图序列号_子图起始横坐标_子图起始纵坐标.jpg。
[0128]
实验验证:
[0129]
为了评估本发明提出的方法,在dota-v1.0数据集,dota-v1.5数据集和dota-v2.0数据集上进行了广泛的实验。实验结果表明,本发明方法全局局部耦合检测机制(cglnet)在上述三个数据集中均可以有效提升模型的性能。结果见表1至表3,所有结果都是由官方评估服务器得出。添加cglnet的faster r-cnn的map精度指标在dota-v1.0上提高了2.45%,dota-v1.5的平均精度提高了1.56%,dota-v2提高了1.67%。添加cglnet的cascade r-cnn在dota-v1.0上提高了1.96%,在dota-v1.5上提高了1.76%,在dota-v2.0上提高了1.07%。此外,采用了本发明方法的集成模块在大部分类别图像的识别精度都有所提高,这表明全局上下文信息对对象检测的重要性。其中比较显著的是,ground-track-field的检测精度提高了9.15%,soccer-ball-field的检测精度提高16.20%,container-crane的检测精度提高8.65%。
[0130]
除此之外,还与另外两类目标检测模型进行了性能比较,一类为在自然图像领域广泛使用的基准检测模型,另一类是在航空遥感影像领域使用的专用检测模型,比较结果如表4到表5所示。第一类包括ssd,yolov2、retinanet、yolov3、yolov4、r-fcn、mask r-cnn、panet、faster r-cnn、cascade r-cnn、faster r-cnn h-obb;第二类包括ricnn、orconv、usb-bbr、ofic、ms-vans、glnet、icn、iad r-cnn、cdd-net、cad-net、scanet。与这些现有的方法相比,本发明方法可以在基准模型的基础上实现更好的性能,并且本发明的改进不局限于特定类别,而是可以提升大多数类别的检测精度。平均目标尺寸更大的类别在本发明的方法下的精度增益更大,因为本发明方法更注重于大尺度的全局上下文信息。为了更清
楚地显示本发明方法所实现的检测性能提升,分别从子图和原始图像的角度展示本发明的检测结果,如图4至图31所示。
[0131]
为了更严谨的探究本发明每个模块和结构对检测结果的影响,本实施方式中设计并进行了详尽的消融实验来分析单个模块的影响和耦合机制的结构超参数的影响。为了分析cglnet中每个子模块的重要性,将gl-fpn和全局检测器分别应用于基准模型,以验证它们在三个数据集上的有效性。基准模型采用resnet50-fpn的faster r-cnn。表6展示了各组分的消融研究结果。每个模块都提高了模型在三个数据集上的性能,它们的组合也实现了更优良的结果,证明这些子模块之间没有冲突。在这三个数据集的检测结果中,gl-fpn大大提高了在dota-v1.0、dota-v1.5和dota-v2.0上的性能,分别为2.04%、1.18%和1.47%。dota-v1.0的提升最大是因为它包含三个数据集中的对象最少。如果删除gl-fpn并单独添加全局检测器,检测性能将稳定提高0.2%以上。全局头模块的性能改进在三个数据集上保持稳定,证明了超大的对象被切分的现象广泛存在于多个数据集中。
[0132]
由于尺度对于全局上下文信息较为敏感,全局上下文并不对所有尺度的物体都能获得更好的结果。为了进一步探索这个问题,可执行额外的消融实验,如表7所示。{p2、p3}的特点具有较低的下采样倍率,富含细节信息,注重全局信息的上下文特征反而会影响特征表达,因此在特征级别组合时并不注重这两个级别。但是,不同的组合会导致性能上的轻微差异,只有{p4}才能在所有三个数据集上获得最好的结果。这与其他认为fpn金字塔网络的中间层次所包含的语义信息和细节更为平衡的观点相吻合,因此这个层次更有利于融合全局信息。使用{p2}和{p3}仅在dota-v1.0上仍然可以产生比基线更好的结果,但在dota-v1.5上的检测性能反而会降低,因为全局特征影响了对细节特征的表达。三个数据集上的精度变化趋势都是相似的,这也证明了本发明方法的稳定性。
[0133]
具体实施例:
[0134]
采用map作为评估指标。
[0135]
为了验证本发明在大型航空图像上的性能,使用dota[17]数据集,这是一个包含用于目标检测的航空图像的大规模数据集,它包含较多的大尺寸图像,主要来自谷歌地球、卫星和航空图像。dota数据集有三个版本:dota-v1.0、dota-v1.5和dota-v2.0。采用hbb的标注框。
[0136]
dota-v1.0共有2806张图像,大小从800到4000像素,包括15个类别和188282个目标。dota-v1.5注释了许多难以检测的小目标,此外,还增加了一个叫做“集装箱起重机”的新类别。dota-v2.0个版本包含402089个实例。dota-v2.0与以前的版本有很大的区别,共有18个类别(添加了“机场”和“直升机停机坪”)、11286张图片和1793658个目标。在实验中结果都是测试集精度。
[0137]
为了方便起见,为了在官方基准上测试模块的性能,使用mmdetection[43]实现和评估本发明。根据官方基准的设置,将整个原始图像变成1024
×
1024局部图像,步幅为824。在推理阶段,通过设置nms阈值为0.3将来自局部图像的推理结果合并为全局图像的结果。所有实验都在ubuntu操作系统上进行,使用gpu显卡(nvidiageforcegtx1080ti)进行训练,总批量为1。初始学习率设置为0.0025,学习率调整计划设置与“1x”计划相同。将剩余的超参数设置为与官方基准的超参数一致,例如,候选框和每幅图像中的最大对象数量被设置为2000。
[0138]
表1在dota-v1.0与基准模型的性能比较
[0139][0140]
fr-h=faster r-cnn模型,cr-h=cascade maskr-cnn模型,p=飞机,bd=棒球场,b=桥梁,gtf=运动场跑道,sv=小型车辆,lv=大型车辆,s=船只,tc=网球场,bc=篮球场,st=油罐,sbf=足球场,ra=环岛,h=港口,sp=游泳池,hc=直升机。
[0141]
表2在dota-v1.5与基准模型的性能比较
[0142]
[0143][0144]
fr-h=fasterr-cnn模型,cr-h=cascademaskr-cnn模型,p=飞机,bd=棒球场,b=桥梁,gtf=运动场跑道,sv=小型车辆,lv=大型车辆,s=船只,tc=网球场,bc=篮球场,st=油罐,sbf=足球场,ra=环岛,h=港口,sp=游泳池,hc=直升机,cc=起重机吊臂。
[0145]
表3在dota-v2.0与基准模型的性能比较
[0146][0147]
fr-h=fasterr-cnn模型,cr-h=cascademaskr-cnn模型,p=飞机,bd=棒球场,b=桥梁,gtf=运动场跑道,sv=小型车辆,lv=大型车辆,s=船只,tc=网球场,bc=篮球场,st=油罐,sbf=足球场,ra=环岛,h=港口,sp=游泳池,hc=直升机,cc=起重机吊臂,a=飞机场,he=直升机停机坪。
[0148]
表4在dota-v1.0与主流模型的性能比较
[0149][0150]
fr-h=faster r-cnn模型,cr-h=cascademaskr-cnn模型,fr-h*中模型所用的特征提取结构与fr-h不同。
[0151]
表5在dota-v1.5与主流模型的性能比较
[0152][0153][0154]
fr-h=fasterr-cnn模型,cr-h=cascademaskr-cnn模型。
[0155]
表6本发明中子模块的消融实验
[0156][0157]
表7gl-fpn的融合级别的消融实验
[0158][0159]
表8gl-fpn的降维卷积核大小的消融实验
[0160][0161]
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1