一种基于轻量化元学习的sar图像小样本目标检测方法
技术领域
1.本发明涉及目标探测技术领域,具体涉及一种基于轻量化元学习的sar 图像小样本目标检测方法。
背景技术:2.合成孔径雷达(sar)是遥感领域不可或缺的重要监测工具,它是一种主动微波成像传感器,也是获取sar图像的主要途径,具有全天候、全天时成像和侦察能力。它可以提供不受天气和光照条件影响的高分辨率图像,已广泛应用于多个领域。近年来,随着机载sar和星载sar的发展,在sar 目标检测方面进行了大量的研究。复杂场景下的多尺度sar目标检测是其主要任务之一,仍然是一个巨大的挑战。
3.在人工智能发展的这几十年里,目标检测一直是研究人员重点研究的任务,并且已经取得了一系列的研究成果。在sar图像目标检测领域中,已经有大量的模型和方法已经被研究人员开发出来用来检测sar图像中的目标(例如坦克、舰船、飞机、桥梁等)。传统的sar目标检测方法主要包括基于对比度信息的、基于几何和纹理特征的以及基于统计分析的。在现有sar 目标的检测算法中,恒虚警率(cfar)方法被称为最经典的检测算法,并且经常为研究人员所用。cfar方法根据给定的虚警率和背景杂波的统计分布,计算出自适应阈值,然后通过像素强度与计算出的阈值进行比较,将目标像素与背景进行区分。该方法的性能在很大程度上取决于海杂波的统计建模和所选模型的参数估计。主要围绕这两个方面,提出了许多改进的方法。考虑到杂波的非均匀性,各种杂波模型,如对称稳定分布和广义伽马分布,都是基于非均匀分布来拟合变化的海况。然而,随着模型复杂性的增加,参数估计变得困难和耗时。gao等人考虑了实际应用,试图在估计精度和速度之间取得良好的平衡。xia等人通过将cnn和transformer结合,使其能在sar 图像上提取更加丰富的全局信息,最后在ssdd数据集上的准确率达到了比较高的水平,并且我们课题组一起参与构建了新的sar多类目标检测数据集smcdd,最后xia等人在其验证了其方法的有效性。
4.此外,机器学习和gpu计算能力高速发展,使得卷积神经网络(cnn)在目标检测方面取得了显著突破。基于机器学习的方法具有强大的鲁棒特征提取和对象分类能力,与传统的使用人工设计特征的方法相比,深度神经网络可以从给定的数据中自动学习特征表示。不仅在光学图像还是在遥感sar 图像领域中,都有大量基于cnn的目标检测方法被研究出来以解决各自领域的问题。现代基于cnn的检测器基本可分为两大类:基于锚的检测器和无锚的检测器。yolo,ssd,faster r-cnn等都是其中非常经典的目标检测器,已经经过很多工程和实验的检验,已经被广泛应用于各项目中。在sar图像目标检测领域中,现在的研究大部分是基于计算机视觉的主流框架的。
5.尽管各种各样的深度学习的模型和方法在目标检测领域已经被提出来,但是这些方法首先都需要大规模、多样化的数据集来训练深度神经网络模型,尤其在军事领域中,现实情况可能不会允许我们能收集到那么多新的带有大量手工注释的sar数据,比如敌方的飞机坦克等;其次这些方法都需要大量时间在收集的新的数据集上重新训练它们的参数。
如果为了符合现实情况从样本量丰富的数据集中去抽取少量标注样本来训练网络模型的话,很容易出现过拟合现象,模型的泛化能力大大降低。所以,为了符合军事领域中只能从敌方获得的少量敌军sar目标图像,急需一种特殊的学习机制来从少量的新类样本中学习到一定的特征知识。
技术实现要素:6.为解决上述问题,本发明提供了如下的技术方案。
7.一种基于轻量化元学习的sar图像小样本目标检测方法,包括以下步骤:
8.构建sar图像的小样本目标检测模型,其包括轻量化元特征提取器模块、基于transformer的元特征聚合模块、特征重加权模块和三个预测层;
9.将darknet53中每个block里面的3
×
3卷积替换为mobilenetv3的深度可分离卷积,近似残差的结构改成和mobilenetv2一样的具有线性瓶颈的逆残差结构,并引入se模块,构建轻量化元特征提取器模块;
10.根据轻量化元特征提取器模块,从输入的待预测sar图像中提取出三个不同尺度的查询元特征;
11.将带有标签的新类目标样本的支持图像输入到特征重加权模块中,输出三组与查询图像元特征对应的重加权向量;
12.构建基于transformer编码器的元特征聚合模块;将查询元特征和重加权向量通过元特征聚合模块重新校准;
13.通过三个预测层分别对校准后的查询元特征和重加权向量进行预测,获得sar图像中的新类目标。
14.优选地,还包括:
15.构建基类训练集和新类训练集;基类训练集和新类训练集包括多个子集,每个所述子集包括一组来自同一类集的查询图像和一组带有标签并同一类集每类一个的支持图像;
16.通过基类训练集对sar图像的小样本目标检测模型进行训练,输出sar 图像的小样本目标检测的基本模型;
17.通过新类训练集对sar图像的小样本目标检测的基本模型进行训练,输出最终的sar图像的小样本目标检测模型。
18.优选地,还包括:
19.将focal loss函数作为sar图像的小样本目标检测模型训练时的分类损失函数。
20.优选地,所述轻量化元特征提取器模块的构建,包括以下步骤:
21.所述轻量化元特征提取器模块基于darknet53,将darknet53中每个 block里面的3
×
3卷积全部替换为mobilenetv3里使用的深度可分离卷积;将深度可分离卷积结构中使用h-swish激活函数代替深度卷积里的swish函数;
22.引入mobilenetv3里使用的se模块;将se模块中的expansion layer 的channel变为原来的1/4;将se模块中的h-sigmoid代替sigmoid;所述 se模块加在每个block里的深度卷积之后,点卷积之前;
23.将darknet53的block里近似残差的结构改成和mobilenetv2一样的具有线性瓶颈
的逆残差结构,即先利用1
×
1卷积进行升维,再进行深度可分离卷积降维,并具有残差边。
24.优选地,所述重加权模块为轻量级cnn的重加权模块。
25.优选地,所述将查询元特征和重加权向量通过元特征聚合模块重新校准,包括以下步骤:
26.所述元特征聚合模块通过transformer encoder和信道乘积构成;
27.将n个目标类别的支持图像样和其标签将输入到重加权模块中,每次输入的一组支持图像都是从支持集中随机从这n类中抽取一张支持图像ij和标签mj所构成;
28.在经过重加权模块后,其被映射成一组特征向量,每类一个,表示为v
ij
= m(ij,mj);
29.将这组特征向量经过transformer encoder模块进行重新编码,得到v'
ij
,表示为v'
ij
=e(v
ij
);
30.由轻量化元特征提取器模块提取出的三组查询图像元特征fi同样通过 transformer encoder模块进行编码之后得到f'i,表示为f'i=e(fi),将其通过信道乘积最后得到3组要输出到预测层进行预测的特征映射:
[0031][0032]
优选地,还包括:
[0033]
通过diou-nms作为抑制准则对目标预测结果进行后处理。
[0034]
本发明的有益效果:
[0035]
本发明引入了最新光学遥感领域的fsodm方法作为基准框架;其次,为迎合sar图像的独有特性和提升检测时效性,设计了一种轻量化的骨干,称为轻量化元特征提取器模块darknets;进一步地,构建了一种新的支持特征和查询特征的聚合模块,称为aggregations,该模块通过transformer将其编码到同一特征空间中,再通过信道乘法将特征聚合,这种设计可以更好提取出支持集里不同类之间的关联性与显著性,以及提高查询集在支持集里做查询时的准确性,减少误分类,让在大量基类数据集里学习到的知识更好的泛化,增强对新类的检测识别率。
[0036]
本发明构建了新的sar图像的小样本目标检测模型,解决了sar图像军事领域中的小样本目标检测实际问题,为军事领域中识别检测敌军难以获取的军事目标提供了有效的方法。
附图说明
[0037]
图1为fsods模型总体结构示意图;
[0038]
图2为sar图像小样本目标检测基本思路示意图;
[0039]
图3为深度可分离卷积示意图;
[0040]
图4为se模块流程图;
[0041]
图5为transformer encoder结构图;
[0042]
图6为四类目标示意图,图(a)、(e)为ship,(b)、(f)为airplane,(c)、(g) 为oil-tank,(d)、(h)为bridge。
具体实施方式
[0043]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0044]
实施例1
[0045]
本发明的一种基于轻量化元学习的sar图像小样本目标检测方法。图2 给出了sar图像小样本目标检测方法的基本思路,包含两个阶段:基类训练阶段和新类微调阶段。在训练阶段,模型在易获取的带有大量标注的基类 sar数据集上进行训练,然后在新类sar数据微调阶段,从基类学习到的元知识能应用在只带有少量标注的新类sar数据上,只需少量微调训练几次,就能其快速收敛,并识别新类,达到一定性能。如图1为模型的流程示意图,目标检测过程具体包括以下步骤:
[0046]
s1:构建sar图像的小样本目标检测模型模型fsods,包括轻量化元特征提取器模块darknets、基于transformer的元特征聚合模块aggregations、重加权模块和三个预测层。
[0047]
s2:将darknet53中每个block里面的3
×
3卷积替换为mobilenetv3的深度可分离卷积,近似残差的结构改成和mobilenetv2的逆残差结构,并引入se模块,构建轻量化元特征提取器模块;根据轻量化元特征提取器模块,从输入的待查询sar图像中提取出三个不同尺度的查询元特征。
[0048]
s3:将带有标签的新类目标样本的支持图像输入到重加权模块中,输出三组与查询图像对应的重加权向量。
[0049]
s4:构建基于transformer的元特征聚合模块;将查询元特征和重加权向量通过元特征聚合模块重新校准,将来自查询集里样本的特征和支持集里样本的特征重新编码到相同的特征空间中,并突出每类的重要元特征以及每类之前的特征差异,这些元特征在对查询图像进行检测目标时信息是更加有效的。
[0050]
s5:通过三个预测层分别对校准后的查询元特征和重加权向量进行预测,获得新类目标预测结果。
[0051]
具体的:
[0052]
1、轻量化的元特征提取器darknets
[0053]
本发明重新设计了一种轻量化元特征提取器,称为darknets,它可以从输入的查询图像中提取出三个尺度的查询元特征。与fsodm使用darknet53 作为元特征提取器不同的是,本发明从实际工程应用和轻量化的角度出发,由于darknet提取的参数量和计算的flops过大,不利于真正实际应用中移植到嵌入式设备上,并且网络参数量的过大很容易造成训练样本过拟合,尤其在小样本这种样本数量过于悬殊的设定下,因此本发明在darknet53的基础上,借鉴mobilenetv3并针对sar图像的特性,重新对其进行轻量化设计,本发明称其为darknets。
[0054]
darknets首先将darknet53中每个block里面的3
×
3卷积全部替换为 mobilenetv3里使用的深度可分离卷积。通道分离卷积是mobilenet系列的主要特点,也是其发挥轻量级作用的主要因素。如图3,通道可分离卷积分为两个过程:1.channel方向通道可分离卷积;2.正常的1
×
1卷积输出指定的channel数。
[0055]
其次,darknets也引入了mobilenetv3里使用的se通道注意力模块,该模块的核心思想是通过显示地建模网络卷积特征通道之间地相互依赖关系,以提高网络所产生地质量。具体来说,就是通过学习来自动获取到每个特征通道地重要程度,然后依照这一结果去提升有用的特征并抑制对当前任务用处不大的特征。所以,通过该模块,网络可以学习全局信息来选择性地强调sar图像中的信息性特征,并抑制不太有用地sar图像噪声特征。值得注意的是,这里的se模块相比于传统的se模块利用1
×
1卷积实现的fc 操作,本质上和fc是一样的,并且利用计算量更小的h-sigmoid代替sigmoid 操作:
[0056][0057]
因为se结构会消耗一定的时间,所以本发明在含有se的结构中,将 expansion layer的channel变为原来的1/4,这样即提高了精度,同时还没有增加时间消耗。本发明提出的fsodms模型同样将改进后地se模块加在每个block里的深度卷积之后点卷积之前。se模块具体操作流程如图4所示。
[0058]
并且本发明同样在fsodm的深度可分离卷积的结构中使用h-swish激活函数代替深度卷积里的swish函数,减少运算量,提高性能。h-swish并表示如下:
[0059]
h-swish=x
·
h-sigmoid
ꢀꢀꢀ
(2)
[0060]
最后,本发明将darknet53的block里近似残差的结构改成和 mobilenetv2一样的具有线性瓶颈的逆残差结构(the inverted residual withlinear bottleneck),即先利用1
×
1卷积进行升维,再进行深度可分离卷积降维,并具有残差边。mobilenetv2是将bottleneck结构变成了纺锤型,即resnet 是先缩小为原来的1/4,再放大,他是放大到原来的6倍,再缩小。而由于计算资源有限,本发明的fsods是先放大原来的4倍,再缩小。总体的 darknets如表1所示。
[0061]
表1 darknets网络结构细节
[0062]
[0063][0064]
2、特征聚合模块:aggregations
[0065]
基于transformer的元特征聚合模块是用来聚合两组元特征。一组是通过轻量级cnn的重加权模块从带有标签的支持图像中提取到支持元特征,它将每个支持图像映射到一组重加权向量,每类对应一个重加权向量。另一组是通过本发明的darknets从查询图像中提取出来的查询元特征,重加权向量将用于调整从查询图像中提取的查询元特征,突出每个查询特征的有用信息,从而更有利于在查询图像进行目标查询。
[0066]
假设本发明有n个目标类别的支持图像样本,这n个支持图像和其标签将输入到特征重加权模块里。每次输入的一组支持图像都是从支持集中随机从这n类中抽取一张支持图像ij和标签mj所构成。在经过特征重加权模块后,其被映射成一组特征向量,每类一个,表
示为v
ij
=m(ij,mj),接着这组特征向量经过本发明设计的图5所示的transformer encoder模块进行重新编码,得到v'
ij
,表示为v'
ij
=e(v
ij
)。由darknets提取出的三组查询图像元特征 fi同样通过transformer encoder模块进行编码之后得到f'i,表示为f'i=e(fi)。因为每个重加权向量与相应的元特征具有相同的维度,所以接着本发明再将其通过信道乘积最后得到3组要输出到预测层进行预测的特征映射:
[0067][0068]
如图1所示transformer encoder和信道乘积构成了本发明fsodms的 aggregations模块。transformer encoder block可以捕获全局信息和丰富的上下文信息。每个transformer encoder block包含2个子层。第1子层为 multi-head attention layer,第2子层(mlp)为全连接层。每个子层之间使用残差连接。transformer encoder block增加了捕获不同局部信息的能力。它还可以利用自注意力机制来挖掘特征表征潜能。因此本发明设计的aggregations 模块可以突出sar图像里目标的特征信息,减弱图像背景里的噪声信息,并且捕获不同类之间的类间关联,大大减少了相似类的误分类,增强了对新类的知识泛化。
[0069]
3、focal loss
[0070]
小样本目标检测最大的问题通常就是样本不均衡,基类和新类的数量往往差的很多,所以通常经典检测算法训练出来的模型往往容易过拟合并且泛化能力很弱,因此本发明为了缓解这种样本不均衡,泛化能力弱的问题,本发明将fsodm里原本用交叉损失熵作为分类损失的函数更换为focal loss 函数。focal loss就是专门为一阶段检测算法设计的,将易区分负例的loss 权重降低,使得网络不会被大量的负样本带偏。focal loss函数的公式如下所示:
[0071]
fl(pt)=-(1-p
t
)
γ
log(p
t
)
ꢀꢀꢀ
(4)
[0072]
其中:
[0073][0074]
γ为常数,当其为0时,fl就和普通的交叉熵损失函数相同。
[0075]
4、diou-nms
[0076]
本发明的fsodm为了在后处理端预测更加准确,将传统的nms替换成diou-nms。因为在传统nms中,iou指标常用于抑制冗余检测盒,其中重叠区域是唯一因素,对于遮挡情况经常产生错误抑制。iou公式表示如下:
[0077][0078]
其中:
[0079]bgt
=(x
gt
,y
gt
,w
gt
,h
gt
)
ꢀꢀꢀ
(7)
[0080]
代表的是真实框。
[0081]
而diou-nms将diou作为nms的准则,因为在抑制准则中不仅应考虑重叠区域,而且还应考虑两个box之间的中心点距离,而diou就是同时考虑了重叠区域和两个box的中心距离。对于score最高的预测box m,可以将diou-nms的si公式定义为:
[0082][0083]
5、训练和推理
[0084]
为了满足在小样本目标检测设定下训练,在本发明的fsods训练时,训练集被本发明重新划分,分成了支持集(s)和查询集(q)两个子集。其中支持集是按训练集里的目标类别进行划分。如果训练集里有n类目标,则本发明将其分为n组,i=1,2,3,
…
,n。每个支持图像都会带着自己的真实标签输入。支持集如下公式表示:
[0085][0086]
查询集为包含一组查询图像及其标注(a):
[0087]
q={(i,a)}
ꢀꢀꢀ
(10)
[0088]
训练集划分成很多这样的集,每一个可以表示为:
[0089]ej
=qj∪sjꢀꢀꢀ
(11)
[0090]
查询图像和支持图像分别输入到图1所示的特征提取器和重加权模块里。
[0091]
在小样本目标检测的设定下,本发明需要从数据集中选定某些类作为小样本类也就是新类,所以数据集将被本发明人为假设的划分为基类和新类。基类的样本不做削减,保持原来有着大量标签训练的状态。基类数据在本发明的模型上训练出一个性能比较好的基本模型,然后开启新类,在新类上开启新的训练任务,新类是从原始的数据中随机抽取的少数几个带有标签的样本,用来作为现实设定的小样本类,只能获取这么多的样本。
[0092]
因此,本发明的训练过程可以分为两步:第一步是在有着大量数据的基类上进行训练,时间将会较长,在后续的训练中本发明不需要再重新在基类上训练一遍;第二步是在第一步的基础上,用训练出的模型开启新类,只需要训练很少的训练次数就能达到较好的性能。
[0093]
6、数据集
[0094]
本发明在一个公共基准sar目标检测数据集上和一些非公开的sar目标检测数据集上评估了本发明的模型性能,并且本发明将本发明提出的 fsods和fsodm以及经典模型yolov3进行了比较,都显示出了fsods 性能的优越性。
[0095]
本次评估的公开sar目标检测数据集是即将发布的sar数据集 smcdd,其数据都是我国首颗商用合成孔径雷达卫星采集而来。中国电子科技集团公司第38研究所、长沙天仪空间科学技术研究院有限公司等单位一起参与研制了hisea-1卫星。hisea-1卫星就一直能够提供稳定的数据服务,hisea-1卫星不仅能执行多项成像任务而且能够为本发明提供稳定的数据服务,在此前本发明已经获得了两千多张条纹图像、七百多张聚焦图像和以及300张左右的扫描图像。其中,本发明采用了hisea-1捕获的sar 在复杂场景下的大图数据来构建smcdd数据集的切片数据。本发明最后选取了包括:ship、airplane、bridge and oil-tank四种目标类型数据。为了方便训练和测试评估,本发明将大图分割成256、512、1024和2048个尺寸的小图。数据集最终通过本发明课题组的共同筛选和清洗以后,最后包含了1851座桥梁,39858艘船舶,12319个油罐,6368架飞机。smcdd数据集四类样例如图6所示。除了公开的数据集,本发明还在未公开的sar目标检测数据集上验证了本发明的模型在近似类型目标上检测的有效性,本发明选取了公开的海思数据集里的民船和未公开的数据里的
某种军舰组成了一个新的数据集,称为sfsd。此外,本发明还选取了公开的海思数据集里的民船和未公开数据集的坦克和装甲车构成另一个新的数据集,本发明称为tfsd。
[0096]
7、实验设置
[0097]
为了评估本发明的fsods模型在sar图像上的小样本情况下的目标检测性能,本发明从即将公开的数据集smcdd四类数据里总共随机抽取了 825张图片构成小样本数据集smcdd-fs,并结合每类的照片的数量大致按照7:3的比例将其随机划分成训练集和验证集。训练集有572张sar图像,验证集里有253张sar图像。图像大小基本上为256
×
256,也有少数桥梁为1024
×
1024和2048
×
2048。并且本发明结合数量以及之前实验室在此数据集上的做的实验考虑,飞机目标的图片数量最少,并且基本上在图上大小仅为几个像素点大小,非常密集,一张256
×
256大小的图上可能甚至有几百架飞机,所以在基准上的性能并不是特别好,所以本次在smcdd-fs数据集里选取飞机作为小样本类,船、油箱、桥梁作为基类训练。而由公开数据集和非公开数据集组成的数据集sfsd和tfsd里本发明均选取了民船作为基类,军舰作为sfsd里的新类,坦克和装甲车作为tfsd里的新类。
[0098]
本发明在小样本条件下的识别检测能力明显优于其它经典检测模型,提升了小样本目标检测的精度。本方法的轻量化设计为本模型部署到机载或星载提供了可能性。
[0099]
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。