一种基于卷积神经网络的遥感图像目标检测方法与流程

文档序号:17741860发布日期:2019-05-24 20:12阅读:464来源:国知局
一种基于卷积神经网络的遥感图像目标检测方法与流程

本发明涉及图像处理、计算机视觉技术领域,尤其涉及一种基于卷积神经网络的遥感图像目标检测方法。



背景技术:

作为遥感图像分析领域的研究热点,目标检测旨在从大规模遥感图像中快速定位特定目标,被广泛应用于交通管理、城市规划、以及军事监控等领域,具有重要的应用价值。近年来,随着深度学习理论研究的突破,深度学习网络初步应用于遥感图像目标检测领域。深度学习网络简化特征在设计过程的同时显著提升了目标检测方法的特征提取性能,增强了检测方法的实用性与有效性。目前图像处理领域中,卷积神经网络(convolutionalneuralnetwork,cnn)为使用最广泛的深度学习网络,其根据所提供的目标与损失函数自适应调整网络参数,具有自动提取语义信息丰富、判别能力强的特征,能有效改善特征提取性能。随着遥感图像成像技术的进步,遥感图像中丰富的图像信息不仅为cnn的应用奠定了数据基础,还给cnn的特征提取过程提出了的挑战。遥感图像丰富的场景信息干扰了cnn的特征提取过程。因此,如何处理好遥感图像中背景和目标特征的关系,改善cnn的特征提取性能,获得了更多的关注。

fang等人提出一体化的cnn分类网络,利用cnn实现图像特征提取,并结合归一化指数函数(softmax)层完成遥感图像的场景分类任务。li等人利用两个独立的cnn网络分别完成遥感图像场景识别和目标检测的任务,实现了由粗到细的遥感图像目标检测。zhao等人利用cnn网络完成对飞机目标关键点的坐标回归任务,由网络对关键点坐标进行预测,从而完成目标种类识别的任务。cheng等人通过在cnn中加入一层旋转不变层实现遥感图像多方向目标的特征提取。zhang等人提出了双联合cnn检测方法,对目标候选区域进行提取并实现目标精确检测,不断缩小目标待检测区域并提升遥感目标检测精度。zou等人提出了基于目标先验概率的检测框架用于遥感图像的目标检测,其通过最大化训练样本与观测值的后验概率自适应地更新检测网络。

发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:

现有的基于cnn的遥感图像目标检测方法仅针对目标特性进行处理,并未充分考虑到遥感图像中复杂背景与目标特征的混淆问题;现有方法在利用显著性信息时通常将显著性检测作为预处理或后处理过程,网络无法根据显著性信息有效地调整模型参数。



技术实现要素:

本发明提供了一种基于卷积神经网络的遥感图像目标检测方法,本发明通过对cnn的网络结构及特征图进行深入研究,设计一种双分支卷积神经网络以及损失函数,自适应提取有效的显著性信息,增强目标区域特征,抑制背景干扰,改善cnn在遥感图像复杂场景中的特征提取性能,提升目标检测的精度,详见下文描述:

一种基于卷积神经网络的遥感图像目标检测方法,所述方法包括:

构建由目标检测分支网络和显著性重建分支网络组成的双分支卷积神经网络,所述卷积神经网络用于增强目标区域的特征;

分别构建像素级以及目标级损失函数,在两个损失函数的共同约束下对所述卷积神经网络进行训练,促使卷积神经网络在特征提取过程中增强目标区域的特征;

通过截断型vgg与显著性重建分支网络联合完成显著性信息的自适应提取,通过截断型vgg与目标检测分支网络共同完成目标的定位与分类。

其中,所述目标检测分支网络为多尺度特征图网络结构,包括:5层卷积层,以及5层非线性层,每一卷积层的设置均相同。

进一步地,所述显著性重建分支网络包括:13层卷积层、13层非线性层、5层基于池化索引的上采样层,

每层非线性层均接在卷积层后,且分别在输入特征、非线性层relu5_3u、relu4_3u、relu3_3u、和relu2_2u后设置上采样层;

最后一层卷积层的输出设置为双通道,分别用于计算重建图像中每一像素属于显著性区域和背景的置信度,与对应的标签c进行比较并计算像素级损失

其中,目标检测分支网络和显著性重建分支网络的公共部分由截断型vgg构成,用于提取目标区域增强的特征。

进一步地,所述截断型vgg结构由vgg-16中除三层全连接层以外的其他层构成。

其中,所述像素级损失函数用于引导网络训练,将显著性检测结果作为标签使网络自适应学习有效的显著性信息,优化显著性信息的提取过程。

其中,所述在两个损失函数的共同约束下对所述卷积神经网络进行训练具体为:

训练阶段,输入图像为遥感图像,显著性图像设置为像素级损失函数对应的标签,图像中待检测目标的坐标类别信息设置为目标级损失函数所需的标签。

具体实现时,网络训练所采用的总损失函数为:

其中,α为像素级损失函数的权重因子。

进一步地,所述方法还包括:

在训练时采用imagenet上训练好的vgg-16作为预训练网络,利用实验数据集继续训练,损失函数的优化采用随机梯度下降法。

进一步地,所述方法还包括:

在检测阶段舍弃网络中的显著性重建分支,即去除显著性重建分支网络的所有层。

本发明提供的技术方案的有益效果是:

1、本发明设计了一个双分支卷积神经网络和一种综合了像素级与目标级损失的总损失函数,可以自适应提取有效的显著性信息;

2、本发明有效抑制特征图中背景干扰的同时增强目标区域特征,提升检测方法的特征提取性能与检测精度;

3、本发明在目标检测阶段去除辅助训练的显著性重建分支,不增加额外参数,满足遥感图像目标检测对于检测方法实时性与高精度的要求,实用性较高。

附图说明

图1给出了本发明提供的一种基于卷积神经网络的遥感图像目标检测方法的流程图;

图2为多尺度特征图网络的结构示意图;

图3为显著性重建分支网络的结构示意图;

图4为截断型vgg的结构示意图;

图5为预定义缺省框对目标进行定位和分类的原理示意图;

图6为本发明的检测结果示例图;

图7给出了本发明与其他方法的对比实验结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提出了一种基于卷积神经网络的遥感图像目标检测方法,该方法构建了双分支卷积神经网络,并设计了像素级和目标级损失函数,用于自适应提取显著性信息,增强目标区域的特征图,完成目标检测的任务,参见图1,主要包括以下步骤:

101:构建由目标检测分支网络和显著性重建分支网络组成的双分支卷积神经网络,该卷积神经网络用于增强目标区域的特征;

102:分别构建像素级以及目标级损失函数,在两个损失函数的共同约束下对卷积神经网络进行训练,促使卷积神经网络在特征提取过程中增强目标区域的特征;

103:通过截断型vgg与显著性重建分支网络联合完成显著性信息的自适应提取,通过截断型vgg与目标检测分支网络共同完成目标的定位与分类。

其中,步骤101中的目标检测分支网络为多尺度特征图网络结构,包括:5层卷积层,以及5层非线性层,每一卷积层的设置均相同。

进一步地,步骤101中的显著性重建分支网络包括:13层卷积层、13层非线性层、5层基于池化索引的上采样层,

每层非线性层均接在卷积层后,且分别在输入特征、非线性层relu5_3u、relu4_3u、relu3_3u、和relu2_2u后设置上采样层;

最后一层卷积层的输出设置为双通道,分别用于计算重建图像中每一像素属于显著性区域和背景的置信度,与对应的标签进行比较并计算像素级损失

其中,目标检测分支网络和显著性重建分支网络的公共部分由截断型vgg构成,用于提取目标区域增强的特征。

进一步地,截断型vgg结构由vgg-16中除三层全连接层以外的其他层构成。

综上所述,本发明实施例设计了一个双分支卷积神经网络和一种综合了像素级与目标级损失的总损失函数,可以自适应提取有效的显著性信息。

实施例2

下面结合具体的计算公式、图2-图5、以及实例对实施例1中的方案进行进一步地介绍,详见下文描述:

一、双分支卷积神经网络设计

本发明实施例所提出的双分支卷积神经网络由两个分支构成,分别是目标检测分支网络和显著性重建分支网络。该双分支卷积神经网络旨在增强目标区域的特征,同时在像素级和目标级损失函数引导下进行训练,从而实现有效的特征提取,提升方法的检测性能。

1、目标检测分支网络

根据所提取的目标区域增强的特征,目标检测分支网络用于依据预定义的缺省框完成对遥感图像中多尺度目标的定位与分类任务。其为多尺度特征图网络结构,由5层尺度不断减小的特征图构成。

参见图2,多尺度特征图网络具体结构为5层卷积层:conv6~conv10,以及5层非线性层:relu6~relu10。卷积核大小均设置为3,步长设置为2,填充设置为1,通道数设置为256。该分支在目标级损失函数的引导下完成训练,调整参数以实现目标空间位置的定位和类别的分类。

2、显著性重建分支网络

由于显著性区域通常覆盖主要的目标区域,可有效抑制遥感图像中的背景干扰并增标区域特征,本发明实施例采用显著性信息作为网络训练时的辅助信息,并构造显著性重建分支网络提取显著性信息。显著性重建分支网络用于通过目标区域增强的特征提取显著性信息。此分支网络由13层卷积层及其它层构成。

参见图3,显著性重建分支网络具体结构为:13层卷积层conv5_3u~conv1_1u、13层非线性层relu5_3u~relu1_1u、5层基于池化索引的上采样层upsample1~upsample5。每层非线性层均接在卷积层后,且分别在输入特征、非线性层relu5_3u、relu4_3u、relu3_3u、和relu2_2u后设置上采样层。最后一层卷积层conv1_1u的输出设置为双通道,分别用于计算重建图像c中每一像素属于显著性区域和背景的置信度,并与对应的标签进行比较并计算像素级损失

两个分支网络的公共部分由截断型vgg构成,用于提取目标区域增强的特征。基于牛津大学视觉几何研究组所提出的著名16层网络:vgg-16(visualgeometrygroupnetwork-16),截断型vgg结构由vgg-16中除三层全连接层以外的其他层构成。

参见图4,该截断型vgg具体结构为:conv1_1~conv5_3的13层卷积层、relu1_1~relu5_3的13层非线性层、以及pooling1~pooling5的5层池化层。对应层的尺寸、步长(stride)、填充(padding),通道数(channel)等参数均与vgg-16保持一致。

二、像素级损失函数设计

采用显著性信息可有效抑制背景干扰并增强目标区域特征,有利于提高对于目标的识别能力。为了结合显著性信息,本发明实施例将显著性提取问题转化为二值语义分割问题,并构造像素级损失函数引导网络训练,将显著性检测结果作为像素级损失函数所需的标签使网络自适应学习有效的显著性信息,优化显著性信息提取过程。

像素级损失函数由softmax损失函数构成。首先,将显著性重建分支网络的显著性重建结果c(尺度为w×h)输入softmax层并获取概率图输出:

其中,pi(k)表示重建结果c中第i个像素的第k个通道的softmax概率值,ci(k)为c中第i个像素第k个通道的像素值。

其次,将pi(k)加入的计算,获得像素级损失用于引导网络参数的调整。计算公式如下:

其中,w为重建结果c的宽;h为c的高;为标签中像素值。

三、目标级损失函数设计

针对遥感图像中大小不同的待检测目标,本发明实施例采用缺省框检测机制进行检测。

1)首先,本发明实施例根据目标检测分支网络中多尺度特征图conv6、conv7、conv8、conv9、conv10的感受野大小预定义多长宽比与多尺度的缺省框。本发明实施例利用预定义缺省框对目标进行定位和分类的原理参见图5。cnn特征图中任一像素包含了上层特征图中卷积核内若干像素的加权求和结果,因此输入图像中某一局部区域(感受野)信息可利用特征图中某一对应像素进行特征表示。基于此机制,图像中处于感受野内部的待检测目标信息可以被相应特征图中的像素特征向量捕获。因此,本发明在输入图像中预定义若干缺省框n,并在目标检测分支网络中,利用3×3卷积提取缺省框在特征图conv6~conv10上的对应像素的特征向量,依据此特征向量对缺省框包含的目标o进行定位l与分类v。所有尺度特征图的像素预测结果级联形成预测向量,即可获得最终的检测结果。

2)其次,综合smoothl1和softmax两个损失函数构造目标级损失函数用于引导网络的训练。

3)最后,根据缺省框与训练图像中目标的关系定义对应的标签,用于完成对网络的训练。

其中,中smoothl1和softmax两个损失函数分别用于引导回归网络和分类网络的训练。

训练样本目标对应的预定义缺省框记为n=(l,v),其中缺省框的预测坐标l与其包含的目标坐标之间的损失利用smoothl1计算。如下式:

其中,缺省框对目标的预测类别v与其包含的目标实际类别之间的损失利用下式所示的softmax损失函数进行计算:

其中,c为类别总数,i(·)为指示函数。所设计的目标级损失函数为上述两个损失函数(即公式(3)和公式(5))的加权和,即:

其中,|n|表示参与训练的缺省框n的个数,β为权重因子,设置为1。

四、双分支网络的训练

本发明实施例所提出的双分支卷积神经网络在像素级损失函数和目标级损失函数的共同约束下进行训练,促使网络在特征提取过程中增强目标区域特征。本发明实施例设计的总损失函数综合了两级损失函数(即公式(2)和公式(7))的结果,用于引导网络的参数调整。

训练阶段,输入图像为遥感图像,显著性图像设置为像素级损失函数对应的标签,图像中待检测目标的坐标类别信息设置为目标级损失函数所需的标签。

其中,网络训练所采用的总损失函数公式如下:

其中,α为像素级损失函数的权重因子,设置为0.01。

为了避免过拟合问题,本发明实施例在训练时采用imagenet上训练好的vgg-16作为预训练网络,在此基础上利用实验数据集继续训练。损失函数的优化采用随机梯度下降方法(stochasticgradientdescent,sgd),批尺寸(batchsize)设定为8,动量(momentum)设定为0.9,正则项因子(weightdecay)设定为0.0005。训练学习率设定为0.0001,每10000次迭代下降10倍。

五、目标的定位及类别判断

在本发明实施例所提的双分支卷积神经网络中,截断型vgg与显著性重建分支网络联合完成显著性信息的自适应提取,而目标定位与分类任务可由截断型vgg与目标检测分支网络共同完成。

考虑到目标检测的任务在于目标的定位以及目标类别的判断,仅需要截断型vgg与目标检测分支网络。同时截断型vgg和目标检测分支网络经训练已具备提取显著性信息的能力。因此,为了减少网络参数、保证检测速度,本发明实施例在检测阶段舍弃网络中的显著性重建分支,即去除显著性重建分支网络的所有层:

conv5_3u~conv1_1u、relu5_3u~relu1_1u、upsample1~upsample5。

综上所述,本发明实施例提供了一种基于卷积神经网络的遥感图像目标检测方法,该方法自适应提取有效的显著性信息,增强目标区域特征,抑制背景干扰,改善cnn在遥感图像复杂场景中的特征提取性能,提升目标检测的精度。

实施例3

下面结合图6和图7对实施例1和2中的方案进行可行性验证,详见下文描述:

本发明实施例利用平均精度均值(meanaverageprecision,meanap)评估网络的性能,并根据此评价指标选择训练最充分、性能最佳的网络。在任意一类目标检测的过程中,检测方法预测结果中正确检测到的目标数量与所有预测结果数量的比值由查全率(precision)表示,被正确检测的目标占所有待检测目标的比例则由查准率(recall)体现。平均精度(averageprecision,ap)综合了查全率与查准率的结果给出了对方法检测性能的评估。meanap则计算在多类目标检测的ap均值,反映了检测方法的平均性能。

图6给出了本方法在高分辨率遥感图像数据集nwpuvhr-10上的可视化检测结果。图6中,检测框左上角数字代表检测方法给出的目标类别预测结果:2-船舶、3-油罐、5-网球场、6-篮球场、7-田径场。由图6可知,即使在遥感图像背景复杂、条件多样化的情况下,本方法仍能够较有效地定位目标的位置并确定目标类别。

图7给出了本发明实施例提出的检测网络与其他遥感图像目标检测方法的性能对比。由图7可见,在与其他检测方法的对比中,由于本方法充分利用了显著性信息因此获得了最高的meanap值0.781,验证了本方法的有效性。

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1