基于扩大感受野的红外目标检测方法

文档序号:28383240发布日期:2022-01-07 23:26阅读:149来源:国知局
基于扩大感受野的红外目标检测方法

1.本发明属于红外目标检测领域,具体涉及一种基于扩大感受野的红外目标检测方法。


背景技术:

2.目标检测作为计算机视觉和数字图像处理的基本问题之一,是其它许多计算机视觉任务后续处理的基础,例如实例分割、图像理解、目标跟踪等。红外系统利用红外探测器感知物体的红外辐射来获取信息,具备全天候工作、隐蔽性好、易穿透烟尘、抗噪声能力强的特点。目前,红外场景下的目标检测在自动驾驶、视频监控、军事等领域都具有重要的应用。
3.由于红外图像缺乏颜色和纹理信息,信噪比和对比度较低、背景噪声严重且分辨率低等缺陷,导致传统算法以手工设计的特征对红外目标进行识别的误检率较高,鲁棒性较差。近年来,基于深度学习的两阶段算法逐步提高了检测的精度,但计算量的增加也在一定程度上造成了检测速度的下降,越来越多的实际应用场景在保证一定检测精度的条件下,对检测速度的要求越来越高。两阶段检测任务可以分解为两个单阶段检测任务,第一阶段任务完成候选框生成、对候选框做背景与目标的判断以及对边界框位置做初步的回归,第二阶段任务实现对候选框最终的类别预测以及预测框最终的位置回归。单阶段检测算法在单个阶段内完成两个任务,直接对候选框预测目标所属类进行分类预测和边界框预测,因此研究基于单阶段的红外目标检测方法意义重大。


技术实现要素:

4.有鉴于此,本发明的主要目的在于提供一种基于扩大感受野的红外目标检测方法。
5.为达到上述目的,本发明的技术方案是这样实现的:
6.本发明实施例提供一种基于扩大感受野的红外目标检测方法,该方法为:
7.构建用于提取特征的基础网络结构;
8.将图像输入所述基础网络结构,经过多个卷积层逐层卷积,在不同的卷积层分别获得图像的低层特征图和高层特征图;
9.通过在低层特征分支后添加设计构建的感受野模块rfb-d与rfb-w进行处理来扩大感受野,获得语义信息丰富的低层特征图;
10.对所述语义信息丰富的低层特征图和高层特征图分别预测该特征图上每个网格对应的每个预测框所属的分类与边界框;
11.通过非极大值抑制算法合并边界框,输出整个网络最终的预测结果。
12.上述方案中,所述构建用于提取特征的基础网络结构,具体为:以mobilenet为基础,通过重复堆叠多个不同的深度可分离卷积模块进行构建,输入图像经过3
×
3的标准卷积层进行下采样,然后卷积前进方向上叠加13个深度可分离卷积模块dws,深度可分离卷积
模块中,深度卷积对输入特征图的每个通道都单独使用不同的卷积核来进行特征提取,逐点卷积用来改变输出通道的数量来对信息进行跨通道整合。
13.上述方案中,所述将图像输入所述基础网络结构,经过多个卷积层逐层卷积,在不同的卷积层分别获得图像的低层特征图和高层特征图,具体为:将输入图像经由深度卷积模块dws处理得到的dws11和dws13的输出矩阵作为图像的低层特征图;在深度卷积层dws13后再直接添加4个额外的卷积层c14、c15、c16、c17,其中该四层每一层的输出作为图像的高层特征图。
14.上述方案中,所述通过在低层特征分支后添加设计构建的感受野模块rfb-d与rfb-w进行处理来扩大感受野,获得语义信息丰富的低层特征图,具体为:将低层特征图经rfb-d进行处理,获得4个分支的输出结果对应级联,并且在通道维度上进行拼接后通过rfb-w模块进行处理,获得语义信息丰富的低层特征图。
15.上述方案中,所述将低层特征图经rfb-d进行处理,获得4个分支的输出结果对应级联,具体为:rfb-d模块共有4个分支结构,对于上一层输入:
16.(1)分支1经过1
×
1的卷积层产生输出;
17.(2)分支2经过1
×
1的卷积层降低通道的维度,在卷积层后添加3
×
3空洞率为1的膨胀卷积;
18.(3)分支3先经过1
×
1的卷积层降低通道维度,再将3
×
3的卷积层分解为级联的1
×
3和3
×
1的卷积操作,并添加3
×
3空洞率为2的膨胀卷积;
19.(4)分支4先经过1
×
1的卷积层降低通道维度,再将5
×
5的卷积层分解为3
×
3的两个级联卷积层,并进一步分解为1
×
3和3
×
1的卷积层,并添加3
×
3空洞率为4的膨胀卷积;
20.将以上4个分支的输出结果对应级联,最后在通道维度上进行拼接,输入下一个rfb-w模块。
21.上述方案中,将通过rfb-w模块进行处理,获得语义信息丰富的低层特征图,具体为:rfb-w模块共有4个分支结构,对于上一层输入:
22.(1)分支1经过1
×
1的卷积层产生输出;
23.(2)分支2经过1
×
1的卷积层,并在卷积层后添加3
×
3空洞率为1的膨胀卷积;
24.(3)分支3先经过1
×
1的卷积层降低通道维度,再将3
×
3的卷积层分解为并联的1
×
3和3
×
1的两个卷积分支,并分别在两个卷积分支后添加3
×
3空洞率为2的膨胀卷积,生成两个输出结果;
25.(4)分支4先经过1
×
1的卷积层降低通道维度,再将5
×
5的卷积层分解为3
×
3的两个级联卷积层,进一步将其中一个分解为并联的1
×
3和3
×
1的两个卷积分支,并分别在两个卷积分支后添加3
×
3空洞率为4的膨胀卷积来扩大感受野,生成两个输出结果;
26.将以上4个分支的6个输出结果对应级联,最后在通道维度上进行拼接,作为语义信息丰富的低层特征图。
27.上述方案中,所述对所述语义信息丰富的低层特征图和高层特征图分别预测该特征图上每个网格对应的每个预测框所属的分类与边界框,具体为:将两个经扩大感受野处理的低层特征图和四个高层特征图分别输入6个检测分支,把每个检测分支分为两个1
×
1的卷积分支,一个分支通过softmax层输出每个候选框对应的类别,另一个分支通过线性回归层输出对应的边界框,对于每一个区域,分类和回归检测网络将输出6个可能所存在的目
标的位置与种类。其中,目标种类共有a个,即输出对应a种目标的可能性,与训练集的设置有关;位置参数包含4个数据,包括目标边界框的中心位置坐标、宽、高。
28.上述方案中,该方法还包括训练基础网络结构,在训练基础网络结构时,采用设计构建的基于尺度的交并比(scale based intersection over union,siou)损失函数,具体如下:
29.siou=diou+βv
30.其中,diou(distance-iou)是距离损失函数,β是权重系数,v用来衡量预测框和真实框之间的长宽比的相似性,其计算公式为
[0031][0032][0033]
其中,w、h分别是预测框和真实框对应的宽度和高度。
[0034]
diou损失函数的计算如下
[0035][0036]
首先计算预测框a与目标真实框b的交并比iou,然后找到同时包含a和b的最小边界框c,计算c中不包含a和b与惩罚项乘积的剩余部分面积与c的面积的比值,最后与iou相减。
[0037]
与现有技术相比,本发明在提高检测算法速度的同时,有效地提高了检测精度,设计的感受野模块(rfb-w和rfb-d)通过膨胀卷积扩大感受野,并从多尺度提取、融合特征,以获取到更充分的语义信息,提高对小目标的检测能力;siou损失函数通过对边界框长宽比相似性的计算,增加了边界框形变的度量,保证目标边界框尺度的一致性,有效改善了漏检和边界框形变问题,对小目标的检测能力得到了提高。
附图说明
[0038]
此处所说明的附图用来公开对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0039]
图1为本发明实施例提供一种基于扩大感受野的红外目标检测方法的算法流程图;
[0040]
图2为本发明实施例提供一种基于扩大感受野的红外目标检测方法的网络结构图;
[0041]
图3为本发明实施例提供一种基于扩大感受野的红外目标检测方法的基础网络结构图;
[0042]
图4(a)为本发明实施例提供一种基于扩大感受野的红外目标检测方法的rfb-d感受野模块结构图;
[0043]
图4(b)为本发明实施例提供一种基于扩大感受野的红外目标检测方法的rfb-w感受野模块结构图;
[0044]
图5为本发明实施例提供一种基于扩大感受野的红外目标检测方法的多尺度检测模块的结构图;
[0045]
图6为本发明实施例提供的算法部分检测结果图。
具体实施方式
[0046]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0047]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、物品或者装置中还存在另外的相同要素。
[0048]
本发明实施例提供一种基于扩大感受野的红外目标检测方法,如图1所示,该方法为:
[0049]
步骤1:构建用于提取特征的基础网络结构;
[0050]
具体地,如图2、3所示,以mobilenet为基础,通过重复堆叠多个不同的深度可分离卷积模块进行构建,输入图像经过3
×
3的标准卷积层进行下采样,然后卷积前进方向上叠加13个深度可分离卷积模块dws,深度可分离卷积模块中,深度卷积对输入特征图的每个通道都单独使用不同的卷积核来进行特征提取,逐点卷积用来改变输出通道的数量来对信息进行跨通道整合。
[0051]
步骤2:将图像输入所述基础网络结构,经过多个卷积层逐层卷积,在不同的卷积层分别获得图像的低层特征图和高层特征图;
[0052]
具体地,将输入图像经由深度卷积模块dws处理得到的dws11和dws13的输出矩阵作为图像的低层特征图;在深度卷积层dws13后再直接添加4个额外的卷积层c14、c15、c16、c17,其中该四层每一层的输出作为图像的高层特征图。
[0053]
步骤3:通过在低层特征分支后添加设计构建的感受野模块rfb-d与rfb-w进行处理来扩大感受野,获得语义信息丰富的低层特征图;
[0054]
具体地,如图4所示,将低层特征图经rfb-d进行处理,获得4个分支的输出结果对应级联,并且在通道维度上进行拼接后通过rfb-w模块进行处理,获得语义信息丰富的低层特征图。
[0055]
将低层特征图经rfb-d进行处理,获得4个分支的输出结果对应级联,具体为:rfb-d模块共有4个分支结构,对于上一层输入:
[0056]
(1)分支1经过1
×
1的卷积层产生输出;
[0057]
(2)分支2经过1
×
1的卷积层降低通道的维度,在卷积层后添加3
×
3空洞率为1的膨胀卷积;
[0058]
(3)分支3先经过1
×
1的卷积层降低通道维度,再将3
×
3的卷积层分解为级联的1
×
3和3
×
1的卷积操作,并添加3
×
3空洞率为2的膨胀卷积;
[0059]
(4)分支4先经过1
×
1的卷积层降低通道维度,再将5
×
5的卷积层分解为3
×
3的两
个级联卷积层,并进一步分解为1
×
3和3
×
1的卷积层,并添加3
×
3空洞率为4的膨胀卷积;
[0060]
将以上4个分支的输出结果对应级联,最后在通道维度上进行拼接,输入下一个rfb-w模块。
[0061]
将通过rfb-w模块进行处理,获得语义信息丰富的低层特征图,具体为:rfb-w模块共有4个分支结构,对于上一层输入:
[0062]
(1)分支1经过1
×
1的卷积层产生输出;
[0063]
(2)分支2经过1
×
1的卷积层,并在卷积层后添加3
×
3空洞率为1的膨胀卷积;
[0064]
(3)分支3先经过1
×
1的卷积层降低通道维度,再将3
×
3的卷积层分解为并联的1
×
3和3
×
1的两个卷积分支,并分别在两个卷积分支后添加3
×
3空洞率为2的膨胀卷积,生成两个输出结果;
[0065]
(4)分支4先经过1
×
1的卷积层降低通道维度,再将5
×
5的卷积层分解为3
×
3的两个级联卷积层,进一步将其中一个分解为并联的1
×
3和3
×
1的两个卷积分支,并分别在两个卷积分支后添加3
×
3空洞率为4的膨胀卷积来扩大感受野,生成两个输出结果;
[0066]
将以上4个分支的6个输出结果对应级联,最后在通道维度上进行拼接,作为语义信息更为丰富的低层特征图。
[0067]
步骤4:所述对所述语义信息丰富的低层特征图和高层特征图分别预测该特征图上每个网格对应的每个预测框所属的分类与边界框;
[0068]
具体地,将两个经扩大感受野处理的低层特征图和四个高层特征图分别输入6个检测分支,把每个检测分支分为两个1
×
1的卷积分支,一个分支通过softmax层输出每个候选框对应的类别,另一个分支通过线性回归层输出对应的边界框,对于每一个区域,分类和回归检测网络将输出6个可能所存在的目标的位置与种类。其中,目标种类共有a个,即输出对应a种目标的可能性,与训练集的设置有关;位置参数包含4个数据,包括目标边界框的中心位置坐标、宽、高。
[0069]
如图5所示,进行多尺度检测,将特征图分别输入6个检测分支,把每个检测分支分为两个1
×
1的卷积分支,一个分支通过softmax层输出每个候选框对应的类别,另一个分支通过线性回归层输出对应的边界框;
[0070]
对于不同层特征图产生的先验框,假设利用m层特征图进行预测,则每一层特征图中先验框的比例大小为
[0071][0072]
其中,sk是第k层的特征图中先验框的比例,s
max
和s
min
分别是m层的特征图中最顶层和最底层的先验框比例。对于同一层特征图的先验框的不同宽高比来说,需要计算每个先验框的宽度和高度。如果设置了ar={1,2,3,1/2,1/3}等5种不同的宽高比,则每个先验框的宽度为
[0073][0074]
同理,每个先验框的高度为
[0075][0076]
先验框的中心坐标如下
[0077][0078]
其中,|fk|是第k个特征图边长的数值,i,j∈[0,|fk|),0.5是设置的偏移量。一般情况下当宽高比为1时,额外添加一个尺寸为的先验框。
[0079]
特征图的每个中心点会生成6个不同大小的先验框,特征图中不同大小与长宽比的先验框覆盖了几乎所有待检测的位置,能够完成检测输入的所有目标区域,通过计算每个先验框对于每个类别以及背景的得分,判断出先验框所属类别。
[0080]
由于缩小卷积核尺寸对检测精度几乎没有影响但却可以减少计算量,故在检测模块中使用1
×
1的卷积核,将先验框的数量设定为3、6、6、6、6、6。假设输入图像分辨率为300
×
300,通过扩大感受野的目标检测方法输出19
×
19、10
×
10、5
×
5、3
×
3、2
×
2和1
×
1共6个尺度的特征图,第一层网络每个网格预测3个边界框,其它5层网络每个网格均预测6个边界框,每个边界框有4个参数(分别是先验框中心点的横、纵坐标,先验框的长宽),共预测5个类别。最终,生成先验框的数量为19
×
19
×
3+(10
×
10+5
×
5+3
×
3+2
×
2+1
×
1)
×
6=1917。
[0081]
步骤5:通过非极大值抑制算法合并边界框,输出整个网络最终的预测结果。
[0082]
如图6所示,可以看出该算法能够将包括小目标在内的多尺度的目标精确地检测出来,没有发生漏检现象,例如图6(a)中远距离的行人与图6(b)中不同远近距离的汽车,以及图6(b)在距离较远且本身尺寸较小的自行车与图6(d)中尺寸特别小的小狗。另外,目标的边界框定位非常准确,并没有发生形变。
[0083]
基础网络结构及参数设置:
[0084]
1、在训练网络时,使用基于尺度的交并比siou损失函数,表达式为
[0085]
siou=diou+βv
[0086]
其中,diou是距离损失函数,β是权重系数,v用来衡量预测框和真实框之间的长宽比的相似性,其计算公式为
[0087][0088][0089]
其中,w、h分别是预测框和真实框对应的宽度和高度。
[0090]
diou损失函数的计算如下
[0091][0092]
首先计算预测框a与目标真实框b的交并比iou,然后找到同时包含a和b的最小边界框c,计算c中不包含a和b与惩罚项乘积的剩余部分面积与c的面积的比值,最后与iou相减。最后,根据损失函数计算结果,使用包含动量的随机梯度下降法对权重进行更新。
[0093]
2、conv14~conv17的卷积核尺寸全部为1
×
1,输出特征图的尺寸、步长与是否输入检测分支等信息如表1.1所示。
[0094]
表1.1 部分卷积层参数设置
[0095][0096]
3、基于扩大感受野的红外目标检测方法从6个不同尺度的有效特征图上提取特征分别进行检测,这6个检测模块包括两个尺寸为1
×
1的卷积分支,其中一个分支对目标进行分类预测,另一个分支对目标进行边界框回归。各个检测模块的输入尺寸、边界框数量、分类分支与回归分支通道数如表1.2所示。
[0097]
表1.2 各检测模块参数设置
[0098][0099]
4、在实验过程中的一些超参数设置为:将原始图片缩放为512
×
512,一个批次的数量为64,momentum为0.9,decay为0.0005,初始的学习率为0.001,最大迭代次数为50000次,学习策略采用multistep,并且在迭代40000、45000次时将学习率衰减十倍。
[0100]
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1