
1.本发明属于计算机视觉领域,涉及对目标检测模型的改进、图像目标检测与仿真实现。
背景技术:2.目标检测作为计算机视觉的基本任务之一,它的主要任务是从输入图像中定位出感兴趣的目标并判断出每个目标所属的类别,目前已在多种场景中得到应用,如目标跟踪、智能监控和自动驾驶等领域。近年来,随着深度学习的不断发展,小目标检测研究得到广泛关注,被应用于城市智慧交通、物流管理、农林业发展、公共安全和抗灾救灾部署等任务场景中。但小目标在原图中所包含的像素数少,携带的信息有限,在深度网络中经过多次下采样后,分辨率进一步降低,造成特征信息减弱甚至丢失,同时不同尺度的特征图没有进行有效融合,未能建立信息间的传递与交流,从而造成检测难度增大,因此小目标检测仍是计算机视觉任务中一个亟待解决的难点。
3.由于目前专门针对小目标检测的算法研究较少,直接使用通用目标检测方法容易造成小目标错检漏检,效果不好。为此本发明设计了两个模块来增强小目标的信息,其具体方法如下:首先为了获得输入特征的全局信息,局部信息和多尺度信息,设计了信息增强模块;其次设计了感受野增强模块,利用扩张卷积获得不同尺度感受野的特征并将其进行密集连接,从而获得具有判别性的、融合了不同抽象级别信息的特征;然后输入特征分别使用这两个模块进行信息增强,得到增强后的特征图;最后在得到增强后的特征图基础上进行下采样,共获得6个不同尺度的特征图,分别对这6个不同尺度的特征图进行目标检测,得到最终的检测结果。
技术实现要素:4.1.发明目的:
5.本发明的目的是提出基于信息增强与感受野增强的小目标检测方法。
6.2.技术方案:
7.本发明提出一种基于信息增强与感受野增强的小目标检测方法,该网络能够建立并增强信息之间的交流与联系,产生更具判别性的特征。首先,本发明为了有助于定位小目标,对骨干网络提取到的浅层特征进行重复利用,将vgg
‑
16网络中的低层特征与高层特征分别上采样和下采样至相同的尺度大小,然后将其在通道维度上进行拼接,获得含纹理信息和语义信息的多尺度特征图。其次,本发明提出了信息增强模块,此模块设计了全局信息分支、局部信息分支和多尺度语义信息分支,通过对输入特征的全局信息、局部信息和多尺度语义信息进行学习,获得富含小目标上下文信息的增强特征。然后,为减少小目标信息的丢失,本发明设计了感受野增强模块,利用不同扩张率的扩张卷积获得不同尺度感受野的特征,然后将其进行拼接融合。值得注意的是,本发明在获得不同尺度感受野特征时采用了密集连接,从而为不同尺度间的感受野特征建立了联系。最后,本发明在得到增强后的特征
图基础上,进行下采样,共获得6个不同尺度的特征图,分别对这6个不同尺度的特征图进行目标检测,得到最终的检测结果。考虑到不同尺寸的特征图包含的细节信息不一致,本发明分别对300
×
300和512
×
512两种尺寸的输入图像进行了训练和测试,从而得到一个更具鲁棒性的模型。
8.本发明所述的一种基于信息增强与感受野增强的小目标检测方法,包括以下步骤:
9.步骤(1):在骨干特征提取网络vgg
‑
16的基础上,将低层特征与高层特征分别上采样和下采样至相同的尺度大小,然后将其在通道维度上进行拼接,获得含纹理信息和语义信息的多尺度特征图;
10.步骤(2):将步骤(1)得到的多尺度特征图输入到信息增强模块,信息增强模块由三条分支构成,分别学习多尺度特征图的全局信息,局部信息和多尺度语义信息,最终将三条分支获得的特征相加融合,得到增强后的语义信息特征图;
11.步骤(3):将步骤(1)得到的多尺度特征图输入到感受野增强模块中,此模块由四条分支组成,第二、三、四条分支分别以不同卷积核的卷积和不同扩张率的扩张卷积增强学习特征点间水平和垂直空间的关系,最后第一条分支的原有特征与其余分支获得的特征进行拼接,建立并增强不同感受野特征图之间的联系,得到增强后的感受野特征图;
12.步骤(4):将步骤(2)得到的语义信息特征图与步骤(3)得到的感受野特征图进行像素点相加融合,得到最终的增强特征图;
13.步骤(5):将步骤(4)中得到的增强特征图进行下采样,共获得6个不同尺度的特征图,然后对其进行训练得到最终的检测结果。
14.3.有益效果:
15.本发明公开了基于信息增强与感受野增强的小目标检测方法,设计了信息增强和感受野增强两个模块,解决了小目标携带像素信息少和缺乏信息间的传递与交流的问题。在pascal voc、ms coco和ucas
‑
aod数据集上的实验结果表明本发明算法对检测小目标具有较高的检测精度。
附图说明
16.图1为本发明整体流程框架。
17.图2为本发明信息增强模块结构图。
18.图3为本发明感受野增强模块结构图。
19.图4为本发明在ms coco数据集上图像分割效果。
20.图5为本发明在和ucas
‑
aod数据集上图像分割效果。
具体实施方式
21.下面结合附图和具体实施方式对本发明做进一步说明。一种基于信息增强与感受野增强的小目标检测方法,其具体实施方式步骤如下:
22.(s1):拼接融合特征。
23.为了有助于定位小目标,本发明重复利用并增强特征提取网络的浅层特征,将低层特征与高层特征分别上采样和下采样至相同的尺度大小,然后将其在通道维度上进行拼
接,获得含纹理信息和语义信息的多尺度特征图。本发明中的低层特征和高层特征分别选用vgg
‑
16网络中的conv3
‑
3和conv5
‑
3,并将其采样至conv4
‑
3的尺度大小。
24.(s2):设计信息增强模块。
25.传统的特征金字塔网络将高层特征图与低层特征图进行相加融合,从而建立信息间的传递,但高层获取的特征只包含了单一尺度的语义信息,无法获得更全面和更丰富的上下文信息。为了解决这个问题,本发明设计了信息增强模块,旨在获取多尺度特征图中更多的语义信息,并将不同尺度的特征图进行融合,建立信息间的语义交流。
26.本发明设计信息增强模块的核心思想是,在融合高层特征的多尺度语义信息的同时引入局部信息和全局信息,从而建立不同信息之间的交流学习,利用语义信息对空间细节信息进行注意力增强,生成更具判别性的特征。本发明输入的多尺度特征图的尺寸为2w
×
2h
×
c,我们通过如图2所示的三个并行路径来分别获取全局信息,局部信息和多尺度语义信息,其计算过程如公式(1
‑
4)所示。
27.b1=conv1×1(global(f))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
28.b2=conv3×3(f)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
29.b3=fpn(f)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
30.f
o
=add[b1,b2,b3]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0031]
其中b1,b2,b3分别表示第一分支,第二分支和第三分支得到的特征图,global(
·
)表示全局平均池化,fpn(
·
)表示特征金字塔网络,add[
·
]表示对应元素相加操作,conv(
·
)表示卷积操作。第一条分支采用了全局平均池化,以获得每个通道的全局信息,再通过一个1
×
1卷积层调整通道数和进行通道全局信息的融合学习。第二条分支采用了一个3
×
3的卷积来获取特征图的局部信息。第三条分支设计了一个特征金字塔网络,融合三种不同尺度的特征。特征金字塔网络使用了三级步长为2的卷积网络,卷积核大小依次为5
×
5,3
×
3,1
×
1。金字塔网络依次对不同尺度的信息进行融合,可以更准确的融合相邻尺度的上下文信息,得到更丰富的多尺度语义信息。最后将三个分支的输出特征进行对应元素相加得到最后的增强特征。
[0032]
(s3):提出感受野增强模块。
[0033]
在目标检测任务中,通常存在许多小目标或者尺度变化较大的目标。为了解决这个问题,特征图最好能覆盖不同尺度的感受野。受denseaspp的启发,本发明利用扩张卷积和密集连接方式,设计了感受野增强模块,用来获得高层特征更密集的采样和更大尺度的感受野,建立并增强不同感受野特征图之间的联系,学习到更丰富的信息,其结构如图3所示,其中四条分支分别表示为f1,f2,f3,f4。
[0034]
f1即原有输入特征,直接与其他三条分支的输出特征进行拼接,从而进一步保持了原有输入特征的空间信息和语义信息,起到残差连接的效果。f2分支旨在增强水平方向上的空间信息,首先使用1
×
1卷积降低通道数,然后使用3
×
1的卷积在行维度上进行一维卷积,增强学习特征点间的水平空间关系,最后使用了扩张率为3的3
×
3卷积,进一步增强学习更大感受野的上下文信息。f2的输出特征和f1在通道维度上进行拼接后,输入f3分支。f3分支旨在增强垂直方向上的空间信息,首先使用1
×
1卷积降低通道数,然后使用1
×
3的卷积在列维度上进行一维卷积,增强学习特征点间的垂直空间关系,最后使用了扩张率为3的3
×
3卷积,进一步增强学习更大感受野的上下文信息。f4将f1,f2的输出特征和f3的输出
特征进行拼接作为输入,然后对其进行1
×
1,1
×
3,3
×
1和扩张率为5的3
×
3卷积,对输入特征的列向量和行向量两个维度进行感受野增强。最后将四条分支的输出特征进行拼接,再通过一个1
×
1卷积调整通道数,得到最终的输出特征。其计算过程如公式(5
‑
8)所示。
[0035]
f2=conv3×
3,d=3
(conv3×1(conv1×1(f)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0036]
f3=conv3×
3,d=3
(conv1×3(conv1×1(c{f1,f2})))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0037]
f4=conv3×
3,d=5
(conv3×1(conv1×3(conv1×1(c{f1,f2,f3}))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0038]
f
out
=conv1×1(c{f1,f2,f3,f4})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0039]
其中conv3×
3,d=3
和conv3×
3,d=5
分别表示扩张卷积层,conv表示卷积操作,c{
·
}表示沿通道维度的拼接操作,f
out
表示最终输出特征。
[0040]
以下结合目标检测效果图实施例对本发明效果进行详细描述。
[0041]
表1比较了本发明提出的方法(以下简称fien)与其他方法对pascal voc数据集中每个类别的检测精度。从表1的实验结果可以看出,本发明算法在所有类别中的检测精度都高于ssd算法,尤其是在包含小目标较多的bottle和plant类别上,其检测效果显著。对于一些小目标比例较多的类别如boat、chair和bird,fien_rfb的检测精度比rfb分别提高了2.6%、1.4%和1.1%,这说明本发明提出的两个模块能够提取更丰富的上下文信息,有利于小目标的检测。
[0042]
表1各个类别的检测精度
[0043][0044]
图4示例了本发明在ms coco测试集的一些测试图片上得到的检测效果图。从图4可以看出,对于检测环境复杂、目标尺度多变且密集的小目标而言,本发明的检测精度较高,降低了误检率和漏检率,如图4中第三列第二行的行人,鸟和船等物体都被检测到了。由于本发明算法对骨干网络提取到的特征进行了拼接融合以及语义信息增强和感受野信息增强,使得各个尺度的目标都有概率被检测出来,故本发明在一些密集目标中也有不错的检测效果,如图4中第一列第二行的飞鸟,虽然有几只飞鸟没有检测到,但大部分飞鸟被检测到,其整体检测效果不错。
[0045]
图5示例了一些本发明与ssd算法在ucas
‑
aod数据集上得到的检测结果。ucas
‑
aod数据集作为遥感方向的数据集,但其目标之间的关联性较强,更适合验证本发明方法对小目标检测的有效性。从图5的检测结果可以看出,ssd算法对小而密集的目标进行检测存在漏检现象,如图5(b)中有几辆靠近图像边缘的小汽车和几辆小飞机没有检测到。而使用本发明提出的fien方法则避免了漏检现象的发生,在图5(c)中对汽车和飞机的检测精度比ssd算法的检测精度高,同时将图像中存在的所有目标都检测到了,这表明本发明对检测小目标具有良好的效果。
[0046]
本发明提出的基于信息增强与感受野增强的小目标检测方法,将骨干网络提取到
的特征进行通道维度上的拼接融合,设计了信息增强模块获得输入特征的全局信息,局部信息和多尺度信息,提出了感受野增强模块,利用扩张卷积获得不同尺度感受野的特征并将其进行密集连接,从而获得具有判别性的、融合了不同抽象级别信息的特征。在得到增强后的特征图基础上进行下采样,共获得6个不同尺度的特征图并进行目标检测。在pascal voc、ms coco和ucas
‑
aod数据集上的实验结果表明本发明算法对检测小目标具有较高的检测精度。