
1.本发明涉及智能车辆技术领域,尤其是涉及基于改进faster r-cnn的一种野外环境下的无人车障碍物识别方法。
背景技术:2.无人车是一种智能系统,利用各种传感器,在不同的实际情况下感知自身和周围环境,实现自主运行。无人车技术的发展和应用给人们的生活质量带来巨大的提升。随着激光雷达等硬件设施的更新迭代和深度学习、视觉算法的快速发展,无人驾驶技术也得到很大程度的提升。障碍物检测方法的研究在无人车研究领域是非常重要的,实现对车前障碍物的检测和对危险的预测是无人车不可缺少的功能。
3.现在对障碍物检测方法的研究大多局限于背景简单且单一的城市道路,对复杂多变的野外环境下障碍物检测研究相对较少。在一些特定情况,如军事侦察、野外拍摄中,需要无人车在野外区域通行。而野外环境存在不平坦的地面、杂草、树木,背景较为复杂,且道路上障碍物种类繁多,遮挡严重,这些都给野外环境下无人车障碍物检测算法的准确性和鲁棒性带来很大挑战。因此,野外环境无人车障碍物检测技术的研究不仅具有重要的理论价值,而且在军事等领域还具有重要的实用意义。
4.当前常见的障碍物检测的方法主要分为基于视觉和基于激光雷达两种;其中视觉的检测方法有基于传统视觉和基于深度学习两种。文献[1](xie d,xu y,wang r.obstacle detection and tracking method for autonomous vehiclebased on three-dimensional lidar[j].international journal of advanced robotic systems,2019,16(2):1729881419831587)利用三维激光雷达,实现了复杂交通环境下对障碍物进行检测和跟踪,该方法较难对多种类型障碍物进行分类,野外环境下物体的遮挡对激光检测的准确率影响也较大,且成本较高。文献[2](郝楠.基于深度学习的公路障碍物检测的研究[d].电子科技大学,2019.)运用改进后的mask r-cnn目标识别网络,实现对公路上障碍物的高效检测和分类,该文献使用视觉深度学习方法,所需设备简单,成本低,效果也较好,但应用环境也局限在背景简单的环境中,在野外的复杂环境情况下实用性不够好。
技术实现要素:[0005]
本发明的目的是针对现有技术存在的上述技术问题,提供基于改进faster r-cnn的一种野外环境下的无人车障碍物识别方法,对环境特性进行分析,制作野外环境数据集;从野外障碍物特点出发,以faster r-cnn网络为基础,对网络模块进行改进,实现野外环境下障碍物的准确实时、低成本检测。
[0006]
本发明野外环境障碍物检测方法由野外环境障碍物数据集制作、基于障碍物特点改进网络模型以及模型训练三部分组成,包括以下步骤:
[0007]
1)制作野外环境障碍物数据集:包括野外环境障碍物图像采集和数据集图像标定;
[0008]
2)基于障碍物特点改进网络模型:以faster r-cnn网络模型作为基础网络框架进行改进,实现野外环境障碍物的识别和分类,所述改进包括对特征提取网络的改进和对检测网络的改进;
[0009]
3)模型训练前对数据集进行预处理,模型训练过程对参数和学习方法进行调节,用训练好的检测识别模型在线实时预测,即实现野外环境障碍物的识别。
[0010]
在步骤1)中,所述野外环境障碍物图像采集的步骤如下:
[0011]
(1)以“野外环境”为关键词,对互联网上检索到的野外环境图片进行分析,障碍物多以石头、树木、水坑、动物为主;为保证检测模型的稳定性和检测目标的完整性,将检测障碍物种类分为静态和动态2类;
[0012]
(2)采用互联网检索、自行拍摄采集、公开数据集中筛选三种方法获取网络训练所需数据集图片;石头、水坑、树木三类静态障碍物的图像主要由互联网检索和自行拍摄两种方式获得。
[0013]
所述数据集图像标定的步骤为:利用labelimg对数据集中图像进行标定,自动生成包含标注信息并且以图像名称命名的.xml文件;模型训练时读取生成的.xml文件即可获取图像中目标信息和图像尺寸信息。
[0014]
在步骤2)中,所述对特征提取网络的改进,包括:
[0015]
(1)野外环境背景复杂,特征繁多,为避免在特征提取过程中丢失特征信息,影响网络性能,使用resnet50网络作为faster r-cnn的骨干网络进行特征提取;
[0016]
(2)野外环境障碍物尺度变化大,特征提取过程中,高层特征图语义信息丰富但位置信息较少,底层特征图位置信息丰富而语义信息较少,使用fpn(feature pyramid networks)特征金字塔网络对特征进行融合,在两倍上采样将相邻两层特征图融合在一起的同时,将低层位置信息和高层语义信息结合在一起;
[0017]
(3)野外环境障碍物特征多,但每个特征重要程度不同,为提升网络学习性能,在特征提取网络里嵌入注意力机制senet,以抑制无效的复杂背景特征,增强有效的障碍物特征;
[0018]
(4)改进后模型的骨干网络为resnet50+fpn+senet;骨干网络进行特征提取,提取所得特征图作为rpn网络和roi align层的输入。
[0019]
所述对检测网络的改进,包括:
[0020]
(1)野外环境障碍物易受遮挡,使用soft-nms算法替换验证过程中的传统非极大抑制算法(non-maximum suppression,nms),以避免阈值设定带来的漏检和误检问题;
[0021]
(2)rpn网络生成的候选框使用非极大抑制算法(nms)进行筛选;rpn网络输出为筛选得到的一定数量的区域建议框,输出候选框与骨干网络生成的特征图在roi align层进行映射,得到特征图尺度的建议区域;将每个建议区域(proposal)分成7
×
7共49份,并对每一份都进行最大池化,将大小不同的建议区域统一为7
×
7大小的特征图;
[0022]
(3)7
×
7大小的区域建议特征图(proposal feature map)输入全连接层,在softmax对建议区域内信息进行分类的同时,回归操作对建议区域位置进行调整。
[0023]
在步骤3)中,所述模型训练过程,包括对数据集进行增强操作、参数调节和优化器选择,具体步骤如下:
[0024]
步骤3.1:野外环境背景复杂且多变,且数据集数量内包含的图像有限,为避免模
型学习到无效特征,保证模型在鲁棒性和泛化能力方面得到提升,对数据集进行增强操作,实施步骤如下:
[0025]
步骤3.1.1:为避免数据集内障碍物在图像里分布情况不够多样化,使得模型学习不到必要特征的情况发生,在图像进入网络模型训练之前,进行翻转数据增强操作,使得模型在学习到旋转不变性的同时,其学习到不相关特征的可能性也大幅度减少,从而使得模型泛化能力和鲁棒性得到提高;
[0026]
步骤3.1.2:为解决野外环境光照变换大,影响模型鲁棒性的问题,使用色域扭曲方法对数据集进行增强,随机地扭曲图片色域中的hsv通道(h色调,s饱和度,v明度),通过色域扭曲方法,在训练过程中,网络随机对图像色调、饱和度、明度进行调整,模拟不同光照情况下图片状况,丰富数据集,使模型学习到更多有利特征,提高模型鲁棒性和泛化能力;
[0027]
步骤3.2:训练过程中的参数调节和优化器选择影响网络最终性能;
[0028]
步骤3.2.1:使用学习率分段固定值下降法进行训练,初始学习率为0.006,下降率为0.33,分段步数为3;
[0029]
步骤3.2.2:使用sgd+momentum算法对训练过程进行优化;在训练时,使用的更新方向为当前样本产生的梯度和上一次更新方向的累加;sgd(随机梯度下降法)在训练过程中,每传入一个样本对参数更新一次,以保证模型最后收敛到一个合适的最小值点上;
[0030]
3.2.3:网络识别障碍物有8类在coco数据集中也有,为更快得到最优点,保证网络的训练效率,在训练时,使用迁移学习方法,减少到达收敛点所需epoch。
[0031]
与现有技术相比,本发明的优点在于:本发明从野外环境障碍物情况入手,制作新的野外环境障碍物数据集,并从野外环境障碍物的特点出发,分析原faster r-cnn网络在针对野外环境进行检测时存在的不足,提出四种有效的优化方法对faster r-cnn网络进行改进。在野外环境障碍物检测方面,本发明优化改进后的网络模型具有一定优越性。
附图说明
[0032]
图1为本发明野外环境障碍物检测方法内容框架图;
[0033]
图2为本发明障碍物分类信息;
[0034]
图3为本发明生成的标定信息;
[0035]
图4为本发明resnet50残差结构;
[0036]
图5为本发明fpn与resnet50结合的网络结构;
[0037]
图6为本发明注意力机制senet嵌入特征提取网络结构图;
[0038]
图7为本发明改进后网络结构图。
具体实施方式
[0039]
以下结合附图1~6,对本发明的方法做进一步详细描述。
[0040]
如图1所示,为本发明野外环境障碍物检测方法内容框架图。由野外环境障碍物数据集制作、基于障碍物特点改进网络模型以及模型训练三部分组成,包括以下步骤:
[0041]
步骤1:野外环境障碍物数据集制作分为野外环境障碍物图像采集和数据集图像标定两部分,实施步骤如下:
[0042]
步骤1.1:野外环境障碍物数据集图像采集步骤如下:
[0043]
步骤1.1.1:以“野外环境”为关键词,对互联网上检索到的野外环境图片进行分析,障碍物多以石头、树木、水坑、动物为主。为保证检测模型的稳定性和检测目标的完整性,将检测障碍物种类分为静态和动态2类,具体分类信息如图2所示。
[0044]
步骤1.1.2:采用互联网检索、自行拍摄采集、公开数据集中筛选三种方法获取网络训练所需数据集图片。
[0045]
步骤1.1.3:石头、水坑、树木三类静态障碍物在公开数据集pascal voc中的图像里存在极少,因此石头、水坑、石头障碍物的图像主要由互联网检索和自行拍摄两种方式获得。
[0046]
步骤1.1.3:获得含有11个类别、19669个目标的8278张图像,其中由互联网检索获得823张图像,由公开数据集pascal voc获得7163张图像,由自行拍摄获得292张图像。
[0047]
步骤1.2:利用labelimg对本文数据集中图像进行标定,自动生成包含标注信息的以图像名称命名的.xml文件,如图3所示。模型训练时读取生成的.xml文件即可获取图像中目标信息和图像尺寸信息。
[0048]
步骤2:基于障碍物特点改进网络模型过程包括对特征提取网络的改进和对检测网络的改进两部分,实施步骤如下:
[0049]
步骤2.1:野外环境存在背景复杂等问题,检测相较于城市道路更为困难,为在保证实时性的同时尽可能精确检测出障碍物,本发明以faster r-cnn网络模型作为基础网络框架对其进行改进,实现野外环境障碍物检测和分类,网络改进的实施步骤如下:
[0050]
步骤2.1.1:野外环境背景复杂,特征繁多,为避免在特征提取过程中,丢失特征信息,影响网络性能,替换faster r-cnn的骨干网络(backbone),使用resnet50网络作为faster r-cnn的骨干网络进行特征提取。resnet50的残差结构如图4所示,残差结构中的连接方式允许原始输入直接绕过某些卷积层传入到该层结构的输出中,能一定程度上减少在传递过程中信息的丢失情况。
[0051]
根据图4(a)结构,残差单元表达式如下所示,其中x
l
和x
l+1
分别表示第l个残差单元的输入和输出,h(x
l
)表示恒等映射,f为relu非线性激活函数。
[0052]yl
=h(x
l
)+f(x
l
,w
l
)
[0053]
x
l+1
=f(y
l
)
[0054]
从浅层l到深层l+1的学习特征表达式如下所示,在反向传播过程中,式中的“1”保证梯度在短路机制中的无损传播,避免因网络加深使得梯度消失的问题:
[0055][0056]
步骤2.1.2:野外环境障碍物尺度变化大,特征提取过程中,高层特征图语义信息丰富但位置信息较少,底层特征图位置信息丰富而语义信息较少。fpn网络可在两倍上采样将相邻两层特征图融合在一起的同时,把低层位置信息和高层语义信息结合在一起。resnet网络在特征提取时不易丢失细节特征,fpn网络能很好解决尺度变换大的问题,故本发明将fpn(feature pyramid networks)网络与resnet50网络进行结合,对野外环境图像进行特征提取,为后续障碍物的高效精确检测打下基础。
[0057]
fpn网络与resnet50网络结合的结构如图5所示。在自底向上的过程中,将
resnet50中conv2_x、conv3_x、conv4_x、conv5_x层的最后一个残差块输出特征作为fpn网络各级的输入,并记为{c2,c3,c4,c5};在自顶向下的过程中,每一级的特征图c经过1
×
1卷积调整得到特征图m,经调整后的m特征图也有四级,记为{m1,m2,m3,m4}。通过上采样将相邻两级特征图m进行融合,并经过3
×
3卷积后得到最终的特征图p。为避免计算量过大,在特征提取时最终仅输出四个种尺度级别特征图,记为{p2,p3,p4,p5}。由于fpn的所有层使用同一个分类器和回归器,所有特征图中取固定特征维度256。
[0058]
步骤2.1.3:野外环境障碍物特征多,但每个特征重要程度不同,为提升网络学习性能,在特征提取网络里嵌入注意力机制senet,抑制无效复杂背景特征,增强有效障碍物特征。为平衡网络模型检测精确度和检测速度,在每个卷积层残差块最后嵌入注意力机制。如图6,图像从左侧传入,在前向传播的过程中产生特征图,注意力机制嵌入到每个卷积层后,组成新的conv2_x、conv3_x、conv4_x、conv5_x,各conv_x块输出的特征图最后传入fpn网络。
[0059]
步骤2.1.4:如图7为改进后网络结构图,改进后网络的骨干网络为resnet50+fpn+senet。骨干网络进行特征提取,提取所得特征图作为rpn网络和roi align层的输入。
[0060]
步骤2.2:检测网络中,rpn网络生成的候选框需要使用非极大抑制算法(nms)进行筛选。
[0061]
步骤2.2.1:野外环境障碍物易受遮挡,使用soft-nms算法替换验证过程中的传统nms(non-maximum suppression)算法;避免阈值设定带来的漏检和误检问题。soft-nms算法的总体思路是通过降低置信度柔性删除建议框的方法取代nms算法中直接将建议框置信度置零删除的方法。本发明提出的网络模型里soft-nms使用高斯加权,其计算公式如下所示:
[0062][0063]
soft-nms算法具体步骤为:
[0064]
(1)获取某一类别的所有建议框的坐标信息以及置信度;
[0065]
(2)将该类别建议框置信度由高到低排序并记录顺序;
[0066]
(3)将该类别置信度最高的建议框依次与剩余建议框计算iou值并记录,根据iou计算权值,iou越大权重值越小,对置信度的抑制越明显,将计算后的置信度再次按从大到小排序,去掉置信度特别低的建议框。依次对所有类别进行步骤(1)~(3)的操作。
[0067]
步骤2.2.2:rpn网络输出为筛选得到的一定数量的区域建议框(训练集为2000,验证集为1000),输出候选框与骨干网络生成的特征图在roi align层进行映射,得到特征图尺度的建议区域。将每个建议区域(proposal)分成7
×
7共49份,并对每一份都进行最大池化,将大小不同的建议区域统一为7
×
7大小的特征图。
[0068]
步骤2.2.3:如图4所示,7
×
7大小的区域建议特征图(proposal feature map)被输入全连接层,随后,在softmax对建议区域内信息进行分类的同时,回归操作会对建议区域位置进行调整。
[0069]
步骤3:模型训练前需要对数据集进行预处理,训练过程需要对参数和学习方法进行调节和选择。用训练好的检测网络模型在线实时预测,即可实现野外环境障碍物的识别。模型训练过程如下:
[0070]
步骤3.1:野外环境背景复杂且多变,且数据集内包含的图像数量有限,为避免模型学习到无效特征,保证模型在鲁棒性和泛化能力方面得到提升,对数据集进行增强操作,实施步骤如下:
[0071]
步骤3.1.1:为了避免数据集内障碍物在图像里分布情况不够多样化,使得模型学习不到必要特征的情况发生,本文在图像进入网络模型训练之前,进行翻转数据增强操作。使得模型在学习到旋转不变性的同时,其学习到不相关特征的可能性也大幅度减少,从而使得模型泛化能力和鲁棒性得到提高。
[0072]
步骤3.1.2:为解决野外环境光照变换大,影响模型鲁棒性的问题,本发明使用色域扭曲方法对数据集进行增强,该方法随机地扭曲图片色域中的hsv通道(h色调,s饱和度,v明度)。通过色域扭曲方法,在训练过程中,网络会随机对图像色调、饱和度、明度进行调整,模拟不同光照情况下图片状况,能丰富高效地数据集,使模型学习到更多有利特征,提高模型鲁棒性和泛化能力。
[0073]
3.2:训练过程中的参数调节和优化器选择对网络最终性能都有所影响。
[0074]
3.2.1:本发明使用学习率分段固定值下降法进行训练,初始学习率为0.006,下降率为0.33,分段步数为3。
[0075]
3.2.2:本发明使用sgd+momentum算法对训练过程进行优化。momentum算法与物理中动量(momentum)的概念类似,即在训练时,算法使用的更新方向为当前样本产生的梯度和上一次更新方向的累加。sgd(随机梯度下降法)在训练过程中,每传入一个样本对参数更新一次,这样能保证模型最后收敛到一个合适的最小值点上。算法表达式如下所示:
[0076]vt
=η
×vt-1
+αg(w
t
)
[0077]wt+1
=w
t-v
t
[0078]
3.2.3:因为本发明的网络识别障碍物有8类在coco数据集中也有,为更快得到最优点,保证网络的训练效率,在训练时,使用迁移学习方法,减少到达收敛点所需epoch。
[0079]
以上内容是结合优选技术方案对本发明所做的进一步详细说明,不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出简单的推演及替换,都应当视为本发明的保护范围。