一种基于深度学习的道路目标检测系统、方法及存储介质

文档序号:35466045发布日期:2023-09-16 05:28阅读:68来源:国知局
一种基于深度学习的道路目标检测系统、方法及存储介质

本发明属于自动驾驶环境感知领域,具体涉及一种基于深度学习的道路目标检测方法。


背景技术:

1、随着人工智能和机器学习的崛起,极大地推动了计算机视觉技术的发展。在视频监控和安防、医疗诊断、自动驾驶等场景均广泛地应用了计算机视觉技术,如检测监控视频中的异常情况;医疗图像诊断,如ct、x光等影像;实时感知自动驾驶周围环境,如道路、车辆、行人等。其中,自动驾驶环境感知领域则是汽车企业,互联网公司以及众多高校研究的热点。自动驾驶环境感知主要是通过摄像头、激光雷达、毫米波雷达等传感器实时获取车辆周围的环境信息,并对信息进行一系列处理,送至决策中心做出更为精准可靠的控制决策。

2、目前在自动驾驶环境感知领域中,目标检测技术较为成熟,基于摄像头、激光雷达、毫米波雷达以及多源传感器融合的目标检测均有众多方法并应用实车。其中,基于摄像头的目标检测方法较为简单且成本较低。当前,基于摄像头的道路目标检测主要通过深度学习神经网络方法,对车载摄像头所采集的实时图像进行道路目标特征提取,进而对目标识别和分类;后续通过滤波类算法对检测目的状态实时跟踪,将目标类别、目标状态(与驾驶车辆的相对纵横距离、相对速度等信息)送入控制器进行相应判断,做出精确的控制决策。

3、cn114648745a,一种基于深度学习的道路检测系统,该系统包括获取道路的原始图像数据集,并对道路图像数据集中的道路信息进行标记,获得包括第一道路真实框和第二道路真实框的训练图像数据集;将训练图像数据集输入道路检测模型,获得第一道路检测框和第二道路检测框,并根据第一道路检测框与第一道路真实框、第二道路检测框与第二道路真实框的损失值,完成对道路检测模型的训练;进而实现对待检测图像数据进行道路检测。本发明通过将车道线和停止线对应的检测框、道路标识对应的检测框分别与对应的真实框计算损失值,以训练道路检测模型,同时完成可行驶道路的检测区分,提高道路检测准确性。

4、该专利基于深度学习的道路检测系统对第一道路检测采用anchor(有锚框)算法,对第二道路检测则采用的anchor free(无锚框)算法,虽然anchor free算法较为灵活且参数量少,但是易出现正负样本极端不平衡、语义模糊等问题。本发明则选择基于锚框的深度学习算法,会经过两次的正负样本选择,可缓解正负样本不平衡的难题。而且通过对fpn的改进,从而极大程度上增强的语义信息的传递和融合。


技术实现思路

1、本发明旨在解决以上现有技术的问题。提出了一种基于深度学习的道路目标检测系统。本发明的技术方案如下:

2、一种基于深度学习的道路目标检测系统,其包括:包括骨干网络、颈部网络、头部网络、感兴趣区域池化层、分类回归模块,其中:

3、骨干网络,用于对车载摄像头采集的道路图像进行特征提取,得到道路图像特征图;

4、颈部网络,用于对道路图像特征图进行特征增强,并连接骨干网络和头部网络;

5、头部网络,采用区域生成网络(region proposal network,rpn)生成目标区域候选边框;

6、感兴趣区域池化层,用于对候选特征图进行感兴趣区域池化,输出固定尺寸的特征图,送入全连接层;

7、分类回归模块,用于对全连接层的输出目标进行softmax分类以及对目标边框进行回归修正。

8、进一步的,所述骨干网络采用vgg网络或resnet网络,选择resnet网络进行图像特征提取。

9、进一步的,所述颈部网络采用特征金字塔网络(feature pyramid network,fpn)网络进行特征增强,采用基于注意力机制上采样方法对fpn网络中最近邻插值法的上采样进行改进,提高多尺度目标语义信息的有效提取。

10、进一步的,所述采用基于注意力机制上采样方法对fpn网络中最近邻插值法的上采样进行改进,具体包括:

11、s1、将特征图输入至3个1×1卷积,得到3个尺度相同的特征图q,k,v;

12、s2、对特征图q采用双线性插值法的2倍上采样,对特征图k,v则采用转置卷积的2倍上采样,则分别得到特征图qup,kup,vup;

13、s3、对特征图qup,kup进行点积运算,再经softmax归一化,得到特征图每个像素点的权重矩阵;

14、s4、再将该权重矩阵与vup进行点积运算,得到具有丰富信息的特征图。

15、进一步的,所述头部网络采用区域生成网络(region proposal network,rpn)网络对检测目标生成区域候选边框,具体包括:

16、s1、rpn首先对fpn融合的每一个特征图的每一个像素点生成9锚框,即共生成h×w×9个初始锚框;

17、s2、然后判断每个锚框是属于目标或者背景,具体则通过softmax提取出正类(positive)锚框;

18、s3、再通过边框回归器其对正类(positive)锚框和真实边界框线性回归学习,从而生成最终的区域候选边框;

19、进一步的,所述分类回归模块采用softmax函数对全连接层的输出进行目标分类,采用边框回归器对目标检测框进行回归预测以及修正。

20、一种基于任一项所述系统的道路目标检测方法,其包括以下步骤:

21、s1、行驶车辆通过摄像头实时采集道路场景视频,然后利用python和opencv将视频的每一帧切出并按顺序保存为指定格式的图片,通过标注软件对保存的道路场景图像中的车辆、行人在内的目标标注类别,生成标签文件,图像与标签一一对应,划分为训练集、测试集、验证集;

22、s2、将训练集的图像和对应标签输入至骨干网络resnet,通过多层卷积、池化、残差在内的操作,生成多层级多尺度特征图{c2,c3,c4,c5},c2,c3,c4,c5分别表示道路场景图像经多resnet网络多层卷积、池化、激励过程中,所提取的第2,3,4,5层特征图;

23、s3、将多层级多尺度特征图{c2,c3,c4,c5}输入至基于注意力机制上采样的fpn颈部网络,进行相应的横向连接操作和基于注意力机制上采样操作,横向连接操作即1×1卷积,将{c2,c3,c4,c5}处理为{f2,f3,f4,f5},f2,f3,f4,f5则分别是经过1×1卷积和注意力机制上采样特征融合后的多层级多尺度特征图,其与{c2,c3,c4,c5}一一对应。顶层特征图为f5=conv1×1(c5),而其余层表示为fi=conv1×1(ci)+att_upsampe(fi+1),i=4,3,2。其中conv1×1表示1×1卷积,att_upsampe表示注意机制上采样,i则表示特征图的对应层数,如fi+1→fi,i=3时,表示将第4层特征图的语义信息传递至第3层特征图;

24、s4、将{f2,f3,f4,f5}通过conv3×3得到{p2,p3,p4,p5},p2,p3,p4,p5分别表示经过3×3卷积缓解混叠效应后最终生成的第2,3,4,5层融合特征图,然后将{p2,p3,p4,p5}输入至rpn头部网络,生成多尺度目标的区域候选边框;

25、s5、对区域候选特征图进行感兴趣区域池化roi pooling,并转换为相同尺寸,输入全连接层;

26、s6、经过两层全连接层的输出,对检测目标进行softmax分类和边框回归修正;

27、s7、通过深度学习实验平台对步骤s1处理的道路目标数据集进行步骤s2-s6迭代训练,以生成道路目标检测模型,并验证模型的检测效果;

28、s8、将道路目标检测模型部署至实车,进行实时道路目标检测实验。

29、一种存储介质,其上存储有计算机程序,其所述计算机程序被处理器执行时实现如所述的道路目标检测方法。

30、一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如所述的道路目标检测方法。

31、本发明的优点及有益效果如下:

32、本发明提供了一种基于深度学习的道路目标检测方法,整体网络结构采用fasterr-cnn网络,其中骨干网络使用残差网络resne以提高分类准确度;颈部网络使用基于注意力机制上采样的fpn,可在一定程度上解决传统fpn的最近邻插值法上采样无法有效传递多尺度目标深层语义信息的问题;头部网络采用rpn网络生成区域候选框,后续通过感兴趣区域池化送入至全连接层进行softmax目标分类以及目标边框回归修正。

33、本发明主要在faster r-cnn网络结构中采用了基于注意力机制上采样的fpn颈部网络,可有效地传递多尺度目标深层语义信息,即进而提高对道路场景中小目标的检测精度。

34、fpn在许多计算机视觉任务中均有应用,因此本发明中针对fpn的改进是具有挑战性的,将最近邻插值法的上采样替换为基于注意力机制的上采样后,对道路场景图像数据集进行训练、验证,并与未改进的fpn对比,针对小目标的检测平均精度提升了2%,整体精度提升了1.4%。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1