一种基于YOLOv5改进的行人检测算法

文档序号:35062589发布日期:2023-08-09 01:35阅读:68来源:国知局
一种基于YOLOv5改进的行人检测算法

本发明属于深度学习中的目标检测,具体涉及一种基于yolov5改进的行人检测算法。


背景技术:

1、随着人工智能领域的快速发展,特别是卷积神经网络(一种高效识别方法)的崛起,使得目标检测技术得到较为突出的发展,也受到了更多的关注。目前,目标检测领域已经有相对成熟的算法,例如faster-rcnn(ren s,hek,girshick r,et al.faster r-cnn:towards real-time object detectionwith region proposal networks[j].ieeetransactions on pattern analysis&machine intelligence,2017,39(6):1137-1149.)算法、yolov5。

2、目标检测技术中的行人检测,因其在许多领域(例如无人驾驶、人机交互、行人跟踪、智能交通智能监控识别等领域)的发展上均具有较为突出的作用,而受到了广泛的关注。但是目前较为热门的算法,均具有一定的缺陷,例如faster-rcnn算法在目标检测中精度高,但是检测速度很慢;而yolov5在行人检测上,并不能表现出很好的泛化性能。

3、yolov5作为目前最主流的目标算法,发明人基于此研发了一种行人检测算法,能够克服现有技术存在的问题。


技术实现思路

1、本发明意在提供一种基于yolov5改进的行人检测算法,本发明旨在解决现有技术中存在的技术问题。

2、为实现上述目的,本发明提供如下技术方案,一种基于yolov5改进的行人检测算法,将复杂的网络模块化,具体包括特征提取网络、特征融合网络和网络的检测头;利用特征提取网络提取图像的不同深度特征;利用特征融合网络先从顶层特征向底层特征融合,再从底层特征向顶层特征融合;利用网络的检测头检测小、中、大目标,并输出3个特征向量进行通道上的堆叠,再通过非极大值抑制操作得到检测结果。

3、在本发明的另一种优选实施方式中,特征提取网络和特征融合网络均包括多个卷积模块和c3模块,特征提取网络还包括一个特征金字塔模块。

4、在本发明的另一种优选实施方式中,卷积模块均包括卷积层、batchnormalization层和silu激活函数。

5、在本发明的另一种优选实施方式中,c3模块是一个残差网络结构,其bottleneck的个数为3。

6、在本发明的另一种优选实施方式中,c3模块的bottleneck包括bottleneck1和bottleneck2两种形式,bottleneck1为两个卷积模块构成的残差网络结构,bottleneck2为两个卷积模块直接相连,没有残差连接。

7、在本发明的另一种优选实施方式中,特征提取网络里的c3模块使用的是bottleneck1,特征融合网络里的c3模块使用的是bottleneck2。

8、在本发明的另一种优选实施方式中,特征融合网络还包括cbam模块。

9、在本发明的另一种优选实施方式中,优化训练过程中的定位损失函数的定位损失度量标准为lloc=ηllgiou+η2ldiou;

10、η1,η2满足如下条件,

11、

12、在本发明的另一种优选实施方式中,具体操作步骤如下,

13、步骤一,先进行数据增强,再将图像输入网络;

14、步骤二,将输入的图像调整到640×640×3,再输入到特征提取网络backbone中,经过前两个卷积模块后,输出320×320×64的特征向量;

15、步骤三,使用一个c3模块,输出160×160×128的特征向量;

16、步骤四,使用一个卷积模块,输出80×80×256的特征向量;

17、步骤五,使用一个c3模块,输出80×80×256的特征向量;

18、步骤六,使用一个卷积模块,输出40×40×512的特征向量;

19、步骤七,使用一个c3模块,输出40×40×512的特征向量;

20、步骤八,使用一个卷积模块,输出20×20×1024的特征向量;

21、步骤九,使用一个c3模块,输出20×20×1024的特征向量;

22、步骤十,使用一个特征金字塔模块,输出20×20×1024的特征向量;

23、步骤十一,步骤十输出的特征向量经过一个卷积模块和cbam模块后,维度变为20×20×512,通过上采样,输出为40×40×512,再与步骤7中的输出进行融合,输出40×40×1024的特征向量;

24、步骤十二,使用一个c3模块,输出40×40×512的特征向量;

25、步骤十三,步骤十二输出的特征向量经过一个卷积模块和cbam模块后,维度变为40×40×256,通过上采样,输出为80×80×256,再与步骤五中的输出进行融合,输出80×80×512的特征向量,完成自顶向底的特征融合;

26、步骤十四,使用一个c3模块,输出80×80×256的特征向量;

27、步骤十五,步骤十四输出的特征向量经过一个卷积模块后,维度变为40×40×256,再与步骤十三中的40×40×256的特征向量进行融合,输出40×40×512的特征向量;

28、步骤十六,使用一个c3模块,输出40×40×512的特征向量;

29、步骤十七,步骤十六输出的特征向量经过一个卷积模块后,维度变为20×20×512,再与步骤十一中的20×20×512的特征进行融合,输出20×20×2024的特征向量,完成自底向顶的特征融合;

30、步骤十八,使用一个c3模块,输出20×20×2024的特征向量;

31、步骤十九,步骤十四、步骤十六、步骤十八的输出为特征融合网络的输出,即3种尺度的特征,将这3个特征向量进行通道上的拼接便得到最终的目标检测结果。

32、本技术方案具有以下有益效果:

33、1、现有的yolov5模型是在大型数据集coco上进行训练,不能很好的泛化到新人数据集,即网络模型的复杂度和新人数据集的复杂度不能匹配,而本技术方案通过将特征提取网络进行压缩,能够很好的提高泛化性能。

34、2、本技术方案在特征融合网络的模块内加入空间和通道注意力机制模块,能够较好的融合不同尺寸的特征,减少网络丢失较多的空间信息和通道信息。

35、3、本技术方案通过对定位损失函数进行优化,达到了更好的泛化效果。

36、本发明提供的一种基于yolov5改进的行人检测算法,包括特征提取网络、特征融合网络和检测头三个模块。通过对原始的yolov5特征提取网络进行模型压缩,使之能更好的拟合单目标的行人数据集;并且在特征融合层模块,将特征融合前的卷积模块替换为注意力机制层,并且对定位损失函数进行优化,能达到更好的泛化效果。

37、综上,本发明改善了行人检测的精度和速度,在密集行人检测上也能达到很好的效果。

38、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1