基于改进YOLOv5-L的宠物犬视频目标检测方法及系统与流程

文档序号：32886539发布日期：2023-01-12 21:53阅读：24来源：国知局

基于改进yolov5-l的宠物犬视频目标检测方法及系统
技术领域
1.本发明涉及视频目标检测技术领域，更具体地，涉及一种基于改进yolov5-l的宠物犬视频目标检测方法及系统。

背景技术：

2.当前社会，宠物犬已经是很多人共同生活的伙伴，人们为了消除孤寂或出于娱乐目的而豢养它们，宠物犬是一种灵性、聪明的动物，它们在经过人类驯化以后，动作敏捷，善解人意，忠诚主人，同时理解宠物犬的动作行为也是一项重要的研究工作。
3.目标检测是目前计算机视觉领域的热点，传统的分类任务一般只关心整体，得到的是一张图像的内容描述，而目标检测任务则不同，目标检测关注的是特定的物体目标，目标检测需要的是从背景中提取出感兴趣的目标，并确定这一目标的位置，因而目标检测输出的是一个列表，包含目标的类别和位置。现有的目标检测算法一般分为两种：two-stage检测模型和one-stage检测模型。two-stage检测模型先进行区域生成，该区域称之为region proposal，在通过卷积网络进行样本的分类，常用的two-stage检测模型有r-cnn、spp-net、fast r-cnn等。one-stage检测模型则不需要生成region proposal，直接从输入数据中提取特征，直接预测物体的类别和位置信息，常用的算法有：ssd和yolo。
4.虽然现有的two-stage检测模型在通用数据集上测试的精度不错，但是这些模型的检测速度非常慢，尤其是在进行视频的检测时，面对fps大于25的视频，two-stage检测模型完全做不到实时的检测。相较于two-stage检测模型，one-stage检测模型的速度更快，其中yolov5模型的检测速度远高于two-stage检测模型。但是现有的目标检测模型只适合检测形状规则的物体，在宠物犬视频目标检测中，当宠物犬在运动时，形态发生改变，该模型就很难检测准确。

技术实现要素：

5.针对上述问题，本发明的目的在于提供一种基于改进yolov5-l的目标检测模型，并通过预处理数据集，进行数据加强，提升检测宠物犬运动视频帧时的精确度。
6.基于上述目的，本发明提出了一种基于改进yolov5-l的宠物犬视频目标检测方法及系统。
7.一种基于改进yolov5-l的宠物犬视频目标检测方法，包括如下步骤：
8.基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的视频数据分别构建初始训练集测试集；
9.对所述包含宠物犬的视频进行帧提取，得到帧图像；
10.对所述初始训练集进行预处理，得到最终训练集；
11.改进yolov5-l模型并进行训练，具体为：搭建backbone网络，改进pred模块，在backbone网络后加入sk注意力机制；设置训练参数，对改进后的yolov5-l模型进行训练，保存最佳权重参数文件；将所述最佳权重参数文件放入检测器中，对所述最终测试集中视频
进行检测，保存所有检测到宠物犬的视频帧，使用ap指标对检测结果进行评估，进而得到最佳改进yolov5-l模型；
12.将待测宠物犬视频输入最佳yolov5-l模型，得到相应的检测结果。作为一种可实施方式，所述构建初始训练集和测试集，包括以下步骤：
13.基于获取到的包含宠物犬图像数据，得到所有已标注的宠物犬图片；
14.带有不同背景噪声的宠物犬图片，使用labelimg标注工具对所有图片进行标注，得到已标注的宠物犬图片，其中所述不同背景噪声至少包括草地、雪山、屋内及街道中的一种或几种；
15.将所述已标注的宠物犬图片合并为初始训练集；
16.在视频网站搜集人与宠物犬互动的视频，使用4k video工具进行下载保存；
17.裁剪保存的视频，使原视频拆分为3s-10s的短视频，保存所有短视频得到测试集。
18.作为一种可实施方式，所述对测试集中的视频进行帧提取和对初始训练集进行预处理，包括以下步骤：
19.通过extractor算法对测试集中视频进行逐帧提取，保存所有视频帧图像；
20.从所述视频帧图像中选取部分宠物犬形态异常和运动模糊的图片并进行标注，得到标注图片；
21.随机选取若干所述标注图片进行左右平移、多图叠加及比例缩放，得到多种形态特征的已处理标注图片；
22.将所述已处理标注图片和所述初始训练集进行合并得到最终训练集。
23.作为一种可实施方式，所述搭建backbone网络包括下采样模块、cbr模块、res模块、csp_x模块；
24.所述下采样模块；采用split算法将640像素*640像素rgb图像切分为12通道特征图，通过卷积得到64通道特征图；
25.所述cbr模块；包括3*3卷积层、正则化层及relu函数；
26.所述res模块；包括两个cbr模块和空层残差并且相互连接；
27.所述csp_x模块；用于提取特征，包括相互连接的cbr模块、x个res模块及空层残差，其中，x表示个数。
28.作为一种可实施方式，所述改进pred模块，包括：在输出层前面加入flatten算法，将特征图一维化，将输出层中的卷积层替换为全连接层。
29.作为一种可实施方式，所述sk注意力机制包括split单元、fuse单元及select单元；split单元通过三种尺寸的卷积核对原特征图进行卷积；fuse单元计算每个卷积核的权重，将三个分支的特征图按元素求和，通过全局平均池化生成通道统计信息，得到新的特征维度为c*1；select单元利用softmax计算每个卷积核的权重，融合所有卷积核形成最终输出的卷积核。
30.作为一种可实施方式，所述改进yolov5-l模型并进行训练，还包括以下步骤：
31.修改yaml配置文件中的number class更改检测类别，类别包括：dog、human；
32.设定nms机制用于保留预测最好的预测框，将其余预测框的置信度降为0；
33.设定损失函数为diou_loss；
34.设置训练超参数，设置训练轮数为300，优化器为改进sgd，初始学习率为0.01，学
习率动量为0.95，训练批次为64；
35.训练集进入模型进行训练，经过多次迭代，得到最佳权重参数，保存文件为best.pt。
36.作为一种可实施方式，将最佳权重参数放入检测器中，加入缩放算法固定传入的视频帧大小为640像素*640像素，放入测试集视频进行检测，保存所有检测到宠物犬的视频帧；采用ap指标评估模型的精确度，ap指标计算方式为：ap＝检测到的出现宠物犬的视频帧数/视频中所有出现宠物犬的视频帧数。
37.一种基于改进yolov5-l的宠物犬视频目标检测系统，包括数据获取模块、图像提取模块、预处理模块、模型改进训练模块及结果检测模块；
38.所述数据获取模块，基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的视频数据分别构建初始训练集测试集；
39.所述图像提取模块，对所述包含宠物犬的视频进行帧提取，得到帧图像；
40.所述预处理模块，对所述初始训练集进行预处理，得到最终训练集；
41.所述模型改进训练模块，用于改进yolov5-l模型并进行训练，具体为：搭建backbone网络，改进pred模块，在backbone网络后加入sk注意力机制；设置训练参数，对改进后的yolov5-l模型进行训练，保存最佳权重参数文件；将所述最佳权重参数文件放入检测器中，对所述最终测试集中视频进行检测，保存所有检测到宠物犬的视频帧，使用ap指标对检测结果进行评估，进而得到最佳改进yolov5-l模型；
42.结果检测模块，用于将待测宠物犬视频输入最佳yolov5-l模型，得到相应的检测结果。
43.与现有技术相比，本发明提出的一种基于改进yolov5-l的宠物犬视频目标检测方法，具有如下有益效果：
44.1.通过合并多个数据集为训练集，增加了训练时的数据量，丰富了模型能训练到的特征；
45.2.通过改进yolov5-l模型，既减少了模型的参数量，又加快了检测速度；
46.3.通过抽取测试集中视频的模糊帧和遮挡帧，合并训练集，提高了检测宠物犬运动模糊时的精确度，当宠物犬形态发生改变时，检测的精确度比未改进的yolov5-l模型更高；
47.4.加入sk注意力机制，提高了模型对于重要特征的关注度，更好地获取局部和全局的联系。
附图说明
48.图1为本发明的整体实施流程步骤图。
49.图2为对测试集中的视频进行帧提取和对初始训练集进行预处理的步骤图。
50.图3为测试集中某视频的一张视频帧的检测结果。
具体实施方式
51.为了清晰地阐述本发明，下面结合了本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，以令本领域技术人员参照说明书文字能够据以实施。
52.图1为本发明的整体流程实施步骤图，一种基于改进yolov5-l的宠物犬视频目标检测方法包括如下步骤：
53.步骤一，构建构建初始训练集和测试集：在kaggle上搜集数据集dogbreed和数据集dogs vs cats redux，提取出这两个数据集中的涉及到宠物狗的图片；搜集带有不同的背景噪声(例如：草地、雪山、屋内、街道)，并且图片中存在宠物犬的图片；使用labelimg标注工具对所有图片进行标注，得到已标注的宠物犬图片；将所述已标注的宠物犬图片合并为初始训练集；在youtube网站搜集人与宠物犬互动的视频，使用4kvideo工具进行下载保存；裁剪保存的视频，使原视频拆分为3s-10s的短视频，保存所有短视频得到测试集。
54.步骤二，对测试集中的视频进行帧提取和对初始训练集进行预处理，具体步骤如下：使用extractor算法对测试集中视频进行逐帧提取，保存所有视频帧图像；从视频帧图像中选取部分宠物犬形态异常和运动模糊的图片并进行标注，得到有标注图片；随机选取训练集中图片进行左右平移、多图叠加、比例缩放，丰富宠物犬的形态特征；将所述有标注图片和所述初始训练集进行合并得到最终训练集。
55.步骤三，改进yolov5-l模型，首先搭建backbone网络，backbone网络具体包括：下采样模块、cbr模块、res模块、csp_x模块；其中下采样模块采用split算法将640像素*640像素rgb图像切分为12通道特征图，再通过卷积得到64通道特征图；backbone包含5个cbr模块，cbr模块由3*3卷积层、正则化层、relu函数构成；res模块由两个cbr模块和空层残差连接；csp_x模块用于主要特征提取，由cbr模块、x个res模块和空层残差连接；backbone包含一个csp_2，两个csp_4，一个csp_8模块。
56.步骤四，改进yolov5-l模型，其次，改进pred模块，具体如下：在输出模块前面加入flatten算法，将特征一维化，输出模块中的卷积层替换成全连接层；本模型检测的种类较少，全连接层不会增加过多的参数计算，并且在检测精确度上可以做到更好。
57.步骤五，改进yolov5-l模型，在backbone网络后面加入sk注意力机制，该机制由split、fuse、select三部分组成；split部分先通过三种尺寸的卷积核对原特征图进行卷积；fuse部分计算每个卷积核的权重，将三个分支的特征图按元素求和，通过全局平均池化生成通道统计信息，得到新的特征维度为c*1；select部分利用softmax计算每个卷积核的权重，融合所有卷积核形成最终输出的卷积核。
58.步骤六，对改进后的模型进行训练，具体如下：修改yaml配置文件中的number class更改检测类别，类别包括：dog、human；设定nms机制用于保留预测最好的预测框，将其余预测框的置信度降为0；设定损失函数为diou_loss；设置训练超参数，设置训练轮数为300，优化器为改进sgd，初始学习率为0.01，学习率动量为0.95，训练批次为64；训练集进入模型进行训练，经过多次迭代，得到最佳权重参数，保存文件为best.pt。
59.步骤七，将权重参数文件best.pt放入检测器中，加入缩放算法固定传入的视频帧大小为640像素*640像素，放入测试集视频进行检测，保存所有检测到宠物犬的视频帧；采用ap指标评估模型的精确度，ap指标计算方式为：ap＝检测到的出现宠物犬的视频帧数/视频中所有出现宠物犬的视频帧数。
60.上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领
域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄步添汪志刚刘振广焦颖颖许曼迪
技术所有人：杭州云象网络技术有限公司
我是此专利的发明人

上一篇：一种密封性好的过滤型水龙头壳体的制作方法
上一篇：一种高精度可转动立式加工中心加工单元的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。