一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法

文档序号：34060601发布日期：2023-05-06 02:57阅读：66来源：国知局

本发明涉及人工智能图像识别领域，具体涉及一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法。

背景技术：

1、我国许多城市都有水族馆，水下动物种类繁多，引入一套摄像设备，对视野内的鱼类进行实时且有效的识别与标注可以降低游客学习的门槛，提升参观体验。当前人工智能在目标检测领域的应用十分广泛，其中yolo系列算法是公认的较好的算法。yolov5由backbone和head两个部分组成，实现了端到端的检测。然而，直接使用目标识别技术虽然可以在实现对水族馆鱼类的框选和标注，但也同时面临水下目标识别困难以及鱼类重叠现象的挑战。

2、由于水下环境的复杂性以及鱼类的多样性，现存的卷积神经网络识别结果的准确度与实时性均不够理想。yolo模型能够提取和训练数据集的特征，并对样本进行学习和预测。然而，由于鱼类的游动以及其本身生活习性，常常发生多个鱼类的重叠，对识别效果造成影响。

3、现有的目标检测算法主要包括传统目标检测算法和基于深度学习的目标检测算法，基于深度学习的目标检测算法又可以分为anchor based方法和anchor free方法。传统目标检测算法主要基于手工提取特征，存在特征提取困难、缺乏通用性、耗时长等缺点。基于深度学习的目标检测算法精确性高，鲁棒性强。其中anchor-based方法包括一阶段和二阶段检测算法，二阶段目标检测算法精度要高，一阶段检测算法速度更快。现阶段anchor-free方法存在正负样本极端不平衡、语义模糊性(两个目标中心点重叠)、检测结果不稳定等缺点。如通过图像增强与改进faster-rcnn网络的重叠鱼群尾数检测基于faster-rcnn进行改进，但因水下图像容易出现颜色偏移和亮度较低的等问题，检测成功率不高。

技术实现思路

1、为了解决现有技术在水族馆管理以及教学过程中不能对鱼类状态以及类别进行高效率分辨监控问题，本发明提供一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，具体技术方案如下：

2、一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，该方法包括如下步骤：

3、步骤一：使用带有深度传感器的摄像机采集水下视频的rgbd信息，从视频中抽取图像，完成对检测目标的图像信息采集；

4、步骤二：利用sea-thru算法重建水下场景，对水下图像进行修复，具体包括：利用已知的距离，以暗通道先验的方式估计后向散射；然后利用局部空间平均颜色，估计距离相关衰减系数；

5、步骤三：构建并训练改进的yolov5模型，所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层cbam，并将conv层中的激活函数由silu改为可以提取二维空间信息的frelu；所述改进的yolov5模型的输入为修复后的水下图像，输出为检测框的信息；

6、步骤四：对视频流按照一定的帧采样速率进行采样，得到单帧图像，并按照步骤二进行修复后，输入训练后的改进的yolov5模型，模型输出检测框的信息，并对检测框的信息求差分，得到每个目标的状态向量其中，x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高，为相邻两帧对应状态的差分；

7、步骤五：对每帧图像，使用卡尔曼滤波的思想进行连续两帧图像的追踪，得到各目标状态向量的最优预测值；

8、步骤六：设相邻两帧之间同一目标的最优预测值的落点满足正态分布，根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ2，以此计算各落点的空间分布律；

9、步骤七：根据不同落点的空间分布律的重合程度判断出现重叠的概率，同时综合重叠发生的形态学特征作为重叠判据；若发生重叠，则按照步骤五预测的多目标结果为准，并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行调整；若未发生重叠，则以改进的yolov5模型的输出的检测值为准。

10、进一步地，所述步骤五包括如下子步骤：

11、(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值，利用上一帧状态向量的最优预测值与输入向量ut-1代入计算当前帧的预测值其中，f为状态转移矩阵，b为控制矩阵，δt为相邻两帧之间的时间；

12、

13、(5.2)根据pt-＝fpt-1ft+q用上一帧最优估计协方差矩阵pt-1和超参数过程噪声方差矩阵q推出当前帧的协方差矩阵pt-；

14、(5.3)根据kt＝pt-ht(hpt-ht+r)-1，用当前帧的协方差矩阵pt-和观测噪声方差矩阵r推出卡尔曼增益kt；h为增益矩阵；

15、(5.4)根据用预测值与观测值zt推出最优状态向量估计值作为最终的状态向量，并更新修正当前帧的协方差矩阵pt-；

16、(5.5)根据当前帧的协方差矩阵pt-以及卡尔曼增益kt，更新当前帧的最优协方差矩阵pt＝(i-kth)pt-，用于计算下一帧的协方差矩阵；

17、(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算，通过内积运算值与阈值相比，当内积运算值大于阈值时，则预测值与检测值相似，为同一目标；否则，为不同目标，从而实现目标跟踪。

18、进一步地，所述形态学特征为：出现某检测值与多个预测向量的x，y相近，而w，h大于单个预测向量的情况。

19、进一步地，所述步骤七中，若发生重叠，则按照步骤五预测的多目标结果为准，并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整：

20、对于检测框边缘与图像边缘距离d小于检测框宽度或高度l的10％的检测框，降低非极大值抑制nms，具体为：

21、nms＝nms×f(d/l)

22、f(d/l)＝ae-((d/l)/b)lna。

23、进一步地，a＝0.1，b＝0.5。

24、本发明的有益效果如下：

25、本发明的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，首先对yolov5模型进行改进，引入自注意力层和可以有效提取二维空间信息的frelu激活函数，同时使用卡尔曼方法建立连续帧之间的状态变化关系，并根据时间序列产生的参数变量分布辅助预测，从而实现针对重叠目标的实时辨识，输出待检测目标的位置和分类信息。同时在使用卡尔曼方法建立连续帧之间的状态变化关系时，应用运动的差分模型与时序处理方法，增强了整个辨识方法的可解释性，利用了相邻帧之间的信息，由其针对重叠目标提升了的识别的效果。

技术特征：

1.一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，其特征在于，所述步骤五包括如下子步骤：

3.根据权利要求2所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，其特征在于，所述形态学特征为：出现某检测值与多个预测向量的x，y相近，而w，h大于单个预测向量的情况。

4.根据权利要求1所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，其特征在于，所述步骤七中，若发生重叠，则按照步骤五预测的多目标结果为准，并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整：

5.根据权利要求4所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，其特征在于，a＝0.1，b＝0.5。

技术总结
本发明公开一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，对yolov5进行改进，在用于金字塔结构的三层之前各引入一层自注意力层CBAM，将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FReLU，并使用卡尔曼方法建立连续帧之间的状态变化关系，并根据时间序列产生的参数变量分布辅助预测，通过对下一帧的预测信息，帮助判断鱼类的重叠情况，进而实现针对重叠目标的实时辨识。本发明应用运动的差分模型与时序处理方法，增强了算法的可解释性，同时针对水下场景对处理步骤进行了微调，对水下重叠目标具有很好的检测效果。

技术研发人员：黄慧,郭明皓,曲景邦,李龙宇,蒋吉庆
受保护的技术使用者：浙江大学
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄慧郭明皓曲景邦李龙宇蒋吉庆
技术所有人：浙江大学
我是此专利的发明人

上一篇：手镯的制作方法
上一篇：一种船舶航行动静态路径自主切换控制方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。