一种基于改进YOLOv8的目标检测方法

文档序号:38981545发布日期:2024-08-16 13:37阅读:52来源:国知局
一种基于改进YOLOv8的目标检测方法

本发明涉及互联网大数据及计算机视觉领域,具体涉及一种基于改进yolov8的目标检测方法。


背景技术:

1、在当今信息时代,随着数据量的激增,尤其是图像数据的广泛应用,目标检测技术已成为计算机视觉领域中的一个重要研究方向。目标检测不仅关系到图像识别、视频分析和自动驾驶等多个实际应用,同时也是智能监控、高级机器人感知等高科技领域中不可或缺的关键技术。

2、传统目标检测方法包括基于haar特征的级联分类器(如viola-jones检测器)和基于传统机器学习算法的目标检测(如svm、hog+svm)。其中,基于haar特征的级联分类器具有计算速度快、相对简单易于理解和实现的优点,但检测精度不高,容易受到光照、角度等因素的影响,不适用于复杂场景和小目标检测。而基于传统机器学习算法的目标检测,在一定场景下能够取得较好的检测效果,适用于较简单的目标检测任务,但对于复杂场景和小目标检测的效果较差,且需要手动设计特征,不具备端到端的训练能力,对数据和场景的依赖性较强。

3、随着深度学习技术的迅速发展,深度学习目标检测方法在目标检测领域取得了显著的进展。这些方法主要包括基于深度学习的目标检测算法,如基于区域的卷积神经网络(r-cnn)系列方法和单阶段检测器(如yolo、ssd)等。基于区域的卷积神经网络(r-cnn)系列方法包括fast r-cnn、faster r-cnn和mask r-cnn等。这些方法通过先生成候选区域,然后对候选区域进行分类和边界框回归,最终得到目标检测结果。相比传统方法,它们具有更高的检测精度和更好的鲁棒性,能够适应复杂场景和小目标检测。单阶段检测器如yolo(youonly look once)和ssd(single shot multibox detector),将目标检测任务建模为一个端到端的回归问题,直接预测图像中的目标类别和位置。

4、然而申请人在实际研究中发现,现有的yolo模型主要存在以下问题:1)在复杂场景下,背景的复杂性会增加,例如多变的光照条件、复杂的纹理或是动态背景,这些因素都可能导致yolo模型难以区分前景目标和背景,同时目标之间的遮挡也会严重影响检测的准确性,因为遮挡部分的目标特征不完整,导致识别困难。2)yolo模型的数据量庞大,计算复杂度高、推理时间长,难以在边缘计算平台或较低端的设备上运行,导致目标检测的实用性不好。因此,如何提高目标检测的准确性和实用性是亟需解决的技术问题。


技术实现思路

1、针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于改进yolov8的目标检测方法,通过在yolov8中引入自适应双层注意力机制来增强对目标关键特征的敏感性,进而解决了在复杂场景下目标检测的挑战,同时通过引入轻量级卷积来使得yolov8模型能够在资源有限的设备上运行,从而提高目标检测准确性和实用性。

2、为了解决上述技术问题,本发明采用了如下的技术方案:

3、基于改进yolov8的目标检测方法,包括:

4、s1:获取待检测图像;

5、s2:将待检测图像输入基于yolov8构建的目标检测模型中,输出所有检测目标的类别、边界框位置以及置信度;

6、目标检测模型的处理步骤如下:

7、s201:通过骨干网络对待检测图像进行多层级的特征提取,得到多个层级的语义特征图;

8、其中骨干网络引入了sda模块来增强对目标关键特征的敏感性,同时引入lcb模块替换原有的卷积模块来实现以更低的时间复杂度保留通道之间的隐藏连接;

9、s202:通过颈部网络对多个层级的语义特征图进行进一步处理,将不同层级的语义特征图进行融合,生成多个尺度的融合特征图;

10、s203:将多个尺度的融合特征图输入任务头网络,输出各个检测目标的类别、边界框位置以及置信度;

11、s3:将所有检测目标的类别、边界框位置以及置信度作为待检测图像的目标检测结果。

12、优选的,步骤s1中,对待检测图像进行包括尺寸标准化和色彩空间转换的预处理。

13、优选的,步骤s1中,骨干网络包括依次首尾连接的第一个lcb模块、四个模块组合1、sda模块和sppf模块;其中模块组合1包括首尾连接的一个lcb模块和一个c2f模块;

14、第一个lcb模块的输入作为骨干网络的输入;

15、四个模块组合1中第二组和第三组模块组合1的c2f模块的输出分别作为骨干网络第一个层级和第二个层级的语义特征图进行输出;sppf模块的输出作为骨干网络第三个层级的语义特征图进行输出;

16、lcb模块用于以更低的时间复杂度保留通道之间的隐藏连接;

17、sda模块用于增强对目标关键特征的敏感性;

18、sppf模块用于在特征图上执行空间金字塔池化策略,将不同尺度的信息融合到一起;

19、c2f模块用于直接将较低层次的特征图连接到较高层次的特征图上。

20、优选的,lcb模块包括卷积操作、深度可分离卷积操作和像素混洗操作;

21、lcb模块的计算公式如下:

22、

23、

24、

25、式中:x3表示lcb模块的输出;表示输入的特征图;conv()表示卷积操作;dwconv()表示深度可分离卷积操作;shuffle()表示像素混洗操作。

26、优选的,sda模块包括逐空间注意力机制和逐通道注意力机制;

27、sda模块的计算公式如下:

28、xatt=x+(αxatt,pixel+βxatt,ch);

29、

30、

31、

32、

33、式中:为sda模块的输出,表示像素域和通道域中的相关上下文信息;表示sda模块的输入;α≥0、β≥0分别是两个可学习的参数;分别表示逐像素注意力特征图和逐通道注意力特征图;表示逐像素注意力系数;t表示转置运算;表示矩阵乘法;表示通过归一化因子来对输出进行约束;kch表示通道注意系数。

34、优选的,sppf模块包括依次首尾连接的第一个lcb模块、三个2d最大池化层、连接层和第二个lcb模块;第一个lcb模块、三个2d最大池化层的输出均作为连接层的输入;

35、第一个lcb模块的输入为sppf模块的输入;

36、第二个lcb模块的输出为sppf模块的输出。

37、优选的,c2f模块包括依次首尾连接的第一个lcb模块、split层、若干个thin-neck层、连接层和第二个lcb模块;第一个lcb模块、split层、thin-neck层的输出均作为连接层的输入;

38、第一个lcb模块的输入为c2f模块的输入;

39、第二个lcb模块的输出为c2f模块的输出;

40、thin-neck层包括依次首尾连接的第一个卷积层、lc bottleneck层、连接层和第二个卷积层;lc bottleneck层的输出经过分支卷积层后作为连接层的输入;其中lcbottleneck层包括依次首尾连接两个lcb模块,第一个lcb模块的输出经过分支卷积层后与第二个lcb模块的输出进行拼接作为lc bottleneck层的输出;

41、第一个卷积层的输入为thin-neck层的输入;

42、第二个卷积层的输出为thin-neck层的输出。

43、优选的,颈部网络包括两条颈部支路,第一条颈部支路包括依次首尾连接的两组模块组合2,第二条颈部支路包括依次首尾连接的两组模块组合3;

44、模块组合2包括依次首尾连接的上采样层、连接层和c2f模块;模块组合3包括依次首尾连接的lcb模块、连接层和c2f模块;

45、两组模块组合2中:第一组模块组合2的上采样层输入为第三个层级的语义特征,连接层输入为第二个层级的语义特征;第二组模块组合2的连接层输入为第一个层级的语义特征;

46、两组模块组合3中:第一组模块组合3的lcb模块输入为第二组模块组合2的c2f模块输出,连接层输入为第一组模块组合2的c2f模块输出;第二组模块组合3的连接层输入为第三个层级的语义特征;

47、第二组模块组合2、第一组模块组合3和第二组模块组合3的c2f模块输出分别作为颈部网络第一个层级、第二个层级和第三个尺度的融合特征图进行输出。

48、优选的,任务头网络包括输入分别为第一个尺度、第二个尺度和第三个尺度的融合特征图的三个头部,每个头部均包括bboxloss分支和clsloss分支;

49、三个头部用于进行不同尺度的目标检测;三个头部通过bboxloss分支来输出检测目标的边界框位置和置信度,通过clsloss分支来输出检测目标的类别;

50、bboxloss分支包括依次首尾连接的lcb模块、2d卷积层和bboxloss层;训练时,通过计算bboxloss层的边界框回归损失来优化模型参数;

51、clsloss分支包括依次首尾连接的lcb模块、2d卷积层和clsloss层;训练时,通过计算clsloss分支的分类损失来优化模型参数。

52、优选的,计算bboxloss层的边界框回归损失的公式如下:

53、

54、式中:xi表示真实的边界框位置;表示预测的边界框位置;

55、置信度的计算公式如下:

56、

57、式中:lou(pred,truth)表示预测边界框和真实边界框的交并比;po表示预测概率;

58、计算cls损失层的分类损失的公式如下:

59、

60、式中:yo,c是一个指示器,若样本o属于类别c,则为1,反之为0;po表示样本o属于类别c的预测概率。

61、本发明中基于改进yolov8的目标检测方法与现有技术相比,具有如下有益效果:

62、本发明在yolov8模型的骨干网络中引入了自适应双层注意力机制来增强对目标关键特征的敏感性。首先自适应双层注意力机制通过增强对目标关键特征的敏感性,解决了在复杂场景下目标检测的挑战,例如光照变化、纹理复杂或目标遮挡等,这种注意力机制有助于模型更好地聚焦于重要的特征,并提高目标的识别准确性。其次自适应双层注意力机制能够在多层特征图中计算不同尺度的注意力权重,并突出重要的尺度信息,使模型更加关注不同尺度目标的特征,从而进一步提高目标检测的准确性。最后传统的目标检测算法在处理多尺度目标时可能存在困难,但通过引入自适应双层注意力机制可以很好地解决这个问题,因为它能够根据不同的尺度信息给予不同的注意力权重,从而更好地检测不同大小的目标。

63、本发明在yolov8模型的骨干网络中引入了轻量级卷积实现以更低的时间复杂度保留通道之间的隐藏连接。首先轻量级卷积模块可以在保持性能的同时降低模型的计算复杂度,使得模型能够在更短的时间内完成目标检测任务。其次轻量级卷积模块通常具有更少的参数和更小的模型体积,有助于减少内存占用,使得模型能够在资源有限的设备上运行,从而提高目标检测的实用性。最后由于轻量级卷积模块的引入,yolov8模型可以在保持高准确度的同时实现更高的实时性能,这对于需要快速响应的应用场景至关重要。

64、本发明通过改进的yolov8模型实现目标检测,并输出各个检测目标的类别、边界框位置以及置信度。首先改进的yolov8模型且借鉴了多个前代yolo模型的设计优点,其能够在保持实时性能的同时大幅提高了检测的准确度,能够更好地满足实际应用的需求。其次改进的yolov8模型采用了新的骨干网络即更先进的特征提取网络,使得yolov8模型能够从图像中提取出更丰富、更有区分度的特征,有助于提高目标检测的准确性。最后通过引入改进的多尺度预测技术,使得改进的yolov8模型可以更好地检测不同大小的对象,从而进一步提高了目标检测的全面性和准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1