一种基于部分卷积嵌入和聚集分发机制的目标检测方法

文档序号:37278215发布日期:2024-03-12 21:14阅读:18来源:国知局
一种基于部分卷积嵌入和聚集分发机制的目标检测方法

本发明属于计算机视觉,涉及一种基于部分卷积嵌入和聚集分发机制的目标检测方法。


背景技术:

1、近年来,随着深度学习相关理论的不断加深以及计算机算力的大规模提升,基于深度学习的目标检测技术逐渐发展成熟。目标检测旨在找出图像中指定目标的类别和位置,现已广泛应用到各个领域,如自动驾驶、遥感图像、视频监控以及医疗检测等。yolo(youonlylook once)作为经典的单阶段(one-stage)目标检测算法,它的优势在于实时性高、简洁高效、多尺度检测、全局上下文信息利用和多任务学习,这些特点使得它在快速目标检测和实时应用场景中表现出色。

2、经过不断的版本更新,从yolov1至今发展到yolov8,已经成为单阶段目标检测方法的典型代表。但是,目前,以yolov8为代表的单阶段目标检测技术,其backbone骨干网对特征提取的延迟和推理时间较长,而且在颈部层未能高效融合上下文信息,导致检测效率较低,有待改进。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于部分卷积嵌入和聚集分发机制的目标检测方法,解决以yolov8为代表的单阶段目标检测技术,其backbone骨干网对特征提取的延迟和推理时间较长,而且在颈部层未能高效融合上下文信息,导致检测效率较低的技术问题。

2、为达到上述目的,本发明提供如下技术方案:

3、一种基于部分卷积嵌入和聚集分发机制的目标检测方法,该方法包括以下步骤:

4、s1:获取公共目标检测数据集,将所述公共目标检测数据集中的标注文件转换为yolo格式,并将标注文件转换为yolo格式的公共目标数据集按比例分割为训练集、验证集和测试集;

5、s2:将训练集中的图像进行归一化处理,并将归一化处理的图像和其相应的目标标签合成批次;

6、s3:使用yolov8作为目标检测网络的基础框架,搭建基于部分卷积嵌入和聚集分发机制的目标检测网络模型,所述目标检测模型包括空间特征提取模块和多尺度信息融合模块,所述空间特征提取模块将部分卷积嵌入到骨干网络来增加空间特征信息的提取能力,所述多尺度信息融合模块使用聚集分发机制增加模型的多尺度信息融合能力;

7、s4:将所述s2中合成的批次输入所述s3中搭建的基于部分卷积嵌入和聚集分发机制的目标检测网络模型中进行训练,获得训练后的模型权重;

8、s5:利用s4所训练得到的训练模型权重在测试集中对其进行测试,得到检测结果。

9、进一步的,所述s1中,对公共目标检测数据集采用转换数据格式和分割数据集的python代码将数据集标注文件转换为yolo格式并按照7:1:2的比例数据集划分为训练集、验证集和测试集。

10、进一步的,所述s3中,所述空间特征提取模块将部分卷积嵌入到骨干网络来增加空间特征信息的提取能力,具体包括:

11、搭建空间特征提取模块,将yolov8的骨干部分backbone对应的c2f模块替换为部分卷积的fasternet模块,所述fasternet包括基础网络子模块、快速特征融合子模块和高效上采样子模块,通过嵌入部分卷积来连接每个子模块;

12、所述基础网络子模块,包括卷积层、批归一化层和激活函数层,用于对图像进行特征提取和非线性激活;

13、所述快速特征融合子模块负责将来自不同层级的特征进行融合;

14、所述高效上采样模块用于实现特征图的上采样;

15、部分卷积利用特征映射的冗余,系统的在部分输入通道上应用常规卷积,则部分卷积拥有比一般网络结构较低的总浮点运算数量flops和较高的每秒浮点运算数量flops,通过同时减少冗余计算和内存访问,提取空间特征,部分卷积的flops计算公式为:

16、

17、式中,h是特征图的高,w是特征图的宽,k是卷积核的大小,cp是常规卷积作用的通道数;部分卷积的flops仅为常规卷积的部分卷积的内存访问情况用公式表示为:

18、

19、式中,h是特征图的高,w是特征图的宽,k是卷积核的大小,cp是常规卷积作用的通道数,部分卷积的内存访问数量为常规卷积的其余的(c-cp)个通道不参与计算,部分卷积无需进行内存的访问;

20、每个fasternet模块有一个部分卷积层,其后面跟着两个1*1维卷积,三者构成一个倒残差的架构,使得中间层的通道数量更多,放置了一个shortcut连接来重用输入特征,同时,将归一化层和激活层放在中间层之后。

21、进一步的,所述s3中,多尺度信息融合模块使用聚集分发机制增加模型的多尺度信息融合能力,具体包括:

22、搭建多尺度信息融模块,在yolov8模型的检测头处引入goldyolo检测头,所述goldyolo检测头包括特征对齐模块fam、信息融合模块ifm和信息注入模块inject,所述特征对齐模块fam、信息融合模块ifm和信息注入模块inject构成聚集分发机制;

23、所述特征对齐模块fam通过收集backbone部分不同尺度的特征图,并通过上采样或者下采样的方式进行对齐;

24、所述信息融合模块ifm融合对齐后的特征生成全局特征,通过split切片操作分为两部分,在后面针对性地对其他尺度进行分发操作;

25、信息注入模块inject使用增强分支检测能力的注意力操作将全局特征split后分发到各个层级;

26、假设输入图像shape为n×3×h×w,从backbone得到的多尺度特征有四个,分别为b2、b3、b4、b5,即其中m表示batch-size,表示不同尺度特征图的通道数,表示不同尺度特征图的高和宽;

27、特征对齐模块fam以b4为基准,对大的特征图b2、b3通过平均池化的方式进行下采样,对小的特征图b5采用双线性插值进行上采样,表示为:

28、falign=fam([b2、b3、b4、b5])       (3)

29、concat得到合并后的特征表示为:

30、

31、信息融合模块ifm设计包括conv、repblock模块、split拆分操作:

32、ffuse=repblock(falign)       (5)

33、finj_p3,finj_p4=split(ffuse)        (6)

34、将对齐并concat后的特征falign输入到repblock模块中得到ffuse融合特征,同时使用conv来调节通道,以适应不同模型的大小,ffuse通过split在通道上拆分为finj_p3和finj_p4,然后与不同的层级进行下一步的特征融合;

35、信息注入模块inject,采用自注意力形式,输入为待被分发的当前尺度下的x_local(flocal),以及前面由ifm生成的全局特征x_global(finj),最后通过reblock处理进一步得到融合信息pi,计算公式如下:

36、

37、pi=reblock(fglobal_pi)     (8)。

38、进一步的,所述yolov8的检测头为对称结构,在所述检测头添加聚集分发gd机制,所述gd机制分别由两条不同网络路径分别进入检测头,检测头中采用解耦头结构,两条并行的分支分别提取类别特征和位置特征,每条分支都使用一个1x1的卷积来完成其各自的任务。

39、本发明的有益效果在于:

40、第一,本发明的目标检测模型在检测效率提高的同时对小目标检测能力更强,且拥有更高的总体精确度。

41、第二,本发明中的fasternet包括基础网络子模块、快速特征融合子模块和高效上采样子模块;基础网络子模块包括卷积层、批归一化层和激活函数层,用于对图像进行特征提取和非线性激活;卷积层负责学习图像中的局部特征,批归一化层用于加速训练过程并增强网络的鲁棒性,而激活函数层则引入非线性因素,增加网络的表达能力;快速特征融合子模块负责将来自不同层级的特征进行融合,能够在保证速度的同时,提升特征表达能力;高效上采样模块用于实现特征图的上采样,以实现目标位置的精确定位,上采样通过恢复高分辨率的特征图,实现目标位置的准确定位,能够在保证速度的同时,提高定位精度。

42、第三,本发明中的部分卷积利用特征映射的冗余,系统地在部分输入通道上应用常规卷积,而不影响其余的输入通道,所以,部分卷积拥有着比一般网络结构较低的flops(总浮点运算数量)和较高的flops(每秒浮点运算数量),通过同时减少冗余计算和内存访问,可以更有效地提取空间特征。

43、第四,本发明中的每个fasternet模块有一个部分卷积层,其后面跟着两个1*1维卷积,三者构成了一个倒残差的架构,使得中间层的通道数量更多,并放置了一个shortcut连接来重用输入特征,同时为了保持特征的多样性,降低延迟,将归一化层和激活层放在中间层之后。

44、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1