一种基于改进YOLOv4的交通目标检测方法及系统

文档序号:30086726发布日期:2022-05-18 06:02阅读:260来源:国知局
一种基于改进YOLOv4的交通目标检测方法及系统
一种基于改进yolov4的交通目标检测方法及系统
技术领域
1.本发明涉及计算机视觉的技术领域,特别涉及基于yolov4算法的目标检测的技术领域。


背景技术:

2.随着计算机视觉的飞速发展,目标检测逐渐应用到人们的日常生活中,带来了极大的便利。其中,为了解决复杂交通下的各种交通问题,对交通目标进行检测成了计算机视觉领域的一个研究重点。
3.交通背景下的目标具有数量多、遮挡严重、小目标居多的特点,在当前背景下的目标检测往往会出现漏检严重、检测速率慢、难以部署的缺点。因此,对目标检测模型进行优化,使之轻量化以易于部署、加快检测速度、并且使之更适于检测小目标、降低漏检率显得格外重要。
4.对交通目标检测包括传统方法和基于深度学习的目标检测方法,其中,传统方法一般分为两个步骤:首先人工提取图像特征,然后输入分类器进行分类识别,代表算法有sifi、lbp、orb等,传统目标检测算法基于人工构建特征实现,容易出现遗漏问题,且设计麻烦,检测效果不好具体体现在检测精度低、检测速度慢、鲁棒性差难以满足任务要求。基于深度学习的目标检测方法分为两大类:单阶段(one-stage)目标检测算法和两阶段(two-stage)目标检测算法,其中,两阶段目标检测算法将目标检测任务分为两个子任务,其一是目标候选区域的生成,其二是基于目标候选框信息生成预测框,代表算法有rcnn(regions with cnn features)、fast-rcnn(fast regions with cnn features)、faster-rcnn(faster regions with cnn features),虽然两阶段目标检测算法具有较高的准确率,但模型较为复杂、运算速度慢。而单阶段目标检测算法将候选框的生成和基于目标候选框生成预测框的两个任务合并为了一个端到端的回归问题,在保持较高准确度的前提下,模型简单且运算速度较快,代表算法有ssd(single shot multibox detector)、yolo(you only look once)、yolo9000、yolov2、yolov3、yolov4。
5.其中,虽然yolov4算法相比较其他各种算法具有最好的目标检测效果,但对于复杂交通背景下的目标检测效果仍然较差,存在小目标漏检严重,模型依然较为复杂且运算缓慢、难以部署到移动嵌入式设备,难以获得最佳锚框(anchor box)配置等缺陷。


技术实现要素:

6.针对现有技术的缺陷,本发明的目的在于提出一种基于改进的yolov4的交通目标检测方法及系统,其可以解决现有技术中单阶段目标检测算法中使用yolov4会产生的以下问题:(1)小目标漏检严重;(2)模型较为复杂、模型参数量较大、模型难以部署到移动嵌入式设备且运算速度慢;(3)所用k-means聚类存在随机性,难以得到最佳的锚框配置。
7.本发明的技术方案如下:
8.一种基于改进yolov4的交通目标检测系统,其包括mobilevit-s主干网络、spp特
征金字塔网络、panet特征加强网络及目标检测头,其中,所述panet特征加强网络及所述目标检测头中使用的卷积为深度可分离卷积。
9.根据本发明的一些优选实施方式,所述目标检测系统还包括对所述mobilevit-s主干网络的输出图像进行卷积处理后再输入所述spp特征金字塔网络的第一卷积块,对所述spp特征金字塔网络的输出图像进行拼接及卷积处理后再输入所述panet特征加强网络的第一拼接卷积块,所述第一卷积块包括3个卷积单元,所述第一拼接卷积块包括3个对拼接数据进行卷积处理的卷积单元,所述各卷积单元均包括一个卷积层、一个bn层及relu激活函数。
10.根据本发明的一些优选实施方式,所述mobilevit-s主干网络包括包括输入层、第一卷积层、第一~第二mv2模块、第一~第二mv2残差模块、第三mv2模块、第一mobilevit模块、第四mv2模块、第二mobilevit模块、第五mv2模块,其中,所述mv2模块来自mobilenetv2网络,由以下部分依次组成:1
×
1卷积层、bn层、silu激活函数、3
×
3卷积层、bn层、silu激活函数、1
×
1卷积层、bn层;所述mobilevit模块由以下部分依次组成:3
×
3卷积层、bn层、silu激活函数、1
×
1卷积层、bn层、silu激活函数、transformer层、1
×
1卷积层、bn层、silu激活函数、与输入该模块的图像进行拼接的3
×
3卷积层、bn层、silu激活函数;所述transformer层由以下部分构成:第一ln层、多头注意力层、第一dropout层、第二ln层、第一线性层、silu激活函数、第二dropout层、第二线性层、第三dropout层,其中,第一dropout层后的输出与经第一ln层前的输入进行残差相加后再输入第二ln层,第三dropout层后的输出与经第二线性层前的输入进行残差相加后再得到最终输出;所述mv2残差模块为在所述mv2模块的1
×
1卷积前引入残差连接,并与最后一个bn层的输出相加得到。
11.根据本发明的一些优选实施方式,所述panet特征加强网络包括:与所述第二mv2模块及第一目标检测头相连的第一特征加强层、与所述第三mv2模块及第二目标检测头相连的第二特征加强层、与所述第四mv2模块及第三目标检测头相连的第三特征加强层、与所述spp特征金字塔网络后的第一拼接卷积块及第四目标检测头相连的第二拼接卷积块;其中,所述第一特征加强层进一步包括与所述第二mv2模块及所述第一目标检测头相连的第一拼接上采样块和与该第一拼接上采样块及所述第二特征加强层中的拼接降采样块相连的第一降采样层,所述第二特征加强层进一步包括与所述第三mv2模块相连的第二拼接上采样块和与该第二拼接上采样块及所述第二目标检测头相连的第一拼接降采样块,所述第三特征加强层进一步包括与所述第四mv2模块相连的第三拼接上采样块和与该第三拼接上采样块及所述第三目标检测头相连的第二拼接降采样块,且所述第三特征加强层的第三拼接上采样块及所述第二拼接卷积块均与所述特征金字塔网络后的所述第一拼接卷积块的输出相连,所述第三拼接上采样块进一步与所述第二拼接上采样块相连,所述第二拼接上采样块进一步与所述第一拼接上采样块相连,所述第一降采样层进一步与所述第一拼接降采样块相连,所述第一拼接降采样块进一步与所述第二拼接卷积块相连;其中,所述第二拼接卷积块包括对拼接数据进行卷积处理的5个卷积块,所述各拼接上采样块均包括对拼接数据进行卷积处理的5个卷积块和一个对拼接数据进行上采样的上采样层,所述各拼接降采样块均包括对拼接数据进行卷积处理的5个卷积块和一个对拼接数据进行降采样的降采样层,所述各卷积块均包括一个卷积层、一个bn层及relu激活函数。
12.本发明进一步提供了应用上述目标检测系统进行交通目标检测的检测方法,其包
括:
13.s21由所述检测系统主干网络mobilevit-s对待检测图像进行特征提取,得到多尺度的第一提取特征;
14.s22将经与所述mobilevit-s主干网络输出相连的第一卷积块卷积处理后得到的特征图输入所述spp特征金字塔网络,提取出多个固定尺寸的特征向量,将各特征向量进行拼接后再经过与所述spp特征金字塔网络输出相连的第一拼接卷积块卷积处理后,得到第二提取特征;
15.s23将所述多尺度的第一提取特征及所述第二提取特征进一步输入所述panet特征加强网络,以对特征进行多尺度加强及融合,得到多尺度的检测特征;
16.s24通过目标检测头对所述检测特征进行检测。
17.根据本发明的一些优选实施方式,所述检测方法还包括:
18.建立含有交通目标图像的标注数据集;
19.通过所述标注数据集或其进行样本增强处理后的增强数据集对所述检测系统进行训练和/或测试;
20.其中,所述训练和/或测试中使用k-means++聚类算法进行锚框生成。
21.根据本发明的一些优选实施方式,所述检测方法还包括:所述训练和/或测试中每次设置12个锚框。
22.根据本发明的一些优选实施方式,所述训练中,使用以下损失函数:
[0023][0024]
其中,
……

[0025]
根据本发明的一些优选实施方式,所述检测方法包括:
[0026]
将所述待检测图像预处理为416
×
416
×
3后输入所述mobilevit-s主干网络,并依次进行:
[0027]
经所述第一卷积层进行3
×
3卷积处理,并进行2倍下采样生成208
×
208
×
16特征图;
[0028]
经所述第一mv2模块处理,生成208
×
208
×
32特征图;
[0029]
经所述第二mv2模块处理,并进行2倍下采样生成104
×
104
×
64特征图;
[0030]
经所述第一、第二mv2残差模块处理,生成104
×
104
×
64特征图;
[0031]
经所述第三mv2模块处理,并进行2倍下采样生成52
×
52
×
96特征图;
[0032]
经所述第一mobilevit模块处理,生成52
×
52
×
96特征图;
[0033]
经所述第四mv2模块处理,并进行2倍下采样生成26
×
26
×
128特征图;
[0034]
经所述第二mobilevit模块处理,生成26
×
26
×
128特征图;
[0035]
经所述第五mv2模块处理,并进行2倍下采样生成13
×
13
×
160特征图。
[0036]
根据本发明的一些优选实施方式,所述检测方法包括:
[0037]
将经所述第一拼接卷积块处理后的13
×
13的特征图分两支输入所述panet特征加强网络中,一支进入所述第三拼接上采样块,一支进入所述第二拼接卷积块中;
[0038]
其中,进入所述第三拼接上采样块的13
×
13的特征图经该拼接上采样块的上采样层经2倍上采样后与自所述第四mv2模块获得的26
×
26的特征图进行拼接,并经该拼接上采样块的5个卷积块处理后获得26
×
26的上采样特征图;
[0039]
该26
×
26的上采样特征图进一步分为两支,分别进入所述第二拼接上采样块及所述第三拼接降采样块;
[0040]
其中,进入所述第二拼接上采样块的特征图经该拼接上采样块的上采样层经2倍上采样后与自所述第三mv2模块获得的52
×
52的特征图进行拼接,并经该拼接上采样块的5个卷积块处理后获得52
×
52的上采样特征图;
[0041]
该52
×
52的上采样特征图进一步分为两支,分别进入所述第一拼接上采样块及所述第二拼接降采样块;
[0042]
其中,进入所述第一拼接上采样块的特征图经该拼接上采样块的上采样层经2倍上采样后与自所述第二mv2模块获得的104
×
104的特征图进行拼接,并经该拼接上采样块的5个卷积块处理后获得104
×
104的上采样特征图;
[0043]
该104
×
104的上采样特征图进一步分为两支,一支进入所述第一目标检测头中进行尺寸为104
×
104特征图的最小目标检测,另一支经所述第一降采样层经2倍降采样后获得52
×
52的下采样特征图,并进入所述第一拼接降采样块;
[0044]
所述52
×
52的下采样特征图与进入该拼接降采样块的52
×
52的上采样特征图进行拼接,并经该拼接降采样块的5个卷积块处理后获得52
×
52的融合特征图;
[0045]
该52
×
52的融合特征图进一步分为两支,一支进入所述第二目标检测头中进行尺寸为52
×
52的特征图的小目标检测,另一支经该拼接降采样块的降采样层经2倍降采样后获得26
×
26的下采样特征图,并进入所述第二拼接降采样块;
[0046]
所述26
×
26的下采样特征图与进入该拼接降采样块的26
×
26的上采样特征图进行拼接,并经该拼接降采样块的5个卷积块处理后获得26
×
26的融合特征图;
[0047]
该26
×
26的融合特征图进一步分为两支,一支进入所述第三目标检测头中进行尺寸为26
×
26的特征图的中目标检测,另一支经该拼接降采样块的降采样层经2倍降采样后获得13
×
13的下采样特征图,并进入所述第二拼接卷积块;
[0048]
所述13
×
13的下采样特征图与进入所述第二拼接卷积块的自所述第一拼接卷积块获得的13
×
13的特征图进行拼接,并经该拼接卷积块的5个卷积块处理后获得13
×
13的融合特征图;
[0049]
该13
×
13的融合特征图进入所述第四目标检测头中进行尺寸为13
×
13的特征图的大目标检测。
[0050]
本发明具备以下有益效果:
[0051]
本发明将yolov4系统中的主干网络由cspdarknet53更换为mobilevit-s,可显著
降低模型复杂度。
[0052]
本发明将yolov4系统中的panet层以及目标检测头(yolo head)的3
×
3卷积全部更换为深度可分离卷积,在输入为h
×w×
d,卷积核为k
×k×
n的前提下,传统卷积的计算量p1与深度可分离卷积计算量p2对比为:
[0053]
p1=h
×w×d×n×k×k[0054]
p2=h
×w×d×k×
k+d
×n×h×w[0055][0056]
当本系统中设置卷积核k为3,而n远大于k,则深度可分离卷积计算量大约为传统卷积计算量的九分之一,在不影响结果的前提下大大减少了计算量,可有效解决传统模型参数量大,难以部署到移动嵌入式设备,运算速度慢的问题。
[0057]
在一些具体实施方式中,本发明在特征提取网络中扩充了一层特征层,相对于传统的在主干网络中由第五个mv2模块引出一层小目标检测层检测52
×
52特征图目标,第六个mv2模块引出一层中目标检测层检测26
×
26特征图目标,最后用于大目标检测层检测13
×
13特征图目标,本系统的额外在第二个mv2模块引出一层更小目标检测层检测104
×
104特征图目标,并在panet层增添一层特征加强层对52
×
52特征图上采样与104
×
104特征图拼接后经过五个相同的卷积模块后一边输出到新增的目标检测头层,一边进行下采样与52
×
52特征融合进行特征增强,可对更小的检测目标进行精确检测,解决小目标漏检严重的问题。
[0058]
在一些具体实施方式中,相对于传统的使用k-means聚类难以获得最佳锚框(anchor box)配置的问题,本发明引入k-means++代替k-means聚类进行锚框生成,并在特征层扩充为4层后设置了12个锚框(k=12)。所用k-means++算法对比k-means聚类在初始聚类中心点的选择上进行了优化,可首先随机选择一点作为聚类中心,然后与数据集中每一个点的距离进行计算,距离越大被选为聚类中心的概率越大,然后再选一个新的数据点为聚类中心,重复以上步骤直到选出k个聚类中心点,然后在此基础上运行k-means算法;可得到最佳的锚框配置。
[0059]
本发明的检测系统准确率高、同体量网络检测精度(map/%)最高;计算量、参数量大幅下降,模型大小约为yolov4的五分之一;其漏检率下降、小目标检测效果好,可准确检测出yolov4未能检测出的目标。
[0060]
本发明的检测系统和/或方法可用于智慧交通场景中的行人、车辆、交通信号灯目标的检测,在轻量化的基础上实现了较高的检测准确率,漏检率低,检测效果较好。
附图说明
[0061]
图1为现有的yolov4模型系统。
[0062]
图2为本发明提出的一种改进的yolov4目标检测系统。
[0063]
图3为具体实施方式中所述mobilevit模块的结构图。
[0064]
图4为具体实施方式中所述silu激活函数的曲线图。
[0065]
图5为具体实施方式中所述检测系统的检测流程示意图。
[0066]
图6为具体实施方式中所述训练的流程示意图。
[0067]
图7为具体实施方式中所述本发明的检测方法的流程示意图。
[0068]
图8为实施例1中所得检测结果示意图。
具体实施方式
[0069]
以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。
[0070]
参照附图1,现有技术中的yolov4模型系统包括:进行特征提取的cspdarknet53主干网络,与该主干网络的输出相连的三个由卷积层、批标准化层(bn层)及leaky relu激活函数组成的卷积块,与该卷积块输出相连的spp特征金字塔网络,与spp特征金字塔网络输出相连的、对其拼接数据进行处理的三个包括卷积层、批标准化层(bn层)及relu激活函数的卷积块组成的拼接卷积块,与该拼接卷积块输出及部分cspdarknet53主干网络中cspresblock层输出相连的panet特征加强网络,与panet特征加强网络输出相连的目标检测头(yolo head)。
[0071]
在此基础上,参照附图2,本发明使用的一种基于改进的yolov4的交通目标检测系统相对于该现有yolov4模型系统的改进包括:将cspdarknet53主干网络更换为mobilevit-s主干网络,将panet特征加强网络中卷积块使用的传统的3
×
3卷积更换为深度可分离卷积,将各卷积块中使用的激活函数leaky relu更换为relu函数,在主干网络中拓宽一层4倍降维的更小目标特征提取层(即图中的104
×
104mv2模块层),对应的,在panet特征加强网络中增加一层与该拓宽层相连的特征加强层,并对应增加一个目标检测头。
[0072]
利用优化后的主干网络,也即mobilevit替换cspdarknet53后的主干网络,可大大降低参数量和计算量,同时mobilevit中的transformer层可扩充主干网络感受野。
[0073]
该检测系统中,mobilevit-s主干网络依次包括输入层、第一卷积层、第一~第二mv2模块、第一~第二mv2残差模块、第三mv2模块、第一mobilevit模块、第四mv2模块、第二mobilevit模块、第五mv2模块。
[0074]
其中,mv2模块来自mobilenetv2网络,由以下部分依次组成:1
×
1卷积层、bn层、silu激活函数、3
×
3卷积层、bn层、silu激活函数、1
×
1卷积层、bn层。
[0075]
mobilevit模块由以下部分依次组成:3
×
3卷积层、bn层、silu激活函数、1
×
1卷积层、bn层、silu激活函数、transformer层、1
×
1卷积层、bn层、silu激活函数、与3
×
3卷积前的输入经concat函数连接的3
×
3卷积层、bn层、silu激活函数,如附图3所示。
[0076]
mv2残差模块与mv2模块的区别为其在mv2模块的1
×
1卷积前引入一个残差连接,与最后一个bn层的输出进行相加,如附图2中mv2模块部分虚线连接所示。
[0077]
其中,transformer层由以下部分构成:第一ln(layer normalization)层、多头注意力(multi-head attention)层、第一dropout层、第二ln层、第一线性(linear)层、silu激活函数、第二dropout层、第二线性层、第三dropout层,其中,第一dropout层后的输出与经第一ln层前的输入进行残差相加后再输入第二ln层,第三dropout层后的输出与经第二线性层前的输入进行残差相加后再得到最终输出。
[0078]
silu(sigmoid weighted liner unit)激活函数的表达式如下:
[0079]
[0080]
其函数图像如附图4所示。
[0081]
该检测系统中,panet特征加强网络依次包括:与第二mv2模块及第一目标检测头相连的第一特征加强层、与第三mv2模块及第二目标检测头相连的第二特征加强层、与第四mv2模块及第三目标检测头相连的第三特征加强层、与特征金字塔网络后的第一拼接卷积块及第四目标检测头相连的第二拼接卷积块,其中,第一特征加强层进一步包括与第二mv2模块及第一目标检测头相连的第一拼接上采样块和与该第一拼接上采样块及第二特征加强层中的拼接降采样块相连的第一降采样层,第二特征加强层进一步包括与第三mv2模块相连的第二拼接上采样块和与该第二拼接上采样块及第二目标检测头相连的第一拼接降采样块,第三特征加强层进一步包括与第四mv2模块相连的第三拼接上采样块和与该第三拼接上采样块及第三目标检测头相连的第二拼接降采样块,且所述第三特征加强层的第三拼接上采样块及所述第二拼接卷积块均与特征金字塔网络后的所述第一拼接卷积块的输出相连,所述第三拼接上采样块进一步与所述第二拼接上采样块相连,所述第二拼接上采样块进一步与所述第一拼接上采样块相连,所述第一降采样层进一步与所述第一拼接降采样块相连,所述第一拼接降采样块进一步与所述第二拼接卷积块相连。
[0082]
其中,第一拼接卷积块包括对拼接数据进行卷积处理的3个卷积块,第二拼接卷积块包括对拼接数据进行卷积处理的5个卷积块,各拼接上采样块均包括5个对拼接数据进行卷积处理的卷积块和一个对拼接数据进行上采样的上采样层,各拼接降采样块均包括5个对拼接数据进行卷积处理的卷积块和一个对拼接数据进行降采样的降采样层,该panet特征加强网络中各卷积块均包括一个卷积层、一个批标准化层(bn层)及relu激活函数。
[0083]
在一些具体实施例中,基于所述mobilevit-s主干网络进行的特征提取包括:
[0084]
将图像预处理为(416,416,3)后输入mobilevit-s主干网络,由mobilevit-s主干网络依次进行:
[0085]
经过一个3
×
3卷积层并进行2倍下采样生成(208,208,16)特征图;
[0086]
经过第一mv2模块,生成(208,208,32)特征图;
[0087]
经过第二mv2模块,经一次2倍下采样生成(104,104,64)特征图;
[0088]
经过第一、第二mv2残差模块,生成(104,104,64)特征图,该mv2残差模块与mv2模块的区别为其在mv2模块的1
×
1卷积前引入一个残差连接,与最后一个bn层的输出进行相加;
[0089]
经过第三mv2模块,经一次2倍下采样生成(52,52,96)特征图;
[0090]
经过第一mobilevit模块,生成(52,52,96)特征图;
[0091]
经过第四mv2模块并进行2倍下采样生成(26,26,128)特征图;
[0092]
经过第二mobilevit模块生成(26,26,128)特征图;
[0093]
经过第五mv2模块并进行2倍下采样生成(13,13,160)特征图。
[0094]
基于所述panet特征加强网络进行的特征加强包括:
[0095]
在一些具体实施例中,基于所述panet特征加强网络进行的特征加强包括:
[0096]
将经所述第一拼接卷积块处理后的13
×
13的特征图分两支输入panet特征加强网络中,一支进入所述第三拼接上采样块,一支进入所述第二拼接卷积块中;
[0097]
其中,进入所述第三拼接上采样块的13
×
13的特征图经该拼接上采样块的上采样层经2倍上采样后与自所述第四mv2模块获得的26
×
26的特征图进行拼接,并经该拼接上采
样块的5个卷积块处理后获得26
×
26的上采样特征图;
[0098]
该26
×
26的上采样特征图进一步分为两支,分别进入所述第二拼接上采样块及所述第三拼接降采样块;
[0099]
其中,进入所述第二拼接上采样块的特征图经该拼接上采样块的上采样层经2倍上采样后与自所述第三mv2模块获得的52
×
52的特征图进行拼接,并经该拼接上采样块的5个卷积块处理后获得52
×
52的上采样特征图;
[0100]
该52
×
52的上采样特征图进一步分为两支,分别进入所述第一拼接上采样块及所述第二拼接降采样块;
[0101]
其中,进入所述第一拼接上采样块的特征图经该拼接上采样块的上采样层经2倍上采样后与自所述第二mv2模块获得的104
×
104的特征图进行拼接,并经该拼接上采样块的5个卷积块处理后获得104
×
104的上采样特征图;
[0102]
该104
×
104的上采样特征图进一步分为两支,一支进入所述第一目标检测头中进行尺寸为104
×
104特征图的最小目标检测,另一支经所述第一降采样层经2倍降采样后获得52
×
52的下采样特征图,并进入所述第一拼接降采样块;
[0103]
所述52
×
52的下采样特征图与进入该拼接降采样块的52
×
52的上采样特征图进行拼接,并经该拼接降采样块的5个卷积块处理后获得52
×
52的融合特征图;
[0104]
该52
×
52的融合特征图进一步分为两支,一支进入所述第二目标检测头中进行尺寸为52
×
52的特征图的小目标检测,另一支经该拼接降采样块的降采样层经2倍降采样后获得26
×
26的下采样特征图,并进入所述第二拼接降采样块;
[0105]
所述26
×
26的下采样特征图与进入该拼接降采样块的26
×
26的上采样特征图进行拼接,并经该拼接降采样块的5个卷积块处理后获得26
×
26的融合特征图;
[0106]
该26
×
26的融合特征图进一步分为两支,一支进入所述第三目标检测头中进行尺寸为26
×
26的特征图的中目标检测,另一支经该拼接降采样块的降采样层经2倍降采样后获得13
×
13的下采样特征图,并进入所述第二拼接卷积块;
[0107]
所述13
×
13的下采样特征图与进入所述第二拼接卷积块的自所述第一拼接卷积块获得的13
×
13的特征图进行拼接,并经该拼接卷积块的5个卷积块处理后获得13
×
13的融合特征图;
[0108]
该13
×
13的融合特征图进入所述第四目标检测头中进行尺寸为13
×
13的特征图的大目标检测。
[0109]
进一步的,参照附图7,本发明的基于改进的yolov4的交通目标检测系统的检测方法实施方式可包括以下步骤:
[0110]
步骤一:搜集图像建立数据集。
[0111]
更具体的,所述数据集的建立可进一步包括:
[0112]
采集实际的交通场景图像,图像可包括行人、车辆、交通灯等目标。
[0113]
对采集到的场景图像进行标注,如使用开源软件labelimg对采集图像中的目标进行标注,标注可进一步包括四类:车辆(car)、行人(person)、绿灯(greenlight)、红灯(redlight)。
[0114]
对采集图像进行增强处理,得到扩充的数据集,如采用马赛克数据增强(mosaic),在udacity数据集的基础上扩充数据集,数据集中各数据可采用voc标准的数据格式,包括
文件夹名、图片名、目标名、目标所在锚框的左上角坐标和右下角坐标信息以及检测复杂度。
[0115]
在更具体的一些实施例中,待数据集准备完成之后,可进一步按照8:1:1的比例将数据集分为训练集、验证集、测试集,如在实施例中,数据集大小共24420张图片,其中训练集19536张图片,验证集2442张图片,测试集2442张图片。
[0116]
步骤二:将数据集中标注后的图像数据预处理为输入尺寸后输入所述检测系统中进行目标检测。
[0117]
在一些具体实施例中,所述输入尺寸可设置为416
×
416。
[0118]
更具体的,参照附图5,其可进一步包括:
[0119]
s21由所述检测系统主干网络mobilevit-s进行特征提取,得到多尺度的第一提取特征。
[0120]
s22将经主干网络最后一层的输出进行三个卷积块(卷积、bn层、relu)的卷积后得到的特征图进一步输入所述检测系统的spp特征金字塔网络,从中提取出多个固定尺寸的特征向量,并进行拼接后再经过三个卷积块(卷积、bn层、relu)的卷积,得到第二提取特征。
[0121]
在一些具体实施例中,所述拼接经concat函数实现。
[0122]
s23将所述多尺度的第一提取特征及第二提取特征进一步输入所述检测系统的panet特征加强网络,对提取的特征信息进行融合加强。
[0123]
在一些具体实施例中,所述多尺度的第一提取特征包括所述主干网络中第二mv2模块输出的104
×
104特征图、第三mv2模块输出的52
×
52特征图、第四mv2模块输出的26
×
26特征图;所述第二提取特征包括经步骤三处理后输出的13
×
13特征图。
[0124]
进一步的,所述融合包括:将经步骤三处理后输出的13
×
13特征图分为两支输入panet特征加强网络,其中一支进行2倍上采样与26
×
26特征图进行concat拼接并经过五个卷积块(卷积、bn层、relu)运算后再产生两个分支,其中一支进行2倍上采样与52
×
52特征图进行concat拼接并经过五个卷积块(卷积、bn层、relu)运算后再产生两个分支,其中一支进行2倍上采样与104
×
104特征图进行concat拼接并经过五个卷积块(卷积、bn层、relu)运算后再产生两个分支,其中一支直接输入更小目标检测头中进行104
×
104特征图的更小目标检测,另一支进行2倍下采样与52
×
52的另一分支的输出进行concat拼接并经过五个卷积块(卷积、bn层、relu)运算后产生两个分支,一支直接输入小目标检测图中进行52
×
52特征图的小目标检测,一支进行2倍下采样后与26
×
26另一分支的输出进行concat拼接并经过五个卷积块(卷积、bn层、relu)运算后产生两个分支,一支直接输入中目标检测图中进行26
×
26特征图的中目标检测,一边进行2倍下采样后与13
×
13另一分支的输出进行concat拼接并经过五个卷积块(卷积、bn层、relu)运算后输入大目标检测头进行大目标检测。
[0125]
步骤三:通过图像数据集对检测模型进行训练。
[0126]
其中,更具体的,参照附图6,在最终经过4个目标检测头分别对104
×
104、52
×
52、26
×
26、13
×
13四个尺度特征图进行目标检测后,在先验框生成之后计算损失函数,损失函数由三部分组成:位置回归损失、置信度损失以及类别损失。
[0127]
更具体的,训练中可使用如下的损失函数:
[0128][0129]
以上损失函数中,第一行为所述位置回归损失,第二行、第三行均为所述置信度损失、第四行为所述类别损失。
[0130]
其中,iou表示预测框和真实框的交并比,α是权重函数,v为度量宽高比一致性的参数,ρ为预测框和真实框中心点坐标的欧氏距离,c代表包住两个框的最小框对角线距离,i,j表示像素坐标,表示目标未命中系数,当(i,j)处无目标时,其值为1否则为0,表示目标命中系数,当(i,j)处有目标时,其值为1,否则为0,λ
noobj
是权重函数,表示预测框置信度,表示真实框置信度,表示预测框类别概率值,表示真实框类别概率值,p表示预测框的中心点坐标,p
gt
为真实框的中心点坐标,class为类别,s为特征图的尺寸(s
×
s),b为每一个特征图小框内的锚框数目。
[0131]
更具体的,训练或检测中,相对于yolov4系统使用k-means聚类进行锚框生成的方法,本系统可优选使用k-means++算法,且相对于yolov4算法系统设置的9个锚框,本系统扩充特征层为4层,因此可设置12个锚框(即k=12)其在k-means聚类在初始聚类中心点的选择上进行了优化,可有效解决k-means聚类因存在随机性,难以得到最佳的锚框配置的问题。
[0132]
具体的聚类过程可包括:
[0133]
(1)随机选取一个样本作为第一个聚类中心;
[0134]
(2)计算每个样本与聚类中心的最短距离,距离越大样本被选为新聚类中心的概率越大,用轮盘法选出下一个聚类中心;
[0135]
(3)重复步骤(2),直到选出要求的12个聚类中心;
[0136]
(4)针对每个样本,计算到12个聚类中心的距离并分配到相应最近的聚类中心所属类别中;
[0137]
(5)针对每个类别,重新计算聚类中心;
[0138]
(6)重复(4)、(5)直到聚类中心位置不再变化。
[0139]
步骤四:使用完成训练或进一步完成测试的检测系统进行目标检测。
[0140]
实施例1
[0141]
通过以上具体实施方式所述的检测系统进行交通目标检测,设置初始学习率为0.001,学习率衰减系数为0.96,训练轮数200轮,batchsize为8,所得检测结果如附图8所
示,可以看出本系统可准确检测出不同尺寸的各目标。
[0142]
以上实施例仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下的改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1