本发明涉及图像目标检测,特别是涉及一种基于坐标注意力机制的目标检测方法和装置。
背景技术:
1、当前,人工智能、云计算、大数据等一系列信息技术的迅猛发展,计算机视觉技术的也正在不断发展,图像目标检测技术作为计算机视觉中的重要研究课题,是诸如实例分割、行为识别、目标跟踪等其他计算机视觉任务的基础,对目标检测方法开展更加深入的研究是大势所趋。
2、图像目标检测技术,指的是在给定的一张或者多张图像中,通过建立目标的外观模型,判断出图像中存在的物体目标类别,并对目标进行定位,框选出目标存在的区域。虽然现有的目标检测算法在精度和速度方面都有了很大的改进,但是计算过程相对较为复杂,模型结构还是较为复杂,并且在嵌入式设备等计算资源有限的平台上进行部署时,还难以满足高精度和实时性要求。
3、鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
技术实现思路
1、本发明要解决的技术问题是:如何减小目标检测网络模型的结构复杂度并提升检测效率。
2、本发明采用如下技术方案:
3、第一方面,提供了一种基于坐标注意力机制的目标检测方法,所述方法应用于检测算法网络,检测算法网络包括主干网络、脖颈网络和输出层,包括:
4、获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本;
5、在shufflenet-v2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;
6、在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;
7、使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络;
8、通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
9、优选的,所述获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本包括:
10、根据所述原始数据样本的输入图像的特点,通过直方图均衡、图像锐化和运动模糊改变所述输入图像的像素值,以得到多个第一中间数据样本,将所述第一中间数据样本添加到原始数据样本中,以更新所述原始数据样本;
11、通过将所述原始数据样本的输入图像进行镜像翻转、旋转以及混合增强,以得到多个第二中间数据样本,将所述第二中间数据样本添加到更新后的所述原始数据样本中,得到目标数据样本。
12、优选的,所述在shufflenet-v2网络中融合坐标注意力机制作为所述主干网络包括:
13、根据步长将所述shufflenet-v2网络设置为第一结构网络,所述第一结构网络通过通道分离将其输入通道分为第一分支和第二分支;所述第一分支直接与联接层连接,第二分支通过预设的层与联接层连接;
14、将所述坐标注意力机制嵌入所述第一分支,以使所述第一结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;
15、或,在所述第一分支和第二分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
16、优选的,所述在shufflenet-v2网络中融合坐标注意力机制作为所述主干网络包括:
17、根据步长将所述shufflenet-v2网络设置为第二结构网络,所述第二结构网络通过通道分离将其输入通道分为第三分支和第四分支,所述第三分支包括依次连接的第一卷积层、归一化层、第二卷积层和激活层,所述第三分支的激活层与联接层连接,第四分支通过预设的层与联接层连接;
18、将所述坐标注意力机制嵌入到所述第三分支的激活层之后,以使所述第二结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;
19、或,在所述第三分支和第四分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
20、优选的,所述在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息包括:
21、根据所述特征金字塔网络构建第一金字塔结构和第二金字塔结构,具体包括:
22、提取不同尺度的目标特征图,以得到所述第一金字塔结构;
23、对所述第一金字塔结构的最顶层的目标特征图进行复制,作为所述第二金字塔结构的最顶层,并对其进行上采样操作,得到第一特征图;
24、对所述第一金字塔结构的最顶层的下面一层的目标特征图进行第一预设参数的卷积运算,得到第二特征图,将所述第一特征图与第二特征图相加,作为所述第二金字塔结构的最顶层的下面一层,依次完成对所述第一金字塔结构的每一层的运算,以此类推,以生成所述第二金字塔结构;
25、对所述第二金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
26、优选的,所述在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息还包括:
27、构建所述路径聚合网络,所述路径聚合网络设置于所述特征金字塔网络下级,具体包括:构建第三金字塔结构;
28、复制所述第二金字塔结构的最底层的目标特征图,作为所述第三金字塔结构的最底层;
29、对所述第二金字塔结构的最底层的目标特征图进行下采样操作,得到第三特征图,并对所述第二金字塔结构的最底层的上面一层的目标特征图进行所述第二预设参数的卷积运算得到第四特征图,将所述第三特征图与所述第四特征图相加,作为所述第三金字塔结构的最底层的上面一层,依次完成对所述第二金字塔结构的每一层的运算,以此类推,以生成所述第三金字塔结构;
30、对所述第三金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
31、优选的,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络包括:
32、所述损失函数包括第一函数,所述第一函数的计算公式为:
33、
34、其中,a代表检测框,b代表真实框,c代表将a与b包围起来的最小矩形框,iou表示iou度量,iou度量用于表示a和b的重合程度,定义为a和b的交集面积除以a和b的并集面积;
35、所述第一函数用于考虑检测框和真实框的最小外接矩形,优化检测框的形状,以优化所述目标特征的定位。
36、优选的,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络还包括:
37、所述损失函数还包括第二函数,所述第二函数的公式为:
38、
39、其中,yi代表目标特征的二元标签,是为1,否为0,p(yi)为输出标签yi的概率;
40、所述第二函数用于优化目标特征检测的置信度以及对目标特征的类别预测。
41、优选的,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络还包括:
42、通过所述第一函数和第二函数输出损失结果;
43、根据所述损失结果调整所述目标检测算法网络的模型参数,通过所述反向传播算法不断计算,直至所述损失结果满足预设条件,以得到训练的最优的目标检测算法网络。
44、第二方面,提供了一种基于坐标注意力机制的目标检测装置,所述装置包括:获取模块、特征提取模块、组合模块和预测模块;
45、所述获取模块用于获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本;
46、所述特征提取模块用于在shufflenet-v2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;
47、所述组合模块用于在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;
48、所述预测模块用于使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络,以通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
49、与现有技术相比,本发明的有益效果在于:
50、本发明使用融合了坐标注意力机制的shufflenet-v2网络作为主干网络对输入图像进行特征提取,得到不同尺度的特征图;使用特征金字塔网络和路径聚合网络作为脖颈网络来实现不同尺度的特征图之间的信息交流,最后在输出层使用损失函数和反向传播算法来对网络模型进行训练优化,能够实现目标特征的轻量级检测,具有更小的结构复杂度,模型更小,需要的计算资源也更少,检测效率更高。