1.本发明属于计算机视觉与数字图像处理的技术领域,尤其涉及一种目标检测中提升边界框回归收敛效果的方法。
背景技术:2.目标检测技术是构成许多其它计算机视觉任务的基础,如实例分割、图像描述、目标跟踪等,并且在工业、安防、视频监控、人脸识别、机器人视觉、自动驾驶等许多领域有着极大的研究价值和应用前景,吸引了越来越多学者们的关注。当前,目标检测的研究已取得较大进展,检测精度及速度在不断提高。但是,由于尺度变化、旋转、遮挡、光照以及物体的稠密度、角度等不同因素的影响,目标检测的精度仍有较大的提升空间。
3.交并比函数就是计算两个边界框交集和并集之比。在计算机视觉目标检测任务中,一般约定0.5为交并比的额定阈值,用来判断预测的边界框是否正确。当交并比大于等于0.5时,就说预测框对目标物的定位检测正确;如果预测框和真实框完美重叠,那么交并比就是1,因为此时交集就等于并集。所以交并比是衡量定位精确度的一种方式,只需要统计算法正确检测和定位目标内容物的次数,就可以用这样的定义判断目标定位是否准确。将交并比作为损失函数引入训练过程,可以更加准确的挑选出与真实框更接近的预测框,从而提高目标检测的精度。
4.现有的目标检测算法常用l1范数损失、l2范数损失函数计算边界框位置坐标的回归损失,但是l1、l2范数损失对边界框的尺度具有敏感性,尺度越小的边界框预测偏差对其影响越大,且卷积神经网络在评价边界框的回归效果时使用iou作为标准,而l1、l2范数损失与iou之间的优化并非等价。比如l2范数损失具有尺度敏感性,在算法训练过程中当两个边界框的iou值相同时,大尺寸边界框会产生更多的损失值使小尺寸边界框难以被优化,导致算法对小尺寸目标的检测效果不佳。基于此,提出一种新的边界框回归损失算法br-iou loss是非常有必要的。
技术实现要素:5.基于以上现有技术的不足,本发明所解决的技术问题在于提供一种目标检测中提升边界框回归收敛效果的方法,将iou作为边界框回归损失函数的损失项,通过添加惩罚项最小化预测框与真值框中心点间围成矩形的面积、提高预测框与真值框之间宽高比值的一致性,来提升边界框的回归收敛效果。
6.为了解决上述技术问题,本发明通过以下技术方案来实现:
7.本发明提供一种目标检测中提升边界框回归收敛效果的方法,包括以下步骤:
8.步骤1:将iou作为边界框回归的损失项;
9.步骤2:在iou损失项的基础上添加一个惩罚项;
10.步骤3:将上述构建的边界框回归损失算法嵌入到目标检测网络中,对神经网络进行训练,实现检测器检测能力的加强。
11.进一步的,所述将iou作为边界框回归的损失项的具体计算方法为:
[0012][0013]
强化iou之间的联系继承iou的尺度不变性,使得不同尺度的边界框在回归过程中获得更加均衡的损失优化权重。
[0014]
可选的,在iou损失项的基础上添加一个惩罚项的具体操作是:通过最小化预测框与真值框中心点围成矩形的面积,提高预测框与真值框之间宽高比值的一致性,加快预测框中心点与真值框中心点的重叠速度。
[0015]
进一步的,最小化预测框与真值框中心点围成矩形的面积的具体计算方法为:
[0016][0017]
b为预测框,bg为真值框,d是真值框的中心点bg和预测框b的中心点b围成的矩形框,w和h为d的宽和高,bc是真值框bg与预测框b的最小封闭框,wc和hc为bc的宽和高。
[0018]
优选的,算法的惩罚项使边界框在任何情况下都存在梯度,在边界框无交集的情况下能够反映边界框间的相对距离,为边界框的优化提供移动方向。
[0019]
由上,本发明的目标检测中提升边界框回归收敛效果的方法至少具有如下有益效果:
[0020]
(1)、改进交并比边界框回归br-iou损失算法,将iou作为边界框回归损失函数的损失项,通过添加惩罚项最小化预测框与真值框中心点间围成矩形的面积、提高预测框与真值框之间宽高比值的一致性,来提升边界框的回归收敛效果。
[0021]
(2)、将该算法嵌入到目标检测网络中,对网络进行训练,实现了更高精度的检测效果。
[0022]
(3)、具有不改变网络框架,增加极少量的计算量,就能显著地增强检测器在ms coco数据集和pascal voc数据集上的指标的特点,明显地提高了检测精度,可以作为多种算法的前端,如人脸识别、自动驾驶。在实际中具有重要应用意义。
[0023]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
[0024]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
[0025]
图1为本发明的目标检测中提升边界框回归收敛效果的方法的流程图;
[0026]
图2为br-iou-a算法的示意图。
具体实施方式
[0027]
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
[0028]
如图1所示,本发明的目标检测中提升边界框回归收敛效果的方法,包括如下步骤:
[0029]
步骤1:将iou作为边界框回归的损失项,其具体计算方法为:
[0030][0031]
强化iou之间的联系继承iou的尺度不变性,使得不同尺度的边界框在回归过程中获得更加均衡的损失优化权重。
[0032]
步骤2:在iou损失项的基础上添加一个惩罚项,其具体操作是:通过最小化预测框与真值框中心点围成矩形的面积,提高预测框与真值框之间宽高比值的一致性,加快预测框中心点与真值框中心点的重叠速度。最小化预测框与真值框中心点围成矩形的面积的具体计算方法为:
[0033][0034]
b为预测框,bg为真值框,d是真值框的中心点bg和预测框b的中心点b围成的矩形框,w和h为d的宽和高,bc是真值框bg与预测框b的最小封闭框,wc和hc为bc的宽和高。
[0035]
步骤3:将上述构建的边界框回归损失算法嵌入到目标检测网络中,对神经网络进行训练,实现检测器检测能力的加强。
[0036]
本发明将iou作为边界框回归的损失项,强化与iou之间的联系,并继承了iou的尺度不变性,使得不同尺度的边界框在回归过程中获得更加均衡的损失优化权重。然后算法在iou损失项的基础上添加一个惩罚项,通过最小化预测框与真值框中心点围成矩形的面积,加快预测框中心点与真值框中心点的重叠速度。算法的惩罚项使边界框在任何情况下都存在梯度,在边界框无交集的情况下仍然能够反映边界框间的相对距离,为边界框的优化提供移动方向。
[0037]
在图2中,d是真值框的中心点bg和预测框b的中心点b围成的矩形框,bc是真值框bg与预测框b的最小封闭框,w和h为d的宽和高,wc和hc为bc的宽和高。
[0038]
则br-iou-a算法公式将br-iou-a算法作为边界框回归损失,其损失函数
[0039]
br-iou-a边界框回归损失算法输入:
[0040]
预测框b与真实框bg边框坐标:b=(x1,y1,x2,y2),
[0041]
输出br-iou-a loss:
[0042]
为了确保预测框b中x2>x1,y2>y1:
[0043][0044]
计算真值框bg的面积:
[0045]
计算预测框b的面积:
[0046]
计算预测框b与真值框bg重叠的面积i:
[0047][0048]
其中u=a+a
g-i,求最小封闭框bc的坐标:计算最小封闭框bc的宽和高:计算预测框b与真值框bg的中心点坐标b和bg:计算预测框b与真值框bg中心点围成的矩形框d的坐标:
[0049][0050][0051]
计算矩形框d的宽和高:br-iou-a loss=1-br-iou-a,其中是br-iou-a损失在iou损失的基础上添加的惩罚项,由于最小封闭框bc的面积大于真值框bg的面积,因此的分母wc×
hc始终为正非零数且
[0052]
在br-iou-a的基础上,结合预测框与真值框之间宽高比的一致性提出br-iou-b损失,公式如下:
[0053]
br-iou-b=br-iou-a-v
×c[0054]
参数v使预测框宽和高的比值与真值框的保持一致。c是v的平衡参数,当两个边界框无交集或iou值较低时,使边界框之间的重叠因子在回归过程中获得较高优先级,加快边界框回归的收敛速度。
[0055][0056]
综上,br-iou-b损失函数如下所示:br-iou-b loss=1-br-iou-a+v
×
c,为了验证br-iou算法的实际性能,将原始yolo的边界框回归损失部分分别替换成br-iou-a损失算法和br-iou-b损失算法。使用br-iou边界框回归损失算法对yolo模型进行改进,改进后的损失函数如下式所示:
[0057][0058]
在pascal voc 2007+2012数据集和ms coco 2014数据集上进行模型评测和对比试验。
[0059]
在算法训练过程中为了增强模型性能,对数据集中的原始图像迚行数据增强操作,通过图像随机裁剪、旋转、平移、颜色变化等方法,增加图像的多样性,使神经网络具有更强的泛化效果,提高模型鲁棒性。
[0060]
其次,为检测不同尺度图像中包含的不同尺度和形状的目标,在每个检测层中设定不同尺度的先验框与真实标签进行匹配。
[0061]
网络的输入大小为416
×
416,模型参数更新方式为adam,初始学习率为0.0001,权重衰减设置为0.0005。
[0062]
对于voc和coco数据集,模型加载预训练权重来完成初始化,令其它没有预训练权重的部分在训练过程中自适应微调参数,然后训练整个模型。
[0063]
为了在训练过程中使模型稳定,算法为模型训练设置两个轮次迭代的热身阶段。
[0064]
采用平均精度反应每一类目标的检测效果,平均精度是从准确率和召回率两个方面来衡量检测算法的准确性,可以直观地表现模型对单个类别的检测效果,map值越高,模型在全部类别中综合性能越高。
[0065]
本发明在iou损失项的基础上添加一个惩罚项,通过最小化预测框与真值框中心点围成矩形的面积,加快预测框中心点与真值框中心点的重叠速度,实现检测器检测能力的增强。
[0066]
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。