基于多元回归和自适应焦点损失的密集物体图像检测方法

文档序号:32011985发布日期:2022-11-02 18:38阅读:28来源:国知局
基于多元回归和自适应焦点损失的密集物体图像检测方法

1.本发明属于机器视觉领域,具体涉及一种基于多元回归和自适应焦点损失的密集物体图像检测方法。


背景技术:

2.目前超市商品结算主要依赖扫描条形码、或通过rfid标签感应识别。基于光学条形码的方法使用最广泛,但是依赖消费者手动逐个扫描,效率极低;基于rfid的方法则由于标签成本过高而难以大面积应用。因此,如何基于普通摄像头拍摄的图片来进行商品目标的检测与识别,成为了极具意义的研究课题。
3.早期基于图像的零售商品检测以传统的手工特征提取为主,比如sift和hog等方法。方向梯度直方图(hog)曾被广泛用于解决目标检测问题,其可以用来平衡特征不变性(包括平移、尺度、光照等)和非线性(区分不同对象类别)。dpm算法在hog算法的基础上进行改进和延伸,由一个主过滤器和多个辅过滤器组成,通过边框回归和上下文启动技术改进检测精度。作为最优的传统检测算法,dpm方法运算速度快,能够适应物体形变,但它无法适应大幅度的旋转,因此稳定性差。目前来看,传统方法计算得到的特征并不能代表图像的深层语义信息,这类方法的稳定性有所欠缺。
4.目前基于深度学习的目标检测任务主要有两大路线:其一是基于候选框提取的两阶段检测算法。算法首先需要获取候选区域,然后进行分类,比如r-cnn系列;与之相对的是单阶段检测算法,不需要单独寻找候选区域,典型的有ssd和yolo系列等。对于上述两种方式,基于候选区域的两阶段方法在检测准确率和定位精度上占优,基于端到端的单阶段算法速度占优。但是,目前随着研究的深度与技术的进步,单阶段算法的精度已经大幅提高,甚至超过了部分基于候选框的两阶段算法,足以满足大部分日常任务,且由于其较快的运行速度,使其相比faster-rcnn等两阶段算法的优势更加明显。但是,这类方法再面对货架上密集的商品,或者说收银台上排列地杂乱无章的商品目标时,往往会出现召回率低、重复检测严重、边框边界不准确等问题。
5.基于对现实场景中的零售商品图像和现有的商品目标检测数据集进行分析,可以总结出密集商品检测有以下难点:1)目标密集,同一类拥挤的商品拥有相同特征,对于检测器来说很难区分是一个或多个物体;2)多个目标之间互相有遮盖或重叠,使检测器难以区分单个物体的边界;3)物体数量多,目标小,检测器受到网格单元的限制,难以准确计算目标数量;4)nms等后处理机制,很有可能会错误地过滤掉应有的正确结果。如何有效地解决这些问题,对于提升商品检测效果有着重要的研究意义。


技术实现要素:

6.为解决上述问题,本发明公开了一种基于多元回归和自适应焦点损失的密集物体图像检测方法,构建基于深度学习的密集零售商品检测模型,通过多元回归网络、nms-score机制和自适应焦点损失来提高密集场景下零售商品检测的准确率,大幅提升了检测
性能,方法巧妙新颖,具有良好的应用前景。
7.为达到上述目的,本发明的技术方案如下:
8.基于多元回归和自适应焦点损失的密集物体图像检测方法,包括如下步骤:
9.步骤a、使用图像采集设备从超市货架场景中采集原始图像,并对采集的图像数据进行预处理与增强;
10.步骤b、对不同类型以及不同检测难度的商品目标进行标注,并按照预设比例进行数据集划分;
11.步骤c、构建基于retinanet的深度学习模型作为基线模型,输入步骤b处理完成的图像进行训练;
12.步骤d、建立多元回归网络和nms-score机制,根据前置网络提取的特征生成目标边界框的信息和目标类别;
13.步骤e、使用候选框与真实值的偏差生成nms-score作为nms排序依据,并引入自适应焦点损失来训练模型,根据训练后的商品检测模型,检测出对应商品的位置。
14.作为本发明的一种补充,步骤b操作如下:
15.步骤b1、对不同类型以及不同检测难度的商品目标进行标注。标注方法分为两个层次:第一个层次是标注出目标边框的左上、右上、左下、右下四个角的位置在图像中的坐标;第二个层次是目标的检测难度,可将其分为简单、中等、困难这三种等级,标注为数字1、2、3。
16.步骤b2、对标注好的数据集按照预设比例进行划分。主要划分为训练集、验证集和测试集三种数据。
17.作为本发明的一种补充,步骤c中,retinanet包括依次连接的残差卷积网络(resnet)、特征金字塔网络(fpn),即使用resnet作为主干网络进行特征提取,使用fpn进行多尺度融合。输入图像经过主干网络的特征提取后,可以得到5种不同尺寸的特征图金字塔。在得到特征金字塔后,对每层特征金字塔分别使用分类网络和检测框生成网络。retinanet使用锚框来产生一系列候选区(proposal)作为检测框,使用分类网络可以直接区分出数据集的类别数量。特征金字塔每层都相应的产生目标类别与位置的预测,最后再将其融合起来,同时使用nms来得到最后的检测结果。
18.作为本发明的一种补充,步骤d操作如下:
19.步骤d1、使用多元回归网络,以上一层特征金字塔网络输出的特征图作为输入。对于上一层特征融合层输出的特征图,通过多层卷积改变其通道数,对商品目标的边界位置进行星型边界回归。这里的h和w就表示将原图分为h*w个区域,每个区域负责检测中心点与当前区域的中心点最近,且范围包含了当前区域的商品目标。多元回归网络主要由星型边界回归法和三路不同功能的卷积相结合而成。星型边界回归负责确定当前区域存在目标的边界位置,三路卷积则分别获取边界框缩放系数、边界框距离、边界框准确度评分。
20.步骤d2、构建星型边界回归网络。星型边界回归使用了固定的9个采样点,通过可变形卷积来表示边界框。这9个采样点包括当前检测区域中心点、候选边界框与区域中心点水平和竖直线相交的4个点、以及候选边界框的四个角落点。具体来说,设定一个采样点(x,y)为当前检测区域的中心点坐标。首先使用一组3x3的卷积回归出该物体上下左右边界与当前检测区域中心点的距离(l,t,r,b),在使用这个距离向量的基础上,可以启发式地选择
出剩余四个边界角点。这9个采样点可以表示为:(x,y),(x-l,y),(x,y-t),(x+t,y),(x,y+b),(x-l,y-t),(x+r,y-t),(x-l,y+b)和(x+r,y+b),最后将这9个点映射到特征图上,使用可变形卷积来表示边界框,由于这些点是直观选取的,不需要额外的预测,所以计算上非常高效。这种表示方法可以获取边界框的几何信息及其附近的上下文的信息,有利于于解决候选框和真实框在编码时的不对齐问题。
21.步骤d3、在步骤d2的基础上,使用三路卷积获取多元回归信息。第一路卷积,将上游特征图通过多层残差学习,连接到第二路卷积中生成的原始预测距离(l,t,r,b)结合生成星型边界特征图,通过一个可变形卷积与多层3x3的卷积学习出4个距离缩放因子(δl,δt,δr,δb),原始预测距离与缩放因子向量点乘即可获得最终边界预测距离。
22.第二路卷积,即通过多层卷积层学习出原始预测距离(l,t,r,b),以供第一路使用。接着,根据第一路获取的距离缩放因子,计算出最终边界预测距离,计算方法为点乘计算,用公式可以表示为
23.第三路卷积,主要是获取边界框准确度评分(nms-score)和当前目标所属的分类,输出张量维度为h
×w×
(n+1),其中h和w为上游特征图输出的长宽数值,n为数据集商品类别总数。
24.步骤d4、nms-score机制步骤d3的第三路卷积的基础上,使用第三路卷积获取的边界框准确度评分(nms-score),其预测值由卷积网络生成。真实值用公式可以表示为:其中,δ表示(l,t,r,b)的预测值与真实值之差的绝对值,ε表示一个极小值,用来防止分母为0。因此,当网络生成的(l,t,r,b)越接近真实值,tanh中的参数则趋近于无穷。此时nms score约定于1;相反,如果此时候选框与真实值差别很大,score值则接近于0。
25.作为本发明的一种补充,步骤e操作如下:
26.步骤e1、使用候选框与真实值的偏差生成nms-score作为nms排序依据。由于不同尺度、不同位置的预测区域可能会对图像中的同一个物体进行预测,因此不论是单阶段还是两阶段的目标检测算法,都会产生相当多的冗余边界框。非极大值抑制(nms)算法常常被用来过滤掉冗余边界框,只保留最优的一个。常规的nms方法,直接采用iou阈值判定,再使用置信度作为依据进行排序,最后过滤出置信度最高的一个。iou-score机制则重新设计出一种评分,即步骤d4回归结果向量的一个值,作为nms排序的依据。经过深度神经网络学习到的评分值包含了边框位置精度信息,因此相对于传统的nms,更适合作为非极大值抑制的排序指标,可以使更加贴近于真实边框的候选框被筛选出来。
27.步骤e2、引入自适应焦点损失来训练模型,根据训练后的商品检测模型,检测出对应商品的位置。分类损失函数用来判断当前检测区域内的物体是否存在,引入自适应焦点损失来进行二元分类。损失函数在交叉熵的基础上增加了两个超参数,即权重系数α,γ。将预测框中心与真实框中心的距离ω作为损失函数的参数参与计算,与检测区域中心与真实人体中心距离越远,则损失函数越小。当检测区域内没有人体存在时,ω=0。损失函数公式如下:
[0028][0029]
其中,权重α用来平衡正负样本的不均衡,权重γ用来区分难易样本,p为置信度的预测值,ω为预测框中心与真实框中心的距离。初始状态下γ值为0。当γ增加时,调整因子也在增加,即简单样本产生的loss逐渐被抑制。随着γ值增大简单样本产生的loss则大幅缩小。
[0030]
本发明的有益效果是:
[0031]
本发明所述的一种基于多元回归和自适应焦点损失的密集物体图像检测方法,在retinanet的基础上引入多元回归网络,设计出一种高性能的密集商品目标检测器;同时设计出一种自适应焦点损失,代替了先前普遍使用的交叉熵损失函数精选训练,从而提升模型收敛的速度;此外还对非极大值抑制策略进行改进,引入nms-score机制,显著地提高密集商品的检测边界框的精确度。方法巧妙新颖,具有良好的应用前景。
附图说明
[0032]
图1是本发明中一种基于多元回归和自适应焦点损失的密集物体图像检测方法的流程图;
[0033]
图2是本发明所提出模型的完整结构框图;
[0034]
图3是本发明所设计的多元回归网络结构图;
[0035]
图4是本发明所设计的星型边界回归法的特征采样示意图。
具体实施方式
[0036]
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
[0037]
如图1所示,本发明的基于多元回归和自适应焦点损失的密集物体图像检测方法,包括以下步骤,
[0038]
步骤a、使用图像采集设备从超市货架场景中采集原始图像,并对采集的图像数据进行预处理与增强;
[0039]
步骤b、对不同类型以及不同检测难度的商品目标进行标注,并按照预设比例进行数据集划分;
[0040]
步骤b1、对不同类型以及不同检测难度的商品目标进行标注。标注方法分为两个层次:第一个层次是标注出目标边框的左上、右上、左下、右下四个角的位置在图像中的坐标;第二个层次是目标的检测难度,可将其分为简单、中等、困难这三种等级,标注为数字1、2、3。
[0041]
步骤b2、对标注好的数据集按照预设比例进行划分。主要划分为训练集、验证集和测试集三种数据。
[0042]
步骤c、如图2所示,构建基于retinanet的深度学习模型作为基线模型,输入步骤b处理完成的图像进行训练。retinanet包括依次连接的残差卷积网络(resnet)、特征金字塔
网络(fpn),即使用resnet作为主干网络进行特征提取,使用fpn进行多尺度融合。输入图像经过主干网络的特征提取后,可以得到5种不同尺寸的特征图金字塔。在得到特征金字塔后,对每层特征金字塔分别使用分类网络和检测框生成网络。retinanet使用锚框来产生一系列候选区(proposal)作为检测框,使用分类网络可以直接区分出数据集的类别数量。特征金字塔每层都相应的产生目标类别与位置的预测,最后再将其融合起来,同时使用nms来得到最后的检测结果。
[0043]
步骤d、建立多元回归网络和nms-score机制,根据前置网络提取的特征生成目标边界框的信息和目标类别;
[0044]
步骤d1、如图3所示,使用多元回归网络,以上一层特征金字塔网络输出的特征图作为输入。对于上一层特征融合层输出的特征图,通过多层卷积改变其通道数,对商品目标的边界位置进行星型边界回归。这里的h和w就表示将原图分为h*w个区域,每个区域负责检测中心点与当前区域的中心点最近,且范围包含了当前区域的商品目标。多元回归网络主要由星型边界回归法和三路不同功能的卷积相结合而成。星型边界回归负责确定当前区域存在目标的边界位置,三路卷积则分别获取边界框缩放系数、边界框距离、边界框准确度评分。
[0045]
步骤d2、如图4所示,构建星型边界回归网络。星型边界回归使用了固定的9个采样点,通过可变形卷积来表示边界框。这9个采样点包括当前检测区域中心点、候选边界框与区域中心点水平和竖直线相交的4个点、以及候选边界框的四个角落点。具体来说,设定一个采样点(x,y)为当前检测区域的中心点坐标。首先使用一组3x3的卷积回归出该物体上下左右边界与当前检测区域中心点的距离(l,t,r,b),在使用这个距离向量的基础上,可以启发式地选择出剩余四个边界角点。这9个采样点可以表示为:(x,y),(x-l,y),(x,y-t),(x+t,y),(x,y+b),(x-l,y-t),(x+r,y-t),(x-l,y+b)和(x+r,y+b),最后将这9个点映射到特征图上,使用可变形卷积来表示边界框,由于这些点是直观选取的,不需要额外的预测,所以计算上非常高效。这种表示方法可以获取边界框的几何信息及其附近的上下文的信息,有利于于解决候选框和真实框在编码时的不对齐问题。
[0046]
步骤d3、如图3所示,在步骤d2的基础上,使用三路卷积获取多元回归信息。第一路卷积,将上游特征图通过多层残差学习,连接到第二路卷积中生成的原始预测距离(l,t,r,b)结合生成星型边界特征图,通过一个可变形卷积与多层3x3的卷积学习出4个距离缩放因子(δl,δt,δr,δb),原始预测距离与缩放因子向量点乘即可获得最终边界预测距离。
[0047]
第二路卷积,即通过多层卷积层学习出原始预测距离(l,t,r,b),以供第一路使用。接着,根据第一路获取的距离缩放因子,计算出最终边界预测距离,计算方法为点乘计算,用公式可以表示为
[0048]
第三路卷积,主要是获取边界框准确度评分(nms-score)和当前目标所属的分类,输出张量维度为h
×w×
(n+1),其中h和w为上游特征图输出的长宽数值,n为数据集商品类别总数。
[0049]
步骤d4、nms-score机制步骤d3的第三路卷积的基础上,使用第三路卷积获取的边界框准确度评分(nms-score),其预测值由卷积网络生成。真实值用公式可以表示为:
[0050]
[0051]
其中,δ表示(l,t,r,b)的预测值与真实值之差的绝对值,ε表示一个极小值,用来防止分母为0。因此,当网络生成的(l,t,r,b)越接近真实值,tanh中的参数则趋近于无穷。此时nms score约定于1;相反,如果此时候选框与真实值差别很大,score值则接近于0。
[0052]
步骤e、使用候选框与真实值的偏差生成nms-score作为nms排序依据,并引入自适应焦点损失来训练模型,根据训练后的商品检测模型,检测出对应商品的位置。
[0053]
步骤e1、使用候选框与真实值的偏差生成nms-score作为nms排序依据。由于不同尺度、不同位置的预测区域可能会对图像中的同一个物体进行预测,因此不论是单阶段还是两阶段的目标检测算法,都会产生相当多的冗余边界框。非极大值抑制(nms)算法常常被用来过滤掉冗余边界框,只保留最优的一个。常规的nms方法,直接采用iou阈值判定,再使用置信度作为依据进行排序,最后过滤出置信度最高的一个。iou-score机制则重新设计出一种评分,即步骤d4回归结果向量的一个值,作为nms排序的依据。经过深度神经网络学习到的评分值包含了边框位置精度信息,因此相对于传统的nms,更适合作为非极大值抑制的排序指标,可以使更加贴近于真实边框的候选框被筛选出来。
[0054]
步骤e2、引入自适应焦点损失来训练模型,根据训练后的商品检测模型,检测出对应商品的位置。分类损失函数用来判断当前检测区域内的物体是否存在,引入自适应焦点损失来进行二元分类。损失函数在交叉熵的基础上增加了两个超参数,即权重系数α,γ。将预测框中心与真实框中心的距离ω作为损失函数的参数参与计算,与检测区域中心与真实人体中心距离越远,则损失函数越小。当检测区域内没有人体存在时,ω=0。损失函数公式如下:
[0055][0056]
其中,权重α用来平衡正负样本的不均衡,权重γ用来区分难易样本,p为置信度的预测值,ω为预测框中心与真实框中心的距离。初始状态下γ值为0。当γ增加时,调整因子也在增加,即简单样本产生的loss逐渐被抑制。随着γ值增大简单样本产生的loss则大幅缩小。
[0057]
为了充分比较本发明所提出的一种基于多元回归和自适应焦点损失的密集物体图像检测方法的性能,实验设置在自建的零售商品数据集上。本发明以平均精度均值(ap)作为模型性能的评价指标。iou阈值为0.5条件下的平均精度均值(map@0.5),同理阈值为0.75条件下则是map@0.75。在确定iou阈值之后,就可以根据此阈值判断每一种类别的预测框与真实框的交并比是否超过阈值,从而计算出在不同的置信度下的准确率和召回率,得到当前模型测试结果的p-r曲线(precision-recall)。某一类别的ap即为坐标轴上当前类别pr曲线下方的面积,接着对所有类别的ap求均值,就得到了当前阈值下map数值。再对各个阈值下(iou=.50:.05:0.95,即在iou为0.5到0.95的范围内每隔0.05的步长获取ap值)的结果求均值,就得到了本发明采用的技术指标map。实验结果表明,本发明所提出的基线模型达到了37.7的map,在引入了多元回归网络、nms-score机制和自适应焦点损失之后,准确率提升到了52.8map,优于各类通用目标检测器的效果。
[0058]
综上所述,本发明所提出的一种基于多元回归和自适应焦点损失的密集物体图像
检测方法,在retinanet的基础上引入多元回归网络,设计出一种高性能的密集商品目标检测器;同时设计出一种自适应焦点损失,代替了先前普遍使用的交叉熵损失函数精选训练,从而提升模型收敛的速度;此外还对非极大值抑制策略进行改进,引入nms-score机制,显著地提高密集商品的检测边界框的精确度。方法巧妙新颖,具有良好的应用前景。
[0059]
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1