1.本技术涉及计算机视觉技术领域,更具体的说,是涉及一种目标检测跟踪一体化方法及装置。
背景技术:2.目标检测与跟踪是计算机视觉技术领域的一个备受关注的研究方向,是视频监控、人机交互、机器人视觉导航等应用的基础。例如,基于通道闸的身份验证系统,通常通过视频监控来对行人进行检测与跟踪,进而对行人的身份进行核验。
3.因此,能否正确检测出经过通道闸的人头目标并对其进行跟踪对于通道闸身份验证系统的后续业务如通道尾随、检测是否有反向通行现象、对经过通道的行人进行人数统计等显得尤为重要。
4.随着神经网络算法在计算机视觉技术领域的应用,出现很多基于深度学习进行目标检测的算法,但是现有的目标检测算法普遍存在漏检和误检情况,漏检或者误检均对通道闸身份验证系统的后续业务有较大的影响。
技术实现要素:5.鉴于上述问题,本技术提出了一种目标检测跟踪一体化方案,以提高目标检测准确率。具体方案如下:
6.一种目标检测跟踪一体化方法,包括:
7.获取待检测图像;
8.将所述待检测图像输入目标检测网络,得到目标预测框及其检测分数;
9.基于所述目标预测框的检测分数与预设的检测分数阈值的大小关系,以及,所述目标预测框与已确定为正确的预测框的相似度,判断所述目标预测框是否正确;
10.若正确,则调用目标跟踪网络,得到所述目标预测框的跟踪信息;
11.输出所述目标预测框、所述目标预测框的检测分数及所述目标预测框的跟踪信息。
12.可选的,基于所述目标预测框的检测分数与预设的检测分数阈值的大小关系,以及,所述目标预测框与已确定为正确的预测框的相似度,判断所述目标预测框是否正确,包括:
13.比较所述目标预测框的检测分数与预设的检测分数阈值的大小,得到第一比较结果;
14.基于所述目标预测框与已确定为正确的预测框的位置关系,计算所述目标预测框与已确定为正确的预测框的相似度;
15.比较所述相似度与预设的相似度阈值,得到第二比较结果;
16.根据所述第一比较结果与所述第二比较结果,判断所述目标预测框是否正确。
17.可选的,基于所述目标预测框与已确定为正确的预测框的位置关系,计算所述目
标预测框与已确定为正确的预测框的相似度,包括:
18.计算所述目标预测框与所述已确定为正确的预测框的交并比;
19.计算所述目标预测框与所述已确定为正确的预测框的距离参量;
20.根据所述交并比与所述距离参量,计算得到所述目标预测框与已确定为正确的预测框的相似度。
21.可选的,计算所述目标预测框与所述已确定为正确的预测框的距离参量,包括:
22.计算所述目标预测框的中心点与所述已确定为正确的预测框的中心点的距离,得到中心点距离;
23.计算所述目标预测框与所述已确定为正确的预测框的最小外接框的对角距离;
24.将所述中心点距离除以所述最小外接框的对角距离,得到所述距离参量。
25.可选的,根据所述交并比与所述距离参量,计算得到所述目标预测框与已确定为正确的预测框的相似度,计算公式包括:
[0026][0027]
其中,l
diou
表示所述目标预测框与已确定为正确的预测框的相似度,表示所述目标预测框与已确定为正确的预测框的交集面积,表示所述目标预测框与已确定为正确的预测框的并集最小外接框面积,e2(o1,o2)表示所述目标预测框的中心点与所述已确定为正确的预测框的中心点的距离,δ(a,d1)表示所述目标预测框与所述已确定为正确的预测框的最小外接框的对角距离。
[0028]
可选的,所述第一比较结果包括所述目标预测框的检测分数与第一检测分数阈值的大小关系,所述第二比较结果包括所述相似度与所述预设的相似度阈值的大小关系;
[0029]
则,根据所述第一比较结果与所述第二比较结果,判断所述目标预测框是否正确,包括:
[0030]
若第一比较结果为所述目标预测框的检测分数大于或等于预设的第一检测分数阈值,则判断所述目标预测框正确;
[0031]
若第一比较结果为所述目标预测框的检测分数小于预设的第一检测分数阈值,且第二比较结果为所述目标预测框与已确定为正确的预测框的相似度大于所述预设的相似度阈值,则判断所述目标预测框正确。
[0032]
可选的,所述第一比较结果包括所述目标预测框的检测分数分别与第一检测分数阈值和第二检测分数阈值间的大小关系,所述第二比较结果包括所述相似度与所述预设的相似度阈值的大小关系;
[0033]
则,根据所述第一比较结果与所述第二比较结果,判断所述目标预测框是否正确,包括:
[0034]
若所述目标预测框的检测分数小于第一检测分数阈值,或,所述目标预测框的检测分数大于等于第一检测分数阈值但小于第二检测分数阈值,且所述目标预测框与已确定为正确的预测框的相似度小于所述预设的相似度阈值,则判定所述目标预测框错误;
[0035]
若所述目标预测框的检测分数大于等于所述第二检测分数阈值,或所述目标预测框的检测分数大于等于第一检测分数阈值但小于所述第二检测分数阈值,且所述目标预测
框与已确定为正确的预测框的相似度大于所述预设的相似度阈值,则判定所述目标预测框正确;
[0036]
其中,所述第二检测分数阈值大于所述第一检测分数阈值。
[0037]
可选的,所述调用目标跟踪网络,得到所述目标预测框的跟踪信息,包括:
[0038]
在已确定为正确的各预测框中,确定与所述目标预测框的相似度最大的预测框;
[0039]
将所述与所述目标预测框的相似度最大的预测框对应的跟踪信息与所述目标预测框关联。
[0040]
可选的,所述目标检测网络与所述目标跟踪网络组成一个联合模型统一训练,训练过程包括:
[0041]
将训练图像输入联合模型,得到模型输出的目标预测框、目标预测框的检测分数及目标跟踪信息,所述训练图像标注有目标位置框和跟踪信息标识;
[0042]
基于所述目标预测框和所述目标位置框确定第一损失值,基于所述目标预测框的检测分数确定第二损失值,基于所述目标跟踪信息和所述跟踪信息标识确定第三损失值;
[0043]
利用所述第一损失值、所述第二损失值及所述第三损失值计算总体损失值;
[0044]
基于所述总体损失值对所述联合模型更新参数。
[0045]
一种目标检测跟踪一体化装置,包括:
[0046]
图像获取单元,用于获取待检测图像;
[0047]
目标检测单元,用于将所述待检测图像输入目标检测网络,得到目标预测框及其检测分数;
[0048]
判断单元,用于基于所述目标预测框的检测分数与预设的检测分数阈值的大小关系,以及,所述目标预测框与已确定为正确的预测框的相似度,判断所述目标预测框是否正确;
[0049]
目标跟踪单元,用于调用目标跟踪网络,得到所述目标预测框的跟踪信息;
[0050]
结果获取单元,用于输出所述目标预测框、所述目标预测框的检测分数及所述目标预测框的跟踪信息。
[0051]
借由上述技术方案,本技术对获取的待检测图像通过目标检测网络初步检测出目标预测框及其检测分数,但是此时获取到的目标预测框不一定是正确的目标预测框,本技术进一步对所获取的目标预测框进行判断,基于目标预测框的检测分数与预设的检测分数阈值的大小关系以及目标预测框与已确定为正确的预测框的相似度,判断所述目标预测框是否为正确的目标预测框,若是正确的,才调用目标跟踪网络,对所述正确的目标预测框的跟踪信息进行输出,同时输出所述正确的目标预测框及其对应的预测分数,从而提高目标检测的准确率。
附图说明
[0052]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0053]
图1为本技术实施例提供的目标检测跟踪一体化方法的流程示意图;
[0054]
图2为本技术实施例提供的预测框相似度的一种计算方法示意图;
[0055]
图3为本技术实施例示例的一种判断目标预测框是否正确的流程示意图;
[0056]
图4为本技术实施例提供的联合小模型框架图;
[0057]
图5为本技术实施例公开的一种目标检测跟踪一体化装置结构示意图。
具体实施方式
[0058]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0059]
本案申请考虑到能否正确检测出通道人头目标并对其进行跟踪对于通道闸身份验证系统的后续业务比如通道尾随、反向通行、人数统计等逻辑判断尤其重要。本技术提供了一种目标检测跟踪一体化方案,可以通过对目标预测框的回归抑制,以及调用跟踪网络的方法,提高目标检测的准确度。
[0060]
接下来,结合图1所述,图1为本技术实施例提供的目标检测跟踪一体化方法的流程示意图,本技术的目标检测跟踪一体化方法可以包括如下步骤:
[0061]
步骤s100,获取待检测图像。
[0062]
具体地,所获取的待检测图像可以是通过对监控摄像机获取的视频数据经过预处理后得到的视频帧图像。在本技术实施例中的,待检测图像的获取可以通过对视频图像序列中相邻两帧图像作差分运算来获得具有运动目标的视频帧图像,具体地可以对视频数据中连续帧图像进行计算相邻帧之间的像素差值,从而可以初步去除视频中没有运动目标的视频帧。可以理解的是,没有运动目标的视频帧可以指的是没有人体的视频帧图像,运动目标是相对同一个拍摄范围内固定摆设的物体而言的。
[0063]
另一方面,考虑到待检测图像的分辨率对于后续的推理效果有影响,通常情况会影响推理的速度和精度,在本技术实施例中,可以对获取的原始的视频帧图像进行压缩,通常情况下,获取的视频帧图像的分辨率为1920dpi*1080dpi,可以将其按照等比例缩放后,对短边进行补充得到待检测图像。本案的申请人考虑权衡推理精度与推理速度的情况下,根据多次试验的效果,在本技术的一些实施例中将原始视频帧图像按照等比例压缩至416*234dpi的非方形图像,并对压缩后的视频帧图像的短边进行pad补黑边至416dpi*416dpi方形图像。
[0064]
步骤s110,将待检测图像输入目标检测网络,得到目标预测框及其检测分数。
[0065]
具体地,将上述步骤s100获取的待检测图像输入至预设的目标检测网络,可以得到目标预测框及该目标预测框的检测分数。以智能通道人头检测为目标举例说明,对通过智能通道的行人进行检测,将待检测图片输入人头目标检测网络,可以得到人头预测框,以及人头预测框的检测分数。
[0066]
但是,在本步骤中得到的人头预测框可能是错误的预测框,这里所说的错误的预测框指的是目标检测网络误将背包或者是其他与人头相似的物体检测为人头。若直接输出本步骤中目标检测网络的检测结果,而没有进一步对目标检测网络的检测结果进行回归约束,可能误检测的概率很大。因此,为提高目标检测的准确率,本案的申请人将对该目标检
测网络输出的目标预测框进一步约束,在一定程度上减少误检测的概率。
[0067]
步骤s120,判断目标预测框是否正确,若正确,执行下述步骤s130。
[0068]
具体地,基于目标预测框的检测分数与预设的检测分数阈值的大小关系,以及所述目标预测框与已确定为正确的预测框的相似度,进一步判断所述目标预测框是否正确。
[0069]
可以理解的是,预设的检测分数阈值可以根据实际需要以及根据试验结果进行调整,预设的检测分数阈值可以粗略判断出所述目标预测框是否为伪人头预测框,并过滤掉误检测的伪人头预测框。
[0070]
同时,结合目标预测框与已确定为正确的预测框的相似度,更加精准地判断所述目标预测框是否正确。需要说明的是,在本技术的一些实施例中,已确定为正确的预测框可以理解为已缓存于本地的目标预测框。在目标检测网络推理的过程中,将判断为正确的目标预测框缓存于特定的缓存容器,用于与后续视频帧的目标预测框进行对比。后续视频帧的目标预测框与已确定为正确的预测框的相似度对比,可以判断该视频帧的目标预测框是否为先前已被检测出的正确的目标预测框。
[0071]
步骤s130,调用目标跟踪网络。
[0072]
具体地,在上述步骤s120可以判断出目标检测网络输出的目标预测框是否正确,若所述目标预测框正确,则会调用目标跟踪网络,对该正确的目标预测框进行跟踪,进而得到该正确的目标预测框的跟踪信息。跟踪信息可以是对同一人头目标进行编码,也可以是以其他形式进行区分是否为同一个人头目标。
[0073]
可以理解的是,对不同人头目标进行编码的方法可以是随机编码,也可以是按照人头目标出现在视频中的顺序从1开始编码,上述两种编码方式仅仅是本技术实施例为了清楚说明跟踪信息的标识方式而举例说明,对于其他同样可以唯一标识不同人头目标的身份标识号也适用于本技术的方案,在本技术实施例中,对于区分不同人头目标的跟踪信息的表示方法不作严格的限定。
[0074]
步骤s140,输出目标预测框、目标预测框检测分数、目标跟踪信息。
[0075]
具体地,在上述步骤s120中已对当前视频帧的目标预测框进行判断是否正确,在所述目标预测框被判断为正确的预测框的情况下,可以输出该目标预测框、该目标预测框检测分数以及该目标预测框的跟踪信息。
[0076]
借由上述技术方案,本技术对获取的待检测图像通过目标检测网络初步检测出目标预测框及其检测分数,但是此时获取到的目标预测框不一定是正确的目标预测框,本技术进一步对所获取的目标预测框进行判断,基于目标预测框的检测分数与预设的检测分数阈值的大小关系以及目标预测框与已确定为正确的预测框的相似度,判断所述目标预测框是否为正确的目标预测框,若是正确的,才调用目标跟踪网络,对所述正确的目标预测框的跟踪信息进行输出,同时输出所述正确的目标预测框及其对应的预测分数,从而提高目标检测的准确率。
[0077]
在本技术的一些实施例中,对上述步骤s130判断目标预测框是否正确的过程进行详细的介绍,判断的过程可以包括以下步骤:
[0078]
s1,比较所述目标预测框的检测分数与预设的检测分数阈值的大小,得到第一比较结果。
[0079]
在本步骤中,可以将目标预测框的检测分数与预设的检测分数阈值进行大小比
较,得到第一比较结果。得到的第一比较结果可以初步判断所述目标预测框是正确的还是错误的预测框,并将初步判断为正确的目标预测框进行暂时的缓存。可以理解的是,对于暂时缓存的初步判断为正确的预测框,可以进一步对其进行验证,若对该预测框进一步验证后不满足条件,可以将该暂时缓存的目标预测框移除。
[0080]
s2,基于所述目标预测框与已确定为正确的预测框的位置关系,计算所述目标预测框与已确定为正确的预测框的相似度。
[0081]
在本步骤中,可以根据目标预测框与已确定为正确的预测框的位置关系例如:目标预测框与已确定为正确的预测框完全重合或者目标预测框与确定为正确的预测框没有交集部分,或者目标预测框与已确定为正确的预测框有重叠区域但不完全重叠。
[0082]
根据上述的位置关系,可以计算所述目标预测框与已确定为正确的预测框的相似度,该相似度可以用于区分所述目标预测框是新出现的正确的目标预测框,还是先前已检测到的正确的目标预测框,还是误检测的错误的目标预测框。
[0083]
s3,比较所述相似度与预设的相似度阈值,得到第二比较结果。
[0084]
具体地,对于上述步骤s2计算得到的相似度,可以将其与预设的相似度阈值进行比较,从而得到第二比较结果。需要说明的是,所述相似度阈值可以是根据经验设定的相似度阈值,也可以根据实际需要对所述相似度阈值进行调整。
[0085]
s4,根据所述第一比较结果与所述第二比较结果,判断所述目标预测框是否正确。
[0086]
具体地,结合所述第一比较结果与所述第二比较结果来判断所述目标预测框是否正确,结合两个比较结果来判断所述目标预测框是否正确,可以增强判断结果的可靠性,同时也可以提高检测的准确率。
[0087]
在本技术的一些实施例中,对s2,基于所述目标预测框与已确定为正确的预测框的位置关系,计算目标预测框与已确定为正确的预测框的相似度的过程进行详细的介绍,该过程可以包括以下步骤:
[0088]
s21,计算所述目标预测框与所述已确定为正确的预测框的交并比。
[0089]
s22,计算所述目标预测框与所述已确定为正确的预测框的距离参量。
[0090]
s23,根据所述交并比与所述距离参量,计算得到所述目标预测框与已确定为正确的预测框的相似度。
[0091]
具体地,本案申请人考虑到目标预测框与已确定为正确的预测框的相似度不仅可以通过这两个预测框的重叠区域确定这两个预测框的相似度,还可以结合这两个预测框之间的距离参量确定这两个预测框的相似度。需要说明的是,距离参量可以是根据目标预测框与已确定为正确的预测框中心点计算出来的中心点距离,也可以是结合这两个预测框的中心点距离与这两个预测框的最小外接框的对角距离计算出来的比值,在本技术实施例中,以两个预测框的中心点与这两个预测框的最小外接框的对角距离计算距离参量进行举例说明。
[0092]
对此,上述步骤s22,计算所述目标预测框与所述已确定为正确的预测框的距离参量的过程可以包括:可以计算目标预测框的中心点与已确定为正确的预测框的中心点的距离,从而得到两个预测框的中心点距离;另外,还需计算所述目标预测框与所述已确定为正确的预测框的最小外接框的对角距离;最后将上述中心点距离除以上述最小外接框的对角距离,得到一个比值,将该比值作为距离参量。
[0093]
在本技术的实施例中,将对步骤s23,根据所述交并比与所述距离参量,计算得到所述目标预测框与已确定为正确的预测框的相似度的过程进行详细介绍。请参照图2,图2为本技术实施例提供的预测框相似度的一种计算方法示意图。具体地,根据交并比与距离参量,计算得到目标预测框与已确定为正确的预测框的相似度,该过程的计算公式可以包括:
[0094][0095]
其中,l
diou
表示所述目标预测框与已确定为正确的预测框的相似度,表示所述目标预测框与已确定为正确的预测框的交集面积,表示所述目标预测框与已确定为正确的预测框的并集最小外接框面积,e2(o1,o2)表示所述目标预测框的中心点与所述已确定为正确的预测框的中心点的距离,δ(a,d1)表示所述目标预测框与所述已确定为正确的预测框的最小外接框的对角距离。
[0096]
在本技术的一些实施例中,将对上述步骤s4,根据所述第一比较结果与所述第二比较结果,判断所述目标预测框是否正确的过程进行详细的介绍。
[0097]
本技术实施例提供了几种不同的实现方式,分别介绍如下:
[0098]
第一种、当所述第一比较结果包括所述目标预测框的检测分数与第一检测分数阈值的大小关系,所述第二比较结果包括所述相似度与所述预设的相似度阈值的大小关系时,步骤s4可以包括:
[0099]
s41,若第一比较结果为所述目标预测框的检测分数大于或等于预设的第一检测分数阈值,则判断所述目标预测框正确;
[0100]
s42,若第一比较结果为所述目标预测框的检测分数小于预设的第一检测分数阈值,且第二比较结果为所述目标预测框与已确定为正确的预测框的相似度大于所述预设的相似度阈值,则判断所述目标预测框正确。
[0101]
第二种、当所述第一比较结果包括所述目标预测框的检测分数分别与第一检测分数阈值和第二检测分数阈值间的大小关系,所述第二比较结果包括所述相似度与所述预设的相似度阈值的大小关系时,请参照图3,图3为本技术实施例示例的一种判断目标预测框是否正确的流程示意图。则步骤s4可以包括:
[0102]
s41,若所述目标预测框的检测分数小于第一检测分数阈值,或,所述目标预测框的检测分数大于等于第一检测分数阈值但小于第二检测分数阈值,且所述目标预测框与已确定为正确的预测框的相似度小于所述预设的相似度阈值,则判定所述目标预测框错误。
[0103]
具体地,可以有情况1:若所述目标预测框的检测分数dscore小于第一检测分数阈值s1,则判断当前未检测到人头目标预测框,将其作为错误的预测框。
[0104]
或者,可以有情况2:若当前目标预测框的检测分数dscore大于等于第一检测分数阈值s1,但小于第二检测分数阈值s2,并且该目标预测框与已确定为正确的预测框的相似度diou小于预设的相似度阈值s3,则可以判定该目标预测框为错误的预测框,即该预测框不是人头预测框,可能是书包或是其他物体的预测框,对此,可以将该预测框作为误检测的目标预测框,将不会调用目标跟踪网络,不对该预测框进行跟踪。
[0105]
s42,若所述目标预测框的检测分数大于等于所述第二检测分数阈值,或所述目标
预测框的检测分数大于等于第一检测分数阈值但小于所述第二检测分数阈值,且所述目标预测框与已确定为正确的预测框的相似度大于所述预设的相似度阈值,则判定所述目标预测框正确。
[0106]
具体地,可以有情况3:若当前目标预测框的检测分数dscore大于等于第二检测分数阈值s2,则可以判定当前目标预测框为正确的预测框。需要说明的是,所预设的第一检测分数阈值s1小于第二检测分数阈值s2,在判断当前目标预测框的检测分数dscore大于等于第二检测分数阈值s2后,已经意味着当前目标预测框的检测分数dscore大于第一检测分数阈值s1。
[0107]
或者,可以有情况4:若当前预测框的检测分数dscore大于等于第一检测分数阈值s1但小于第二检测分数阈值s2,并且该目标预测框与已确定为正确的预测框的相似度diou大于等于预设的相似度阈值s3,则判定所述目标预测框正确。
[0108]
对于上述被判断为正确的预测框,均将调用目标跟踪网络,对正确的预测框进行跟踪。
[0109]
在本技术实施例中,预设的第一检测分数阈值s1可以取值0.2,第二检测分数阈值s2可以取值0.58,明显的,在本技术实施例中,所述第二检测分数阈值大于所述第一检测分数阈值,另外,本技术实施例中预设的相似度阈值s3可以取值0.5。需要说明的是,本技术实施例预设的阈值均由本案申请人经过大量试验后确定的较优阈值,本领域的技术人与可以根据实际需要对上述预设的阈值进行调整。
[0110]
在本技术实施例中,预设的第一检测分数阈值s1=0.2是为了在检测过程中尽量避免漏检目标,所设置的检测分数值较比小的时候,可以将大部分预测框进行缓存于缓存容器1中,但是这些预测框可能会存在一定的误检,出现误检可以通过本技术实施例预设的第二检测分数阈值s2=0.58以及相似度阈值s3=0.5进一步回归抑制去除错误的预测框。当预测框被判断为错误预测框时,可以将该预测框从容器1中移除;当预测框被判断为正确时,则会将该预测框缓存于缓存容器2中,缓存容器2可以被设置为40帧容量。可以理解的是,缓存容器2可以被设置为40帧容量指的是,若目标短时间内离开画面后再进入可将其视为同一目标,若目标离开画面40帧后仍未进入画面,则对该目标跟踪信息进行遗忘,后续若该目标再次进入画面时,即作为新的目标进行检测跟踪。
[0111]
在本技术的一些实施例中,当目标预测框被判定为正确后,则上述步骤s130,调用目标跟踪网络,得到所述目标预测框的跟踪信息的过程可以包括以下步骤:
[0112]
s1,在已确定为正确的各预测框中,确定与所述目标预测框的相似度最大的预测框。
[0113]
具体地,在已确定为正确的各预测框中,对于每一视频帧图像的预测框,若预测框中的目标短时间内离开视频画面后再进入,可将其视为同一目标,若目标离开画面时间间隔较长,在本技术实施例中设置该时间间隔为40帧,若40帧视频图像后目标仍未进入画面,则对该目标预测框的跟踪信息,例如顺序编号进行遗忘。若后续该目标再次进入画面时,即作为新的目标进行检测跟踪。
[0114]
s2,将所述与所述目标预测框的相似度最大的预测框对应的跟踪信息与所述目标预测框关联。
[0115]
具体地,在上述子步骤s1可以知道,已确定为正确的各个预测框的时间间隔是40
帧,所以将会出现多个与所述目标预测框的相似度大于预设的相似度阈值的预测框,需要确定与所述目标预测框的相似度最大的预测框,并将该与所述目标预测框的相似度最大的预测框对应的跟踪信息赋值于当前目标预测框。
[0116]
在本技术的一些实施例中,所述目标检测网路与所述目标跟踪网络可以组成一个联合模型统一训练。该训练的过程可以包括:
[0117]
s1,将训练图像输入联合模型,得到模型输出的目标预测框、目标预测框的检测分数及目标跟踪信息,所述训练图像标注有目标位置框和跟踪信息标识。
[0118]
具体地,所述联合模型可以采用一次性聚合网络ese_vovnet39b,将标注有目标位置框和跟踪信息标识的训练图像输入到联合模型,可以得到模型输出的目标预测框、目标预测框的检测分数及目标跟踪信息。
[0119]
s2,基于所述目标预测框和所述目标位置框确定第一损失值,基于所述目标预测框的检测分数确定第二损失值,基于所述目标跟踪信息和所述跟踪信息标识确定第三损失值。
[0120]
具体地,所述目标预测框bbox与所述标注的目标位置框box之间的损失可以采用ciou计算,从而得到第一损失值loss
bbox
,该损失的计算公式可以包括:
[0121]
loss
bbox
=ciouloss(bbox,box);
[0122]
其中loss
bbox
可以表示第一损失值,ciouloss(bbox,box)表示采用ciou计算所述目标预测框bbox与所述标注的目标位置框box之间的差值。
[0123]
另一方面,基于所述目标跟踪信息和所述跟踪信息标识确定第三损失值。在训练过程中,为了使得联合模型学习的跟踪信息与训练图像真实标注的跟踪信息标识之间的误差尽可能小,在本技术实施例中,输入的训练图像为x,跟踪信息标识为y,可以先采用自适应余弦损失函数adacos计算目标跟踪头网络预测的跟踪结果adacos(x,y),再在预测出的跟踪结果adacos(x,y)的基础上,通过交叉熵损失函数crossentropy计算预测结果adacos(x,y)与跟踪信息标识y之间的跟踪嵌入损失,具体过程可以包括如下公式:
[0124]
loss
track
=crossentropy(adacos(x,y),y)
[0125]
s3,利用所述第一损失值、所述第二损失值及所述第三损失值计算总体损失值;
[0126]
具体地,在所述目标检测网路与所述目标跟踪网络组成一个联合模型统一训练的过程中,可以将联合模型的回归框的损失进行调整,在本技术实施例中,结合所述第一损失值、所述第二损失值及所述第三损失值计算总体损失值联合模型的总体损失,可以对这三种损失值进行加权求和计算总体损失,计算公式可以包括:
[0127]
loss=α*loss
cls
+β*loss
bbox
+γ*loss
track
;
[0128]
其中,loss
cls
可以表示目标预测框的检测分数的损失值,loss
bbox
可以表示目标预测框的损失值,loss
track
可以代表跟踪信息嵌入损失值。其中α可以取0.3、β可以取0.5、γ可以取0.2,三种损失权重之和为1。
[0129]
在本技术实施例中,考虑到网络模型在训练时,模型需要更加关注目标预测框bbox的回归效果,因此设置目标预测框回归损失更高的权重为0.5;另外,目标预测框的检测分数损失需要指导跟踪头网络确定当前回归的目标预测框是否为正确的目标预测框,因此设置其权重为0.3;同时,考虑到可以对检测到为正确的目标预测框进行跟踪,避免跟踪丢失,跟踪信息嵌入损失权重设置为0.2。需要说明的是,在本技术实施例中α=0.3,β=
0.5,γ=0.2,均为本案申请人经过多次试验后所确定的较好参数设置。
[0130]
s4,基于所述总体损失值对所述联合模型更新参数。
[0131]
具体地,基于总体损失值对所述联合模型更新参数,可以得到可以输出预测结果准确率较高的联合模型,本案申请人考虑到训练后的联合模型虽然可以输出准确率较高的预测结果,但由于此采用一次性聚合网络ese_vovnet39b训练的联合模型体积较大,不利于部署投入使用,进而可以考虑使用蒸馏法将该联合模型压缩,可以得到更易于部署投入使用的联合小模型。
[0132]
该联合小模型的主干网络可以为实时检测跟踪网络mnet25m,该网络可以包含多尺度卷积层、堆叠卷积层、多尺度特征图,同时可以结合逆卷积和双线性采样处理。该网络可以以3*416*416尺度的rgb视频图像帧作为输入,通过对输入图像采用多尺度卷积核进行多尺度卷积操作,可以获取同一帧图像在不同感受野下的多尺度特征图;同时通过堆叠多个卷积过程,可以提取特征图更加细致的可区分特征。进一步通过相同尺度卷积核针对视频连续帧进行相同卷积操作,可以获取不同视频帧相同尺度的特征图。这样就可以提取视频连续图像帧中的相同尺度的特征图和同一图像帧中的不同尺度特征图。进一步对多种尺度图像特征图进行下采样再进行上采样处理使得图像特征图大小相同,最后对得到的特征进行relu激活。
[0133]
在本技术实施例中,联合小模型可以采用mnet25m作为主干网络,通过该主干网络对训练图像进行特征学习,连接目标检测网络,该目标检测网络对主干网络学习到的特征进行提取,并回归出目标预测框及对应的检测分数。
[0134]
请参照图4,图4为本技术实施例提供的联合小模型框架图。在本技术实施例中,主干网络mnet25m在连接目标检测网络的基础上,添加目标跟踪网络结构,对检测结果进行跟踪匹配,使得视频图像检测过程中若出现误检的目标,在后续帧中可以抑制其检测框的回归,从而进一步提高目标检测的准确率。这样一来,对于视频每一帧而言,不再是将其作为单独图像进行检测,可以减少在出现目标误检时,无法确定当前检测出的目标是否为误检测目标,从而导致目标误检率较高的问题。
[0135]
下面对本技术实施例提供的目标检测跟踪一体化装置进行描述,下文描述的目标检测跟踪一体化装置与上文描述的目标检测跟踪一体化方法可相互对应参照。
[0136]
参见图5,图5为本技术实施例公开的一种目标检测跟踪一体化装置结构示意图。
[0137]
如图5所示,该装置可以包括:
[0138]
图像获取单元11,用于获取待检测图像;
[0139]
目标检测单元12,用于将所述待检测图像输入目标检测网络,得到目标预测框及其检测分数;
[0140]
判断单元13,用于基于所述目标预测框的检测分数与预设的检测分数阈值的大小关系,以及,所述目标预测框与已确定为正确的预测框的相似度,判断所述目标预测框是否正确;
[0141]
目标跟踪单元14,用于调用目标跟踪网络,得到所述目标预测框的跟踪信息;
[0142]
结果获取单元15,用于输出所述目标预测框、所述目标预测框的检测分数及所述目标预测框的跟踪信息。
[0143]
可选的,上述判断单元13可以包括:
[0144]
第一比较结果获取单元,用于比较所述目标预测框的检测分数与预设的检测分数阈值的大小,得到第一比较结果;
[0145]
相似度计算单元,用于基于所述目标预测框与已确定为正确的预测框的位置关系,计算所述目标预测框与已确定为正确的预测框的相似度;
[0146]
第二比较结果获取单元,用于比较所述相似度与预设的相似度阈值,得到第二比较结果;
[0147]
第一判断子单元,用于根据所述第一比较结果与所述第二比较结果,判断所述目标预测框是否正确。
[0148]
可选的,上述相似度计算单元可以包括:
[0149]
交并比计算单元,用于计算所述目标预测框与所述已确定为正确的预测框的交并比;
[0150]
距离参量计算单元,用于计算所述目标预测框与所述已确定为正确的预测框的距离参量;
[0151]
相似度获取单元,用于根据所述交并比与所述距离参量,计算得到所述目标预测框与已确定为正确的预测框的相似度。
[0152]
可选的,上述距离参量计算单元可以包括:
[0153]
中心点距离计算单元,用于计算所述目标预测框的中心点与所述已确定为正确的预测框的中心点的距离,得到中心点距离;
[0154]
对角距离计算单元,用于计算所述目标预测框与所述已确定为正确的预测框的最小外接框的对角距离;
[0155]
比值计算单元,用于将所述中心点距离除以所述最小外接框的对角距离,得到所述距离参量。
[0156]
可选的,所述第一比较结果包括所述目标预测框的检测分数与第一检测分数阈值的大小关系,所述第二比较结果包括所述相似度与所述预设的相似度阈值的大小关系,则上述第一判断子单元的判断过程可以包括:
[0157]
若第一比较结果为所述目标预测框的检测分数大于或等于预设的第一检测分数阈值,则判断所述目标预测框正确;
[0158]
若第一比较结果为所述目标预测框的检测分数小于预设的第一检测分数阈值,且第二比较结果为所述目标预测框与已确定为正确的预测框的相似度大于所述预设的相似度阈值,则判断所述目标预测框正确。
[0159]
可选的,所述第一比较结果包括所述目标预测框的检测分数分别与第一检测分数阈值和第二检测分数阈值间的大小关系,所述第二比较结果包括所述相似度与所述预设的相似度阈值的大小关系,则上述第一判断子单元的判断过程可以包括:
[0160]
若所述目标预测框的检测分数小于第一检测分数阈值,或,所述目标预测框的检测分数大于等于第一检测分数阈值但小于第二检测分数阈值,且所述目标预测框与已确定为正确的预测框的相似度小于所述预设的相似度阈值,则判定所述目标预测框错误;
[0161]
若所述目标预测框的检测分数大于等于所述第二检测分数阈值,或所述目标预测框的检测分数大于等于第一检测分数阈值但小于所述第二检测分数阈值,且所述目标预测框与已确定为正确的预测框的相似度大于所述预设的相似度阈值,则判定所述目标预测框
正确;
[0162]
其中,所述第二检测分数阈值大于所述第一检测分数阈值。
[0163]
可选的,上述目标跟踪单元14可以包括:
[0164]
相似度比较单元,用于在已确定为正确的各预测框中,确定与所述目标预测框的相似度最大的预测框;
[0165]
关联单元,用于将所述与所述目标预测框的相似度最大的预测框对应的跟踪信息与所述目标预测框关联。
[0166]
可选的,上述目标检测跟踪一体化装置可以包括联合模型训练单元,可以理解的是,所述联合模型训练单元用于联合训练所述目标检测网络与所述目标跟踪网络,该联合模型的训练过程可以包括:
[0167]
将训练图像输入联合模型,得到模型输出的目标预测框、目标预测框的检测分数及目标跟踪信息,所述训练图像标注有目标位置框和跟踪信息标识;
[0168]
基于所述目标预测框和所述目标位置框确定第一损失值,基于所述目标预测框的检测分数确定第二损失值,基于所述目标跟踪信息和所述跟踪信息标识确定第三损失值;
[0169]
利用所述第一损失值、所述第二损失值及所述第三损失值计算总体损失值;
[0170]
基于所述总体损失值对所述联合模型更新参数。
[0171]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0172]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
[0173]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。