本发明涉计算机视觉,具体涉及一种基于伪深度估计与在线轨迹分类的多目标跟踪方法。
背景技术:
1、多目标跟踪(multiple object tracking,mot)是计算机视觉领域的核心问题之一,对于多种应用场景如智能视频分析、人机交互、活动识别与社交计算等都至关重要。以机器人技术为例,在动态或未知环境中,它们的自主移动经常因场景的复杂和动态变化,如遮挡和物体群集,而面临挑战。克服这些挑战对于实现机器人的自主导航、物品传递、环境感知和安全巡逻等功能至关重要。
2、当前,主流的多目标跟踪方法主要可分为短期跟踪器(short-term tracker,stt)和基于图的可学习跟踪器(graph-based learnable tracker,glt)。基于图的可学习跟踪器在处理复杂跟踪问题时显示出优越性,但它们在训练和推理阶段的时间成本高,有时需要离线处理,这限制了它们在需要实时反应的场景中的应用。与之相比,短期跟踪器的处理速度快,适用于对即时反应有严格要求的应用场景,但如图1所示,即使是高级的短期跟踪器在多重遮挡和目标聚集场景中也会出现问题,如id切换和轨迹碎片化,这暴露了跟踪鲁棒性的不足,例如,使用iou作为预测和检测框间重叠的度量可能在这些场景下引发id切换,而且,现有的检测方法在物体聚集时可能产生误导性的高分数检测框,导致轨迹分配错误,增加跟踪错误的风险,此外,错误轨迹的累积可能导致轨迹碎片化,进一步削弱了算法的整体鲁棒性。因此,需要一种基于伪深度估计与在线轨迹分类的多目标跟踪方法,以解决上述问题。
技术实现思路
1、本发明的目的在于提供一种基于伪深度估计与在线轨迹分类的多目标跟踪方法,以解决上述背景技术中提出的现有技术中存在的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、一种基于伪深度估计与在线轨迹分类的多目标跟踪方法,包括以下步骤:
4、s1图像采集:采用包含有行人识别信息及特征的mot17、mot20和dancetrack公开数据集进行视频帧图像的采集与抽取,构建跟踪模型;
5、s2目标检测:将s1中的视频帧图像输入至训练好的yolox模型中进类别目标检测,输出视频帧图像中所有检测目标的区域坐标及置信度;
6、s3检测分级:利用综合性指标存在性分数对s2中所得的检测目标进行真实性评估,使用置信度和其他相关信息计算存在性分数,通过设定分数阈值,将检测目标分为高分检测框和低分检测框两类;
7、s4分级匹配:根据s3中的检测目标分级结果,结合分级匹配策略;
8、s5轨迹更新:对当前帧匹配后的轨迹进行卡尔曼滤波器状态更新,用于下一帧的状态预测;
9、s6轨迹输出:在s4中的各分级数据关联过程中,匹配的检测目标用于更新相应的预测轨迹;
10、s7结束当前帧的跟踪,跟踪下一帧,重复步骤s2-s6。
11、优选的,步骤s2中yolox模型采用了coco预训练权重,选用特点各异的crowdhuman、cityperson和ethz数据集。
12、优选的,步骤s3中检测目标对应的置信度包含目标置信度和类别置信度;存在性分数计算方法为:其中,pobj为目标置信度,表示检测包含类别目标的确定性及目标区域定位的准确度;pcls为类别置信度,表示检测类别预测的准确度;α为超参数,作为目标和类别置信度对于最后分数的权重,其取值范围为[0,1],α设定为0.9;存在性分数se的取值范围为[0,1]。
13、优选的,步骤s4数据关联中为底边框代价矩阵bottom-edge cost,bec的求解过程:输入激活轨迹坐标集dn及检测目标坐标集tm分别为:其中,和为预测轨迹及检测目标左上角坐标,和为右下角坐标;则可以获取激活轨迹底边框值dn×1和检测框底边框值t1×m分别为:
14、
15、
16、接着,计算激活轨迹与高分检测框底边纵坐标的距离偏差矩阵dfn×m,表示yolox模型预测框和kf模型预测框底边最低点的y坐标之间的差异:
17、dfn×m=|dn×1-t1×m|
18、接着,将每一行的元素减去该行的最小值,对距离偏差矩阵dfn×m进行放缩:
19、
20、接着,对距离偏差矩阵dfn×m进行递增排序,得到排序后的距离偏差矩阵sn×m:
21、
22、接着,选取前v个最小的距离偏差值sn,将其求和;用于对距离偏差的前v个最小值进行加权汇总:
23、
24、接着,通过计算cd,得到底边成本矩阵,并过滤较大的距离偏差值:
25、
26、最后,对交并比(intersection over union,iou)矩阵、运动方向矩阵和底边框代价矩阵进行加权和整合,得到最终的数据关联成本矩阵cbec:
27、cbec(i,j)=ωiou·ciou(i,j)+ωv·cv(i,j)+ωd·cd(i,j)
28、ωiou、ωv和ωd是分配给各自矩阵的权重,反映了它们在成本计算中的相对重要性;索引i代表当前帧中已经存在的轨迹的序号,而索引j代表当前帧检测到的新的检测框的序号,因此,cbec(i,j)表示将第j个检测框与第i个轨迹相关联的总代价。
29、优选的,步骤s4数据关联中检测框与轨迹最小代价过程:使用匈牙利算法在检测器的检测结果和跟踪器的跟踪轨迹两者之间找到一个代价最小的最优分配;现有n项检测框要分配给m个轨迹且总代价最小,首先构造一个m×n二维矩阵表示问题模型,需要按照在各行各列选取一个元素并且选取的元素总和最小的方法在m×n矩阵中选择min(m,n)个匹配对,分配问题如下公式所示:
30、
31、其中cij为权重矩阵,权重矩阵中每行每列都只存在一个数相对于其他数小,表示第i个轨迹匹配第j个检测框的代价,从而保证分配过程中的总代价最小,用伪深度代价矩阵cbec为匈牙利算法的权重矩阵cij。
32、优选的,在步骤s4数据关联中激活轨迹匹配active trajectory match,atm过程:将轨迹连续匹配次数达到阈值的轨迹thits识别为真实的物体轨迹,在首次数据关联中,通过构建关联代价矩阵进行激活轨迹和检测框的二分匹配,以实现代价最小化:
33、
34、其中,表示激活轨迹ta在t帧的卡尔曼滤波器预测状态,表示在t帧的高分帧集,在关联过程中,使用匈牙利算法对代价矩阵cd进行最小分段匹配:
35、
36、表示从激活轨迹集ta到高分检测集的完美σ的所有可能组合,每次匹配后,都会更新激活轨迹的激活分数,轨迹ta的历史激活分数h(ta)在长时间未匹配时会衰减,更新后的激活得分h(ta)′:
37、
38、这里,指示函数表示轨迹h(ta)在时间t是否匹配,如果轨迹ta在时间t成功匹配,即轨迹未更新次数τuntracked=0,则如果当前帧没有匹配,即τuntracked≠0,则参数β代表历史得分的衰减因子,如果激活得分h(ta)′低于某个阈值,轨迹切换为非激活状态。
39、优选的,步骤s5轨迹更新策略为:基于kf对轨迹的状态进行更新,kf的状态x定义为其中(u,v)是图像中对象中心的2d坐标;s是边界框比例,即面积,r是边界框长宽比;假设长宽比r是恒定的,其他三个变量和是相应的时间导数,观测状态是一个边界框z=[u,v,w,h]t,对象中心位置(u,v),对象宽度w和高度h;kf在predict和update阶段交替工作,predict的阶段是导出下一个时间帧t的状态估计,给定下一帧t的目标状态测量,update阶段旨在更新kf中的后验参数;
40、在kf预测与更新过程需要对以下变量进行初始化中,状态向量x,初始估计设为零向量:状态协方差矩阵p,初始设为单位矩阵表示初始状态的不确定性:过程噪声协方差矩阵q,反映模型预测的不确定性:状态转移矩阵f,描述状态变量随时间的更新:观测矩阵h,将状态空间映射到观测空间,初始为零矩阵:测量噪声协方差矩阵r,表示观测过程的不确定性:观测向量z,表示在该帧t的观测值:卡尔曼增益k,用于更新估计的状态向量和协方差矩阵:
41、在predict状态中,首先通过状态转移矩阵ft更新先前时刻的状态预测xt|t-1:
42、xt|t-1=ftxt-1|t-1+wt
43、其中wt为过程噪声,其服从均值为零的多元正态分布协方差为接着通过状态转移矩阵ft和上一帧卡尔曼滤波器更新的状态预测协方差矩阵pt-1|t-1更新先前帧的状态预测协方差矩阵pt|t-1:
44、
45、其中qt为过程噪声协方差矩阵,假设过程噪声qt为一组恒定的高斯噪声,同样服从均值为零的多元正态分布协方差为qt~n(0,rt);
46、在update状态中,首先计算卡尔曼增益kt,该增益用于权衡系统状态预测和实际测量:
47、
48、接着通过卡尔曼增益将状态预测xt修正为更准确的估计:
49、xt=xt|t-1+kt(zt-htxt|t-1)
50、最后通过卡尔曼增益更新状态更新协方差矩阵pt|t,考虑了实际观测带来的信息:
51、pt|t=(i-ktht)pt|t-1
52、当前时间帧t中更新的后验状态矩阵xt和后验状态协方差矩阵pt|t用于更新卡曼滤波器,并求解下一帧t+1先验状态矩阵xt+1|t和后验状态协方差矩阵pt+1|t。
53、优选的,步骤s6轨迹删除策略为:将轨迹从匹配到不匹配的状态切换次数trajectory state switches,tss,符号记为τswitch:
54、
55、其中,ta是激活轨迹集,tna是未激活轨迹集,τhits是轨迹的连续匹配次数,thits_state是状态稳定性阈值,该参数被作为轨迹删除的另一个关键指标,改进策略如下所示:
56、
57、其中,τuntracked、texpire和tswitch分别是轨迹未更新次数、轨迹未更新阈值和状态切换阈值,不仅当轨迹未更新时间τuntracked超过阈值texpire,而且当状态切换次数τswitch达到指定阈值tswitch时,都会触发轨迹删除。
58、与现有技术相比,本发明的有益效果是:
59、本发明通过引入底边框代价矩阵,更新了相似度度量,利用深度信息来增强轨迹关联的鲁棒性,尤其是在遮挡情况下;其次,本发明引入了激活轨迹匹配策略,这有助于减少由检测框引起的瞬时目标干扰;最后,本发明优化了跟踪轨迹的删除策略,通过实时删除由虚假高分检测框引起的轨迹,以此来减少碎片轨迹的数量;通过这些改进,本发明显著提高了方法在复杂环境下的适应性,使其更适合于执行高难度的视频监控安全管控任务。