一种多目标跟踪方法、系统、设备及可读存储介质

文档序号:38530796发布日期:2024-07-01 23:19阅读:18来源:国知局
一种多目标跟踪方法、系统、设备及可读存储介质

本发明属于计算机视觉,特别涉及一种多目标跟踪方法、系统、设备及可读存储介质。


背景技术:

1、多目标跟踪任务涉及在视频序列中定位并持续追踪多个目标,同时确保准确识别这些目标的身份;这一任务在计算机视觉领域具有极其重要的地位,不仅在自动驾驶、行为分析、智能监控等领域发挥关键作用,在医学影像分析等多个领域也具有核心技术地位。

2、目前阶段,多目标跟踪领域的主要难题,是同一套多目标跟踪方法或系统的使用场景有限,无法在多个场景下完成多目标跟踪任务;解释性地,现实世界中的跟踪场景有很多种,且特点各异,例如人群拥挤、小目标、复杂运动、低帧率、大幅运动等特点。

3、针对多目标跟踪方法或系统存在的无法适用多个不同场景的问题,现有方法大都是通过大量的先验知识、实验测量和手动设计部件,为某个具体的特殊场景设计跟踪器;上述这种方式会导致部署多目标跟踪方法或系统到具体场景时,耗费大量的成本且并不能获得良好的跟踪效果。


技术实现思路

1、本发明的目的在于提供一种多目标跟踪方法、系统、设备及可读存储介质,以解决上述存在的一个或多个技术问题。本发明的技术方案,公开了一种基于前后帧点到区域相似度的多目标跟踪方案,能够解决现有技术存在的同一个多目标跟踪方案不能适用于多个应用场景的技术问题。

2、为达到上述目的,本发明采用以下技术方案:

3、本发明第一方面,提供一种多目标跟踪方法,包括以下步骤:

4、获取视频流中待多目标跟踪处理的当前帧视频图像、当前帧视频图像的目标检测结果、当前帧视频图像的前一帧视频图像以及前一帧视频图像的多目标跟踪结果;

5、基于当前帧视频图像、当前帧视频图像的目标检测结果、前一帧视频图像以及前一帧视频图像的多目标跟踪结果,利用多目标跟踪框架模型进行多目标跟踪处理,获得当前帧视频图像的多目标跟踪结果;

6、其中,所述多目标跟踪框架模型中,基于当前帧视频图像和前一帧视频图像,提取两帧之间点与点之间的相似度,将点与点之间的相似度转化为两帧之间点与区域的相似度,再将点与区域的相似度转化为多目标之间的关联,最后基于多目标之间的关联并采用二分匹配算法计算,得到当前帧视频图像的多目标跟踪结果。

7、本发明方法的进一步改进在于,所述当前帧视频图像的目标检测结果包括目标检测框中心坐标、目标检测框高度、目标检测框宽度和目标置信度。

8、本发明方法的进一步改进在于,所述多目标跟踪框架模型包括:

9、关系构建模块,用于输入当前帧视频图像和前一帧视频图像,利用卷积、向量相似度计算方法构建获得两帧的点与点稠密相似度矩阵;基于点与点稠密相似度矩阵,进行池化操作、模板查询和拼接处理,获取点与区域相似度矩阵;基于点与区域相似度矩阵、当前帧视频图像的目标检测结果以及前一帧视频图像的多目标跟踪结果,进行roialign操作、卷积以及非线性映射操作,得到目标与目标相似度矩阵;

10、计算模块,用于获取所述目标与目标相似度矩阵并采用二分匹配算法处理,得到当前帧视频图像的多目标跟踪结果。

11、本发明方法的进一步改进在于,训练所述多目标跟踪框架模型以更新关系构建模块中的卷积网络、非线性映射操作参数的步骤包括:

12、通过计算模型在前向推理时的损失函数,优化网络参数;其中,

13、计算模型在前向推理时的损失函数时,从数据集中选取连续两帧组成一个训练样本,目标身份标签成为前向传播的跟踪结果的监督信号,采用经过加权的交叉熵损失,表示为,

14、

15、式中,表示交叉熵损失;j和i分别表示第j个轨迹和第i个检测结果;n和m分别表示共有n个检测结果和m个轨迹;是关系构建模块前向传播的目标-目标相似度结果;yij是对应的标签;w是交叉熵损失的权重系数。

16、本发明方法的进一步改进在于,所述关系构建模块中,执行输入当前帧视频图像和前一帧视频图像,利用卷积、向量相似度计算方法构建获得两帧的点与点稠密相似度矩阵的步骤包括:

17、将当前帧视频图像it-1和前一帧视频图像it,利用卷积神经网络编码成两个分辨率较低的密集特征图ft-1和ft;基于密集特征图ft-1和ft,逐个点对点计算相似度,获得点与点稠密相似度矩阵;

18、其中,逐个点对点计算相似度时,计算表达式为,

19、cglobal(ft-1,ft)∈rh×w×h×w;

20、

21、式中,cglobal是点与点稠密相似度矩阵;和代表特征图ft和ft-1上的坐标分别为(s,r)和(k,l)上的特征点,d代表特征的维度序号;csrkl代表相似度,是相似度矩阵cglobal中对应位置的元素;d代表特征维数;h、w分别表示特征图的高度、宽度。

22、本发明方法的进一步改进在于,所述关系构建模块中,执行基于点与点稠密相似度矩阵,进行池化操作、模板查询和拼接处理,获取点与区域相似度矩阵的步骤包括:

23、对点与点稠密相似度矩阵做池化操作,以达成下采样目的,得到相似度矩阵金字塔;其中,所述相似度矩阵金字塔反映了上一帧中的每个元素到下一帧中不同区域的相似度;

24、利用查询模板对所述相似度矩阵金字塔进行各个方向的查询,获得方向相似度;

25、其中,

26、所述查询模板的搜索模式表示为,

27、

28、式中,x代表图片上的坐标点;r代表了搜索半径;r代表搜索半径的上限;代表了搜索模式;

29、方向相似度提取表示为,

30、cs=pooling(cs-1);

31、

32、式中,os代表了搜索函数在每一层的输出;search代表了搜索函数;o代表了搜索函数在每一层的输出的拼接结果;concat代表拼接操作;s代表在相似度金字塔中是第s层;s代表相似度金字塔的总层数;pooling代表了池化操作;cs和cs-1代表了一层一层不断循环的池化操作的输入和输出。

33、本发明方法的进一步改进在于,所述关系构建模块中,执行基于点与区域相似度矩阵、当前帧视频图像的目标检测结果以及前一帧视频图像的多目标跟踪结果,进行roialign操作、卷积以及非线性映射操作,得到目标与目标相似度矩阵的步骤包括:

34、将搜索函数在每一层的输出拼接成为的方向相似度o作为整个图片的特征,裁剪得到图片上各个目标的特征;根据前一帧视频图像的多目标跟踪结果,对o进行相应位置采样,表示为,

35、oj=roialign(o);

36、式中,roialign是由fasterrcnn提出的采样函数;oj代表了目标第j个轨迹的采样结果;

37、获取每条轨迹和检测结果之间的相似度,记为矩阵prela,矩阵prela中每个元素代表第j个轨迹和第i个目标之间的相关性得分;其中,第j个轨迹和第i个目标之间的相关性表示为,

38、

39、式中,mlp代表多层感知机模型;concat代表拼接操作;conv代表卷积操作;eij为上一帧的轨迹和当前帧的检测结果的位置编码。

40、本发明第二方面,提供一种多目标跟踪系统,包括:

41、数据获取模块,用于获取视频流中待多目标跟踪处理的当前帧视频图像、当前帧视频图像的目标检测结果、当前帧视频图像的前一帧视频图像以及前一帧视频图像的多目标跟踪结果;

42、跟踪结果获取模块,用于基于当前帧视频图像、当前帧视频图像的目标检测结果、前一帧视频图像以及前一帧视频图像的多目标跟踪结果,利用多目标跟踪框架模型进行多目标跟踪处理,获得当前帧视频图像的多目标跟踪结果;

43、其中,所述多目标跟踪框架模型中,基于当前帧视频图像和前一帧视频图像,提取两帧之间点与点之间的相似度,将点与点之间的相似度转化为两帧之间点与区域的相似度,再将点与区域的相似度转化为多目标之间的关联,最后基于多目标之间的关联并采用二分匹配算法计算,得到当前帧视频图像的多目标跟踪结果。

44、本发明第三方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面中任一项所述的多目标跟踪方法。

45、本发明第四方面,提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面中任一项所述的多目标跟踪方法。

46、与现有技术相比,本发明具有以下有益效果:

47、本发明提供了一种更加通用的多目标跟踪方法,具体是一种基于前后帧点到区域相似度的多目标跟踪方法,能够解决上述现有技术存在的同一个多目标跟踪方法不能适用于多个应用场景的技术问题;其中,本发明通过提取前后两帧之间点与点之间的相似度,并将其转化为前后帧之间点与区域的相似性,再根据点和区域相似度信息转化为多目标之间的关联,本发明这种跟踪方式可在各个场景下完成跟踪,能够实现多个不同场景中的稳定跟踪。

48、本发明中,具体结合了“点到点相似度”和“点到区域相似度”,可完成更细粒度和更广泛的前后帧关系构建,以指导不同特性场景中的多目标跟踪;上述技术手段的使用,可以使跟踪器在各种特性的场景中完成跟踪,包括人群拥挤、小目标、复杂运动、低帧率、大幅运动等多种极端场景,从而使得多目标跟踪方法在处理不同特性场景时有更高的准确性,提升在相应领域应用时的安全性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1