本发明属于计算机视觉技术领域,涉及一种视频中目标检测跟踪方法。
背景技术
卡口、治安、以及各类网络摄像机等监控设备在已经大量的安装和使用,这些设备所采集的视频数据在交通违法、治安管理等方面起到了非常大的作用,但随着这些设备安装量的不断增多,其生产的数据量也日益增加,存储和利用这些数据面临巨大挑战,视频结构化已经成为科研和工业界的一个研究热点。
各类视频结构化方案中都绕不开的一个基础问题就是准确、高效的检测和跟踪视频中的关键目标。《一种基于跟踪学习检测的目标跟踪优化方法》107967692a,《一种实时无人机视频目标检测与跟踪方法》108108697a,《基于深度学习的多目标行人检测与跟踪方法》107563313a等专利中都是利用单帧图像完成目标检测,计算目标检测结果相关区域的特征,然后依赖这些特征完成相近帧间目标的匹配和跟踪。这些方法中目标检测依赖的都是单帧图像的信息,不能利用时间序列里相近图像帧之间的相关信息,导致检测结果的准确率会受到限制;同时匹配跟踪过程中用到的特征也是由单帧图像上提取而来,而且该特征要能够区分多类不同的目标个体,遇到同行的相似目标非常容易匹配错误,导致跟踪失败;最后,为了保证检测跟踪的准确率,隔帧采样的间隔有限,导致计算量比较大,效率比较低。
技术实现要素:
本发明针对现有技术的不足,提供了一种视频中目标检测跟踪方法。
本发明解决技术问题所采取的技术方案为:
步骤1、对视频进行分段抽样,得到若干段视频图像帧序列。
步骤2、采用神经网络模型m1对每段视频图像帧序列进行目标检测和特征提取,输出的信息包括:目标所在图像在序列中的编号、目标在图像中的矩形框、目标的特征向量。
步骤3、计算视频序列中输出的所有检测结果对应的目标特征向量的相关矩阵,进而得到视频序列中所有检测到的目标在频序列内的跟踪结果。
步骤4、按时间轴,将视频图像帧序列内部的目标检测跟踪轨迹和特征矩阵输入至神经网络模型m2,得到每个视频图像帧序列中每个目标的跟踪特征,利用此跟踪特征计算相邻两个视频图像帧序列之间所有目标的相关性,从而完成整个视频段中目标的跟踪。
本发明的有益效果:
1、利用时间序列图像的帧间信息提高检测器的准确率。
2、充分利用时间序列图像的时空信息提高目标的跟踪效果。
3、可以有效的降低检测跟踪的计算量,提高运行效率。
4、检测和跟踪有效的融合,提高了检测跟踪整体效果。
附图说明
图1本发明方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
如图1所示,本发明包括以下步骤:
步骤1、对视频进行分段抽样,得到若干段视频图像帧序列。
步骤2、对每段视频图像帧序列进行目标检测和特征提取,输出的信息包括:目标所在图像在序列中的编号、目标在图像中的矩形框、目标的特征向量。
步骤3、计算中视频序列中输出的所有检测结果对应的目标特征向量的相关矩阵,进而得到视频序列中所有检测到的目标的在频序列内的跟踪结果。
步骤4、按时间轴,利用视频图像帧序列内部的目标检测跟踪轨迹(包括目标在序列中的编号、目标在图像中的矩形框)和特征矩阵(特征向量的串行拼接),对前后相邻视频序列中的目标进行匹配跟踪。
其中每段视频图像帧序列的目标检测和特征提取的计算方法是:执行已经训练好的神经网络模型m1的推理过程,直接得到目标所在图像在序列中的编号、目标在图像中的矩形框、目标的特征向量。
其中神经网络模型m1训练方法是:
收集标注视频数据;
切割抽样视频段,得到视频图像帧序列和标注过的目标所在图像在序列中的编号、目标在图像中的矩形框、目标的编号信息;
通过对视频图像序列中目标的检测和分类多任务训练优化网络模型。
以下是一种视频中目标检测跟踪方法的实施方案,具体步骤如下:
训练视频图像帧序列内目标检测和匹配特征计算的神经网络模型m1,具体的步骤如下:
1、收集大量视频段v;人工标注视频图像序列中的目标位置和每个目标从出现到消失的id信息,得到原始标注样本集a={v1,v2,…,vl}。
2、利用深度学习理论和方法,对原始标注样本集a中的每个视频段vi,分割抽样生成若干个视频图像帧序列pi,pi+1,…,pi+k∈vi,得到训练测试样本集b={p1,p2,…,pi,pi+1,…,pi+k…,pn-k,…,pn-1,pn}。
3、利用深度学习理论和方法,结合训练测试样本集b,利用多任务的方式训练得到可以检测目标并且计算目标特征的神经网络模型m1。
训练视频图像帧序列之间目标匹配跟踪特征计算的神经网络模型m2,具体的步骤如下:
1、利用神经网络模型m1,获得训练测试样本集b中每段视频图像序列pi中每个目标的跟踪轨迹(目标所在图像在序列中的编号、目标在图像中的矩形框)和特征矩阵(特征向量的串行拼接)。
2、利用每段视频vi中标注的目标信息和每个视频图像帧序列pi+j经过神经网络模型m1得到的目标的跟踪轨迹和特征矩阵,得到视频段vi中每个目标在不同视频图像帧序列中的特征样本集:o={q1,q2,…,qk},其中qi由m1在pi中生成,从而生成视频图像序列之间目标匹配跟踪特征的训练数据集c={o1,o2,…,os}
3、利用深度学习理论和方法,结合训练测试样本集c,训练得到用来计算视频图像序列之间目标匹配跟踪特征的神经网络模型m2。
利用神经网络模型m1,m2,检测跟踪视频中的目标,具体步骤如下:
1、对需要分析的视频分段抽样,生成若干个视频图像帧序列
2、对每个视频图像帧序列,执行神经网络模型m1的推理过程,得到每个目标所在图像在序列中的编号、目标在图像中的矩形框、目标的特征向量
3、计算视频图像帧序列中输出的所有检测结果对应的目标特征向量的相关矩阵,其中相关性的计算可以用欧式距离、马氏距离等,进而得到视频图像帧序列中所有检测到的目标的在视频图像帧序列内的跟踪结果。
4、按时间轴信息对分段抽样的视频图像帧序列进行排序,根据跟踪轨迹和特征矩阵,执行神经网络模型m2的推理过程,得到每个视频图像帧序列中每个目标的跟踪特征
综上,本发明基于视频图像帧序列数据,结合单帧图像的信息和视频图像帧序列间的帧间相关性,实现了一种视频中目标检测跟踪方法。相比基于单帧图像的目标检测方法,本发明中结合了图像序列间的相关信息,目标检测性能会有提升。利用机器学习方法从单帧图像中计算得到的,用于目标跟踪匹配的特征,该特征需要满足同类相似目标的区分,要么获取该特征的计算量非常大,要么特征的区分能力比较差,容易匹配错误,导致跟踪失败。为此本发明的跟踪匹配分为两个阶段,短时间内视频图像帧序列中目标的匹配跟踪和不同图像帧频序列之间的目标匹配跟踪:视频图像帧序列内部的匹配跟踪特征依赖视频图像帧序列中的多针图像信息和序列间的相关性,特征的区分能力也仅限于视频图像帧序列内部的目标之间;视频图像帧序列之间的目标匹配主要利用视频图像帧序列内部目标的匹配跟踪结果和目标在视频图像帧序列内的特征,可以非常有效的提高跟踪准确率。同时相比其他方法,本发明完成视频中目标检测跟踪任务需要的计算量可以有效降低。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,应当理解,本发明并不限于这里所描述的实现方案,这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。