[0001]
本发明涉及计算机视觉技术领域,尤其是涉及一种基于深度学习的跨摄像头行人多目标跟踪方法和装置。
背景技术:[0002]
随着计算机性能的进步和深度学习的发展,很多计算机视觉技术被广泛应用到人们的实际生活中。对于传统的视频监控系统,想要知道指定目标是否出现以及出现的位置和时间需要依靠大量人力资源,主要起到事后取证的作用。相关领域的研究开发者融合计算机视觉、图像处理、模式识别、人工智能等多个学科领域的技术研发了智能视频监控系统,它能够借助计算机强大的数据处理能力在视频序列中自动识别和跟踪行人。
[0003]
在现有的行人多目标跟踪方法中,首先需要在视频序列中检测出行人,然后在不同视频帧中将属于同一行人的检测框关联起来,从而得到行人跟踪轨迹。行人跟踪方法的核心在于改善行人检测框的正确匹配。传统的行人跟踪方法一般都是使用手工特征,例如颜色直方图方向梯度直方图、局部二值模式等。但这些手工特征设计复杂且并不能很好地区分不同人,存在着很大的局限性。近年来深度学习在计算机视觉领域的各类任务中取得了不错的进展,由于深度学习具有强大的特征表达能力,能够很好的刻画图像特征,涌现了大量的基于深度学习的目标检测和跟踪方法。
[0004]
目前基于深度学习的目标检测方法可以分为两类,一类是基于候选区域的r-cnn(region-cnn)系列方法,如rcnn、fast-rcnn、faster-rcnn、r-fcn等,另一类是基于回归预测的检测方法,如yolo、ssd等,基于候选区域的r-cnn系列算法检测精度较基于回归预测的检测方法要高,基于回归预测的检测方法则检测速度更快。
[0005]
目前行人多目标跟踪主要基于两种思路,一种是与检测无关的跟踪方法,另一种是基于检测的跟踪方法。与检测无关的跟踪方法需要在第一帧人工标注一定数量感兴趣的目标,然后在后续视频帧跟踪标注的目标,但是它不能处理出现的新目标和自动终止消失的目标。相对来说,基于检测的跟踪方法是目前mot问题的主流解决方法,它可以对视频中的目标自动提取一系列检测的边界框,再根据视频序列的关系,给同一个目标的检测结果分配相同的id。
[0006]
在实际应用中,需要智能监控系统的企业或单位都是直接用新型的智能监控设备取代旧的监控系统,但更换新型的智能监控设备需要投入大量额外资金并且对于例旧的监控设备淘汰造成不必要的资源浪费。而例旧的监控视频中的视频帧有分辨率低下、光照变化明显、遮挡的不足等问题,如何减轻和减少这些不足和因素带来的影响是解决行人跟踪问题的关键。
技术实现要素:[0007]
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的跨摄像头行人多目标跟踪方法和装置。
[0008]
本发明的目的可以通过以下技术方案来实现:
[0009]
一种基于深度学习的单摄像头行人多目标跟踪方法,包括以下步骤:
[0010]
步骤1:利用视频获取模块获取视频流数据;
[0011]
步骤2:对于视频获取模块获取的视频帧,输入到训练好的编码器-解码器深度网络,进行并行多尺度特征提取,在网络输出端同时输出两个任务,分别是行人检测和行人表观特征提取;
[0012]
步骤3:对于行人检测部分,输出候选目标中心点热图、行人检测框大小、行人中心相对原图实际位置的偏移量;
[0013]
步骤4:对于行人表观特征提取部分,输出所有候选目标中心点的行人表观特征;
[0014]
步骤5:基于所有行人检测框中的行人表观特征对所有的行人检测框进行关联,以获得所有行人的跟踪轨迹。
[0015]
进一步地,所述步骤2包括:将获取的视频帧输入到训练好的编码器-解码器网络进行并行多尺度特征提取和融合;
[0016]
具体的,为了能够学习到更加丰富的特征,需要将底层和高层的特征都融入到网络里面来识别网络中出现不同大小的目标;
[0017]
具体的,本发明采用类似于u-net的训练好的编码器-解码器网络来融合不同的特征图,通过融合不同特征图的特征来解决多目标跟踪中时常出现的尺度变化问题。
[0018]
进一步地,所述步骤3包括:
[0019]
输出候选目标中心点热图,用来估计目标中心的位置,随着热图上的位置和物体中心之间的距离,响应呈指数衰减;
[0020]
输出行人中心相对原图实际位置的偏移量,为每个像素估计相对于行人中心的连续偏移,以减轻下采样的影响;
[0021]
输出行人检测框大小,估计每个位置上行人检测框的高度和宽度,主要是为了提升检测精度;
[0022]
具体的,由于目前的行人跟踪方法使用了基于锚框的目标检测,行人表观特征是在锚框区域提取的,锚框和行人实际区域会出现位置偏差,行人的中心和粗糙的锚框的特征的信息不一致,这会导致网络训练时存在严重的歧义。
[0023]
本发明使用不依靠锚框的目标检测方法,将目标检测看作为目标中心点检测的问题,依此中心点输出行人特征。锚框的消除缓解了歧义问题,高分辨率特征图的使用使行人特征更好地与目标中心对齐。
[0024]
进一步地,所述步骤4包括:
[0025]
学习行人表观特征,学习较低维的特征向量。传统的行人表观特征的提取通常学习高维特征,而低维特征需要更少的训练样本,学习低维特征有助于降低小数据过拟合的风险,提高跟踪的鲁棒性。
[0026]
进一步地,所述步骤5包括:
[0027]
比较两个行人检测框的特征向量,关联属于同一个人的检测框,最终连成行人轨迹。
[0028]
基于深度学习的单摄像头行人多目标跟踪方法还包括:对行人轨迹进行计数,以确定视频中的行人的数目。
[0029]
本发明提供了一种基于深度学习的跨摄像头多目标行人跟踪方法,包括以下步骤:
[0030]
步骤1:获取多个摄像头采集的多个视频流数据;
[0031]
步骤2:利用上述基于深度学习的单摄像头多目标行人跟踪方法分别处理多个视频,以获得与多个视频流对应的所有行人的跟踪轨迹;
[0032]
步骤3:对于多个视频中的每个行人的跟踪轨迹,挑选高质量的帧,以便计算整条轨迹的行人表观特征;
[0033]
步骤4:对于挑选好的视频帧,利用训练好的深度神经网络分别提取行人人脸特征和步态特征,执行步骤4后可选的执行步骤5或着步骤6;
[0034]
步骤5:将单摄像头下提取的行人表观特征和上一步中提取的行人人脸特征和步态特征进行异构特征融合,执行步骤5后则直接转步骤7;
[0035]
步骤6:匹配同一个行人的单摄像头的视频中提取的行人表观特征和步骤4中提取的行人人脸特征和步态特征,执行步骤6后则直接转步骤7;
[0036]
步骤7:根据步骤5中融合的行人特征进行跨摄像头轨迹关联聚类。或者根据步骤6中匹配的多种行人特征进行跨摄像头轨迹层次聚类。
[0037]
进一步地,所述步骤3包括:
[0038]
首先利用步骤2中提取的表观特征和轨迹关联的结果来初步筛选高质量的的视频帧,然后经过一个视频帧质量预测网络来进一步细筛;
[0039]
具体的,初筛的流程是,对每个行人的轨迹选择高相关度的帧进行聚类,并去掉匹配错误的视频帧;
[0040]
具体的,视频帧质量预测网络是一个二分类的网络,网络的训练依赖自标注的数据集;
[0041]
更具体的,初筛聚类高相关度的帧是依据低质量帧的特征和其他帧的特征之间有比较大的特征距离;
[0042]
更具体的,自标注的数据集中,负样本来源于两部分,一部分为初筛的结果,另一部分则通过数字图像处理技术处理正常图片,生成模糊和带噪声的样本,测试过程则由测试集和人工检查同步进行;
[0043]
进一步地,所述步骤4包括:
[0044]
具体的,对于所述人脸特征的提取,使用在公开数据集上取得先进结果的facenet人脸识别框架;
[0045]
具体的,对于所述步态特征的提取,使用在公开数据集上取得先进结果的gait-part步态识别模型;
[0046]
进一步地,所述步骤5包括:
[0047]
具体的,在给定提取的多种特征的融合过程中,使用稀松耦合方案;
[0048]
进一步地,所述步骤6包括:
[0049]
对于单摄像头的视频中提取的行人表观特征执行步骤3的操作,然后先基于单帧匹配,再根据单帧匹配的结果进行轨迹级别匹配;
[0050]
进一步地,所述步骤7包括:
[0051]
具体的,根据融合特征进行跨摄像头轨迹聚类,或者根据匹配的多种行人特征进
行跨摄像头轨迹聚类。更具体的,采用以单摄像头下提取的行人表观特征为主体,步骤4中提取的行人人脸特征和步态特征作为动态变化的权重;
[0052]
一方面,由于摄像头视角和行人方向的缘故,在实际情况中检测到的人脸样本要远远少于行人表观特征,对于行人背对摄像头或者行人被遮挡的情况,无法检测到相应的人脸,因此基于加权平均的方式很难设定合适的权重;
[0053]
另一方面,步态识别虽然解决了摄像头视角和行人方向的问题,但限于技术原因,目前步态识别尚未达到其他识别方法的准确度;
[0054]
基于以上分析,因此本发明采用以单摄像头下提取的行人表观特征为主体,步骤4中提取的行人人脸特征和步态特征作为动态变化的权重,使得跨摄像头轨迹聚类更加鲁棒。
[0055]
本发明提供一种用于所述的基于深度学习的单摄像头行人多目标跟踪方法的硬件装置,包括:
[0056]
视频获取模块,用于获取摄像头采集的视频数据;
[0057]
行人检测模块,用于对视频获取模块获取的视频帧进行行人检测,以获得每个视频帧中所有行人的检测框;
[0058]
表观特征获取模块,用于对视频获取模块获取的视频帧利用表观特征获取模块进行并行多尺度特征提取,以获得所有行人的表观特征;
[0059]
数据关联模块,用于基于行人表观特征对所有行人的目标检测框进行匹配,以获得行人跟踪结果;
[0060]
具体的,数据关联模块包括相似度度量模块和轨迹合并模块。相似度度量模块用于计算所有行人的表观特征之间的相似度,轨迹合并模块根据相似度度量模块的计算的行人相似度,将属于同一行人的检测结果合并到同一条轨迹,并标注相同的身份。
[0061]
所述的基于深度学习的单摄像头行人多目标跟踪方法的硬件装置还包括:计数模块,用于对至少一个行人轨迹进行计数,以确定视频中的行人的数目。
[0062]
本发明提供一种用于所述的基于深度学习的跨摄像头行人多目标跟踪方法的硬件装置,包括:
[0063]
多数据源视频获取模块,用于获取分别由多个摄像头采集的多个视频数据;
[0064]
智能视频分析模块,用于利用上述基于深度学习的单摄像头行人多目标跟踪方法的硬件装置分别处理多个视频数据,获得多个视频中的所有行人的跟踪结果;
[0065]
轨迹选帧模块,用于在智能视频分析模块获得的行人跟踪轨迹中挑选高质量的视频帧,去除目标模糊、被遮挡或者变形的行人帧,以便计算整条轨迹的行人表观特征;
[0066]
人脸识别模块,用于获得经轨迹选帧模块挑选的视频帧中的行人的人脸特征;
[0067]
步态识别模块,用于获得经轨迹选帧模块挑选的视频帧中的行人的步态特征;特征融合模块,特征融合模块将单摄像头下提取的行人表观特征和人脸识别模块中提取的行人人脸特征以及步态识别模块提取的步态特征进行异构特征融合;
[0068]
具体的,特征融合模块引入了一种用于指导来自不同模块的混合信息的注意机制;
[0069]
特征匹配模块,用于将同一个行人的单摄像头的视频中提取的行人表观特征和人脸识别模块中提取的人脸特征以及步态识别模块提取的行人步态特征匹配起来;
[0070]
多数据源轨迹关联模块,用于对不同摄像头拍摄的视频中的所有行人的轨迹进行关联聚类,获得跨摄像头的行人跟踪结果。
[0071]
与现有技术相比,本发明具有以下优点:
[0072]
(1)本发明提出一个基于融合行人人脸特征、步态特征和表观特征的跨摄像头行人多目标跟踪方法和装置,作为一种基于深度学习的跨摄像头行人多目标跟踪方法和装置不依赖于锚框的行人检测方法,不受锚框的限制,本发明将行人检测看作为行人中心点检测的问题,依此中心点输出行人特征。锚框的消除缓解了歧义问题,高分辨率特征图的使用使行人特征更好地与目标中心对齐。
[0073]
(2)本发明基于深度学习的跨摄像头行人多目标跟踪方法和装置在实际应用中,无需更换新的智能监控系统,能够直接应用于例旧的监控系统中,避免不必要的资源浪费,并且有很好的鲁棒性,能够减轻和减少例旧的监控视频中的视频帧分辨率低下、光照变化等不足,能够有效抵抗行人之间相互遮挡、行人检测结果偏移等问题。
[0074]
(3)本发明基于深度学习的跨摄像头行人多目标跟踪方法和装置可以实现准确高效的跟踪结果。
附图说明
[0075]
为了更清楚地说明本发明的上述以及其它目的、特征和优势,下面将结合附图对本发明实施例进行更详细的描述。附图用来提供对本发明实施例的进一步说明,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0076]
图1为本发明一个实施例的基于深度学习的单摄像头行人多目标跟踪方法的流程图;
[0077]
图2为本发明一个实施例的基于深度学习的跨摄像头行人多目标跟踪方法的流程图;
[0078]
图3为本发明一个实施例的基于深度学习的单摄像头行人多目标跟踪方法的硬件装置示意框图;
[0079]
图4为本发明一个实施例的基于深度学习的跨摄像头行人多目标跟踪方法的硬件装置示意框图。
具体实施方式
[0080]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0081]
如图1所示,根据本发明的一实施例,本发明提供一种基于深度学习的单摄像头行人多目标跟踪方法,包括以下步骤:
[0082]
步骤s101,获取视频数据;
[0083]
视频数据可以是由摄像头等设备采集到的原始视频,也可以是在原始视频上预处理之后获得的视频数据。
[0084]
步骤s102,将视频输入到训练好的编码器-解码器深度网络,进行并行多尺度特征提取,在网络输出端同时输出两个任务,分别是行人检测和行人表观特征提取;
[0085]
为了能够学习到更加丰富的特征,需要将底层和高层的特征都融入到网络里面来识别网络中出现不同大小的目标。步骤s102可以采用类似于u-net的训练好的编码器-解码器网络来融合不同的特征图,通过融合不同特征图的特征来解决多目标跟踪中时常出现的尺度变化问题。
[0086]
步骤s103,对于行人检测部分,输出候选目标中心点热图、行人检测框大小、行人中心相对原图实际位置的偏移量;
[0087]
行人检测部分使用不依靠锚框的目标检测方法,将目标检测看作为目标中心点检测的问题,依此中心点输出行人特征。锚框的消除缓解了歧义问题,高分辨率特征图的使用使行人特征更好地与目标中心对齐。
[0088]
步骤s104,对于行人表观特征提取部分,输出所有候选目标中心点的行人表观特征;
[0089]
利用训练好的编码器-解码器深度网络提取行人表观特征,由于低维特征需要更少的训练样本,且学习低维特征有助于降低小数据过拟合的风险,能够提高跟踪的鲁棒性。
[0090]
步骤s105,基于所有行人检测框中的行人表观特征对所有的行人检测框进行关联,以获得所有行人的跟踪轨迹。
[0091]
比较两个行人检测框的特征向量,关联属于同一个人的检测框,最终连成行人轨迹。
[0092]
根据本发明实施例的基于深度学习的跨摄像头行人多目标跟踪方法,不依赖于锚框的目标检测方法,不受锚框的限制。上述方法将目标检测看作为目标中心点检测的问题,依此中心点输出行人特征。锚框的消除能够有效抵抗行人之间相互遮挡、检测偏移等问题,能够有效减少行人身份交换。根据本发明实施例的基于深度学习的跨摄像头行人多目标跟踪方法可以实现准确高效的行人多目标跟踪。
[0093]
如图2所示,根据本发明的一实施例,本发明提供一种基于深度学习的跨摄像头行人多目标跟踪方法,包括以下步骤:
[0094]
步骤s201,获取多个摄像头采集的多个视频流数据;
[0095]
步骤s202,利用上述实施例基于深度学习的单摄像头多目标行人跟踪方法分别处理多个视频,以获得与多个视频流对应的所有行人的跟踪轨迹;
[0096]
步骤s203,对于多个视频中的每个行人的跟踪轨迹,挑选高质量的帧,以便计算整条轨迹的行人表观特征;
[0097]
步骤s203包括:首先利用步骤s202中提取的表观特征和轨迹关联的结果,对每个行人的轨迹选择高相关度的帧进行聚类,并去掉匹配错误的视频帧,然后经过一个视频帧质量预测网络来进一步细筛;其中,视频帧质量预测网络是一个二分类的网络,网络的训练依赖自标注的数据集;自标注的数据集中,负样本来源于两部分,一部分为初筛的结果,另一部分则通过数字图像处理技术处理正常图片,生成模糊和带噪声的样本,测试过程则由测试集和人工检查同步进行;
[0098]
步骤s204,对于挑选好的视频帧,利用训练好的深度神经网络分别提取行人人脸特征和步态特征,执行步骤s204后可选的执行步骤s205或着步骤s206;
[0099]
对于人脸特征的提取,使用在公开数据集上取得先进结果的facenet人脸识别框架进行特征提取以得到当前行人人脸特征向量;对于步态特征的提取,使用在公开数据集上取得先进结果的gait-part步态识别模型进行特征提取以得到当前行人步态特征向量;
[0100]
步骤s205,将单摄像头下提取的行人表观特征和上一步中提取的行人人脸特征和步态特征进行异构特征融合,执行步骤s205后则直接转步骤s207;
[0101]
将单摄像头下提取的行人表观特征和上一步中提取的行人人脸特征和步态特征进行多特征融合过程中,使用稀松耦合方案;
[0102]
步骤s206,匹配属于同一行人的单摄像头视频中提取的行人表观特征和步骤4中提取的行人人脸特征和步态特征,执行步骤s206后则直接转步骤s207;
[0103]
对于单摄像头的视频中提取的行人表观特征执行步骤s203的操作,然后先基于单帧匹配,再根据单帧匹配的结果进行轨迹级别匹配;
[0104]
步骤s207,根据步骤s205中融合的行人特征进行跨摄像头轨迹关联聚类。或者根据步骤s206中匹配的多种行人特征进行跨摄像头轨迹层次聚类。
[0105]
跨摄像头轨迹关联聚类以单摄像头下提取的行人表观特征为主体,s204中提取的行人人脸特征和步态特征作为动态变化的权重,使得跨摄像头轨迹聚类更加鲁棒。
[0106]
根据本发明实施例的一种基于深度学习的跨摄像头行人多目标跟踪方法,可以有效抵抗行人之间相互遮挡、检测偏移等问题,能够有效减少行人身份交换,具有很好的鲁棒性且能够实现准确高效的跨摄像头的行人跟踪。
[0107]
如图3所示,根据本发明的一实施例,本发明提供一种基于深度学习的单摄像头行人多目标跟踪方法硬件的装置300,包括视频获取模块301、行人跟踪模块302和数据关联模块305,其中行人跟踪模块302包括行人检测模块303和表观特征获取模块304。
[0108]
所述各个模块可分别执行上述结合图1描述的基于深度学习的单摄像头行人多目标跟踪方法的各个步骤。以下仅对所述方法的装置300的各模块的主要功能进行描述。
[0109]
视频获取模块301用于获取摄像头采集的视频数据;
[0110]
行人跟踪模块302用于检测行人、提取特征和度量轨迹行人相似性;
[0111]
具体的,行人跟踪模块302包括行人检测模块303和表观特征获取模块304;
[0112]
行人检测模块303用于对视频获取模块获取的视频帧进行行人检测,以获得每个视频帧中所有行人的检测框;
[0113]
表观特征获取模块304用于对视频获取模块获取的视频帧利用表观特征获取模块进行并行多尺度特征提取,以获得所有行人的表观特征;
[0114]
数据关联模块305用于基于行人表观特征对所有行人的目标检测框进行匹配,以获得行人跟踪结果;
[0115]
根据本发明实施例,基于深度学习的单摄像头行人多目标跟踪方法硬件的装置300还包括计数模块,用于对视频中的行人轨迹进行计数,确定视频中的行人数目。
[0116]
如图4所示,根据本发明的一实施例,本发明提供一种基于深度学习的跨摄像头行人多目标跟踪方法硬件的装置400,包括多数据源视频获取模块401、智能视频分析模块402、轨迹选帧模块403、人脸识别模块404、步态识别模块405、特征融合模块406、特征匹配模块407和多数据源轨迹关联模块408。所述各个模块可分别执行上述结合图1和图2描述的基于深度学习的跨摄像头行人多目标跟踪方法的各个步骤。以下仅对所述方法的装置400
的各模块的主要功能进行描述。
[0117]
多数据源视频获取模块401用于获取分别由多个摄像头采集的多个视频数据;
[0118]
智能视频分析模块402用于利用上述基于深度学习的单摄像头行人多目标跟踪方法的硬件装置分别处理多个视频数据,获得多个视频中的所有行人的跟踪结果;
[0119]
轨迹选帧模块403用于在智能视频分析模块获得的行人跟踪轨迹中挑选高质量的视频帧,去除目标模糊、被遮挡或者变形的行人帧,以便计算整条轨迹的行人表观特征;
[0120]
人脸识别模块404用于获得经轨迹选帧模块403挑选的视频帧中的所有行人的人脸特征;
[0121]
步态识别模块405用于获得经轨迹选帧模块403挑选的视频帧中的所有行人的人脸特征;
[0122]
特征融合模块406特征融合模块将单摄像头下提取的行人表观特征和人脸识别模块中提取的行人人脸特征以及步态识别模块提取的步态特征进行异构特征融合,特征融合模块引入了一种用于指导来自不同模块的混合信息的注意机制;
[0123]
特征匹配模块407用于将同一个行人的单摄像头的视频中提取的行人表观特征和人脸识别模块中提取的人脸特征以及步态识别模块提取的行人步态特征匹配起来;
[0124]
多数据源轨迹关联模块408用于对不同摄像头拍摄的视频中的所有行人的轨迹进行关联聚类,获得跨摄像头的行人跟踪结果。
[0125]
根据本发明实施例的基于深度学习的跨摄像头行人多目标跟踪方法和装置不依赖于锚框的目标检测方法,不受锚框的限制。本发明将目标检测看作为目标中心点检测的问题,依此中心点输出行人特征。根据本发明实施例的基于深度学习的跨摄像头行人多目标跟踪方法和装置在实际应用中,无需更换新的智能监控系统,能够直接应用于例旧的监控系统中,避免不必要的资源浪费,并且有很好的鲁棒性,能够减轻和减少例旧的监控视频中的视频帧分辨率低下、光照变化等不足,能够有效抵抗行人之间相互遮挡、行人检测结果偏移等问题。根据本发明实施例的基于深度学习的跨摄像头行人多目标跟踪方法和装置可以实现准确高效的跟踪结果。
[0126]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。