一种基于深度学习的监控视频多目标追踪方法与流程

文档序号：12888123阅读：402来源：国知局

本发明属于目标追踪
技术领域：
，更具体地，涉及一种基于深度学习的监控视频多目标追踪方法。
背景技术：
：平安城市的建设、高清摄像头的普及产生了海量的监控视频，仅仅依靠人力从海量的视频图像数据中采集线索是非常耗时和困难的，而且由于视觉疲劳等人为因素去辨别目标很难做到万无一失。随着视觉计算的发展，从机器学习到深度学习，计算机能够更加智能的理解视频中的信息，视频智能分析系统应运而生。视频智能分析系统通过对连续的图像序列进行分析，提取出每一帧的运动目标，通过追踪技术确定相邻帧中的目标关系，确定一个目标的移动方向、速率，提取轨迹和步态等其他特征信息，从而给用户提供视频检索、快速定位目标、查看目标在视频中出现的片段、收集目标行为信息等功能。视频智能分析系统中一个关键技术目标追踪，即怎样确定相邻帧中目标的关系，获得一个目标在整个视频中完整的运动序列成为一个重要的研究方向。监控视频多目标追踪是视频智能分析系统的前提基础，对视频信息进行更深层次的挖掘有重要的影响。外观是描述一个目标的重要特性，根据外观模型可以将目标追踪算法分为两大类别。第一类是产生式方法。产生式方法首先使用定义好的算法建立目标的空间描述，然后对比多个候选区域找到最为匹配的区域。产生式方法由于忽略背景而强调目标外观的描述，当目标遇到遮挡的情况时会出现漂移。另一类是判别式方法，依据使用检测结果进行匹配的思想先使用目标检测来提出前景目标，将跟踪转化为分类问题。判别式模型充分利用了前景与背景信息，可以将两者更好的区分，因而具有较强的鲁棒性。但在利用样本进行在线学习与更新的过程中，也容易因样本的标注错误影响分类器的性能，造成误分类。目前大多数基于深度学习的方法大都是使用卷积神经网络建立外观模型来实现目标追踪，着眼于图像在空间域的信息，未考虑到目标追踪是对一系列连续、有着紧密时序关系的帧图像的处理，并没有挖掘到更多有效的时序信息。遮挡问题是目标追踪的一大问题。遮挡问题可以分为两种情况，一种是目标被背景信息遮挡，开始遮挡时，目标还可以检测出一部分，慢慢的无法被检测出，直到目标重新出现后再次被检测到。另一种情况是两个或者多个目标重叠，当目标刚开始发生重叠时，还能够被检测为多个目标，但空间特征逐渐接近，当完全发生合并时，多个目标可能被检测为一个目标，当目标分离后，必须能够对目标进行追踪而不发生紊乱。常见的解决这档问题的方法是将目标分为多个空间区域，每个空间区域设置一个追踪器，被遮挡时还有部门追踪器能够继续跟踪，因此会有多个追踪器同时运行，导致追踪的速度过慢。技术实现要素：针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的监控视频多目标追踪方法，其目的在于使用卷积神经网络提取空间特征的基础上，使用循环神经网络学习目标的运动规律，对目标的特征进行融合，对目标的位置进行预测，结合时间和空间两个方面计算目标的相似度进行目标匹配，实现目标追踪的目的。此方法可以减少多目标追踪的漏检率，提升多目标追踪的准确度，并解决追踪过程中短时间的目标遮挡问题。为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的监控视频多目标追踪方法，所述方法包括：(1)对监控视频按设定的间隔时间进行解码获得图像；(2)将解码获得的图像输入到训练好的fasterr-cnn目标检测网络模型中，得到多个目标的位置信息和空间特征；(3)将目标在多个时刻的位置信息以及空间特征输入到lstm网络模型中进行lstm网络模型线下训练，利用训练好的lstm网络模型预测目标在下一时刻的位置；(4)将目标在多个时刻的空间特征融合得到融合特征，计算目标的融合特征和目标在当前时刻提取的空间特征的相似度，同时计算目标通过lstm方法预测的位置矩形ro和目标在当前时刻检测出的位置矩形rs之间的相似度，根据结合空间特征和位置信息的匹配判断最新检测出的目标与已经追踪到目标的归属关系。进一步地，所述步骤(2)具体包括：(21)将图像输入到训练好的fasterr-cnn网络模型中，通过网络顶端分类层和窗口回归层提取出多个目标信息，每个目标信息包括[分类编号，置信度，x，y，width，height]；(22)过滤掉置信度低于置信度阈值的目标，剩下目标中舍弃目标信息中的[分类编号，置信度]，保留位置信息[x,y,width,height]，其中，置信度阈取值范围是0.15～0.25优选0.2，；(23)在感兴趣区域池化层，依据rpn算法生成的区域的映射关系中提取出多个目标的空间特征。进一步地，所述步骤(3)中lstm网络模型线下训练具体方法为：(31)对训练视频间隔同样的时间进行解码提取图像序列；(32)通过fasterr-cnn网络对所述图像序列中的每一张图像进行检测得到多个目标的位置信息和空间特征；(33)lstm网络设置为sn层，每次取出连续相邻sn张图像中同一个目标的空间特征和位置信息输入到lstm网络中，训练中的损失函数使用均方误差计算位置信息的差距，计算方式如下：其中，ldet是fasterr-cnn网络检测出下一个时刻的位置，lpred是lstm网络输出的预测位置，位置数值要归一化到[0-1]区间之内；(34)对所有测试视频中的目标通过步骤(33)进行训练并计算平均lossavg，计算方式如下:其中，n为所有视频中所有目标输入到网络的次数，lossi为步骤(33)中网络每次处理后得到loss值，当平均lossavg小于预测阈值并且loss函数收敛的时候，训练结束，其中，预测阈值取值范围为0.15～0.25，优选0.2；否则选取另外连续相邻sn张图像重复步骤(33)。进一步地，所述步骤(3)具体为：取出同一个目标在图像序列中连续sn张的空间特征和目标位置输入到训练好的lstm网络模型中，经过lstm网络模型的处理后输出目标在下一时刻的预测位置。进一步地，所述步骤(4)具体(41)将同一个目标在相邻连续时刻的空间特征融合得到目标的融合特征，计算方式为：其中，tn代表tn-1的上一时刻，fo,t代表目标在时刻t的融合特征，代表此目标在t1时刻的空间特征，代表此目标在t2时刻的空间特征；(42)将目标的融合特征fo,t和目标在当前时刻提取的空间特征fs,t对比，使用余弦相似度计算其特征相似度f，计算方式如下：(43)将目标通过lstm方法预测的位置矩形ro和目标在当前时刻检测出的位置矩形rs对比，使用矩形的面积交并比iou计算位置相似度r，表示如下：其中，sinter＝(min(r1.r,r2.r)-max(r1.l,r2.l))*(min(r1.b,r2.b)-max(r1.t,r2.t))；r1.t,r1.b,r1.l,r1.r分别代表矩形rs的上、下、左、右边界值，r2.t,r2.b,r2.l,r2.r分别代表矩形ro的上、下、左、右边界值，sinter为两个矩形的重叠面积，s1、s2分别代表rs和ro两个矩形的面积；(44)将特征相似度和位置相似度结合起来，添加特征相似度权值w1和位置相似度权值w2进行平衡以获取综合相似度：diffs,o＝w1f+w2r(45)将在当前时刻检测出的一个目标与处于追踪状态的所有目标进行比较得到综合相似度最高的，即diffs,o值最大的目标作待定匹配目标；设最大值为diff，若diff值大于匹配阈值，则认为匹配成功，其中，匹配阈值取值范围为0.6～0.7，优选0.65。总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下技术特征及有益效果：(1)本发明方法采用fasterr-cnn目标检测算法检测出一帧图像中多个目标的位置信息和空间特征，提取出的空间特征对目标具有更强的表达能力，通过外观模型的匹配有更高的相似度；(2)本发明方法将目标位置信息和目标空间特征输入到lstm网络中，使用lstm循环神经网络学习目标的运动规律，对目标位置有很强的预测能力，在目标位置匹配时有更高的相似度；(3)本发明技术方案将目标的空间特征通过融合的方法得到目标在下一时刻的融合特征，通过位置相似度和空间特征相似度两方面添加不同的权重得到最终的相似度，然后判断当前时刻检测出的多个目标和与之前处于追踪状态的多个目标的对应关系；将预测位置和融合特征两个方面的特征结合起来使用，可以进一步提升目标追踪的准确率。附图说明图1为本发明方法的主要流程示意图；图2为本发明方法中目标的时空特征计算流程示意图；图3为本发明方法中目标的匹配的流程图；图4为本发明方法对视频venice-1的追踪结果；图5为本发明方法对目标密集型视频mot16-3的追踪结果。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本发明方法流程如图1所示：(1)视频隔帧解码：(11)在每秒提取4帧的基础上设置解码间隔帧数，若视频fps为24，则间隔帧数为6；(12)按解码间隔帧数使用opencv对视频实时解码出图像；(13)对图像进行预处理操作，将图像缩放到224*224像素大小，以适应fasterr-cnn网络的大小；(2)fasterr-cnn目标检测：fasterr-cnn是一个卷积神经网络，使用fasterr-cnn进行目标检测首先需要先线下训练模型参数，然后线上处理图像以得到目标的位置和空间特征；线下训练模型的过程为：标记出图像中的目标位置和目标分类，使得网络可以通过设定的标记进行反向传播确定模型参数；模型训练是一个有监督的训练过程，训练的图像样本同样使用视频中提取的图像，保证与实际使用的场景相似；模型训练是一个反复迭代的过程，通过反馈调节，使得最终模型的输出误差在一定范围内；线上实际处理过程为：(21)将图像输入到训练好的fasterr-cnn网络模型中，通过网络顶端分类层和窗口回归层提取出多个目标信息，每个目标信息包括[分类编号，置信度，x，y，width，height]；(22)过滤掉置信度低于置信度阈值0.2的目标，[分类编号，置信度]因和时序无关被舍弃，而位置信息[x,y,width,height]与时序相关保留下来；(23)在感兴趣区域池化层，依据rpn算法生成的区域的映射关系中提取出多个目标的空间特征，不同的目标在外观上会有差异，可以用来区分不同的目标；(3)lstm目标预测：lstm是一种循环神经网络，使用lstm进行目标预测同样需要先线下训练模型，然后线上处理图像进行预测；线下训练模型的过程为：(31)对训练视频按照步骤(11)中的每秒提取4帧的时间间隔进行解码，提取图像序列；(32)通过fasterr-cnn网络对此图像序列中的每一张图像进行检测得到多个目标的位置信息和空间特征；(33)lstm网络设置为6层，每次取出连续相邻6张图像中同一个目标的空间特征和位置信息输入到lstm网络中，训练中的损失函数使用均方误差计算位置信息的差距，计算方式如下：其中，ldet是fasterr-cnn网络检测出下一个时刻的位置，lpred是lstm网络输出的预测位置；位置数值要归一化到[0-1]区间之内；(34)通过不断的迭代，使lstm网络输出的位置越来越接近目标在下一时刻的位置，依此来学习到目标的运动规律，进行轨迹预测。线上实际处理过程为：取出同一个目标在连续6张图像序列中的空间特征和位置信息输入到网络中，经过网络的处理后输出结果即为目标在下一时刻的预测位置；(4)目标匹配：(41)将同一个目标在相邻连续时刻的空间特征融合得到目标的融合特征，计算方式为：其中，tn代表tn-1的上一时刻，fo,t代表目标在时刻t的融合特征，代表此目标在t1时刻的空间特征，代表此目标在t2时刻的空间特征，融合特征计算示意图如图2所示；(42)将目标的融合特征fo,t和目标在当前时刻提取的空间特征fs,t对比，使用余弦相似度计算其特征相似度f，计算方式如下：(43)将目标通过lstm方法预测的位置矩形ro和目标在当前时刻检测出的位置矩形rs对比，使用矩形的面积交并比iou计算位置相似度r，表示如下：矩形r1与r2的iou1,2计算方式如下：sinter＝(min(r1.r,r2.r)-max(r1.l,r2.l))*(min(r1.b,r2.b)-max(r1.t,r2.t))其中，r1.t,r1.b,r1.l,r1.r分别代表矩形r1的上、下、左、右边界值，r2.t,r2.b,r2.l,r2.r分别代表矩形r2的上、下、左、右边界值，sinter为两个矩形的重叠面积，s1和s2分别代表两个矩形的面积；(44)将特征相似度和位置相似度结合起来，添加特征相似度权值w1，w1＝0.6位置相似度权值w2，w2＝0.4进行平衡以获取最好的效果，最终的匹配策略如下所示：diffs,o＝w1f+w2r(45)将在当前时刻检测出的一个目标与处于追踪状态的所有目标进行相似度比较得到相似度最高的，即diffs,o值最大的目标作待定匹配目标；设最大值为diff，若diff值大于匹配阈值0.65，则认为匹配成功，否则匹配失败，为新出现的目标。整个过程的流程图如图3所示；(46)在目标匹配之后，需要更新目标的追踪状态；目标的追踪状态有四种状态：初始追踪状态os_begin、追踪过程中os_tracking、未成功匹配os_unmatch和目标追踪结束os_end；目标未匹配状态下，可能发生了目标遮挡、未检测出目标或者目标刚刚离开画面，仍然要对目标进行追踪；目标追踪结束表明目标可能追踪失败或者目标离开视频画面；其中，目标的初始追踪状态是在匹配过程中设置的；若目标处理初始追踪状态，当前时刻处理结束后更新为追踪过程中，使其在下一时刻进行匹配；若目标正处于追踪过程中状态，则检查目标在当前时刻是否匹配到追踪中的目标，若匹配成功，则添加此信息到目标中，更新目标的融合特征并预测目标在下一时刻的位置信息；若匹配失败，则设置为目标未匹配状态，将其预测的位置作为在目标在当前时刻的位置；若目标处于未匹配状态，表示目标在上一时刻中未匹配成功，需要检查在当前时刻是否成功匹配，若匹配成功，则设置为追踪过程中，表明目标遮挡结束或者再次被检测到；若匹配失败，则需要检查目标处于未匹配状态下的连续帧数，若超过一定帧数，则认为目标离开画面或者追踪失败，设置为追踪结束状态；否则，保持当前状态，继续使用预测信息作为在目标在当前时刻的结果；若目标处理追踪结束状态，则将其移除追踪队列中，不再进行目标匹配。实验测试：实验的主机软件环境为ubuntu16.04lts64位、opencv3.1.0、cuda8.0，硬件配置中cpu为intelcorei5-6500、gpu为geforcegtx1080。使用motchallenge中的评价方法，选取了以下几个指标：fn：漏检个数，值越低效果越好；fp：虚警个数，值越低效果越好；idsw：所有目标发生跳变的个数，值越低效果越好；mota：通过漏检个数、虚警个数和目标发生跳变的个数3个指标计算得出的多目标跟踪的准确度，是多目标追踪评判标准中最主要的综合指标，展示了目标追踪到的个数和目标匹配的准确度，值越高效果越好；motp：依据所有跟踪目标的平均边框重叠率计算得到的多目标跟踪的精确度，表明目标在位置结果中的精确度，值越高效果越好；hz：系统在一段时间内追踪的图像帧数平均值，以秒为单位，作为评价追踪算法执行效率和速度的指标，值越高性能越好；实验通过motchallenge数据集中的视频的结果来对比本发明使用方法与目前大部分方法中基于卷积神经网络提取空间特征方法的效果，记m1为单独使用空间深度特征进行匹配的方法，m2为单独使用时序上的位置进行匹配的方法，m3为两者结合起来使用的方法。使用三个方法分别对视频venice-1和mot16-3进行追踪，视频信息如表1所示，实验结果如下表2所示。由表1、表2可以看出，视频venice-1的目标密度适中，特征区分度比较高，单独使用每一种策略可以取得不错的结果，多策略方法能够提升准确度。对于视频mot16-3，目标密度高，使用多策略方法对准确度有很大的提升。表1测试视频信息表视频venice-1mot16-3分辨率1920*10801920*1080时间时长(帧)4501500目标个数4563104556目标密度中等超高表2不同视频在不同策略下的追踪结果依据idsw的得分可以看出，视频mot16-3在方法m2上的值远大于方法m3，说明在目标密度比较高的情况下，基于位置的匹配较容易出错，主要在于密度高导致多个目标的位置重叠率高，不容易区分。依据fn可以看出，两个视频的在方法m2的值都要小于m1，说明lstm的预测能力能够减少漏检率。视频venice-1的追踪结果如图4所示，视频mot16-3在部分区域的追踪结果如图5所示，其中灰色细线矩形框代表目标经过检测后追踪到的结果，白色粗线矩形框代表没有检测到或者遮挡中的目标经过预测的结果。矩形框上方的数字代表追踪到的目标编号，由此来比较目标的匹配情况，右下角数字代表图像在视频中的帧号。由展示的追踪结果可以看出图像中的行人都被正确的追踪为同一个目标。本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：凌贺飞;李叶;李平
技术所有人：华中科技大学
我是此专利的发明人

上一篇：一种排队装置及其排队控制方法与流程
上一篇：花蕊运动轨迹的获取方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。