一种基于ImageNet检索的监控视频行人重识别方法
【技术领域】
[0001] 本发明属于视频分析技术领域,涉及一种监控视频行人重识别分析方法,具体涉 及一种基于ImageNet检索的监控视频行人重识别方法。 技术背景
[0002] 公安破案中往往需要从大量地理位置分散、覆盖范围大、时间跨度长的监控视频 中追踪嫌疑目标,现有的人工排查录像方式因效率低下极易错过最佳破案时机,刑侦业务 迫切需要自动化分析与检索技术的支持。在这样的背景下,行人重识别技术应运而生。行 人重识别是指在照射区域无重叠的多摄像头画面下自动匹配同一行人对象的技术,用以快 速、准确地发现嫌疑人在多摄像头下的活动画面和轨迹。
[0003] 以人脸识别为代表的生物特征识别推广到监控环境下的行人重识别存在巨大的 障碍,原因在于监控视频画面的分辨率较差、行人对象尺度较小以及行人对象姿态的随意 性等因素,导致人脸、步态等生物特征难以提取。因此,行人重识别主要依靠行人的外貌特 征(如衣着服饰颜色、佩戴物等)来进行。在现有基于外貌的行人重识别研究中,研究者围 绕特征提取和特征相似性度量发展了许多方法,然而这些方并没有充分考虑现实应用的挑 战。首先,行人重识别问题中的图片来源于不同的摄像头,由于不同摄像头所处的角度、光 照等环境的影响,同一个行人的不同图片中,外貌特征会有一定程度的变化;相反,由于行 人姿势及摄像头角度的变化,在不同摄像头中,不同行人的外貌特征可能比同一个人的外 貌特征更相似。其次,基于监督学习的行人重识别的性能严重依赖训练样本的数量,公安破 案一般具有极强的时效性要求,往往很难在短时间内标注大量的样本。再有,现有研究大多 基于行人已经得到分离的标准测试数据集,然而在实际的监控视频应用中,行人图像和背 景及其它目标混合在一起,无法直接使用行人重识别技术识别行人。
[0004] 颜色、纹理、梯度等底层视觉特征易受光照、拍摄角度、行人走路姿态、尺度等各种 因素的影响,寻找对监控环境变化稳健的中高层特征是一件困难的事情。深度学习网络通 过模拟人脑的人知机理,能够自动学习出图像中大量高维、具有泛化能力的隐含特征,克服 了传统的机器学习任务中针对不同问题手工设计不同特征的缺陷。因此,通过深度学习产 生行人跨摄像机不变的本质的内在属性特征,代替手工设计的SIFT、LBP、H0G等特征进行 行人重识别,有望提高行人重识别技术的环境适应能力。但是一个现实的问题是,大规模深 度学习网络的训练需要庞大标注的训练集,且训练过程极其漫长,这些不能被破案时间受 限的刑侦业务所忍受。最近几年,深度学习界流行采用ImageNet模型解决机器学习问题, ImageNet是一个通过百万级标注的图像训练得到的多层的卷积神经网络模型,其强大的能 力已经在图像分类、人脸识别、物体检测等方面得到证实。而且,ImageNet尽管是通过自然 图像训练得到,但由于其具备深度学习模型普遍具有的泛化能力,在遥感图像、医学图像等 领域也得到成功应用。因此,可以直接采用ImageNet上训练得到的模型,或者以ImageNet 上训练的模型为起点继续训练出改进的模型,将行人图像映射为隐含层的特征表达,从而 将行人重识别问题转化为ImageNet模型擅长的图像检索问题。
【发明内容】
[0005] 为了解决上述技术问题,本发明提供了一种基于ImageNet检索的监控视频行人 重识别方法。
[0006] 本发明所采用的技术方案是:一种基于ImageNet检索的监控视频行人重识别方 法,其特征在于,包括以下步骤:
[0007] 步骤1 :对原始监控视频进行预处理;
[0008] 解析压缩的监控视频中每帧图像运动矢量,计算运动矢量的强度,排除视频中的 大量低活动复杂度的无关背景帧,只保留活动视频帧用于后续分析;
[0009] 步骤2 :行人提取;
[0010] 根据步骤1产生的精简监控视频,采用帧差法分离出动态视频帧中的活动目标, 构造行人图像库,图像库中的每幅图像包含指向原始监控录像文件及其所在帧的索引;
[0011] 步骤3 :行人图像库对齐;
[0012] 将行人图像库中的图像与目标行人图像进行尺寸和亮度的对齐;
[0013] 步骤4 :ImageNet图像检索;
[0014] 将目标行人图像和行人图像库中的图像映射成ImageNet深度学习网络的隐含层 特征,通过余弦距离度量特征间的相似度,按相似度排序,挑选排序最靠前的一组图像作为 检索结果输出;
[0015] 步骤5 :关联视频聚合;
[0016] 将步骤4识别出的行人图像对应到各自原始监视视频帧,按时间顺序将相关视频 帧聚合成再现目标行人活动轨迹的视频片段。
[0017] 作为优选,步骤1的具体实现包括以下子步骤:
[0018] 步骤1. 1 :根据监控视频录像的编码格式,用相应标准的解码器解析出N个运动矢 量数据MV1;
[0019] 步骤1. 2 :用 计算所有运动矢量数据的总能量,得到运动矢量强度 S ;
[0020] 步骤1. 3 :将运动矢量强度S与门限T比较,大于门限的视频帧标记为1,否则标记 为0 ;标记为1的视频帧保留,标记为0的视频帧去掉。
[0021] 作为优选,步骤2的具体实现包括以下子步骤:
[0022] 步骤2. 1 :根据步骤1产生的精简监控视频,利用步骤1中解析的运动矢量数据, 参考前一帧作运动补偿,求取帧差图像,进而令帧差图像中绝对值大于预设门限Td的像素 为1,否则为〇 ;
[0023] 步骤2. 2 :使用Canny算子对视频帧进行边缘检测,得到二值化的前景图像,将前 景图像与帧差法的检测结果进行"或"运算融合,产生融合后的前背景分割图像;
[0024] 步骤2. 3 :采用区域连通法检测前景中的连通区,进而估计出两个连通区的距离, 如果距离小于设定的阈值则将连通区整合成一个目标,实现破碎目标的合并;
[0025] 步骤2. 4 :框定每个独立活动目标的最大外接矩形,然后将对应的原始视频帧中 同一位置处的活动对象图像扣取出来,记录到行人图像库,同时索引其所在的监控录像文 件名和视频帧编号。
[0026] 作为优选,步骤3的具体实现包括以下子步骤:
[0027] 步骤3. 1 :为便于利用ImageNet深度学习网络模型,行人图像库中的图像和待识 别的目标行人图像统一缩放到ImageNet规定的尺寸224x224像素;
[0028] 步骤3. 2 :为消除光照变化的影响,将行人图像库中图像的亮度校正到与目标图 像一致,校正方法为将图像库里图像乘以一个增益因子:,这里X为目标图像,1为 图像库中的第i图像,"T"代表矩阵转置运算。
[0029] 作为优选,步骤4的具体实现包括以下子步骤:
[0030] 步骤4. 1 :将目标图像和行人图像库中的图像逐一输入到已训练好的ImageNet深 度学习网络模型,进行反向传播更新训练产生隐含层特征;
[0031] 步骤4. 2 :抽取ImageNet最高隐含层的第20个4096维的特征,再对特征矢量进 行softmax处理;
[0032] 步骤4. 3 :为方便用余弦距离度量相似性,对特征进行L2归一化即 '这 里11112表示L2-范数;
[0033] 步骤4. 4 :采用余弦距离度量方式对特征进行匹配,逐一计算目标图像和行人图 像库中图像特征间的余弦距离,将距离由小到大排序,选择排序靠前的一组图像作为识别 结果。
[0034] 作为优选,步骤5的具体实现包括以下子步骤:
[0035] 步骤5. 1 :根据行人图像索引的文件名和帧编号,定位原始监控视频录像中关联 视频的位置,并提取出视频片段;