一种基于多属性和多策略融合学习的行人再识别方法与流程

文档序号:12887599阅读:324来源:国知局
一种基于多属性和多策略融合学习的行人再识别方法与流程

本发明属于模式识别技术领域,更具体地,涉及一种基于多属性和多策略融合学习的行人再识别方法。



背景技术:

近几年国内外频频发生的恐怖袭击事件对世界人民的生命财产安全造成了极大的威胁,随着全世界的反恐形势日渐严峻,各国政府对维护公共安全的投入越来越大。2005年,国务院批复了公安部提出的“平安城市”计划,现在我国已有超过600个城市在大力建设“平安城市”。视频监控系统是“平安城市”建设中不可或缺的一环,目前有超过2000万个监控摄像头覆盖安装在全国各公共场所。视频监控系统中的每个摄像头都在源源不断地产生大量视频数据,而单个摄像头的监控范围有限,检索与追踪某个特定目标往往要跨越多个摄像头。在案件发生时,若仅凭人力对多个摄像头在案发前后的监控内容进行分析,既耗时耗力又缺乏准确性。随着机器学习、深度学习、模式识别等技术的发展,最新的监控视频智能分析技术能够在处理监控视频的同时自动分析视频中的运动目标。

基于视觉的行人再识别技术是监控视频智能分析技术中的重要内容,主要研究在已给定行人查询图像的情况下,如何将其与来自不同摄像头的行人图像候选库进行特征提取与分析匹配,判断图像候选库中哪些图像与查询图像属于同一个行人。行人再识别技术在安防、刑侦、寻找走失人口、人体行为分析等领域有着广阔的应用前景,对维护公共安全具有重要的社会意义与经济意义。研究人员已经提出多种用于行人再识别的方法,但是很少能应用到实际中,这是因为行人再识别技术存在诸多挑战。由于拍摄条件限制,监控摄像头分辨率不同,所在环境与位置也不同,同一摄像头所拍摄的不同行人图像在光照强度、背景、缩放程度上比较一致;由于行人自身的特殊性,走路的姿势经常变化,自身携带物品会产生遮挡,互相之间也会有遮挡,不同摄像头所拍摄的同一行人在姿势、角度、遮挡上各有不同。

传统方法集中于两个方面,一个是设计有表达能力的手工特征,另一个是学习有区分性的距离度量,但传统手工特征表达能力有限,而且针对手工特征的距离度量方法泛化能力很差。多种基于深度学习的视觉处理方法取得的成功,为解决行人再识别问题提供了思路,其性能优于传统方法,因为相比起浅层特征,深度特征提取层次更深、表达能力更好、抵抗外观变化的鲁棒性更强,基于卷积神经网络(convolutionalneuralnetwork,cnn)的行人再识别方法在一个网络中既实现特征提取,又实现距离度量,能够基本解决分辨率、光照强度、缩放程度等影响造成的问题。相关研究在刚起步时,因为数据集规模限制,几乎都采用了对比验证方法,对损失函数设计要求高,有了大规模数据集后,有少量研究采用分类方法。行人验证和行人分类各有优点与不足,行人验证可以充分利用图像之间的关系,将不同行人“推”得更远,将同一行人“拉”得更近,行人分类可以充分挖掘图像自身的深层语义,二者在一定程度上互补。现有采用有多个子网的网络结构,对基于二元组和三元组的对比验证网络结构进行研究,每个支路在完成验证任务的同时也进行分类训练,为验证任务提取更有辨识力的特征,但这种网络结构没有解决测试时也必须组合图像输入网络进行比对的问题,而且三元组的输入构造难度大,网络效果过度依赖训练样本的质量。还有采用成对的图像输入,同时进行图像之间的对比验证和分类,但其对比损失函数的设计过于简单,难以应对特征之间距离过大对整体损失函数造成影响的问题。可见,这些结合行人分类与行人对比验证的方法取得了一定的效果提升,但也尚有不足。

进一步,通过添加性别、发型、衣服类型、颜色等不会随摄像头、背景、行人自身的各种变化而变化的属性信息,可以在一定程度上化解行人再识别中由行人自身姿势、遮挡、角度等变化带来的识别难度,比利用视觉特征更具有可区分性。在当前大规模的数据集中结合属性的主要有三步法,结合语义属性与潜在属性共同学习,更侧重于属性预测和过程中的优化工作,以及利用多种属性的相关性联合建模,同时进行属性预测和行人再识别,但是他们采用手工标注行人再识别数据集的方式,工作量太大,影响算法整体效率。

综上所述,目前在行人再识别领域进行了大量的研究工作,但是现有方法存在表达能力差、对行人外观变化鲁棒性差、构建与应用较为复杂等问题,不能直接应用于监控视频智能分析系统中。因此,如何设计一种既能对造成行人外观变化的各种影响因素具有鲁棒性、有较高的识别准确率,又不失效率的行人再识别方法,是监控视频智能分析系统中亟待解决的问题。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多属性和多策略融合学习的行人再识别方法,其目的在于首先选择容易判断且具有足够区分度的行人属性,在属性数据集上训练行人属性识别器,再用该属性识别器为行人再识别数据集标注属性标签,然后结合属性和行人身份标签,采用融合行人分类和新颖的约束对比验证的策略,训练行人再识别模型;在线上查询阶段,用行人再识别模型分别对查询图像和库图像提取特征,计算查询图像特征与各库图像特征之间的欧氏距离,得到距离最近的图像,认为是行人再识别的结果,该方法既能对行人外观变化的诸多影响因素具有鲁棒性,有着较高的识别准确率,又不失效率,满足监控视频智能分析系统实时识别行人的要求。

为实现上述目的,按照本发明的一个方面,提供了一种基于多属性和多策略融合学习的行人再识别方法,所述方法分为线下训练阶段和线上查询阶段:

线下训练阶段具体包括以下步骤:

(1)从行人属性数据集选取多种属性,并为每种属性划分类别,构建属性标签;

选择容易判断且具有足够区分度的属性,包括性别、头发长短、上半身样式、上半身颜色、下半身样式、下半身颜色这6种,并为每种属性划分类别;

(2)对行人属性识别数据集,构建有多种属性标签的卷积神经网络模型,训练一个行人属性识别器;

(3)用训练好的行人属性识别器,为行人再识别数据集采用“投票法”标注属性标签,将行人再识别数据集中的图像输入卷积神经网络后,前向传播计算各分类层的值,其中最大元素的序号所对应的类别即为此图像对该属性的类别;对于每一个属性,同一行人的每张图像都有一张“选票”,根据每张图像的预测结果为属性类别“投票”,将“得票数”最多的类别作为该属性最终的标签;

(4)对行人再识别数据集和标注好的属性标签,构建有行人身份标签、多种属性标签、融合分类与约束对比验证的卷积神经网络模型,训练一个行人再识别的模型;

线上查询阶段包括以下步骤:

s1、用训练好的行人再识别模型,分别对查询图像和库图像提取网络的高层特征,将一张图像输入网络后,前向传播计算分裂前最后一个全连接层的值,即为所需特征,每个图像都会得到一个4096维向量特征;

s2、计算查询图像特征与各库图像特征之间的欧氏距离,将得到的距离值从小到大排序,排名靠前的距离值对应的库图像与查询图像是同一行人的概率较大,取距离最近的多张图像作为查询目标。

进一步地,所述线下训练阶段的步骤(2)中作为行人属性识别器的卷积神经网络模型的基本结构是vggnet;所述卷积神经网络模型最后一个全连接层分裂成6个;全连接层之后的分类层也有6个,分别对应6种属性标签;每个分类层后各有一个采用softmax损失的分类损失层。

进一步地,所述线下训练阶段的步骤(2)中行人属性识别器的卷积神经网络的训练具体包括以下子步骤:

(21)对一个训练批次中的50个样本进行预处理;

(22)以大型数据集imagenet预先训练过的模型作为网络的初始参数,将训练样本输入网络后,前向传播计算网络各层的值,直至各属性的分类损失层,每个分类损失值的权重相等;

(23)若预定总体迭代次数未达到,则继续步骤(24);若已达到,则结束训练;其中,所述预定总体迭代次数的取值范围为10000到50000,优选50000;

(24)反向逐层采用梯度下降算法更新网络各层参数,同时最小化各属性的分类损失;重复步骤(21)至(23)。

进一步地,所述线下训练阶段的步骤(4)中作为行人再识别模型的卷积神经网络模型基本结构是caffenet;所述卷积神经网络最后一个分类层分裂成7个,分别对应行人身份标签和6种属性标签;每个分类层后各有一个采用softmax损失的分类损失层;除分类层外,还有7个降维层;每个降维层后各有一个计算样本特征对之间距离的约束对比验证损失层。

进一步地,所述线下训练阶段的步骤(4)中行人再识别模型的卷积神经网络的训练具体包括以下子步骤:

(41)对一个训练批次中的64个训练样本进行预处理;

(42)以大型数据集imagenet预先训练过的模型作为卷积神经网络的初始参数,将样本输入卷积神经网络后,前向传播计算卷积神经网络各层的值,直至行人身份和各属性的分类损失层和约束对比验证损失层,不同标签和不同方法的损失值有各自的权重,行人身份损失所占权重是各属性损失的3倍,分类损失所占权重是约束对比验证损失的10倍;

(43)若预定总体迭代次数未达到,则继续步骤(44);若已达到,则结束训练;其中,所述预定总体迭代次数的取值范围为10000到50000,优选50000;

(44)反向逐层采用梯度下降算法更新网络各层参数,同时最小化行人身份和各属性的分类损失和约束对比验证损失;重复步骤(41)至(43)。

进一步地,所述步骤(42)中约束对比验证损失函数的表达形式是:

其中,j=0表示行人身份,j=1,2,...,6对应行人的6种属性;表示该训练批次中第m个图像特征对是否属于同一行人或具有相同属性,1表示是,0表示否;公式的第一项惩罚同一行人或相同属性的特征对之间距离过大的情况,这里采用的距离度量方式,其中,是l2范数,也就是欧氏距离;第二项惩罚不同行人或不同属性的特征对之间距离过小的情况,θ表示边界阈值参数,θ的取值范围为100到300,优选200,用于防止出现距离过大的离群特征对;第三项是约束项,||·||1是l1范数,其值是向量各项绝对值之和,该项使特征值每一项的绝对值都尽量趋近于1,既能归一化特征,又能使特征距离在可以预见的范围之内;β是约束项所占权重,β=0.01;

该批次的平均约束对比验证损失函数表示为:

其中,m是一个训练批次的样本可组成的特征对数量,m=2016。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:

(1)本技术方案同时学习行人身份信息和属性信息,主要创新点在于训练了一个属性识别器,能够自动为行人再识别数据集标注属性标签,节省时间;属性信息对外观变化具有鲁棒性,用于辅助行人再识别,在一定程度上解决由行人自身姿势、遮挡、角度等变化带来的识别问题。

(2)本技术方案提出了一种约束对比验证损失函数,用于约束特征值,将特征距离限制在一定范围内,在一个网络中,验证目标和分类目标同时迭代优化,可以既学习更有区分性的特征,又度量行人之间的关系,在一定程度上解决分辨率、光照强度、缩放程度等由拍摄条件造成视觉变化的问题。

(3)本技术方案采用了一种多属性与多策略的解决方案,在一个端到端的框架中融合行人身份的分类损失、约束对比验证损失和属性的分类损失、约束对比验证损失,在反向传播时传播各损失的加权之和。融合多种属性和多种策略的方法可以使各部分互补,进一步提高行人再识别率。

附图说明

图1为本发明方法的流程框架图;

图2为本发明方法中作为行人属性识别器的卷积神经网络结构;

图3为本发明方法中作为行人属性识别器的卷积神经网络的训练流程图;

图4为本发明方法中作为行人再识别模型的卷积神经网络结构;

图5为本发明方法中作为行人再识别模型的卷积神经网络的训练流程图;

图6为基于行人身份分类的方法c-cnn、基于行人身份约束对比验证的方法v-cnn、结合行人身份分类与约束对比验证的方法cv-cnn、基于行人属性分类的方法attr-cnn、基于行人身份与属性分类的方法attr+c-cnn、本发明基于多属性和多策略融合学习的方法attr+cv-cnn的累积匹配特性曲线比较图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明方法的流程如图1所示。在线下训练阶段,首先选择容易判断且具有足够区分度的行人属性,进行合理的类别划分,在行人属性识别数据集上构建卷积神经网络模型,训练行人属性识别器,再用该属性识别器为行人再识别数据集标注属性标签,然后结合属性和行人身份标签,采用融合行人分类和约束对比验证的策略,在行人再识别数据集上构建卷积神经网络模型,训练行人再识别模型;在线上查询阶段,用行人再识别模型分别对查询图像和库图像提取特征,计算查询图像特征与各库图像特征之间的欧氏距离,将得到的距离值从小到大排序,库图像中与查询图像距离最近的若干图像,认为是查询目标,排名靠前的距离值对应的库图像与查询图像是同一行人的概率较大。

下面具体说明线下训练阶段的行人属性识别器训练过程、行人再识别模型训练过程,以及线上查询阶段的行人再识别应用过程的具体实施步骤。

线下训练阶段包括以下步骤:

(1)从现有大型行人属性识别数据集peta提供的多种属性中,选择容易判断且具有足够区分度的6个属性及其类别划分;包括:①性别:男性、女性、不确定;②头发长短:长发、短发、不确定;③上半身样式:t恤、衬衫、外套、羽绒服、西服、其他、不确定;④上半身颜色:黑、白、红、黄、蓝、绿、紫、棕、灰、橙、多色、不确定;⑤下半身样式:长裤、短裤、长裙、短裙、其他、不确定;⑥下半身颜色:黑、白、红、黄、蓝、绿、紫、棕、灰、橙、多色、不确定。

(2)对行人属性识别数据集,构建有多种属性标签的卷积神经网络模型,训练一个行人属性识别器。

所用卷积神经网络模型基本结构是vggnet;如图2所示,该网络模型有5组卷积,卷积核分别设置为:①64(3×3),64(3×3),②128(3×3),128(3×3),③256(3×3),256(3×3),256(3×3),256(3×3),④512(3×3),512(3×3),512(3×3),512(3×3),⑤512(3×3),512(3×3),512(3×3),512(3×3);全连接层fc6有4096个结点,全连接层fc7分裂成6个,fc7_1、fc7_2、fc7_3、fc7_4、fc7_5、fc7_6,各有2048个结点;全连接层之后的分类层也有6个,分别对应6个属性标签,对应性别的分类层fc8_1有3个结点,对应头发长短的分类层fc8_2有3个结点,对应上半身样式的分类层fc8_3有7个结点,对应上半身颜色的分类层fc8_4有12个结点,对应下半身样式的分类层fc8_5有6个结点,对应下半身颜色的分类层fc8_6有12个结点;每个分类层后各有一个采用softmax损失的分类损失层。

如图3所示,作为行人属性识别器的卷积神经网络的训练步骤为:

(21)对一个训练批次中的50个训练样本进行预处理,将图像缩放到256*256大小,在左上角、右上角、左下角、右下角、正中心各裁剪224*224大小的图像块,结合水平镜像变换的方式,将原来的一张图像扩充为10张,在输入网络之前减去图像均值;设置用于梯度下降加速的动量为0.9,权重衰减参数为0.0005,微调的初始学习率设为0.001,每迭代10000次学习率降为之前的0.1倍;

(22)以大型数据集imagenet预先训练过的模型作为网络的初始参数,将样本输入网络后,前向传播计算网络各层的值;对于第j,j=1,2,...,6个属性,每个属性都有k(j)个类别,第n个样本的特征输入的预测值为类别k的概率表达如下:

第n个样本对于属性j的分类损失函数为:

该批次n个样本对于属性j的平均分类损失值为:

(23)若预定总体迭代次数50000次未达到,则继续步骤(24);若已达到,则结束训练;

(24)反向逐层采用梯度下降算法更新网络各层参数,根据以下公式得到属性j的分类损失反向传播的梯度:

根据梯度同时最小化各属性的分类损失,重复步骤(21)~(23)。

(3)用训练好的行人属性识别器,为行人再识别数据集market-1501采用“投票法”标注属性标签,将一张图像输入网络后,前向传播计算各分类层的值,其中最大元素的序号所对应的类别即为此图像在该属性上的类别,对于属性j,将行人图像输入网络后,前向传播计算fc8_j的值得到向量它属于每个类别k的概率也是一个向量,其中最大元素的序号所对应的类别即为属性j的类别,即对于每一个属性,同一行人的每张图像都有一张“选票”,根据每张图像的预测结果为属性类别“投票”,将“得票数”最多的类别作为该属性最终的标签;

(4)对行人再识别数据集和标注好的属性标签,构建有行人身份标签和多种属性标签、融合分类与约束对比验证的卷积神经网络模型,训练一个行人再识别模型;

所用卷积神经网络模型基本结构是的caffenet;如图4所示,卷积层的卷积核分别设置为:96(11×11),256(5×5),384(3×3),384(3×3),256(3×3);全连接层fc6和fc7各有4096个结点;分类层有7个,分别对应行人身份标签和6种属性标签,对应行人身份的分类层fc8_0有751个结点,对应性别的分类层fc8_1有3个结点,对应头发长短的分类层fc8_2有3个结点,对应上半身样式的分类层fc8_3有7个结点,对应上半身颜色的分类层fc8_4有12个结点,对应下半身样式的分类层fc8_5有6个结点,对应下半身颜色的分类层fc8_6有12个结点;每个分类层后各有一个采用softmax损失的分类损失层;分别对应行人身份、性别、头发长短、上半身样式、上半身颜色、下半身样式、下半身颜色的降维层ip_0~ip_6各有100个结点;每个降维层后各有一个计算成对样本特征之间距离的约束对比验证损失层。

如图5所示,作为行人再识别模型的卷积神经网络的训练步骤为:

(41)对一个训练批次中的64个训练样本进行预处理,将行人图像缩放到227×227的尺寸大小,只用水平镜像变换的方式稍作扩充数据集,采用移除图像平均亮度的方式为每个图像减去图像均值;训练时将训练集与验证集划分为多个批次,每次迭代时将一个批次的训练样本输入网络中;设置用于梯度下降加速的动量为0.9,权重衰减参数为0.0005,微调的初始学习率设为0.001,每迭代20000次学习率降为之前的0.1倍;

(42)以大型数据集imagenet预先训练过的模型作为网络的初始参数,将样本输入网络后,前向传播计算网络各层的值;对于第j,j=0,1,2,...,6个属性,当j=0时表示行人身份,j=1~6对应6种属性,每个属性都有k(j)个类别,第n个样本的特征输入的预测值为类别k的概率表达如下:

第n个样本的分类损失函数为:

该批次64个样本对于属性j的平均分类损失值为:

第m个图像特征对的约束对比验证损失函数为:

其中,表示第m个图像特征对是否属于同一行人或具有相同属性,1表示是,0表示否;公式的第一项惩罚同一行人或相同属性的特征对之间距离过大的情况,这里采用的距离度量方式是l2范数,也就是欧氏距离;第二项惩罚不同行人或不同属性的特征对之间距离过小的情况,这里设置了一个边界阈值参数θ,θ=200,用于防止出现距离过大的离群特征对;第三项是约束项,||·||1是l1范数,其值是向量各项绝对值之和,该项使特征值每一项的绝对值都尽量趋近于1,既能归一化特征,又能使特征距离在可以预见的范围之内,β是约束项所占权重,β=0.01。

m是一个训练批次的样本可组成的特征对数量,m=2016,该批次的平均约束对比验证损失函数表示为:

不同标签和不同方法的损失值有各自的权重,行人身份损失所占权重是各属性损失的3倍,分类损失所占权重是约束对比验证损失的10倍;

(43)若预定总体迭代次数,50000次未达到,则继续步骤(44);若已达到,则结束训练;

(44)反向逐层采用梯度下降算法更新网络各层参数,根据如下公式得到属性j的分类损失反向传播的梯度为:

将约束对比验证损失函数中的三项分别表示为t1、t2、t3,分别求导如下:

其中,i的取值为1或2,是指示函数,总体梯度为这三项梯度之和:

根据梯度同时最小化行人身份和各属性的分类损失和约束对比验证损失;重复步骤(41)~(43)。

s1、用训练好的行人再识别模型,分别对查询图像和库图像提取网络fc7层的高层特征;将图像输入行人再识别模型中,前向传播逐层计算,直至分裂前最后一个全连接层fc7,该层各结点的值即为所需特征,每个图像将得到一个4096维的向量;

s2、计算查询图像特征与各库图像特征之间的欧氏距离其中x1和x2分别是查询图像和某个库图像的特征向量,i是向量的下标索引;将得到的距离值从小到大排序,排名靠前的距离值对应的库图像与查询图像是同一行人的概率较大,取距离最近的若干张图像作为结果。

实例:

为了证明基于多属性和多策略融合学习方法的性能和效率具有优势,本发明通过以下实验进行验证与分析。

a.实验数据

本发明采用market-1501数据集进行实验,该数据集采集自清华大学校园中的一个超市门口,一共有1501个不同身份的行人;数据集已经划分了训练图片和候选图片,训练图片中有751个行人身份,12,936张图片,在训练时以9:1的比例随机划分为训练集和验证集,分别有11,642和1,294张图片,候选集和查询集中有750个行人id,分别有19,732和3,368张图片;图像格式均为jpeg,图像大小均为64*128。

b.实验平台

硬件:cpuintelxeone5-2650v3,内存64gddr42133mhz,gpugeforcegtxtitanx,显存12g;

软件:操作系统ubuntu15.0464位,实验平台caffe、matlabr2014a。

c.行人再识别质量评价标准

累积匹配特性第一准确率cmc@1对于每一张查询图像,首先计算其特征与候选集中所有图像特征之间的距离,将这些距离从低到高排序,返回候选集中排名第一的图像,该图像与查询图像属于同一行人即正确匹配,统计查询集图像正确匹配的百分比,如公式所示,其中查询集大小为m,对查询图像pi,假设第一个正确匹配的图像为qpi,它在排序中的位置记为r(qpi)。

平均准确率均值map是查询集中所有图像平均准确率ap的均值,ap的计算方法为map的计算方法为假设对查询图像pi一共返回n个图像,r是返回图像中所有正确的图像数,rj是前j个图像中正确的图像数,查询集大小同样为m。

d.实验结果

实验表明,本发明方法在market-1501数据集上,cmc@1达到了70.0%,map达到了45.7%,已经超过了许多顶尖方法,在测试时,提取特征大约需要4.82秒/100张图像,计算距离与排名大约需要0.11秒/100张图像,可以满足实际应用的需求。

将基于行人身份分类的方法c-cnn、基于行人身份约束对比验证的方法v-cnn、结合行人身份分类与约束对比验证的方法cv-cnn、基于行人属性分类的方法attr-cnn、基于行人身份与属性分类的方法attr+c-cnn、本发明基于多属性和多策略融合学习的方法attr+cv-cnn进行了比较,结果如图6所示:横轴是计算查询图像特征与候选集中所有图像特征之间的距离并从低到高排序后返回的图像数量,纵轴是查询集图像正确匹配的百分比。

该方法与没有采用深度学习的方法相比较,由于可以提取更有表达能力的特征,在一定程度上解决了光照强度、分辨率、平移缩放、姿态变化等较小视觉变化造成的问题,大大提高了分类准确率;与采用了深度学习的方法相比较,由于属性相比于低层特征更语义表达性能更好,且对拍摄角度、背景变化、部分遮挡等较大的外观变化不敏感,使得算法的识别效果更优。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1