前景引导和纹理聚焦的行人重识别模型建立方法及其应用与流程

文档序号:23501323发布日期:2021-01-01 18:06阅读:102来源:国知局
前景引导和纹理聚焦的行人重识别模型建立方法及其应用与流程

本发明属于行人重识别领域,更具体地,涉及一种前景引导和纹理聚焦的行人重识别模型建立方法及其应用。



背景技术:

行人重识别的目的是在没有重叠区域的摄像头场景下检索属于同一身份的行人,是视频图像处理和计算机视觉的一项基本任务。近年来,随着深度学习的发展,行人重识别受到了越来越多社区和研究者的关注,且取得了可观的进展,其在智能视频监控领域中(如多目标跟踪,行人搜索等)有着显著的应用价值。

行人重识别是一项具有难度的任务,面领着许多挑战,包括行人分辨率差异大,姿态变化,光照不同,背景干扰,存在遮挡等,特别是背景干扰。同一身份的行人往往处于不同的背景之下,而不同身份的行人往往处于相似背景之下,这种情况非常容易误导网络的学习方向,对网络提取行人具有判别性的特征造成了困难。

现有一些基于注意力的方法运用注意力机制获取行人潜在的语义或结构相关性,用于突出有价值的行人表观信息,但大部分注意力方法都面临着计算开销大的问题,且它平等地对待前景和背景容易造成特征虚警问题;还有一些方法直接借助图像分割算法或姿态估计算法确定身体部位区域或关键点位置,去指导特征提取器有针对性地生成行人身体部位相关的特征向量,这在遮挡、行人姿态变化大的场景中是有效的。然而,图像分割/姿态估计作为独立的模块引入到行人重识别任务中会使整体模型的构建变得复杂,不能端到端训练,并严重影响实际的推理速度,更重要的是,受背景干扰的影响,图像分割或关键点的定位可能不准确,此时行人重识别精度将打折扣。总体而言,现有的行人重识别方法由于存在特征虚警的问题,行人重识别的鲁棒性和准确性仍有待提高。



技术实现要素:

针对现有技术的缺陷和改进需求,本发明提供了一种前景引导和纹理聚焦的行人重识别模型建立方法及其应用,其目的在于,提高行人重识别的鲁棒性和准确性。

为实现上述目的,按照本发明的一个方面,提供了一种基于前景引导和纹理聚焦的行人重识别模型建立方法,包括:

以预训练的图像分类网络为基础网络,将基础网络的输出分支作为全局分支,在基础网络的最后一个特征层后引入包含bottleneck模块的局部分支,在基础网络的倒数第二个特征层后引入包含前景注意力模块的注意力分支和纹理聚焦解码器,得到待训练网络;前景注意力模块用于提取图像的注意力图,注意力分支用于输出侧重于表达行人判别性的注意力特征;局部分支用于输出侧重于表达行人属性的局部特征;纹理聚焦解码器用于对输入图像进行重建,得到带掩膜加权的图像;

以纹理聚焦解码器作为待训练网络的解码器部分,以全局分支、局部分支和注意力分支作为待训练网络的非解码器部分,对待训练网络中的非解码器部分和解码器部分进行交替训练,直至达到预设的训练终止条件;

在训练完成后,移除待训练网络中的纹理聚焦解码器,并加入特征输出层,得到基于前景引导和纹理聚焦的行人重识别模型;

其中,特征输出层用于将注意力分支、全局分支、局部分支输出的特征拼接为输入图像中行人的重识别特征。

本发明在图像分类网络的基础上,引入了注意力分支和局部分支,其中的注意力分支用于输出侧重于表达行人判别性的注意力特征,局部分支用于输出侧重于表达行人属性的局部特征,且这两部分特征作为整体模型输出向量的一部分,增加了行人特征表达的多样性和可区分性,因此,本发明所建立的行人重识别模型是一种高效的网络,且特征提取和表达能力都得到了提升,能够有效提高行人重识别的鲁棒性和准确性。

本发明在模型训练阶段,在基础网络中引入了纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响,有利于更进一步凸显行人的判别性特征,进一步提高行人重识别的鲁棒性和准确性。

进一步地,前景注意力模块包括:通道缩减层、分支提取层、权重生成层、注意力图生成层以及通道恢复层;

通道缩减层,用于将输入特征图的通道缩减至预设值,得到第一特征图;

分支提取层,用于提取第一特征图的序列分支、键值分支和值分支,并转换为对应的中间特征图,依次记为第二特征图、第三特征图和第四特征图;

权重生成层,用于对第二特征图和第三特征图执行矩阵乘法和softmax操作,分别得到通道权重矩阵和位置权重矩阵;通道权重矩阵中记录了各通道的权重系数,位置权重矩阵中记录了各位置的权重系数;

注意力图生成层,用于将第四特征图分别与通道权重矩阵和位置权重矩阵进行矩阵乘法和尺寸变换,得到通道注意力图和位置注意力图,并将通道注意力图、位置注意力图和第一特征图进行逐像素相加,得到待恢复的注意力图;

通道恢复层,用于将待恢复的注意力图的通道数恢复至与输入特征图相同,得到注意力图。

本发明中,前景注意力模块能够同时提取输入特征图的通道注意力图和位置注意力图,相比于传统的方法中,利用两个注意力模块分别提取通道注意力图和位置注意力图,由于本发明提取两个注意力图的过程,共用了通道缩减层、分支提取层等结构,其计算量和所占用内存均大为减小,因此,本发明中,前景注意力模块结构更为紧凑,能够进一步提训练速度以及行人重识别的效率。

进一步地,通道缩减层将输入特征图的通道缩减至预设值,通过通道最大池化操作完成。

本发明的前景注意力模块通过通道最大池化操作缩减输入特征图的通道数,相比于传统的卷积操作,能够进一步减小计算量,提高训练速度和行人重识别的效率。

进一步地,纹理聚焦解码器包括依次连接的一个head结构、m个body结构以及一个tail结构;

head结构为1×1的卷积层;

body结构包括依次连接的2倍率上采样模块、3×3卷积层和多尺度残差模块;

tail结构为3×3的卷积层;

其中,m为正整数,所述纹理聚焦解码器的输出图像尺寸与所述待训练网络的输入图像尺寸相同。

进一步地,对待训练网络中的解码器部分进行训练时,标签图像为待训练网络的输入图像依次与高斯掩膜和注意力掩膜进行逐像素相乘后得到的图像;

损失函数包括l1损失和梯度损失,梯度损失同时包括了纹理聚焦解码器的输出图像与对应的标签图像在水平方向的纹理差异和在竖直方向的纹理差异;

其中,高斯掩膜由高斯核生成,注意力掩膜由前景注意力模块生成。

本发明中,纹理聚焦解码器的训练过程是处于半监督状态的;本发明对解码器部分进行训练时,所使用的损失函数在包含l1损失函数的基础上包含梯度损失,由此能够加速网络的收敛过程,并且由于梯度损失中同时包含输出图像与标签图像之间在水平方向和竖直方向上的纹理差异,在模型训练的过程中,随着网络参数的更新,梯度损失中的纹理差异会逐渐减小,从而能够确保输入图像与重建的输出图像之间的纹理一致性。

进一步地,梯度损失为:

其中,lgradient表示梯度损失,gh和gv分别表示水平方向梯度矩阵与竖直方向梯度矩阵,r指代标签图像,l指代纹理聚焦解码器的输出图像,表示标签图像的水平方向梯度矩阵,表示输出图像的水平方向梯度矩阵,表示标签图像的竖直方向梯度矩阵,表示输出图像的竖直方向梯度矩阵,||||1表示计算l1范数。

进一步地,对待训练网络中的非解码器部分进行训练时,损失函数包括交叉熵损失和三元组损失;

交叉熵损失由注意力分支输出的注意力特征所对应的交叉熵损失、全局分支输出的全局特征对应的交叉熵损失以及局部分支输出的局部特征对应的交叉熵损失加权求和得到;三元组损失由全局分支输出的全局特征对应的三元组损失和局部分支输出的局部特征对应的三元组损失加权求和得到。

进一步地,对待训练网络中的非解码器部分和解码器部分进行交替训练,包括:

以三个训练批次为一组,每一组的三个训练批次中,前两个训练批次用于对非解码器部分进行训练,后一个训练批次用于对解码器部分进行训练。

本发明采用上述方式按组对非解码器部分和解码器部分进行交替训练,能够获得最优的训练结果。

按照本发明的另一个方面,提供了一种行人重识别方法,包括:

将待识别视频图像输入由本发明提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型,得到待识别视频图像中行人的重识别特征,作为目标特征;

将目标特征与已识别的行人重识别特征进行匹配,以确定目标特征对应的行人身份,完成行人重识别。

由于本发明所提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型高效,且特征提取和表达能力都得到了提升,因此,基于该模型,本发明所提供的行人重识别方法具有更高的准确度和鲁棒性。

按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所属设备执行本发明提供的基于前景引导和纹理聚焦的行人重识别模型训练方法,和/或本发明提供的行人重识别方法。

总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:

(1)本发明在图像分类网络的基础上,引入了注意力分支和局部分支,其中的注意力分支用于输出侧重于表达行人判别性的注意力特征,局部分支用于输出侧重于表达行人属性的局部特征,且这两部分特征作为整体模型输出向量的一部分,增加了行人特征表达的多样性和可区分性,因此,本发明所建立的行人重识别模型是一种高效的网络,且特征提取和表达能力都得到了提升,能够有效提高行人重识别的鲁棒性和准确性。

(2)本发明在模型训练阶段,在基础网络中引入了纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响,有利于更进一步凸显行人的判别性特征,进一步提高行人重识别的鲁棒性和准确性。

(3)本发明中,前景注意力模块能够同时提取输入特征图的通道注意力图和位置注意力图,通过共用部分结果和中间特征图,计算量和所占用内存均大为减小,因此,本发明中,前景注意力模块结构更为紧凑,能够进一步提高训练速度以及行人重识别的效率。

(4)本发明对解码器部分进行训练时,所使用的损失函数在包含l1损失函数的基础上包含梯度损失,且该梯度损失中同时包含输出图像与标签图像之间在水平方向和竖直方向上的纹理差异,由此能够加速模型收敛,并保证输入图像与重建的输出图像之间的纹理一致性。

附图说明

图1为本发明实施例提供的基于前景引导和纹理聚焦的行人重识别模型建立方式示意图;

图2为本发明实施例提供的前景注意力模块结构示意图;

图3为本发明实施例提供的纹理聚焦解码器结构示意图;其中,(a)为head结构示意图,(b)为body结构示意图,(c)为tail结构示意图;

图4为本发明实施例提供的bottleneck结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

为了解决现有的行人重识别方法由于存在特征虚警的问题,其行人重识别的准确度和鲁棒性不高的技术问题,本发明提供了一种前景引导和纹理聚焦的行人重识别模型建立方法及其应用,其整体思路在于:以预训练的图像分类网络为基础网络,在其中引入注意力分支和局部分支,分别提取侧重于表达行人判别性的注意力特征和侧重于表达行人属性的局部特征,连同原来的全局分支输出的全局特征一起构成行人重识别特征,以增加行人特征表达的多样性和可区分性;同时在模型训练过程中,引入纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响。

本发明可使用任意一种预训练的图像分类网络作为基础网络,例如vgg、inceptionnet、resnet50、resnet101,等等;为便于描述,不失一般性地,以下实施例中,均以resnet50-fc512为基础网络,并且使用该网络在imagenet上的预训练权重来初始化网络参数,然后使用行人重识别数据集(如market1501、cuhk03和msmt7等)训练整体网络,建模行人有判别性的特征,实现精准的行人重识别。以下为实施例。

实施例1:

一种基于前景引导和纹理聚焦的行人重识别模型建立方法,如图1所示,包括:

以预训练的图像分类网络为基础网络,将基础网络的输出分支作为全局分支,在基础网络的最后一个特征层后引入包含bottleneck模块的局部分支,在基础网络的倒数第二个特征层后引入包含前景注意力模块的注意力分支和纹理聚焦解码器,得到待训练网络;前景注意力模块用于提取图像的注意力图,注意力分支用于输出侧重于表达行人判别性的注意力特征;局部分支用于输出侧重于表达行人属性的局部特征;纹理聚焦解码器用于对输入图像进行重建,得到带掩膜加权的图像;

以纹理聚焦解码器作为待训练网络的解码器部分,以全局分支、局部分支和注意力分支作为待训练网络的非解码器部分,对待训练网络中的非解码器部分和解码器部分进行交替训练,直至达到预设的训练终止条件;

在训练完成后,移除待训练网络中的纹理聚焦解码器,并加入特征输出层,得到基于前景引导和纹理聚焦的行人重识别模型;

其中,特征输出层用于将注意力分支、全局分支、局部分支输出的特征拼接为输入图像中行人的重识别特征。

作为一种可选的实施方式,本实施例中,基础网络为在imagenet上的预训练resnet50-fc512网络;resnet50-fc512网络共有五个特征层,依次表示为stage_1~state_5,相应地,本实施例中,在stage_5之后引入包含bottleneck结构的局部分支,在stage_4之后引入包含前景注意力模块的注意力分支和纹理聚焦解码器;

如图1所示,注意力分支中,前景注意力模块提取的注意力图经过全局平均池化后生成1024维的特征向量,即注意力特征;全局分支中,经过全局平均池化和全连接层后生成512维的特征向量,即全局特征;局部分支中,bottleneck结构输出的特征图经过全局最大池化和全连接层后生成1024维的特征向量,即局部特征;在非解码器部分的训练过程中,三个特征向量单独用于计算行人身份的训练损失;应当说明的是,此处相关的特征向量维度,仅为一种示例性的描述,不应理解为对本发明的唯一限定,在本发明其他的一些实施例中,特征向量的具体维数,也可能是其他取值。

为了使模型结构更为紧凑,进一步提高训练速度以及行人重识别的效率,作为一种优选的实施方式,本实施例中,前景注意力模块是一种紧凑的结构,其结构如图2所示,包括:通道缩减层、分支提取层、权重生成层、注意力图生成层以及通道恢复层;

通道缩减层,用于将输入特征图的通道缩减至预设值,得到第一特征图;以a和b分别表示输入特征图和第一特征图,如图2所示,a和b的尺寸分别是c×h×w和d×h×w,c、d分别表示通道数,h表示高度,w表示宽度;

分支提取层,用于提取第一特征图的序列分支、键值分支和值分支,并转换为对应的中间特征图,依次记为第二特征图、第三特征图和第四特征图;序列分支、键值分支和值分支分别如图2中的q、k、v所示,对应的中间特征图的尺寸分别为n×d、d×n和d×n,提取第一特征图的序列分支、键值分支和值分支,具体可通过1×1卷积操作完成;

权重生成层,用于对第二特征图和第三特征图执行矩阵乘法和softmax操作,分别得到通道权重矩阵和位置权重矩阵,即图2中的矩阵x和s,维度分别为d×d和n×n;通道权重矩阵中记录了各通道的权重系数,位置权重矩阵中记录了各位置的权重系数;

注意力图生成层,用于将第四特征图分别与通道权重矩阵和位置权重矩阵进行矩阵乘法和尺寸变换,得到通道注意力图和位置注意力图,即图2中的ca和pa,并将通道注意力图、位置注意力图和第一特征图进行逐像素相加,得到待恢复的注意力图;

通道恢复层,用于将待恢复的注意力图的通道数恢复至与输入特征图相同,得到注意力图;

图2所示的前景注意力模块能够同时提取输入特征图的通道注意力图和位置注意力图,相比于传统的方法中,利用两个注意力模块分别提取通道注意力图和位置注意力图,由于本实施例提取两个注意力图的过程,共用了通道缩减层、分支提取层等结构,其计算量和所占用内存均大为减小,能够进一步提高训练速度以及行人重识别的效率;

为了进一步减小计算量,本实施例中,通道缩减层将输入特征图的通道缩减至预设值,通过通道最大池化操作完成;

作为一种可选的实施方式,如图1所示,本实施例中,纹理聚焦解码器包括依次连接的一个head结构、m个body结构以及一个tail结构;

head结构为1×1的卷积层,如图3中的(a)所示;

body结构包括依次连接的2倍率上采样模块、3×3卷积层和多尺度残差模块,如图3中的(b)所示;

tail结构为3×3的卷积层,如图3中的(c)所示;

其中,m为正整数,所述纹理聚焦解码器的输出图像尺寸与所述待训练网络的输入图像尺寸相同;由于每个body结构都会对输入其中的图像进行2倍率上采样,m的取值需要根据纹理聚焦解码器的输入特征图和整体模型的输入图像的尺寸确定,以确保纹理聚焦解码器的输出图像尺寸与所述待训练网络的输入图像尺寸相同;

如图1所示,本实施例中,对待训练网络中的解码器部分进行训练时,标签图像为待训练网络的输入图像依次与高斯掩膜和注意力掩膜进行逐像素相乘后得到的图像;其中,高斯掩膜由高斯核生成,注意力掩膜由前景注意力模块生成;

本实施例中,解码器部分训练的损失函数包括l1损失和梯度损失,梯度损失同时包括了纹理聚焦解码器的输出图像与对应的标签图像在水平方向的纹理差异和在竖直方向的纹理差异;

l1损失表示为:

其中,ll1表示l1损失,(m,n)表示像素位置;

梯度损失表示为:

其中,lgradient表示梯度损失,gh和gv分别表示水平方向梯度矩阵与竖直方向梯度矩阵,r指代标签图像,l指代纹理聚焦解码器的输出图像,表示标签图像的水平方向梯度矩阵,表示输出图像的水平方向梯度矩阵,表示标签图像的竖直方向梯度矩阵,表示输出图像的竖直方向梯度矩阵,||||1表示计算l1范数;gh和gv分别表示为:

其中,ii(x,y)、ii(x+1,y)和ii(x,y+1)分别表示某一图像的位置坐标为(x,y)时的像素值、位置坐标为(x+1,y)时的像素值和位置坐标为(x,y+1)时的像素值;

本实施例中,纹理聚焦解码器的训练过程是处于半监督状态的;本实施例对解码器部分进行训练时,所使用的损失函数在包含l1损失函数的基础上包含梯度损失,由此能够加速网络的收敛过程,并且由于梯度损失中同时包含输出图像与标签图像之间在水平方向和竖直方向上的纹理差异,在模型训练的过程中,随着网络参数的更新,梯度损失中的纹理差异会逐渐减小,从而能够确保输入图像与重建的输出图像之间的纹理一致性;

本实施例,对待训练网络中的非解码器部分进行训练时,损失函数包括交叉熵损失和三元组损失;

交叉熵损失由注意力分支输出的注意力特征所对应的交叉熵损失、全局分支输出的全局特征对应的交叉熵损失以及局部分支输出的局部特征对应的交叉熵损失加权求和得到;三元组损失由全局分支输出的全局特征对应的三元组损失和局部分支输出的局部特征对应的三元组损失加权求和得到;

交叉熵损失表示为:

其中,lce表示交叉熵损失,n和c分别表示样本数和类别数,θ是分类层权重参数,b是偏置,y表示类别向量;

三元组损失表示为:

其中,ltriplet表示三元组损失,“hardestpositive”和“hardestnegative”分别表示相同身份特征之间的最大距离和不同身份特征之间的最小距离,p和k分别表示一个小批次中的行人身份数和实例数,fa,fp,fn分别表示锚、正例和反例特征,e是类内距离和类间距离之间的边缘下限,||||2表示计算l2范数;[]+表示[]内的值大于零的时候,取该值,小于等于零的时候,取零。

本实施例中,对待训练网络中的非解码器部分和解码器部分进行交替训练,包括:

以三个训练批次为一组,每一组的三个训练批次中,前两个训练批次用于对非解码器部分进行训练,后一个训练批次用于对解码器部分进行训练;

为便于计算,可将整个训练过程的损失函数表示为:

l=λ1lce+λ2ltriplet+λ3lgradient+λ4ll1;

其中,l表示整体损失函数,λ1、λ2、λ3和λ4是权重参数;在非解码器部分训练过程中,λ3和λ4为0;在解码器部分训练过程中,λ1和λ2为0;可选地,在本实施例中,在非解码器部分训练过程中,λ1、λ2、λ3和λ4分别设置为1、0.1、0和0,在解码器部分训练过程中,λ1、λ2、λ3和λ4分别设置为0,0,1和1,以保证行人重识别任务和重建任务不会发生冲突,并且每项损失在一个数量级内;

实验表示,采用上述方式按组对非解码器部分和解码器部分进行交替训练,能够获得最优的训练结果;应当说明的是,此处的交替训练方式仅为本发明优选的实施方式,不应理解为对本发明的唯一限定,在本发明其他的实施例中,也可以使用其他的交替训练方式对解码器部分和非解码器部分进行交替训练。

本实施例中,所使用的bottleneck结构如图4所示,具体包括依次连接的三个模块,第一个模块包括依次连接的1×1卷积层、批量归一化层和relu层,第二个模块包括依次连接的3×3卷积层、批量归一化层和relu层,第三个模块包括依次连接的1×1卷积层、批量归一化层和relu层。

根据实际应用需求,在模型训练过程中,预设的训练终止条件可以是预设的迭代次数或者预设的精度要求等。

总体而言,本实施例在图像分类网络的基础上,引入了注意力分支和局部分支,其中的注意力分支用于输出侧重于表达行人判别性的注意力特征,局部分支用于输出侧重于表达行人属性的局部特征,且这两部分特征作为整体模型输出向量的一部分,增加了行人特征表达的多样性和可区分性,因此,本实施例所建立的行人重识别模型是一种高效的网络,且特征提取和表达能力都得到了提升,能够有效提高行人重识别的鲁棒性和准确性;本实施例在模型训练阶段,在基础网络中引入了纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响,有利于更进一步凸显行人的判别性特征,进一步提高行人重识别的鲁棒性和准确性。

实施例2:

一种行人重识别方法,包括:

将待识别视频图像输入由上述实施例1提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型,得到待识别视频图像中行人的重识别特征,作为目标特征;

将目标特征与已识别的行人重识别特征进行匹配,以确定目标特征对应的行人身份,完成行人重识别。

由于上述实施例1所提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型高效,且特征提取和表达能力都得到了提升,因此,基于该模型,本实施例所提供的行人重识别方法具有更高的准确度和鲁棒性。

实施例3:

一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所属设备执行上述实施例1提供的基于前景引导和纹理聚焦的行人重识别模型训练方法,和/或上述实施例2提供的行人重识别方法。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1