本发明属于计算机视觉与模式识别技术领域,具体涉及一种混合可变形卷积的行人再识别方法。
背景技术:
近年来,随着摄像机的广泛应用普及,极大地推动了计算机视觉技术的发展,在视觉目标检测、跟踪技术的发展基础之上,跨摄像机的行人再识别技术可以在多个摄像机之间识别出不同时空出现的同一行人,成为实现行人行为轨迹分析和事件分析等后续工作的基础。我国平安城市建设发展迅速,目前已初步完成了覆盖城镇的视频监控网,监控镜头超2500万个。但是,实际中多数监控视频无法拍到可辨识的人脸图像,当行人通过多个摄像机无交叉覆盖的视域时,如何只依靠行人的身体部分进行跨摄像机的“再识别”是一个需求迫切的科学问题。该问题的解决有利于通过监控视频追捕犯罪分子、维护小区治安、调查客户兴趣等。但是,由于光照变化、拍摄视角、遮挡模糊、相似着装、肢体形变,以及目标检测的不精确,使得行人再识别成为一项极具挑战性的任务。
行人再识别的核心就是匹配跨摄像机拍摄的行人图像,重点关注于行人图像的特征表示。2014年之前,行人再识别技术主要由人工来设计特征表示,效果较差;此后,研究者开始转向利用深度学习实现特征表示,大幅度提高了行人再识别的精度。目前,行人再识别主流方法都是基于标准卷积神经网络,由于标准卷积操作本身具有固定的几何结构,而由其层叠搭建而成的卷积神经网络的几何结构也是固定的,因此标准卷积神经网络缺乏对行人非刚体形变的建模和适应能力。
技术实现要素:
为了克服行人再识别中标准卷积操作存在的不足,本发明构建一种混合可变形卷积的行人再识别方法,该方法在标准卷积的基础上混合使用可变形卷积操作。不同于标准卷积中卷积核在规则格点上采样,可变形卷积通过对卷积核中每个采样点的位置增加一个偏移变量,实现了在规则格点位置附近随意采样的能力,克服了标准卷积缺乏对几何形变建模的适应能力的问题。
为实现上述目的,本发明采用以下技术方案:
一种混合可变形卷积的行人再识别方法,其特征在于,包括如下步骤:
步骤一:构建一个行人再识别训练数据集,所述训练数据集包含跨摄像机采集的、预设数量的行人图像;
步骤二:基于标准卷积和可变形卷积构建行人再识别特征抽取网络,所述特征抽取网络具有多个分支,可以对给定的行人图像抽取预设维度的特征向量;
步骤三:针对每个网络分支,分别构造多类逻辑斯特回归分类目标函数;
步骤四:利用所采集的训练数据集训练特征抽取网络,获得网络模型参数;
步骤五:采用训练好的网络,对跨摄像机拍摄的行人图像提取特征向量;
步骤六:计算跨摄像机行人特征向量之间的相似度,并根据相似度大小排序实现跨摄像机识别行人。
为优化上述技术方案,采取的具体措施还包括:
优选地,步骤一具体包括如下步骤:
同一行人先后经过多个摄像机时,分别获取该行人在各个摄像机视频中的行人图像;
将行人图像缩放至固定大小,并统一图像格式保存;
对跨摄像机采集的同一行人图像,人工标注类别,并赋予一个唯一的编号;
当训练数据集中行人数目达到预设数量时,停止收集数据。
优选地,步骤二具体包括如下步骤:
针对标准卷积神经网络(如resnet网络)的网络高层,复制对应结构和参数,构造一个新的网络分支;
采用可变形卷积替换新复制的网络分支中的标准卷积,得到混合可变形卷积和标准卷积的特征抽取网络;
混合可变形卷积和标准卷积的特征抽取网络具有两个独立的网络分支,分别对应标准卷积分支和可变形卷积分支;
对给定的一幅行人图像,两个网络分支可独立抽取预设维度为d的特征向量。
优选地,步骤三具体包括如下步骤:
针对各网络分支,先构造一个特征映射层,将d维特征向量映射到一个新向量f,该新向量的维度等于训练数据集中行人个数;
基于新向量f,构造网络的多类逻辑斯特回归目标函数:
其中,b表示输入行人的图像个数,c表示待分类的目标类别个数,ii表示输入行人图像,yi表示ii的真实标签且数值取自于集合{1,2,...,c},yi是j中的一个,f(ii)表示经特征提取网络得到的特征向量,
优选地,步骤四具体包括如下步骤:
对训练数据集中的样本数据进行随机排序,每次读取固定数量的图像作为网络输入;
对图像进行数据增广操作,包括水平翻转、随机噪声、随机擦除、随机切块等变换,并统一缩放大小;
批量输入数据进入混合可变形卷积和标准卷积的特征抽取网络后逐层进行前向计算,至多类逻辑斯特回归目标函数时,计算目标函数l相对权重参数
训练过程中,随着迭代次数的增加,逐步降低学习率,并在达到最大迭代次数时终止训练,得到网络模型参数,由于网络模型参数已经训练完成,故该网络模型可直接用于抽取一副行人图像的特征向量。
优选地,步骤五具体包括如下步骤:
将跨摄像机拍摄的行人图像缩放到预设大小,作为网络模型的输入图像;
将输入图像输入已训练的网络模型,经前向计算后,各分支输出特征向量fk,k∈(1,2},将两个分支的特征拼接起来,得到最终特征向量f=[f1,f2]。
优选地,步骤六具体包括如下步骤:
计算跨摄像机行人特征向量之间的相似度s=cos(f1,f2);
根据相似度大小对所有结果排序,对于排序第一的结果,若相似度值大于预设阈值,则判定为同一个行人。
本发明的有益效果是:在标准卷积神经网络的基础上,对网络高层进行结构和参数复制,并采用可变形卷积代替标准卷积,形成两个分支的混合网络,最终构建混合可变形卷积的行人再识别网络。该网络可根据训练数据集训练模型参数,并利用各个分支计算输出行人图像的特征,最终特征由各分支特征拼接得到。该方法在标准卷积基础上加入了可变形卷积,具备对行人非刚体形变的建模和适应能力。
附图说明
图1为本发明提供的混合可变形卷积的行人再识别方法的流程示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如图1所示,本发明提供一种混合可变形卷积的行人再识别方法,包括以下步骤:
步骤s1:构建一个行人再识别训练数据集,训练数据集包含跨摄像机采集的、预设数量的行人图像。
在本实施方式中,为了构建行人再识别训练数据集,首先选择多个不存在拍摄场景交叠的摄像机,当同一行人先后经过多个摄像机时,可分别获取该行人在各个摄像机视频中的行人图像。行人图像可根据视频运动目标检测算法,如背景差法和行人检测器,得到仅包括单个行人的图像。接着,将行人图像缩放至预设大小,如256像素×128像素,并统一将行人图像保存为无损压缩的png格式。对跨摄像机采集的一组同为一个行人的图像,人工为该组图像标注类别,并赋予一个唯一的编号。最后,当数据集中行人数目达到预设数量时,停止收集数据。
该步骤中,训练数据集中每个行人采集的图像个数不少于预设张数,如10张。同时,每张图像尽可能跨摄像机,以保持同一行人类内具有较大的差异性。这种差异性主要来自于拍摄视角,也可以体现在光照变化、遮挡背景等方面。训练数据集中不同行人的个数应该足够多,以便适应实际应用开发的需要,保证所训练模型的鲁棒性。
步骤s2:基于标准卷积和可变形卷积构建行人再识别特征抽取网络,特征抽取网络具有多个分支,可以对给定的行人图像抽取预设维度的特征向量。
在本实施方式中,为构建混合标准卷积和可变性卷积的网络,首先基于一个标准卷积神经网络(以下以resnet50网络为例),复制网络高层(如res5a~res5c)对应结构和参数,构造一个新的网络分支,这样网络res5a~res5c具有两个分支,两个分支在res5a前共享所有网络结构和参数;然后采用可变形卷积替换新复制的网络分支中的标准卷积,这样就得到了混合可变形卷积和标准卷积的行人再识别特征抽取网络;在特征抽取网络中,两个独立的网络分支分别对应标准卷积分支和可变形卷积分支;最后对给定的一幅行人图像,两个网络分支可独立抽取预设维度为d的特征向量。
该步骤中,可变形卷积是核心,其计算由多个传统标准卷积操作完成。实际中,以res5x为例,仅对其中3×3卷积核大小的标准卷积替换为可变形卷积。具体过程为:构造一个标准卷积产生一个通道数为27维的卷积结果,其中前18维用于每个点周围3×3的x坐标和y坐标的偏移量,而另外9维用于表示每个点偏移的权重,权值可通过一个sigmoid函数映射到[0,1],根据这些数值对原始输入进行变换,变形后结果再输入标准卷积,上述过程描述了可变形卷积的具体实现过程。上述过程可直接设计为一个独立的网络层,构造前向和反向计算过程,支持整个网络端到端的学习训练。
该步骤中,混合标准卷积和可变形卷积,实现了对输入图像的差异性描述,两条分支具有异构互补属性,不同于现有的同构多分支网络,混合异构分支能够提升网络模型表示的多样性。
该步骤中,对于输入的一幅行人图像,两个分支经前向计算各得到一个三维张量结果,为了有效描述行人图像,对张量的每个通道进行全局均值池化,得到两个2048维的特征向量,该向量维度较高,不利于实际存储和计算,采用一个1×1的卷积操作,将特征降至d维,d取值可以为512、256或128等。
步骤s3:针对网络的每个分支,分别构造多类逻辑斯特回归分类目标函数。
在本实施方式中,针对各网络分支,先构造一个特征映射层,将d维特征向量映射到一个新向量f,该新向量的维度等于训练数据集中行人个数;
基于新向量f,构造网络的多类逻辑斯特回归目标函数:
其中,b表示输入行人的图像个数,c表示待分类的目标类别个数,ii表示输入行人图像,yi表示ii的真实标签且数值取自于集合{1,2,...,c},yi是j中的一个,f(ii)表示经特征提取网络得到的特征向量,
步骤s4:利用所采集的训练数据集训练行人再识别网络,获得网络模型参数。
在本实施方式中,为了保证训练过程中学习样本的随机性,对训练数据集中的样本数据进行随机排序,然后依次读取固定数量的行人图像作为网络输入,固定数量的行人图像对应一个批量的输入,通常数量为16或32。由于跨摄像机采集和标注行人图像工作量大,为了增加样本的多样性,对行人图像进行数据增广操作,包括水平翻转、随机噪声、随机擦除、随机切块等变换,并统一缩放至预设大小,数据增广能有效提高模型学习的泛化能力。
批量输入数据进入混合可变形卷积和标准卷积的特征抽取网络后逐层进行前向计算,至多类逻辑斯特回归目标函数时,计算目标函数l相对权重参数
步骤s6:计算跨摄像机行人特征向量之间的相似度,并根据相似度大小排序完成行人再识别任务。
在本实施方式中,计算跨摄像机行人特征向量之间的相似度可采用余弦相似度完成,具体公式s=cos(f1,f2),然后根据相似度大小对所有结果排序,对于排序第一的结果,若相似度值大于预设阈值,则判定为同一个行人,否则判定为不同行人。
该步骤中,预设阈值的设定主要来自于经验数据的分析和计算,具体可采用一个独立的验证集进行阈值参数的调整,寻找最优的阈值作为预设阈值。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。