本发明涉及计算机视觉技术领域,尤其涉及一种基于行人区域特征提取和重识别融合模型网络及方法。
背景技术:
作为图像理解和计算机视觉的基石,目标检测构成了解决更复杂或更高级视觉任务的基础,例如分割,场景理解,对象跟踪,图像捕获,事件检测和活动识别等。目标检测在人工智能和信息技术的许多领域具有广泛的应用,包括机器人视觉,消费电子,安全,自动驾驶,人机交互,基于内容的图像检索,智能视频监控和虚拟现实。
行人重识别(reid)是指从不同摄像机捕获的行人图像中识别这个行人的身份。给定包含目标行人(查询)的图像,reid系统尝试从大量行人图像(图库)中搜索包括相同行人的图像。reid因其广泛的应用潜力,例如视频监控和交叉相机跟踪而受到学术界和工业界的极大关注。然而,由于大量不受控制的变化源,例如姿势和视点的显着变化,照明的复杂变化以及较差的图像质量,reid仍然是一项非常具有挑战性的任务。
现有的行人重识别应用,需要首先对场景中的行人进行目标检测,通常可以使用fasterrcnn以及yolo等检测器,获取到场景中的行人框图后,再从场景图片中截取行人图片,再输入行人重识别网络进行特征提取。而这些步骤中一共使用了2个完整的深度卷积神经网络,一共包含了2个深层的主干网络提取特征图,会消耗大量的计算资源和时间,导致整个模型网络的识别周期加长,而在真正应用过程中对行人的行为及时准确的做出识别判断是非常重要的。
技术实现要素:
本发明的目的在于克服现有技术的不足,提供一种基于行人区域特征提取和重识别融合模型网络及方法,通过一个深度卷积神经网络即可达到目的,解决了现目前通过采用两个深度卷积神经网络所存在的问题。
本发明的目的是通过以下技术方案来实现的:一种基于行人区域特征提取和重识别融合模型网络,它包括:
区域提取模块:用于根据全局特征图搜索行人出现的区域,并从中生成提取区域,以获得行人目标的检测结果并对这些提取区域的特征进行收集和整合处理。
所述模型网络还包括骨干网络模块和行人重识别模块;所述骨干网络模块对输入的原图进行预处理得到全局特征图后输入到所述区域提取模块;所述行人重识别模块根据所述区域提取模块的输出结果进行特征提取,并根据场景中行人的不同特征识别出行人目标的行为。
所述区域提取模块包括行人区域特征选择单元和行人特征提取单元;
所述行人特征选择单元用于根据所述骨干网络模块输出的全局特征图搜索预测有行人的区域,并对行人区域进行框图标注和筛选以及区域特征提取,得到局部区域特征图;
所述行人区域特征提取单元对多个局部区域特征图进行合并以及3×3卷积操作处理,得到特征向量输入到所述行人重识别模块。
所述行人区域特征选择单元包括有框图预测全连接层、置信度全连接层、目标筛选层和区域特征图提取层。
所述行人特征提取单元包括变形、第一标识块、第二标识块、第三标识块、roipool操作和特征映射。
在模型网络建立好后通过采用知识蒸馏的训练策略对模型网络进行训练。
一种基于行人区域特征提取和重识别融合模型网络的融合方法,所述融合方法包括区域提取特征图进行目标检测步骤;所述区域提取特征图进行目标检测步骤包括以下内容:
使用填充为1的3×3卷积层变换区域特征提取模块的输出,并将输出通道数记为c;
将区域特征提取模块为图像提取的特征图中的每个单元赋予一个长度为c的新特征;
以特征图每个单元为中心,生成多个不同大小和宽高比的锚框;
用锚框中心单元长度为c的特征分别预测该锚框的二元类别和边界框;
使用非极大值抑制从预测类别为目标的预测边界框中移除相似的结果,输出提取区域。
所述融合方法还包括通过骨干网络模块对原图进行预处理的步骤,以及通过行人重识别模块对场景中行人的不同特征识别出行人目标的行为的步骤;
所述通过骨干网络模块对原图进行预处理的步骤位于所述区域提取特征图进行目标检测步骤之前;
所述行人重识别模块对场景中行人的不同特征识别出行人目标的行为的步骤位于所述区域提取特征图进行目标检测步骤之后。
在通过行人区域特征提取和重识别融合模型网络进行所述融合方法之前,还需要对建立好的行人区域特征提取和重识别融合模型网络进行训练。
采用知识蒸馏的训练策略对行人区域特征提取和重识别融合模型网络进行训练,具体的训练步骤如下:
输入一个批次的场景图片进入cpu端作为网络的输入,骨干网络模块提取特征图,区域提取模块给出行人可能出现的框图位置和大小信息,并保存给出的行人框图位置和大小信息作为训练网络输出的一部分;
行人重识别模块进一步提取行人特征,并且和区域提取模块输出的行人框图位置和大小信息联级作为网络输出;
当数据返回cpu端后转换区域提取模块行人框图位置和大小信息到原场景图的尺度,并根据框图信息在原场景图中截取每一个行人的图片并转换行人图片到固定尺度大小;
输入截取的行人图片到教师网络提取每个行人图片的特征,作为行人重识别模块的标签;
把网络的输出值和目标值输入loss函数进行反向传播,并更新网络参数权重和偏差。
本发明的有益效果是:一种基于行人区域特征提取和重识别融合模型网络及方法,通过一个深度卷积神经网络即可实现对行人特征的提取和识别,并通过区域特征的提取避免了在原场景图片中对行人图片的截图、存储和预处理操作,使得整体网络处理速度更加快速,整体网络模型体积更小,能够部署到硬件条件更低的环境中。
附图说明
图1为网络的整体结构图;
图2为网络的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1和图2所示,一种基于行人区域特征提取和重识别融合模型网络,它包括:
区域提取模块:用于根据全局特征图搜索行人出现的区域,并从中生成提取区域,以获得行人目标的检测结果并对这些提取区域的特征进行收集和整合处理。
所述模型网络还包括骨干网络模块和行人重识别模块;所述骨干网络模块对输入的原图进行预处理得到全局特征图后输入到所述区域提取模块;所述行人重识别模块根据所述区域提取模块的输出结果进行特征提取,并根据场景中行人的不同特征识别出行人目标的行为。
进一步地,骨干网络模块依次包括残差初始块、残差网络第一层组、残差网络第二层组和残差网络第三层组;实现对输入的原场景图进行预处理。
进一步地,基于resnet50的骨干网络模块提取特征图的内容包括,将摄像设备采集的原场景图(格式为1920×1080×3)输入到骨干网络模块中进行预处理后,输出大小为h×w×1024维度的特征图,其中h代表特征图的高,w代表特征图的宽,根据输入图片的分辨率大小,h和w会不同。
所述区域提取模块包括行人区域特征选择单元和行人特征提取单元;
进一步地,行人特征选择单元用于根据所述骨干网络模块输出的全局特征图搜索预测有行人的区域,并对行人区域进行框图标注和筛选以及区域特征提取,得到局部区域特征图;
行人区域特征提取单元对多个局部区域特征图进行合并以及3×3卷积操作处理,得到特征向量输入到所述行人重识别模块。
所述行人区域特征选择单元包括有框图预测全连接层、置信度全连接层、目标筛选层和区域特征图提取层;
进一步地,框图预测全连接层用于预测全局特征图中有行人的区域并进行框图标注;置信度全连接层用于对应每个框图有行人的几率大小;
目标筛选层用于筛选掉框图大小小于阈值的框图;阈值为长32像素或者宽16像素;
区域特征图提取层用于根据框图的位置和大小信息,在全局特征上进行roialign操作(特征裁剪和整合),得到6×8×1024的特征图。
所述行人特征提取单元包括变形、第一标识块、第二标识块、第三标识块、roipool操作和特征映射;
进一步地,变形用于将所述行人特征选择单元输出的多个局部区域特征图进行合并;第一标识块、第二标识块和第三标识块用于对合并后的特征图进行3×3卷积操作处理;roipool操作用于将进行3×3卷积操作处理后的特征图转换为1×1×1024的特征向量;特征映射用于对特征向量进行映射,使得输出特征与教师网络输出特征一致。
在模型网络建立好后通过采用知识蒸馏的训练策略对模型网络进行训练。
进一步地,知识蒸馏策略为:引入与教师网络(teachernetwork:复杂、但推理性能优越)相关的软目标(soft-target)作为totalloss的一部分,以诱导学生网络(studentnetwork:精简、低复杂度)的训练,实现知识迁移(knowledgetransfer)。主要是在teacher-student框架中,将复杂、学习能力强的网络学到的特征表示“知识”蒸馏出来,传递给参数量小、学习能力弱的网络。蒸馏可以提供student在one-shotlabel(一次性标签)上学不到的softlabel信息,这些里面包含了类别间信息,以及student小网络学不到而teacher网络可以学到的特征表示“知识”,所以一般可以提高student网络的精度。
一种基于行人区域特征提取和重识别融合模型网络的融合方法,所述融合方法包括区域提取特征图进行目标检测步骤;所述区域提取特征图进行目标检测步骤包括以下内容:
s21、使用填充为1的3×3卷积层变换区域特征提取模块的输出,并将输出通道数记为c;
s22、将区域特征提取模块为图像提取的特征图中的每个单元赋予一个长度为c的新特征;
s23、以特征图每个单元为中心,生成多个不同大小和宽高比的锚框;
s24、用锚框中心单元长度为c的特征分别预测该锚框的二元类别(目标和背景)和边界框;
s25、使用非极大值抑制从预测类别为目标的预测边界框中移除相似的结果,输出提取区域。
所述融合方法还包括通过骨干网络模块对原图进行预处理的步骤s1,以及通过行人重识别模块对场景中行人的不同特征识别出行人目标的行为的步骤s3;
进一步地,通过骨干网络模块对原图进行预处理的步骤位于所述区域提取特征图进行目标检测步骤之前;行人重识别模块对场景中行人的不同特征识别出行人目标的行为的步骤位于所述区域提取特征图进行目标检测步骤之后。
进一步地,行人重识别模块使用多个1×1卷积层变换特征向量的输出,最终的输出特征向量为256维。
在通过行人区域特征提取和重识别融合模型网络进行所述融合方法之前,还需要对建立好的行人区域特征提取和重识别融合模型网络进行训练。
进一步地,区域提取模块是和整个模型一起训练的,因为目标检测数据集中不含有行人个体的标注,无法直接使用目标检测数据集进行行人重识别的训练,为了训练行人重识别模块,采用知识蒸馏的训练策略对行人区域特征提取和重识别融合模型网络进行训练。
首先使用行人重识别数据集如dukemtmc和market1501数据集训练教师网络;训练好教师网络后,再对整体网络进行训练,其中使用的数据集为目标检测数据集,同时为了提高行人重识别的准确率,数据集中引入了一定数量的行人重识别数据集图片,并且做了填充等预处理。
进一步地,整体网络的具体训练步骤如下:
输入一个批次的场景图片进入cpu端作为网络的输入,骨干网络模块提取特征图,区域提取模块给出行人可能出现的框图位置和大小信息,并保存给出的行人框图位置和大小信息作为训练网络输出的一部分;
行人重识别模块进一步提取行人特征,并且和区域提取模块输出的行人框图位置和大小信息联级作为网络输出;
当数据返回cpu端后转换区域提取模块行人框图位置和大小信息到原场景图的尺度,并根据框图信息在原场景图中截取每一个行人的图片并转换行人图片到固定尺度大小;不齐的地方按照0填充;
输入截取的行人图片到教师网络提取每个行人图片的特征(此特征同样为256维),作为行人重识别模块的标签;
把网络的输出值和目标值输入loss函数进行反向传播,并更新网络参数权重和偏差。
进一步地,整个网络的损失函数由两部分构成,分别是计算目标检测的回归框损失rpnbboxloss和计算行人重识别的特征距离损失l1_loss,其中,
公式中n是一个batch的大小,比如32,λ是两种loss的平衡比例,pbox为区域建议网络rpn给出的行人预测框,tbox为场景图片中真实的行人框;preid为行人重识别模块预测的行人特征,treid为教师网络计算出来的行人特征。其中,
lreg({p},{t})=-log[p1t1+(1-p1)(1-t1)]+p1l1(p*,t*)
公式中前半部分为前景和背景的对数损失,p1为预测前景概率,t1为目标前景概率,p*为区域提取模块rpn的输出预测框,分别由如下部分组成;
{dx(a),dy(a),dw(a),dh(a),}
分别代表一个预测框的中心位置,以及预测框的长宽缩放比例。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。