一种基于可微图学习的行人重识别模型的弱监督训练方法与流程

文档序号:24038134发布日期:2021-02-23 15:43阅读:157来源:国知局
一种基于可微图学习的行人重识别模型的弱监督训练方法与流程

[0001]
本发明涉及机器视觉技术领域,更具体地,涉及一种基于可微图学习的行人重识别模型的弱监督训练方法。


背景技术:

[0002]
目前,行人重识别问题主要有三种实现方法:(1)提取判别特征;(2)学习一个稳定的度量或子空间进行匹配;(3)联合上述两种方法。然而,大部分实现方法需要强监督训练标签,即需要人工标注数据集每张图片。此外有不需要人工标注的基于无监督学习的行人重识别方法,使用局部显著性匹配或聚类模型,但很难建模跨摄像机视图的显著差异,因此很难达到高精度。相比之下,本发明提出的弱监督行人重识别方法是一种优秀的训练方法,不需要昂贵的人工标注成本也能达到较高的精度。
[0003]
弱监督学习:尽管用弱监督方法训练深度神经网络是一个挑战性问题,其已被少量研究用于解决某些任务,如图片分类、语义分割和目标检测。类似这些研究,本发明也基于伪标签的生成,但弱监督行人重识别任务有两个的特点:(1)无法找到每个行人个体的代表性图像,因为人们会在短时间内更换衣服,因此标签不明确;(2)熵比其他任务大,例如弱监督语义分割任务中图像的像素有一定的稳定性,而行人重识别任务中的行人更加无序和不规则。上述两个特点提高了弱监督行人重识别的难度。
[0004]
不确切标签学习:其中单样本行人重识别与本发明最相关,但有两个不同:(1)单样本行人重识别的每个行人类别都需要至少一张图片实例,而本方法的数据集不需要准确的行人类别标签;(2)本发明引入袋类别标签作为限制引导伪行人类别标签的估计,确保比单样本行人重识别生成更可靠的伪标签。
[0005]
行人搜索:结合行人检测和行人重识别的过程。本发明与其有两个主要区别:(1)本发明仅关注视觉特征匹配,因为目前的人物检测器的能力足够胜任;(2)本发明得益于代价低廉的弱标注,而行人搜索的每张训练图片依然需要强标注。
[0006]
申请号为201710487019.7公开了一种使用深度生成机器学习模型的图像质量评分方法,该方法对于对来自医学扫描仪的图像进行图像质量评分,可使用深度机器学习来创建预期好质量图像的生成模型。输入图像离生成模型的偏差被用作对于判别模型的输入特征向量;判别模型还可以对从输入图像导出的另输入特征向量进行操作。基于这些。然而,该专利无法实现直接将图学习表示成一个对网络参数可微的损失函数,使其能用随机梯度下降的方法优化,实现图模型和行人重识别模型的一体训练。


技术实现要素:

[0007]
本发明提供一种基于可微图学习的行人重识别模型的弱监督训练方法,该方法实现为行人重识别深度神经网络加入自动生成训练标签的模块并与其一体训练,降低了算法复杂程度。
[0008]
为了达到上述技术效果,本发明的技术方案如下:
[0009]
一种基于可微图学习的行人重识别模型的弱监督训练方法,包括以下步骤:
[0010]
s1:将行人图片按拍摄时间段分组成袋并分配袋类别标签;
[0011]
s2:捕获每一个袋中所有图片之间的依赖关系,来为该类别的袋中每张图片生成可靠的伪行人类别标签,作为行人重识别模型训练的监督信息;
[0012]
s3:进行行人重识别模型和图模型的一体训练;
[0013]
s4:将图模型损失和重识别损失的线性组合作为总损失函数,利用反向传播算法更新网络所有层的参数。
[0014]
进一步地,所述步骤s1的具体过程是:
[0015]
用b表示包含p张图片的一个袋,即b=x1,x2,

,x
j
,

,x
p
,y=y1,y2,

,y
j
,

,y
p
为行人类别标签,用l表示袋类别标签。
[0016]
进一步地,其特征在于,所述步骤s2的过程是:
[0017]
若弱监督行人重识别只有袋类别标签l可用,需要先为每张图片估计一个伪行人类别标签,用一个概率向量y表示;假设l类别标签下的袋中包含n个行人类别,整个训练集共有m个行人类别,用袋类别标签限制y,则每张图片x
j
的行人类别标签的概率向量为:
[0018][0019]
进一步地,所述步骤s3的过程是:
[0020]
定义一个有向图,每个节点代表一个袋中的一张图片x
i
,每条边代表图片之间的关系,在图上为节点x分配行人类别标签y的能量函数为:
[0021][0022]
其中u和v分别表示节点和边,φ(y
i
|x
i
)是计算为图片x
i
分配标签y
i
的代价的一元项,ψ(y
i
,y
j
|x
i
;x
j
)是计算为图片对(x
i
,x
j
)分配标签的惩罚的成对项,公式(2)消除了弱监督学习生成的错误的伪标签;
[0023]
公式(2)中的一元项定义为:
[0024]
φ(y
i
|x
i
)=-log(y
i
[y
i
]),其中
[0025]
其中p
i
是神经网络为图片x
i
计算的行人类别标签的概率,y
i
是公式(1)表示的袋限制,表示逐元素乘积,[
·
]表示向量索引;
[0026]
由于不同图片的一元项输出相互独立,一元项不稳定,需要用成对项平滑:
[0027][0028]
其中用一个基于rgb颜色的高斯核计算外表相似度,超参数σ控制高斯核的尺寸,限制外表相似的图片有相同的标签;标签兼容度ζ(y
i
,y
j
)用玻茨模型表示:
[0029][0030]
进一步地,袋类别标签含有额外信息改善伪标签的生成:将估计的伪标签纠正为袋中预测分数最高的行人分类;促使部分图片被分配到没有被预测的行人类别;通过最小化公式(2)可以得到每张图片的伪行人类别标签:
[0031][0032]
其中{1,2,3,

,m}表示训练集中所有的行人类别。
[0033]
进一步地,步骤s3中,在进行行人重识别模型和图模型的一体训练之前,需要进行图模型可微化,具体过程是:
[0034]
用一个外部图模型得到伪行人类别标签,用于监督行人重识别深度神经网络的训练,最小化公式(2)得到伪标签的计算是不可微的,使得该图模型与深度神经网络不兼容,因此需要松弛公式(2)为:
[0035][0036]
将离散的φ和ψ连续化:
[0037][0038][0039]
公式(8)和公式(3)的区别是,在不可微图模型中,需要给能量函数输入所有可能的y,将能量最低的y作为最优解;在可微图模型中,直接将图片x输入深度神经网络得到y的预测;公式(9)和公式(4)的区别是,用交叉熵项-(y
i
p
i
)
t log(y
j
p
j
)近似公式(4)中不可微的项ζ(y
i
,y
j
)y
i
y
j

[0040]
进一步地,所述步骤s4中,图模型损失l

和分类/重识别损失l
分类
,l
分类
是伪标签作为监督的归一化指数交叉熵损失函数:
[0041][0042]
其中表示将转换成独热向量的函数,n表示一个袋中的图片数量,p
i
表示神经网络计算的行人类别的概率,是网络输出对数z的归一化指数函数:
[0043][0044]
其中m表示训练集的行人类别数量,总损失函数l是这两个损失函数的线性组合:
[0045]
l=w
分类
l
分类
+w

l

ꢀꢀꢀ
(12)
[0046]
其中w
分类
和w

分别表示两个损失的权重,分别设置为1和0.5。
[0047]
与现有技术相比,本发明技术方案的有益效果是:
[0048]
本发明结合可微图学习方法和弱监督学习方法,为行人重识别深度神经网络加入
自动生成训练标签的模块并与其一体训练,相比普通的行人重识别方法,该方法不需要繁重的人工标注成本、几乎不增加计算复杂度也能达到领先的模型性能。
附图说明
[0049]
图1为一袋图片生成伪行人类别标签的图模型;
[0050]
图2本发明的训练流程图。
具体实施方式
[0051]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0052]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0053]
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0054]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0055]
一种基于可微图学习的行人重识别模型的弱监督训练方法,包括以下步骤:
[0056]
1.从有监督行人重识别到弱监督行人重识别
[0057]
用b表示包含p张图片的一个袋,即b=x1,x2,

,x
j
,

,x
p
,y=y1,y2,

,y
j
,

,y
p
为行人类别标签,用l表示袋类别标签。有监督行人重识别需要用行人类别标签y监督模型的分类预测;弱监督行人重识别只有袋类别标签l可用,需要先为每张图片估计一个伪行人类别标签,用一个概率向量y表示。假设l包含n个行人类别,整个训练集共有m个行人类别,用袋类别标签限制y,则每张图片x
j
的行人类别标签的概率向量为:
[0058][0059]
2.基于可微图学习的弱监督行人重识别
[0060]
图模型行人重识别
[0061]
如图1所示,定义一个有向图,每个节点代表一个袋中的一张图片x
i
,每条边代表图片之间的关系,在图上为节点x分配行人类别标签y的能量函数为:
[0062][0063]
其中u和v分别表示节点和边,φ(y
i
|x
i
)是计算为图片x
i
分配标签y
i
的代价的一元项,ψ(y
i
,y
j
|x
i
;x
j
)是计算为图片对(x
i
,x
j
)分配标签的惩罚的成对项。公式(2)消除了弱监督学习生成的错误的伪标签。
[0064]
一元项
[0065]
公式(2)中的一元项定义为:
[0066]
φ(y
i
|x
i
)=-log(y
i
[y
i
]),其中
[0067]
其中p
i
是神经网络为图片x
i
计算的行人类别标签的概率,y
i
是公式(1)表示的袋限制,表示逐元素乘积,[
·
]表示向量索引。
[0068]
成对项
[0069]
由于不同图片的一元项输出相互独立,一元项不稳定,需要用成对项平滑:
[0070][0071]
其中用一个基于rgb颜色的高斯核计算外表相似度,超参数σ控制高斯核的尺寸,限制外表相似的图片有相同的标签;标签兼容度ζ(y
i
,y
j
)用玻茨模型表示:
[0072][0073]
袋限制
[0074]
实际上,袋类别标签含有额外信息改善伪标签的生成:将估计的伪标签纠正为袋中预测分数最高的行人分类;促使部分图片被分配到没有被预测的行人类别。
[0075]
伪行人类别标签的推理
[0076]
通过最小化公式(2)可以得到每张图片的伪行人类别标签:
[0077][0078]
其中{1,2,3,

,m}表示训练集中所有的行人类别。
[0079]
图学习可微化
[0080]
上述弱监督行人重识方法不是一体训练的,因为首先需要用一个外部图模型得到伪行人类别标签,用于监督行人重识别深度神经网络的训练。最小化公式(2)得到伪标签的计算是不可微的,使得该图模型与深度神经网络不兼容,因此需要松弛公式(2)为:
[0081][0082]
将离散的φ和ψ连续化:
[0083][0084][0085]
公式(8)和公式(3)的区别是,在不可微图模型中,需要给能量函数输入所有可能的y,将能量最低的y作为最优解;在可微图模型中,直接将图片x输入深度神经网络得到y的预测。公式(9)和公式(4)的区别是,用交叉熵项-(y
i
p
i
)
t log(y
j
p
j
)近似公式(4)中不可微的项ζ(y
i
,y
j
)y
i
y
j

[0086]
3.整体神经网络结构
[0087]
图2为训练和推理的网络结构,虚线表示训练数据流,实线表示推理数据流,其中图模型只参与训练阶段。整体结构包含三个主要模块:
[0088]
特征提取模块
[0089]
如图2(a),运用resnet-50作为骨干网络,去掉原始resnet-50的最后一层,换成一个输出为512维的全连接层、一个批规范化、一个带泄露线性整流函数和一个dropout。
[0090]
粗糙行人重识别模块
[0091]
如图2(b),在特征提取模块的顶部再加一个输出维度与行人类别数量相同的全连接层,再使用归一化指数交叉熵作为损失函数。行人类别预测分数作为粗糙行人重识别估计,表示袋b中图片的行人类别的概率。
[0092]
精炼行人重识别模块
[0093]
如图2(c),按照公式(8)和(9)将粗糙行人重识别分数、外表和袋限制输入图模型,图模型生成的伪标签就能像人工标注的真实标签一样被用来更新网络参数。
[0094]
4.优化
[0095]
得到伪行人类别标签就能计算整体损失值对于深度神经网络参数的梯度,利用反向传播算法,将梯度回传给网络的所有层,实现该弱监督模型的所有参数的一体训练。
[0096]
损失函数
[0097]
本方法的优化目标包含图模型损失l

和分类/重识别损失l
分类
,l
分类
是伪标签作为监督的归一化指数交叉熵损失函数:
[0098][0099]
其中表示将转换成独热向量的函数,n表示一个袋中的图片数量,p
i
表示神经网络计算的行人类别的概率,是网络输出对数z的归一化指数函数:
[0100][0101]
其中m表示训练集的行人类别数量。
[0102]
总损失函数l是这两个损失函数的线性组合:
[0103]
l=w
分类
l
分类
+w

l

ꢀꢀꢀ
(12)
[0104]
其中w
分类
和w

分别表示两个损失的权重,本方法设置为1和0.5。
[0105]
相同或相似的标号对应相同或相似的部件;
[0106]
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
[0107]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1