本发明涉及信息,尤其涉及一种行人重识别模型的预训练方法及装置。
背景技术:
1、行人重识别(personre-identification,简称re-id)也称行人再识别,旨在从多个摄像头捕捉到的图像中寻找同一个目标人物,一大难点是外观相似的不同行人之间差异小,相同人物在不同视角和场景下外表差异可能很大,导致难以找到正确的目标人物。
2、当前主流的行人重识别方法所采用模型的预训练方法仅关注物体类别之间的差异化特征,导致了现有方法得到的行人重识别预训练模型更加关注的是图像全局的粗粒度的特征,而忽略了对于行人重识别至关重要的细粒度局部特征,比如行人的衣着,背包等局部特征。
3、因此,如何在行人重识别中充分利用行人的细粒度局部特征已成为本领域亟待解决的技术问题。
技术实现思路
1、针对现有技术存在的问题,本发明提供一种行人重识别模型的预训练方法及装置。
2、第一方面,本发明提供一种行人重识别模型的预训练方法,包括:
3、获取目标待识别行人的全局视图和局部视图;所述局部视图是将所述全局视图分割成多个存在重叠的不同的局部区域,并在所述局部区域中随机裁剪得到的多个矩形视图;
4、基于所述全局视图对应的全局令牌、所述局部视图对应的局部令牌、以及所述局部视图和所述全局视图的所属关系,确定第一训练样本和第二训练样本;所述第一训练样本为所述目标待识别行人的全局视图,且已标记与所述全局视图对应的全局令牌和属于所述全局视图的所有所述局部视图对应的局部令牌;所述第二训练样本为属于所述目标待识别行人的全局视图的所有所述局部视图,且已标记与所述局部视图对应的局部令牌;
5、对所述第一训练样本中所述全局视图的部分图像块进行随机掩码处理,得到第三训练样本;
6、基于所述第一训练样本、所述第二训练样本和所述第三训练样本,对所述行人重识别模型进行训练,确定所述行人重识别模型的学生网络对应的最优网络参数,并同步至所述行人重识别模型的教师网络,得到预训练完成的所述行人重识别模型。
7、可选地,所述基于所述第一训练样本、所述第二训练样本和所述第三训练样本,对所述行人重识别模型进行训练,确定所述行人重识别模型的学生网络对应的最优网络参数,并同步至所述行人重识别模型的教师网络,得到预训练完成的所述行人重识别模型,包括:
8、基于所述行人重识别模型的教师网络,确定所述第一训练样本的全局令牌对应的预测结果,以及所述第一训练样本的各局部令牌对应的预测结果,分别作为第一预测结果和第二预测结果;
9、基于所述行人重识别模型的学生网络,确定所述第三训练样本的全局令牌对应的预测结果、所述第三训练样本的各局部令牌对应的预测结果、所述第二训练样本的全局令牌对应的预测结果、以及所述第二训练样本的局部令牌对应的预测结果,分别作为第三预测结果、第四预测结果、第五预测结果和第六预测结果;
10、基于所述第二预测结果、所述第四预测结果以及所述第六预测结果,确定第一损失函数;所述第一损失函数为属于同一目标待识别行人的所有目标局部区域的局部令牌对应损失函数;所述目标局部区域为所述目标待识别行人的全局视图被分割成的多个存在重叠的不同的局部区域之一;
11、基于所述第一预测结果、所述第三预测结果以及所述第五预测结果,确定第二损失函数;所述第二损失函数为属于同一目标待识别行人的全局令牌对应的损失函数;
12、基于梯度下降法,确定总损失函数最小或满足收敛的情况下,得到所述行人重识别模型的学生网络对应的最优网络参数;所述总损失函数基于所述第一损失函数和所述第二损失函数确定;
13、采用指数滑动平均,将所述行人重识别模型的学生网络对应的最优网络参数,同步至所述行人重识别模型的教师网络,得到预训练完成的所述行人重识别模型。
14、可选地,所述基于所述第二预测结果、所述第四预测结果以及所述第六预测结果,确定第一损失函数,包括:
15、以目标待识别行人的目标局部区域对应局部令牌为单位,基于交叉熵损失函数、所述第二预测结果、所述第四预测结果以及所述第六预测结果,确定第一损失函数;
16、所述第一损失函数满足的公式表示为:
17、
18、其中,m1≠m2,叉熵损失函数h(a,b)=-alogb,θs表示行人重识别模型中学生网络的参数;表示第二预测结果中全局视图标记的局部令牌li的图像块对应的预测局部分类为所述局部令牌li的概率;表示第四预测结果中局部视图标记的局部令牌li的图像块对应的预测局部分类为所述局部令牌li的概率;表示第二预测结果中全局视图标记的局部令牌li的图像块对应的预测局部分类为局部令牌li的概率值;表示第六预测结果中全局视图标记的局部令牌li的图像块对应的预测局部分类为局部令牌li的概率;m表示第一样本图像中目标待识别行人的全局视图的总个数;j表示任一局部区域中裁剪的局部视图的总个数。
19、可选地,所述基于所述第一预测结果、所述第三预测结果以及所述第五预测结果,确定第二损失函数,包括:
20、以属于目标待识别行人的全局令牌为单位,基于交叉熵损失函数、所述第一预测结果、所述第三预测结果以及所述第五预测结果,确定所述第二损失函数;
21、所述第二损失函数满足的公式表示为:
22、
23、其中,m1≠m2,叉熵损失函数h(a,b)=-alogb,表示第一预测结果中全局视图标记的全局令牌对应的预测目标身份为所述全局令牌的概率;表示第五预测结果中局部视图标记的全局令牌对应的预测目标身份为所述全局令牌的概率;表示第一预测结果中目标待识别行人的全局视图标记的全局令牌的图像块对应的预测目标身份为所述全局令牌的概率;表示第三预测结果中掩码后的全局视图标记的全局令牌对应的预测目标身份为所述全局令牌的概率;m表示目标待识别行人的全局视图的总个数;l表示目标待识别行人的全局视图包括的局部区域的总个数;j表示任一局部区域中裁剪的局部视图的总个数。
24、可选地,所述获取目标待识别行人的全局视图和局部视图,包括:
25、获取第一数据集中任一图像,作为第一样本图像;所述第一数据集为由多个不同视角和位置的摄像头采集的行人图像构成,且每个所述行人图像已标注不同的行人标记;
26、确定第一样本图像中包括目标待识别行人的最小矩形视图,作为所述全局视图;
27、将所述全局视图分割成多个存在重叠的不同的局部区域,并在所述局部区域中随机裁剪多个矩形视图,作为所述局部区域的局部视图。
28、可选地,所述行人重识别模型基于视觉transformer网络构建。
29、可选地,所述方法还包括:
30、基于预训练后的所述行人重识别模型,确定第二样本图像的第七预测结果;所述第二样本图像包括目标待识别行人,且已标记对应的全局令牌和所有的局部令牌;
31、基于所述第七预测结果、所述第二样本图像标记的全局令牌和所有的局部令牌,对所述行人重识别模型的网络参数进行微调,得到所述行人重识别模型。
32、第二方面,本发明还提供一种行人重识别模型的预训练装置,包括:
33、获取模块,用于获取目标待识别行人的全局视图和局部视图;所述局部视图是将所述全局视图分割成多个存在重叠的不同的局部区域,并在所述局部区域中随机裁剪得到的多个矩形视图;
34、确定模块,用于基于所述全局视图对应的全局令牌、所述局部视图对应的局部令牌、以及所述局部视图和所述全局视图的所属关系,确定第一训练样本和第二训练样本;所述第一训练样本为所述目标待识别行人的全局视图,且已标记与所述全局视图对应的全局令牌和属于所述全局视图的所有所述局部视图对应的局部令牌;所述第二训练样本为属于所述目标待识别行人的全局视图的所有所述局部视图,且已标记与所述局部视图对应的局部令牌;
35、掩码模块,用于对所述第一训练样本中所述全局视图的部分图像块进行随机掩码处理,得到第三训练样本;
36、训练模块,用于基于所述第一训练样本、所述第二训练样本和所述第三训练样本,对所述行人重识别模型进行训练,确定所述行人重识别模型的学生网络对应的最优网络参数,并同步至所述行人重识别模型的教师网络,得到预训练完成的所述行人重识别模型。
37、第三方面,本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现如第一方面所述的行人重识别模型的预训练方法。
38、第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的行人重识别模型的预训练方法。
39、第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的行人重识别模型的预训练方法。
40、本发明提供的行人重识别模型的预训练方法及装置,通过对行人样本图像的全局图像以及分割后的局部图像标记对应的全局令牌以及局部令牌,使得预训练过程中,行人重识别模型既关注行人的全局特征,又关注行人的局部特征,从而可以提取到更加具有判别力的局部特征,提高行人重识别模型对行人识别的准确度。