1.本发明涉及目标追踪领域,尤其涉及一种行人重识别模型的训练方法及行人重识别方法。
背景技术:2.多数的行人重识别方法中,均是利用目标检测模型对每张待检测图像中的行人进行识别和边界框标注,以在确定行人所在的边界框构成的区域图像后,将每个区域图像输入至训练好的行人重识别模型中,以确定每个区域图像中相同的行人。
3.然而,在目标检测模型输出区域图像时,可能会出现边界框错误标注的情况,也即,边界框囊括了过多的背景,或是未完全囊括行人。由此,使得输入至行人重识别模型的区域图像的图像质量不一,导致行人重识别效果较差,难以正确识别每个区域图像中相同的行人。
技术实现要素:4.有鉴于此,本发明提供一种行人重识别模型的训练方法及行人重识别方法,以改善行人重识别模型的输入图像的图像质量不一,导致行人重识别效果较差,难以正确识别每个区域图像中相同的行人的现状。
5.第一方面,本发明实施例提供一种行人重识别模型的训练方法,包括:
6.获取预设数量个第一图像样本;
7.将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本,及将每个所述第一图像样本的尺寸增大以得到预设数量个第三图像样本;
8.基于预设模型中的主干模块,对每个图像样本进行特征提取,得到每个图像样本的第一特征图;
9.基于预设模型中的卷积模块,对所述第一特征图进行特征提取,得到所述第一特征图对应的多个第二特征图,其中,所述卷积模块包括并行设置的多个卷积层,每个所述卷积层的卷积核大小不同;
10.将所述第一特征图输入至所述预设模型的注意力模块,生成所述第一特征图对应的每个第二特征图的第一权重;
11.对每个图像样本的第二特征图和对应的第一权重进行加权求和,得到每个图像样本对应的特征表示;
12.基于所述预设模型的预测模块,利用每个所述特征表示预测对应的图像样本中行人的类别,得到预测结果;
13.基于所述预测结果计算损失函数值,并利用所述损失函数值反向更新所述预设模型,得到行人重识别模型,其中,所述行人重识别模型中的注意力模块用于在所述第二特征图对应的第一特征图越大,且输出所述第二特征图的卷积层的卷积核大小越小时,生成越大的第一权重;及在所述第二特征图对应的第一特征图越小,且输出所述第二特征图的卷
积层的卷积核大小越大时,生成越大的第一权重。
14.可选的,在本发明实施例提供的一种可行方式中,所述将所述第一特征图输入至所述预设模型的注意力模块,生成所述第一特征图对应的每个第二特征图的第一权重之后,所述基于所述预测结果计算损失函数值,并利用所述损失函数值反向更新所述预设模型,得到行人重识别模型之前,所述方法还包括:
15.将所述第一特征图输入至预设的注意力监督模块,生成所述第一特征图对应的每个第二特征图的第二权重,其中,所述注意力监督模块用于在所述第二特征图对应的第一特征图越大,且输出所述第二特征图的卷积层的卷积核大小越小时,生成越大的第二权重,及在所述第二特征图对应的第一特征图越小,且输出所述第二特征图的卷积层的卷积核大小越大时,生成越大的第二权重;
16.所述基于所述预测结果计算损失函数值,并利用所述损失函数值反向更新所述预设模型,得到行人重识别模型,包括:
17.基于所述第一权重、所述第二权重及所述预测结果,计算损失函数值;
18.基于所述损失函数值反向更新所述预设模型,以使所述第二特征图的第一权重与第二权重相近,得到行人重识别模型。
19.可选的,在本发明实施例提供的一种可行方式中,所述获取预设数量个第一图像样本之后,还包括:
20.获取所有所述第一图像样本中每个行人的类别;
21.所述基于所述第一权重、所述第二权重及所述预测结果,计算损失函数值,包括:
22.基于每个所述第二特征图的第一权重和第二权重,计算权重差异损失;
23.基于每个图像样本对应的特征表示,计算特征分类损失;
24.基于所有所述第一图像样本中每个行人的类别和所述预测结果,计算类别预测损失;
25.基于所述权重差异损失、所述特征分类损失及类别预测损失,得到损失函数值。
26.可选的,在本发明实施例提供的一种可行方式中,所述将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本,及将每个所述第一图像样本的尺寸增大以得到预设数量个第三图像样本,包括:
27.将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本;
28.计算每个所述第一图像样本的像素均值;
29.利用每个所述第一图像样本的像素均值,将每个所述第一图像样本的尺寸增大以得到预设数量个第三图像样本。
30.可选的,在本发明实施例提供的一种可行方式中,所述卷积模块包括卷积核大小为1
×
1的第一卷积层、卷积核大小为3
×
3的第二卷积层及卷积核大小为5
×
5的第三卷积层。
31.第二方面,本发明实施例提供一种行人重识别方法,包括:
32.获取多张待识别图像;
33.将所述多张待识别图像输入至行人重识别模型,确定所述多张待识别图像中的每个行人的类别,其中,所述行人重识别模型通过如第一方面任一种公开的行人重识别模型的训练方法得到。
34.第三方面,本发明实施例提供一种行人重识别模型的训练装置,包括:
35.样本获取模块,用于获取预设数量个第一图像样本;
36.缩放模块,用于将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本,及将每个所述第一图像样本的尺寸增大以得到预设数量个第三图像样本;
37.第一提取模块,用于基于预设模型中的主干模块,对每个图像样本进行特征提取,得到每个图像样本的第一特征图;
38.第二提取模块,用于基于预设模型中的卷积模块,对所述第一特征图进行特征提取,得到所述第一特征图对应的多个第二特征图,其中,所述卷积模块包括并行设置的多个卷积层,每个所述卷积层的卷积核大小不同;
39.第一生成模块,用于将所述第一特征图输入至所述预设模型的注意力模块,生成所述第一特征图对应的每个第二特征图的第一权重;
40.求和模块,用于对每个图像样本的第二特征图和对应的第一权重进行加权求和,得到每个图像样本对应的特征表示;
41.预测模块,用于基于所述预设模型的预测模块,利用每个所述特征表示预测对应的图像样本中行人的类别,得到预测结果;
42.更新模块,用于基于所述预测结果计算损失函数值,并利用所述损失函数值反向更新所述预设模型,得到行人重识别模型,其中,所述行人重识别模型中的注意力模块用于在所述第二特征图对应的第一特征图越大,且输出所述第二特征图的卷积层的卷积核大小越小时,生成越大的第一权重;及在所述第二特征图对应的第一特征图越小,且输出所述第二特征图的卷积层的卷积核大小越大时,生成越大的第一权重。
43.第四方面,本发明实施例提供一种行人重识别装置,包括:
44.图像获取模块,用于获取多张待识别图像;
45.重识别模块,用于将所述多张待识别图像输入至行人重识别模型,确定所述多张待识别图像中的每个行人的类别,其中,所述行人重识别模型通过如第一方面公开的行人重识别模型的训练方法得到。
46.第五方面,本发明实施例提供一种计算机设备,包括存储器以及处理器,存储器存储有计算机程序,计算机程序在处理器上运行时执行如第一方面中公开的行人重识别模型的训练方法,或如第二方面中公开的行人重识别方法。
47.第六方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序在处理器上运行时执行如第一方面中公开的行人重识别模型的训练方法,或如第二方面中公开的行人重识别方法。
48.本发明实施例提供的行人重识别模型的训练方法中,计算机设备首先将获取预设数量个第一图像样本,也即,获取批大小的图像样本;接着,对每个第一图像样本进行尺寸缩放,得到每个第一图像样本对应的第二图像样本和第三图像样本;随后,基于预设模型中的主干模块对每个图像样本进行特征提取,得到每个图像样本的第一特征图;之后,利用预设模型的中并行设置的多个卷积核大小不同的卷积层,对每个第一特征图进行特征提取,以得到第一特征图在不同感受野下的特征图,即第二特征图;然后,基于预设模型的注意力模块,根据第一特征图的尺寸和每个卷积层的卷积核大小,生成第一特征图对应的每个第二特征图的第一权重;再然后,对每个图像样本的第二特征图和对应的第一权重进行加权
求和,得到每个图像样本的特征表示;基于预设模型的预测模块,根据每个图像样本的特征表示,对每个图像样本中的行人的类别进行预测,以完成重识别预测;最后,利用预测结果对应的损失值反向更新预设模型,以使训练完成的行人重识别模型中,注意力模块能在第二特征图对应的第一特征图越大,且输出第二特征图的卷积层的卷积核大小越小时,生成越大的第一权重,及在第二特征图对应的第一特征图越小,且输出第二特征图的卷积层的卷积核大小越大时,生成越大的第一权重。
49.基于此,本发明实施例通过注意力模块的设置和训练,使得行人重识别模型对尺寸较大的输入图像进行预测时,输入图像的细节信息的权重更大,进而更关注于输入图像的细节信息,避免了背景噪声的干扰;而对尺寸较小的输入图像进行预测时,输入图像的概括信息的权重更高,进而模型更关注于输入图像的概括信息,确保了行人特征的完整抓取。不仅如此,因本发明实施例在第一图像样本的基础上,生成了第二图像样本及第三图像样本,使得图像样本的数量增加,从而确保了模型的充分训练。
附图说明
50.为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
51.图1示出了本发明实施例提供的第一种行人重识别模型的训练方法的流程示意图;
52.图2示出了本发明实施例提供的第二种行人重识别模型的训练方法的流程示意图;
53.图3示出了本发明实施例提供的行人重识别方法的流程示意图;
54.图4示出了本发明实施例提供的行人重识别模型的训练装置的结构示意图;
55.图5示出了本发明实施例提供的行人重识别装置的结构示意图。
具体实施方式
56.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
57.通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
58.在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
59.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
60.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
61.实施例1
62.参照图1,示出了本发明实施例提供的第一种行人重识别模型的训练方法的流程示意图,本发明实施例提供的行人重识别模型的训练方法包括:
63.s110,获取预设数量个第一图像样本。
64.需说明的是,本发明实施例中涉及到的图像样本指代包含人物的图像。
65.还需说明的是,图像样本的获取方式为可根据实际情况设置的内容,如在一种可行方式中,本发明实施例通过将包括多个行人的图像输入至行人目标检测模型中,得到图像中每个行人的边界框(bounding box);根据每个行人的边界框,对图像进行裁剪,进而得到多个图像样本。
66.进一步的,可以理解的是,本发明实施例中的计算机设备从训练集中抽取一个批大小(batch size)的图像样本。
67.还可以理解的是,批大小,也即预设数量的大小为可根据实际情况设置的内容,本发明实施例对此不进行限定。
68.s120,将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本,及将每个所述第一图像样本的尺寸增大以得到预设数量个第三图像样本。
69.也即,本发明实施例在获取到原始图像样本,即获取到第一图像样本后,对每个第一图像样本进行尺寸缩小,以得到缩小后的每个第一图像样本,即预设数量个第二图像样本;同时,对每个第一图像样本进行尺寸放大,得到放大后的每个第一图像样本,即预设数量个第三图像样本。
70.需理解的是,因行人目标检测模型可能因各种各样的因素,难以为输入图像中每个行人生成合适的边界框,可能出现生成的边界框囊括过多的背景图像,也可能出现仅囊括一个完整行人的部分图像,如仅包含行人躯干的图像。也因此,基于边界框而裁剪得到的行人图像中,尺寸较大的行人图像可能存在过多的背景图像,尺寸较小的行人图像可能仅包含了完整行人的部分。
71.此种情况下,行人重识别模型将因输入图像中过多的背景噪声而受到干扰,和/或因行人图像中不完整的行人,从而难以提取到正确/完整的行人特征,导致重识别效果难以达到预期。
72.针对此现状,本发明实施例通过对第一图像样本的尺寸缩放,生成第二图像样本以模拟输入图像仅包含了完整行人的部分图像的情况,及生成第三图像样本以模拟输入图像存在过多的背景图像的情况;并根据第一图像样本、第二图像样本及第三图像样本进行训练,以使模型能针对不同情况的图像样本均能正确地完成重识别。
73.s130,基于预设模型中的主干模块,对每个图像样本进行特征提取,得到每个图像样本的第一特征图。
74.可以理解的是,主干模块即backbone,指代目标检测模型中用于特征提取的网络
结构。
75.还可以理解的是,主干模块可由任意的网络模型构成,如在一种可行方式中,主干模块为resnet16。
76.s140,基于预设模型中的卷积模块,对所述第一特征图进行特征提取,得到所述第一特征图对应的多个第二特征图,其中,所述卷积模块包括并行设置的多个卷积层,每个所述卷积层的卷积核大小不同。
77.不难理解的是,当输入图像包含过多的背景信息时,行人重识别模型应关注输入图像中的细节/局部信息,以避免背景信息的干扰;而当输入图像包含的行人信息过少时,行人重识别模型应关注输入图像中的全局/概括信息,以包括行人特征的完整抓取。
78.基于此,针对不同尺寸的图像样本,也即针对尺寸不同的第一图像样本、第二图像样本及第三图像样本,本发明实施例利用多个并行设置且卷积核大小不同的卷积层,对每个图像样本进行不同维度/尺寸的特征提取,以生成第一特征图对应的多个第二特征图,也即,利用不同卷积核大小的卷积层,抓取图像样本中不同区域大小的特征信息。由此,针对尺寸较小的第二图像样本,本发明实施例能抓取第二图像样本中的全局/概括信息,而针对尺寸较大的第三图像样本,本发明实施例将抓取第三图像样本中的细节/局部信息。
79.可选的,在本发明实施例提供的一种可行方式中,卷积模块包括卷积核大小为1
×
1的第一卷积层、卷积核大小为3
×
3的第二卷积层及卷积核大小为5
×
5的第三卷积层。
80.s150,将所述第一特征图输入至所述预设模型的注意力模块,生成所述第一特征图对应的每个第二特征图的第一权重。
81.需理解的是,若图像样本包括过多的背景信息,则图像样本对应的多个第二特征图,也即,图像样本对应的不同卷积核大小的特征信息中,卷积核大小越小,关注的特征区域越小,对应的特征信息中包含的背景信息越少,故为避免背景信息的干扰,因更关注卷积核大小更小的卷积层的所输出的信息。
82.而若图像样本包括的行人信息不完整,则应关注卷积核大小越大的卷积层所输出的信息。
83.基于此,本发明实施例通过在行人重识别模型中设置注意力模块,以在第一特征图的尺寸越大时,使行人重识别模型越关注第一特征图的局部/细节,也即,使第一特征图对应的第二特征图中,由卷积核大小较小的卷积层所输出的第二特征图的权重越大;同时,在第一特征图的尺寸越小时,使第一特征图对应的第二特征图中,由卷积核大小较大的卷积层所输出的第二特征图的权重越大。
84.由此,在后续过程中,在计算机设备通过对第一特征图对应的每个第二特征图进行加权求和以得到特征表示时,图像样本的尺寸越大,则图像样本对应的特征表示中局部/细节信息的占比较高;而图像样本的尺寸越小,则图像样本对应的特征表示中全局/概括信息的占比较高。
85.此外,需说明的是,在预设模型,也即行人重识别模型的训练过程中,注意力模块将在不断地训练/迭代更新中,逐步地更新参数,以在训练结束时,能根据第一特征图的尺寸和每个卷积层的卷积核大小,生成如前文所述的第一权重。
86.可以理解的是,如何对注意力模块中的参数进行训练,为可根据实际情况设置的内容,如在一种可行方式中,本发明实施例利用预设的权重损失函数计算对应的权重损失
值,进而根据权重损失值反向更新注意力模块中的参数,以使注意力模块具备前述功能。
87.s160,对每个图像样本的第二特征图和对应的第一权重进行加权求和,得到每个图像样本对应的特征表示。
88.示范性的,设一个第一特征图对应有三个第二特征图f1、f2及f3,f1的第一权重为w1,f2的第一权重为w2,f3的第一权重为w3,则图像样本的特征表示为(f1×
w1)+(f2×
w2)+(f3×
w3)。
89.s170,基于所述预设模型的预测模块,利用每个所述特征表示预测所述预设数量个第一图像样本中每个行人的类别,得到预测结果。
90.可以理解的是,预测结果表示预设模型对相同类别(classification)的行人的识别结果。
91.还可以理解的是,行人重识别任务用于针对多个图像中的行人进行检测识别,以确定多个图像中的同一个行人。也即,若不同的第一图像样本均包含同一个行人,则每个第一图像样本中的行人的类别(classification)相同。
92.s180,基于所述预测结果计算损失函数值,并利用所述损失函数值反向更新所述预设模型,得到行人重识别模型,其中,所述行人重识别模型中的注意力模块用于在所述第二特征图对应的第一特征图越大,且输出所述第二特征图的卷积层的卷积核大小越小时,生成越大的第一权重;及在所述第二特征图对应的第一特征图越小,且输出所述第二特征图的卷积层的卷积核大小越大时,生成越大的第一权重。
93.也即,本发明实施例通过多次的迭代训练,使得完成训练的行人重识别模型中的注意力模块能在第二特征图对应的第一特征图越大,且输出第二特征图的卷积层的卷积核大小越小时,生成越大的第一权重;同时,注意力模块还能在第二特征图对应的第一特征图越小,且输出第二特征图的卷积层的卷积核大小越大时,生成越大的第一权重。
94.可以理解的是,本发明实施例虽然仅对模型的多轮迭代过程中的其中一轮进行了描述,但不难理解的是,本发明实施例完成训练以得到行人重识别模型之前,将不断执行“从数据集抽取批大小的图像样本”到“利用批大小的图像样本对应的损失函数值反向更新模型”的步骤,也即,不断执行s110至s180中的“根据所述预测结果计算损失函数值,并利用所述损失函数值反向更新所述预设模型”的步骤,直至满足预设的训练终止条件后,完成训练,进而得到行人重识别模型。
95.还可以理解的是,训练终止条件为可根据实际情况设置的内容,如在一种可行方式中,训练终止条件为训练周期(epoch)达到预设数量后停止。而在另一种可行方式中,训练终止条件为损失函数收敛时停止。
96.本发明实施例提供的行人重识别模型的训练方法中,计算机设备首先将获取预设数量个第一图像样本,也即,获取批大小的图像样本;接着,对每个第一图像样本进行尺寸缩放,得到每个第一图像样本对应的第二图像样本和第三图像样本;随后,基于预设模型中的主干模块对每个图像样本进行特征提取,得到每个图像样本的第一特征图;之后,利用预设模型的中并行设置的多个卷积核大小不同的卷积层,对每个第一特征图进行特征提取,以得到第一特征图在不同感受野下的特征图,即第二特征图;然后,基于预设模型的注意力模块,根据第一特征图的尺寸和每个卷积层的卷积核大小,生成第一特征图对应的每个第二特征图的第一权重;再然后,对每个图像样本的第二特征图和对应的第一权重进行加权
求和,得到每个图像样本的特征表示;基于预设模型的预测模块,根据每个图像样本的特征表示,对每个图像样本中的行人的类别进行预测,以完成重识别预测;最后,利用预测结果对应的损失值反向更新预设模型,以使训练完成的行人重识别模型中,注意力模块能在第二特征图对应的第一特征图越大,且输出第二特征图的卷积层的卷积核大小越小时,生成越大的第一权重,及在第二特征图对应的第一特征图越小,且输出第二特征图的卷积层的卷积核大小越大时,生成越大的第一权重。
97.基于此,本发明实施例通过注意力模块的设置和训练,使得行人重识别模型对尺寸较大的输入图像进行预测时,输入图像的细节信息的权重更大,进而更关注于输入图像的细节信息,避免了背景噪声的干扰;而对尺寸较小的输入图像进行预测时,输入图像的概括信息的权重更高,进而模型更关注于输入图像的概括信息,确保了行人特征的完整抓取。不仅如此,因本发明实施例在第一图像样本的基础上,生成了第二图像样本及第三图像样本,使得图像样本的数量增加,从而确保了模型的充分训练。
98.可选的,在本发明实施例提供的一种可行方式中,具体可参考图2,示出了本发明实施例提供的第二种行人重识别模型的训练方法的流程示意图,即在此种可行方式中,所述s140之后,所述s180之前,所述方法包括:
99.s190,将所述第一特征图输入至预设的注意力监督模块,生成所述第一特征图对应的每个第二特征图的第二权重,其中,所述注意力监督模块用于在所述第二特征图对应的第一特征图越大,且输出所述第二特征图的卷积层的卷积核大小越小时,生成越大的第二权重,及在所述第二特征图对应的第一特征图越小,且输出所述第二特征图的卷积层的卷积核大小越大时,生成越大的第二权重;
100.所述s180,包括:
101.s181,基于所述第一权重、所述第二权重及所述预测结果,计算损失函数值;
102.s182,基于所述损失函数值反向更新所述预设模型,以使所述第二特征图的第一权重与第二权重相近,得到行人重识别模型。
103.也即,此种可行方式下,本发明实施例将利用预设的注意力监督模块对注意力模块进行监督,以确保注意力模块能生成合适的第一权重。
104.可以理解的是,注意力监督模块的设置方式为可根据实际情况设置的内容,如在本发明实施例提供的一种可行方式中,注意力监督模块为一张映射表,包含多个第二权重、多个第一特征图的尺寸大小及多个卷积核大小,一个第二权重对应一个第一特征图的尺寸大小和一个卷积核大小。由此,在计算机设备得到第一特征图的尺寸后,将根据注意力监督模块,高效简洁地确定第一特征图对应的每个第二特征图的第二权重。
105.而在本发明实施例提供的另一种可行方式中,注意力监督模块的设置方式如下例所示:
106.设卷积模块包括卷积核大小依次增大的三个卷积层,第一图像样本为i1,第二图像样本i2为将i1向图像内部缩小ps得到,第三图像样本i3为将i1向外缩放pb得到。
107.将i1、i2及i3的第一特征图输入至卷积模块,得到i1的三个第二特征图f
11
、f
12
及f
13
,i2的三个第二特征图f
21
、f
22
及f
23
,以及i3的三个第二特征图f
31
、f
32
及f
33
。
108.将每个第一特征图输入至注意力模块,生成i1的三个第二特征图的第二权重w
11
、w
12
及w
13
,i2的三个第二特征图的第二权重w
21
、w
22
及w
23
,以及i3的三个第二特征图的第二权
重w
31
、w
32
及w
33
。
109.注意力监督模块根据注意力模块输出的第一权重,结合ps和pb,生成i1的三个第二特征图的第二权重为w
11
、w
12
及w
13
,i2的三个第二特征图的第二权重为w
21
、w
22
及w
23
(1+ps),以及i3的三个第二特征图的第二权重为w
31
(1+pb)、w
32
及w
33
。
110.需说明的是,上述各个变量中,变量的数字下标表示变量对应的图像样本,如下标为1表示变量对应第一图像样本,下标为2表示变量对应第二图像样本;而变量的数字上标表示变量的序号。
111.还需说明的是,此种可行方式下,注意力模块和注意力监督模块的输出间,差异仅体现在i2对应的序号为3第一权重w
23
和序号为3的第二权重w
23
(1+ps),及i3对应的序号为1第一权重w
31
和序号为1的第二权重w
31
(1+pb),其他的第一权重和第二权重均相同。也基于此,行人重识别模型的训练过程中,第二权重定然不小于第一权重,从而能保证第一权重将向正确的方向更新。
112.此外,可以理解的是,本发明实施例中的注意力监督模块仅在模型训练过程中运作,在模型的推理过程中,注意力监督模块将停止运行。
113.以及,还可以理解的是,本发明实施例提供的图2仅用作示例,并不用于限定s190需紧接在s140之后,本发明实施例仅要求s190需在s140之后,和在s181之前执行。
114.可选的,在本发明实施例提供的一种可行方式中,卷积模块、注意力模块以及注意力监督模块,三者将被复制多份,并以三者一组的形式放置于主干模块的任意一层中间层之后。
115.可选的,为保证行人重识别模型的训练效果,在本发明实施例提供的一种可行方式中,所述s110之后,还包括:
116.获取每个所述第一图像样本中行人的类别;
117.进而,所述s181,包括:
118.基于每个所述第二特征图的第一权重和第二权重,计算权重差异损失;
119.基于每个图像样本对应的特征表示,计算特征分类损失;
120.基于所有所述第一图像样本中每个行人的类别和所述预测结果,计算类别预测损失;
121.基于所述权重差异损失、所述特征分类损失及类别预测损失,得到损失函数值。
122.可以理解的是,此种情况下本发明实施例将根据第一图像样本中行人的类别,也即真实类别,和根据预测结果中第一图像样本中每个行人的预测类别,计算对应的类别预测损失;同时,还将根据每个图像样本对应的特征表示,计算特征分类损失;以及,根据每个第二特征图的第一权重和第二权重的差异,计算权重差异损失。
123.还可以理解理解的,采用何种公式/算法计算各个损失为可根据实际情况设置的内容,如在一种优选方式中,权重差异损失通过平方差损失函数公式计算,特征分类损失通过三元组损失函数公式计算,类别预测损失通过交叉熵损失函数计算。
124.可选的,在本发明实施例提供的一种可行方式中,所述s120,包括:
125.将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本;
126.计算每个所述第一图像样本的像素均值;
127.利用每个所述第一图像样本的像素均值,将每个所述第一图像样本的尺寸增大以
得到预设数量个第三图像样本。
128.也即,此种可行方式中,本发明实施例将基于均值填充的方式,完成第三图像样本的生成。
129.可以理解的是,均值填充仅为一种可行的方式,在实际生产环境中,第三图像样本的生成亦可采用其他的方法/计算实现,如在另一种可行方式中,第三图像样本基于最大值填充的方式实现。
130.实施例2
131.本发明实施例2还提供一种行人重识别方法,参照图3,示出了本发明实施例提供的行人重识别方法的流程示意图,本发明实施例提供的行人重识别方法,包括:
132.s210,获取多张待识别图像;
133.s220,将所述多张待识别图像输入至行人重识别模型,确定所述多张待识别图像中的每个行人的类别,其中,所述行人重识别模型通过如实施例1对应的行人重识别模型的训练方法得到。
134.可以理解的是,本发明实施例2提供的行人重识别方法是在利用实施例1提供的行人重识别模型的训练方法的基础上,利用训练完成的行人重识别模型完成行人重识别。
135.还可以理解的是,本发明实施例提供的行人重识别方法中,计算机设备将基于行人重识别模型中的注意力模块,为不同尺寸大小的输入图像生成对应的第一权重,进而能根据输入图像的细节或梗概信息行人重识别,由此避免了输入图像中背景噪声的干扰,同时在行人图像不完整时,能完整抓取输入图像中所有的行人特征信息。
136.实施例3
137.与本发明实施例1提供的行人重识别模型的训练方法相对应的,本发明实施例3还提供一种行人重识别模型的训练装置,参照图4,示出了本发明实施例提供的行人重识别模型的训练装置的结构示意图,本发明实施例提供的行人重识别模型的训练装置300,包括:
138.样本获取模块310,用于获取预设数量个第一图像样本;
139.缩放模块320,用于将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本,及将每个所述第一图像样本的尺寸增大以得到预设数量个第三图像样本;
140.第一提取模块330,用于基于预设模型中的主干模块,对每个图像样本进行特征提取,得到每个图像样本的第一特征图;
141.第二提取模块340,用于基于预设模型中的卷积模块,对所述第一特征图进行特征提取,得到所述第一特征图对应的多个第二特征图,其中,所述卷积模块包括并行设置的多个卷积层,每个所述卷积层的卷积核大小不同;
142.第一生成模块350,用于将所述第一特征图输入至所述预设模型的注意力模块,生成所述第一特征图对应的每个第二特征图的第一权重;
143.求和模块360,用于对每个图像样本的第二特征图和对应的第一权重进行加权求和,得到每个图像样本对应的特征表示;
144.预测模块370,用于基于所述预设模型的预测模块,利用每个所述特征表示预测对应的图像样本中行人的类别,得到预测结果;
145.更新模块380,用于基于所述预测结果计算损失函数值,并利用所述损失函数值反向更新所述预设模型,得到行人重识别模型,其中,所述行人重识别模型中的注意力模块用
于在所述第二特征图对应的第一特征图越大,且输出所述第二特征图的卷积层的卷积核大小越小时,生成越大的第一权重;及在所述第二特征图对应的第一特征图越小,且输出所述第二特征图的卷积层的卷积核大小越大时,生成越大的第一权重。
146.可选的,在本发明实施例提供的一种可行方式中,所述装置还包括:
147.第二生成模块,用于将所述第一特征图输入至预设的注意力监督模块,生成所述第一特征图对应的每个第二特征图的第二权重,其中,所述注意力监督模块用于在所述第二特征图对应的第一特征图越大,且输出所述第二特征图的卷积层的卷积核大小越小时,生成越大的第二权重,及在所述第二特征图对应的第一特征图越小,且输出所述第二特征图的卷积层的卷积核大小越大时,生成越大的第二权重;
148.所述更新模块,包括:
149.函数值计算子模块,用于基于所述第一权重、所述第二权重及所述预测结果,计算损失函数值;
150.反向更新子模块,用于基于所述损失函数值反向更新所述预设模型,以使所述第二特征图的第一权重与第二权重相近,得到行人重识别模型。
151.可选的,在本发明实施例提供的一种可行方式中,所述样本获取模块,还包括:
152.类别获取子模块,用于获取所有所述第一图像样本中每个行人的类别;
153.进而,所述函数值计算子模块,包括:
154.差异损失计算单元,用于基于每个所述第二特征图的第一权重和第二权重,计算权重差异损失;
155.分类损失计算单元,用于基于每个图像样本对应的特征表示,计算特征分类损失;
156.预测损失计算单元,用于基于所有所述第一图像样本中每个行人的类别和所述预测结果,计算类别预测损失;
157.损失函数值获取单元,用于基于所述权重差异损失、所述特征分类损失及类别预测损失,得到损失函数值。
158.可选的,在本发明实施例提供的一种可行方式中,所述缩放模块,包括:
159.缩小子模块,用于将每个所述第一图像样本的尺寸缩小以得到预设数量个第二图像样本;
160.均值计算子模块,用于计算每个所述第一图像样本的像素均值;
161.放大子模块,用于利用每个所述第一图像样本的像素均值,将每个所述第一图像样本的尺寸增大以得到预设数量个第三图像样本。
162.可选的,在本发明实施例提供的一种可行方式中,卷积核大小为1
×
1的第一卷积层、卷积核大小为3
×
3的第二卷积层及卷积核大小为5
×
5的第三卷积层。
163.本技术实施例提供的行人重识别模型的训练装置300能够实现实施例1对应的行人重识别模型的训练方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
164.实施例4
165.与本发明实施例1提供的行人重识别方法相对应的,本发明实施例2还提供一种行人重识别装置,参照图5,示出了本发明实施例提供的行人重识别装置的结构示意图,本发明实施例提供的行人重识别装置400,包括:
166.图像获取模块410,用于获取多张待识别图像;
167.重识别模块420,用于将所述多张待识别图像输入至行人重识别模型,确定所述多张待识别图像中的每个行人的类别,其中,所述行人重识别模型通过如实施例1对应的行人重识别模型的训练方法得到。
168.本技术实施例提供的行人重识别装置400能够实现实施例2对应的行人重识别方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
169.本发明实施例还提供一种计算机设备,包括存储器以及处理器,存储器存储有计算机程序,计算机程序在处理器上运行时执行如实施例1对应的行人重识别模型的训练方法,或如实施例2对应的行人重识别方法。
170.本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序在处理器上运行时执行如实施例1对应的行人重识别模型的训练方法,或如实施例2对应的行人重识别方法。
171.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
172.另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
173.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
174.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。