本公开涉及使用机器学习模型来进行针对映现于图像数据的特定的对象的重识别的技术。此外,涉及以进行重识别为目的来进行机器学习模型的学习的技术。
背景技术:
1、在专利文献1中公开了一种物体的重识别的方法,该方法包括:将卷积神经网络(cnn:convolutional neural network)应用于表示物体的图像的对(pair);以及计算针对图像的对是否表示同一物体的肯定的配对概率。而且,公开了专利文献1的cnn具备:第一卷积层;第一最大池化层,求出各图像的特征量映射图;交叉输入邻近差分层,生成邻近差分映射图;图像块概要(patch summary)层,生成图像块概要特征量映射图;第一完全连接层,生成特征向量;第二完全连接层,生成表示肯定的配对类(pair class)和否定的配对类的两个得分;以及归一化指数(softmax)层,生成肯定的配对概率和否定的配对概率。
2、在专利文献2公开了一种物品类别识别方法,该物品类别识别方法包括以下步骤:获取被识别物品图像,并提取被识别物品图像的边缘掩模(edge mask)信息;以及根据边缘掩模信息来对被识别物品图像进行裁剪处理,根据被裁剪处理后的被识别物品图像和预先设定的物品类别识别模型,对被识别物品图像的类别进行识别,并输出识别结果。
3、现有技术文献
4、专利文献
5、专利文献1:日本特开2018―506788号公报
6、专利文献2:日本特开2021―117969号公报
7、近年来,正在推进关于重识别的技术的开发,该重识别针对映现于某个图像数据的特定的对象,进行与映现于其他图像数据的特定的对象的识别。重识别在对象的跟踪、周边环境的辨别中是有用的。
8、在重识别中,一般使用机器学习模型。另一方面,就映现于各图像数据的特定的对象而言,假定视点、照明的状况、遮挡的发生、分辨率等不同。因此,重识别是在机器学习中很难的任务之一。特别是,特定的对象是人物的人物重识别要求更高的精度,同时假定服装的差异、遮挡的发生的频度高,因此是更难的任务。
9、关于重识别,如专利文献1或专利文献2中所公开的那样,关于机器学习模型的构成、使用了机器学习模型的重识别方法以及机器学习模型的学习方法,提出了各种各样的技术。另一方面,假定根据学习环境、输入数据的形式,对于机器学习而言适当的技术不同。因此,关于重识别,要求能期待精度的提高的进一步的技术的提出。
技术实现思路
1、本公开的一个目的在于,关于针对映现于图像数据的特定的对象的重识别,提出使精度提高的技术。
2、第一公开涉及机器学习模型的学习方法。在此,所述机器学习模型包括:分别依次连接的多个特征提取层;以及分别与所述多个特征提取层中的任一个连接的多个嵌入层。此外,所述多个特征提取层分别被配置为针对输入数据提取特征映射图,所述多个嵌入层分别被配置为将所述特征映射图映射到规定的维度的嵌入空间上的特征向量,并输出所述特征向量。
3、第一公开的学习方法包括:获取分别与正确答案标签建立了对应的多个训练数据;将所述多个训练数据输入至所述机器学习模型;获取作为所述多个嵌入层的输出的多个输出数据集;基于所述多个输出数据集来计算损失函数;以及在所述损失函数减少的方向上进行所述机器学习模型的学习。在此,所述多个输出数据集分别是关于所述多个嵌入层中的一个嵌入层的针对所述多个训练数据的输入的输出集合。此外,所述损失函数包括与所述多个输出数据集分别对应地给出的多个距离学习项,关于对应的所述输出数据集,针对所述多个训练数据中的与相同的所述正确答案标签建立了对应的训练数据的输出之间的所述嵌入空间上的距离越短,此外,针对所述多个训练数据中的与不同的所述正确答案标签建立了对应的训练数据的输出之间的所述嵌入空间上的距离越长,所述多个距离学习项分别被给出为越小的值。
4、第二公开涉及相对于第一公开的学习方法还具有以下的特征的学习方法。
5、所述多个训练数据分别是特定的对象所映现的图像数据。此外,所述正确答案标签是所述特定的对象的分类。
6、第三公开涉及相对于第二公开的学习方法还具有以下的特征的学习方法。
7、所述特定的对象是人物。此外,所述分类是个人的指定。
8、第四公开涉及重识别装置。
9、第四公开的重识别装置具备:至少一个处理器;以及存储器,与所述至少一个处理器耦合,储存有多个能执行的指令和机器学习模型。在此,所述机器学习模型包括:分别依次连接的多个特征提取层;以及分别与所述多个特征提取层中的任一个连接的多个嵌入层。此外,所述多个特征提取层分别被配置为针对输入数据提取特征映射图,所述多个嵌入层分别被配置为将所述特征映射图映射到规定的维度的嵌入空间上的特征向量,并输出所述特征向量。并且,所述多个能执行的指令被配置为使所述至少一个处理器执行:获取特定的对象所映现的第一图像数据和第二图像数据的处理;将所述第一图像数据作为所述机器学习模型的输入来获取作为所述多个嵌入层的输出的多个第一输出数据的处理;将所述第二图像数据作为所述机器学习模型的输入来获取作为所述多个嵌入层的输出的多个第二输出数据的处理;以及基于所述多个第一输出数据和所述多个第二输出数据,实施映现于所述第一图像数据的所述特定的对象与映现于所述第二图像数据的所述特定的对象的识别的识别处理。此外,识别处理包括:计算所述多个第一输出数据的每一个与所述多个第二输出数据的每一个之间的所述嵌入空间上的多个距离;以及鉴于所述多个距离中的规定数量以上的距离为规定的阈值以下,视为映现于所述第一图像数据的所述特定的对象与映现于所述第二图像数据的所述特定的对象相同。
10、第五公开涉及相对于第四公开的重识别装置还具有以下的特征的重识别装置。
11、所述特定的对象是人物。
12、第六公开涉及相对于第四或第五公开的重识别装置还具有以下的特征的重识别装置。
13、所述机器学习模型通过第一公开的学习方法进行学习。
14、第七公开涉及使用机器学习模型来进行针对映现于图像数据的特定的对象的重识别的重识别方法。在此,所述机器学习模型包括:分别依次连接的多个特征提取层;以及分别与所述多个特征提取层中的任一个连接的多个嵌入层。此外,所述多个特征提取层分别被配置为针对输入数据提取特征映射图,所述多个嵌入层分别被配置为将所述特征映射图映射到规定的维度的嵌入空间上的特征向量,并输出所述特征向量。
15、第七公开的重识别方法包括:获取所述特定的对象所映现的第一图像数据和第二图像数据;将所述第一图像数据作为所述机器学习模型的输入来获取作为所述多个嵌入层的输出的多个第一输出数据;将所述第二图像数据作为所述机器学习模型的输入来获取作为所述多个嵌入层的输出的多个第二输出数据;以及基于所述多个第一输出数据和所述多个第二输出数据,实施映现于所述第一图像数据的所述特定的对象与映现于所述第二图像数据的所述特定的对象的识别。在此,实施所述识别包括:计算所述多个第一输出数据的每一个与所述多个第二输出数据的每一个之间的所述嵌入空间上的多个距离;以及鉴于所述多个距离中的规定数量以上的距离为规定的阈值以下,视为映现于所述第一图像数据的所述特定的对象与映现于所述第二图像数据的所述特定的对象相同。
16、第八公开的重识别方法涉及相对于第七公开的重识别方法还具有以下的特征的重识别方法。
17、所述特定的对象是人物。
18、第九公开涉及相对于第七或第八公开的重识别方法还具有以下的特征的重识别方法。
19、所述机器学习模型通过第一公开的学习方法进行学习。
20、第十公开涉及记录有使计算机执行机器学习模型的学习的计算机程序的计算机可读记录介质。在此,所述机器学习模型包括:分别依次连接的多个特征提取层;以及分别与所述多个特征提取层中的任一个连接的多个嵌入层。此外,所述多个特征提取层分别被配置为针对输入数据提取特征映射图,所述多个嵌入层分别被配置为将所述特征映射图映射到规定的维度的嵌入空间上的特征向量,并输出所述特征向量。
21、第十公开的计算机程序被配置为使计算机执行:获取分别与正确答案标签建立了对应的多个训练数据的处理;将所述多个训练数据输入至所述机器学习模型的处理;获取作为所述多个嵌入层的输出的多个输出数据集的处理;基于所述多个输出数据集来计算损失函数的处理;以及在所述损失函数减少的方向上进行所述机器学习模型的学习的处理。在此,所述多个输出数据集分别是关于所述多个嵌入层中的一个嵌入层的针对所述多个训练数据的输入的输出集合。此外,所述损失函数包括与所述多个输出数据集分别对应地给出的多个距离学习项,关于对应的所述输出数据集,针对所述多个训练数据中的与相同的所述正确答案标签建立了对应的训练数据的输出之间的所述嵌入空间上的距离越短,此外,针对所述多个训练数据中的与不同的所述正确答案标签建立了对应的训练数据的输出之间的所述嵌入空间上的距离越长,则所述多个距离学习项分别被给出为越小的值。
22、第十一公开涉及记录有使计算机执行使用了机器学习模型的针对映现于图像数据的特定的对象的重识别的计算机程序的计算机可读记录介质。在此,所述机器学习模型包括:分别依次连接的多个特征提取层;以及分别与所述多个特征提取层中的任一个连接的多个嵌入层。此外,所述多个特征提取层分别被配置为针对输入数据提取特征映射图,所述多个嵌入层分别被配置为将所述特征映射图映射到规定的维度的嵌入空间上的特征向量,并输出所述特征向量。
23、第十一公开的计算机程序被配置为使计算机执行:获取所述特定的对象所映现的第一图像数据和第二图像数据的处理;将所述第一图像数据作为所述机器学习模型的输入来获取作为所述多个嵌入层的输出的多个第一输出数据的处理;将所述第二图像数据作为所述机器学习模型的输入来获取作为所述多个嵌入层的输出的多个第二输出数据的处理;以及基于所述多个第一输出数据和所述多个第二输出数据,实施映现于所述第一图像数据的所述特定的对象与映现于所述第二图像数据的所述特定的对象的识别的识别处理。在此,识别处理包括:计算所述多个第一输出数据的每一个与所述多个第二输出数据的每一个之间的所述嵌入空间上的多个距离;以及鉴于所述多个距离中的规定数量以上的距离为规定的阈值以下,视为映现于所述第一图像数据的所述特定的对象与映现于所述第二图像数据的所述特定的对象相同。
24、发明效果
25、根据本公开,机器学习模型的输出是多个嵌入层所输出的多个特征向量。并且,根据关于多个特征向量的多个距离中的规定数量以上的距离是否为规定的阈值以下,实施映现于图像数据的特定的对象的识别。由此,重识别通过对尺度不同的多个特征映射图测定相似度来实施。进而,能提高重识别的精度。