本发明涉及计算机视觉,尤其涉及一种基于transformer和融合聚类的对比学习无监督行人重识别方法。
背景技术:
1、随着深度学习技术的不断发展,有监督行人重识别方法在公共数据集上取得了令人满意的性能。然而有监督行人重识别是数据驱动的,往往依赖大量带有标签的数据来训练模型,需要大量人力和时间来注释数据,这极大程度上限制了有监督方法的可扩展性和通用性。因此,越来越多的研究指向无监督行人重识别,直接从容易采集的不带标签的数据中提取判别特征并训练模型,这在现实场景中具有更大的部署潜力。现有与之相关的技术可以分为两类:无监督行人重识别、对比学习方法。(1)无监督行人重识别算法方面,现有许多无监督行人重识别方法一般先利用聚类算法对无标签的训练集图像进行聚类,然后为在同一个簇中的实例分配相同的伪标签,再用生成的伪标签以有监督的方式训练模型。然而聚类算法对超参数存在依赖,不合适的超参数对模型的性能影响很大,且需要通过大量实验才可以找出合适的超参数。(2)对比学习方法方面,对比学习中集群代理的选择至关重要,不准确的代理会引导模型往错误的方向更新,且聚类后的集群形状各异,直接使用均值特征作为集群代理不可靠。对比学习中集群代理的选择至关重要,不准确的代理会引导模型往错误的方向更新,且聚类后的集群形状各异,直接使用均值特征作为集群代理不可靠。
技术实现思路
1、发明目的:本发明的目的是提供了一种基于transformer和融合聚类的对比学习无监督行人重识别方法,解决背景技术中存在的问题。
2、技术方案:本发明所述的一种基于transformer和融合聚类的对比学习无监督行人重识别方法,包括以下步骤:
3、(1)监控摄像头拍摄行人视频上传至云端服务器,服务器对行人进行跟踪并裁剪图片;
4、(2)使用transformer网络提取行人图像特征;
5、(3)融合聚类模块对提取的图像特征进行融合聚类;
6、(4)利用多级对比学习模块获取实例之间的关系。
7、进一步的,步骤(1)具体如下:采用faster rcnn算法检测行人,并画出行人检测框,统一裁剪成256×256像素规格的行人图片组成图库集。
8、进一步的,步骤(2)具体如下:首先,将输入图像经过批处理归一化ibn的卷积层处理,生成特征映射;其中,c代表图片的通道数,h代表的是图片的高度,w 代表的是图片的宽度;然后将图像特征分割为p个不重叠的块,并将每个块投影成一个d维特征作为嵌入标记;并附加一个额外的可学习类令牌添加到输入序列中,将其作为transformer网络的输入;最后,送入到包含l个transformer层的网络中,每层都由多头注意力msa和多层感知mlp模块组成;transformer网络最终的输出记为。
9、进一步的,步骤(3)具体如下:使用dbscan聚类算法生成伪标签来进行模型训练;在聚类阶段,采用不同的超参数运行dbscan聚类算法,获取多个聚类结果,将多个聚类结果进行融合;将属于同一个集群的行人图像分配相同的伪标签;最终得到新的带有标签的数据集,表示为;其中,表示集群的标签,为实例数量,q表示为集群的数量;其中,超参数为0.45,0.5,0.55,0.6。
10、进一步的,步骤(4)具体如下:创建内存库存储集群特征和实例特征,利用基于困难样本挖掘的实例级对比损失hil和基于内存更新策略的集群级对比损失mul进行训练;损失函数公式如下:
11、;
12、其中,代表实例级对比损失hil,则表示集群级对比损失mul,参数是介于0和1之间的平衡因子;
13、基于困难样本挖掘的实例级对比损失hil的定义如下:
14、;
15、其中,q为查询实例特征,p表示样本对的数量,为温度超参数,为同一伪标签内余弦相似度排名最小的实例特征,为困难负实例特征,对应于第i聚类,其余弦相似度排名最高;
16、;
17、;
18、其中,表示q所属集群中的第k个正样本,代表第i个聚类中的第k个样本,q为查询实例特征,k表示取值范围从1到k的所有整数;
19、基于内存更新策略的集群级对比损失mul的定义如下:
20、;
21、其中,q为查询实例特征,为集群i的代理特征;为查询实例q所属集群的代理特征,为温度超参数。
22、有益效果:与现有技术相比,本发明具有如下显著优点:采用自动化的方式对行人进行识别,减少了人工走访调查的工作量,且无监督行人重识别从容易采集的不带标签的数据中提取判别特征并训练模型,节约了大量的人力成本和时间成本。
1.一种基于transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,步骤(1)具体如下:采用faster rcnn算法检测行人,并画出行人检测框,统一裁剪成256×256像素规格的行人图片组成图库集。
3.根据权利要求1所述的一种基于transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,步骤(2)具体如下:首先,将输入图像经过批处理归一化ibn的卷积层处理,生成特征映射;其中,c代表图片的通道数,h代表的是图片的高度,w 代表的是图片的宽度;然后将图像特征分割为p个不重叠的块,并将每个块投影成一个d维特征作为嵌入标记;并附加一个额外的可学习类令牌添加到输入序列中,将其作为transformer网络的输入;最后,送入到包含l个transformer层的网络中,每层都由多头注意力msa和多层感知mlp模块组成;transformer网络最终的输出记为。
4.根据权利要求1所述的一种基于transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,步骤(3)具体如下:使用dbscan聚类算法生成伪标签来进行模型训练;在聚类阶段,采用不同的超参数运行dbscan聚类算法,获取多个聚类结果,将多个聚类结果进行融合;将属于同一个集群的行人图像分配相同的伪标签;最终得到新的带有标签的数据集,表示为;其中,表示集群的标签,为实例数量,q表示为集群的数量;其中,超参数为0.45,0.5,0.55,0.6。
5.根据权利要求1所述的一种基于transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,步骤(4)具体如下:创建内存库存储集群特征和实例特征,利用基于困难样本挖掘的实例级对比损失hil和基于内存更新策略的集群级对比损失mul进行训练;损失函数公式如下: