基于像素和特征转移相融合的无监督行人再识别方法与流程

文档序号:23895777发布日期:2021-02-09 12:14阅读:103来源:国知局
基于像素和特征转移相融合的无监督行人再识别方法与流程

[0001]
本发明属于模式识别技术领域,具体涉及一种基于像素和特征转移相融合的无监督行人再识别方法、系统、装置。


背景技术:

[0002]
行人再识别的目标是匹配不同摄像机下行人图像,对于一个摄像机中的任何一个查询的行人图像,需要找到其他摄像机中具有相同身份的所有行人图像。行人再识别技术广泛应用到视频监控、智慧城市、公共安全等领域。然而,由于视图、姿势、照明、遮挡造成的类内剧烈变化,以及类间相似度小,行人再识别仍然是一个具有挑战性的问题。
[0003]
传统的行人再识别方法可分为基于特征学习的方法和基于度量学习的方法。然而,这些方法受制于语义较差的手工特征和判别性弱的线性度量函数。受深度学习最新进展的启发,有人通过同时学习特征表示和距离度量的深度神经网络提出了深度监督行人再识别方法。然而,这些方法大多是以监督的方式进行训练,这就需要从每个摄像头中获取大量的准确标记数据。考虑到不同场景下的行人图像存在巨大差异,也就是所谓的域偏移,直接使用在一个场景下训练的模型到另一个场景下通常表现不佳。对海量的在线行人图像进行标注以支持监督学习是昂贵且不切实际的。这些弱点严重限制了监督式行人再识别方法的可扩展性。而通过无监督的行人再识别方法能够获得更好的可扩展性。
[0004]
目前,行人再识别的重点关注在无监督跨数据集,它试图将现有标签数据集(源域)中的跨相机身份信息知识适配到无标签数据集(目标域)。现有的无监督跨数据集行人再识别方法可以分为两类,即像素转移和特征转移行人再识别方法。像素转移的行人重识别方法首先通过生成模型将标注的源数据转换成目标数据,然后利用目标标注的数据以监督的方式训练目标模型,可以显著降低图像空间中的低级分歧,如照度、颜色等。特征转移行人再识别方法先用源数据以监督的方式训练源模型,然后用kl散度等分布距离指标拉近源和目标特征,使源模型适应目标数据,善于减少高层次的变化。然而,这两类解决方案都有其弱点。一方面,基于特征转移的行人再识别方法拉近域级的源特征和目标特征,可能导致语义错位,损害性能。另一方面,对于像素转移的行人再识别方法来说,分辨率、背景、光照度等意想不到的低级特征会转移到目标域。基于此,本发明提出了一种基于像素和特征转移相融合的无监督行人再识别方法。


技术实现要素:

[0005]
为了解决现有技术中的上述问题,即为了解决现有的跨数据集无监督行人再识别方法检索精度低、识别准确度差的问题,本发明第一方面,提出了一种基于像素转移和特征转移相融合的无监督行人再识别方法,该方法包括:
[0006]
步骤s10,获取待识别的行人图像,作为输入图像;
[0007]
步骤s20,基于所述输入图像,通过预训练的行人再识别模型得到行人再识别结果;
[0008]
所述行人再识别模型基于残差网络构建,其训练方法为;
[0009]
步骤a10,获取源域图像、目标域图像;所述源域图像为有标签的行人图像;所述目标域图像为无标签的行人图像;
[0010]
步骤a20,提取源域图像、目标域图像的特征,作为第一特征、第二特征;结合所述第一特征进行聚类,并将聚类后各类的索引作为对应类中各目标域图像的伪标签;
[0011]
步骤a30,基于所述伪标签、所述第二特征,通过预构建的交叉损失函数、三元组损失函数计算交叉熵损失、三元组损失;将所述交叉熵损失、所述三元组损失求和,得到目标域图像的总损失,作为第一损失;
[0012]
步骤a40,基于所述源域图像对应的标签、所述第一特征,通过步骤a30的方法得到源域图像的总损失,作为第二损失;
[0013]
步骤a50,基于所述第一特征,通过预构建的gan损失函数计算gan损失;并基于所述第一特征、所述第二特征,通过预构建的判别器获取判别结果,并计算判别损失;
[0014]
步骤a60,将所述gan损失、所述判别损失、所述第一损失、所述第二损失进行加权求和,作为特征转换损失;
[0015]
步骤a70,基于所述第一特征、所述第二特征,通过预构建的解码器重构目标图像、源域图像;所述解码器基于k个卷积层构建;
[0016]
步骤a80,基于重构的源域图像及原源域图像,计算l2损失、gan损失,并将所述l2损失、所述gan损失进行求和,得到源域重构损失;
[0017]
步骤a90,基于重构的目标域图像及原目标域图像,通过步骤a80的方法得到目标域重构损失;并将所述源域重构损失、所述目标域重构损失求和,作为像素转移损失;
[0018]
步骤a100,分别将所述第一特征与重构的目标域图像的特征、所述第二特征与重构的源域图像的特征进行双线性池化融合,得到源域池化特征、目标域池化特征,并通过行人再识别模型得到识别结果;基于所述源域池化特征、所述目标域池化特征以及对应的识别结果,通过步骤s30的方法,得到各池化特征对应的总损失,并求和,作为分类损失;
[0019]
步骤a110,将所述特征转换损失、所述像素转移损失、所述分类损失求和,更新所述行人再识别模型的网络参数;
[0020]
步骤a120,循环执行步骤a10-a110,直至得到训练好的行人再识别模型。
[0021]
在一些优选的实施方式中,步骤a20中“提取源域图像、目标域图像的特征”,其方法为:通过预构建的编码器提取源域图像、目标域图像的特征;所述编码器基于残差网络构建,将该残差网络的layer4舍弃,并在pool5层应用0.5的dropout,layer3的步长设置为1。
[0022]
在一些优选的实施方式中,构建所述解码器的k个卷积层,除最后一个卷积层外,其他各卷积层均采用批归一化,激活函数采用relu,最后一个卷积层由tanh映射到[-1,1]范围内。
[0023]
在一些优选的实施方式中,所述判别器包括由leaky relu激活的三个卷积层和一个fc层。
[0024]
在一些优选的实施方式中,所述预构建的交叉损失函数为:
[0025][0026]
其中,l
cls
表示交叉熵损失,y
i
表示第i张目标域图像的伪标签或源于图像对应的
标签,i
i
表示第i张目标域图像或源域图像,n表示目标域图像或源域图像的数量。
[0027]
在一些优选的实施方式中,步骤a50中“计算判别损失”,其方法为:
[0028][0028][0029]
其中,表示判别损失,表示第i张源域图像的特征,表示第i张目标域图像的特征,dis表示判别器,i表示下标,n
s
表示源域图像的数量,n
t
表示目标域图像的数量。
[0030]
在一些优选的实施方式中,“分别将所述第一特征与重构的目标域图像的特征、所述第二特征与重构的源域图像的特征进行双线性池化融合,得到源域池化特征、目标域池化特征”,其方法为:
[0031]
f
pt
=p(f
t
,f
t2s
)
[0032]
f
ps
=p(f
s
,f
s2s
)
[0033]
其中,f
s
、f
t
分别表示源域图像i
s
的特征、目标域图像i
t
的特征,f
s2s
和f
t2s
分别是他们重建后的源域图像的特征、目标域图像的特征,f
ps
、f
pt
分别表示源域池化特征、目标域池化特征,p表示双线性池化。
[0034]
本发明的第二方面,提出了一种基于像素转移和特征转移相融合的无监督行人再识别系统,该系统包括获取模块、识别模块;
[0035]
所述获取模块,配置为获取待识别的行人图像,作为输入图像;
[0036]
所述识别模块,配置为基于所述输入图像,通过预训练的行人再识别模型得到行人再识别结果;
[0037]
所述行人再识别模型基于残差网络构建,其训练方法为;
[0038]
步骤a10,获取源域图像、目标域图像;所述源域图像为有标签的行人图像;所述目标域图像为无标签的行人图像;
[0039]
步骤a20,提取源域图像、目标域图像的特征,作为第一特征、第二特征;
[0040]
步骤a30,基于所述源域图像对应的标签、所述第一特征,通过预构建的交叉损失函数、三元组损失函数计算交叉熵损失、三元组损失,并求和,得到源域图像的总损失,作为第一损失;
[0041]
步骤a40,根据所述第二特征进行聚类,将聚类后各类的索引作为对应类中各目标域图像的伪标签;基于所述伪标签、所述第二特征,通过步骤a30的方法,得到目标域图像的总损失,作为第二损失;
[0042]
步骤a50,基于所述第二特征,通过预构建的gan损失函数计算gan损失;并基于所述第一特征、所述第二特征,通过预构建的判别器获取判别结果,并计算判别损失;
[0043]
步骤a60,将所述gan损失、所述判别损失、所述第一损失、所述第二损失进行加权求和,作为特征转换损失;
[0044]
步骤a70,基于所述第一特征、所述第二特征,通过预构建的解码器重构目标图像、源域图像;所述解码器基于k个卷积层构建;
[0045]
步骤a80,基于重构的源域图像及原源域图像,计算l2损失、gan损失,并将所述l2损失、所述gan损失进行求和,得到源域重构损失;
[0046]
步骤a90,基于重构的目标域图像及原目标域图像,通过步骤a80的方法得到目标域重构损失;并将所述源域重构损失、所述目标域重构损失求和,作为像素转移损失;
[0047]
步骤a100,分别将所述第一特征与重构的目标域图像的特征、所述第二特征与重构的源域图像的特征进行双线性池化融合,得到源域池化特征、目标域池化特征,并通过行人再识别模型得到识别结果;基于所述源域池化特征、所述目标域池化特征以及对应的识别结果,通过步骤s30的方法,得到各池化特征对应的总损失,并求和,作为分类损失;
[0048]
步骤a110,将所述特征转换损失、所述像素转移损失、所述分类损失求和,更新所述行人再识别模型的网络参数;
[0049]
步骤a120,循环执行步骤a10-a110,直至得到训练好的行人再识别模型。
[0050]
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于像素转移和特征转移相融合的无监督行人再识别方法。
[0051]
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于像素转移和特征转移相融合的无监督行人再识别方法。
[0052]
本发明的有益效果:
[0053]
本发明提高了现有跨数据集的无监督行人再识别方法的检索精度以及识别准确度。
[0054]
(1)本发明提出像素转换和特征转换的联合学习,并用于跨数据集无监督行人再识别,既享受了它们的优点,又克服了缺点。它包括特征转换学习的编码器和像素转换学习的解码器。编码器的任务是通过学习一个具有gan损失函数的一致的特征空间,将特征知识从源域转换到目标域。同时,解码器的任务是通过增强目标域的某一特征重建其原始图像,将像素知识从源域转换到目标域。在传输像素知识的同时,可以避免分辨率、背景等低级噪声的编码。
[0055]
(2)为了充分利用源域像素知识,本发明利用编码器提取重构后的源域风格图像的特征,并使用双线性池化层将其与原始目标图像的特征进行融合。由于双线性池化使用了二阶统计,并且可以交互式地对特征进行建模,所以无论是像素转换,还是特征转换学习的信息都得到了增强,提高了模型的识别准确度。
附图说明
[0056]
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
[0057]
图1是本发明一种实施例的基于像素转移和特征转移相融合的无监督行人再识别方法的流程示意图;
[0058]
图2是本发明一种实施例的基于像素转移和特征转移相融合的无监督行人再识别系统的框架示意图;
[0059]
图3是本发明一种实施例的不同行人再识别方法在无监督跨数据集的学习过程示意图;
[0060]
图4是本发明一种实施例的行人再识别模型的训练过程的示意图。
具体实施方式
[0061]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062]
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0063]
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0064]
本发明的基于像素转移和特征转移相融合的无监督行人再识别方法,如图1所示,包括以下步骤:
[0065]
步骤s10,获取待识别的行人图像,作为输入图像;
[0066]
步骤s20,基于所述输入图像,通过预训练的行人再识别模型得到行人再识别结果;
[0067]
所述行人再识别模型基于残差网络构建,其训练方法为;
[0068]
步骤a10,获取源域图像、目标域图像;所述源域图像为有标签的行人图像;所述目标域图像为无标签的行人图像;
[0069]
步骤a20,提取源域图像、目标域图像的特征,作为第一特征、第二特征;
[0070]
步骤a30,基于所述源域图像对应的标签、所述第一特征,通过预构建的交叉损失函数、三元组损失函数计算交叉熵损失、三元组损失,并求和,得到源域图像的总损失,作为第一损失;
[0071]
步骤a40,根据所述第二特征进行聚类,将聚类后各类的索引作为对应类中各目标域图像的伪标签;基于所述伪标签、所述第二特征,通过步骤a30的方法,得到目标域图像的总损失,作为第二损失;
[0072]
步骤a50,基于所述第二特征,通过预构建的gan损失函数计算gan损失;并基于所述第一特征、所述第二特征,通过预构建的判别器获取判别结果,并计算判别损失;
[0073]
步骤a60,将所述gan损失、所述判别损失、所述第一损失、所述第二损失进行加权求和,作为特征转换损失;
[0074]
步骤a70,基于所述第一特征、所述第二特征,通过预构建的解码器重构目标图像、源域图像;所述解码器基于k个卷积层构建;
[0075]
步骤a80,基于重构的源域图像及原源域图像,计算l2损失、gan损失,并将所述l2损失、所述gan损失进行求和,得到源域重构损失;
[0076]
步骤a90,基于重构的目标域图像及原目标域图像,通过步骤a80的方法得到目标域重构损失;并将所述源域重构损失、所述目标域重构损失求和,作为像素转移损失;
[0077]
步骤a100,分别将所述第一特征与重构的目标域图像的特征、所述第二特征与重构的源域图像的特征进行双线性池化融合,得到源域池化特征、目标域池化特征,并通过行人再识别模型得到识别结果;基于所述源域池化特征、所述目标域池化特征以及对应的识别结果,通过步骤s30的方法,得到各池化特征对应的总损失,并求和,作为分类损失;
[0078]
步骤a110,将所述特征转换损失、所述像素转移损失、所述分类损失求和,更新所述行人再识别模型的网络参数;
[0079]
步骤a120,循环执行步骤a10-a110,直至得到训练好的行人再识别模型。
[0080]
为了更清晰地对本发明基于像素转移和特征转移相融合的无监督行人再识别方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
[0081]
下列实施例中先对行人再识别模型的训练过程进行详述,再对基于像素转移和特征转移相融合的无监督行人再识别方法获取行为类别的过程进行详述。
[0082]
1、行人再识别模型的训练过程,如图4所示
[0083]
步骤a10,获取源域图像、目标域图像;所述源域图像为有标签的行人图像;所述目标域图像为无标签的行人图像。
[0084]
在本实施例中,在训练和测试中除了使用一个目标无标签数据集外,还导入一个有标签的源数据集,以提高训练时的性能。其中目标无标签数据集中的图像作为目标域图像,源数据集中的图像作为源域图像。即图4中的源图片、目标图片。
[0085]
步骤a20,提取源域图像、目标域图像的特征,作为第一特征、第二特征。
[0086]
在本实施例中,通过预构建的编码器提取源图像、目标图像的特征,作为第一特征,第二特征,具体过程如公式(1)所示:
[0087]
f=enc(i)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0088]
其中,i表示源域图像或目标域图像,f表示提取的特征,enc表示编码器。编码器采用imagenet预训练的残差网络构建(本发明中优选为resnet-50),将残差网络的最后一层layer4舍弃,并在pool5层应用0.5的dropout,将舍弃后的最后一层(即layer3)的步长优选设置为1。在本发明中,layer3、4指的是残差模块。
[0089]
步骤a30,基于所述源域图像对应的标签、所述第一特征,通过预构建的交叉损失函数、三元组损失函数计算交叉熵损失、三元组损失,并求和,得到源域图像的总损失,作为第一损失,
[0090]
源域图像是来自有标签的行人图像,目标域图像是没有标签的行人图像。因此,本实施例中先利用源域图像进行交叉熵和三元组损失的训练。
[0091]
公式(2)为交叉熵损失函数:
[0092][0093]
其中,l
cls
表示交叉熵损失,y
i
表示第i张图像对应的标签,i
i
表示第i张图像,n表示源域图像或目标域图像的数量。
[0094]
公式(3)为三元组损失函数:
[0095][0096]
其中,l
tri
表示三元组损失,m表示设定常数,f
i
表示第i张图像提取的特征,表示f
i
的正负样本。
[0097]
其中,源域图像对应的交叉熵损失函数如图(4)所示:
[0098]
[0099]
其中,表示源域图像对应的交叉熵损失,表示第i张源域图像对应的标签,表示第i张源域图像,n
s
表示源域图像的数量。
[0100]
源域图像对应的三元组损失函数,如公式(5)所示:
[0101][0102]
其中,表示源域图像对应的三元组损失,表示第i张源域图像提取的特征,表示的正负样本。
[0103]
将源域图像的交叉熵损失、三元组损失求和,得到源域图像的总损失如公式(6)所示:
[0104][0105]
步骤a40,根据所述第二特征进行聚类,将聚类后各类的索引作为对应类中各目标域图像的伪标签;基于所述伪标签、所述第二特征,通过步骤a30的方法,得到目标域图像的总损失,作为第二损失;
[0106]
在本实施例中,基于提取的目标域图像的特征,通过聚类算法得到无标签簇,学习样本的簇标签(即伪标签)。学习伪标签的具体过程如下:
[0107]
基于提取的目标域图像的特征,计算距离矩阵,并对所有图像特征进行k近邻编码,然后进行基于密度的聚类,将不同的图像分配到不同的类;
[0108]
聚类后,将聚类后各类的索引作为对应类中各目标域图像的伪标签。
[0109]
基于目标域图像对应的伪标签、所述第二特征,计算目标域图像对应的交叉熵损失、三元组损失,如公式(7)(8)所示:
[0110][0111][0112]
其中,表示目标域图像对应的交叉熵损失,表示第i张目标域图像对应的标签,表示第i张目标域图像,n
t
表示目标域图像的数量,表示目标域图像对应的三元组损失,表示第i张目标域图像提取的特征,表示的正负样本。
[0113]
将目标域图像对应的交叉熵损失、三元组损失求和,得到目标域图像的总损失如公式(9)所示:
[0114][0115]
步骤a50,基于所述第一特征,通过预构建的gan损失函数计算gan损失;并基于所述第一特征、所述第二特征,通过预构建的判别器获取判别结果,并计算判别损失;
[0116]
在本实施例中,考虑到源域和目标域之间的差距,以及学习到的编码器可能更偏向于源域图像,有必要使编码器enc适应目标域。在这里,提出通过从源特征(第一特征)和
目标特征(第二特征)中提取特征来适应,并采用gan损失函数(即图4中表示的l
gan
)。gan损失可以降低两个分布之间的kl散度。如(10)所示。
[0117][0118]
其中,表示编码损失,n
s
表示源域图像的数量,n
t
表示目标域图像的数量,dis表示区分目标特征和源特征的判别器。判别器包括由leaky relu激活的三个卷积层和一个fc层。
[0119]
判别器的训练时的损失函数,如公式(11)所示:
[0120][0120][0121]
其中,表示判别损失。
[0122]
步骤a60,将所述gan损失、所述判别损失、所述第一损失、所述第二损失进行加权求和,作为特征转换损失;
[0123]
在本实施例中,将gan损失、判别损失、第一损失、第二损失进行加权求和,作为特征转换损失,如公式(12)所示:
[0124][0125]
如图3(a)所示,源域数据、目标域数据分别通过监督学习、无监督学习后对齐,这样特征转换通过减少源域数据集和目标域数据集之间的分歧来转移像素空间中的高级语义知识。
[0126]
步骤a70,基于所述第一特征、所述第二特征,通过预构建的解码器重构目标图像、源域图像;所述解码器基于k个卷积层构建;
[0127]
像素转换,在无监督的跨数据集人员行人再识别方面显示了其强大的性能。它们首先将目标域图像翻译成源域风格,然后提取相关特征。因此源域的低级信息可以转换到目标域。然而,由于原始图像的巨大差距和微不足道的变化,生成的图像没有必要保留身份信息。因此,这些生成的样本对特征学习有严重的副作用。而且,现有的转换方法都是两步走(先生成图像,再提取其特征),繁琐耗时,难以处理大规模数据集。与所有现有的像素转换无监督行人再识别方法中的前向不同,我们选择了后向信息,自然避免了生成图像不完善带来的噪声。
[0128]
在本实施例中,基于提取的源域图像的特征、目标域图像的特征,通过预构建的解码器重构源域图像、目标域图像。如公式(13)所实施:
[0129]
i-=dec(f)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0130]
其中,i-表示重构后的源域图像或目标域图像,f表示提取的源域图像的特征或目标域图像的特征,dec表示预构建的解码器。
[0131]
解码器基于k个卷积层构建,在本发明中,k优选设置为3。构建解码器的3个卷积层中,除最后一个卷积层外,其他各卷积层均采用批归一化,激活函数采用relu,最后一个卷积层由tanh映射到[-1,1]范围内
[0132]
步骤a80,基于重构的源域图像及原源域图像,计算l2损失、gan损失,并将所述l2
损失、所述gan损失进行求和,得到源域重构损失;
[0133]
在本实施例中,用一个解码器dec从源域学习低级信息,dec通过重建源域图像与源特征(源域图像的特征)来训练源数据。其中,对应的源域重构损失为:
[0134][0135]
其中,表示源域重构损失,即l2损失、gan损失的和,dis
pix
表示的是源图像和真实图像的判别器,dis表示的是目标图像和真实图像的判别器,前者是的解码器dec易于优化,后者增强了重建后的图像,减少了模糊,更加真实。dis判别器训练时的损失函数为:
[0136][0137]
步骤a90,基于重构的目标域图像及原目标域图像,通过步骤a80的方法得到目标域重构损失;并将所述源域重构损失、所述目标域重构损失求和,作为像素转移损失;
[0138]
在本实施例中,通过步骤a80的方法得到目标域重构损失,如公式(15)所示:。
[0139][0140]
将所述源域重构损失、所述目标域重构损失求和,作为像素转移损失l
pix
,如公式(16)所示:
[0141][0142]
如图3(b)所示,源域数据通过转换后进行监督学习,将源图像翻译成目标风格来转移像素空间中的低级知识。
[0143]
步骤a100,分别将所述第一特征与重构的目标域图像的特征、所述第二特征与重构的源域图像的特征进行双线性池化融合,得到源域池化特征、目标域池化特征,并通过行人再识别模型得到识别结果;基于所述源域池化特征、所述目标域池化特征以及对应的识别结果,通过步骤s30的方法,得到各池化特征对应的总损失,并求和,作为分类损失;
[0144]
在本实施例中,为了进一步提升性能,将特征转移和像素转移进行双线性池化融合(即图4中的重组特征)。具体如下:
[0145]
双线性池化,对于特征融合是有效的,假设一个特征图的高度是h,宽度是w,通道是c,将特征f上某一个通道的h*w维的特征表示为:
[0146]
f=[f1,f2,...,f
c
]
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0147]
对于双线性池化层的定义为:
[0148][0149]
其中,z
i
为双线性池化模型的输出特征,f1,f2表示待融合的特征,t表示转置,w∈r
c*c*o
是一个可训练参数,以获得o维来输出z。根据矩阵的因子化w
i
可以因子化为两个一阶向量u
i
∈r
c
,。输出的特征z
i
∈r
o
。对于特征f1和特征f2,经过双线性池化融合,最后的融合特征为:
[0150][0151]
其中,p表示双线性池化融合函数,q
t
∈r
d*o
是分类矩阵,是哈达玛积,d是超参数,f1,f2表示待融合的特征。
[0152]
为了进一步提升性能,明确将特征转移模块和像素转移模块进行双线性池化融合。最后融合后的双线性池化特征可以表示如式(19)(20)所示:
[0153]
f
pt
=p(f
t
,f
t2s
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)
[0154]
f
ps
=p(f
s
,f
s2s
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(20)
[0155]
其中,f
s
、f
t
分别表示源域图像i
s
的特征、目标域图像i
t
的特征,f
s2s
和f
t2s
分别是他们重建后的源域图像的特征、目标域图像的特征,f
ps
、f
pt
分别表示源域池化特征、目标域池化特征,p表示双线性池化。
[0156]
将f
ps
、f
pt
输入行人再识别模型,得到对应的识别结果,作为对应的标签,然后通过f
ps
、f
pt
以及对应的标签,输入公式(2)(3)得到对应的交叉熵损失、三元组损失,并求和得到分类损失,具体如公式(21)所示:
[0157][0158]
其中,l
f
表示特征转移模块和像素转移模块融合后的分类损失和三元组损失。
[0159]
如图3(c)所示,分别通过监督学习、无监督学习、对抗学习,将像素转移和特征转移两种类型的迁移学习统一在一个框架中,不仅可以同时转换高层次和低层次的知识,还可以对这两种知识相互增强。
[0160]
步骤a110,将所述特征转换损失、所述像素转移损失、所述分类损失求和,更新所述行人再识别模型的网络参数;
[0161]
在本实施例中,将特征转移损失、像素转移损失、融合后的损失求和,如公式(22)所示:
[0162]
l=l
feat
+l
pix
+l
f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0163]
其中,l表示行人再识别模型训练时的总损失。
[0164]
基于上述获取的总损失,更新行人再识别模型的网络参数。
[0165]
步骤a120,循环执行步骤a10-a110,直至得到训练好的行人再识别模型。
[0166]
在本实施例中,循环对行人再识别模型训练,直至得到训练好的行人再识别模型。
[0167]
2、基于像素转移和特征转移相融合的无监督行人再识别方法
[0168]
步骤s10,获取待识别的行人图像,作为输入图像;
[0169]
在本实施例中,获取待识别的行人图像。
[0170]
步骤s20,基于所述输入图像,通过预训练的行人再识别模型得到行人再识别结果;
[0171]
在本实施例中,通过基于残差网络构建的行人检测模型得到输入图像中各候选区域与预获取的待搜索行人目标的图像的相似度并排序,排序后选取前m个候选区域作为检测区域;基于各检测区域、待搜索行人目标的图像,通过预训练的行人再识别模型得到行人目标的再识别结果,结果的评价指标采用了rank1,rank2,rank5,rank10以及map。
[0172]
另外,为了验证本发明方法的有效性,选择了三个被广泛使用的大型人行基准:market-1501、dukemtmc-reid和msmt17,来评估本发明所提出的方法。
[0173]
market-1501包含1501个行人id,一共有32668个图像,6台摄像机采集到行人。边界框被dpm裁剪。因此,更多的背景杂波和失调问题被刻画出来。数据集被分成两个不重叠的子集,751个id用于训练,750个id用于测试。在测试阶段,使用3368图像作为probe来检索16364图像的gallery。dukemtmc-reid包含从8个摄像头收集的404个行人id,一共有36441张图像。msmt17来自4101个行人id,一共有126411图像组成由15个摄像头采集。数据集受场景和照明的巨大变化的影响,并且比其他两个数据集更难。
[0174]
在评估时只采用源域的身份标签作为监督信息,不使用属性标签。在market-1501(market)和dukemtmc-reid(duke)上性能指标如表1所示:
[0175]
表1表1
[0176]
其中,表1中的tj-aidl为transferable joint attribute-identity deep learning,spgan为similarity preserving generative adversarial network,hhl为hetero-homogeneous learning,ecn为exemplar-invariance and camera-invariance and neighborhood-invariance,udap为unsupervised domain adaptive,ours是表示本专利的方法。map为mean average precision,rank1是检索到的第一张图命中率,rank5是检索到的前5张图命中率,rank10是检索到的前10张图命中率。
[0177]
从表1中可以看出,本发明提出的方法明显优于现有的最先进的无监督行人再识别方法,改善了在dukemtmc-reid上的map评分至少提高4%和10%,以及在market-1501上的map评分至少提高10%。这证明了我们提出的方法在跨数据集的能力方面的整体性能优势。
[0178]
本发明用pytorch框架和实现所提出的方法。使用4颗nvidia titanxp gpu(每颗12gb)进行训练。我们使用sgd算法,动量为0。9和权重衰减0.00005作为优化器。考虑到编码器enc已经用imagenet进行了很好的初始化,我们设置学习率相对较小的值0.05,其他部分均设置为0.5。我们对数据的源域和数据目标域都设置了72=18*4的批次大小。其中18是指每批数据中的总行人id,4表示每个id的图像。我们训练整个模型进行20000次迭代,学习率衰减0.1后,每8000次迭代。
[0179]
本发明第二实施例的一种基于像素转移和特征转移相融合的无监督行人再识别
系统,如图2所示,包括:获取模块100、识别模块200;
[0180]
所述获取模块100,配置为获取待识别的行人图像,作为输入图像;
[0181]
所述识别模块200,配置为基于所述输入图像,通过预训练的行人再识别模型得到行人再识别结果;
[0182]
所述行人再识别模型基于残差网络构建,其训练方法为;
[0183]
步骤a10,获取源域图像、目标域图像;所述源域图像为有标签的行人图像;所述目标域图像为无标签的行人图像;
[0184]
步骤a20,提取源域图像、目标域图像的特征,作为第一特征、第二特征;
[0185]
步骤a30,基于所述源域图像对应的标签、所述第一特征,通过预构建的交叉损失函数、三元组损失函数计算交叉熵损失、三元组损失,并求和,得到源域图像的总损失,作为第一损失;
[0186]
步骤a40,根据所述第二特征进行聚类,将聚类后各类的索引作为对应类中各目标域图像的伪标签;基于所述伪标签、所述第二特征,通过步骤a30的方法,得到目标域图像的总损失,作为第二损失;
[0187]
步骤a50,基于所述第二特征,通过预构建的gan损失函数计算gan损失;并基于所述第一特征、所述第二特征,通过预构建的判别器获取判别结果,并计算判别损失;
[0188]
步骤a60,将所述gan损失、所述判别损失、所述第一损失、所述第二损失进行加权求和,作为特征转换损失;
[0189]
步骤a70,基于所述第一特征、所述第二特征,通过预构建的解码器重构目标图像、源域图像;所述解码器基于k个卷积层构建;
[0190]
步骤a80,基于重构的源域图像及原源域图像,计算l2损失、gan损失,并将所述l2损失、所述gan损失进行求和,得到源域重构损失;
[0191]
步骤a90,基于重构的目标域图像及原目标域图像,通过步骤a80的方法得到目标域重构损失;并将所述源域重构损失、所述目标域重构损失求和,作为像素转移损失;
[0192]
步骤a100,分别将将所述第一特征与重构的目标域图像的特征、所述第二特征与重构的源域图像的特征进行双线性池化融合,得到源域池化特征、目标域池化特征;获取分类损失;
[0193]
步骤a110,将所述特征转换损失、所述像素转移损失、所述分类损失求和,更新所述行人再识别模型的网络参数;
[0194]
步骤a120,循环执行步骤a10-a110,直至得到训练好的行人再识别模型。
[0195]
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0196]
需要说明的是,上述实施例提供的基于像素转移和特征转移相融合的无监督行人再识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
[0197]
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于像素转移和特征转移相融合的无监督行人再识别方法。
[0198]
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于像素转移和特征转移相融合的无监督行人再识别方法。
[0199]
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
[0200]
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0201]
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
[0202]
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
[0203]
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1