基于图像色域分布自适应调整的文本行人重识别算法

文档序号：31604318发布日期：2022-09-21 10:02阅读：来源：国知局

技术特征：
1.一种基于图像色域分布自适应调整的文本行人重识别算法，其特征在于，所述方法包括以下步骤：步骤1、通过图像色域分布自适应调整模块对输入图像的色彩域进行自适应调整；步骤2、使用图-文预训练方法得到所述行人的文本特征向量e与视觉特征图f；步骤3、将前述行人文本特征向量e与视觉特征图f通过监督学习的方式进行处理，获取文本与视觉的全局与局部特征；步骤4、将前述多模态特征通过信息投影模块得到彼此模态的信息，计算相似度，进行模型训练，得到训练模型；步骤5、利用所述训练模型结合目标行人的文本描述和待识别行人进行行人重识别，从而得到行人重识别结果；所述的图像色彩域分布自适应调整模块包含3个主要参数；所述的图-文预训练方法包含1个视觉编码器，1个文本编码器；所述行人重识别方法包括1个全局特征提取网络和1个局部特征提取网络。2.根据权利要求1步骤1所述行人重识别方法，其特征在于，所述的图像色域分布调整模块(d2avm)包含3个主要参数，分别对图像的光照、对比度、色温进行自适应的调整，得到变化后的图像：i
v
＝d2avm(i
o
)其中i
o
为原始图片，i
v
为经过图像色域分布调整模块处理过后的图片。3.根据权利要求1步骤2所述的图-文预训练方法，其特征在于，所述视觉编码器为1个增加1个归一化层，同时在变形操作之前加入位置编码的vision transformer模型，继而得到视觉特征图f：f＝ie(i
v
)其中ie为视觉编码器，本算法中采用改进的vision transformer模型。4.根据权利要求1步骤2所述的图-文预训练方法，其特征在于，所述文本编码器为1个包含有多头注意力机制的bert模型与1个双向lstm模块，继而得到文本特征向量e：e＝te(s)其中，te为文本编码器，本算法中采用改进的bert模型与双向lstm模块，s为未处理的文本描述。5.根据权利要求1步骤3所述行人重识别方法，其特征在于，通过所述全局特征提取网络可获得两模态全局特征，在提取文本全局特征时进行池化(rmp)与卷积(w
g
)操作，文本全局特征为：t
g
＝w
g
rmp(e)在提取视觉全局特征时进行池化(gmp)与卷积(w
g
)，视觉全局特征为：v
g
＝w
g
gmp(f) 。6.根据权利要求1步骤3所述行人重识别方法，其特征在于，通过所述局部特征提取网络可获得两模态局部特征，在提取文本局部特征时进行池化与卷积(w
i
)操作，文本模态局部特征为：
其中e
i
为通过词注意力模块，并通过行最大池化层获得到第i部分文本特征向量，α
i
为第i个文本局部特征向量权重；在提取视觉局部特征时进行池化与卷积(w
i
)操作，视觉模态局部特征为：)操作，视觉模态局部特征为：其中f
i
是按照i份水平分割(不重叠)，并通过全局最大池化层处理得到的第i个部分的视觉特征块，β
i
为第i个视觉局部特征向量权重。7.根据权利要求1步骤4所述行人重识别方法，其特征在于，所述信息投影模块(iprojm)主要是将两种模态的信息互相通过投影方式传递到对方模态，目的是能够更好的将两种模态的信息匹配：f
p
＝iprojm(f
o
，f
t
)其中，f
o
为源模态下的特征信息，f
t
为目标模态下的特征信息，f
p
为源模态在目标模态下的特征信息，4种特征信息投影到对应模态表示为：下的特征信息，4种特征信息投影到对应模态表示为：下的特征信息，4种特征信息投影到对应模态表示为：下的特征信息，4种特征信息投影到对应模态表示为：其中，为视觉全局特征投影在文本模态所得到新的特征信息，为文本全局特征投影在视觉模态所得到新的特征信息，为视觉局部特征投影在文本模态所得到新的特征信息，为文本局部特征投影在视觉模态所得到新的特征信息；将两种粒度特征融合得到：为文本局部特征投影在视觉模态所得到新的特征信息；将两种粒度特征融合得到：。8.根据权利要求1步骤4所述行人重识别方法，其特征在于，所述文本与视觉的全局与局部特征均采用欧氏距离来计算文本与视觉两模态间的相似性，两模态全局特征的相似性为：两模态局部特征的相似性为：
两模态信息共享后的相似性为：其中，e(.，.)表示两个向量间的欧氏距离；最终，两模态的相似性为：sim＝s
p
+λ1s
g
+λ2s
g
其中，λ1与λ2为超参，可根据实验进行相应调整。9.根据权利要求1步骤4所述行人重识别方法，其特征在于，所述文本与视觉的全局与局部特征采用混合三元组损失函数与归一化指数函数同时进行训练，所述混合三元组损失函数为：其中，或表示未匹配成功的图像文本对，s(.，.)为两个向量的余弦相似度，利用边界α来约束成功匹配的图像文本对，使其比未匹配成功的图像文本对更加接近；所述归一化指数函数为：其中，n表示数据集中行人的id总数，x
i
表示行人i的id真值，表示行人i的非id真值。

技术总结
本发明提供了一种基于图像色域分布自适应调整的文本行人重识别算法，所述方法包括以下步骤：首先将图像通过图像色域分布自适应调整模块，得到图像色域更加丰富的图像；将经过图像色域分布自适应调整模块处理过后的图片与未处理的文本描述通过图-文预训练网络，得到行人的文本特征向量与视觉特征图；将得到的行人文本特征向量与视觉特征图送入多粒度多模态的特征提取网络进行处理，得到两种模态全局与局部对应特征，然后通过信息共享模块实现信息互通，计算相似度，进行匹配，输出识别结果。本发明针对目前部分行人重识别算法模型计算效率低的情况，选择使用图-文预训练方法来进行预训练，提升模型计算效率；提出一种基于图像色域分布自适应调整的文本行人重识别算法，可增加训练数据的多样性，提高模型对于不同数据的适应性。同数据的适应性。同数据的适应性。

技术研发人员：薛敬祎朱艾春王子杰胡方强李义丰
受保护的技术使用者：南京工业大学
技术研发日：2022.07.28
技术公布日：2022/9/20

完整全部详细技术资料下载

当前第2页1 2