一种用于车辆重识别的局部细化和全局强化网络

文档序号:35265991发布日期:2023-08-29 19:45阅读:56来源:国知局
一种用于车辆重识别的局部细化和全局强化网络

本发明涉及车辆重识别,具体地涉及一种用于车辆重识别的局部细化和全局强化网络。


背景技术:

1、车辆重识别旨在从图像库中检索出与查询id相同的车辆图像。目前,车辆重识别任务主要面临类内差异大和类间差异小两种挑战。学习车辆的鉴别性的局部特征和全局特征对解决这两种挑战至关重要。自注意力机制是一种特殊的注意力,它主要包含完全自注意力(full self-attention)和局部自注意力(local self-attention)两种形式,已在计算机视觉领域中表现出了巨大的潜力。但是,full self-attention建模的全局上下文中的远程连接通常较弱,这限制了对车辆的整体信息的学习;localself-attention的窗口模式阻碍了对车辆的局部细节信息的充分学习。


技术实现思路

1、本发明的目的在于克服现有技术存在的缺点,提出设计一种用于车辆重识别的局部细化和全局强化网络。

2、本发明解决其技术问题所采取的技术方案是:

3、一种用于车辆重识别的局部细化和全局强化网络,采用resnet-50的res_conv4_2之前的残差块作为特征提取的骨干,res_conv4_1残差块的后续部分被划分为三个分支:glbranch、gs branch和lr branch,并移除三个分支的res_conv5_1残差块的下采样操作,以提供更大的空间视图;

4、未使用注意力模块的gl branch用于学习车辆的整体的概括性信息;

5、在gs branch的res_conv5层之后添加一个全局强化模块来学习车辆的强化的全局表示;

6、在lr branch的res_conv5层之后应用一个局部细化模块来学习车辆的细化的局部表示;

7、其中,所述局部细化模块旨在捕获车辆的鉴别性的局部信息,其结构为:

8、设特征图为该模块的输入,其中, c、h、w分别表示特征图的通道数量、高度和宽度;使用一个输出通道数为3 c的1*1卷积得到 x的查询张量、键张量和值张量:;

9、设 x中第 i个像素的查询为,表示 x q在位置 i处的特征向量;第 i个像素的邻域内的键集合记为,表示 x k中与位置 i距离最近的 k2个位置的特征向量。

10、为了实现第 i个像素与它的最近的 k2个像素的交互,将 q i与 k i的转置进行矩阵乘积计算并执行 softmax归一化得到注意力权重向量,其公式如下:

11、,

12、其中,表示矩阵乘法计算;注意力权重向量的第 j个元素表示了第 i个像素与它的邻域内的第 j个像素的成对亲和性;然后,本发明从 x v中抽取位置 i的邻域内的特征向量,记作,代表第 i个像素的 k 2个最近邻的值;最后,本发明根据注意力得分 a i聚集 v i来捕获第 i个像素的局部上下文并对其表征进行重建,得到,其计算过程表示为:

13、;

14、所述全局强化模块旨在捕获车辆的鉴别性的整体信息,其结构为:

15、设特征图为全局强化模块的输入,其中, c、h、w分别表示特征图的通道数、高度和宽度;通过一个变形操作和一个全连接层得到 x的查询矩阵,

16、;

17、该矩阵的第 i行表示第 i个像素的查询向量;为了将一目标像素处的注意力分数分散到多个窗口内,本发明沿空间维度将 x均匀地划分为个窗口,其中, h和 w分别为一个窗口的高度和宽度;对每一个窗口的特征图实施一个变形操作和一个全连接层得到 m个窗口的键矩阵:

18、,

19、其中,第 j个窗口的键矩阵为, n=h* w为窗口的大小,所有窗口的线性变换操作共享相同的权重; k j中的每一列为第 j个窗口中的一个键向量;

20、将 q i与 k t j进行矩阵相乘得到目标像素 i与第 j个窗口内各像素之间的成对亲和性向量,即

21、;

22、其中,表示矩阵乘法;第 j个窗口关于所有目标像素的成对亲和性矩阵,通过 q与 k t j进行矩阵相乘得到:

23、,

24、其中, r j中的每一行为一个目标像素与第 j个窗口内各像素之间的成对亲和性;然后,本发明在 r j的列方向上执行 softmax归一化操作以获得窗口的像素在每个目标像素处的注意力分数,其公式化为:

25、;

26、第 j个窗口的注意力矩阵的每一行表示一目标像素与第 j个窗口内所有像素的依赖关系;

27、通过计算 m个窗口在每个目标像素处的注意力分数,得到 m个窗口的注意力矩阵;这 m个矩阵同时被计算为:

28、,

29、其中, softmax操作在最后一个维度上执行;为了捕获目标像素的全局上有意义的远程连接,将 m个注意力矩阵沿列轴拼接成矩阵并对其执行 l1_norm归一化,得到远距离依赖强化的注意力矩阵,其计算公式为:

30、;

31、 l1_norm从全局感受野聚集了强化的远程连接;与键矩阵的计算类似,本发明对 x的每一个窗口的特征图实施一个变形操作和一个全连接层来得到 m个窗口的值矩阵,

32、,

33、其中,所有窗口的线性变换操作的参数共享;在将 m个窗口的值矩阵拼接在一起形成值矩阵后,用矩阵 a''对矩阵 v进行加权求和以重建特征的表示:

34、;

35、重建后的特征 s捕获的全局上下文加强了一些有意义的关联度不高的远距离依赖;

36、最后,本发明将矩阵变形为张量,并将其与输入特征图相加来计算全局强化模块的输出特征图 f',其计算过程如下:

37、;

38、其中, gelu表示高斯误差线单位, bn表示批量归一化操作;该模块将注意力分散到各个窗口并采用跨窗口交互操作构建了强化的全局上下文表示,提升了网络学习车辆整体信息的能力。

39、进一步的,所述局部细化模块中,每个像素与它最近的 k2个像素的成对亲和性的计算及所有像素的重建可以通过 unfold操作和张量的矩阵乘法来实现;首先,将 x q变形得到查询张量,此张量有 hw个查询,每个查询的大小为1× c;同时在 x k上使用一个内核大小为 k* k且步长为1的 unfold操作来抽取每个像素周围的 k2个键,并变形得到键张量,其中,每个像素的最近邻所对应的键用一个 k2× c的矩阵存储;表示每个像素与它的最近的 k2个像素的成对亲和性的注意力权重张量是通过 q和 k t的矩阵相乘及 softmax归一化操作得到的,即:

40、,

41、其中,某一个像素与其邻域内的像素的成对亲和性用一个大小为1× k2的向量表示;其次,在 x v上使用一个内核大小为 k* k且步长为1的 unfold操作来提取每个像素的 k2个最近邻所对应的值,并变形得到值张量,其中,每个像素的最近邻的值用一个 k2× c的矩阵存储;最后,使用每一个像素的权重向量对它周围的 k2个像素所对应的值进行加权求和,得到所有重建的像素,其计算过程表示如下:

42、;

43、计算过程实现了每个像素与其最近邻像素的交互,捕获了丰富的细节信息。

44、将张量 x'重塑为并将其与原始特征图相加,对相加后的特征图执行 bn和 gelu操作得到最终输出特征图 f',其公式化为:

45、,

46、局部细化模块捕获了目标像素关于它的最近邻的上下文,局部细化模块的权重是通过目标像素与它的最近邻的交互产生的,能够充分利用像素间的丰富的相关性信息,且能够适应不同空间位置的不同视觉模式。

47、进一步的,所述三个分支均采用全局平均池化操作和降维模块来生成输入的车辆图像的特征表示。

48、进一步的,对于分支输出的任何一个特征图,使用全局平均池化操作得到一个2048维的特征向量,然后,利用一个由1*1卷积、bn和relu激活函数组成的降维模块进一步将其维度压缩到256维。

49、进一步的,所述256维的特征向量被用于三元组损失的计算,并经过一个输出神经元数量为训练集中的车辆数目的全连接层的转换用于交叉熵损失的计算。

50、进一步的,所述交叉熵损失计算公式如下:

51、,

52、其中, n表示的是训练集的车辆数量, y代表输入到网络的图像的真实身份标签, p i是输入图像属于第 i辆车的概率。

53、进一步的,所述三元组损失计算公式如下:

54、,

55、其中, α是控制和距离差异的边距超参数, f a( i)、 f p( i)、 f n( j)分别是从锚点、正样本、负样本中提取的特征。

56、进一步的,本发明将三个分支的交叉熵损失和三元组损失相加得到最终的损失,总损失计算公式如下:

57、,

58、其中, n表示分支数。

59、本发明的技术效果:

60、与现有技术相比,本发明的一种用于车辆重识别的局部细化和全局强化网络,使用局部细化模块和全局强化模块来学习车辆的鉴别性的局部特征和全局特征,以应对车辆重识别中的挑战。其中,局部细化模块旨在学习细化的局部表示,它通过目标像素与其距离最近的像素的交互来捕获相邻像素间丰富的相关性信息;全局强化模块旨在学习强化的全局表示,它首先将目标像素的注意力分散到各个窗口中来强调区域内重要的远程依赖,然后通过跨窗口交互聚集全局上有意义的远程连接。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1