[0001]
本发明涉及基于注意力机制的双流层次孪生网络目标跟踪方法,属于图像处理技术领域。
背景技术:[0002]
随着计算机硬件性能和软件技术的迅猛发展,目标跟踪技术在计算机视觉应用领域受到越来越多的关注,并在军事和民用等许多领域都表现出非常广泛的应用前景。近年来,随着深度学习技术的兴起,越来越多跟踪领域的学者也开始尝试将深度神经网络应用在目标跟踪领域。基于深度学习的目标跟踪算法大致可以分为两类。第一类遵循学习分类器并进行在线更新的策略,但是,由于需要更新大量的网络参数,这些跟踪器具有昂贵的计算代价。这一问题促使了第二类基于相似性学习的跟踪器的出现,这类跟踪器在跟踪效率和精度之间实现了权衡。深度孪生神经网络结构通常被用于解决相似性学习问题,通过计算模板图像和搜索图像之间的相似度,将得分最高的位置作为目标位置的预测结果。全卷积孪生网络在目标跟踪中具有着非常优秀表现,但是一些特殊场景下,比如相似干扰或背景杂乱等情况下,跟踪器不能体现良好的泛化能力。这是因为这种跟踪器在跟踪时仅仅使用高层语义特征进行目标识别,在遇到相似干扰时,单一特征很容易导致跟踪器的漂移。并且由于当前帧的候选框位置严重依赖于前一帧的预测位置信息,一旦某一帧目标定位发生较大的偏差,将严重阻碍跟踪器的性能。因此,在某些复杂的场景下,特别是在存在类似干扰物或背景杂乱的情况下,跟踪器的跟踪能力受到极大的限制。
技术实现要素:[0003]
本发明旨在克服现有技术存在的不足,针对孪生网络的特征判别能力在相似干扰和杂乱背景等特定场景下较弱的问题,提出了一种基于注意力机制的双流层次孪生网络目标跟踪方法。
[0004]
本发明所采用的技术方案是:构建基于注意力机制的双流层次孪生网络进行目标跟踪。神经网络中来自高层的特征包含了更强的语义信息,而低层特征关注轮廓、边缘、纹理等特征信息,包含更精确的位置信息。这些语义信息和位置信息在目标特征表达上具有互补性。本发明能够充分利用层次特征来获取视觉跟踪所需的空间信息和语义信息,利用其互补的优势,以此提高跟踪器将目标从相似干扰物或杂乱无章的背景中区分出来的辨别能力,提高跟踪器的可靠性和鲁棒性。
[0005]
基于注意力机制的双流层次孪生网络目标跟踪方法,包括以下步骤:
[0006]
第一步,构建定位子网与语义子网,每个子网均为一个孪生网络,在定位子网中,利用孪生网络提取前一帧目标模板特征和搜索区域特征,在语义子网中,利用孪生网络提取第一帧目标模板特征和搜索区域特征;
[0007]
第二步,构建空间注意力模块增强定位子网中提取的空间特征;
[0008]
第三步,构建通道注意力模块激活语义子网中与目标信息相关性强的通道特征;
[0009]
第四步,对两个子网的输出响应图进行加权融合以实现跟踪。
[0010]
本发明的效果和益处:针对孪生网络的特征判别能力在相似干扰和杂乱背景等特定场景下较弱的问题,提出了一种基于注意力机制的双流层次孪生网络目标跟踪方法。该方法充分挖掘层次特征互补的优势,同时结合基于注意力机制提取目标显著特征,定位子网通过空间注意力模块激活与目标相关性强的空间特征,语义子网通过通道注意力模块对跟踪特定目标方面发挥更重要作用的语义通道赋予更高的权重。本发明能够提高跟踪器在相似干扰或背景杂乱等复杂场景的特征判别能力,有效提高目标跟踪的准确性与鲁棒性。
附图说明
[0011]
图1是基于注意力机制的双流层次孪生网络结构示意图;
[0012]
图2是本发明与经典算法在otb数据集上的精确曲线对比图。
[0013]
图3是本发明与经典算法在otb数据集上的成功率曲线对比图。
[0014]
图4是本发明与经典算法在vot数据集上的准确性和鲁棒性得分对比图。
[0015]
图5是本发明与经典算法在vot数据集上的eao分数排名对比图。
具体实施方式
[0016]
以下对本发明做进一步说明。
[0017]
基于注意力机制的双流层次孪生网络目标跟踪方法,包括以下步骤:
[0018]
第一步,构建定位子网与语义子网,每个子网均为一个孪生网络,在定位子网中,利用孪生网络提取前一帧目标模板特征和搜索区域特征,在语义子网中,利用孪生网络提取第一帧目标模板特征和搜索区域特征。
[0019]
针对第一步子网构建,基于注意力机制的双流层次孪生网络网络结构如图1所示。本发明由定位子网和语义子网两个子网络组成,每一个子网络都是一个深度孪生神经网络。在孪生网中,模板分支和搜索分支的相同结构共享网络权值,学习一个用于计算目标模板区域和搜索区域之间的相似性得分的相似性匹配函数。在定位子网中,将前一帧作为模板图像,使用低层特征来获取连续帧间的空间位置信息,此外,应用空间注意模块进一步突出目标的重要空间信息。在语义子网中,将第一帧为模板图像,使用高层特征来计算搜索图像与目标的语义相似度,此外,应用通道注意模块对不同的通道赋予不同的权重,进一步突出目标更重要的语义特征。每个子网通过相关操作都可以得到一个响应图作为输出。定位子网的响应图蕴含着连续帧间的空间位置信息,语义子网的响应图则反映了当前帧与第一帧之间的语义相似度。通过融合两个子网的响应图可以集成目标的空间信息与语义信息,利用互补优势从而得到最终的响应输出。
[0020]
第二步,构建空间注意力模块增强定位子网中提取的空间特征。
[0021]
空间注意力模块可以用来关注输入图像中的重要空间信息,激活与目标相关性高的空间特征。首先在通道维度上分别做一个最大池化操作和平均池化操作,获得两个不同的特征描述。然后通过串联合并两个特征描述获得具有两个通道的特征图。之后经过一个卷积操作,将其降维为1个通道。再理由sigmoid激活函数将权值图元素限制在0至1之间,使得加权处理后得到的特征图不会发生显著变化,而且能够在一定程度上增强空间信息。具体方法如下:
[0022]
m
s
(f)=σ(f
7*7
([avgpool(f);maxpool(f)])) (1)
[0023][0024]
其中,f代表输入特征,m
s
(f)代表最终得到的空间权值图,σ代表sigmoid激活函数,f
7*7
代表卷积核为7
×
7的卷积操作,avgpool和maxpool分别代表平均池化操作和最大池化操作。和分别代表f经过最大池化操作和平均池化操作后得到的两个特征描述。将输入特征与权值进行元素级乘法完成空间特征选择,然后利用相似性度量函数计算得到来自定位子网的响应映射:
[0025][0026]
其中,r
l
(z;x)代表定位子网的响应映射,g代表相似性度量函数,m
s
(f)为空间权值图,代表原始图像经过卷积层进行特征提取,和分别代表模板分支和搜索分支经过卷积层后得到的特征。
[0027]
第三步,构建通道注意力模块激活语义子网中与目标信息相关性强的通道特征。
[0028]
通道注意力模块可以对跟踪特定目标方面发挥更重要作用的通道赋予更高的权重,提高目标信息的敏感性,抑制背景信息所带来的负面影响。通道注意力网络的设计原理在于利用深度网络获取的特征图各通道对目标特征表达的贡献程度存在差异,不同目标激活不同特征通道。为了有效地计算通道注意力,将输入的特征映射分别经过基于宽度和高度的最大池化操作和平均池化操作得到特征向量,然后经过一个双层感知器(mlp)。将mlp输出的特征进行元素级的加和操作,再经过sigmoid激活操作生成最终的通道注意力权值图。具体方法如下:
[0029]
m
c
(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))
ꢀꢀ
(4)
[0030][0031]
其中,f代表输入特征,m
c
(f)代表最终得到的通道权值图,σ代表sigmoid激活函数,mlp代表多层感知机模型,avgpool和maxpool分别代表平均池化操作和最大池化操作。和分别代表f经过最大池化操作和平均池化操作后得到的两个特征描述。w
0
和w
1
代表多层感知器模型中的参数。将输入特征与权值进行元素级乘法完成通道特征选择,然后利用相似性度量函数计算得到来自语义子网的响应映射:
[0032][0033]
其中,r
s
(z;x)代表语义子网的响应映射,g代表相似性度量函数,m
c
(f)为通道权值图,代表原始图像经过卷积层进行特征提取,和分别代表模板分支和搜索分支经过卷积层后得到的特征。
[0034]
第四步,对两个子网的输出响应图进行加权融合以实现跟踪。
[0035]
定位子网通过提取低层特征来表示当前帧与前一帧之间的空间位置信息,语义子网则使用高层特征来计算当前帧与第一帧之间的语义相似度。经过计算,每个子网都可以得到一个输出响应图,对于不同的场景,定位子网和语义子网扮演着不同的角色。定位子网所得到的响应图中包含详细的空间信息,语义子网所得到的响应图中包含丰富的语义信息。为了提高跟踪器的鲁棒性,通过将两个网络的响应图进行加权融合来定位目标。融合方
法定义如下:
[0036]
r=ω
l
r
l
+ω
s
r
s
ꢀꢀ
(7)
[0037]
r代表最终的响应输出,r
l
和r
s
分别是定位子网和语义子网的响应输出图,ω
l
和ω
s
代表相应的权重系数。
[0038]
本发明利用目标跟踪标准数据集otb与vot,将基于注意力机制的双流层次孪生网络目标跟踪方法与经典跟踪方法以及孪生网络基准方法进行实验对比,通过绘制是本发明与经典算法在otb数据集上的精确曲线对比图、成功率曲线对比图以及本发明与经典算法在vot数据集上的实验结果验证其准确性和鲁棒性。
[0039]
在otb数据集中,利用精确率和成功率进行跟踪方法评估。精确率是指满足跟踪结果的中心与真值边界框之间的欧氏距离小于某个阈值的帧的数量与所有帧数量的百分比,通过绘制精度率曲线图可以评估跟踪器的准确性。各跟踪方法的精确率曲线对比结果如图2所示。由图可知,基于注意力机制的双流层次孪生网络目标跟踪方法相较其他经典跟踪方法和孪生网络基准方法有着更高的精确率,显示了本发明在目标跟踪任务中的准确性。
[0040]
成功率是指满足跟踪结果的边界框与真值边界框之间的重叠率大于某个阈值帧的数量与所有帧数量的百分比。成功率曲线图将曲线下面积(auc)作为典型值来对结果进行排名。各跟踪方法的成功率曲线对比结果如图3所示。由图可知,基于注意力机制的双流层次孪生网络目标跟踪方法相较其他经典跟踪方法和孪生网络基准方法有着更高的成功率,显示了本发明在目标跟踪任务中的鲁棒性。
[0041]
在vot数据集中,从鲁棒性和准确性两个方面评估跟踪器。准确性的衡量标准是单个测试序列中的预测结果与真值边界框之间的平均重叠率。鲁棒性的衡量标准是单个测试序列中跟踪器的故障时间(失败次数)。当预测结果与真值边界框之间的重叠率为0时,则判断为失败。图4是本发明与经典算法在vot数据集上的准确性和鲁棒性得分对比图。由图可知,基于注意力机制的双流层次孪生网络目标跟踪方法相较其他经典跟踪方法和孪生网络基准方法有着更高的鲁棒性和准确性得分,显示了本发明在目标跟踪任务中的优越性。平均重叠期望(eao)同时考虑了鲁棒性与准确性,因此,使用eao得分进行跟踪器的排名比较,如图5所示,图5显示了本发明与经典算法在vot数据集上的eao分数排名对比图。由图可知,基于注意力机制的双流层次孪生网络目标跟踪方法相较其他经典跟踪方法和孪生网络基准方法有着最高的eao得分,显示了本发明在目标跟踪任务中有着良好的性能,兼具鲁棒性和准确性。