一种基于全局多尺度策略特征增强的目标跟踪方法

文档序号:36255997发布日期:2023-12-03 17:35阅读:39来源:国知局
一种基于全局多尺度策略特征增强的目标跟踪方法

本发明涉及计算机视觉与图像处理,尤其涉及一种基于全局多尺度策略特征增强的目标跟踪方法。


背景技术:

1、视觉目标跟踪是计算机视觉的一个重要分支,主要指给定航拍图像序列中目标的初始状态,算法能持续稳定地对后续帧中的目标进行状态估计和定位的过程,视觉目标跟踪广泛应用于如视频监控、自动驾驶、体育赛事等众多领域中。视觉目标跟踪算法通常包含运动模型、特征提取、观测模型、以及模型更新四个环节,其中被广泛认为最重要的环节是特征提取,提取强大的有判别力的特征是跟踪算法的关键。航空对地目标跟踪任务主要是指对于给定的航空对地视频帧序列,通过在第一帧给定目标的定位,跟踪器在接下来的每一帧对目标进行定位的过程。

2、目前主流的跟踪算法主要分为两种,一种是相关滤波跟踪算法,该算法的主要思想是设计一个滤波模板,通过该目标模板与目标搜索区域的相关计算得到响应图,而最大响应的位置即为目标位置,相关滤波算法大多采用人工设计的特征或者特征的组合,适用于背景简单的跟踪场景,而对于背景复杂的航空对地场景,人工设计的特征难以应对诸如尺度变化、目标遮挡、相似目标干扰等挑战。另外一种跟踪算法是孪生神经网络跟踪算法,是由两个共享权重的神经网络组分支组成,使用这两个分支对模板模板和搜索区域进行特征提取再通过相似性计算得到跟踪结果,由于进行目标模板和搜索区域的两个分支共享结构与参数,故而取名为孪生神经网络跟踪算法。

3、孪生神经网络算法相较于相关滤波算法采用了深层特征提取网络,能够提取较为深层的特征,这在一定程度上提升了跟踪精度,然而受卷积神经网络感受野的限制,现有的大多数算法只能提取单一尺度的局部特征,使得孪生神经网络跟踪算法通常采用单一的局部特征来表示目标,缺乏足够的判别力和上下文信息,无法应对航空对地复杂场景下目标尺度变化、遮挡、相似目标、光照变化等挑战,在尺度变化、遮挡、目标旋转、相似目标干扰等复杂场景下可能会跟踪失败,在航空对地场景下跟踪精度不足。

4、综上所述,如何提出一种可避免上述问题的应用于航空对地场景下的目标跟踪算法,是当下亟需解决的问题。


技术实现思路

1、本发明为解决上述问题,提供了一种基于全局多尺度策略特征增强的目标跟踪方法,可在尺度变化、遮挡、目标旋转、相似目标干扰等航空对地复杂场景下实现准确鲁棒跟踪。

2、为达到上述目的,本发明提出如下技术方案:一种基于全局多尺度策略特征增强的目标跟踪方法,包括如下步骤:

3、s1:采集航空对地跟踪序列,将采集到的第一帧划分为目标模板帧z,将其余序列依次作为搜索帧x;将图像帧通过裁剪归一化处理得到目标模板和搜索区域;

4、s2:将处理后的目标模板和搜索区域输入特征提取骨干网络中,输出得到目标模板特征图ft和搜索区域特征图fs;

5、s3:将得到的目标模板特征图ft和搜索区域特征图fs输入全局多尺度特征编码器中,对目标模板特征图ft和搜索区域特征图fs进行全局多尺度特征增强得到f′t和f′s;

6、s4:以s3中输出的f′t作为卷积核经相似性匹配网络对f′s进行深度互相关操作,计算相似度得到响应图r;

7、s5:将响应图r输入无锚框分类回归网络,采用无锚框分类和回归分支得到响应图r每个位置的前景背景判断和准确的边界框估计;最终得到跟踪结果。

8、进一步地,s3中的全局多尺度特征编码器包含多尺度特征编码器和全局特征编码器;先通过空洞卷积对特征进行多尺度信息提取,再采用transiormer结构建立特征全局交互,获得具有全局信息的多尺度特征表示。

9、进一步地,多尺度特征编码器对于特征提取骨干网络得到的特征图,首先采用卷积对特征图进行维度降维,再采用不同膨胀率的空洞卷积对特征进行多尺度增强;对于大小为n×n的卷积核而言,若其膨胀率为r,则实际感受野为:[r(n-1)+1]×[r(n-1)+1]。

10、进一步地,多尺度特征编码器采用膨胀率为1,2,3,5的3×3空洞卷积进行并行计算,其感受野分别为3×3、5×5、7×7、11×11;空洞卷积不改变输出特征图尺寸,并行计算得到的特征图均为h×w×64,再将并行计算得到四个特征图进行拼接得到h×w×256的特征图。

11、进一步地,全局特征编码器包括多头注意力模块、前馈网络和归一化层;全局特征编码器先对特征图进行展平作为查询、键和值输入多头注意力模块,经多头注意力模块进行线性投影后计算点积注意力,然后作为残差项的输入被添加到多头注意力的输出,再在残差连接之后采用层归一化。

12、进一步地,多头注意力模块的每个头注意力关注不同的特征,将多个头进行组合以兼顾更多特征,具体由如下公式表示:

13、multihead(q,k,v)=concat(head1,...,headh)w

14、

15、其中,h为注意力的头数,w为多个头的权重,q为查询,k为键值,v为值,分别为查询、键值和值的权重。

16、进一步地,点积注意力先对查询和键值进行点乘运算,并采用softmax激活函数得到对于值value的权重,完成对特征value的全局增强,计算公式具体如下:

17、

18、其中,dk为键值k的通道数,用以归一化操作;t表示转置。

19、进一步地,作为残差项的输入被添加到多头注意力的输出,再在残差连接之后采用层归一化,具体由如下公式表示:

20、yz=layernorm(v+attention(q,k,v))

21、其中,yz∈rc×hz×wz为输出特征图,hz为特征图yz的高度,wz为特征图yz的宽度,c为特征图yz的通道数。

22、进一步地,前馈网络计算包括具有relu激活功能和层归一化操作的两个线性变换层:

23、y′z=layernorm(yz+fft(yz))

24、fft(yz)=w2·relu(w1·yz+b1)+b2

25、其中,wi和bi(i=1,2)表示参数矩阵和偏差,relu为激活函数,layernorm表示层归一化操作。

26、进一步地,s4中的响应图r包括搜索区域与目标模板的相似度,r的计算公式如下:

27、

28、其中,指深度互相关操作。

29、与现有技术相比,本发明能够取得如下有益效果:

30、1、本发明提出了一种全局多尺度特征编码器,通过引入空洞卷积和transformer结构,可联合提取多尺度全局信息,以应对航空对地场景下尺度变化目标遮挡等场景,实现准确鲁棒跟踪。

31、1)首先该编码器引入一系列空洞卷积对特征图进行多尺度增强,弥补了现有算法采用单一尺度特征的缺点,提高了网络的自适应多尺度特征表示能力;同时空洞卷积相较于传统卷积可以通过扩大膨胀率来扩大感受野且不会引入额外参数,本发明中引入了不同膨胀率的空洞卷积用以高效提取多尺度信息。

32、2)由于无论是标准卷积还是空洞卷积,他们都受限于固定的感受野大小,使得模型缺少全局信息,本发明还采用了基于transformer的全局特征编码器对特征进行全局交互,transformer结构可打破卷积神经网络感受野的限制,可弥补backbone提取到的特征缺少全局上下文信息的缺点,可实现特征的全局增强,从而产生鲁棒的目标特定外观表示,提高航空遥感跟踪性能。

33、2、本发明采用无锚框分类和回归分支得到响应图每个位置的前景背景判断和准确的边界框估计,无锚框分类回归网络避免了复杂的超参数调节,减少了多种锚框带来的计算量,使模型更加简洁轻量,更适应航空对地模板跟踪,在实现准确鲁棒的航空对地目标跟踪的基础上也保证了算法的实时性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1