本发明涉及计算机视觉与图像处理,特别涉及基于多频率聚合块特征融合网络的目标跟踪方法。
背景技术:
1、目标跟踪是计算机视觉领域所研究的核心任务之一。其利用视频的上下文信息,对目标外观和运动信息进行建模,从而预测目标运动状态并标记目标位置。它广泛应用于视频监控与安防、智能交通、人机交互等多种领域。尽管目标跟踪技术目前取得了一定的进展,但在实际应用中也面临诸多挑战,如光照变化、相似目标干扰、背景动态变化、物体遮挡、运动模糊等。因此目标跟踪领域仍有很大的开发前景。
2、近年来,随着transformer在自然语言处理领域中大放光彩,一些学者尝试将transformer引入到计算机视觉领域,并因其强大的全局建模能力,基于transformer的跟踪器在目标跟踪领域崭露头角。很多的研究者将目光放置在transformer之上。transformer因其出色的捕获全局特征(低频)的能力,从而使得模型能够同时考虑输入序列中的所有位置。然而也因其捕获低频信息的优势、频率偏差以及存在的低通滤波器特性等因素,transformer在捕获高频信息方面任面临着挑战。基于transformer的跟踪模型通过自注意力机制能够捕捉序列中任意位置的依赖关系,然而这种全局建模的能力也意味着transformer过度捕获低频信息而导致高频信息的比例下降,使得高低频信息失衡,从而在局部边缘和纹理信息的捕获能力相对较弱。对于跟踪任务,缺乏局部边缘信息和纹理信息会导致模型对不同类别内的目标实例的识别产生精度影响。
技术实现思路
1、鉴于上述状况,本发明的主要目的是为了提出一种基于多频率聚合块特征融合网络的目标跟踪方法,以解决上述技术问题。
2、本发明提出基于多频率聚合块特征融合网络的目标跟踪方法,所述方法包括如下步骤:
3、步骤1、通过卷积神经网络对输入图像的浅层特征进行提取,得到浅层特征图;
4、步骤2、将浅层特征图输入多频率聚合模块中的多频率聚合注意力模块;在多频率聚合注意力模块的低频全局分支,对浅层特征图依次经过线性变换和自注意力操作,得到低频全局信息;
5、在多频率聚合注意力模块的高频局部分支,对浅层特征图依次经过多窗口映射、融合注意力操作以及拼接操作,得到高频局部信息;
6、将低频全局信息与高频局部信息进行拼接,得到高低频特征图,再对高低频特征图进行线性变换,得到多频率聚合注意力特征图;
7、将多频率聚合注意力特征图输入反向残差多层感知机,得到经过多频率聚合块处理的特征图;
8、步骤3、以模板图像和搜索区域图像作为输入图像重复步骤1和步骤2,分别得到多频率模板特征图和多频率搜索区域特征图;
9、步骤4、对多频率模板特征图和多频率搜索区域特征图进行线性变换,得到多频率搜索区域和模板区域的键向量、多频率搜索区域和模板区域的值向量以及多频率搜索区域的查询向量;
10、对多频率搜索区域和模板区域的键向量、多频率搜索区域和模板区域的值向量以及多频率搜索区域的查询向量进行融合注意力处理,得到经过融合注意力处理的特征图;
11、步骤5、结合经过融合注意力处理的特征图,使用大规模数据集对模型进行训练,得到训练后的模型;
12、步骤6、对训练后的模型的低频全局分支和高频局部分支的通道进行调整,得到经过通道调整的训练后的模型,再将浅层特征图输入经过通道调整的训练后的模型,经过图像块序列拼接后得到新的融合注意力处理的特征图;
13、将新的融合注意力处理的特征图输入分类回归预测头,得到分类结果,并根据分类结果对目标进行跟踪。
14、与现有技术相比,本发明有益效果如下:
15、1、本发明通过双分支结构同时提取多频率信息,并在高频局部分支通过窗口划分和卷积权重共享的方式提取更多的局部信息,提高了网络对局部信息的获取能力;
16、2、本发明在网络早期通过卷积层获取模板图像和搜索区域图像的浅层特征,通过网络浅层的多频率聚合注意力实现了对高频信息和低频信息的提取;
17、3、本发明在网络深层的融合注意力实现了对模板图像特征和搜索区域图像特征进行融合与交互,提高了模型对高、低频信息的提取能力和全局建模能力。
18、本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
1.一种基于多频率聚合块特征融合网络的目标跟踪方法,所述方法基于预测模型实现,所述预测模型由浅层特征提取模块、多频率聚合模块、融合模块、训练模块以及预测模块构成,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于多频率聚合块特征融合网络的目标跟踪方法,其特征在于,在所述步骤2中,在多频率聚合注意力模块的低频全局分支,对浅层特征图依次经过线性变换和自注意力操作,得到低频全局信息,对应过程存在的关系式为:
3.根据权利要求2所述的基于多频率聚合块特征融合网络的目标跟踪方法,其特征在于,在所述步骤2中,在多频率聚合注意力模块的高频局部分支,对浅层特征图依次经过多窗口映射、融合注意力操作以及拼接操作,得到高频局部信息,对应过程存在的关系式为:
4.根据权利要求3所述的基于多频率聚合块特征融合网络的目标跟踪方法,其特征在于,在所述步骤2中,将低频全局信息与高频局部信息进行拼接,得到高低频特征图,再对高低频特征图进行线性变换,得到多频率聚合注意力特征图,对应过程存在的关系式为:
5.根据权利要求4所述的基于多频率聚合块特征融合网络的目标跟踪方法,其特征在于,在所述步骤2中,将多频率聚合注意力特征图输入反向残差多层感知机,得到经过多频率聚合块处理的特征图,对应过程存在的关系式为:
6.根据权利要求5所述的基于多频率聚合块特征融合网络的目标跟踪方法,其特征在于,在所述步骤4中,对多频率搜索区域和模板区域的键向量、多频率搜索区域和模板区域的值向量以及多频率搜索区域的查询向量进行融合注意力处理,得到经过融合注意力处理的特征图,对应过程存在的关系式为:
7.根据权利要求6所述的基于多频率聚合块特征融合网络的目标跟踪方法,其特征在于,在所述步骤6中,对训练后的模型的低频全局分支和高频局部分支的通道进行调整,得到经过通道调整的训练后的模型,对应过程存在的关系式为:
8.根据权利要求7所述的基于多频率聚合块特征融合网络的目标跟踪方法,其特征在于,在所述步骤6中,将浅层特征图输入经过通道调整的训练后的模型,经过图像块序列拼接后得到新的融合注意力处理的特征图,对应过程存在的关系式为: