1.一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,包括下列步骤:
2.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,所述s1中引导网络提取不同层次的视觉和听觉特征的方法为:视觉引导网络:在初始离线阶段训练模型,将跟踪问题转化为已知目标与搜索区域之间的相似性度量;视觉网络采用siamese网络结构,通过互相关操作来计算目标模板特征和搜索区域特征之间的相似性响应图;
3.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,所述s2中主干网络由轻量化的视听编码器、特征重建模块、异质信号多层次特征融合注意力模块以及预测头组成。
4.根据权利要求3所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,所述s2中主干网络提取不同层次存在局部信息缺失的视觉和听觉特征的方法为:
5.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,所述s3中生成对抗网络的特征重建模块特征重建的方法为:在主干网络中设计了特征重建模块,分别部署在视觉和听觉分支上;首先,生成器g用于接收缺失特征并重建全局特征,然后,使用判别器d来区分这些特征是重建特征还是来自引导网络的真实全局特征;视觉和听觉生成器由编解码器组成,判别器由多个卷积层和全连接层组成;令vs,as为输入生成器的视觉特征和听觉特征,v′,at′为引导网络的视听全局特征,判别器的处理如下:
6.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,所述s4中异质信号多层次特征融合的方法为:
7.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,所述s5中全局到局部知识蒸馏策略的方法为:全局到局部知识蒸馏策略包含特征对齐蒸馏、生成对抗蒸馏和logits蒸馏;
8.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法,其特征在于,所述s6中计算总损失函数来优化模型参数的方法为: