一种基于全局-局部信息交互机制的音视频目标跟踪方法

文档序号：41529051发布日期：2025-04-07 22:57阅读：来源：国知局

技术特征：

1.一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，所述s1中引导网络提取不同层次的视觉和听觉特征的方法为：视觉引导网络：在初始离线阶段训练模型，将跟踪问题转化为已知目标与搜索区域之间的相似性度量；视觉网络采用siamese网络结构，通过互相关操作来计算目标模板特征和搜索区域特征之间的相似性响应图；

3.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，所述s2中主干网络由轻量化的视听编码器、特征重建模块、异质信号多层次特征融合注意力模块以及预测头组成。

4.根据权利要求3所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，所述s2中主干网络提取不同层次存在局部信息缺失的视觉和听觉特征的方法为：

5.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，所述s3中生成对抗网络的特征重建模块特征重建的方法为：在主干网络中设计了特征重建模块，分别部署在视觉和听觉分支上；首先，生成器g用于接收缺失特征并重建全局特征，然后，使用判别器d来区分这些特征是重建特征还是来自引导网络的真实全局特征；视觉和听觉生成器由编解码器组成，判别器由多个卷积层和全连接层组成；令vs，as为输入生成器的视觉特征和听觉特征，v′，at′为引导网络的视听全局特征，判别器的处理如下：

6.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，所述s4中异质信号多层次特征融合的方法为：

7.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，所述s5中全局到局部知识蒸馏策略的方法为：全局到局部知识蒸馏策略包含特征对齐蒸馏、生成对抗蒸馏和logits蒸馏；

8.根据权利要求1所述的一种基于全局-局部信息交互机制的音视频目标跟踪方法，其特征在于，所述s6中计算总损失函数来优化模型参数的方法为：

技术总结
本发明属于音视频目标跟踪技术领域，具体涉及一种基于全局‑局部信息交互机制的音视频目标跟踪方法，包括下列步骤：将全局视频信号输入视觉引导网络，将全通道音频信号输入听觉引导网络；将局部视频信号和部分通道音频信号输入主干网络；将存在局部信息缺失的特征进行全局特征重建；引入异质信号多层次特征融合注意力模块，将引导网络的知识传递给主干网络；通过计算总损失函数来优化模型参数。本发明生成器将主干网络中存在局部信息缺失的特征进行全局重建，同时还提出了一个异质信号多层次特征融合注意力模块，该模块使用注意力权重将异质信号的局部特征和全局重建特征进行动态融合，从而有效利用异质信号多层次特征的互补性和一致性。

技术研发人员：李一迪,李伊涵,冯倩
受保护的技术使用者：太原理工大学
技术研发日：
技术公布日：2025/4/6

完整全部详细技术资料下载

当前第2页1 2