本发明属于音视频目标跟踪,具体涉及一种基于全局-局部信息交互机制的音视频目标跟踪方法。
背景技术:
1、音视频目标跟踪是智能系统实现行为分析和人机交互的关键任务。为了实现准确的跟踪,研究人员越来越倾向于利用多模态传感器捕获更丰富的信息。特别是听觉和视觉作为人类理解周围环境和互动的主要模态,受到了广泛关注。与人类的多模态感知过程类似,听觉和视觉信息的互补性可以提供必要的补充线索。特别是在缺失模态下的说话者跟踪任务中,当视频信号被遮挡或者视觉传感器失效时,音频信号可以作为补充线索。同样的,当音频信号被噪声干扰或者听觉传感器失效时,视频信号可以提供补充。但上述方法仅适用于一种模态信息的局部缺失或完全缺失的情况,通过高置信度模态对另一个不完整模态进行信息补充。然而,当多个模态的信息都存在局部缺失时,两种模态都无法提供可靠的观测结果,融合效果将急剧下降。因此开发一种可以应对多模态异质信号都不完整,同时处理遮挡、噪声及传感器故障的多模态跟踪器至关重要。
2、目前,对缺失模态进行补充的研究取得了很大的进展。例如有研究者利用递归融合的联合注意力机制进行模态间的信息交互和补充,还有研究者通过共享特定特征编码器,利用现有模态信息补充缺失模态,使得在模态缺失时依然保持较好的跟踪性能。但上述方法并没有从根本上将存在缺失的模态信息补全和重建,而仅仅是用另一种模态信息进行补充。
3、现有的音视频目标跟踪算法中提出了多种融合策略来结合音频和视频信号,但没有关注异质信号中全局和局部特征的多层次融合,在面对环境动态变化时,忽略了全局语境信息对局部特征的增强作用。
技术实现思路
1、针对上述现有的音视频目标跟踪算法没有关注异质信号中全局和局部特征的多层次融合的技术问题,本发明提供了一种基于全局-局部信息交互机制的音视频目标跟踪方法,解决了音视频目标跟踪任务中局部模态缺失的问题。
2、为了解决上述技术问题,本发明采用的技术方案为:
3、一种基于全局-局部信息交互机制的音视频目标跟踪方法,包括下列步骤:
4、s1、获取音视频信号,将全局视频信号输入视觉引导网络,将全通道音频信号输入听觉引导网络,用于提取不同层次全局视觉和听觉特征;
5、s2、将局部视频信号和部分通道音频信号输入主干网络,用于提取不同层次存在局部信息缺失的视觉和听觉特征;
6、s3、在主干网络中构建基于生成对抗网络的特征重建模块,将存在局部信息缺失的特征进行全局特征重建;
7、s4、引入异质信号多层次特征融合注意力模块,通过整合来自异质信号、不同层次的特征,实现对异质信号多层次特征的互补性和一致性利用;
8、s5、通过全局到局部知识蒸馏架构,将引导网络的知识传递给主干网络,使主干网络学习全局特征,提升对局部信息缺失情况的鲁棒性;将融合后的异质信号特征输入预测头进行目标定位,生成目标跟踪结果;
9、s6、通过计算总损失函数来优化模型参数,总损失包括特征对齐损失、生成对抗损失、logits蒸馏损失以及位置估计损失。
10、所述s1中引导网络提取不同层次的视觉和听觉特征的方法为:视觉引导网络:在初始离线阶段训练模型,将跟踪问题转化为已知目标与搜索区域之间的相似性度量;视觉网络采用siamese网络结构,通过互相关操作来计算目标模板特征和搜索区域特征之间的相似性响应图;
11、
12、式中it为当前引导网络输入的图片帧,item为参考模板,即第一帧中用户自定义的跟踪目标;是共享权重的基于卷积神经网络的视觉编码器;*表示卷积操作用于相似性度量;响应图vt反映了搜索图像中每个位置上目标出现的概率,被用于提供视觉定位线索;
13、听觉引导网络:听觉引导网络由声学定位线索提取模块和基于编解码器的深度特征提取模块构成,其输入是来自麦克风阵列的多通道音频信号;首先,提取基于时空的声学定位线索,基于相机模型构建视听空间映射,得到三维空间中不同深度处的潜在声源位置采样网格;然后通过音频信号之间的相干性计算采样网格处的gcf图谱;选择gcf映射峰值所在的深度,生成空间gcf映射sgcf;并考虑语音信号的间歇性和说话者移动的连续性,在一段时间内选取具有最大峰值的sgcf映射,生成时空gcf映射stgcf;随后,提取的声学线索在基于编解码器的网络中学习到了更高维度和深层次的深度特征;音频特征at′定义如下:
14、
15、其中,ut是来自麦克风阵列的16通道音频信号,rω(g)表示声学定位线索的提取,表示听觉引导网络的编码器和解码器,at表示听觉引导编码器的结果;这种混合型特征提取方法既使用了人工设计的先验知识,又利用了神经网络的强大表达能力,起到了提高特征质量和定位效果的作用。
16、所述s2中主干网络由轻量化的视听编码器、特征重建模块、异质信号多层次特征融合注意力模块以及预测头组成。
17、所述s2中主干网络提取不同层次存在局部信息缺失的视觉和听觉特征的方法为:
18、s2.1、视听编码器提取到的局部特征通过特征重建模块,将存在局部信息缺失的特征补全;
19、s2.2、将视听局部特征和重建全局特征输入融合注意力模块融合;
20、s2.3、通过预测头输出目标定位结果。
21、所述s3中生成对抗网络的特征重建模块特征重建的方法为:在主干网络中设计了特征重建模块,分别部署在视觉和听觉分支上;首先,生成器g用于接收缺失特征并重建全局特征,然后,使用判别器d来区分这些特征是重建特征还是来自引导网络的真实全局特征;视觉和听觉生成器由编解码器组成,判别器由多个卷积层和全连接层组成;令vs,as为输入生成器的视觉特征和听觉特征,v′,at′为引导网络的视听全局特征,判别器的处理如下:
22、
23、其中:表示生成的视觉重建特征和听觉重建特征;判别器dv和da的输出表示输入特征为真实特征的概率;通过交替优化生成器和判别器,生成器逐渐学会重建缺失特征,辅助主干网络处理不完整观测数据。
24、所述s4中异质信号多层次特征融合的方法为:
25、首先将局部特征和全局重建特征进行基于注意力的多层次融合,得到全局-局部特征令为全局-局部注意力模块生成的感知权重,在可靠的观测值中较高,在视觉遮挡、听觉受限的模糊观测值中变为较低;然后,在全局-局部融合特征上添加位置编码,通过结合空间位置信息以提高跟踪器在捕捉和利用空间结构信息方面的能力;最后,通过异质信号交叉注意力机制进行视听异质信号的特征融合;多层次特征融合注意力模块的计算流程如下:
26、
27、其中,mmca表示异质信号交叉注意力机制,由两个多头注意力模块构成,分别以一个模态信号作为qurey,另一个模态信号作为key和value,通过计算异质信号之间的相关性,有效地将不同异质信号的信息进行交互和整合;fav是融合后的视听特征;pos表示位置编码;提出的异质信号多层次特征融合注意力模块通过两步融合平衡视听异质信号的局部和全局信息。
28、所述s5中全局到局部知识蒸馏策略的方法为:全局到局部知识蒸馏策略包含特征对齐蒸馏、生成对抗蒸馏和logits蒸馏;
29、特征对齐蒸馏:将主干网络视觉分支互相关操作的输出表示为vs,具体地其中is是主干网络输入的有局部缺失的图片帧,表示主干网络的视觉编码器;将主干网络听觉编码器的输出表示为as,具体地其中us是来自麦克风阵列的局部通道音频信号,rω′(g)表示主干网络声学定位线索,表示主干网络的听觉编码器;特征对齐损失基于mse损失,分为视觉和听觉两个部分,表示为:
30、
31、其中,n是特征向量的维度,表示mse损失运算符;特征对齐蒸馏提高了引导主干网络中特征表达的一致性,确保主干网络能够捕捉到异质信号的主要模式和信息,即使输入信号是不完整的;
32、生成对抗蒸馏:生成对抗蒸馏基于生成对抗网络gan的思想,通过对抗训练,使主干网络生成的重建特征与引导网络提取的真实特征尽量相似,提升主干网络捕获全局信息的能力;生成对抗损失包括视觉和听觉两个部分,整体的目标函数表示为:
33、生成器的目的是生成尽可能逼真的数据,以欺骗判别器;判别器的目的是正确区分真实数据和生成数据;生成对抗蒸馏的整体目标是通过生成器和判别器之间的对抗训练,其中生成器试图最小化这个函数,而判别器试图最大化这个函数从而达到纳什均衡;
34、
35、其中,将引导网络的视听全局特征vt′,at′作为真实数据样本,pdata(vt′)表示真实数据的分布;将输入生成器的视觉特征和听觉特征vs,as作为噪声,p(vs),p(as)表示噪声的分布;生成对抗蒸馏迫使主干网络生成的特征逼近真实特征的分布,学习到如何从不完整视听观测中生成与引导网络相近的全局特征;
36、logits蒸馏;将视听觉引导网络输出的logits分别表示为将主干网络输出的logits表示为logits蒸馏损失结合软标签和硬标签的损失,将l1损失用于计算引导网络和主干网络的logits差异,将mse损失用于计算主干网络预测与真实标签之间的差异,具体表示为:
37、
38、
39、lld=λst2lsoft+λhlhard
40、其中,t是用于平滑引导网络和主干网络的logits分布的蒸馏温度,ns是样本数量,flabel是数据集提供的groundtruth,||g||1表示l1损失运算符,表示mse损失运算符;λ是权重系数,t2是为了平衡温度引入的缩放效应;通过最小化综合损失函数lld,主干网络既能够学习到引导网络的logits信息,也能够保持与真实标签之间的高精度预测。
41、所述s6中计算总损失函数来优化模型参数的方法为:
42、ltotal=μ1lfa+μ2lvgd+μ3lagd+μ4lld
43、其中,μ是用于平衡每个部分占总损失函数百分比的权重因子,ltotal为总损失函数,lfa为特征对齐损失,lvgd为生成对抗损失,lagd为logits蒸馏损失,lld为位置估计损失。
44、本发明与现有技术相比,具有的有益效果是:
45、本发明通过主干网络和引导网络的交互学习来提升跟踪器的全局感知和缺失信息补全能力。提出了基于生成对抗网络的全局特征重建模块,生成器将主干网络中存在局部信息缺失的特征进行全局重建,同时还提出了一个异质信号多层次特征融合注意力模块,该模块使用注意力权重将异质信号的局部特征和全局重建特征进行动态融合,从而有效利用异质信号多层次特征的互补性和一致性。