本申请涉及计算机,尤其涉及一种基于自适应特征聚合的多模态目标跟踪方法、装置及介质。
背景技术:
1、随着计算机视觉领域的发展,多模态的特征提取模型日益受到关注,尤其是在处理多种不同来源或类型的数据时。在此类模型中,特征提取通常由三元网络完成,以获取各模态的深度特征。这些特征,经过余弦嵌入损失的约束,使得特征更具差异性和多样性,进而有助于实现更加准确的模态识别。
2、为了进一步增强模态间的特征表示能力,研究者引入了注意力机制。这种机制旨在对模态特有特征进行自增强,同时利用跨模态通道的方式进行互补增强。这样,模型能够在各个模态之间进行互补信息的跨模态感知,并进一步增强特征的差异性。
3、然而,当前的模型仍存在一些不足之处。首先,模型中的交互和增强仅在最后的特征上进行,这导致模型主要依赖高级语义信息,并忽略了纹理细节等底层信息。由于基于深层特有特征的交互和增强无法有效地感知和利用底层信息,模型的性能受到限制。其次,跨模态交互和增强在进行时仅使用了特有特征,从而忽略了共有特征的重要性。最后,虽然直接通过通道级联的方式将交互后的特有特征与共有特征进行融合是一种简单高效的方法,但它没有考虑模态的可靠性和权重,可能会导致信息损失或引入不必要的噪声。因此,导致现有的模型性能降低,鲁棒性较差的问题。
技术实现思路
1、有鉴于此,本申请实施例提供了一种基于自适应特征聚合的多模态目标跟踪方法、装置及介质,以解决现有技术存在的模型性能降低,鲁棒性较差的问题。
2、本申请实施例的第一方面,提供了一种基于自适应特征聚合的多模态目标跟踪方法,包括:从多模态传感器中获取包含多模态信息的图像数据,将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中;利用三元网络对多模态图像进行特征提取,得到多模态的共有特征以及每个模态的特有特征,并输出多个特征张量;基于多级残差注意力交互机制和余弦嵌入损失监督,对特征张量进行交互,以便对特征张量的差异性和多样性进行增强;利用特征张量,通过模态自增强与跨模态互增强策略进行特征融合,以使每个模态的特有特征在通道方向上与共有特征进行级联,形成统一的特征图;利用预设的自适应特征聚合模型,对前景信息和背景信息进行选择性融合,得到融合后的特征图;根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪,生成多模态目标跟踪结果。
3、本申请实施例的第二方面,提供了一种基于自适应特征聚合的多模态目标跟踪装置,包括:获取模块,被配置为从多模态传感器中获取包含多模态信息的图像数据,将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中;提取模块,被配置为利用三元网络对多模态图像进行特征提取,得到多模态的共有特征以及每个模态的特有特征,并输出多个特征张量;交互模块,被配置为基于多级残差注意力交互机制和余弦嵌入损失监督,对特征张量进行交互,以便对特征张量的差异性和多样性进行增强;增强模块,被配置为利用特征张量,通过模态自增强与跨模态互增强策略进行特征融合,以使每个模态的特有特征在通道方向上与共有特征进行级联,形成统一的特征图;融合模块,被配置为利用预设的自适应特征聚合模型,对前景信息和背景信息进行选择性融合,得到融合后的特征图;生成模块,被配置为根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪,生成多模态目标跟踪结果。
4、本申请实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
5、本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
6、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
7、通过从多模态传感器中获取包含多模态信息的图像数据,将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中;利用三元网络对多模态图像进行特征提取,得到多模态的共有特征以及每个模态的特有特征,并输出多个特征张量;基于多级残差注意力交互机制和余弦嵌入损失监督,对特征张量进行交互,以便对特征张量的差异性和多样性进行增强;利用特征张量,通过模态自增强与跨模态互增强策略进行特征融合,以使每个模态的特有特征在通道方向上与共有特征进行级联,形成统一的特征图;利用预设的自适应特征聚合模型,对前景信息和背景信息进行选择性融合,得到融合后的特征图;根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪,生成多模态目标跟踪结果。本申请对特有特征和共有特征进行融合,针对模态可靠性和权重问题,通过通道注意力聚合的方式为两个模态分配互补权重,使特征级联和融合过程具有选择性,从而提升了模型性能和鲁棒性。
1.一种基于自适应特征聚合的多模态目标跟踪方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述利用所述三元网络对所述多模态图像进行特征提取,得到多模态的共有特征以及每个模态的特有特征,并输出多个特征张量,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于多级残差注意力交互机制和余弦嵌入损失监督,对所述特征张量进行交互,以便对所述特征张量的差异性和多样性进行增强,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用所述特征张量,通过模态自增强与跨模态互增强策略进行特征融合,以使每个模态的所述特有特征在通道方向上与所述共有特征进行级联,形成统一的特征图,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用预设的自适应特征聚合模型,对前景信息和背景信息进行选择性融合,得到融合后的特征图,包括:
6.根据权利要求5所述的方法,其特征在于,所述自适应特征聚合模型中包含前后景融合模块,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述根据所述统一的特征图、所述融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪,生成多模态目标跟踪结果,包括:
8.一种基于自适应特征聚合的多模态目标跟踪装置,其特征在于,包括:
9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。