一种基于对比学习的多模态融合目标识别方法与流程

文档序号：35813627发布日期：2023-10-22 06:16阅读：55来源：国知局

本发明属于目标识别，具体涉及一种基于对比学习的多模态融合目标识别方法。

背景技术：

1、近年来，在互联网、视频监控、军事探测、医学影像以及地球遥感等行业应用领域，人类获取和处理信息的手段更加多样化，大量复杂的多源、多传感器、多角度、多特征、多尺度以及多核数据出现，这些数据统称为多模态。例如，人有触觉，听觉，视觉，嗅觉；信息有语音、视频、文字等媒介；武器装备有雷达、红外、加速度计等传感器。相较于单模态学习，多模态可从不同的角度揭示事物的固有属性，提供更加丰富、判别性的数据输入，其具有的互补性、共识性、兼容性、完备性等综合信息，能显著地改善学习任务的性能。

2、多模态目标分类识别是计算机视觉、人工智能等领域中的关键任务之一，而现有的方法面临两大问题：(1)大都仅能处理单模态数据，不能利用多模态信息；(2)大都面临很高的计算复杂度，时效性差。这些问题阻碍了多模态目标分类识别的落地与应用推广。

技术实现思路

1、本发明提供了一种基于对比学习的多模态融合目标识别方法，解决了目标识别大部分仅能处理单模态数据，不能利用多模态信息以及计算复杂、时效性差和识别精度不高的问题。

2、为了解决上述技术问题，本发明的技术方案为：一种基于对比学习的多模态融合目标识别方法，包括以下步骤：

3、s1、构造多源数据与多视图数据，得到具有m个模态的多模态数据；

4、s2、将多模态数据通过深度自编-解码网络，提取多模态数据的共识性低维嵌入表示与差异性低维嵌入表示，并将共识性低维嵌入表示与差异性低维嵌入表示，通过哈希表征模块生成模态共识性关系图与模态差异性关系图；

5、s3、将模态共识性关系图与模态差异性关系图，通过哈希表征模块映射到标签空间中，得到多模态数据的紧致哈希共识性模态数据与紧致哈希差异性模态数据；

6、s4、构建多模态数据的目标分类识别网络，其中，多模态数据的目标分类识别网络包括多模态重建网络、对比学习模块以及分类学习模块；

7、s5、将多模态数据的紧致哈希共识性模态数据与紧致哈希差异性模态数据输入至多模态数据的目标分类识别网络，得到目标识别结果。

8、本发明的有益效果是：本发明通过构造多模态数据，将多模态数据输入至深度自编-解码网络，再通过哈希表征模块，学习多模态数据哈希紧致泛化表征，然后再通过多模态数据的目标分类识别网络，得到目标识别结果。其中，对比学习模块以增强多模态嵌入表示的鉴别性，提升目标识别精度。使用多模态数据的目标分类识别网络能极大地提高多模态数据的表征与模型表示能力，并能有效地减少数据的存储、通信、计算开销，扩大模型的应用范围，解决了目标识别大部分仅能处理单模态数据，不能利用多模态信息以及计算复杂，时效性差和识别精度不高的问题。

9、进一步地，所述步骤s2中深度自编-解码网络的目标函数为：

10、

11、其中，ln表示深度自编-解码网络的目标函数，x(i)表示第i个模态数据，表示第i个模态数据重建后的差异性模态数据，表示第i个模态数据重建后的共识性模态数据，α与β均表示平衡参数，表示第i个模态数据对应的自编-解码网络的差异性表征，z(i)表示第i个模态数据对应的自编-解码网络的差异性关系图，表示第i个模态数据对应的自编-解码网络的共识性表征，a表示模态共识性关系图，|| ||f表示弗罗贝尼乌斯frobenius范数，m表示多模态数据的模态总数。

12、进一步地，所述步骤s2中哈希表征模块的目标函数为：

13、

14、其中，lh表示哈希表征模块的目标函数，y表示所有样本的标签信息，表示第i个模态数据对应的哈希投影矩阵，z(i)表示第i个模态数据对应的自编-解码网络的差异性关系图，w表示模态共识性关系图对应的哈希投影矩阵，a表示模态共识性关系图，表示多模态数据的紧致差异性哈希码，wa表示多模态数据的紧致共识性哈希码，|| ||f表示弗罗贝尼乌斯frobenius范数，m表示多模态数据的模态总数。

15、上述进一步方案的有益效果为：深度自编-解码网络与哈希表征模块实现了紧致哈希一致性学习、差异性学习、和标签学习的统一，有助于提升表征能力。在优化时，可以使用随机梯度下降进行求解，因此具有很好的可扩展性。另外，神经网络自身就很好地解决了泛化问题，因此训练好的深度自编-解码网络与哈希表征模块直接可以用来处理新的模态数据。

16、进一步地，所述步骤s4中多模态重建网络的损失函数为：

17、

18、其中，lrecon表示多模态重建网络的损失函数，d(i)表示第i个模态数据对应的紧致哈希差异性模态数据，表示利用d(i)重建的紧致哈希差异性模态数据，c表示多模态数据的紧致哈希共识性模态数据，表示利用c产生的重建的紧致哈希共识性模态数据，|| ||f表示弗罗贝尼乌斯frobenius范数，m表示多模态数据的模态总数。

19、进一步地，所述步骤s4中对比学习模块的损失函数为：

20、

21、

22、

23、其中，lcontrastive表示对比学习模块的损失函数，n表示样本数量，u表示第u个模态，v表示第v个模态，1{u≠v}表示当u≠v时，取值为1，否则，取值为0，表示第u个模态与第v个模态的同一样本a之间的对比损失，s'表示针对样本a的负对样本，表示样本a在第u个模态与第v个模态之间的相似度，τ表示超参数，表示负对的相似度集合，表示第v个模态的第a个样本，表示第u个模态的第a个样本，t表示转置矩阵，|| ||表示向量的欧几里德euclidean范数。

24、进一步地，所述步骤s4中分类学习模块的损失函数为：

25、

26、其中，lclassfication表示分类学习模块的损失函数，yi'表示第i'个嵌入表征对应样本的真实标签值，log()表示取对数，φ(c)表示当紧致哈希共识性模态c作为输入时的预测结果。

27、进一步地，所述步骤s4中多模态数据的目标分类识别网络的损失函数为：

28、l＝lrecon+α'lcontrastive+β'lclassfication

29、其中，l表示多模态数据的目标分类识别网络的损失函数，α'与β'均表示多模态数据的目标分类识别网络的平衡参数。

30、进一步地，所述步骤s5的具体步骤为：

31、s51、将多模态数据的紧致哈希共识性模态数据与紧致哈希差异性模态数据输入至多模态重建网络，得到多模态数据的嵌入表征；

32、s52、将嵌入表征通过对比学习模块，增强嵌入表征的鉴别性；

33、s53、将增强的嵌入表征通过全连接层进行多模态融合，并将融合的嵌入表征通过分类学习模块中的softmax函数进行预测，得到目标识别结果。

34、上述进一步方案的有益效果为：通过多模态重建网络能够提取各个模态的嵌入表示方便后续进行多模态融合，通过对比学习模块增强各个模态嵌入表示的鉴别性，提高目标识别的性能，通过分类学习模块用于学习分类拟合函数，完成基于多模态的目标识别。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任珍文郭倩文尤晓健戴健孙元李杏峰
技术所有人：西南科技大学
我是此专利的发明人

上一篇：一种应用于地铁的不同设备在线离线批量单次升级的方法与流程
上一篇：一种医疗口罩生产分切设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。