本发明涉及跨模态检索,尤其涉及一种多模态知识增强的跨模态表示学习与检索方法及相关设备。
背景技术:
1、互联网的快速发展,产生了大量的多模态数据(如,文本和图像等)。由于这些海量的多模态数据中包含了非常有价值的信息,因此如何对这些多模态数据进行高效的多模态知识增强的跨模态表示学习与检索变得尤为重要。
2、现有技术中,通常使用基于深度学习的跨模态视觉-语义嵌入方法进行多模态知识增强的跨模态表示学习与检索,它利用深度神经网络提取图像和文本的全局表征,然后进行跨模态的对齐和融合。但是,由于上述方法并没有充分的对多模态信息进行推理,进而使得在图像和文本之间难以挖掘出更多的跨模态语义知识。
技术实现思路
1、有鉴于此,本公开的目的在于提出一种多模态知识增强的跨模态表示学习与检索方法及相关设备。
2、作为本公开的一个方面,提供了一种多模态知识增强的跨模态表示学习与检索方法,包括:
3、获取数据信息集,其中所述数据信息集包括图像数据以及文本数据;
4、采集所述数据信息集的局部特征,并基于所述局部特征确定所述数据信息集的细粒度特征;
5、采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征;
6、基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索。
7、可选的,所述采集所述数据信息集的局部特征,包括:
8、基于注意力机制对所述图像数据的特征进行采集,得到所述图像数据的第一特征;
9、确定所述文本数据中与所述第一特征对应的第二特征,其中所述第二特征用于描述所述第一特征;
10、将所述第一特征以及所述第二特征作为所述数据信息集的局部特征。
11、可选的,所述基于所述局部特征确定所述数据信息集的细粒度特征,包括:
12、基于所述局部特征构建多模态知识图谱;
13、基于所述多模态知识图谱对所述局部特征进行模态间图对比学习,得到第一学习结果;
14、基于所述多模态知识图谱对所述局部特征进行模态内图对比学习,得到第二学习结果;
15、将所述第一学习结果以及所述第二学习结果作为所述细粒度特征。
16、可选的,所述基于所述局部特征构建多模态知识图谱,包括:
17、确定所述第一特征的第一关系矩阵以及所述第二特征的第二关系矩阵;
18、基于所述第一特征以及所述第二特征的共现关系,得到共现次数矩阵;
19、对所述第一关系矩阵、所述第二关系矩阵以及所述共现次数矩阵进行归一化处理,得到归一化处理后的关系矩阵;
20、通过所述局部特征、所述第一特征和所述第二特征间的相似度以及所述归一化处理后的关系矩阵,生成所述多模态知识图谱。
21、可选的,所述采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征,包括:
22、基于所述预设的编码器对所述数据信息集的特征进行采集,得到所述数据信息集的全局特征;
23、将所述全局特征作为所述粗粒度特征;
24、所述将所述全局特征作为所述粗粒度特征之后,所述方法还包括:
25、对所述粗粒度特征进行模态间对比学习,得到第三学习结果;以及,
26、对所述粗粒度特征进行模态内对比学习,得到第四学习结果;
27、基于所述第三学习结果以及所述第四学习结果,对所述跨模态检索的过程进行优化。
28、可选的,所述粗粒度特征包括图像特征和文本特征;
29、所述对所述粗粒度特征进行模态间对比学习,得到第三学习结果,包括:
30、对所述图像特征以及所述文本特征的对应关系进行模态间对比学习,得到第三学习结果;
31、所述对所述粗粒度特征进行模态内对比学习,得到第四学习结果,包括:
32、分别对所述图像特征和所述文本特征中目标数量的特征进行增广处理,得到增广后的图像特征以及增广后的文本特征;
33、对所述增广后的图像特征以及所述增广后的文本特征进行模态内对比学习,得到第四学习结果。
34、可选的,所述基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索,包括:
35、对所述融合后的特征进行哈希映射,得到哈希映射后的特征;
36、基于所述哈希映射后的特征对所述数据信息集进行跨模态检索。
37、作为本公开的第二个方面,本公开还提供了一种多模态知识增强的跨模态表示学习与检索装置,包括:
38、数据信息获取模块,被配置为:获取数据信息集,其中所述数据信息集包括图像数据以及文本数据;
39、细粒度特征确定模块,被配置为:采集所述数据信息集的局部特征,并基于所述局部特征确定所述数据信息集的细粒度特征;
40、粗粒度特征确定模块,被配置为:采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征;
41、多模态知识增强的跨模态表示学习与检索模块,被配置为:基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索。
42、作为本公开的第三个方面,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本公开所提供的上述的多模态知识增强的跨模态表示学习与检索方法。
43、作为本公开的第四个方面,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上任意一项所述的方法。
44、如上所述,本公开中,首先获取了图像数据以及文本数据,然后采集了图像数据和文本数据的局部细粒度特征以及全局粗粒度特征,最后再基于部细粒度特征和全局粗粒度特征对图像数据和文本数据进行了多模态知识增强的跨模态表示学习与检索。
45、在本公开中,其主要通过多模态图注意力网络对模态内和模态间的隐含细粒度语义关联进行推理,之后对推理得到的结果进行哈希映射并生成跨模态高效统一哈希表示,最终基于所生成的哈希表示进行跨模态检索。
1.一种多模态知识增强的跨模态表示学习与检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述采集所述数据信息集的局部特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述局部特征确定所述数据信息集的细粒度特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述局部特征构建多模态知识图谱,包括:
5.根据权利要求4所述的方法,其特征在于,所述采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征,包括:
6.根据权利要求5所述的方法,其特征在于,所述粗粒度特征包括图像特征和文本特征;
7.根据权利要求6所述的方法,其特征在于,所述基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索,包括:
8.一种多模态知识增强的跨模态表示学习与检索装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。