本发明属于图文检索,具体涉及一种基于语义信息推理和跨模态交互的图文检索方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、图像-文本检索任务旨在消除图像和文本之间的异构鸿沟,并探索它们的对应关系。现有的方法大致分为两类:全局粗粒度对齐和局部细粒度对齐。
3、全局粗粒度对齐方法。这类方法通常是将图像和文本映射到一个公共嵌入空间中,然后在公共空间中使用度量函数来测量它们的相似性。早期的解决方案是基于典型相关分析(cca),它通过最大化两种模态的投影向量之间的相关性来学习一个潜在的公共空间。随着深度神经网络的出现,许多工作采用深度学习的方法来寻找公共嵌入子空间。虽然这类方法在图像-文本检索方面取得了成功,但它们未能探索视觉区域和单词之间的细粒度关系。因此,它们无法通过两种模态之间的细粒度对齐来捕获共享语义。
4、局部细粒度对齐方法。这类方法通过学习细粒度的模态交互来关注局部相似性,以实现跨模态的语义对齐。具体来说,一些方法采用注意力机制来关注图像或文本中的重要信息并过滤掉不相关信息。目前,注意力机制在图像-文本检索领域上使用很广泛。此外,还有一些工作基于图结构来学习模块内关系和细粒度对齐,并在该领域取得了一定的进展。
5、目前提出的图文检索模型更注重两种模态特征间的对齐,忽略了对模态内部存在的语义关系和重要语义信息的推理。此外,以往的方法大多倾向于根据匹配的片段(即具有高度相关性的区域-单词对)来测量图像-文本相似性,然而这缺乏捕获模态间复杂的语义关联的能力,从而导致无法区分那些语义内容相似的硬负例。
技术实现思路
1、为了解决上述问题,本发明提出了一种基于语义信息推理和跨模态交互的图文检索方法及系统,本发明提出了一个语义信息推理模块来充分探索模态内部潜在的语义相关性,并获取包含丰富语义信息的细粒度特征;设计了一个多步跨模态交互模块,通过跨模态交互注意力和门控融合策略来逐步捕获跨模态语义关联和实现更有效的模态间交互。
2、根据一些实施例,本发明的第一方案提供了一种基于语义信息推理和跨模态交互的图文检索方法,采用如下技术方案:
3、基于语义信息推理和跨模态交互的图文检索方法,包括:
4、利用预先训练好的图像提取模型和文本提取模型进行初始化特征表示;
5、分别构建图像语义关系图和文本语义关系图,推理图节点的语义相关性,迭代学习节点之间的语义信息得到图像细粒度特征和文本细粒度特征,将其分别与图像和文本的初始特征聚合得到图像全局特征和文本全局特征;
6、基于图像细粒度特征和文本细粒度特征以及图像全局特征和文本全局特征通过多步骤的跨模态推理融合和传递图像与文本之间的语义关联信息,得到图像全局表示和文本全局表示;
7、融合图像全局特征和文本全局表示获得最终的图像全局表示,融合文本全局特征和图像全局表示获得最终的文本全局表示;
8、计算最终的图像全局表示与最终的文本全局表示之间的相似性,得到图文检索结果。
9、进一步地,所述利用预先训练好的图像提取模型和文本提取模型进行初始化特征表示,具体为:
10、给定一个图像i,使用预训练的faster r-cnn来检测k个显著区域,并获得其区域特征,使用一个全连接层将这些特征向量投影到一个d维空间中,得到初始区域特征;
11、使用预先训练过的bert模型,来提取单词级的文本表示,使用全连接层将单词特征映射到d维特征空间中,得到初始单词特征。
12、进一步地,所述分别构建图像语义关系图和文本语义关系图,具体为:
13、构建一个区域之间的图像语义关系图gv=(vv,ev),其中,图节点vv由区域特征v构成的,ev是由图像邻接矩阵wv表示的图结构的边集,它表示区域之间的连接关系;通过反向传播学习的两个全连接层构建描述图像区域之间的关系的图像邻接矩阵wv;
14、为每个句子构造一个文本语义关系图gt=(vt,et),将单词设置为图节点,边集et由文本邻接矩阵wm所表示,使用stanford corenlp对文本进行语法依赖性分析得到语法依赖性矩阵wp;如果单词ti与tj之间存在语法依赖关系,则wpi,j=1,否则wpi,j=0,计算单词之间的相似度矩阵ws;通过相似度矩阵ws和语法依赖矩阵wp之间的哈达玛积得到文本邻接矩阵wm。
15、进一步地,推理图像语义关系图节点的语义相关性,迭代学习节点之间的语义信息得到图像细粒度特征,将其与图像的初始区域特征聚合得到图像全局特征,具体为:
16、针对图像语义关系图,使用关联的边将每个节点与其他节点关联起来并传播语义信息,得到语义关联特征vg,使用softmax函数来学习每个区域的重要性的权重系数,并通过元素级乘积更新节点自身的特征;
17、融合语义关联特征vg和初始区域特征v之间的信息流,动态更新图像节点特征的方式如下:
18、g=sigmoid(ψ(wf1vg+bf1)+v);
19、v1=bn(g⊙vg)+v;
20、其中,ψ表示relu激活函数,v1为更新后的节点特征,g表示控制掩码;
21、利用新节点的关联自适应的更新图像邻接矩阵wv,如下所示:
22、
23、其中,和是权重矩阵,为更新后的图像邻接矩阵;
24、进行l个步骤的迭代更新和推理,以获取具有丰富语义的图像细粒度特征;
25、应用最大池化和平均池化聚合初始区域特征和图像细粒度特征,得到图像全局特征vglo∈rd。
26、进一步地,推理文本语义关系图节点的语义相关性,迭代学习节点之间的语义信息得到文本细粒度特征,将其与文本的初始单词特征聚合得到文本全局特征,具体为:
27、针对文本语义关系图,使用关联的边将每个节点与其他节点关联起来并传播语义信息,得到一个文本语义关联特征tg,使用softmax函数来学习每个单词的重要性的权重系数,并通过元素级乘积更新节点自身的特征;
28、融合文本语义关联特征tg和初始单词特征t之间的信息流,动态更新文本节点特征的方式如下:
29、g=sigmoid(ψ(wt1tg+bt1)+t);
30、t1=bn(g⊙tg)+t;
31、其中,ψ表示relu激活函数,t1为更新后的节点特征,g表示控制掩码;
32、利用新节点的关联自适应的更新文本邻接矩阵wm,如下所示:
33、
34、其中,wσ∈rd×d和wω∈rd×d是权重矩阵,为更新后的文本邻接矩阵;
35、进行l个步骤的迭代更新和推理,以获取具有丰富语义的文本细粒度特征;
36、应用最大池化和平均池化聚合初始单词特征和文本细粒度特征,得到文本全局特征tglo∈rd。
37、进一步地,所述基于图像细粒度特征和文本细粒度特征以及图像全局特征和文本全局特征,通过多步骤的跨模态推理融合和传递图像与文本之间的语义关联信息,得到图像全局表示和文本全局表示,具体为:
38、基于图像细粒度特征和文本细粒度特征,通过双向交叉注意机制来实现区域和单词之间的细粒度语义对齐,得到区域最相关的文本表示和单词最相关的图像表示;
39、基于图像细粒度特征和文本细粒度特征,通过双向交叉注意机制来实现区域和单词之间的细粒度语义对齐,得到区域最相关的文本表示和单词最相关的图像表示;
40、利用具有融合策略的门控机制,融合图像细粒度特征和区域最相关的文本表示得到图像显著特征;融合文本细粒度特征和单词最相关的图像表示得到文本显著特征。
41、进一步地,所述基于图像细粒度特征和文本细粒度特征以及图像全局特征和文本全局特征,通过多步骤的跨模态推理融合和传递图像与文本之间的语义关联信息,得到图像全局表示和文本全局表示,还包括:
42、计算图像全局特征和文本显著特征之间的语义相似性,并使用softmax函数为m个单词分配权重,对这些单词进行加权融合来获得一个文本全局表示;
43、计算文本全局特征和图像显著特征之间的语义相似性,并使用softmax函数为k个区域分配权重,对这些区域进行加权融合来获得一个图像全局表示。
44、根据一些实施例,本发明的第二方案提供了一种基于语义信息推理和跨模态交互的图文检索系统,采用如下技术方案:
45、基于语义信息推理和跨模态交互的图文检索系统,包括:
46、特征初始化模块,被配置为利用预先训练好的图像提取模型和文本提取模型进行初始化特征表示;
47、模态内语义信息推理模块,被配置为分别构建图像语义关系图和文本语义关系图,推理图节点的语义相关性,迭代学习节点之间的语义信息得到图像细粒度特征和文本细粒度特征,将其分别与图像和文本的初始特征聚合得到图像全局特征和文本全局特征;
48、多步跨模态交互模块,被配置为基于图像细粒度特征和文本细粒度特征以及图像全局特征和文本全局特征,通过多步骤的跨模态推理融合和传递图像与文本之间的语义关联信息,得到图像全局表示和文本全局表示;
49、信息融合模块,被配置为融合图像全局特征和文本全局表示获得最终的图像全局表示,融合文本全局特征和图像全局表示获得最终的文本全局表示;
50、模态相似性确定模块,被配置为计算最终的图像全局表示与最终的文本全局表示之间的相似性,得到图文检索结果。
51、根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
52、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于语义信息推理和跨模态交互的图文检索方法中的步骤。
53、根据一些实施例,本发明的第四方案提供了一种计算机设备。
54、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于语义信息推理和跨模态交互的图文检索方法中的步骤。
55、与现有技术相比,本发明的有益效果为:
56、本发明提出了一个基于语义信息推理和多步跨模态交互的图文检索模型srmci,最终目的是通过这个新颖的模型,实现整张图像和整个句子的有效检索。首先,选用最先进的特征提取的方法进行初始化。然后,设计了一个语义信息推理模块来分别对图像和文本进行模态内的语义推理。接下来,设计了一个多步跨模态交互模块,该模块通过三个步骤的跨模态推理来捕获模态间的复杂语义关联和实现模态间的有效交互。最后,测量图像与文本之间的相似性并使用设定的目标函数优化模型进行训练。