一种基于跨模态语义感知的图文检索方法及系统

文档序号：39415976发布日期：2024-09-18 11:50阅读：74来源：国知局

本发明属于图文检索，尤其涉及一种基于跨模态语义感知的图文检索方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

2、图像文本检索任务包含图搜文(ir)和文搜图(tr)两个子任务，旨在通过不同模态的信息融合，实现更好的理解与对齐；当前的图像-文本检索技术大致可分为粗粒度匹配和细粒度匹配两大类，粗粒度匹配技术通过将图像和文本映射到共享的嵌入空间中，以捕捉全局的语义关联。

3、尽管粗粒度匹配方法更直观性和简洁，但它们往往忽视了图像和文本中的局部细节信息，随着技术的发展，细粒度匹配方法已成为研究的主流；现有的细粒度匹配技术尽管能够有效地构建图像与文本间的局部语义联系，但图像中的冗余信息和噪声以及文本中的没有语义的词汇，都可能对全局匹配产生干扰；单个文本描述往往难以涵盖图像中的所有细节和对象，例如文本描述中可能缺少与图像特定区域对应的词汇，或者包含了一些不具语义意义的词，如“a woman is walking a dog on the beach.”中的“a”、“the”等，这些可能会影响图像和文本之间特征匹配的准确性；此外，在检索过程中，除了考虑图像区域与文本词汇之间的实体对齐关系外，不同模态关系之间的语义一致性也是不可忽视的；上述问题导致现有方案的图文检索准确率不高。

技术实现思路

1、为克服上述现有技术的不足，本发明提供了一种基于跨模态语义感知的图文检索方法及系统，基于多级信息动态融合模块和关系感知模块，深入挖掘视觉和语言之间的语义关联，对图像和文本的相似度进行更为准确的估算。

2、为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

3、本发明第一方面提供了一种基于跨模态语义感知的图文检索方法。

4、一种基于跨模态语义感知的图文检索方法，包括：

5、获取待匹配的图像和文本；

6、将图像和文本输入到训练好的跨模态语义感知网络中，得到图像和文本的相似度；

7、基于相似度进行图像和文本的匹配，从而得到图文检索结果；

8、其中，所述跨模态语义感知网络是从文本和图像中分别提取文本特征和图像特征，并对融合后的文本特征和图像特征分别进行二元关系推理和多元关系推理，得到最终的图像特征，计算最终的图像特征与文本特征的相似度。

9、进一步的，所述跨模态语义感知网络，包括文本特征提取模块、图像特征提取模块、关系感知模块和相似度计算模块；

10、其中，所述文本特征提取模块，用于提取文本特征；

11、所述图像特征提取模块，用于提取图像特征；

12、所述关系感知模块，用于对融合后的文本特征和图像特征分别进行二元关系推理和多元关系推理，得到最终的图像特征；

13、所述相似度计算模块，用于计算最终的图像特征与文本特征的相似度。

14、进一步的，所述文本特征的提取，具体为：

15、采用lstm生成单词级别的初始特征；

16、通过图卷积网络对单词级别的初始特征进行增强，得到局部特征；

17、通过双向门控循环单元，对局部特征进行全局语义推理，得到文本特征。

18、进一步的，所述图像特征的提取，具体为：

19、采用预训练的faster-rcnn生成区域级别的初始特征；

20、通过图卷积网络和残差连接对区域级别的初始特征进行增强，得到局部特征；

21、通过门控循环单元，对局部特征进行全局语义推理，得到全局特征；

22、通过多级信息动态融合模块，对局部图像特征和全局图像特征进行多层次混合，得到图像特征。

23、进一步的，所述对融合后的文本特征和图像特征分别进行二元关系推理和多元关系推理，是将融合后的文本特征和图像特征分别输入到两个独立的卷积流中，进行二元关系推理和多元关系推理，得到二元关系矩阵和多元关系矩阵，将两个矩阵加权融合，得到最终的图像特征。

24、进一步的，所述融合后的文本特征和图像特征，在进行二元关系推理和多元关系推理前，还要如下处理：

25、将融合后的特征映射到低维空间，然后将低维特征的维数展开，最后与其转置相加，得到所有图像区域表示的成对组合。

26、进一步的，所述跨模态语义感知网络，采用三元组损失函数进行训练，使正例样本之间的相似度尽量变小，负例样本之间的相似度尽量变大。

27、本发明第二方面提供了一种基于跨模态语义感知的图文检索系统。

28、一种基于跨模态语义感知的图文检索系统，包括图文获取模块、相似度计算模块和图文匹配模块：

29、图文获取模块，被配置为：获取待匹配的图像和文本；

30、相似度计算模块，被配置为：将图像和文本输入到训练好的跨模态语义感知网络中，得到图像和文本的相似度；

31、图文匹配模块，被配置为：基于相似度进行图像和文本的匹配，从而得到图文检索结果；

32、其中，所述跨模态语义感知网络是从文本和图像中分别提取文本特征和图像特征，并对融合后的文本特征和图像特征分别进行二元关系推理和多元关系推理，得到最终的图像特征，计算最终的图像特征与文本特征的相似度。

33、本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种基于跨模态语义感知的图文检索方法中的步骤。

34、本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种基于跨模态语义感知的图文检索方法中的步骤。

35、以上一个或多个技术方案存在以下有益效果：

36、本发明提出了一种跨模态语义感知网络csa-net，通过引入一个多级信息动态融合模块，对图像的局部特征和全局特征进行纠正和增强，从而得到更为精确的视觉表示；同时，还设计了一个关系感知模块(ram)，利用文本信息来识别图像中对象之间的二元和多元关系，有助于模型更准确地理解图像的背景和整体语境。

37、本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种基于跨模态语义感知的图文检索方法，其特征在于，包括：

2.如权利要求1所述的一种基于跨模态语义感知的图文检索方法，其特征在于，所述跨模态语义感知网络，包括文本特征提取模块、图像特征提取模块、关系感知模块和相似度计算模块；

3.如权利要求2所述的一种基于跨模态语义感知的图文检索方法，其特征在于，所述文本特征的提取，具体为：

4.如权利要求2所述的一种基于跨模态语义感知的图文检索方法，其特征在于，所述图像特征的提取，具体为：

5.如权利要求2所述的一种基于跨模态语义感知的图文检索方法，其特征在于，所述对融合后的文本特征和图像特征分别进行二元关系推理和多元关系推理，是将融合后的文本特征和图像特征分别输入到两个独立的卷积流中，进行二元关系推理和多元关系推理，得到二元关系矩阵和多元关系矩阵，将两个矩阵加权融合，得到最终的图像特征。

6.如权利要求1所述的一种基于跨模态语义感知的图文检索方法，其特征在于，所述融合后的文本特征和图像特征，在进行二元关系推理和多元关系推理前，还要如下处理：

7.如权利要求1所述的一种基于跨模态语义感知的图文检索方法，其特征在于，所述跨模态语义感知网络，采用三元组损失函数进行训练，使正例样本之间的相似度尽量变小，负例样本之间的相似度尽量变大。

8.一种基于跨模态语义感知的图文检索系统，其特征在于，包括图文获取模块、相似度计算模块和图文匹配模块：

9.一种电子设备，其特征是，包括：

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述计算机可读指令由计算机执行时，执行权利要求1-7任一项所述的方法。

技术总结
本发明提出了一种基于跨模态语义感知的图文检索方法及系统，涉及图文检索技术领域，具体方案包括：获取待匹配的图像和文本；将图像和文本输入到训练好的跨模态语义感知网络中，得到图像和文本的相似度；基于相似度进行图像和文本的匹配，从而得到图文检索结果；其中，所述跨模态语义感知网络是从文本和图像中分别提取文本特征和图像特征，并对融合后的文本特征和图像特征分别进行二元关系推理和多元关系推理，得到最终的图像特征，计算最终的图像特征与文本特征的相似度；本发明基于多级信息动态融合模块和关系感知模块，深入挖掘视觉和语言之间的语义关联，对图像和文本的相似度进行更为准确的估算。

技术研发人员：王新刚,杨金晓,赵晶,肖雨腾,张志平,周凯莉
受保护的技术使用者：齐鲁工业大学（山东省科学院）
技术研发日：
技术公布日：2024/9/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王新刚,杨金晓,赵晶,肖雨腾,张志平,周凯莉
技术所有人：齐鲁工业大学（山东省科学院）
我是此专利的发明人

上一篇：一种用于建设工程的地面破土器的制作方法
上一篇：一种汽车座椅面套加工转运装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。