本公开涉及图像文本多模态模型及图像文本多模态检索,特别涉及图像文本模型处理方法及图像文本检索系统。
背景技术:
1、图像文本(下文中也可以简称为“图文”)检索以文本或图像作为检索查询,在候选的知识库中找到最匹配的图像或文本。作为多模态领域的核心任务,图文检索受到了学术界和工业界的广泛关注,并在广泛的工业应用中具有很强的实用价值。
2、近年来,视觉-语言预训练(vlp)模型的蓬勃发展显著提高了跨不同模态数据的表示学习,从而带来了跨模态检索领域显著的性能提升。
3、然而,跨模态模型特别是图像文本模型的训练仍然面临着严峻的挑战。
4、因此,仍然需要一种改进的图像文本模型处理方案及图像文本检索方案,以实现更好的图文对齐,进一步改善图文检索效果。
技术实现思路
1、本公开要解决的一个技术问题是提供一种图文检索方案,其能够实现更好的图文对齐,进一步改善图文检索效果。
2、根据本公开的第一个方面,提供了一种图像文本模型处理方法,包括:输入多个图像文本样本对,其中图像文本样本对包括相对应的文本样本和图像样本;对于文本样本和/或图像样本,从预设的概念图谱中相应获取用于训练的多个概念图像样本和/或多个概念文本样本,所述概念图谱包括多个概念文本和分别与概念文本匹配的概念图像;训练图像文本模型,训练图像文本模型的步骤包括:基于文本样本和多个概念图像样本训练图像文本模型,以使得文本样本与其对应的概念图像样本的相似度得分增大,而与其它文本样本对应的概念图像样本的相似度得分降低;以及/或者基于图像样本和多个概念文本样本训练图像文本模型,以使得图像样本与其对应的概念文本样本的相似度得分增大而与其它图像样本对应的概念文本样本的相似度得分降低。
3、可选地,获取多个概念图像样本的步骤包括:基于概念图谱,获取与各个文本样本对应的概念文本匹配的概念图像样本;并且/或者获取多个概念文本样本的步骤包括:基于概念图谱,获取与各个文本样本对应的概念文本样本。
4、可选地,概念图谱包括树状结构,树状结构中的父节点为其子节点的上位概念,获取与各个文本样本对应的概念文本样本的步骤包括:获取各个文本样本中包含的第一概念文本样本以及第一概念文本样本在树状结构中的父节点对应的第二概念文本样本;并且/或者获取与各个文本样本对应的概念文本匹配的概念图像样本的步骤包括:对于每个文本样本,在与其对应的概念文本匹配的多个概念图像中选择与该文本样本相似度得分最高的预定数量个概念图像样本。
5、可选地,训练图像文本模型的步骤还包括:基于各个文本样本分别与多个图像文本样本对中所有图像样本之间的对比,以优化第一对比匹配损失;以及/或者基于各个图像样本分别与多个图像文本样本对中所有文本样本之间的对比,以优化第二对比匹配损失。
6、可选地,优化第一对比匹配损失的步骤包括:设置第一损失函数,第一损失函数与各个文本样本和与其相对应的图像样本之间的相似度得分负相关,而与各个文本样本和与其不相对应的图像样本之间的相似度得分正相关;并且/或者优化第二对比匹配损失的步骤包括:设置第二损失函数,第二损失函数与各个图像样本和与其相对应的文本样本之间的相似度得分负相关,而与各个图像样本和与其不相对应的文本样本之间的相似度得分正相关;并且/或者基于文本样本和多个概念图像样本训练图像文本模型的步骤包括:设置第三损失函数,第三损失函数与各个文本样本和与其相对应的概念图像样本之间的相似度得分负相关,而与各个文本样本和与其不相对应的概念图像样本之间的相似度得分正相关;并且/或者基于图像样本和多个概念文本样本训练图像文本模型的步骤包括:设置第四损失函数,第四损失函数与各个图像样本和与其相对应的概念文本样本之间的相似度得分负相关,而与各个图像样本和与其不相对应的概念文本样本之间的相似度得分正相关。
7、可选地,获得概念图谱的步骤包括:获取多个图像文本对;对多个图像文本对中的文本进行分析,以得到多粒度的概念短语,作为概念文本;对于每个概念文本,从多个图像文本对中的多个图像中检索相似图像,作为该概念文本匹配的概念图像。
8、可选地,多粒度的概念短语包括根概念短语和在根概念基础上进一步进行描述的下位概念短语,该方法还包括:基于概念文本之间的上下位关系构建树状结构,树状结构中父节点为其子节点的上位概念。
9、可选地,对于每个概念文本从多个图像文本对中的多个图像中检索相似图像作为该概念文本匹配的概念图像的步骤包括:从多个图像中检索得到多个与该概念文本的上位概念文本相似的候选图像;采用最大边界相关算法从多个候选图像中选择中选图像,作为概念文本匹配的概念图像。
10、根据本公开的第二个方面,提供了一种构建知识图谱的方法,包括:获取多个图像文本对;对多个图像文本对中的文本进行分析,以得到多粒度的概念短语,作为概念文本;对于每个概念文本,从多个图像文本对中的多个图像中检索相似图像,作为该概念文本匹配的概念图像。
11、可选地,多粒度的概念短语包括根概念短语和在根概念基础上进一步进行描述的下位概念短语,该方法还包括:基于概念文本之间的上下位关系构建树状结构,树状结构中父节点为其子节点的上位概念。
12、根据本公开的第三个方面,提供了一种图像文本检索系统,包括:查询信息获取模块,用于获取用户输入的文本信息和/或图像信息;以及如本公开第一个方面得到的图像文本模型,用于基于用户输入的文本信息和/或图像信息,输出匹配的图像信息和/或文本信息。
13、根据本公开的第四个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面所述的方法。
14、根据本公开的第五个方面,提供了一种计算机程序产品,包括可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上述第一或第二方面所述的方法。
15、根据本公开的第六个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一或第二方面所述的方法。
16、本公开在训练图像文本模型时,引入概念知识图谱。与一般文本相比,概念知识图谱中的概念文本具有更加明确清晰的含义。而为从大量图像中为每个概念文本匹配的概念图像可以具有更好的代表性,与对应的概念文本具有相对较高的相似度。通过在图像文本模型的训练过程中引入概念知识图谱,可以对图像文本模型进行更加准确的训练。由此,训练得到的图像文本模型在图像文本检索应用过程中,能够实现更好的图像与文本之间的对齐,进一步改善图文检索的效果。
1.一种图像文本模型处理方法,包括:
2.根据权利要求1所述的方法,其中,
3.根据权利要求2所述的方法,其中,所述概念图谱包括树状结构,所述树状结构中的父节点为其子节点的上位概念,
4.根据权利要求1所述的方法,其中,训练图像文本模型的步骤还包括:
5.根据权利要求4所述的方法,其中,
6.根据权利要求1所述的方法,其中,获得概念图谱的步骤包括:
7.根据权利要求6所述的方法,其中,多粒度的概念短语包括根概念短语和在根概念基础上进一步进行描述的下位概念短语,该方法还包括:
8.根据权利要求6所述的方法,其中,对于每个概念文本从所述多个图像文本对中的多个图像中检索相似图像作为该概念文本匹配的概念图像的步骤包括:
9.一种图像文本检索系统,包括:
10.一种计算设备,包括:
11.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至8中任何一项所述的方法。