1.本发明涉及语义最大相关及模态对齐的跨模态检索的领域,具体而言,涉及一种跨模态检索方法以及检索系统。
背景技术:2.信息资源已呈现出多模态数据(文本、图像、音频、视频等)的混合化态势,这些数据交叉关联,且逐步深度融合,并且这些多媒体数据呈现出快速增长的趋势。如何挖掘跨模态数据间隐藏的语义关联,实现跨模态信息检索是充分利用多模态数据资源的重要前提。
3.随着数据规模和模型规模的不断增大,深度学习逐渐进入预训练模型时代,如何更好地将其应用于下游任务受到越来越多的关注,如clip、simvlm等。此类预训练模型已有的文本图像推理能力对于不同的下游任务如图像描述(image captioning)、视觉问答(visual question answering,vqa)、跨模态检索(cross-modal retrieval)等都具有相对较好的迁移能力。相较于传统的图像分类方法,clip模型不再是为每张图像分配一个名词标签,而是一个句子,因此以往被强行分成同类的图像,就有了“无限细粒度”的标签。经由400亿对图像文本对通过无监督对比学习方法的预训练模型clip虽然已经获取到了丰富的文本-图像语义,但是clip对于两种模态数据的前期编码阶段依旧是相互独立的,仍然缺少模态间信息的交互。clip用对比损失约束给出两种模态匹配或不匹配的判断,且每条图像(文本)模态信息有且仅有一条文本(图像)模态信息与之匹配,忽略了一对多的近似匹配情况所包含的模态内、模态间的丰富的语义信息、区分度信息。
4.有鉴于此,特提出本发明。
技术实现要素:5.有鉴于此,本发明公开了一种新型的跨模态检索方法,先通过decomposable attention机制将一种模态的特征表示用另外一种模态重新表示,获取更为丰富的语义信息,同时增强两种模态的语义关联,然后在标签空间方面,利用arc4cmr损失函数将学习到的多模态特征分布到归一化超球面上,特征和权值之间增加角边缘惩罚使得类别间有明确的决策边界,实现同时增强类内紧性和类间差异性。
6.具体地,本发明是通过以下技术方案实现的:
7.第一方面,本发明公开了一种新型的跨模态检索方法,包括如下步骤:
8.采用clip预训练模型对图像和文本样本的特征进行编码,获得包括原始图像以及文本的原始模态特征;
9.将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;
10.将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机以保持模态的不变性;
11.利用arc4cmr损失函数将得到的模态数据分布到归一化超球面上进行类别边界约
束。
12.第二方面,本发明公开了一种跨模态检索系统,包括:
13.初始模块:用于采用clip预训练模型对图像和文本样本的特征进行编码,获得包括原始图像以及文本的原始模态特征;
14.对齐模块:用于将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;
15.权重共享模块:用于将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机以保持模态的不变性;
16.归一化模块:利用arc4cmr损失函数将得到的最终模态数据分布到归一化超球面上进行类别边界约束。
17.第三方面,本发明公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述跨模态检索方法的步骤。
18.第四方面,本发明公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所跨模态检索方法的步骤。
19.现有技术中的跨模态检索通过对底层特征异构、高层语义相关的不同模态数据进行相似性的度量,以解决异构性差异问题,总体可分为无监督检索和有监督检索两种。
20.无监督跨模态检索:典型相关分析(canonical correlation analysis,cca)本质上是一种多元统计分析,利用多个图像和文本匹配对之间的相关关系得到一个成对相似性最大的无监督公共子空间,并将图像特征和文本特征映射到公共子空间中得到不同模态数据的统一表征,反映两种模态之间的整体相关性,从而实现跨模态检索。内核相关分析(kernel cca,kcca)引入内核kernel的技巧来改进cca对于两个变量间存在非线性相关的关系时也许会失效的情况。关联自编码器(correspondence autoencoders,corr-ae)利用自动编码器考虑跨模态检索中的重构误差和相关损失。
21.有监督跨模态检索:联合表征学习(joint representation learning,jrl)在统一框架中整合不同媒体类型的稀疏和半监督正则化,共同探索成对相关性和语义信息。对抗交叉模态检索(adversarial cross-modal retrieval,acmr)试图通过对抗学习的思想进行分类来区分不同的模态。跨模态关联学习(cross-modal correlation learning,ccl)通过多任务学习的方式挖掘不同媒体类型数据的粗细粒度信息。深度监督跨模式检索方法(deep supervised cross-modal retrieval,dscmr)在公共表示空间中通过对样本进行线性分类以保留语义的区分性,通过权值共享策略以保持模态的不变性在公共表示空间中。为预训练模型clip增加类级关联信息的clip4cmr(clip for supervised cross-modal retrieval,clip4cmr)将clip作为骨干网络生成每种模态原始特征表示,然后送入各自模态的多层感知机来学习公共表示空间,针对未知类别缺乏鲁棒性问题,通过分配一组统一原型作为类代理,并利用最近原型(nearest-prototype)分类规则进行推理来解决未知类别缺乏鲁棒性的问题,通过为预训练模型clip增加了类级关联信息。
22.然而,现有技术中跨模态检索的传统处理方式为经由双塔结构模型将文本和图像嵌入到联合潜在空间中,然后应用余弦相似性等距离度量方式让模型使匹配的文本-图像之间具有更高的相似性,然而,两种模态之间存在相对较大的表示差异,使得直接比较这两
种模态本身存在诸多困难。
23.本发明为了解决上述技术问题提供了一种跨模态的检索方法,先通过预训练模型clip对特征进行编码,获得原始图像和文本表示。为进一步增进模态信息交互,然后将原始模态表征送入到注意力对齐模块。即为,图像(文本)模态的每条查询(在一个batch内),在大小为batch的文本(图像)模态库中更加关注与查询匹配的那条文本(图像)样本,实现单条样本的相互对齐。同时实现了增强两种模态信息的语义关联。最后运用共享多层感知机做权重参数共享来处理经过上述操作的数据,为每种模态数据生成公共表示空间的同时增加语义限制,使得成对的图像与文本的公共表示尽可能相近,实现同时增强类内紧性和类间差异性。
附图说明
24.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
25.图1为本发明实施例提供的跨模态检索方法的整体框架图;
26.图2为本发明实施例提供的模态对齐方法的操作示意图;
27.图3为本发明实施例提供的arc4cmr损失的角度空间示意图;
28.图4为本发明实施例提供的一种计算机设备的流程示意图;
29.图5为本发明实施例提供的可视化实验的结果图。
具体实施方式
30.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
31.在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
32.应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
33.本发明公开了一种跨模态检索方法,如图1所示,包括如下步骤:
34.采用clip预训练模型对图像和文本样本的特征进行编码,获得包括原始图像以及文本的原始模态特征;
35.将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;
36.将上述步骤形成的所述模态对齐数据进行权重共享的多层感知机以保持模态的不变性;
37.利用arc4cmr损失函数将得到的最终模态数据分布到归一化超球面上进行类别边界约束。
38.在本发明的方案中,主张将模态对齐置于骨干网络的编码之上,以增加同类跨模态数据的匹配度以及异类模态数据的分离度。对于模态1(图像或文本)的每条样本与模态2(文本或图像)的batch内的所有样本进行一个分解注意力的调整。在通过clip编码器获得原始特征表示的基础上,通过decomposable attention机制将一种模态的特征表示用另外一种模态的来重新表示,以增强两种模态的语义关联。在模态对齐的过程中,使模态的单个查询获取多个近似匹配另一模态信息,从而获取更为丰富的语义信息。为防止新的特征表示方式中不相关模态的比重过大导致信息丢失,将经过模态对齐的输出特征与原始特征进行add操作,再到layer normalization以保证在优化过程中数据特征分布的稳定性,加速模型的收敛,即最终图像表示为文本表示为模态对齐模块将原始图像(文本)特征表示与用文本(图像)重新表示的图像(文本)特征进行相加并做归一化处理,促进两模态信息的交互,增加跨模态数据的同类聚合度以及异类分离度,同时增强两种搜索模式的精度使两种检索结果的精度都能得到均衡的提高。
39.具体地,如图2所示,实际上以批batch内的图像原始特征(左侧条纹格,以颜色作为间隔区分batch内的多个图像)作为查询q每一个图像与批batch内的所有文本原始特征计算相似性(一对多的关系,一个q与多个k相乘得到注意力权重也就是图中k和v之间长短不一的蓝色长条,越长代表越相似),然后用注意力权重与文本原始特征具体特征取值v相乘得到新的用文本特征表示图像特征,即对齐的文本特征表示(右侧条纹格),为防止新的对齐的文本特征表示中语义不相关的原始文本特征权重分配比重过大导致图像所表示的信息丢失,再将原始图像特征与对齐的文本特征进行相加与层归一化layer normalization处理。
40.上述过程是指当模态1为原始图像,模态2为原始文本时的具体分解注意力的调整过程,即图像(模态1)检索文本(模态2)过程存在的操作。这里涉及的是两种模态之间的相互检索,同理文本(模态1)检索图像(模态2)的就是将qkv的具体输入换一下。其核心实际为矩阵运算,所以对齐原理是一样的,只是将图像检索文本过程得到的注意力权重矩阵进行转置即可用于文本检索图像。
41.另外,跨模态检索任务要求尽可能地同时增大类内的相似性和聚合和增大类间差异性和不一致性。为满足分类的同时增大类内紧凑性与类间分离性,消除边界模糊性问题,采用加性角边距损失(arcface)应用于跨模态检索领域,并将其命名为arc4cmr损失。具体过程为:直接在角度空间中在最近的类之间强制执行来最大化分类界限,将特征xi和对应权重w
yi
进行l2正则化,使得||w
yi
||=1,标准化处理后的特征再乘以一个重缩放rescale参数s,使得||xi||=s,即使得嵌入特征分布在半径为s的超球上;另一方面在特征xi和目标权重w
yi
之间添加了一个自定义的加性角度边距(additive angular margin)m用cos(θ
yi
+m)来代替原来的cosθ
yi
,其余的保持不变。实际上,这里每个权重w都提供了一个类别中心,通过附加的角度间隔使之变为θ
yi
+m,使原本的对应输出更小,空间的角度变大,从而增加训练难度,更加向类中心聚集,特征和权值的归一化步骤使预测仅依赖于特征和权值之间的角
度;最后,在xi和w
yi
之间添加角边缘惩罚m,同时增强类内紧性和类间差异。具体的公式表达为公式1、2表述的是限制条件。
[0042][0043][0044]
上述公式中,批大小为n,即i=1,2,...,n,xi为特征输入,其类别标签为yi,为特征xi与其对应权重w
yi
的余弦夹角,m为角边缘惩罚,n为类别数目,即k=1,2,...,n,wk为各个类别的权重,θk为将输入特征xi误判为非yi类的其他k类别(对应k类权重为wk)的余弦夹角。对于不同的检索需求公式1、2仅作输入上的变化。对于图像检索文本i2t的损失函数li,输入为相应的正则化为即对于文本检索图像t2i的损失函数l
t
,输入变为相应的正则化为即综上,所提的smr-ma模型的目标函数为l
arc4cmr
=li+l
t
。arc4cmr损失的角度空间示意图如图3所示,其中不同的颜色代表不同的类别,圆圈代表图像模态,三角代表文本模态。
[0045]
另外,本发明除了提供一种跨模态检索方法,还提供了一种跨模态的检索系统,具体包括:
[0046]
初始模块:用于采用clip预训练模型对图像和文本样本的特征进行编码,获得包括原始图像以及文本的原始模态特征;
[0047]
对齐模块:用于将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;
[0048]
权重共享模块:用于将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机以保持模态的不变性;
[0049]
归一化模块:用于利用arc4cmr损失函数将得到的最终模态数据分布到归一化超球面上进行类别边界约束。
[0050]
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0051]
实验例1
[0052]
将采用本发明实施例实施的跨模态检索方法与现有技术中8种具有代表性的基线方法进行了整体性能比较,包括4种传统方法,cca、kcca、corr-ae、jrl,以及4种基于深度学习的方法,acmr、ccl、dscmr和clip4cmr。以跨模态检索标准的平均查准率(mean average precision,map)为评价指标,比较验证了以图像检索文本(i2t)和以文本检索图像(t2i)的map分值。
[0053]
表1 smr-ma和基线方法在基准数据集上map值的对比
[0054][0055]
在三个基准数据集上的综合分析实验表明,本发明的方法在跨模态检索任务中具有良好的性能,相较于目前在wikipedia、pascalsentence和nus-wide上取得的最优结果的基线方法,所提smr-ma在map分别提高了9.4%、0.7%、3.4%和8.7%,达到了sota(state-of-the-art)的效果,因此具有更高的应用价值。
[0056]
为了直观地观察最大语义相关及模态对齐模型(smr-ma)的有效性,观察在共享表示空间的高维的图像和文本样本的表示有没有取得很好的可分性,通过t-sne(t-distributed stochastic neighbor embedding)这一非线性降维算法,将原始的1024维的高维数据投影到2维空间进行可视化。选用维基百科数据集做可视化实验。图5(d)和图5(e)分别表示经过clip视觉编码器和文本编码器获得的图像和文本的原始特征分布,两张图可以看到,类间分离度和类内的聚集程度都较低,导致直接进行匹配准确率不高。图5(a)和图5(b)分别展示了图像和文本表示经过smr-ma的分布情况,两者都能够有效的将不同语义类别的样本进行判别,划分为相应的语义判别簇。图5(c)展示了在公共表示空间中两种模态的特征嵌入分布的重叠程度,这表明该方法对于消除模态差异性有明显效果。
[0057]
图4为本发明公开的一种计算机设备的结构示意图。参考图4所示,该计算机设备400,至少包括存储器402和处理器401;所述存储器402通过通信总线403和处理器连接,用于存储所述处理器401可执行的计算机指令,所述处理器401用于从所述存储器402读取计算机指令以实现上述任一实施例所述的跨模态检索方法的步骤。
[0058]
对于上述装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0059]
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如eprom、eeprom和闪存设备)、磁盘(例如内部磁盘或可移动盘)、磁光盘以及cd rom和dvd-rom盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
[0060]
最后应说明的是:虽然本说明书包含许多具体实施细节,但是这些不应被解释为
限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
[0061]
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
[0062]
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
[0063]
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。