一种跨模态检索方法以及检索系统

文档序号:32800666发布日期:2023-01-03 23:33阅读:来源:国知局

技术特征:
1.一种跨模态检索方法,其特征在于,包括如下步骤:采用clip预训练模型对特征进行编码,获得包括原始图像以及文本的原始模态特征;将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机以保持模态的不变性;利用arc4cmr损失函数将最终得到的模态数据分布到归一化超球面上进行类别边界约束。2.根据权利要求1所述的跨模态检索方法,其特征在于,所述注意力对齐的处理方法包括:通过decomposable attention机制,将模态1中所包含的原始图像(文本)的每条样本,用batch内的所有模态2样本所包含的文本(图像)进行分解注意力的重新调整,即用模态2数据重新表示模态1数据。3.根据权利要求2所述的跨模态检索方法,其特征在于,注意力对齐处理之后,还包括:将经过模态对齐的输出特征与原始模态的特征进行add操作,再到layer normalization进行归一化处理以加速模型的收敛,得到最终特征的图像模态特征数据为文本模态特征数据为4.根据权利要求3所述的跨模态检索方法,其特征在于,所述模态对齐的方法包括:当模态1为原始图像,模态2为原始文本时,以批batch内的图像原始特征作为查询q每一个图像与批batch内的所有文本原始特征k计算相似性,得到注意力权重,然后用注意力权重与文本原始特征具体特征取值v相乘得到经过所述经过模态对齐的输出特征。5.根据权利要求2所述的跨模态检索方法,其特征在于,利用arc4cmr损失函数将最终得到的模态数据分布到归一化超球面上进行类别边界约束的方法包括:将特征x
i
和对应权重w
yi
进行l2正则化,使得||w
yi
||=1,然后将标准化处理后的特征乘以一个重缩放rescale参数s,使得||x
i
||=s,即使得嵌入特征分布在半径为s的超球上;在特征x
i
和目标权重之间添加自定义的加性角度边距m用cos(θ
yi
+m)来代替原来的cosθ
yi
。6.根据权利要求5所述的跨模态检索方法,其特征在于,分布到归一化超球面的方法所表示的具体公式为:表示的具体公式为:上述公式中,批大小为n,即i=1,2,...,n,x
i
为特征输入,其类别标签为y
i
,为特征x
i
与其对应权重w
yi
的余弦夹角,m为角边缘惩罚,n为类别数目,即k=1,2,...,n,w
k
为各个类别的权重,θ
k
为将输入特征x
i
误判为非yi类的其他k类别,对应k类权重为w
k
的余弦夹角;对于图像检索文本i2t的损失函数l
i
,输入为相应的正则化为即
对于文本检索图像t2i的损失函数l
t
,输入变为相应的正则化为即则所提的最大语义相关及模态对齐模型使用的目标函数为l
arc4cmr
=l
i
+l
t
。7.采用权利要求1-6任一项所述跨模态检索方法的检索系统,其特征在于,包括:初始模块:用于采用clip预训练模型对图像和文本样本的特征进行编码,获得包括原始图像以及文本的原始模态特征;对齐模块:用于将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;权重共享模块:用于将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机以保持模态的不变性;归一化模块:用于利用arc4cmr损失函数将得到的最终模态数据分布到归一化超球面上进行类别边界约束。8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序执行时实现权利要求1-6任一项所述跨模态检索方法的步骤。9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述跨模态检索方法的步骤。

技术总结
本发明提供了一种跨模态检索方法以及检索系统,所述检索方法包括:采用CLIP预训练模型对特征进行编码,获得包括原始图像以及文本的原始模态特征;将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;将上述步骤形成的所述模态数据通过权重共享的多层感知机以保持模态的不变性;利用Arc4cmr损失函数将最终得到的特征数据分布到归一化超球面上进行类别边界约束。本发明的跨模态检索方法使得成对的图像与文本的公共表示尽可能相近,实现同时增强类内紧性和类间差异性。内紧性和类间差异性。内紧性和类间差异性。


技术研发人员:强保华 孙苹苹 杨先一 席广勇 陈锐东
受保护的技术使用者:桂林电子科技大学
技术研发日:2022.10.27
技术公布日:2023/1/2
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1