基于子空间适应性间距的跨模态检索方法及存储介质

文档序号:30614153发布日期:2022-07-02 00:29阅读:71来源:国知局
基于子空间适应性间距的跨模态检索方法及存储介质

1.本发明涉及计算机视觉技术领域,尤其涉及使用有监督子空间适应性间距的跨模态检索方法及存储介质。


背景技术:

2.基于近年来,随着互联网的蓬勃发展、智能设备与社交网络的普及,多媒体数据在互联网上爆炸式地增长。最新数据显示,youtube每分钟有长达300h的视频上传;flickr、snapchat等图片分享网站每天有上亿的图片上传;facebook、twitter等社交媒体网站上,用户每天都分享着海量的文本、图片和视频等多媒体数据。这些不同类型的数据通常都是描述同一个物体或同一个事件。如网页通常由文字、图像或视频来共同表达同一个事件或主题。随着互联网上数据规模的不断壮大,数据类型越来越呈现多样化的特点,用户感兴趣的数据模态不再单一,用户的检索需求也越来越呈现出从单一模态到跨模态的发展态势。模态是指数据的表达形式,包括文本、图像、视频和音频等。跨模态检索是至少两种模态的数据之间互相检索,通常是以一种模态作为查询来检索另一种模态的相关数据。通过找出不同模态数据之间的潜在关联,实现相对准确的交叉匹配。
3.不同模态数据之间的内容相关性度量是跨模态检索任务的核心与挑战。传统的使用三元组损失函数在跨模态检索中都是基于固定间距值,设置一个可调参的间距值超参数α,而在论文《online low-rank similarity function learning with adaptive relative margin for cross-modal retrieval》中提到不同类别的样本之间的间距值是不同的,所以设置一个固定间距值是不合理的。所以该论文提出一种适应性间距值。但是在该论文中只考虑单一模态样本对适应性间距的影响,无疑会降低多模态之间的关联性,导致检索精度降低。


技术实现要素:

4.本发明的目的在于针对上述已有技术的不足,提出基于有监督子空间适应性间距的跨模态检索方法,用于解决现有跨模态哈希检索方法中存在的检索精度低的技术问题。
5.为实现上述目的,本发明采用了以下技术方案:
6.一种基于子空间适应性间距的跨模态检索方法,包括以下步骤,
7.数据预处理,进行训练集测试集数据划分,并提取数据的原始高维特征;
8.输入原始高维特征进入网络模型获取模型输出的图像和文本的公共特征以及对应的预测标签信息;
9.使用公共特征和标签信息计算每种模态中不同类别样本的适应性间距损失,结合注意力机制聚焦图片和文本中类别信息用于增强不同类别的判别性,以及计算不同模态样本之间的不变性损失;
10.再通过反向传播对损失函数进行优化去迭代网络模型直到模型收敛为止;
11.使用收敛后的网络模型计算所有图像和文本的公共特征;
12.最后对查询数据特征与公共特征进行相似度计算并排序返回结果。
13.进一步的,所述数据预处理,进行训练集测试集数据划分,并提取数据的原始高维特征,包括以下步骤,
14.s1a、收集数据图像、文本数据以及标签信息以及标签信息其中表示第i个图像原始样本,表示第i个文本原始样本,yi表示第i个样本独热编码,c表示类别数,然后进行训练集、测试集划分;
15.s1b、对于图像训练集数据,使用vgg19在image-net上预训练的模型进行微调,然后使用微调后的模型提取所有图像原始特征;
16.s1c、对于文本训练集数据,使用word2vec模型作为通用字典,用于为每个文本构建文本矩阵,然后输入到the sentence cnn网络进行预训练,然后使用预训练后的模型提取所有文本原始特征。
17.进一步的,所述输入原始高维特征进入网络模型获取模型输出的图像和文本的公共特征以及对应的预测标签信息,包括以下步骤,
18.s2、对步骤s1中图像原始特征和文本原始特征经过子空间网络学习得到相同维度的特征q=(q1,q2,
…qn
),其中qi代表每个子空间图像特征,s=(s1,s2,

sn)其中si代表每个子空间文本特征;
19.s3、对于步骤s2中子空间特征,使用线性分类器去预测图像与文本所属类别其中表示图像预测标签独热编码,表示图像预测标签独热编码,其中表示文本预测标签独热编码。
20.进一步的,所述使用公共特征和标签信息计算每种模态中不同类别样本的适应性间距损失,结合注意力机制聚焦图片和文本中类别信息用于增强不同类别的判别性,以及计算不同模态样本之间的不变性损失,具体包括,
21.s4、对步骤s2中得到的子空间文本与图像特征,假设有一个文本特征vi和图像特征ki,那么计算出vi与其属于相同类别文本的相似度同理计算出处和其中是余弦函数;
22.s5、对于步骤s2中的子空间图像特征qi,计算出与之相同类别子空间文本特征相似度不同类别子空间文本特征相似度同理计算结合适应性间距函数构建文本到图像以及图像到文本三元损失函数
23.s6、对于每一对图像文本对经过步骤s2得到与之对应的子空间图像与文本特征(qi,si),计算同一对图像文本对的相似性以及不成对的图像文本之间的相似性采用三元组损失约束与之间相似性距离
24.s7、对于步骤s3预测的标签,使用f范数约束图像预测标签pm与真实标签y和文本预测标签p
t
与真实标签y的距离同时使用三元组损失增强图像、文本类别预测的准确性
25.s8、
26.所述注意力机制由文本自注意机制与图像自注意机制构成,其中对于文本自注意机制原始输入s经过一个由三个relu激活函数的2048维线性层分别映射到查询空间q,键空间k和值空间v,然后采用比例缩放的点积注意机制公式f(q,k,v)计算图像注意力特征m和文本注意力特征n,结合适应性间距函数构建文本到图像以及图像到文本三元损失函数
[0027][0028]
所述文本到图像以及图像到文本三元损失函数如下:
[0029][0030][0031]
其中,s
*
表示si,sj,q
*
表示qi,qj;∈表示超参数;
[0032]
所述损失函数如下:
[0033][0034]
其中,α是超参数;
[0035]
所述损失和如下:
[0036][0037][0038]
其中,β是超参数,表示第i个图像样本真实标签所在位置上所对应的预测值,表示第i个图像样本除了真实标签所在位置上所对应的预测值;表示第i个文本样本真实标签所在位置上所对应的预测值,表示第i个文本样本除了真实标签所在位置上所对应的预测值;
[0039]
所述注意力机制文本到图像以及图像到文本三元损失函数如下:
[0040][0041]
进一步的,所述再通过反向传播对损失函数进行优化去迭代网络模型直到模型收敛为止,包括以下步骤:
[0042]
s8、联合和得到总的目标损失函数并对目标损失函数进行优化与模型训练,得到子空间深度网络参数wr;
[0043]
所述目标损失函数如下:
[0044][0045]
其中,λ1、λ2、λ3和λ4为超参数。
[0046]
进一步的,所述使用收敛后的网络模型计算所有图像和文本的公共特征,包括以下步骤,
[0047]
s9、计算图像查询数据和文本查询数据的子空间特征;
[0048]
s9a将文本查询数据输入到上述网络模型中获取文本查询数据子空间特征;
[0049]
s9b将图像查询数据输入到上述网络模型中获取图像查询数据子空间特征。
[0050]
进一步的,最后对查询数据特征与公共特征进行相似度计算并排序返回结果,具体包括,
[0051]
对于文本查询,计算文本查询数据子空间特征与图像训练数据子空间特征的余弦相似性;然后对相似性进行排序,返回排序后的图像数据;
[0052]
对于图像查询,计算图像查询数据子空间特征与文本训练数据子空间特征的余弦相似性,然后对相似性进行排序,返回排序后的文本数据。
[0053]
进一步的,适应性间距损失函数如下:
[0054][0055]
其中,ξ1、ξ2是超参数,计算不同模态样本中正样本相似性与负样本相似性之间的f范数,计算图像模态中正样本相似性与负样本相似性之间的f范数,计算文本模态中正样本相似性与负样本相似性之间的f范数。
[0056]
进一步的,步骤s2中所述子空间网络由2个包含1024个隐藏单元的全连接层并且被图像子网络和文本子网络共享,经过子空间学习到的维度都为1024维。
[0057]
另一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
[0058]
由上述技术方案可知,本发明的基于子空间适应性间距的跨模态检索方法,采用
本发明进行跨模态检索的精度高于现有方法进行跨模态检索的精度。与现有技术相比,本发明能够有效利用三元组深度网络提高跨模态检索的精度。
[0059]
具体的说,本发明的优点如下:
[0060]
1、本发明提出了一种自适应裕度监督的跨模态结构,以学习不同模态数据的通用表示,从而减少跨模态异构性;
[0061]
2、本发明的图像-文本对的相对相似性用于学习模态不变性;
[0062]
3、本发明提出了一种新的自适应裕度方法来学习合适的裕度约束;
[0063]
4、在广泛使用的基准数据集上的实验结果表明,该方法的性能优于现有的跨模态检索方法,这表明了该方法的有效性。
附图说明
[0064]
图1是本发明的方法流程示意图;
[0065]
图2是本发明的模型结构示意图。
具体实施方式
[0066]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
[0067]
如图1所示,本实施例所述的基于子空间适应性间距的跨模态检索方法,包括以下步骤,
[0068]
数据预处理,进行训练集测试集数据划分,并提取数据的原始高维特征;
[0069]
输入原始高维特征进入网络模型获取模型输出的图像和文本的公共特征以及对应的预测标签信息;
[0070]
使用公共特征和标签信息计算每种模态中不同类别样本的适应性间距损失,结合注意力机制聚焦图片和文本中类别信息用于增强不同类别的判别性,以及计算不同模态样本之间的不变性损失;
[0071]
再通过反向传播对损失函数进行优化去迭代网络模型直到模型收敛为止;
[0072]
使用收敛后的网络模型计算所有图像和文本的公共特征;
[0073]
最后对查询数据特征与公共特征进行相似度计算并排序返回结果。
[0074]
以下分别具体说明:
[0075]
所述数据预处理,进行训练集测试集数据划分,并提取数据的原始高维特征,包括以下步骤:
[0076]
1)数据预处理:
[0077]
1a)收集数据图像、文本数据以及标签信息其中表示第i个图像原始样本,表示第i个文本原始样本,yi表示第i个样本独热编码,c表示类别数,然后进行训练集、测试集划分。
[0078]
1b)对于图像训练集数据,使用vgg19在image-net上预训练的模型进行微调,然后使用微调后的模型提取所有图像原始特征。
[0079]
1c)对于文本训练集数据,本发明使用word2vec模型作为通用字典,用于为每个文本构建文本矩阵,然后输入到the sentence cnn网络进行预训练,然后使用预训练后的模型提取所有文本原始特征。
[0080]
所述输入原始高维特征进入网络模型获取模型输出的图像和文本的公共特征以及对应的预测标签信息,其中网络模型如图2所示,包括以下步骤,
[0081]
2)对步骤1)中的图像原始特征和文本原始特征经过子空间网络学习得到相同维度的特征q=(q1,q2,
…qn
),其中qi代表每个子空间图像特征,s=(s1,s2,

sn)其中si代表每个子空间文本特征。
[0082]
3)对于步骤2)中的子空间特征,本发明使用线性分类器去预测图像与文本所属类别其中表示图像预测标签独热编码,其中表示文本预测标签独热编码。
[0083]
所述使用公共特征和标签信息计算每种模态中不同类别样本的适应性间距损失,结合注意力机制聚焦图片和文本中类别信息用于增强不同类别的判别性,以及计算不同模态样本之间的不变性损失,具体包括
[0084]
4)对步骤2)中得到的子空间文本与图像特征,假设本发明有一个文本特征vi和图像特征ki。那么本发明可以计算出vi与其属于相同类别文本的相似度同理可以计算出处和其中是余弦函数。考虑不同模态样本对适应性间距的影响,本发明采用f范数测量不同模态样本的相似性距离作为适应性间距函数。
[0085]
5)对于步骤2)中的子空间图像特征qi,本发明可以计算出与之相同类别子空间文本特征相似度不同类别子空间文本特征相似度同理可以计算结合步骤4)的适应性间距函数构建文本到图像以及图像到文本三元损失函数
[0086]
6)对于每一对图像文本对经过步骤2)本发明可以得到与之对应的子空间图像与文本特征(qi,si),本发明可以计算同一对图像文本对的相似性以及不成对的图像文本之间的相似性为了保证子空间中同一对文本图像分布相近,本发明采用三元组损失约束与之间相似性距离
[0087]
7)对于步骤3)预测的标签,为了使得预测标签接近真实的标签本发明使用f范数约束图像预测标签pm与真实标签y和文本预测标签p
t
与真实标签y的距离同时使用三元组损失增强图像、文本类别预测的准确性
[0088]
所述再通过反向传播对损失函数进行优化去迭代网络模型直到模型收敛为止,包括以下步骤:
[0089]
8)所述注意力机制由文本自注意机制与图像自注意机制构成,其中对于文本自注意机制原始输入s经过一个由三个relu激活函数的2048维线性层分别映射到查询空间q,键空间k和值空间v,然后采用比例缩放的点积注意机制公式f(q,k,v)计算图像注意力特征m
和文本注意力特征n,结合适应性间距函数构建文本到图像以及图像到文本三元损失函数
[0090][0091]
所述使用收敛后的网络模型计算所有图像和文本的公共特征,包括以下步骤,
[0092]
9)计算图像查询数据和文本查询数据的子空间特征。
[0093]
9a)将文本查询数据输入到上述网络模型中获取文本查询数据子空间特征。
[0094]
9b)将图像查询数据输入到上述网络模型中获取图像查询数据子空间特征。
[0095]
最后对查询数据特征与公共特征进行相似度计算并排序返回结果,具体包括,
[0096]
10)获取查询数据检索结果:
[0097]
对于文本查询,计算文本查询数据子空间特征与图像训练数据子空间特征的余弦相似性。然后对相似性进行排序,返回排序后的图像数据。
[0098]
对于图像查询,计算图像查询数据子空间特征与文本训练数据子空间特征的余弦相似性。然后对相似性进行排序,返回排序后的文本数据。
[0099]
本实施例中,步骤1b)所述图像提取的原始特征维数为4096维。
[0100]
步骤1c)所述文本提取的原始特征维数为300维。
[0101]
步骤2)所述子空间网络由2个包含1024个隐藏单元的全连接层并且被图像子网络和文本子网络共享。经过子空间学习到的维度都为1024维。
[0102]
步骤4)所述适应性间距函数如下:
[0103][0104]
其中,ξ1、ξ2是超参数,计算不同模态样本中正样本相似性与负样本相似性之间的f范数,计算图像模态中正样本相似性与负样本相似性之间的f范数,计算文本模态中正样本相似性与负样本相似性之间的f范数。
[0105]
步骤5)所述文本到图像以及图像到文本三元损失函数如下:
[0106][0107]
其中,s
*
表示si,sj,q
*
表示qi,qj。∈表示超参数。
[0108]
步骤6)所述损失函数如下:
[0109][0110]
其中,α是超参数。
[0111]
步骤3)所述线性分类器与数据集类别数量相关。
[0112]
步骤7)所述损失和如下:
[0113][0114][0115]
其中,β是超参数,表示第i个图像样本真实标签所在位置上所对应的预测值,表示第i个图像样本除了真实标签所在位置上所对应的预测值。表示第i个文本样本真实标签所在位置上所对应的预测值,表示第i个文本样本除了真实标签所在位置上所对应的预测值;
[0116][0117]
步骤8)联合和得到总的目标损失函数并对目标损失函数进行优化与模型训练,得到子空间深度网络参数wr;
[0118]
所述目标损失函数如下:
[0119][0120]
其中,λ1、λ2、λ3和λ4为超参数。
[0121]
所述优化方式采用adam优化器,所述模型训练采用分批次进行训练,每个批次数量为100个样本。
[0122]
又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述任一方法的步骤。
[0123]
再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储
有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一方法的步骤。
[0124]
在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法的步骤。
[0125]
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
[0126]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0127]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0128]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1