本发明涉及计算机视觉中的跨模态检索领域,更具体地是涉及一种多粒度注意力网络的组合式查询图像检索方法。
背景技术:
1、组合式查询图像检索是图像检索领域的拓展任务。和传统的基于内容的图像检索和图文匹配任务不同,组合式查询图像检索中的查询同时包含图像和文本两个模态,而不是仅包含一种单模态数据的输入。传统的图像检索的查询要求用户只能通过图像或文本来描述查询需求,这限制了用户表达准确的搜索意图。而组合式查询图像检索允许用户在使用图像进行查询的基础上,同时还可以利用文字信息对图像内容进行修改,灵活且全面地表达搜索意图从而优化检索结果。该任务地目标根据修改文本以及参考图像,按照修改文本的语义信息去修改参考图像的特定内容,然后在所有候选图像中找出与参考图像类似且按照修改文本修改后的目标图像。由于该任务的实用性,组合式查询图像检索在产品推荐,交互式图像检索等领域都有广泛的应用。
2、随着硬件设施的飞速发展,深度神经网络已经成为各类任务的基准模型。现有的基于深度神经网络的组合式查询图像检索方法主要有以下三种技术路线:
3、1、基于大规模预训练模型的组合式查询图像检索方法:基于大规模预训练模型的组合式查询图像检索方法利用从其他图像文本语料库中学习到的额外的先验知识,来初始化模型参数帮助模型学习目标图像。该类方法利用额外的数据和来自细粒度和粗粒度的图像特征提升检索的准确性。
4、2、基于特征融合的组合式查询图像检索方法:基于特征融合的组合式查询图像检索方法通过图像和文本编码器得到图像和文本的特征表示,利用设计的注意力模块或各种网络结构筛选出文本和图像中关键性的特征,然后把筛选出的图像特征和文本特征融合成一个统一的图文特征表示,最后使用这个单独的图文特征和目标图像特征计算余弦相似度,来度量候选图像和融合后的特征表示之间的相似性。
5、3、基于共同训练的组合式查询图像检索方法:为了降低模型复杂度,提高组合式查询图像检索模型的效率,基于共同训练的组合式查询图像检索方法通过图文匹配的策略去学习到目标图像中需要修改的部分,通过基于内容的图像检索的策略学习到参考图像中需要保留的部分。
6、目前组合式查询图像检索方法主要为基于特征融合的组合式查询图像检索方法,这类方法通过设计的注意力机制和网络结构可以有效提升查询结果的准确性。
7、但在实际应用中现有的组合式查询图像检索方法仍存在以下问题:模型学习到的目标图像中需要保留和修改的图像部分存在交叠、没有充分利用多粒度的图像和文本的语义信息等。以上不足均会降低图像检索结果的质量。
技术实现思路
1、本发明的目的在于:为了解决上述技术问题,本发明提供一种多粒度注意力网络的组合式查询图像检索方法。
2、本发明为了实现上述目的具体采用以下技术方案:
3、一种多粒度注意力网络的组合式查询图像检索方法,该方法采用基于带有互斥限制的多粒度注意力网络的组合式查询图像检索模型实现,所述模型包括图像特征提取模块,文本特征提取模块,跨层交互模块,用于保留的自对比学习模块,该方法包括以下步骤:
4、步骤s1:获取用于训练的数据集,数据集包括文本、目标图像和参考图像;
5、步骤s2:构建文本编码器的网络结构,使用文本编码器获取步骤s1中文本的文本特征;
6、步骤s3:构建带有互斥限制的多粒度注意力网络结构,所述网络结构包括多粒度注意力网络以及三个带有互斥限制的注意力模块;
7、步骤s4:构建多粒度注意力网络,提取步骤s1中不同粒度的参考图像特征、目标图像特征、以及步骤2中不同粒度的文本特征;
8、步骤s5:构建带有互斥限制的注意力模块,用于生成步骤s4中提取到的不同粒度的图像特征和文本特征,得到参考图像和目标图像中需要保留和修改的图像区域特征;
9、步骤s6:进行相似度层面的特征匹配,通过定义第一损失函数lbbc进行特征匹配,具体包括:
10、步骤s61:计算步骤s5中获得的目标图像和参考图像中需要保留的图像区域特征之间的余弦相似度;
11、步骤s62:计算步骤s5中获得的目标图像需要修改的图像区域特征和步骤2获得的文本特征之间的余弦相似度;
12、步骤s63:将步骤s61和步骤s62中获得的相似度得分进行相加,得到一个粒度层面的相似度得分;
13、步骤s64:将步骤s63得到的不同粒度层面的相似度得分相加,得到最终的相似度得分矩阵;
14、步骤s7:根据步骤s6定义的第一损失函数lbbc,使用adamw优化器对基于带有互斥限制的多粒度注意力网络的组合式查询图像检索模型进行训练;
15、步骤s8:使用训练后的基于带有互斥限制的多粒度注意力网络的组合式查询图像检索模型进行图像检索,以验证基于带有互斥限制的多粒度注意力网络的组合式查询图像检索模型的性能。
16、作为一种可选的技术方案,所述步骤s2具体包括:
17、步骤s21:将步骤s1中文本经过文本预处理操作去除非字母的字符,并使用空格代替特殊字符;
18、步骤s22:将步骤s21中经过预处理得到的文本先进行分词处理,然后使用glove预训练语料库将文本中的单词编码为词向量;
19、步骤s23:将步骤s22中的词向量通过长短时记忆网络或双向门控循环网络将整个句子编码为文本特征。
20、作为一种可选的技术方案,所述步骤s4具体包括:
21、步骤s41:将步骤s1中数据集中的目标图像和参考图像的形状先调整为256×256像素,然后利用随机裁剪和随机水平翻转进行数据增强;
22、步骤s42:构建多粒度注意力网络,将步骤s41中经过数据增强的每对参考图像和对应的目标图像输入到多粒度注意力网络,得到不同粒度的参考图像和目标图像特征;
23、步骤s43:将步骤s2中的文本特征输入到多粒度注意力网络,得到不同粒度的文本特征。
24、作为一种可选的技术方案,所述步骤s5具体包括:
25、步骤s51:将步骤s2中得到的文本特征输入到多层感知器以得到用于筛选需要保留和修改的注意力权重;
26、步骤s52:将步骤s51获得的注意力权重和步骤s4获得的不同粒度的参考图像特征和目标图像特征逐元素相乘,得到目标图像中需要修改和保留的图像区域特征;
27、作为一种可选的技术方案,所述步骤s52中获取图像区域特征时,可通过第二损失函数latt进行优化;
28、具体地:将步骤s4获得的目标图像特征中需要修改的特征作为正样本、需要保留的特征作为负样本,用于定义第二损失函数latt从而构建互斥限制的注意力模块;
29、第二损失函数latt具体如下所示,
30、
31、
32、其中,∑是求和符号,lc(.)表示利用对比学习构建的第三损失函数,两个公式中大写的+表示数学的加减符号,取两端的和,上述第二个公式中末尾的小写的+表示小于0取0, sim表示余弦相似度计算操作,t表示文本语义信息、fs表示原始文本特征、lmi表示第 i个样本的可学习的文本特征,表示第 i个粒度层的参考图像需要被保留的图像特征;表示第 i个样本的目标图像中需要修改的图像特征;表示间隔大小, ai表示不同的权重, i表示特征所在粒度层级的层数。
33、作为一种可选的技术方案,所述步骤s6中,通过以下公式定义第一损失函数lbbc,
34、
35、
36、其中,表示第j个训练样本的文本特征和修改的图像特征的相似度得分和参考图想和目标图像的相似度得分之和,依次表示第j个样本的可学习的文本特征、目标图像中需要修改的图像特征、参考图像和目标图像中需要被保留的图像特征;
37、表示第 i个训练样本的文本特征和修改的图像特征的相似度得分和参考图想和目标图像的相似度得分之和,依次表示第 i个样本的可学习的文本特征、目标图像中需要修改的图像特征、参考图像和目标图像中需要被保留的图像特征;
38、表示在第 i个粒度层面修改文本和目标图像中需要被修改的区域特征之间的相似度;
39、表示在第i个粒度层面参考图像和目标图像中需要被保留的区域特征之间的相似度,依次表示第 i个粒度层的参考图像需要被保留的图像特征和目标图像中需要被保留的图像特征;
40、表示一个可学习的参数, j表示第 j个样本, n表示训练数据集中一个批量数据的样本总数,exp代表指数函数,log代表对数函数。
41、作为一种可选的技术方案,所述步骤s8具体包括:使用经过训练的基于带有互斥限制的多粒度注意力网络的组合式查询图像检索模型进行图像检索,然后选取步骤s6中得到的相似度得分矩阵中得分最高的图像作为输出结果
42、本发明的有益效果如下:
43、1.本发明可以更充分地利用不同粒度的视觉和文本语义信息,使得网络模型对于不同粒度的语义信息都有鲁棒性。
44、2.本发明设计了带有互斥限制的多粒度注意力网络的组合式查询图像检索方法来进行图像检索,该带有互斥限制的多粒度注意力网络通过对注意力添加互斥限制,达到优化模型学习到的目标图像中需要保留和修改的信息,从而提高图像检索的准确性。