文本及图像的匹配方法、装置、设备、存储介质及产品与流程

文档序号:36078673发布日期:2023-11-18 00:52阅读:25来源:国知局
文本及图像的匹配方法、装置、设备、存储介质及产品与流程

本申请涉及人工智能技术,尤其涉及一种文本及图像的匹配方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。


背景技术:

1、人工智能(artificial intelligence,ai)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。其中,跨模态检索是将一个模态的数据去寻找查询另一个模态中与之相关的数据,例如,用一段文本描述去检索图像数据库中与文本描述相关的图像。在日常生活中这种技术经常被使用,例如搜图,购物等。由于机器学习在计算机视觉领域取得的显著效果,深度跨模态检索已经成为当下研究的主流。随着互联网以及多媒体的高速发展,多媒体数据呈现爆炸性的增长,对于搜索类的产品来说,搜索结果的精确度和速度都十分影响用户的使用体验。

2、然而,相关的跨模态检索方案在这两方面上都比较欠缺。一方面,相关跨模态的检索方法对文本和图像的特征抽取能力较弱,检索结果准确度低;另一方面,基于高维连续特征的检索方式的运算量大,在大规模检索时需要消耗大量计算资源才能保证实时性、检索速度低。


技术实现思路

1、本申请实施例提供一种文本及图像的匹配方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,能够提升文本与图像之间的匹配精确度,提高文本与图像之间的匹配效率。

2、本申请实施例的技术方案是这样实现的:

3、本申请实施例提供一种文本及图像的匹配方法,包括:

4、通过特征模型的特征提取层,对待匹配的图像及文本分别进行特征提取,得到相应的图像特征及文本特征;

5、通过所述特征模型的自注意力层,基于所述特征模型的模型参数,构建注意力参数,并基于所述注意力参数,对所述图像特征及所述文本特征分别进行注意力处理,得到所述图像的图像注意力特征、及所述文本的文本注意力特征;

6、通过所述特征模型的哈希投影层,对所述文本注意力特征及所述图像注意力特征分别进行哈希处理,得到所述文本的文本哈希特征、及所述图像的图像哈希特征;

7、通过所述特征模型的匹配层,确定所述文本哈希特征及所述图像哈希特征间的相似度,所述相似度用于指示确定所述文本和所述图像之间的匹配程度。

8、本申请实施例提供一种文本及图像的匹配装置,包括:

9、特征提取模块,用于通过特征模型的特征提取层,对待匹配的图像及文本分别进行特征提取,得到相应的图像特征及文本特征;

10、自注意力模块,用于通过所述特征模型的自注意力层,基于所述特征模型的模型参数,构建注意力参数,并基于所述注意力参数,对所述图像特征及文本特征分别进行注意力处理,得到所述文本的文本注意力特征、及所述图像的图像注意力特征;

11、哈希投影模块,用于通过所述特征模型的哈希投影层,对所述文本注意力特征及所述图像注意力特征分别进行哈希处理,得到所述文本的文本哈希特征、及所述图像的图像哈希特征;

12、特征匹配模块,用于通过所述特征模型的匹配层,确定所述文本哈希特征及所述图像哈希特征间的相似度,所述相似度用于指示确定所述文本和所述图像之间的匹配程度。

13、本申请实施例提供一种电子设备,包括:

14、存储器,用于存储可执行指令;

15、处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的文本及图像的匹配方法。

16、本申请实施例提供一种计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的文本及图像的匹配方法。

17、本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例提供的文本及图像的匹配方法。

18、本申请实施例具有以下有益效果:

19、应用本申请实施例,通过特征模型的特征提取层,得到待匹配的文本特征以及相应的图像特征之后,通过特征模型的自注意力层,得到待匹配的文本注意力特征以及相应的图像注意力特征,如此,能够提高针对文本语义的理解能力,从而提高文本注意力特征的准确性,并同时能够增强特征模型针对图像的视觉语义提取能力,从而提高图像注意力特征的准确性;接着,通过特征模型的哈希投影层,获取文本哈希特征和图像哈希特征,最后,通过特征模型的匹配层,基于文本哈希特征与图像哈希特征,得到待匹配的文本与图像的匹配程度,基于哈希特征的文本与图像的匹配方式,能够大幅度减少计算量以及针对计算资源的消耗,如此,不仅能够提升文本与图像之间的匹配精确度,还能够提高文本与图像之间的匹配效率。



技术特征:

1.一种文本及图像的匹配方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述自注意力层包括:特征提取子层,特征拼接层,特征降维层及至少两个注意力子层,所述对所述图像特征及文本特征分别进行注意力处理,得到所述图像的图像注意力特征、及所述文本的文本注意力特征,包括:

3.如权利要求2所述的方法,其特征在于,所述注意力子层包括第一融合层、归一化层及第二融合子层,所述注意力参数包括第一注意力参数及第二注意力参数;所述通过各所述注意力子层,基于所述注意力参数,对相应的所述中间文本特征进行注意力处理,得到各所述中间文本特征对应的注意力子特征,包括:

4.如权利要求1所述的方法,其特征在于,所述自注意力层包括至少两个注意力子层,所述通过所述特征模型的自注意力层,基于所述特征模型的模型参数,构建注意力参数,包括:

5.如权利要求1所述的方法,其特征在于,所述通过所述特征模型的匹配层,确定所述文本哈希特征及所述图像哈希特征间的相似度,包括:

6.如权利要求1所述的方法,其特征在于,所述哈希投影层包括池化层、哈希量化层,所述通过所述特征模型的哈希投影层,对所述文本注意力特征及所述图像注意力特征分别进行哈希处理,得到所述文本的文本哈希特征、及所述图像的图像哈希特征,包括:

7.如权利要求1所述的方法,其特征在于,所述特征提取层包括文本特征提取层和图像特征提取层,通过特征模型的特征提取层,对待匹配的图像及文本分别进行特征提取,得到相应的图像特征及文本特征,包括:

8.如权利要求7所述的方法,其特征在于,所述文本特征提取层包括分词层、第一映射层及第一投影层,所述通过所述文本特征提取层,对所述待匹配的文本进行特征提取,得到文本特征,包括:

9.如权利要求7所述的方法,其特征在于,所述图像特征提取层包括分块层、第二映射层及第二投影层,所述通过所述图像特征提取层,对所述待匹配的图像进行特征提取,得到图像特征,包括:

10.如权利要求1所述的方法,其特征在于,在通过特征模型的特征提取层,对待匹配的图像及文本分别进行特征提取之前,所述方法还包括:

11.如权利要求1所述的方法,其特征在于,在通过特征模型的特征提取层,对待匹配的图像及文本分别进行特征提取之前,所述方法还包括:

12.如权利要求11所述的方法,其特征在于,所述通过所述初始特征模型,对所述图像样本的所述正样本对、及各所述负样本对分别进行预测,得到所述正样本对中所述图像样本与所述第一文本样本之间的第一相似度、及各所述负样本对中所述图像样本与所述第二文本样本之间的第二相似度,包括:

13.一种文本及图像的匹配装置,其特征在于,所述装置包括:

14.一种电子设备,其特征在于,包括:

15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时,实现权利要求1至12任一项所述的文本及图像的匹配方法。

16.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时,实现权利要求1至12任一项所述的文本及图像的匹配方法。


技术总结
本申请提供了一种文本及图像的匹配方法、装置,包括:通过特征模型的特征提取层,对待匹配的图像及文本分别进行特征提取,得到相应的图像特征及文本特征;通过特征模型的自注意力层,基于特征模型的模型参数,构建注意力参数,并基于注意力参数,对图像特征及文本特征分别进行注意力处理,得到文本注意力特征及图像注意力特征;通过特征模型的哈希投影层,对文本注意力特征及图像注意力特征分别进行哈希处理,得到文本哈希特征及图像哈希特征;通过特征模型的匹配层,确定文本哈希特征及图像哈希特征间的相似度,相似度用于指示确定文本和图像之间的匹配程度。通过本申请,能够提升文本与图像之间的匹配精确度,提高文本与图像之间的匹配效率。

技术研发人员:黎功福
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1