本申请涉及人工智能,特别是涉及一种文本视觉问答方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、随着互联网技术的发展,越来越多的信息采用包括视觉(如图像)、文本等多种模态方式来展示。随着计算机技术的发展,出现了视觉问答技术(visual question andanswering,vqa),视觉问答是一种复杂的多模态任务,旨在自动回答与给定图像内容相关的文本问题,并且需要同时理解视觉图像和自然语言问题。
2、然而,相关技术中,通常是直接将图像信息与文本信息进行分析,导致相关技术中视觉问答结果的准确性较差。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高视觉问答准确性的文本视觉问答方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种文本视觉问答方法。所述方法包括:
3、获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本;
4、从所述目标图像中,提取至少表征所述目标对象的对象名称和对象边界框的图像元数据;
5、将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合,得到多模态编码序列;
6、将所述多模态编码序列输入回答生成模型,得到所述问题文本的回答文本。
7、第二方面,本申请还提供了一种文本视觉问答装置。所述装置包括:
8、数据获取模块,用于获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本;
9、图像处理模块,用于从所述目标图像中,提取至少表征所述目标对象的对象名称和对象边界框的图像元数据;
10、编码融合模块,用于将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合,得到多模态编码序列;
11、回答生成模块,用于将所述多模态编码序列输入回答生成模型,得到所述问题文本的回答文本。
12、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
13、获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本;
14、从所述目标图像中,提取至少表征所述目标对象的对象名称和对象边界框的图像元数据;
15、将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合,得到多模态编码序列;
16、将所述多模态编码序列输入回答生成模型,得到所述问题文本的回答文本。
17、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
18、获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本;
19、从所述目标图像中,提取至少表征所述目标对象的对象名称和对象边界框的图像元数据;
20、将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合,得到多模态编码序列;
21、将所述多模态编码序列输入回答生成模型,得到所述问题文本的回答文本。
22、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
23、获取目标图像、以及针对所述目标图像中至少一个目标对象的问题文本;
24、从所述目标图像中,提取至少表征所述目标对象的对象名称和对象边界框的图像元数据;
25、将表征所述问题文本的第一编码序列和表征所述图像元数据的第二编码序列进行编码融合,得到多模态编码序列;
26、将所述多模态编码序列输入回答生成模型,得到所述问题文本的回答文本。
27、上述文本视觉问答方法、装置、计算机设备、存储介质和计算机程序产品,通过对目标图像进行图像元数据提取,以使得到的图像元数据能够至少表征目标对象的对象名称和对象边界框,实现了对目标图像的多维度信息提取,从而能够使得表征图像元数据的第二编码序列能够从对象名称以及对象位置等维度准确地表征图像所包含的语义,通过将表征问题文本的第一编码序列和表征图像元数据的第二编码序列进行编码融合,由于第一编码序列和图像元数据中均包含对目标对象的描述,能够在编码融合过程中,提高对图像语义的理解,进而基于编码融合得到的多模态编码序列,准确得到问题文本的回答文本。
1.一种文本视觉问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述回答生成模型的生成过程包括:
3.根据权利要求2所述的方法,其特征在于,所述样本组的获取方式包括:
4.根据权利要求2所述的方法,其特征在于,所述基于各所述样本组对预训练的通用语言模型进行训练,以调整所述通用语言模型的模型参数,得到针对图像进行视觉问答的回答生成模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述输出回答文本为所述通用语言模型通过前向传播得到的输出结果;
6.根据权利要求1所述的方法,其特征在于,所述从所述目标图像中,提取至少表征所述目标对象的对象名称和对象边界框的图像元数据,包括:
7.根据权利要求6所述的方法,其特征在于,所述对所述目标图像进行图像分割,确定所述目标图像中的目标对象,包括:
8.根据权利要求7所述的方法,其特征在于,所述获取与所述目标对象关联的掩码提示信息,包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.根据权利要求9所述的方法,其特征在于,所述对所述问题文本进行上下文编码,得到表征所述问题文本的语义内容的文本编码序列,包括:
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述方法通过视觉问答模型实现,所述视觉问答模型包括所述回答生成模型和用于提取所述图像元数据的图像分割模型,所述回答生成模型包括文本编码器;
12.根据权利要求1至10中任一项所述的方法,其特征在于,所述目标图像为从目标视频中提取的多帧图像,所述问题文本为针对所述目标视频中至少一个目标对象的文本;
13.根据权利要求12所述的方法,其特征在于,所述将每一所述目标图像各自的多模态编码序列分别输入回答生成模型,得到所述目标视频中针对所述问题文本的回答文本,包括:
14.一种文本视觉问答装置,其特征在于,所述装置包括:
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。