视觉问答方法、装置、计算机设备及计算机可读存储介质

文档序号:41108854发布日期:2025-02-28 17:55阅读:19来源:国知局
视觉问答方法、装置、计算机设备及计算机可读存储介质

本技术涉及视觉问答和深度学习领域,特别是涉及一种视觉问答方法、装置、计算机设备及计算机可读存储介质。


背景技术:

1、视觉问答是指计算机根据输入的图片和自然语言问题,分析其中的视觉和文本信息,以生成正确的答案。相较于其他视觉语言任务,视觉问答要求在更精细语义层面理解图像和问题。这一过程涉及目标检测、物体识别和计算等多种视觉任务。对于某些复杂的问题,可能还需要引入外部知识库来辅助生成答案。因此,视觉问答任务不仅比其他视觉语言任务更加复杂和具有挑战性,还因其更接近人类在理解和交流方面的能力而展现出更大的社会价值与应用潜力,有助于改善人们的生活和工作。

2、相关技术中,视觉问答通常通过联合嵌入法来实现。这种方法通过将图像特征和问题特征映射到同一个特征空间,从而实现跨模态的语义匹配。然而,联合嵌入法是对特征向量进行简单组合,因此,在处理图像特征和问题特征时,不足以建模两个模态的复杂关系,导致视觉问答的答案预测的准确率较低。


技术实现思路

1、有鉴于此,本技术提供了一种视觉问答方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前联合嵌入法是对特征向量进行简单组合,因此,在处理图像特征和问题特征时,不足以建模两个模态的复杂关系,导致视觉问答的答案预测的准确率较低的问题。

2、依据本技术第一方面,提供了一种视觉问答方法,该方法包括:

3、获取训练样本,将所述训练样本输入至视觉问答模型,其中,所述训练样本包括样本图像和样本问题,所述样本问题对应有样本实际答案;

4、基于所述视觉问答模型,确定所述样本图像的自适应注意力特征图和所述样本问题的问题特征表示,其中,所述自适应注意力特征图是根据所述样本图像的样本特征图和自适应注意力权重矩阵确定的,所述自适应注意力权重矩阵是采用所述样本问题对所述样本特征图的自注意力权重矩阵进行引导得到的;

5、利用所述视觉问答模型对所述自适应注意力特征图和所述问题特征表示进行跨模态特征融合,并根据跨模态融合结果确定所述样本问题对应的样本预测答案;

6、根据预设损失函数计算所述样本预测答案和所述样本实际答案之间的损失,根据所述损失对所述视觉问答模型的模型参数进行优化,以及重新获取训练样本输入至优化后的所述视觉问答模型中,并继续对所述视觉问答模型进行优化,直至所述视觉问答模型达到停止模型训练的标准,得到目标模型;

7、响应于视觉问答指令,将待预测图像和待预测问题输入至所述目标模型进行预测,得到所述待预测问题对应的预测答案。

8、可选地,所述基于所述视觉问答模型,确定所述样本图像的自适应注意力特征图,包括:

9、基于所述视觉问答模型的图像编码器执行下述操作:

10、提取所述样本图像的原始特征图,并将所述原始特征图的尺寸调整为预设大小,得到所述样本特征图;

11、基于自适应自注意力机制,确定所述样本特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述样本特征图对应的图像值向量进行加权计算,得到自注意力特征图;

12、基于引导注意力机制,确定所述自注意力特征图对应的图像键向量和图像值向量,以及确定所述样本问题对应的问题查询向量;

13、基于引导注意力机制对所述自注意力特征图进行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的图像键向量,对所述图像键向量和所述问题查询向量进行点积缩放计算,得到每个自注意力头的注意力权重矩阵,以及根据每个自注意力头的注意力权重矩阵对所述自注意力特征图对应的图像值向量进行加权计算,得到指定注意力特征图;

14、基于前馈层对所述指定注意力特征图进行非线性变换,得到引导注意力特征图,基于所述自适应自注意力机制确定所述引导注意力特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述引导注意力特征图对应的图像值向量进行加权计算,得到自注意力特征图,基于所述引导注意力机制,确定所述自注意力特征图对应的指定注意力特征图,基于所述前馈层对所述指定注意力特征图进行非线性变换,得到新的引导注意力特征图;

15、再次基于所述自适应自注意力机制确定所述引导注意力特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述引导注意力特征图对应的图像值向量进行加权计算,得到自注意力特征图,再次基于所述引导注意力机制,确定所述自注意力特征图对应的指定注意力特征图,直至输出指定注意力特征图的次数满足预设的循环次数阈值,得到最终的指定注意力特征图,基于所述前馈层对最终的指定注意力特征图进行非线性变换,得到所述自适应注意力特征图。

16、可选地,所述基于自适应自注意力机制,确定所述样本特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述样本特征图对应的图像值向量进行加权计算,得到自注意力特征图,包括:

17、确定所述样本特征图对应的图像查询向量、图像键向量和图像值向量;

18、根据所述图像查询向量和所述图像键向量计算所述自注意力权重矩阵,采用所述自注意力权重矩阵对所述图像值向量进行加权计算,得到待调整注意力特征图;

19、基于邻域预测模块,按照多个预设参数配置不同尺寸的感受野,根据不同尺寸的感受野调整所述待调整注意力特征图中每个图像区域对应的注意力权重矩阵,得到所述待调整注意力特征图对应的待调整注意力权重矩阵;

20、采用所述待调整注意力权重矩阵对所述待调整注意力特征图对应的图像值向量进行加权计算,得到所述自注意力特征图。

21、可选地,所述基于所述视觉问答模型,确定所述样本问题的问题特征表示,包括:

22、将所述样本问题调整为固定长度,采用预训练的词嵌入模型将所述样本问题中的每个单词转换为词嵌入向量,得到词嵌入序列;

23、基于所述视觉问答模型的问题编码器执行下述操作:

24、基于自注意力层确定所述词嵌入序列对应的问题查询向量、问题键向量和问题值向量;

25、基于所述自注意力层对所述词嵌入序列进行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的问题查询向量和问题键向量,对所述问题查询向量和所述问题键向量进行点积缩放计算,得到每个所述自注意力头的自注意力输出,以及合并每个所述自注意力头的输出并通过线性映射函数进行处理,得到所述自注意力层的输出;

26、基于前馈层对所述自注意力的输出进行非线性变换,得到上下文表示序列,将所述上下文表示序列输入至所述自注意力层,基于所述自注意力层对所述上下文表示序列行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的问题查询向量和问题键向量,对所述问题查询向量和所述问题键向量进行点积缩放计算,得到每个所述自注意力头的自注意力输出,以及合并每个所述自注意力头的输出并通过线性映射函数进行处理,得到新的自注意力层的输出,基于所述前馈层对所述自注意力的输出进行非线性变换,得到新的上下文表示序列;

27、再次将所述前馈层输出的上下文表示序列输入至所述自注意力学习层进行处理,得到新的自注意力层的输出,再次基于所述前馈层对所述自注意力层的输出进行非线性变换,得到新的上下文表示序列,直至所述自注意力层的输出次数满足预设的循环次数阈值,得到所述自注意力层的最终输出结果,基于所述前馈层对所述最终输出结果进行非线性变换,得到所述问题特征表示。

28、可选地,所述利用所述视觉问答模型对所述自适应注意力特征图和所述问题特征表示进行跨模态特征融合,并根据跨模态融合结果确定所述样本问题对应的样本预测答案,包括:

29、采用线性融合函数对所述自适应注意力特征图和所述问题特征表示进行加权融合,并采用层正则化技术对融合后的特征表示进行正则化,得到所述跨模态融合结果,所述跨模态融合结果包含多个维度的向量值,其中,每个维度的向量值关联一个候选答案;

30、采用预设激活函数对每个维度的向量值进行转换,得到每个候选答案的预测分数,并确定预测分数高于其他预测分数的候选答案作为所述样本预测答案。

31、可选地,所述根据预设损失函数计算所述样本预测答案和所述样本实际答案之间的损失,根据所述损失对所述视觉问答模型的模型参数进行优化,包括:

32、基于二元交叉熵损失函数计算所述样本预测答案与所述样本实际答案之间的损失,基于所述损失进行反向传播并优化所述视觉问答模型的模型参数;

33、其中,所述模型参数包括优化器adam solver的超参数、停止模型训练的标准、样本批处理大小、基础学习率、正则化随机丢弃概率、学习率衰减值、图像编码器和问题编码器对应的循环次数阈值。

34、可选地,所述将所述训练样本重新输入至优化后的所述视觉问答模型中,并继续对所述视觉问答模型进行优化,直至所述视觉问答模型达到停止模型训练的标准,得到目标模型,包括:

35、持续在训练样本集中获取训练样本输入至所述视觉问答模型进行模型训练,直至所述视觉问答模型的损失函数趋于稳定和/或所述视觉问答模型的训练次数达到预设训练次数阈值,停止对所述视觉问答模型进行模型训练,得到待验证视觉问答模型;

36、在验证样本集中获取验证样本输入至所述待验证视觉问答模型进行模型验证,直至所述待验证视觉问答模型达到停止模型验证的标准,得到待测试视觉问答模型;

37、在测试样本集中获取测试样本输入至所述待测试视觉问答模型进行模型测试,确定所述待测试模型的预测准确率,在所述预测准确率达到预设准确率阈值时,得到所述目标模型。

38、依据本技术第二方面,提供了一种视觉问答装置,该装置包括:

39、获取模块,用于获取训练样本,将所述训练样本输入至视觉问答模型,其中,所述训练样本包括样本图像和样本问题,所述样本问题对应有样本实际答案;

40、确定模块,用于基于所述视觉问答模型,确定所述样本图像的自适应注意力特征图和所述样本问题的问题特征表示,其中,所述自适应注意力特征图是根据所述样本图像的样本特征图和自适应注意力权重矩阵确定的,所述自适应注意力权重矩阵是采用所述样本问题对所述样本特征图的自注意力权重矩阵进行引导得到的;

41、融合模块,用于利用所述视觉问答模型对所述自适应注意力特征图和所述问题特征表示进行跨模态特征融合,并根据跨模态融合结果确定所述样本问题对应的样本预测答案;

42、训练模块,用于根据预设损失函数计算所述样本预测答案和所述样本实际答案之间的损失,根据所述损失对所述视觉问答模型的模型参数进行优化,以及重新获取训练样本输入至优化后的所述视觉问答模型中,并继续对所述视觉问答模型进行优化,直至所述视觉问答模型达到停止模型训练的标准,得到目标模型;

43、预测模块,用于响应于视觉问答指令,将待预测图像和待预测问题输入至所述目标模型进行预测,得到所述待预测问题对应的预测答案。

44、可选地,所述确定模块,用于基于所述视觉问答模型的图像编码器执行下述操作:提取所述样本图像的原始特征图,并将所述原始特征图的尺寸调整为预设大小,得到所述样本特征图;基于自适应自注意力机制,确定所述样本特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述样本特征图对应的图像值向量进行加权计算,得到自注意力特征图;基于引导注意力机制,确定所述自注意力特征图对应的图像键向量和图像值向量,以及确定所述样本问题对应的问题查询向量;基于引导注意力机制对所述自注意力特征图进行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的图像键向量,对所述图像键向量和所述问题查询向量进行点积缩放计算,得到每个自注意力头的注意力权重矩阵,以及根据每个自注意力头的注意力权重矩阵对所述自注意力特征图对应的图像值向量进行加权计算,得到指定注意力特征图;基于前馈层对所述指定注意力特征图进行非线性变换,得到引导注意力特征图,基于所述自适应自注意力机制确定所述引导注意力特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述引导注意力特征图对应的图像值向量进行加权计算,得到自注意力特征图,基于所述引导注意力机制,确定所述自注意力特征图对应的指定注意力特征图,基于所述前馈层对所述指定注意力特征图进行非线性变换,得到新的引导注意力特征图;再次基于所述自适应自注意力机制确定所述引导注意力特征图对应的自注意力权重矩阵,采用所述自注意力权重矩阵对所述引导注意力特征图对应的图像值向量进行加权计算,得到自注意力特征图,再次基于所述引导注意力机制,确定所述自注意力特征图对应的指定注意力特征图,直至输出指定注意力特征图的次数满足预设的循环次数阈值,得到最终的指定注意力特征图,基于所述前馈层对最终的指定注意力特征图进行非线性变换,得到所述自适应注意力特征图。

45、可选地,所述确定模块,用于确定所述样本特征图对应的图像查询向量、图像键向量和图像值向量;根据所述图像查询向量和所述图像键向量计算所述自注意力权重矩阵,采用所述自注意力权重矩阵对所述图像值向量进行加权计算,得到待调整注意力特征图;基于邻域预测模块,按照多个预设参数配置不同尺寸的感受野,根据不同尺寸的感受野调整所述待调整注意力特征图中每个图像区域对应的注意力权重矩阵,得到所述待调整注意力特征图对应的待调整注意力权重矩阵;采用所述待调整注意力权重矩阵对所述待调整注意力特征图对应的图像值向量进行加权计算,得到所述自注意力特征图。

46、可选地,所述确定模块,用于将所述样本问题调整为固定长度,采用预训练的词嵌入模型将所述样本问题中的每个单词转换为词嵌入向量,得到词嵌入序列;基于所述视觉问答模型的问题编码器执行下述操作:基于自注意力层确定所述词嵌入序列对应的问题查询向量、问题键向量和问题值向量;基于所述自注意力层对所述词嵌入序列进行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的问题查询向量和问题键向量,对所述问题查询向量和所述问题键向量进行点积缩放计算,得到每个所述自注意力头的自注意力输出,以及合并每个所述自注意力头的输出并通过线性映射函数进行处理,得到所述自注意力层的输出;基于前馈层对所述自注意力的输出进行非线性变换,得到上下文表示序列,将所述上下文表示序列输入至所述自注意力层,基于所述自注意力层对所述上下文表示序列行分组,得到多个自注意力头,对于每个自注意力头,确定所述自注意力头关联的问题查询向量和问题键向量,对所述问题查询向量和所述问题键向量进行点积缩放计算,得到每个所述自注意力头的自注意力输出,以及合并每个所述自注意力头的输出并通过线性映射函数进行处理,得到新的自注意力层的输出,基于所述前馈层对所述自注意力的输出进行非线性变换,得到新的上下文表示序列;再次将所述前馈层输出的上下文表示序列输入至所述自注意力学习层进行处理,得到新的自注意力层的输出,再次基于所述前馈层对所述自注意力层的输出进行非线性变换,得到新的上下文表示序列,直至所述自注意力层的输出次数满足预设的循环次数阈值,得到所述自注意力层的最终输出结果,基于所述前馈层对所述最终输出结果进行非线性变换,得到所述问题特征表示。

47、可选地,所述融合模块,用于采用线性融合函数对所述自适应注意力特征图和所述问题特征表示进行加权融合,并采用层正则化技术对融合后的特征表示进行正则化,得到所述跨模态融合结果,所述跨模态融合结果包含多个维度的向量值,其中,每个维度的向量值关联一个候选答案;采用预设激活函数对每个维度的向量值进行转换,得到每个候选答案的预测分数,并确定预测分数高于其他预测分数的候选答案作为所述样本预测答案。

48、可选地,所述训练模块,用于基于二元交叉熵损失函数计算所述样本预测答案与所述样本实际答案之间的损失,基于所述损失进行反向传播并优化所述视觉问答模型的模型参数;其中,所述模型参数包括优化器adam solver的超参数、停止模型训练的标准、样本批处理大小、基础学习率、正则化随机丢弃概率、学习率衰减值、图像编码器和问题编码器对应的循环次数阈值。

49、可选地,所述训练模块,用于持续在训练样本集中获取训练样本输入至所述视觉问答模型进行模型训练,直至所述视觉问答模型的损失函数趋于稳定和/或所述视觉问答模型的训练次数达到预设训练次数阈值,停止对所述视觉问答模型进行模型训练,得到待验证视觉问答模型;在验证样本集中获取验证样本输入至所述待验证视觉问答模型进行模型验证,直至所述待验证视觉问答模型达到停止模型验证的标准,得到待测试视觉问答模型;在测试样本集中获取测试样本输入至所述待测试视觉问答模型进行模型测试,确定所述待测试模型的预测准确率,在所述预测准确率达到预设准确率阈值时,得到所述目标模型。

50、依据本技术第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

51、依据本技术第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

52、借由上述技术方案,本技术提供的一种视觉问答方法、装置、计算机设备及计算机可读存储介质,本技术获取训练样本,将训练样本输入至视觉问答模型,其中,训练样本包括样本图像和样本问题,样本问题对应有样本实际答案。进一步地,基于视觉问答模型,确定样本图像的自适应注意力特征图和样本问题的问题特征表示,其中,自适应注意力特征图是根据样本图像的样本特征图和自适应注意力权重矩阵确定的,自适应注意力权重矩阵是采用样本问题对样本特征图的自注意力权重矩阵进行引导得到的。接下来,利用视觉问答模型对自适应注意力特征图和问题特征表示进行跨模态特征融合,并根据跨模态融合结果确定样本问题对应的样本预测答案。随后,根据预设损失函数计算样本预测答案和样本实际答案之间的损失,根据损失对视觉问答模型的模型参数进行优化,以及将训练样本重新输入至优化后的视觉问答模型中,并继续对视觉问答模型进行优化,直至视觉问答模型达到停止模型训练的标准,得到目标模型。最终,响应于视觉问答指令,将待预测图像和待预测问题输入至目标模型进行预测,得到待预测问题对应的预测答案。本技术实施例利用问题引导图像实现跨模态交互,成功将生成的图像特征与问题信息相结合,从而解决了模态内和模态间交互能力不足的问题。此外,提出了一种自适应自注意力机制,通过动态调整注意力感受野的大小,促进全局与局部依赖关系的建模,进而解决了普通自注意力在建模全局依赖时难以捕捉图像局部特征的问题,弥补了原始自注意力在局部依赖关系建模上的不足。

53、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1