视觉问答方法、系统、电子设备及存储介质与流程

文档序号：36478712发布日期：2023-12-25 05:25阅读：37来源：国知局

本技术涉及计算机视觉，尤其涉及一种视觉问答方法、系统、电子设备及存储介质。

背景技术：

1、随着人们物质生活水平地提高，可供食用的食材种类和数量都有了显著地增加，由此，使用不同食材制成的食物种类也日益增长。

2、从个人饮食角度来看，不同健康状况的人对食物的需求是不同的，例如，糖尿病患者要避免食用高血糖的食物。然而，面对丰富多元的食物，人们只能依据自身的经验对食物做出选择，相关技术中基于食物的资料能够得到待识别图像对应问题的解答，然而，这样的方法不适用复杂的视觉问答，并且应用该方法得到的答案往往准确度较低。

技术实现思路

1、本技术实施例的主要目的在于提出一种视觉问答方法、系统、电子设备及存储介质，能够提高视觉问答的准确性。

2、为实现上述目的，本技术实施例的第一方面提出了一种视觉问答方法，所述方法包括：

3、获取目标图像，以及所述目标图像对应的自然语言问题；

4、基于所述目标图像和所述自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；

5、基于所述目标图像和所述自然语言问题进行关联查询，得到相应的隐式知识；

6、将所述隐式知识和所述自然语言问题进行结合，得到目标问题；

7、将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息；

8、根据所述多模态查询信息和所述候选知识进行注意力机制融合处理，得到细粒度信息；

9、将多模态查询信息与所述细粒度信息进行特征融合，得到目标特征信息，并基于所述目标特征信息进行查询，得到目标答案。

10、在一些实施例中，所述知识图谱可以通过以下步骤构建得到，所述步骤包括：

11、获取样本名称信息，以及样本名称信息对应的样本图文信息和样本标签信息；

12、基于所述样本名称信息、所述样本图文信息和所述样本标签信息，确定样本数据；

13、根据所述样本数据，生成所述知识图谱。

14、在一些实施例中，所述样本图文信息包括样本图像；

15、所述基于所述目标图像和所述自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识，包括：

16、计算所述目标图像与所述样本图像的第一相似度，基于所述第一相似度，确定第一样本图像；

17、从所述自然语言问题中提取得到匹配关键词，并基于所述第一样本图像和所述匹配关键词，得到结构特征信息、类型特征信息和上下文特征信息；

18、连接所述结构特征信息、所述类型特征信息和所述上下文特征信息，得到候选知识。

19、在一些实施例中，所述基于所述目标图像和所述自然语言问题进行关联查询，得到相应的隐式知识，包括：

20、基于所述第一样本图像，确定第一图像特征，并基于所述匹配关键词，确定第一文本特征；

21、连接所述第一图像特征和所述第一文本特征，得到关联查询信息，将所述关联查询信息输入预设的智能问答模型中，得到隐式知识。

22、在一些实施例中，所述将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息，包括：

23、将所述目标问题输入预设的第一学生网络模型中，得到目标文本特征；

24、将所述目标图像输入预设的第二学生网络模型中，得到目标图像特征；

25、拼接所述目标文本特征和所述目标图像特征，得到多模态查询信息。

26、在一些实施例中，所述第一学生网络模型和所述第二学生网络模型是由教师网络模型训练得到的，所述训练的步骤包括：

27、获取样本问题；

28、将所述样本问题分别输入第一学生网络模型和所述教师网络模型中，基于所述第一学生网络模型得到第一文本特征向量，并基于所述教师网络模型得到的第二文本特征向量；

29、通过所述第一文本特征向量和所述第二文本特征向量计算得到文本特征损失值，依据所述文本特征损失值训练所述第一学生网络模型；

30、将所述样本图像分别输入第二学生网络模型和所述教师网络模型中，基于所述第二学生网络模型得到第一图像特征向量，并基于所述教师网络模型得到的第二图像特征向量；

31、通过所述第一图像特征向量和所述第二图像特征向量计算得到图像特征损失值，依据所述图像特征损失值训练所述第二学生网络模型。

32、在一些实施例中，所述根据所述多模态查询信息和所述候选知识进行注意力机制融合处理，得到细粒度信息，包括：

33、根据预设的第一参数，确定所述多模态查询信息对应的第一查询信息，以及所述候选知识对应的第一键值对；

34、以所述第一查询信息和第一键值对作为约束条件，对所述多模态查询信息和所述候选知识进行特征融合，得到融合信息；

35、分别对所述多模态查询信息和所述融合信息进行特征增强，得到特征增强后的所述多模态查询信息和所述融合信息；

36、计算特征增强后的所述融合信息和所述多模态查询信息的点积，得到特征分数，并根据所述特征分数，得到更新后的候选知识；

37、将更新后的所述候选知识和所述多模态查询信息进行特征融合，得到细粒度信息。

38、在一些实施例中，所述分别对所述多模态查询信息和所述融合信息进行特征增强，得到特征增强后的所述多模态查询信息和所述融合信息，包括：

39、根据预设的第二参数，确定所述多模态查询信息对应的第二查询信息，以及所述融合信息对应的第二键值对；

40、以所述第二查询信息和第二键值对作为约束条件，对所述多模态查询信息进行特征增强，得到特征增强后的所述多模态查询信息；

41、根据预设的第三参数，确定所述融合信息对应的第三查询信息，以及所述多模态查询信息对应的第三键值对；

42、以所述第三查询信息和第三键值对作为约束条件，对所述融合信息进行特征增强，得到特征增强后的所述融合信息。

43、在一些实施例中，所述基于所述目标特征信息进行查询，得到目标答案，包括：

44、根据预设的第四参数，确定所述目标特征信息的目标查询信息和目标键值对；

45、以所述目标查询信息和所述目标键值对作为约束条件，对所述目标特征信息进行特征增强，得到特征增强后的所述目标特征信息；

46、将所述目标特征信息输入预设的分类器中，以使所述分类器基于特征增强后的所述目标特征信息，得到目标答案。

47、为实现上述目的，本技术实施例的第二方面提出了一种视觉问答系统，所述系统包括：

48、获取模块，用于获取目标图像，以及所述目标图像对应的自然语言问题；

49、候选知识模块，用于基于所述目标图像和所述自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；

50、隐式知识模块，用于基于所述目标图像和所述自然语言问题进行关联查询，得到相应的隐式知识；

51、目标问题模块，用于将所述隐式知识和所述自然语言问题进行结合，得到目标问题；

52、多模态查询信息模块，用于将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息；

53、细粒度信息模块，用于根据所述多模态查询信息和所述候选知识进行注意力机制融合处理，得到细粒度信息；

54、目标答案模块，用于将多模态查询信息与所述细粒度信息进行特征融合，得到目标特征信息，并基于所述目标特征信息进行查询，得到目标答案。

55、为实现上述目的，本技术实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的视觉问答方法。

56、为实现上述目的，本技术实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的视觉问答方法。

57、本技术实施例提出了一种视觉问答方法、系统、电子设备及存储介质，该方法首先通过获取目标图像，以及目标图像对应的自然语言问题；接着，基于目标图像和自然语言问题，在预设的知识图谱中进行知识检索，得到候选知识；并基于目标图像和自然语言问题进行关联查询，得到相应的隐式知识；然后，将隐式知识和自然语言问题进行结合，得到目标问题；之后，将目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接，得到多模态查询信息；再之后，根据多模态查询信息和候选知识进行注意力机制融合处理，得到细粒度信息；最后，将多模态查询信息与细粒度信息进行特征融合，得到目标特征信息，并基于目标特征信息进行查询，得到目标答案。

58、可以理解的是，本技术实施例通过将目标图像和自然语言问题进行关联查询，能够得到两者之间不被轻易发现的隐式知识，接着，通过将隐式知识和原本的自然语言问题进行结合得到目标问题，并基于目标问题生成多模态查询信息，其中，多模态查询信息中包含有与查询相关的更多特征，通过多模态查询信息与候选知识的多次特征融合处理，能够确定最终的目标答案，并且，该目标答案具有较高的准确度。

59、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡孟豪宋亚光王耀威杨小汕徐常胜
技术所有人：鹏城实验室
我是此专利的发明人

上一篇：一种光伏支架组装用焊接设备的制作方法
上一篇：一种声音类型识别修正方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。