本公开涉及计算机,尤其涉及一种视觉常识推理方法、装置、电子设备和存储介质。
背景技术:
1、近年来,随着科技的进步和互联网技术的飞速发展,各种各样的传感器被大规模应用,图像、文本和视频等不同模态的信息充斥着人们生活的方方面面。不同模态信息之间的交互往往能传递更丰富的信息,人们的生活体验也在模态交互之中达到了新的高度。因此,进一步探索多模态数据之间的语义关联,提高计算机对多模态数据的语义理解和推理水平,从而提高人们对多模态数据的管理和运用能力,是一项具有广泛应用场景和重要科研价值的挑战。视觉常识推理问题作为多模态机器学习领域中一个极具挑战性的问题,更偏重跨媒体认知、学习和推理的“跨媒体智能”,该问题要求将图像和自然语言理解二者结合,以验证模型算法的高阶认知和常识推理能力。该问题的基本形式是给定一张场景图片和自然语言形式的问题,要求算法根据多模态输入在多个候选答案中选择正确答案,并且要在给定的候选理由中找出选择该答案为正确答案的推断理由。相关技术的视觉常识推理算法存在对复杂图像场景感知能力较弱,难以准确理解对象指代关系以及融入细粒度常识知识的问题,导致预测结果准确性偏低。
技术实现思路
1、有鉴于此,本公开提出了一种视觉常识推理方法、装置、电子设备和存储介质,旨在提升大语言模型在视觉常识推理场景下的感知能力,提高推理结果的准确性。
2、根据本公开的第一方面,提供了一种视觉常识推理方法,所述方法包括:
3、确定输入图像、问题文本、候选答案集合、候选理由集合和位置标注信息,所述输入图像中包括至少一个对象,所述位置标注信息中包括每个所述对象在所述输入图像中的位置,以及在所述问题文本中对应的文本符号;
4、通过视觉编码器根据位置标注信息对所述输入图像进行处理,得到对应的整体图像表征和每个所述对象对应的子图图像表征;
5、根据所述问题文本分别对所述整体图像表征和每个所述子图图像表征进行跨模态转换,得到整体视觉表征序列和每个所述对象对应的子图视觉表征;
6、根据所述位置标注信息将所述问题文本中包括的文本符号替换为对应的子图视觉表征,得到待拼接文本;
7、根据所述待拼接文本、所述整体视觉表征序列、所述候选答案集合,在所述候选答案集合包括的多个候选答案中确定预测答案;
8、根据所述待拼接文本、所述整体视觉表征序列、所述预测答案和所述候选理由集合,在所述候选理由集合包括的多个候选理由中确定所述预测答案对应的预测答案理由。
9、在一种可能的实现方式中,所述通过视觉编码器根据位置标注信息对所述输入图像进行处理,得到对应的整体图像表征和每个所述对象对应的子图图像表征,包括:
10、将所述输入图像输入所述视觉编码器中,得到对应的整体图像表征;
11、根据所述位置标注信息在所述输入图像中截取至少一个对象所在的区域,得到对应的对象子图;
12、将每个所述对象子图输入所述视觉编码器中,得到对应的子图图像表征。
13、在一种可能的实现方式中,所述根据所述问题文本分别对所述整体图像表征和每个所述子图图像表征进行跨模态转换,得到整体视觉表征序列和每个所述对象对应的子图视觉表征,包括:
14、将所述问题文本和所述整体图像表征输入跨模态转换器中,得到对应的整体视觉表征序列;
15、将每个所述对象的子图图像表征分别和所述问题文本输入所述跨模态转换器中,通过平均池化操作得到每个所述对象对应的子图视觉表征。
16、在一种可能的实现方式中,所述根据所述待拼接文本、所述整体视觉表征序列、所述候选答案集合,在所述候选答案集合包括的多个候选答案中确定预测答案,包括:
17、对所述待拼接文本、所述整体视觉表征序列、预设的提示模板分别和所述候选答案集合中的每个所述候选问题进行拼接,得到每个所述候选问题对应的第一拼接问题;
18、将每个所述第一拼接问题输入预先训练的语言模型得到对应的置信度;
19、根据对应的置信度在每个所述候选答案中确定预测答案。
20、在一种可能的实现方式中,所述第一拼接问题的格式为v|[sep]|li'|p,其中,v为所述整体视觉表征序列,[sep]为分隔符号,li'=q|[sep]|ai,q为所述待拼接文本,ai为所述候选答案集合中的第i个候选答案,p为预设的提示模板。
21、在一种可能的实现方式中,所述根据所述待拼接文本、所述整体视觉表征序列、所述预测答案和所述候选理由集合,在所述候选理由集合包括的多个候选理由中确定所述预测答案对应的预测答案理由,包括:
22、对所述待拼接文本、所述整体视觉表征序列、所述预测答案、预设的提示模板分别和所述候选理由集合中的每个所述候选理由进行拼接,得到每个所述候选理由对应的第二拼接问题;
23、将每个所述第二拼接问题输入预先训练的语言模型得到对应的置信度;
24、根据对应的置信度在每个所述候选理由中确定预测答案理由。
25、在一种可能的实现方式中,所述第二拼接问题的格式为v|[sep]|lj'|p,其中,v为所述整体视觉表征序列,[sep]为分隔符号,lj'=q|[sep]|aright|rj,q为所述待拼接文本,aright为所述预测答案,rj为所述候选理由集合中的第j个候选理由,p为预设的提示模板。
26、根据本公开的第二方面,提供了一种视觉常识推理装置,所述装置包括:
27、信息确定模块,用于确定输入图像、问题文本、候选答案集合、候选理由集合和位置标注信息,所述输入图像中包括至少一个对象,所述位置标注信息中包括每个所述对象在所述输入图像中的位置,以及在所述问题文本中对应的文本符号;
28、图像编码模块,用于通过视觉编码器根据位置标注信息对所述输入图像进行处理,得到对应的整体图像表征和每个所述对象对应的子图图像表征;
29、模态转换模块,用于根据所述问题文本分别对所述整体图像表征和每个所述子图图像表征进行跨模态转换,得到整体视觉表征序列和每个所述对象对应的子图视觉表征;
30、文本拼接模块,用于根据所述位置标注信息将所述问题文本中包括的文本符号替换为对应的子图视觉表征,得到待拼接文本;
31、答案预测模块,用于根据所述待拼接文本、所述整体视觉表征序列、所述候选答案集合,在所述候选答案集合包括的多个候选答案中确定预测答案;
32、理由预测模块,用于根据所述待拼接文本、所述整体视觉表征序列、所述预测答案和所述候选理由集合,在所述候选理由集合包括的多个候选理由中确定所述预测答案对应的预测答案理由。
33、在一种可能的实现方式中,所述图像编码模块,进一步用于:
34、将所述输入图像输入所述视觉编码器中,得到对应的整体图像表征;
35、根据所述位置标注信息在所述输入图像中截取至少一个对象所在的区域,得到对应的对象子图;
36、将每个所述对象子图输入所述视觉编码器中,得到对应的子图图像表征。
37、在一种可能的实现方式中,所述模态转换模块,进一步用于:
38、将所述问题文本和所述整体图像表征输入跨模态转换器中,得到对应的整体视觉表征序列;
39、将每个所述对象的子图图像表征分别和所述问题文本输入所述跨模态转换器中,通过平均池化操作得到每个所述对象对应的子图视觉表征。
40、在一种可能的实现方式中,所述答案预测模块,进一步用于:
41、对所述待拼接文本、所述整体视觉表征序列、预设的提示模板分别和所述候选答案集合中的每个所述候选问题进行拼接,得到每个所述候选问题对应的第一拼接问题;
42、将每个所述第一拼接问题输入预先训练的语言模型得到对应的置信度;
43、根据对应的置信度在每个所述候选答案中确定预测答案。
44、在一种可能的实现方式中,所述第一拼接问题的格式为v|[sep]|li'|p,其中,v为所述整体视觉表征序列,[sep]为分隔符号,li'=q|[sep]|ai,q为所述待拼接文本,ai为所述候选答案集合中的第i个候选答案,p为预设的提示模板。
45、在一种可能的实现方式中,所述理由预测模块,进一步用于:
46、对所述待拼接文本、所述整体视觉表征序列、所述预测答案、预设的提示模板分别和所述候选理由集合中的每个所述候选理由进行拼接,得到每个所述候选理由对应的第二拼接问题;
47、将每个所述第二拼接问题输入预先训练的语言模型得到对应的置信度;
48、根据对应的置信度在每个所述候选理由中确定预测答案理由。
49、在一种可能的实现方式中,所述第二拼接问题的格式为v|[sep]|lj'|p,其中,v为所述整体视觉表征序列,[sep]为分隔符号,lj'=q|[sep]|aright|rj,q为所述待拼接文本,a right为所述预测答案,rj为所述候选理由集合中的第j个候选理由,p为预设的提示模板。
50、根据本公开的第三方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
51、根据本公开的第四方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
52、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
53、在本公开实施例中,确定输入图像、问题文本、候选答案集合、候选理由集合和位置标注信息,然后通过视觉编码器和问题文本根据位置标注信息对输入图像进行处理,得到整体视觉表征序列和每个输入图像内每个对象对应的子图视觉表征。将问题文本中包括的文本符号替换为对应的子图视觉表征得到待拼接文本。根据待拼接文本、整体视觉表征序列、候选答案集合和候选理由集合在候选答案集合中确定预测答案,并在候选理由集合中确定预测答案对应的预测答案理由。本公开基于位置标注信息对输入图像中的对象进行位置标注,以根据对象位置进行答案预测及理由预测,提高预测结果的准确性。
54、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。