基于知识感知注意力网络的视觉常识推理方法及系统

文档序号：33399613发布日期：2023-03-08 15:44阅读：95来源：国知局

1.本发明属于计算机视觉与自然语言处理交叉技术领域，尤其涉及一种基于知识感知注意力网络的视觉常识推理方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成已经成为本领域一般技术人员所公知的现有技术。
3.在由大量不同模态数据构建的多媒体世界中，不同模态的数据在具体应用的过程中具有高度相关性。单模态学习是指将信息表示为计算机可以处理的数值向量或进一步抽象为更高层的特征向量；而多模态学习旨在通过机器学习的方法，利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示，这需要将不同模态的数据嵌入到一个公共表示空间中进行对齐、比较和融合。
4.近年来，涌现了大量关于多模态任务的研究，这类任务更加能够反映计算机对于各类模态数据的理解能力。其中，具有代表性的任务是视觉常识推理(visual commonsense reasoning，vcr)任务，视觉常识推理任务不仅需要根据图像和问题从答案候选项中选出正确的答案，还要从理由候选项中选出一个正确的理由来解释该答案。这一任务中，回答自然语言问题不仅需要对图像中的物体、行为等进行识别，还需要大量的常识知识帮助理解图像。然而，现有的视觉常识推理方法并未关注在理解图像和文本过程中起关键作用的背景信息以及隐藏在上下文之外的内容，导致视觉常识推理任务的准确性和性能较差。

技术实现要素：

5.为解决上述现有技术的不足，本发明提供了一种基于知识感知注意力网络的视觉常识推理方法及系统，根据视觉上下文引导，自适应的提取问题和答案候选项中的重要信息，提取与视觉相关的候选词组，并使用知识嵌入方法将自然语言句子的初始特征进一步整合起来，学习最终的知识感知注意向量，基于融合了知识感知注意向量与视觉特征的融合特征完成视觉常识推理任务，提高视觉常识推理任务的准确率和性能。
6.第一方面，本公开提供了一种基于知识感知注意力网络的视觉常识推理方法，包括：
7.以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：
8.获取样本图像中视觉对象的视觉特征，获取样本问题和样本答案候选项的初始语境句子表示；
9.根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，再通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量；
10.将获取的知识感知注意向量与视觉特征进行融合，获取融合特征，以此训练视觉
常识推理模型；
11.将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。
12.进一步的技术方案，所述获取样本问题和样本答案候选项的初始语境句子表示，包括：
13.利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入；
14.将提取的词嵌入输入至双向长短期记忆网络中，生成样本问题和样本答案候选项的初始语境句子表示。
15.进一步的技术方案，所述获取样本图像中视觉对象的视觉特征，包括：
16.利用预训练的基于resnet101网络的目标检测模型对样本图像进行目标检测，提取出图像中多个视觉对象的视觉特征。
17.进一步的技术方案，所述根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，包括：
18.在视觉信息的引导下，利用基于bert的预训练语言模型zen，通过语法匹配算法，筛选得到样本问题和样本答案候选项中与视觉特征相关的词组，以此构建词组候选集合；
19.聚集词组候选集合中各词组在视觉特征中的嵌入表示，通过上下文引导，学习样本问题和样本答案候选项的基于知识的句子表示。
20.进一步的技术方案，利用预训练的transe模型学习得到词组候选集合中各候选词组在视觉特征中的嵌入表示；
21.在获取样本问题和样本答案候选项的初始语境句子表示的基础上，结合学习得到的词组嵌入表示，通过上下文引导，学习样本问题和样本答案候选项基于知识的句子表示。
22.进一步的技术方案，所述通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量，包括：
23.根据样本问题和样本答案候选项的初始语境句子表示和基于知识的句子表示，分别计算样本问题和样本答案候选项的注意矩阵和基于知识的注意矩阵；
24.在注意矩阵和基于知识的注意矩阵上确定行和列的最大汇集，分别为样本问题和样本答案候选项生成基于视觉上下文的注意向量和基于知识的注意向量；
25.将两个注意向量合并，得到样本问题和样本答案候选项的初始知识感知注意向量；
26.将初始知识感知注意向量与整个句子向量进行点积，分别获得样本问题和样本答案候选项最终的知识感知注意向量。
27.进一步的技术方案，所述获取融合特征，以此训练视觉常识推理模型，包括：
28.以设有分段线性函数的多层感知器为分类器，以融合特征为输入，以样本答案候选项的真实标签与预测标签之间的交叉熵损失训练视觉常识推理模型。
29.第二方面，本公开提供了一种基于知识感知注意力网络的视觉常识推理系统，包括：
30.视觉常识推理模型构建及训练模块，用于以多组互相对应的样本图像、样本问题
和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：
31.获取样本图像中视觉对象的视觉特征，获取样本问题和样本答案候选项的初始语境句子表示；
32.根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，再通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量；
33.将获取的知识感知注意向量与视觉特征进行融合，获取融合特征，以此训练视觉常识推理模型；
34.推理模块，用于将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。
35.第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。
36.第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。
37.以上一个或多个技术方案存在以下有益效果：
38.1、本发明提供了一种基于知识感知注意力网络的视觉常识推理方法及系统，使用知识感知注意力网络构建视觉常识推理模型，根据视觉上下文自适应的提取问题和答案候选项的重要信息，提取与视觉相关的候选词组，并使用知识嵌入的方法将问题和答案候选项自然语言句子的初始特征进一步整合起来，学习最终的知识感知注意向量，通过融合知识感知注意向量与视觉特征得到融合特征，基于融合特征实现视觉常识推理，进一步提高视觉常识推理任务的准确率和性能。
39.2、本发明所提出的基于知识感知注意力网络的视觉常识推理方法，能够使计算机更深入的理解图像间的语义，有效提升视觉常识推理任务的性能。
附图说明
40.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
41.图1为本发明实施例一所述基于知识感知注意力网络的视觉常识推理方法的流程图；
42.图2为本发明实施例一中视觉常识推理任务过程的示例图。
具体实施方式
43.应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
44.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式
也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
45.实施例一
46.视觉常识推理任务，在该任务中，不仅需要根据图像和自然语言问题从答案候选项中选出正确的答案，还要根据该答案再选出一个合理的理由。通常情况下，视觉常识推理任务共包含三项子任务，q
→
a：给定自然语言问题q，从答案候选项中选择正确的答案a；qa
→
r：给定自然语言问题q以及该问题的答案qa，从理由候选项中选择合理的理由r；q
→
ar：包含q
→
a和qa
→
r两项任务，需要同时选择正确的答案a和合理的理由r。
47.为了实现视觉常识推理任务准确率和性能的提升，本实施例提供了一种基于知识感知注意力网络的视觉常识推理方法，构建了视觉常识推理模型，获取待推理图像以及与待推理图像对应的推理问题、多个推理答案候选项和多个推理理由候选项，将待推理图像、推理问题、多个推理答案候选项和多个推理理由候选项输入至训练完成的视觉常识推理模型中，该视觉常识推理模型输出的推理结果，即根据推理问题从多个推理答案候选项中选出正确的答案，再根据选出的答案从多个推理理由候选项中选出合理的理由。
48.本实施例所述方法具体包括：
49.首先，以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型。在本实施例中，每组样本图像、样本问题和样本答案候选项均相互对应，且设置样本答案候选项的个数为4，标注每个样本答案候选项相对于样本图像和样本问题的答案标签，即标注每个样本答案候选项为正确答案或错误答案。
50.然后，将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。
51.上述视觉常识推理模型的训练过程如图1所示，包括以下步骤：
52.步骤1、获取样本图像中视觉对象的视觉特征，获取样本问题和样本答案候选项的语言特征，即初始语境句子表示。
53.首先，针对样本图像，利用预训练的基于resnet101网络的目标检测模型对样本图像进行目标检测，提取出图像中m个对象的视觉特征，即提取m个视觉特征向量vi。也就是说，样本图像可以由视觉特征向量vi(i＝1,...,m)所构成的集合表示，其中，vi由边界框bi和类别标签li组成。
54.其次，针对样本问题和样本答案候选项，其均是自然语言句子，利用预训练的语言表征模型(bidirectional encoder representations from trans-former，bert)提取自然语言句子中的词嵌入，分别生成相应的初始的句子表示，然后将提取的词嵌入输入至双向长短期记忆网络(bi-directional long short-term memory，bi-lstm)，利用bi-lstm提取自然语言句子的词特征，生成样本问题和样本答案候选项的初始语境句子表示。
55.在本实施例中，以样本问题q和某一样本答案候选项a为例，在利用bert分别提取样本问题q的初始句子表示和样本答案候选项a的初始句子表示后，再利用bi-lstm生成样本问题q和样本答案候选项a的初始语境句子表示和其中，l和d
l
是句子的长度和维度。通过双向长短期记忆网络，使得当前时刻所获得特征数据同时拥有前一时刻和后一时刻的信息，不仅可以从之前的上下文中捕获信息，还可以获取当前句子的文本信息。
56.步骤2、根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示。所述步骤2具体包括以下步骤：
57.步骤2.1、在视觉信息的引导下，利用基于bert的预训练语言模型zen，通过语法匹配算法，筛选得到样本问题和样本答案候选项中与视觉特征相关的词或词组，以此构建词组候选集合。在本实施例中，将样本问题和样本答案候选项输入至基于bert的预训练语言模型zen中，通过语法匹配算法，识别自然语言句子中的词或词组，结合视觉特征，从中筛选得到样本问题和样本答案候选项中与视觉特征相关的视觉词或词组。实际上，上述获取的视觉词或词组对应于样本图像中的视觉对象。
58.步骤2.2、聚集词组候选集合中各词组在视觉特征中的嵌入表示，通过上下文引导，学习样本问题和样本答案候选项基于知识的句子表示。
59.具体的，首先，利用预训练的transe模型学习得到词组候选集合中各候选词组在视觉特征中的嵌入表示，即其中，k表示词组的数量，d
p
为嵌入表示的维度。transe模型用于学习实体和关系的低维嵌入向量，在transe模型中，对于输入的一组三元组(h,l,t)，其中头实体h的嵌入向量与尾实体t的嵌入向量相加接近于依赖的关系l的嵌入向量。在本实施例中，候选词组所对应的视觉对象作为实体，通过transe模型学习并优化候选视觉词组在视觉特征中的嵌入表示。
60.其次，在上述步骤1中利用bi-lstm提取样本问题和样本答案候选项的初始语境句子表示的基础上，结合上述学习的词组嵌入表示，通过上下文引导，学习样本问题和样本答案候选项基于知识的句子表示。以获取样本问题的基于知识的句子表示为例，所述上下文引导为：
61.ne＝w
er1
phe+w
er2
pq62.ae＝exp(w
er
σ(ne))
[0063][0064]
其中，w
er
、w
er1
和w
er2
为可学习的权重参数，ne为嵌入候选词组的上下文引导的知识向量，ae为应用于嵌入候选词组的上下文引导的知识向量的关注权重。通过上述方案，为样本问题的自然语言句子中所提到的每个视觉词组生成上下文引导的向量表示，通过捕捉局部信息，从上下文引导中整合样本问题中基于知识的句子表示，即其中，l为样本问题自然语言句子的长度，d
p
表示句子的维度。
[0065]
基于上述相同的方法，获取样本答案候选项的基于知识的句子表示p
′a。
[0066]
步骤3、基于样本问题和样本答案候选项的基于知识的句子表示，通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量。
[0067]
针对样本问题和样本答案候选项，分别有两种不同的句级表征向量，即pq和pa为初始语境句子表示，而p
′q和p
′a为基于知识的句子表示，即从上述步骤2中衍生出的句子表示。将样本问题和样本答案候选项的初始句子表示和衍生句子表示输入到知识嵌入层，采用知识嵌入的方法，将知识集成到自然语言，感知文本之外的上下文信息和隐藏关系，以学习最终的知识感知注意向量。所述步骤3具体包括以下步骤：
[0068]
步骤3.1、根据样本问题和样本答案候选项的初始语境句子表示和基于知识的句
子表示，分别计算样本问题和样本答案候选项的注意矩阵m和基于知识的注意矩阵m
′
，该计算为：
[0069][0070][0071]
其中，和为可学习的参数矩阵。
[0072]
步骤3.2、在注意矩阵m上确定行和列的最大汇集，分别为样本问题和样本答案候选项生成基于视觉上下文的注意向量；
[0073]
同样，在基于知识的注意矩阵m
′
上，确定行和列的最大汇集，分别为样本问题和样本答案候选项生成基于知识的注意向量；
[0074]
为了将视觉的知识感知融入到句子的注意表征中，本实施例通过将上述两个注意向量合并，得到样本问题和样本答案候选项的初始知识感知注意向量aq和aa，即：
[0075][0076][0077]
步骤3.3、将初始知识感知注意向量与整个句子向量进行点积，分别获得样本问题和样本答案候选项的最终的知识感知注意向量，即：
[0078]
sq＝[pq:p
′q]
taq
[0079]
sa＝[pa:p
′a]
taa
[0080]
其中，[:]表示连接操作。
[0081]
步骤4、将获取的知识感知注意向量与视觉特征进行融合，获取融合特征，以此训练视觉常识推理模型。
[0082]
在上述步骤4中，将获取的最终的知识感知注意向量与视觉特征进行融合得到融合特征，用以学习视觉和语言的联合表示，以融合特征为输入，输入至分类器中，输出预测值，即：其中θ表示可训练参数。进一步的，在本实施例中，上述分类器为带有relu激活函数的多层感知器。
[0083]
进一步的，本实施例中，还通过layernorm来稳定训练，输出稳定的预测值即：其中，w
′v和w
′r为两个线性投影矩阵。
[0084]
以交叉熵作为损失函数，使用样本答案候选项的真实标签与预测标签之间的交叉熵损失来训练视觉常识推理模型。该损失函数为：
[0085][0086]
上式中，l
loss
表示分类损失，yi表示真实值，代表预测值，其中，i表示样本答案候选项的个数，在本实施例中，样本答案候选项设置为4个，因此i∈{1,2,3,4}，yi表示第i个样本答案候选项所标注的答案标签的真实值，与yi相对应，表示第i个样本答案候选项的答案标签的预测值。
[0087]
基于样本图像、样本问题、样本答案候选项训练上述视觉常识推理模型，直至损失
函数收敛，得到训练完成的视觉常识推理模型。
[0088]
最后，将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。
[0089]
通过以下述实例进一步对上述方案进行说明与验证。
[0090]
vcr任务中包含图像、问题和答案候选项，问题和答案候选项作为自然语言句子，均是由单词和视觉词组成的集合。针对自然语言句子，以图2中的问题“what is[person3]upsetabout？”和答案“[person3]is upset that[person3]can not read music.”为例，首先将句子中的名字标签替换为数据集中已标注的相应人名，对象标签替换为相应的类别名称。将问题和某一答案候选项的自然语言句子输入到bert模型中，编码为768维向量，再将每个单词序列输入带有隐藏层的bi-lstm中，编码为512维的特征向量，生成问题和答案候选项的初始语境句子表示。
[0091]
利用resnet-101提取图像中目标的特征向量，编码为2048维向量，图像中的每个目标是用bound边界框确定的，在resnet-101的最后一层利用roialign方法获取每个图像目标的特征向量，使用全连接的下采样网络将其投影到512维的嵌入向量中。
[0092]
然后，利用基于bert的预训练语言模型zen，通过语法匹配算法，筛选得到问题和答案候选项中与视觉特征相关的词或词组，以此构建词组候选集合，如对于问题句子“what is[person3]upset about？”，共匹配2个候选词组“person3”和“upset about”，以此构成词组候选集合；使用transe模型学习得到各候选词组在视觉特征中的嵌入表示，通过上下文引导，学习问题和答案候选项基于知识的句子表示。
[0093]
其次，将问题和答案候选项的初始语境句子表示和基于知识的句子表示输入到知识嵌入层，学习最终的知识感知注意向量。
[0094]
最后，将知识感知注意向量与视觉特征融合得到融合特征，将融合特征输入至分类器，计算该答案候选项作为正确答案输出的预测值。基于上述方案进行预测，最终，输出正确的答案候选项“he is upset that he can not read music.”。
[0095]
基于上述方案，也可以实现qa
→
r的推理过程，在此不再赘述。
[0096]
综上所述，本实施例提供的一种基于知识感知注意力网络的视觉常识推理方法，使用知识感知注意力网络构建视觉常识推理模型，根据视觉上下文自适应的提取问题和答案候选项的重要信息，提取与视觉相关的候选词组，并使用知识嵌入的方法将问题和答案候选项自然语言句子的初始特征进一步整合起来，学习最终的知识感知注意向量，通过融合知识感知注意向量与视觉特征得到融合特征，基于融合特征实现视觉常识推理，进一步提高视觉常识推理任务的准确率和性能。
[0097]
实施例二
[0098]
本实施例提供了一种基于知识感知注意力网络的视觉常识推理系统，包括：
[0099]
视觉常识推理模型构建及训练模块，用于以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：
[0100]
获取样本图像中视觉对象的视觉特征，获取样本问题和样本答案候选项的初始语境句子表示；
[0101]
根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的
重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，再通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量；
[0102]
将获取的知识感知注意向量与视觉特征进行融合，获取融合特征，以此训练视觉常识推理模型；
[0103]
推理模块，用于将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。
[0104]
实施例三
[0105]
本实施例提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上所述的基于知识感知注意力网络的视觉常识推理方法中的步骤。
[0106]
实施例四
[0107]
本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上所述的基于知识感知注意力网络的视觉常识推理方法中的步骤。
[0108]
以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0109]
本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0110]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
[0111]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张文琪高永超钱恒
技术所有人：齐鲁工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。