一种基于语义空间映射的零样本图片问答方法

文档序号:31453116发布日期:2022-09-07 13:50阅读:124来源:国知局
一种基于语义空间映射的零样本图片问答方法

1.本发明涉及一种基于语义空间映射的零样本图片问答方法,属于人机交互和自助服务技术领域。


背景技术:

2.社交网络中的图片、视频、文字等信息源于不同模态,统称多模态信息。人类每天都在通过不同的社交平台与多模态信息进行交互。多模态信息包含了丰富的、有价值的数据,对这些多模态信息进行分析与应用将进一步推动智慧生活的发展,拉近人类美好生活的愿景。随着计算机视觉技术与自然语言处理技术的快速发展,融合这两大技术的多模态分析方法引起了越来越多的关注。问答系统作为人工智能领域中一个倍受关注并具有广泛发展前景的任务,其当前的研究热点已从纯自然语言扩展到多模态的范畴。图片问答任务自提出以来便在学术界和工业界激起了极大的研究热潮并被认为是一个有前景但棘手的研究热点,在真实场景中的相关业务,如人机交互、自动客户服务、早期教育等方面具有广泛的应用。
3.现有的图片问答方法首先利用视觉注意力机制探索问题单词与图片区域之间的相关性以学习联合嵌入。然后,将图片问答视为分类问题,并将学习到的联合嵌入特征输入到答案分类器中。分类器的候选项是训练样本集中已知的标记答案。然而,这些方法存在以下缺点。一方面,在实际应用中通常没有足够的带有相应答案的问题-图片对用于训练。其结果是,如果测试集中问题的正确答案存在于训练集中标记答案之外,则图片问答的性能将受到影响。另一方面,现有基于注意力的图片问答方法隐式地探索视觉内容与文本句子之间的相关性,它们在回答问题的过程中无法有针对性地建模模态内部不同元素的不同重要性,缺乏合理的推导过程。因此,当前方法主要将图片问答视为分类问题,分类的目标是训练集中已标记的答案,无法对训练集之外未标记的答案进行预测。另外,当前方法隐式地探索问题和图片之间的相关性,缺乏合理的推导过程,无法进行细粒度的特征关联学习。
4.因此,迫切需要设计一种新的机制来解决现有图片问答方法面临的问题,以实现更准确的答案预测。


技术实现要素:

5.本发明要解决的技术问题是:提供一种基于语义空间映射的零样本图片问答方法,通过对齐图片和问题句之间的跨模态语义信息,建模细粒度的多模态特征关联关系,并采用语义空间映射实现模型对未标记答案进行预测的能力,以此提高图片问答的准确率,以解决现有技术中存在的技术问题。
6.本发明采取的技术方案为:一种基于语义空间映射的零样本图片问答方法,它包括跨模态语义对齐、多模态特征关联学习、语义空间映射等三个部分;跨模态语义对齐部分提取问题句中的名词性单词,利用预先训练的词向量编码名词特征,并通过名词指导的注意力机制探索名词对应的图片区域,以此提取图片中重要的视觉信息;多模态特征关联学
习部分通过预先训练的词向量编码问题单词,将跨模态语义对齐学得的视觉信息与单词信息融合,实现问题特征增强,通过问题指导的注意力机制学习问题和图片之间的细粒度关联关系,生成图片-问题联合嵌入;语义空间映射部分将图片-问题联合嵌入映射到标记和未标记的答案共享的语义空间中,并在该空间实现语义匹配、语义距离控制、语义聚类,通过在语义空间寻找最佳匹配以实现模型对未标记的答案预测。
7.一种基于语义空间映射的零样本图片问答方法,其具体步骤如下:
8.步骤一:利用词性标注工具提取问题句中的名词性单词,并采用预先训练的词嵌入编码名词特征。同时,利用深度卷积神经网络将图片信息提取为图片区域特征;设计一个名词指导的注意力机制,用于探索名词对应的视觉区域,实现跨模态的语义对齐;
9.步骤二:利用词嵌入编码问题单词,将单词与步骤一中跨模态语义对齐习得的视觉特征进行融合,实现问题特征增强;利用循环神经网络编码问题单词序列,生成问题相关的多模态表示。设计一个问题指导的注意力机制,用于建模图片和问题之间细粒度的多模态特征关联关系,生成图片-问题联合嵌入;
10.步骤三:将步骤二中生成的图片-问题联合嵌入映射到标记和未标记的答案共享的语义空间,在该空间中实现语义匹配、语义距离控制、语义聚类等;图片-问题联合嵌入映射到语义空间后聚集在空间中对应的答案嵌入周围;通过在语义空间中寻找最佳匹配以实现未标记的答案预测,即零样本问答。
11.其中,步骤一中所述的名词指导的注意力机制是探索问题句中的名词语义对应的图片区域信息,建立名词和图片区域之间的特征关联权值。反映名词实体的图片区域与该名词之间具有强特征关联关系,反之则特征关联较弱,以此实现跨模态的语义对齐。值得注意的是,对于问句中的非名词性单词,它们均值共享图片区域特征,即特征关联权值相同。
12.其中,步骤二中所述的问题指导的注意力机制是在问题单词特征增强以生成问题相关的多模态表示的基础上,将其与图片区域特征共同映射到高维空间中,计算问题和图片之间的特征关联权值,以此探索细粒度的多模态特征关联关系。通过关联权值融合两种类型的特征生成问题-图片联合嵌入。
13.其中,步骤三中所述的语义空间是一个高维的特征空间,在该空间中标记和未标记的答案都对应于一个特征向量。具有相同答案的问题-图片对的联合嵌入映射到语义空间后,联合嵌入聚集在对应的正确答案嵌入周围,而具有不同答案的问题-图片对的联合嵌入映射到语义空间后分别聚集在各自对应的答案嵌入周围,距离相对较远。特征空间通过语义匹配、语义距离控制、语义聚类等实现了零样本图片问答。
14.本发明的有益效果:与现有技术相比,本发明提出的基于语义空间映射的零样本图片问答方法具有两方面的优点:首先,与以往的图片问答方法不同,本发明重点探索如何对训练集之外未标记的答案进行预测,通过构建标记和未标记的答案共享的语义空间,将语义信息从标记答案转移到未标记的答案,实现零样本图片问答;其次,本发明设计了名词指导的注意力以进行跨模态语义对齐,问题指导的注意力以进行多模态特征关联学习,显著提高了跨模态关系建模能力,提升了零样本图片问答的准确率,有效解决现有技术中的无法对训练集之外未标记的答案进行预测和无法进行细粒度的特征关联学习的问题。
附图说明
15.图1是一种基于语义空间映射的零样本图片问答方法的流程示意图。
具体实施方式
16.下面结合附图及具体的实施例对本发明进行进一步介绍。
17.实施例1:如图1所示,本发明一种基于语义空间映射的零样本图片问答方法,具体实现步骤如下:
18.步骤一:跨模态语义对齐
19.对于一张原始图片,本发明利用resnet网络提取图片的视觉区域特征,表示为r={r1,...,ri,...,rm×m},其中ri对应于一个图片区域的特征向量,m
×
m是图片区域的数量。对于一个带有t个单词的问题语句,利用预先训练好的glove词嵌入将其编码为q={q1,...,qi,...q
t
},其中qi表示问题句中第i个单词的嵌入向量。另外,本发明采用a
l
={a
l1
,...,a
li
,...,a
ln
}表示训练集中出现的标记答案,其中a
li
表示第i个标记答案的嵌入向量,n表示标记答案的数量。au={a
u1
,...,a
ui
,...,a
uk
}表示答案空间中未标记的答案,其中a
ui
表示第i个未标记答案的嵌入向量,k表示未标记答案的数量。a∈a={a
l
∪au}则表示答案空间中的一个答案,对应于语义空间中的一个答案嵌入,其中a表示标记和未标记答案的集合。
20.本发明设计一个名词指导的注意力进行跨模态的语义对齐。首先,利用stanford pos tagger工具提取问题句q中的名词性单词。对于名词qi,根据qi与图片区域rj的相关性,为相应图片的每个区域rj分配一个注意力分数α
ij
。使用一个双线性函数来计算其中α
ij
是对所有图片区域进行归一化后的权值,

是一个正比于符号,u是一个可学习的权重矩阵,是一个非线性函数softmax。然后,本发明利用注意力得分来计算不同的图片区域对单词的关联权值,并将所有图片区域的加权和从视觉特征空间映射到单词空间:值得注意的是,名词指导的注意力计算是针对问题句中的名词而进行的。如果qi为非名词,则每个图片区域对单词qi都应该具有相同的得分,本发明用a
ij
=1/(m
×
m)来计算非名词单词的注意力得分。这样,可以根据不同的单词为图片区域分配更合理的权重。
21.步骤二:多模态特征关联学习
22.经过名词指导的注意力机制处理后,加权视觉特征向量vi与单词向量qi具有相同的维度。本发明设计一个增强的特征向量wi来对多模态的内容进行联合编码表示。wi是由两个特征向量qi和vi按元素相乘并经正则化操作后得到的结果,其计算方法为:其中表示两个向量之间按元素相乘的操作。本发明用循环神经网络的变体,即长短记忆内存网络lstm来编码多模态的联合特征序列{w1,w2,...,w
t
}。lstm的最后一个隐单元输出视作问题相关的多模态表示h。
23.基于问题相关的多模态表示h,设计一个问题指导的注意力网络进行多模态特征关联学习,生成问题-图片联合嵌入。为了方便进行后续计算,本发明首先将问题相关的多模态表示h和图片区域特征r转化到一个c维特征空间中:h
(c)
=tanh(whh+bh),r
(c)
=tanh(wrr+br),其中wh和wr是可学习的权重矩阵,bh和br是偏置项。之后,h
(c)
在空间上被复制m
×m次,形成h
(c)
,它与转化后的图片区域特征r
(c)
的大小一致。接着,将问题相关的多模态表示再次探索图片区域,以期进一步发现用于回答问题的重要视觉特征。这一过程可用如下注意力机制实现:β=softmax(w
β
*m+b
β
),其中*表示卷积计算,m表示特征融合矩阵,w
β
和b
β
是可学习的参数。基于注意力分布向量β,对转换后的图片区域特征进行权重加和计算,结果作为新的图片特征v
(c)
。最后,本发明将问题相关的多模态表示h
(c)
与经注意力计算后的图片特征v
(c)
以按元素相乘的方式融合:其中βj和r
j(c)
分别表示β和r
(c)
的第j个值,e
qv
表示问题-图片联合嵌入,它编码了问题相关的多模态语义信息以及单词与图片区域之间的关联关系,能有效地反映问题的答案特征。
24.步骤三:语义空间映射
25.为了在答案推导过程中预测训练集外未标记的答案,本发明建立了一个由标记和未标记的答案共享的语义空间。问题-图片对的联合嵌入映射到语义空间后,其语义信息可以从标记的答案转移到未标记的答案。这样,问题-图片对的答案可以通过在语义空间中搜索最匹配的标记或未标记的答案来获得。
26.为了便于计算,本发明首先用线性变换将步骤二中生成的问题-图片联合嵌入e
qv
映射到d维的语义空间,得到φ(e
qv
),它与答案示例具有相同的维度。注意,表示答案a在语义空间中的向量嵌入。本发明定义一个匹配分数,该分数由问题-图片对映射到语义空间的嵌入φ(e
qv
)和语义空间中的答案示例之间的内积来确定:与现有的图片问答方法中的分类得分一样,匹配分数被用来衡量问题-图片嵌入和答案示例之间的匹配程度。采用softmax函数计算方式来定义匹配损失其中,a
l
是有标记的答案集合。
27.直观上来说,映射到语义空间的问题-图片联合嵌入和正确答案嵌入之间的匹配分数应该高于联合嵌入和随机选择的非正确答案之间的匹配分数。为此,本发明采用匹配分数和ranking loss来定义每个训练样本的语义相似度损失l
sem
=max(0,m
sem-s(e
qv
,a
+
)+s(e
qv
,a-))。其中,a
+
是给定的问题-图片对的正确答案的嵌入,a-是随机选择的错误答案的嵌入向量,m
sem
是一个超参数。此公式传达的信息是,与问题-图片联合嵌入进行匹配得分计算时,正确的答案至少比随机选择的错误答案匹配分数高m
sem

28.语义空间映射的一个亮点是存在聚类结构。当问题-图片联合嵌入映射到语义空间时,具有相同答案的多个问题-图片联合嵌入将聚集于该答案嵌入的周围。本发明采用聚类损失函数来调节映射到语义空间的不同问题-图片嵌入之间的距离,通过最小化聚类损失函数l
clu
来实现:其中,代表从特定范围的样本内随机选择的另一个问题-图片对的联合嵌入,该联合嵌入与e
qv
具有相同的答案,是从特定范围的样本内随机选择的另一个问题-图片对的联合嵌入,该联合
嵌入与e
qv
具有不同的答案,m
clu
也是一个超参数,d(x,y)用于计算x和y之间的平方欧氏距离,同样,l
clu
表示的意思是语义空间中两个具有相同答案的问题-图片联合嵌入之间的距离比具不同答案的两个问题-图片联合嵌入之间的距离至少小m
clu

29.本发明通过结合匹配损失、语义相似性损失和聚类损失来定义本发明一种基于语义空间映射的零样本图片问答方法的最终损失函数:l=l
mat
+λl
sem
+ηl
clu
,其中,λ和η代表相应子损失函数的权重值。在验证阶段,给定一个问题-图片对,可以通过在语义空间中选择匹配分数最高的答案示例a*作为其答案,其选择方式可表示为:其中a是语义空间中标记和未标记的答案集合。利用以上方法,就能实现零样本图片问答任务,并提高问答的准确率。
30.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1