基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法与流程

文档序号:23387047发布日期:2020-12-22 13:52阅读:137来源:国知局
基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法与流程

本发明属于图像字幕自动生成方法,涉及计算机视觉和自然语言处理的技术领域。



背景技术:

图像字幕(imagecaption)的目标是自动生成给定图像的自然语言描述。目前这项任务面临着巨大的挑战,一方面,计算机必须从多层次的视觉特征中全面了解图像内容;另一方面,图像字幕生成算法需要逐步将粗略语义概念修改为类似于人的自然语言描述。近些年,深度学习相关技术(包括注意力机制和强化学习)的进步显著提高了字幕生成的质量,而这其中编码-解码框架是图像字幕生成的主流方法。vinyals等人利用空间合并的cnn特征图生成字幕,将整个图像压缩成静态表示,再用注意力机制通过学习自适应地关注图像的区域来改善字幕的性能,但是只有单个lstm用作可视信息处理程序以及语言生成器,语言生成器被同时可视化处理程序削弱。peteranderson等人提出了具有两个独立lstm层的自上而下架构:第一个lstm层充当自上而下的视觉注意模型,第二个lstm层充当语言生成器。上面提到的所有图像字幕方法均采用cnn最后卷积层的高级视觉特征作为图像编码器,忽略了低级视觉特征,事实上低级视觉特征也有利于理解图像。由于多层特征之间的互补性,采用多层特征融合也可以优化图像字幕,然而,早期融合方法效果并不是很好,如何将多级视觉特征融入图像字幕模型是值得考虑的问题。一般情况下,训练图像字幕模型是通过最大化交叉熵(xe)来实现的,这使得图像字幕模型对异常字幕比较敏感,而不是围绕人类对合适字幕的共识进行优化以获得稳定的输出。此外,通常通过计算测试集上的不同度量来评估字幕模型,例如bleu,rouge,meteor和cider。目标函数与评估度量之间的不匹配会对图像字幕模型造成不利的影响,这个问题可以通过强化学习(rl)来解决,如policygradient和actor-critic。强化学习方法可以优化不可微分的基于序列的评估指标,当使用policygradient方法时,scst的作者应用cider作为奖励,产生更符合人类语言共识的字幕。

在scst中,对每个单词给予相同的奖励作为梯度权重。然而,并不是所有的单词都应该在一个句子中给予同等的奖励,不同的单词可能具有不同的重要性。yu等利用蒙特卡罗推出seqgan来估计每个单词的重要性,然而,它必须产生丰富的句子,这就导致昂贵的时间复杂性。基于actor-critic策略,dzmitrybahdanau等人采用价值评估网络来评估单词,但是评估指标(例如,cider,bleu)无法直接优化。在本文中,提出利用词级奖励来优化基于rl训练的图像字幕模型,旨在解决每个生成单词的不同重要性问题。

将评估度量(例如,cider,bleu)计算为奖励信号是rl训练中直观的方式,以生成更多类似人类语言的字幕,但是,这些评估指标并不是判断生成字幕质量的唯一标准,生成的字幕的质量也可以通过它是否可以在检索系统中检索到相应的标签来评估。从信息利用的角度来看,传统的cider奖励充分利用了匹配的标签信息,而检索奖励则从额外的标签信息中获益,检索损失也可以作为奖励系统来使用。

在本文中,提出了一种图像字幕的分层注意力融合(haf)模型,该模型将resnet的多级特征映射与层次关注集成在一起,充当基于rl的图像字幕方法的基线。此外,在rl阶段呈现多粒度奖励以修改所提出的haf。具体而言,单词重要性重评估网络(ren)通过估算生成字幕中每个单词的不同重要性而被用于奖励重估,其中,用于重评估的奖励是通过加权cider得分来得到的,不同的权重是从ren计算的,重评估的奖励可以被视为词级奖励。为了从额外的标签中获益,实施了标签检索网络(rn)以从一批字幕中检索相应的标签作为检索奖励,其可以被视为句子级奖励。



技术实现要素:

本发明的目的是为了解决在基于强化学习奖励机制的图像字幕生成方法中,每个生成单词的不同重要性问题,从而产生更符合人类语言共识的句子,并不是所有的单词都应该在一个句子中给予同等的奖励,不同的单词可能具有不同的重要性。

本发明为解决上述技术问题采取的技术方案是:

s1.构建多注意力融合模型。

s2.构建基于强化学习奖励机制的单词重要性重评估网络。

s3.结合强化学习奖励机制,构建标签检索网络。

s4.结合s1中的模型、s2中的单词重要性重评估网络和s3中的标签检索网络构建基于多粒度奖励机制的多注意力融合网络架构。

s5.基于多粒度奖励机制的多注意力融合网络的训练和字幕生成。

其中,多注意力融合模型(haf)作为图像字幕rl训练的基线,关注cnn的分层视觉特征,充分利用了多层次的视觉信息,除了利用图像的最后一层卷积表示和采用单个注意力模型在每个时间步骤聚焦于图像的特定区域之外,我们还考虑融合用于字幕的注意力模型,并且输入注意力衍生的图像特征到语言lstm的单元节点。我们采用的是一个经典网络结构,它根据每个时间步t的lstm隐藏状态ht产生归一化注意权重αt。αt用于参与图像特征的不同空间att作为图像的最终表示(a):

αt=softmax(at)(2)

其中,wa,ua,是学习参数。

其中,h2是第二lstm的输出,其由卷积层的图像信息和生成的序列的内容组成。产生h2的过程可以通过以下方式给出:

最后,通过非线性softmax函数给出输出单词的概率:

单词重要性重评估网络基于强化学习奖励机制构建,通过自动估算生成字幕中不同单词的重要性来重新评估基于指标的奖励。首先,ren将生成的句子s作为输入,然后,句子由带有具有注意力网络和平均池化层的rnn处理,词嵌入向量由带有注意力的句子嵌入向量和池化之后的句子嵌入向量连接而成,作为生成字幕的综合表示,然后应用两个全连接层和sigmoid变换获得不同单词的权重wt。特别地,由cider奖励机制预训练的字幕模型(rl-模型)充当基线(b),在不改变预期梯度的情况下显着减小方差。我们将字级奖励wrt构造为16个,因此,只有来自模型的样本优于当前的测试模型(rl-模型)被赋予正权重,而劣质样本被抑制。在数学上,损失函数可以形式化为公式(11):

wrt=rwt+r-b(10)

其中,wi是ren的输出权重,θ是图像字幕网络的参数,表示生成的句子的不同单词。

为了利用基于指标的奖励(cider)并约束句子空间,在cider优化之后,采用词级奖励来微调字幕网络,此外,为了同时优化ren,我们将ren的更新定义为具有奖励r-b的另一个rl过程。我们观察到r-b太小而导致ren的梯度较弱,因此设置超参数γ以增强梯度,类似地,可以通过强化学习算法通过以下损失函数更新ren:

标签检索网络(rn)也是基于强化学习奖励机制构建,为了增强基于指标的奖励(cider)并利用标签和其他未匹配的标签,引入了标签检索网络,使得生成的字幕应该与其相应的标签相匹配。按照fartashfaghri等人提出的称为跨媒体检索的方法,我们重构了一个带有两个lstm网络的句子检索模型,首先,rn由图像的不同标签预先训练至收敛,因为每个图像具有五个不同的标签,我们编码标签并在rn的相同嵌入空间中为特征生成字幕:

si=lstm(ci)(13)

gj=lstm(gj)(14)

其中c和g表示生成的字幕和标签,si和gi表示其各自的嵌入特征。计算s和g之间的相似度的余弦相似度:

指定匹配单词对的得分高于任何不匹配单词对的得分,rn的损失是通过铰链损失来计算的:

其中是正确的单词对,而是不正确的。cider的铰链损失在rl训练中充当句子级奖励,这鼓励字幕模型的生成字幕与给定的标签最佳匹配。

公式(17)是用于通过句子级奖励来β优化字幕模型的损失函数,其中β是用于平衡铰链损失和cider的超参数。值得注意的是,检索过程是在每个mini-batch(小批次)中执行的,因为在整个数据集中检索是比较耗时的。

本发明提出的基于多粒度奖励机制的多注意力融合网络包含一个多注意力融合模型(haf)、一个单词重要性重评估网络(ren)和一个标签检索网络(rn)。

最后,所述的基于多粒度奖励机制的多注意力融合网络的训练方法如下:

所有模型都通过交叉熵损失进行预训练,然后进行训练以最大化不同的rl奖励。编码器使用预先训练的resnet-101来获得图像的表示,对于每个图像,我们从resnet中提取conv4和conv5卷积层的输出,它们映射到维度1024的向量作为haf的输入。对于haf,图像特征嵌入维度,lstm隐藏状态和单词嵌入的维度都设置为512。基线模型使用adam优化器在xe目标下训练,初始学习率为10-4。在每个迭代周期,我们评估模型并选择最佳cider作为基线分数。强化训练从第30个迭代周期开始,以优化cider度量,学习率为10-5

在单词级奖励训练阶段,图像字幕模型预先训练了20个迭代周期的cider奖励,以及10个迭代周期的奖励级别奖励。在句子级奖励训练中,rn通过每个img的不同标签预先训练10个迭代周期。其中,单词嵌入和lstm隐藏大小被设置为512并且联合嵌入大小被设置为1024,并且超参数边缘α被设置为0.2。此外,基线(b)的字幕模型使用交叉熵训练30个时期,句子级奖励训练的迭代周期设定为30。

与现有的技术相比,本发明的有益效果是:

1.本发明提出了分层注意力融合(haf)模型作为图像字幕rl训练的基线。haf多次关注cnn的分层视觉特征,能够充分利用多层次的视觉信息。

2.本发明提出了单词重要性重评估网络(ren)用于促进重估奖励计算,其在rl训练阶段期间自动地对句子中生成的单词赋予不同的重要性。

3.本发明提出了标签检索网络(rn)以获得句子级检索奖励。rn会驱使生成的字幕倾向于匹配其相应的标签而不是其他句子。

附图说明

图1为基于多粒度奖励机制的多注意力融合网络结构示意图。

图2为分层注意力融合(haf)模型示意图。

图3为单词重要性重评估网络(ren)结构示意图。

图4为标签检索网络(rn)结构示意图。

图5为基于多粒度奖励机制的多注意力融合网络生成的字幕与自上而下方法生成的字幕、单独使用分层注意力融合模型生成的字幕和真实字幕的对比图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制。

以下结合附图和实施例对本发明做进一步的阐述。

图1为基于多粒度奖励机制的多注意力融合网络结构示意图。如图1所示,分别为句子级奖励和词级奖励,在左侧,通过自适应地重新评估单词的重要性来产生单词级奖励,在右边,句子级奖励由检索损失构成,其中,检索损失由检索相似度s计算得到。

图2为分层注意力融合(haf)模型示意图。如图2所示,表示conv4和conv5的平均特征,x是输入字的one-hot编码,e是词汇表的词嵌入矩阵。我们采用的是一个经典网络结构,它根据每个时间步t的lstm隐藏状态ht产生归一化注意权重αt,αt用于参与图像特征的不同空间att作为图像的最终表示(a):

αt=softmax(at)(2)

其中,wa,ua,是学习参数。

其中,h2是第二lstm的输出,其由卷积层的图像信息和生成的序列的内容组成。产生h2的过程可以通过以下方式给出:

最后,通过非线性softmax函数给出输出字的概率:

图3为单词重要性重评估网络(ren)结构示意图。如图3所示,单词重要性重评估网络嵌入生成的句子并提供奖励权重w,s是sigmoid,rl-model是由cider预训练的字幕模型。首先,ren将生成的句子s作为输入,然后,句子由带有具有注意力网络和平均池化层的rnn处理,词嵌入向量由带有注意力的句子嵌入向量和池化之后的句子嵌入向量连接而成,作为生成字幕的综合表示,然后应用两个全连接层和sigmoid变换获得不同单词的权重wt。在数学上,损失函数可以形式化为11:

wrt=rwt+r-b(10)

其中,wi是ren的输出权重,θ是图像字幕网络的参数,表示生成的句子的不同单词。

为了利用基于指标的奖励(cider)并约束句子空间,在cider优化之后,采用词级奖励来微调字幕网络。此外,为了同时优化ren,我们将ren的更新定义为具有奖励r-b的另一个rl过程。我们观察到r-b太小而导致ren的梯度较弱,因此设置超参数γ以增强梯度。类似地,可以通过强化学习算法通过以下损失函数更新ren:

图4为标签检索网络(rn)结构示意图。如图4所示,通过文本到文本检索,利用标签和未匹配的标签来构成rl训练的句子级奖励,我们编码标签并在rn的相同嵌入空间中为特征生成字幕:

si=lstm(ci)(13)

gj=lstm(gj)(14)

其中c和g表示生成的字幕和标签,si和gi表示其各自的嵌入特征,计算s和g之间的相似度的余弦相似度:

指定匹配的单词对的得分高于任何不匹配的单词对的得分,rn的损失是通过铰链损失来计算的:

其中是正确的单词对,而是不正确的单词对。cider的铰链损失在rl训练中充当句子级奖励,这鼓励字幕模型的生成字幕与给定的标签最佳匹配。

公式(17)是用于通过句子级奖励来β优化字幕模型的损失函数,其中β是用于平衡铰链损失和cider的超参数,值得注意的是,检索过程是在每个mini-batch(小批次)中执行的,因为在整个数据集中检索是比较耗时的。

图5为基于多粒度奖励机制的多注意力融合网络生成的字幕与自上而下方法生成的字幕、单独使用分层注意力融合模型生成的字幕和真实字幕的对比图。如图5所示,基于多粒度奖励机制的多注意力融合网络生成的句子要比图中其他模型更加准确以及人性化。

本发明提出了基于强化学习奖励机制的单词重要性重评估网络和标签检索网络,并在此基础上提出了基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法,该网络框架包含一个多注意力融合模型(haf)、一个单词重要性重评估网络(ren)和一个标签检索网络(rn)。本发明提出了分层注意力融合(haf)模型作为图像字幕rl训练的基线,haf多次关注cnn的分层视觉特征,能够充分利用多层次的视觉信息,同时,单词重要性重评估网络(ren)用于促进重估奖励计算,其在rl训练阶段期间自动地对句子中生成的单词赋予不同的重要性。标签检索网络(rn)鼓励生成的字幕匹配其相应的标签而不是其他句子。通过训练使得生成的图像字幕表达准确流畅,能够很好的反应图像中的内容。

最后,本发明的上述示例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1