基于强化学习和对比学习的图像语义理解及文本生成

文档序号：31335485发布日期：2022-08-31 08:38阅读：来源：国知局

技术特征：
1.基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述方法包括以下步骤：s1.以生成式对抗网络作为从图像生成诗歌的基本框架，生成器负责理解图像内容并生成诗歌，判别器负责判断诗歌的真实性。s2.基于强化学习方法设计古典概念词奖励机制，该奖励会促进生成器创作出符合图像中视觉对象的诗歌。s3.基于强化学习方法设计跨模态特征对齐机制，直接跨模态对齐以减小跨模态特征重构误差为目标，间接跨模态对齐以优化生成器创作诗歌质量为目标。s4.基于对比学习方法设计对比奖励机制，通过采样的潜在代码控制生成器创作诗歌的多样性。s5.基于强化学习和对比学习的模型训练。2.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述s1的具体过程为：模型以生成式对抗网络作为基本框架。总体上，数据集包括一组图像原特征x＝{x1,
…
,x
n
}和一组诗歌y＝{y1,
…
,y
m
}，每首诗歌由n个句子组成，即y＝{l1,l2,
…
,l
n
}，n和m分别是图像的总数和诗歌的总数。图像数据集和诗歌数据集之间没有任何关联。生成器生成的诗歌表示为其中每一句子由t个字符组成，即对于生成器，它主要组成部分是图像特征提取器、诗歌编码器和诗歌解码器。由卷积神经网络cnn提取图像的特征x，再经过图像特征转换器对特征维度做变换以适应诗歌解码器。诗歌编码器通过双向lstm对句子进行编码得到一组隐藏状态，并由句子特征转换器对编码器的输出做变换以适应解码器。特征转换如式(1)和(3)所示：对编码器的输出做变换以适应解码器。特征转换如式(1)和(3)所示：对编码器的输出做变换以适应解码器。特征转换如式(1)和(3)所示：公式(1)中f
img
表示维度转换后的图像特征，即图像特征。公式(2)中表示字符嵌入，表示前向隐藏状态，表示反向隐藏状态，表示编码器隐藏状态。公式(3)中表示编码器输出经转换器处理后的句子特征，即句子特征。为了达到生成器创作多样化的诗歌，使用结合潜在代码和图像特征作为诗歌解码器的初始输入。具体上，诗歌的第一句创作时解码器基于图像特征和潜在代码预测字符，图像特征和潜在代码经过拼接后由跨模态转换器做特征维度变换。并且，对于诗歌接下来的内容，由图像特征和编码器对上一句处理得到的句子特征进行拼接，再做特征维度变化后作为解码器的初始输入。解码器初始输入的跨模态特征由公式(4)和(5)得到。作为解码器的初始输入。解码器初始输入的跨模态特征由公式(4)和(5)得到。
公式(4)中表示诗歌的第一个跨模态特征，z表示从标准高斯分布中随机采样得到的潜在代码。公式(5)中表示诗歌的跨模态特征。诗歌解码器由lstm预测字符。首先解码器lstm的初始输入是跨模态特征和初始状态为零状态s-1
，并且解码器的输出为起始隐藏状态接着解码器的输入为起始字符的嵌入表示和起始隐藏状态为以及注意力机制得到的上下文向量并且解码器的输出为下一个隐藏状态通过重复上述步解码步骤，解码器得到一组的隐藏状态。相关计算如公式(6)、(7)和(8)所示：公式(6)、(7)和(8)所示：公式(6)、(7)和(8)所示：在得到解码器的输入的所有隐藏状态后，由线性层将隐藏状态映射到词汇表，在经过归一化函数计算出词汇表中字符的概率分布，采样函数接下来从概率分布中采样得到字符并最终组成一个完整的句子。相关计算如公式(9)和(10)所示：并最终组成一个完整的句子。相关计算如公式(9)和(10)所示：公式(9)中linear表示线性层，softmax表示归一化函数，是词汇表的概率分布。公式(10)中sample表示的采样函数服从类别分布。对于判别器，由lstm编码生成的诗歌或来诗歌数据集的真实诗歌。判别器需要对输入的诗歌进行判断并预测出真实性概率。计算方法是lstm编码句子并输出每一步的隐藏状态，隐藏状态经过线性层映射为数值，再由激活函数对数值进行归一化得到预测的真实性概率。基于强化学习，将生成诗歌的真实性概率值的对数形式作为生成器的对抗奖励。判别器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示：器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示：器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示：器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示：公式(11)和公式(12)中表示判别器lstm输出的隐藏状态，表示判别器预测的真实性概率。公式(13)中表示生成器的对抗性奖励。公式(14)中表示判别器的对抗性损失。3.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，
其特征在于，所述s2的具体过程为：为了强化生成诗歌和图像之间的一致性，通过设计古典概念词奖励机制优化生成器。具体上，图像由预训练的目标检测器检测出一组视觉对象和置信分数。视觉对象是英文的现代关键词，需要被转换为中文的古典关键词。基于目标检测器的对象字典，制作一个现代-古典概念字典，用于将图像检测出的视觉概念转换为对应的古典概念。古典概念词奖励以生成诗歌中是否具有与图像相同的概念词作为奖励依据，并将视觉对象的置信分数作为奖励值。相关计算如以下公式所示：奖励值。相关计算如以下公式所示：奖励值。相关计算如以下公式所示：公式(15)中o
en
表示图像检测出的视觉对象和置信分数集合，公式(16)中表示一个现代关键词对应的古典关键词集合，公式(17)中r
ti
[con]表示古典概念词奖励。4.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述s3的具体过程为：设计跨模态对齐机制，目的是让生成器从诗歌数据集中学习以提高生成诗歌的质量。因为生成器中的解码器是基于跨模态特征来创作诗歌，为了使得生成器可以学习真实诗歌，需要建立真实诗歌和跨模态特征之间的映射关系。具体上，直接跨模态对齐的目标是使得生成器的跨模态特征和判别器重构的跨模态特征之间进行特征对齐。判别器将生成器创作出的诗歌先进行编码，再经过跨模态特征转换器进行特征维度变换得到重构的跨模态特征，接着与生成器的跨模态特征计算对齐损失。基于跨模态特征对齐，就可以将真实诗歌先由判别器映射为跨模态特征，再由生成器基于跨模态特征创作出诗歌，真实诗歌和生成诗歌之间通过交叉熵损失来提高生成器的创作能力。相关计算公式如下所示：成诗歌之间通过交叉熵损失来提高生成器的创作能力。相关计算公式如下所示：成诗歌之间通过交叉熵损失来提高生成器的创作能力。相关计算公式如下所示：公式(18)中表示跨模态特征对齐损失，公式(19)中表示生成器的跨模态特征奖励，公式(20)中表示生成器诗歌的交叉熵损失。5.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述s4的具体过程为：设计的对比学习方法，目的是让生成器可以个根据潜在代码实现生成诗歌多样化。生成器的解码器的初始跨模态特征是由图像特征和潜在代码拼接而成，也就是解码器创作诗歌主要依赖于图像特征，并受到潜在代码的影响。因为潜在代码是从高斯分布中随机采样
得到，那么由十分接近的潜在代码创作出的诗歌应该是相似的，由差异化的潜在代码创作出的诗歌应该是有区别的。为了指导生成器依据潜在代码实现多样化创作，通过高斯分布中的小超球面进行正负采样，也就是随机采样的潜在代码作为球心，正采样来自球面内部，负采样来自球面外部。生成器基于图像特征和三个潜在代码，分别创作出三首诗歌，并由判别器映射的重构跨模态来度量诗歌之间的差异性。多样化损失目标是减少标准和正采样得到的重构跨模态特征之间差异，并增加标准和正采样得到的重构跨模态特征之间差异。相关的计算公式如下：公式(21)中表示生成器的多样化奖励，ε表示一个常量，sim(a,b)表示向量a和向量b之间的余弦相似度。r表示标准重构跨模态特征r
+
表示正重构跨模态特征r-表示负重构跨模态特征6.根据权利要求1所述的基于强化学习和对比学习的图像语义理解及文本生成方法，其特征在于，所述s5的具体过程为：强化学习针对生成器进行策略梯度计算，其中生成器的奖励包括对抗性奖励、古典概念词奖励、跨模态特征对齐奖励和多样化奖励。除此之外，跨模态间接对齐，也就是交叉熵损失也为生成器提供梯度。判别器的损失包括对抗性损失和跨模态特征对齐损失。相关计算公式如下所示：所示：所示：公式(22)中表示生成器的总奖励，λ
c
、λ
m
和λ
d
表示超参数用于平衡各个奖励项。公式(23)中表示生成器的总损失，b
t
表示基线奖励。公式(24)中表示判别器的总损失。因为诗歌和图像数据集是相互独立的，所以模型从头进行训练具有挑战性，为了使得模型能够以更好的参数开始训练，设计预训练方法对模型参数进行初始化。具体上，生成器的预训练分为两步。第一步制作自动匹配的图像诗歌对数据集，首先，基于现代-古典概念字典统计图像和诗歌中相同的概念，如果图像和诗歌至少具有三个相同概念则认为它们是匹配的。其次，利用现成的同义词扩展工具扩展诗歌的概念词，通过计算图像和诗歌之间在概念上的jaccard系数，如果系数值不小于0.5，则认为两者是匹配的。第二步，基于自动匹配的图像诗歌对数据集，采样交叉熵损失训练生成器。判别器预训练也分为两步，第一步按照间接跨模态特征对齐方法，将真实诗歌输入到判别器得到跨模态特征，再由生成器创作诗歌，采用交叉熵损失训练判别器。第二步，从高斯分布中随机采样伪图像特征，以对抗性目标训练判别器。

技术总结
本发明公开了基于强化学习和对比学习的图像语义理解及文本生成。该任务的挑战在于如何用表达简练而内容丰富的文本准确的描述图像内容。目前的大多数方法是以图像标题来描述图像，而图像标题过于简单的特点导致了存在描述不全面的情况。而目前以诗歌描述图像的新任务又缺乏带标注的数据集。本发明通过诗歌来描述图像内容，利用诗歌表达简练、语义丰富并具有艺术性的特点，结合强化学习和对比学习设计了一种无监督创作多样化诗歌的方法。提出的方法以生成式对抗网络为基本框架，生成器基于图像创作诗歌，判别器预测诗歌的真实性。通过设计的古典概念词奖励机制和跨模态特征对齐机制来强化诗歌与图像的一致性。并设计多样性奖励机制来引导模型创作多样化的诗歌。实验结果证明提出的方法在相互独立的图像和诗歌数据集上训练后，模型能够创作多样化的诗歌来描述图像。图像。

技术研发人员：吴春雷王江楠王雷全胡飞张欢郝宇钦
受保护的技术使用者：中国石油大学（华东）
技术研发日：2022.05.10
技术公布日：2022/8/30

完整全部详细技术资料下载

当前第2页1 2