用于图像描述模型的奖赏的确定方法及电子设备与流程

文档序号：18450471发布日期：2019-08-17 01:13阅读：210来源：国知局

本发明涉及图像描述技术领域，具体涉及用于图像描述模型的奖赏的确定方法及电子设备。

背景技术：

图像描述这一任务是日常生活中的常见任务。其目的是根据图像的内容生成一句描述图像内容的符合语法规则的自然语言描述。这一任务在现实生活中可以应用于儿童早教，导航引导等方面。

计算机视觉和自然语言处理的交叉领域是人工智能的两大领域，虽然这两个领域都有采用类似于的人工智能和机器学习的方法进行领域研究，但两个领域间的交互还很少。然而，近年来，自然语言处理和计算机视觉领域在分析和生成文本以及理解图像和视频方面取得了巨大的进步。图像描述作为计算机视觉和自然语言处理的交叉领域，近年来取得了显著的进展。

目前有很多方法模型被提出来解决图像描述的问题，然而现有的利用现有的方法模型所得到的生成描述的通常过于死板的句子，由一些最常见的单词/短语组成，从而导致不准确和难以区分的描述。

发明人通过研究发现，导致上述问题的原因在于，基本事实题注的单词分布不均匀，这鼓励了高频率的短语的生成，同时抑制了频率较低但更具体的短语。

技术实现要素：

有鉴于此，本发明实施例提供了一种用于图像描述模型的奖赏的确定方法及电子设备，以解决图像描述的准确性偏低的问题。

根据第一方面，本发明实施例提供了一种用于图像描述模型的奖赏的确定方法，包括：

获取测试图像的标签描述以及预设图像描述模型基于所述测试图像的生成描述；

基于所述测试图像及其生成描述，确定测试图像与所述生成描述的相关性；

在训练集中提取所述测试图像的全局最相似图像；

计算所述测试图像相对于所述全局最相似图像与所述生成描述的相关性差值，以确定第一全局奖赏；

基于所述第一全局奖赏以及所述n元组的奖赏，更新所述生成描述中的每个单词的奖赏。

本发明实施例提供的用于图像描述模型的奖赏的确定方法，通过计算得到的第一全局奖赏表示全局判别性的约束项，该约束项会使得测试图像与全局最相似图像之间的描述具有区分性与判别性。该第一全局奖赏能够使得生成描述与相应的图像更加匹配，同时与其他相似图像的相关性减小，进一步提高了图像描述的准确性。

结合第一方面，在第一方面第二实施方式中，采用如下公式计算所述第一全局奖赏：

式中，[x]+＝max(x，0)；

其中，为所述第一全局奖赏；ig为所述全局最相似图像；i为所述测试图像；为所述测试图像的生成描述；为所述全局最相似图像与所述生成描述的相关性；为所述测试图像与所述测试图像的生成描述的相关性；ε为常数。

结合第一方面，在第一方面第三实施方式中，所述基于所述第一全局奖赏以及所述奖赏待提升的单词的奖赏，更新所述生成描述中的每个单词的奖赏，还包括：

在所述训练集中提取预设数量的图像，以得到批量图像；

从所述批量图像中获取所述测试图像的批量最相似图像以及所述批量最相似图像的生成描述；

根据所述测试图像及其生成描述、所述批量最相似图像及其生成描述，计算第二全局奖赏；

计算所述第一全局奖赏以及第二全局奖赏之和，以得到全局奖赏；

利用所述全局奖赏以及所述奖赏待提升的单词的奖赏，更新所述生成描述中的每个单词的奖赏；其中，更新后的所述每个单词的奖赏为所述全局奖赏与对应的所述n元组的奖赏之和。

本发明实施例提供的用于图像描述模型的奖赏的确定方法，在第一全局奖赏的基础上，结合批量最相似图像及其生成描述，得到第二全局奖赏，以进一步鼓励生成的描述比其他类似的图像更好地描述相应的图像，同时与其他相似图像的相关性减小。

结合第一方面第二实施方式，在第一方面第三实施方式中，所述根据所述测试图像及其生成描述、所述批量最相似图像及其生成描述，计算第二全局奖赏，包括：

计算所述测试图像对比于所述批量最相似图像与所述测试图像的生成描述的相关性差值，以得到第一相关性差值；

计算所述测试图像的生成描述对比于所述批量最相似图像的生成描述与所述测试图像的相关性差值，以得到第二相关性差值；

基于所述第一相关性差值以及所述第二相关性差值确定第二全局奖赏。

结合第一方面第三实施方式，在第一方面第四实施方式中，采用如下公式计算所述第二全局奖赏：

式中，[x]+＝max(x,0)；

其中，为所述第二全局奖赏；r1为所述第一相关性差值；r2为所述第二相关性差值；i为所述测试图像；i'为所述批量最相似图像；c'为所述批量最相似图像的生成描述；为所述测试图像的生成描述；s(i,c')为所述测试图像与所述批量最相似图像的生成描述的相关性；为所述测试图像与所述测试图像的生成描述的相关性；为所述批量最相似图像与所述测试图像的生成描述的相关性。

结合第一方面，或第一方面第一实施方式至第一方面第四实施方式中任一项，在第一方面第五实施方式中，还包括：

所述根据所述第一全局奖赏以及所述n元组的奖赏，更新所述生成描述中的每个单词的奖赏的步骤之后，还包括：

比较所述n元组的奖赏与第一阈值的大小关系以及所述n元组中每个单词的奖赏与第二阈值的大小关系，以筛选出所述生成描述中的奖赏待提升的单词；

根据所述标签描述以及与所述奖赏待提升的单词对应的所述n元组的奖赏，计算所述奖赏待提升的单词的奖赏，以更新所述生成描述中每个单词的奖赏。

本发明实施例提供的用于图像描述模型的奖赏的确定方法，通过对生成描述中的单词进行筛选，得到奖赏待提升的单词，再对奖赏待提升的单词进行奖赏的提升，以更加突出内容敏感的单词。由于具体翔实的单词/短语仅仅描述了某些特定图像的一些清晰和详细的内容，使得其通常出现的频率较低，通过对不太频繁出现的单词给予更高的奖励来实现其约束，可以很好地解决不均匀的单词分布问题，并有助于捕捉图像的更具体的视觉细节，以提高图像描述的准确性。

结合第一方面第五实施方式，在第一方面第六实施方式中，所述比较所述n元组的奖赏与第一阈值以及所述n元组中每个单词的奖赏与第二阈值的大小关系，以筛选出所述生成描述中的奖赏待提升的单词，包括：

依次判断各个所述n元组的奖赏是否大于所述第一阈值；

当所述n元组的奖赏大于所述第一阈值时，利用所述标签描述计算所述n元组中每个单词的奖赏；

依次判断各个所述单词的奖赏是否大于所述第二阈值；

当所述单词的奖赏大于所述第二阈值时，确定所述单词为从所述生成描述中除所述奖赏待提升的单词以外的单词。

本发明实施例提供的用于图像描述模型的奖赏的确定方法，通过在n元组筛选的基础上在进行单词的筛选，能够得到出现频率较高但是其是句子组成的额基本架构的单词，这些单词并不能体现图像显著性的信息，这些单词的奖赏不需要提升，因此通过对不能体现图像显著性的单词的筛选即可得到奖赏待提升的单词，提高了筛选的准确性。

结合第一方面第五实施方式，在第一方面第七实施方式中，所述根据所述标签描述以及与所述奖赏待提升的单词对应的所述n元组的奖赏，计算所述奖赏待提升的单词的奖赏，以更新所述生成描述中每个单词的奖赏，包括：

提取与所述奖赏待提升的单词对应的所述n元组的奖赏；

利用所述标签描述以及提取出的所述n元组的奖赏，计算所述奖赏待提升的单词的奖赏；

更新所述生成描述中每个单词的奖赏。

结合第一方面第七实施方式，在第一方面第八实施方式中，采用如下公式计算所述生成描述中n元组的奖赏：

其中，c为所述生成描述；ω为所述n元组；ω为所述生成描述中所有单词的结合；nω(c)为n元组ω在所述生成描述中出现的次数；l为训练集中所有的图像；ip为所述训练集中图像；spq为训练集中图像ip的第q个标签描述。

结合第一方面第八实施方式，在第一方面第九实施方式中，采用如下公式计算所述奖赏待提升的单词的奖赏：

其中，为所述奖赏待提升的单词，ωk为与所述奖赏待提升的单词对应的n元组；j为所述标签描述的数量；为所述生成描述中ωk的奖赏；sj为所述测试图像的第j个标签描述；为第j个标签描述中ωk的奖赏。

根据第二方面，本发明实施例还提供了一种图像描述模型的构建方法，包括：

获取预设图像描述模型；

获取所述预设图像描述模型基于测试图像的生成描述；

根据上述第一方面，或第一方面任一项实施方式中所述的用于图像描述模型的奖赏的确定方法，确定所述测试图像的生成描述中每个单词的奖赏；

利用所述每个单词的奖赏计算所述生成描述的奖赏的梯度；

基于计算出的所述奖赏的梯度对对所述预设图像描述模型进行优化，以得到所述图像描述模型；其中，所述优化中的策略梯度的基准为所述测试图像的生成描述中每个单词的奖赏。

本发明实施例提供的图像描述模型的构建方法，基于策略梯度的强化学习优化学习算法，结合两个约束项的奖赏以生成有区别的描述，同时提高描述的准确性。

结合第二方面，在第二方面第一实施方式中，采用如下公式计算所述生成描述的奖赏的梯度：

其中，m为批量图像的大小；t为所述生成描述的长度；为批量中第m个采样句子第t时刻的单词s；为批量中第m个采样句子第t时刻的单词b；pθ为当前时刻图像描述模型的单词分布；r(x)为单词x的奖赏。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的图像描述中奖赏的构建方法，或，执行第二方面或者第二方面额任意一种实施方式中所述的图像描述模型的构建方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的图像描述中奖赏的构建方法，或，执行第二方面或者第二方面额任意一种实施方式中所述的图像描述模型的构建方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图；

图2是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图；

图3是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图；

图4是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图；

图5a-图5c是根据本发明实施例的用于图像描述模型的奖赏的确定方法的结构图；

图6是根据本发明实施例的图像描述模型的构建方法的流程图；

图7是根据本发明实施例的用于图像描述模型的奖赏的确定装置的结构框图；

图8是根据本发明实施例的图像描述模型的构建装置的结构框图；

图9是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为清楚描述本发明实施例，对本发明实施例中所涉及到的部分名词解释如下：

(1)训练集：若干图像的集合，每个图像都对应有一定数量的标签描述；例如，训练集中的每个图像都对应有5个标签描述；

(2)批量图像：训练集中一定数量图像的集合；例如，训练集中共有1280幅图像，批量图像为128幅图像的集合；

(3)图像描述模型：输入为图像，输出为生成描述，即将图像转换为文字描述的模型；

(4)图像与描述的相关性模型：用于衡量图像与描述之间的关联性的模型。

(5)n元组：生成描述中n个单词的集合。

根据本发明实施例，提供了一种用于图像描述模型的奖赏的确定方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种用于图像描述模型的奖赏的确定方法，可用于上述的电子设备，如手机、平板电脑等，图1是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图，如图1所示，该流程包括如下步骤：

s11，获取测试图像的标签描述以及预设图像描述模型基于测试图像的生成描述。

预设图像描述模型是指当前正在训练的图像描述模型，将测试图像输入至该预设图像描述模型即可得到对应于其的生成描述。电子设备在提取测试图像的同时，也提取出测试图像对应的标签描述，以用于后续奖赏的构建。

具体地，电子设备获取标签描述以及生成描述的目的在于：通过预设图像描述模型的生成描述与标签描述进行对比，能够估计预设图像描述模型的性能，以提供不同的奖赏对该预设图像描述模型进行性能的提升。

s12，基于测试图像及其生成描述，确定测试图像与生成描述的相关性。

对于测试图像与生成描述的相关性是利用图像与描述的相关性模型计算得到的，而图像与描述的相关性模型可以是实现训练得到并保存在电子设备中的，也可以是在需要进行相关性计算时，在进行训练得到的。在此对图像与描述的相关性模型的并不做任何限定，只需保证其能够在需要进行相关性计算时，能够计算得到图像与描述的相关性即可。

电子设备可以利用图像与描述的相关性模型计算得到测试图像与生成描述的相关性。

s13，在训练集中提取测试图像的全局最相似图像。

电子设备可以通过提取训练集中各个图像的特征向量，并利用欧式距离或余弦距离的方式，在训练集中提取出与测试图像最相似的图像，即全局最相似图像。

s14，计算测试图像相对于全局最相似图像与生成描述的相关性差值，以确定第一全局奖赏。

电子设备再次利用图像与描述的相关性模型计算全局最相似图像与生成描述的相关性，然后再计算s35中得到的相关性，与全局最相似图像与生成描述的相关性的差值，即得到第一全局奖赏。

s15，基于标签描述以及生成描述，计算生成描述中n元组的奖赏。

电子设备可以对生成描述进行n元组的划分，其中n的确定可以根据实际情况进行具体设置，例如，可以是2，可以是3等等，在此对n的数值具体并不做任何限制。

在对生成描述划分出n元组之后，电子设备利用测试图像对应的生成描述以及标签描述，计算生成描述中每个n元组的奖赏。其中，n元组的奖赏可以采用tf-idf计算，也可以采用其他方式计算得到，只需保证n元组的奖赏是基于生成描述以及标签描述得到的即可。

s16，基于第一全局奖赏以及n元组的奖赏，更新生成描述中的每个单词的奖赏。

将s14中得到的第一全局奖赏赋予到生成描述中的所有单词上，即生成描述中的每个单词的奖赏可以表示为：s14中计算得到的第一全局奖赏+对应的n元组的奖赏。

本实施例提供的用于图像描述模型的奖赏的确定方法，通过计算得到的第一全局奖赏表示全局判别性的约束项，该约束项会使得测试图像与全局最相似图像之间的描述具有区分性与判别性。该第一全局奖赏能够使得生成描述与相应的图像更加匹配，同时与其他相似图像的相关性减小，进一步提高了图像描述的准确性。

在本实施例中提供了一种用于图像描述模型的奖赏的确定方法，可用于上述的电子设备，如手机、平板电脑等，图2是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图，如图2所示，该流程包括如下步骤：

s21，获取测试图像的标签描述以及预设图像描述模型基于测试图像的生成描述。

详细请参见图1所示实施例的s11，在此不再赘述。

s22，基于测试图像及其生成描述，确定测试图像与生成描述的相关性。

详细请参见图1所示实施例的s12，在此不再赘述。

s23，在训练集中提取测试图像的全局最相似图像。

详细请参见图1所示实施例的s13，在此不再赘述。

s24，计算测试图像相对于全局最相似图像与生成描述的相关性差值，以确定第一全局奖赏。

具体地，采用如下公式计算所述第一全局奖赏：

式中，[x]+＝max(x,0)；

s25，基于标签描述以及生成描述，计算生成描述中n元组的奖赏。

详细请参见图1所示实施例的s15，在此不再赘述。

s26，基于第一全局奖赏以及n元组的奖赏，更新生成描述中的每个单词的奖赏。

电子设备在计算得到第一全局奖赏之后，可以从训练集中提取批量图像，以防止陷入全局最优。具体地，包括以下步骤：

s261，在训练集中提取预设数量的图像，以得到批量图像。

例如，训练集中共有1280幅图像，每次提取128幅图像得到批量图像，需要总共进行10次提取，以遍历训练集中的所有图像。在下文中仅以一次批量图像的处理为例，进行详细描述的，其余批量图像的处理全都类似。

s262，从批量图像中获取测试图像的批量最相似图像以及批量最相似图像的生成描述。

电子设备可以利用与s23相同的方式从批量图像中获取测试图像的批量最相似图像，即从128幅图像中提取与测试图像最相似的图像，即为所述的批量最相似图像。

电子设备在进行批量最相似图像的提取时，同时也可以获取到该批量最相似图像的生成描述。

s263，根据测试图像及其生成描述、批量最相似图像及其生成描述，计算第二全局奖赏。

其中，第二全局奖赏的目的是为了拉远测试图像的生成描述与批量最相似图像的相关性，因此可以利用测试图像及其生成描述，以及，批量最相似图像及其生成描述进行第二全局奖赏的计算。具体地，可以采用如下步骤：

(1)计算测试图像对比于批量最相似图像与测试图像的生成描述的相关性差值，以得到第一相关性差值。

具体地，可以采用如下公式计算第一相关性差值：

其中，r1为所述第一相关性差值；i为所述测试图像；c'为所述批量最相似图像的生成描述；为所述测试图像的生成描述；s(i,c')为所述测试图像与所述批量最相似图像的生成描述的相关性；为所述测试图像与所述测试图像的生成描述的相关性。

(2)计算测试图像的生成描述对比于批量最相似图像的生成描述与测试图像的相关性差值，以得到第二相关性差值。

具体地，可以采用如下公式计算第二相关性差值：

其中，r2为所述第二相关性差值；为所述批量最相似图像与所述测试图像的生成描述的相关性；为所述测试图像与所述测试图像的生成描述的相关性。

(3)基于第一相关性差值以及第二相关性差值确定第二全局奖赏。

具体地，采用如下公式计算第二全局奖赏：

其中，为所述第二全局奖赏；r1为所述第一相关性差值；r2为所述第二相关性差值。

s264，计算第一全局奖赏以及第二全局奖赏之和，以得到全局奖赏。

具体地，全局奖赏可以采用如下公式计算：

s265，利用全局奖赏以及n元组的奖赏，更新生成描述中的每个单词的奖赏。

其中，更新后的每个单词的奖赏为全局奖赏与对应的n元组的奖赏之和。

本实施例提供的用于图像描述模型的奖赏的确定方法，通过两个约束条件得到每个单词的奖赏：即内容敏感的约束项以及全局判别性的约束项，使得在后续的强化学习的优化中，对图像的内容更加敏感；且使得测试图像与其他相似图像之间的描述具有区分性与判别性，进一步提高了图像描述的准确性。

在本实施例中提供了一种用于图像描述模型的奖赏的确定方法，可用于上述的电子设备，如手机、平板电脑等，图3是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图，如图3所示，该流程包括如下步骤：

s31，获取测试图像的标签描述以及预设图像描述模型基于测试图像的生成描述。

详细请参见图2所示实施例的s21，在此不再赘述。

s32，基于测试图像及其生成描述，确定测试图像与生成描述的相关性。

详细请参见图2所示实施例的s22，在此不再赘述。

s33，在训练集中提取测试图像的全局最相似图像。

详细请参见图2所示实施例的s23，在此不再赘述。

s34，计算测试图像相对于全局最相似图像与生成描述的相关性差值，以确定第一全局奖赏。

详细请参见图2所示实施例的s24，在此不再赘述。

s35，基于标签描述以及生成描述，计算生成描述中n元组的奖赏。

详细请参见图2所示实施例的s25，在此不再赘述。

s36，基于第一全局奖赏以及n元组的奖赏，更新生成描述中的每个单词的奖赏。

详细请参见图2所示实施例的s26，在此不再赘述。

s37，比较n元组的奖赏与第一阈值的大小关系以及n元组中每个单词的奖赏与第二阈值的大小关系，以筛选出生成描述中的奖赏待提升的单词。

电子设备在计算得到生成描述中每个n元组的奖赏之后，可以计算每个n元组中每个单词的奖赏，然后在依次利用第一阈值以及第二阈值分别与n元组的奖赏以及单词的奖赏进行大小比较，筛选出生成描述中出现频率较高的单词。

由于在具体的描述中，具体翔实单词或短语通常出现的频率较低，而出现频率较高的单词往往是句子的基本构成项，例如“a”、“the”等等。通过两次阈值比较，从生成描述中筛选出出现频率不太高的单词，即奖赏待提升的单词。

s38，根据标签描述以及与奖赏待提升的单词对应的n元组的奖赏，计算奖赏待提升的单词的奖赏，以更新生成描述中每个单词的奖赏。

电子设备通过对奖赏待提升的单词的奖赏进行奖赏的提升，而其余单词的奖赏保持不变，具体为对应地n元组的奖赏。

其中，标签描述是与测试图像对应的，可以认为是标准的描述；同时，由于奖赏待提升的单词是存在于与其对应的n元组的。因此，在对奖赏待提升的单词的奖赏的计算时，利用测试图像的标签描述以及与奖赏待提升的单词对应的n元组的奖赏，能够保证计算得到的奖赏在与标签描述紧密相关的前提下，对奖赏待提升的单词的奖赏进行提升。

对于更新生成描述中每个单词的奖赏而言，其中单词分为两种类型：

(1)奖赏待提升的单词：其奖赏为全局奖赏与s38中计算得到的奖赏待提升的单词的奖赏之和；

(2)生成描述中除奖赏待提升的单词以外的单词：其奖赏全局奖赏与与单词对应的n元组的奖赏之和。

本实施例提供的用于图像描述模型的奖赏的确定方法，通过对生成描述中的单词进行筛选，得到奖赏待提升的单词，再对奖赏待提升的单词进行奖赏的提升，以更加突出内容敏感的单词。由于具体翔实的单词/短语仅仅描述了某些特定图像的一些清晰和详细的内容，使得其通常出现的频率较低，通过对不太频繁出现的单词给予更高的奖励来实现其约束，可以很好地解决不均匀的单词分布问题，并有助于捕捉图像的更具体的视觉细节，以提高图像描述的准确性。

在本实施例中还提供了一种用于图像描述模型的奖赏的确定方法，可用于上述的电子设备，如手机、平板电脑等，图4是根据本发明实施例的用于图像描述模型的奖赏的确定方法的流程图，如图4所示，该流程包括如下步骤：

s41，获取测试图像的标签描述以及预设图像描述模型基于测试图像的生成描述。

详细请参见图3所示实施例的s31，在此不再赘述。

s42，基于测试图像及其生成描述，确定测试图像与生成描述的相关性。

详细请参见图3所示实施例的s32，在此不再赘述。

s43，在训练集中提取测试图像的全局最相似图像。

详细请参见图3所示实施例的s33，在此不再赘述。

s44，计算测试图像相对于全局最相似图像与生成描述的相关性差值，以确定第一全局奖赏。

详细请参见图3所示实施例的s34，在此不再赘述。

s45，基于标签描述以及生成描述，计算生成描述中n元组的奖赏。

电子设备利用tf-idf得分计算生成描述中每个n元组的奖赏，具体地，采用如下公式计算生成描述中n元组的奖赏：

s46，基于第一全局奖赏以及n元组的奖赏，更新生成描述中的每个单词的奖赏。

详细请参见图3所示实施例的s36，在此不再赘述。

s47，比较n元组的奖赏与第一阈值的大小关系以及n元组中每个单词的奖赏与第二阈值的大小关系，以筛选出生成描述中的奖赏待提升的单词。

由于采用tf-idf计算得到的越高，其对应的元组或单词的频率越低，因此通过与第一阈值以及第二阈值的两次阈值比较，即可确定出在生成描述中出现频率不太高的单词，即奖赏待提升的单词。具体地，包括：

s471，依次判断各个n元组的奖赏是否大于第一阈值。

当n元组的奖赏大于第一阈值时，执行s472；否则，执行s471。

例如：生成描述所划分出的n元组共有5组，依次判断每个n元组的奖赏是否大于第一阈值；当n元组的奖赏大于第一阈值时，比较n元组中的每个单词的阈值是否大于第二阈值，以遍历每个n元组中的每个单词；当当前n元组的奖赏小于或等于第一阈值时，对下一n元组的奖赏进行判断，直至所有的n元组遍历结束。

s472，利用标签描述计算n元组中每个单词的奖赏。

电子设备在计算n元组中每个单词的奖赏时，采用与计算n元组的奖赏相同的方式进行，即利用tf-idf计算得到。

s473，依次判断各个单词的奖赏是否大于第二阈值。

当单词的奖赏大于第二阈值时，执行s474；否则，执行s473。

例如，当对某一n元组中的各个单词进行奖赏的判断时，若当前单词的奖赏小于或等于第二阈值，则进行下一个单词的判断，直至该n元组中的所有单词全都判断完毕为止。

s474，确定单词生成描述中的奖赏待提升的单词。

电子设备通过两个阈值的比较，即可在生成描述中确定出奖赏待提升的单词。

s48，根据标签描述以及与奖赏待提升的单词对应的n元组的奖赏，计算奖赏待提升的单词的奖赏，以更新生成描述中每个单词的奖赏。

具体地，包括：

s481，提取与奖赏待提升的单词对应的n元组的奖赏。

电子设备从s45中计算得到的各个n元组的奖赏中，提取出与奖赏待提升的单词对应的n元组的奖赏。例如，可以在s474中确定某单词为生成描述中的奖赏待提升的单词之后，直接提取出与该单词对应的n元组的奖赏，以便于该步骤使用；或者，可以为每个n元组进行编号，在确定某一单词是属于某一n元组时，直接利用编号进行n元组的奖赏的提取即可。

s482，利用标签描述以及提取出的n元组的奖赏，计算奖赏待提升的单词的奖赏。

具体地，采用如下公式计算所述奖赏待提升的单词的奖赏：

s483，更新生成描述中每个单词的奖赏。

具体更新的原则是，当单词为奖赏待提升的单词时，更新后的奖赏为奖赏待提升的单词的奖赏与全局奖赏之和；当单词为生成描述中除奖赏待提升的单词以外的单词时，更新后的奖赏为对应的n元组的奖赏与全局奖赏之和。

本实施例提供的用于图像描述模型的奖赏的确定方法，通过在n元组筛选的基础上在进行单词的筛选，能够得到出现频率较高但是其是句子组成的额基本架构的单词，这些单词并不能体现图像显著性的信息，这些单词的奖赏不需要提升，因此通过对不能体现图像显著性的单词的筛选即可得到奖赏待提升的单词，提高了筛选的准确性。

作为本实施例的一个具体实施方式，图5a-图5c示出了图像描述模型中奖赏构建的过程：

请参见图5a，通过构建一个预设图像描述模型，输入测试图像，即可得到对应的生成描述。

请参见图5b，通过筛选出奖赏待提升的单词，并对这些单词的奖赏进行提升，给予其更高的奖励来实现约束(即，内容敏感的约束项)；例如，原始cider得分为2.61，通过对一些出现频率不太高的单词进行奖赏的提升，即可得到使得各个单词的得分具有相应的差距，以突出具体翔实的单词。

请参见图5c，通过拉近生成描述与测试图像的相关性，拉远生成描述与全局最相似图像的相关性，以及生成描述与批量最相似图像的相关性(即，全局判别性的约束项)，以鼓励生成的描述比其他类似的图像更好地描述相应的图像。具体采用排序损失使得生成的描述与相应图像更加匹配，同时与其他相似图像的相关性减小。

通过实验验证，上述实施例中提供的用于图像描述模型的奖赏的确定方法使得所生成描述在测试集上提高了0.7分，在线上测试集上提高了2.1分。

在本实施例中提供了一种图像描述模型的构建方法，可用于上述的电子设备，如手机、平板电脑等，图6是根据本发明实施例的图像描述模型的构建方法的流程图，如图6所示，该流程包括如下步骤：

s51，获取预设图像描述模型。

预设图像描述模型可以是利用卷积神经网络构建出的，其中的参数可以是根据实际情况进行具体设置的。

s52，获取预设图像描述模型基于测试图像的生成描述。

电子设备将测试图像输入至预设图像描述模型即可得到对应于该测试图像的生成描述。

s53，根据上述任一项实施例中所述的用于图像描述模型的奖赏的确定方法，确定测试图像的生成描述中每个单词的奖赏。

其中，为了减小后续策略梯度算法的误差以及使得训练过程更加稳定，利用另一个生成描述来减小策略梯度方差。

其余详细请参见图1至图4所示实施例中关于用于图像描述模型的奖赏的确定方法的描述，在此不再赘述。

s54，利用每个单词的奖赏计算生成描述的奖赏的梯度。

电子设备在对预设图像描述模型进行训练阶段，采用策略梯度算法来最小化期待奖赏的幅值。

采用如下公式计算生成描述的奖赏的梯度：

s55，基于计算出的奖赏的梯度对预设图像描述模型进行优化，以得到图像描述模型。

其中，所述优化中的策略梯度的基准为测试图像的生成描述中每个单词的奖赏。

具体地，电子设备利用强化学习中策略梯度的方法对预设图像描述模型进行优化，策略梯度的基准为在预设图像描述模型下生成另一个描述的奖赏。进一步地，在策略梯度的优化算法中，需要一个基准来稳定训练过程，平衡训练的方差，此处采用的是预设图像描述模型下生成的另一个描述的奖赏。

本实施例提供的图像描述模型的构建方法，基于策略梯度的强化学习优化学习算法，结合两个约束项的奖赏以生成有区别的描述，同时提高描述的准确性。

在本实施例中还提供了一种用于图像描述模型的奖赏的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种用于图像描述模型的奖赏的确定装置，如图7所示，包括：

第一获取模块71，用于获取测试图像的标签描述以及预设图像描述模型基于所述测试图像的生成描述。

第一确定模块72，用于基于所述测试图像及其生成描述，确定测试图像与所述生成描述的相关性。

提取模块73，用于在训练集中提取所述测试图像的全局最相似图像。

第一计算模块74，用于计算所述测试图像相对于所述全局最相似图像与所述生成描述的相关性差值，以确定第一全局奖赏。

第二计算模块75，用于基于所述标签描述以及所述生成描述，计算所述生成描述中n元组的奖赏。

更新模块76，用于根据所述第一全局奖赏以及所述n元组的奖赏，更新所述生成描述中的每个单词的奖赏。

本实施例提供的用于图像描述模型的奖赏的确定装置，通过计算得到的第一全局奖赏表示全局判别性的约束项，该约束项会使得测试图像与全局最相似图像之间的描述具有区分性与判别性。该第一全局奖赏能够使得生成描述与相应的图像更加匹配，同时与其他相似图像的相关性减小，进一步提高了图像描述的准确性。

本实施例还提供一种图像描述模型的构建装置，如图8所示，包括：

第二获取模块81，用于获取预设图像描述模型。

第三获取模块82，用于获取所述预设图像描述模型基于测试图像的生成描述。

第二确定模块83，用于根据上述实施例中任一项所述的图像描述模型中奖赏的构建的方法，确定所述测试图像的生成描述中每个单词的奖赏。

第三计算模块84，用于利用所述每个单词的奖赏计算所述生成描述的奖赏的梯度。

优化模块85，用于基于计算出的所述奖赏的梯度对所述预设图像描述模型进行优化，以得到所述图像描述模型；其中，所述优化中的策略梯度的基准为所述测试图像的生成描述中每个单词的奖赏。

本实施例提供的图像描述模型的构建装置，基于策略梯度的强化学习优化学习算法，结合两个约束项的奖赏以生成有区别的描述，同时提高描述的准确性。

本实施例中的用于图像描述模型的奖赏的确定装置以及图像描述模型的构建装置是以功能单元的形式来呈现，这里的单元是指asic电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图7所示的用于图像描述模型的奖赏的确定装置，或图8所示的图像描述模型的构建装置。

请参阅图9，图9是本发明可选实施例提供的一种电子设备的结构示意图，如图9所示，该电子设备可以包括：至少一个处理器91，例如cpu(centralprocessingunit，中央处理器)，至少一个通信接口93，存储器94，至少一个通信总线92。其中，通信总线92用于实现这些组件之间的连接通信。其中，通信接口93可以包括显示屏(display)、键盘(keyboard)，可选通信接口93还可以包括标准的有线接口、无线接口。存储器94可以是高速ram存储器(randomaccessmemory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器94可选的还可以是至少一个位于远离前述处理器91的存储装置。其中处理器91可以结合图7或8所描述的装置，存储器94中存储应用程序，且处理器91调用存储器94中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线92可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。通信总线92可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器94可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-accessmemory，缩写：ram)；存储器也可以包括非易失性存储器(英文：non-volatilememory)，例如快闪存储器(英文：flashmemory)，硬盘(英文：harddiskdrive，缩写：hdd)或固态硬盘(英文：solid-statedrive，缩写：ssd)；存储器94还可以包括上述种类的存储器的组合。

其中，处理器91可以是中央处理器(英文：centralprocessingunit，缩写：cpu)，网络处理器(英文：networkprocessor，缩写：np)或者cpu和np的组合。

其中，处理器91还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specificintegratedcircuit，缩写：asic)，可编程逻辑器件(英文：programmablelogicdevice，缩写：pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文：complexprogrammablelogicdevice，缩写：cpld)，现场可编程逻辑门阵列(英文：field-programmablegatearray，缩写：fpga)，通用阵列逻辑(英文：genericarraylogic,缩写：gal)或其任意组合。

可选地，存储器94还用于存储程序指令。处理器91可以调用程序指令，实现如本申请图1至4实施例中所示的用于图像描述模型的奖赏的确定方法，或图6实施例中所示的图像模型的构建方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于图像描述模型的奖赏的确定方法，或图像模型的构建方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)、随机存储记忆体(randomaccessmemory，ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive，缩写：hdd)或固态硬盘(solid-statedrive，ssd)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈添水;吴捷;梁小丹;林倞
技术所有人：暗物智能科技(广州)有限公司
我是此专利的发明人

上一篇：一种充气转接装置的制作方法
上一篇：一种基于船舶的海洋气象监测装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。