一种图像字幕生成方法、装置、设备及可读存储介质

文档序号：30216796发布日期：2022-05-31 17:29阅读：来源：国知局

技术特征：
1.一种图像字幕生成方法，其特征在于，包括：利用循环卷积神经网络对接收到的待生成字幕的目标图像进行特征提取，得到原始图像特征集合；将所述原始图像特征集合发送至序列化变化器模型，以利用所述序列化变化器模型中的序列化变化器编码器对所述原始图像特征集合进行编码操作，得到编码后图像特征集合；获取序列记忆模型的当前时间步记忆体、所述序列化变化器模型中的序列化变化器解码器的当前时间步输出词向量；结合所述原始图像特征集合、所述当前时间步记忆体、所述当前时间步输出词向量，确定所述序列记忆模型中长短期记忆网络的目标状态变量；利用所述序列记忆模型基于所述目标状态变量对所述原始图像特征集合进行注意力调整，得到注意力调整后特征；将所述注意力调整后特征和所述目标状态变量输入所述序列记忆模型中的门控线性单元，得到所述序列记忆模型输出的目标记忆体；将所述编码后图像特征集合、所述当前时间步记忆体以及所述当前时间步输出词向量输入至所述序列化变化器模型中的序列化变化器解码器，得到所述序列化变化器解码器的目标解码器输出；对所述目标记忆体和所述目标解码器输出进行加权求和，并利用分类器根据所述加权求和结果确定预设词典中各词语分别对应的预测概率；将各所述预测概率中最大值对应的词语确定为目标词语，并将所述目标词语的词向量确定为目标输出词向量；将所述目标状态变量确定为当前状态变量，将所述目标记忆体确定为当前时间步记忆体，并将所述目标输出词向量确定为当前时间步输出词向量，重复执行所述结合所述原始图像特征集合、所述当前时间步记忆体、所述当前时间步输出词向量，确定所述长短期记忆网络的目标状态变量的步骤，直至检测到停止标志；将各所述目标词语进行串联组合，得到所述目标图像对应的目标字幕。2.根据权利要求1所述的图像字幕生成方法，其特征在于，结合所述原始图像特征集合、所述当前时间步记忆体、所述当前时间步输出词向量，确定所述序列记忆模型中长短期记忆网络的目标状态变量，包括：计算所述原始图像特征集合的平均池化；对所述平均池化和所述当前时间步记忆体进行求和计算，得到融合向量；对所述当前时间步输出词向量和所述融合向量进行向量拼接，得到拼接向量；将所述拼接向量输入至所述长短期记忆网络，得到所述长短期记忆网络的目标状态变量；重复执行所述结合所述原始图像特征集合、所述当前时间步记忆体、所述当前时间步输出词向量，确定所述长短期记忆网络的目标状态变量的步骤，包括：重复执行所述对所述平均池化和所述当前时间步记忆体进行求和计算，得到融合向量的步骤。3.根据权利要求1所述的图像字幕生成方法，其特征在于，利用所述序列化变化器模型
中的序列化变化器编码器对所述原始图像特征集合进行编码操作，包括：利用所述序列化变化器编码器的多头自注意力机制和全连接前馈网络对所述原始图像特征集合进行编码操作。4.根据权利要求1所述的图像字幕生成方法，其特征在于，将所述编码后图像特征集合、所述当前时间步记忆体以及所述当前时间步输出词向量输入至所述序列化变化器模型中的序列化变化器解码器，得到所述序列化变化器解码器的目标解码器输出，包括：将所述编码后图像特征集合、所述当前时间步记忆体以及所述当前时间步输出词向量输入至包含多头自注意力机制和全连接前馈网络的序列化变化器解码器，得到所述序列化变化器解码器的目标解码器输出。5.一种图像字幕生成装置，其特征在于，包括：特征提取模块，用于利用循环卷积神经网络对接收到的待生成字幕的目标图像进行特征提取，得到原始图像特征集合；编码模块，用于将所述原始图像特征集合发送至序列化变化器模型，以利用所述序列化变化器模型中的序列化变化器编码器对所述原始图像特征集合进行编码操作，得到编码后图像特征集合；记忆体及词向量获取模块，用于获取序列记忆模型的当前时间步记忆体、所述序列化变化器模型中的序列化变化器解码器的当前时间步输出词向量；状态变量确定模块，用于结合所述原始图像特征集合、所述当前时间步记忆体、所述当前时间步输出词向量，确定所述序列记忆模型中长短期记忆网络的目标状态变量；注意力调整模块，用于利用所述序列记忆模型基于所述目标状态变量对所述原始图像特征集合进行注意力调整，得到注意力调整后特征；记忆体获得模块，用于将所述注意力调整后特征和所述目标状态变量输入所述序列记忆模型中的门控线性单元，得到所述序列记忆模型输出的目标记忆体；解码器输出获得模块，用于将所述编码后图像特征集合、所述当前时间步记忆体以及所述当前时间步输出词向量输入至所述序列化变化器模型中的序列化变化器解码器，得到所述序列化变化器解码器的目标解码器输出；预测概率确定模块，用于对所述目标记忆体和所述目标解码器输出进行加权求和，并利用分类器根据所述加权求和结果确定预设词典中各词语分别对应的预测概率；输出词向量确定模块，用于将各所述预测概率中最大值对应的词语确定为目标词语，并将所述目标词语的词向量确定为目标输出词向量；重复执行模块，用于将所述目标状态变量确定为当前状态变量，将所述目标记忆体确定为当前时间步记忆体，并将所述目标输出词向量确定为当前时间步输出词向量，重复执行所述结合所述原始图像特征集合、所述当前时间步记忆体、所述当前时间步输出词向量，确定所述长短期记忆网络的目标状态变量的步骤，直至检测到停止标志；字幕获得模块，用于将各所述目标词语进行串联组合，得到所述目标图像对应的目标字幕。6.根据权利要求5所述的图像字幕生成装置，其特征在于，所述状态变量确定模块包括：平均池化计算子模块，用于计算所述原始图像特征集合的平均池化；
融合向量获得子模块，用于对所述平均池化和所述当前时间步记忆体进行求和计算，得到融合向量；向量拼接子模块，用于对所述当前时间步输出词向量和所述融合向量进行向量拼接，得到拼接向量；状态变量获得子模块，用于将所述拼接向量输入至所述长短期记忆网络，得到所述长短期记忆网络的目标状态变量；重复执行模块具体为重复执行所述对所述平均池化和所述当前时间步记忆体进行求和计算，得到融合向量的步骤的模块。7.根据权利要求5所述的图像字幕生成装置，其特征在于，所述编码模块具体为利用所述序列化变化器编码器的多头自注意力机制和全连接前馈网络对所述原始图像特征集合进行编码操作的模块。8.根据权利要求5所述的图像字幕生成装置，其特征在于，所述解码器输出获得模块具体为将所述编码后图像特征集合、所述当前时间步记忆体以及所述当前时间步输出词向量输入至包含多头自注意力机制和全连接前馈网络的序列化变化器解码器，得到所述序列化变化器解码器的目标解码器输出的模块。9.一种图像字幕生成设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述图像字幕生成方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述图像字幕生成方法的步骤。

技术总结
本发明公开了一种图像字幕生成方法，包括：利用循环卷积神经网络对目标图像进行特征提取，得到原始图像特征集合并发送至序列化变化器模型的序列化变化器编码器进行编码；基于长短期记忆网络的目标状态变量对原始图像特征集合进行注意力调整，将注意力调整后特征和目标状态变量输入门控线性单元，得到目标记忆体；将编码后图像特征集合、当前时间步记忆体以及当前时间步输出词向量输入至序列化变化器解码器，对得到的目标解码器输出和目标记忆体进行加权求和，根据各时间步的加权求和结果生成目标字幕。本发明能够根据外部状态来识别最有关联的区域，较大地提高了图像字幕生成准确度。本发明还公开了一种装置、设备及存储介质，具有相应技术效果。具有相应技术效果。具有相应技术效果。

技术研发人员：史海涛张骏温边玲燕魏燚伟韩昊天
受保护的技术使用者：中国石油大学（北京）
技术研发日：2022.02.28
技术公布日：2022/5/30

完整全部详细技术资料下载

当前第2页1 2