本发明属于计算机视觉、自然语言处理等领域,具体涉及一种基于文本的图像字幕任务的多模态transformer模型。
背景技术:
1、在日常生活中,人们可以将图像中的场景、色彩、逻辑关系等低层视觉特征信息自动建立关系,从而感知图像的高层语义信息。事实上,我们人类自古就有看图说话的本领,在中高考语文卷英语卷中,也都或多或少存在着看图写作等相关题目。但是计算机作为工具只能提取到数字图像的低层数据特征,而无法像人类大脑一样生成高层语义信息,这就是计算机视觉中的“语义鸿沟”问题。显然,图片认知与描述是人类的创作性活动,如果机器能完成这一任务,能够理解图片含义并尽量准确的生成图片中心句,那将是人工智能的一次很大进步,图像描述技术的本质就是将计算机提取的图像视觉特征转化为高层语义信息,即解决“语义鸿沟”问题,使计算机生成与人类大脑理解相近的对图像的文字描述,从而可以对图像进行分类、检索、分析等处理任务。
2、现在许多图像字幕的研究内容在如火如荼的进行,而现有模型也可以生成较为流利和视觉相关的图像描述,但却存在着与用户交互性差、多样性低等问题。尤其是在现实生活中,图片的复杂度远不止于当前测试合集中的情况,在人类社会生活中,图片更多的是以夹杂文字的形式出现,所以对于图像的描述,很多时候都需要考虑到带有文本的图片如何生成字幕。所以,基于文本的图像字幕任务应运而生。
3、针对基于文本的图像字幕任务,目前的工作取得了很多进展,但他们仍然缺乏对场景的全面理解,产生不准确的描述。主要问题就是场景文本与视觉对象关系推理不足,不能生成一些视觉对象的细粒度描述,以及预测的内容出现重复标题。
技术实现思路
1、本发明的目的在于克服上述不足,提供一种基于文本的图像字幕任务的多模态transformer模型,引入几何特征,结合场景文本和视觉对象关系推理,使用重复掩码,生成更为准确的图像字幕。
2、本发明为一种基于基于文本的图像字幕任务的多模态transformer模型,该模型包括以下几个模块:
3、特征提取模块;
4、特征增强的嵌入模块;
5、生成模块;
6、掩码模块。
7、特征提取模块具体描述如下:
8、基于文本的图像描述任务涉及到两种模态特征即视觉特征和文本特征。使用更快的卷积神经网络(faster-rcnn)获取视觉对象特征,包括2048维视觉特征向量以及一组边界框坐标来表示视觉对象的位置信息;使用rosetta-enocr系统获取ocr令牌的文本区域坐标和视觉特征向量使用fasttext获取ocr令牌的子词特征使用phoc获取ocr令牌的字符特征此时ocr令牌特征的表示是由组合而成,视觉对象特征由和组合而来。
9、特征增强的嵌入模块具体描述如下:
10、作者认为边界框信息不足以实现两种模态的空间信息,为了增强模态特征,作者提出特征增强模块。即在特征提取阶段,引入几何关系,具体来说,将空间关系升级到包含了高度和宽度关系、位置关系、iou关系以及相对角度关系的更强的几何关系。其中高度和宽度关系向量包含两个对象的高度、宽度以及两者的高度宽度差值,距离关系用两个对象的边界框之间的最短距离表示,iou关系包含两个对象的交并比iou以及两对象相交的面积与各自面积的比值。由此,两种模态的特征向量得到了补充,最后再将获取到的所有特征向量投入到生成模块。
11、生成模块具体描述如下:
12、直接使用编码器-解码器架构的多模态transformertransformer应用于前面获取的两种模态的读取输入,迭代使用上一次的输出作为下一次的输入以此预测每个ocr标记和词汇词的得分。同时在生成模块中加入一个重复掩码模块,采用重复掩码,选择每个时间步长的预测词,以避免冗余。
13、与现有模型相比,本发明提出的基于文本的图像字幕任务的多模态transformer模型更能够适应含文本的复杂图像的描述任务,通过已有的算法提取两种模态的不同向量特征,相较于以往的模型更加注意ocr令牌的利用,使用更为先进的算法可以获取到更加准确且丰富的ocr表示;提出的特征增强模块引入高度和宽度关系、位置关系、iou关系以及相对角度关系,改进了先前模型仅依靠边界框信息显示空间位置信息;加入的重复掩码模块也能有效避免预测标题的冗余。
1.一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,提取图像中的两种模态的基本特征,模态提取的具体方法如下:
3.根据权利要求1所述的一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,引入高度和宽度关系的具体方法如下:
4.根据权利要求1所述的一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,引入位置关系的具体方法如下:
5.根据权利要求1所述的一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,引入iou关系的具体方法如下:
6.根据权利要求1所述的一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,引入相对角度关系的具体方法如下:
7.根据权利要求1所述的一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,将将提取的特征进一步增强的具体方法如下:
8.根据权利要求1所述的一种基于文本的图像字幕任务的多模态transformer模型,其特征在于,在生成模块加入掩码模块,最终生成图像描述的具体方法如下: