一种基于主要目标面向场景的文字字幕生成方法

文档序号:32750382发布日期:2022-12-31 00:21阅读:25来源:国知局
一种基于主要目标面向场景的文字字幕生成方法

1.本发明涉及图像描述生成技术领域,更具体的说是涉及一种基于主要目标面向场景的文字字幕生成方法。


背景技术:

2.图像描述生成跨越计算机视觉和自然语言处理两个领域,是现在跨媒体理解中的研究热点之一。然而现有的视觉-语言跨媒体研究中忽略了场景文字这一重要的语义信息和推理线索。自然场景文字的跨模态理解对图像描述生成的应用具有重要学术意义和应用价值。
3.现有的面向场景文字的图像字幕生成方法是大多数基于传统的图像字幕生成模型,在模型的输入端加入根据场景文字检测结果提取的特征,然后融合编码。在这个框架的基础上,后续研究加文字和目标之间的全局场景图,使效果得到了部分提升。但这种方法忽略了场景文字和图像目标之间的交互关系。现实中场景文字主要依附于场景中的某一个主要目标,而与其他目标之间的关联性不高,全局的场景图引入了文字和其他非主要目标的噪声信息,影响了图像字幕生成的准确性。
4.从这一问题出发,本发明提出了一种新的基于主要目标的面向场景文字字幕生成模型,通过优化以场景文字为中心的场景图,来提高图像字幕生成的精确度。在实际应用中,在封装好的数据集中检测每张图像中的场景文字信息和目标信息,根据空间位置关系寻找出场景文字的主要目标。同时对场景文字的检测结果进行聚类来确保文字的完整性。将检测到的文字和目标的特征表示作为图节点,之后使用图卷积网络进行特征增强。同时基于lstm网络,设计了门控机制的自适应的解码部分,并调整视觉特征和场景文字视觉特征的权重。首先,定义了场景文字的主要目标这个概念,从而解决了场景图中冗余和干扰信息的问题。其次,不仅只关注了图像中的物体,也注重了与图像相关的文本所构建的物体之间的关系,字幕生成模型生成的句子对场景文字的描述字幕更加准确。


技术实现要素:

5.有鉴于此,本发明提供了一种基于主要目标面向场景的文字字幕生成方法,达到了去除场景图中冗余和干扰信息的目的。
6.为了实现上述目的,本发明采用如下技术方案:
7.一种基于主要目标面向场景的文字字幕生成方法,具体包括以下步骤:
8.对图像进行预处理得到样本数据,其中,样本数据包括关于m个物体中每个物体的物体区域框坐标、物体视觉特征、物体表征向量,样本数据还包括关于n个文字中每个文字的文字区域框坐标、文字视觉特征、文字表征向量;
9.提取物体区域框坐标和文字区域框坐标,建立两者之间的图关系;
10.图卷积网络模型根据图关系对物体表征向量、文字表征向量进行增强,得到增强特征;
11.将增强特征发送到解码模型进行解码,得到表述图片内容的句子。
12.进一步的,m个物体中m为大于零的正整数,n个文字中n为大于零的正整数。
13.可选的,预处理的步骤包括:
14.使用faster-rcnn网络对图像进行区域特征提取,得到关于m个物体的物体区域框坐标和物体视觉特征,对物体视觉特征通过线性变换、层标准化正则化和relu激活函数处理,得到物体表征向量;
15.通过光学字符识别工具对图像进行特征提取,得到关于n个文字的文字区域框坐标,使用预训练好的resnet101网络,对文字区域进行特征提取,得到对应的n个文字视觉特征,对每一个文字,使用fasttext工具获得语义文本向量,使用phoc方法对文本字符在变化的金字塔层次尺度处上处理,获得文本向量,将文本向量通过线性变换、层标准正则化ln和relu激活函数处理,得到文字表征向量。
16.可选的,图关系的建立方法包括:
17.将文字表征向量作为顶点v;对n个文字中的每一个文字均进行建边处理,得到边集合e和物体视觉特征中的主要目标;通过顶点v和边集合e建立图关系g(v,e);其中,建立的图关系为稀疏图关系;
18.对n个文字中的每一个文字均进行建边处理的方法具体包括:
19.若文字的区域完全包含于物体的区域,则文字依附于对应的物体,在文字和物体之间建立一条边e
ij
∈e;
20.若文字的区域同时被多个物体区域包含,从多个物体区域中选择面积最小的物体区域,作为文字的相邻节点,在文字和面积最小的物体区域对应的物体之间建立一条边
21.可选的,利用图卷积网络模型处理关系图的方法包括:
22.图卷积网络输入的结点特征由物体表征向量和文字表征向量组成;
23.结点特征经过一层的图卷积网络mr-gcn计算,得到增强特征。
24.可选的,解码模型采用多次循环迭代直到预测到句子的结尾标志;
25.多次循环迭代结束后,根据索引和单词-编号对照表,得到描述图片内容的句子;
26.其中,多次循环迭代中的每一次包括以下过程:
27.将上一次预测中得到的解码向量、上一次预测中得到的单词向量、输入解码模型的增强特征的平均值、上一次预测中得到的加权特征进行拼接得到本次预测的解码向量,其中,加权特征经过注意力机制计算得到;
28.采用门控机制调整解码向量中文字视觉特征的比重后得到本次预测的加权解码向量,本次预测的加权解码向量经过线性分类网络计算后得到本次预测的预测分数;
29.在预测分数中获取最大预测分数的索引。
30.可选的,在循环迭代的第t次中,将上一次预测得到的的解码向量、上一次预测得到的单词向量、输入解码模型的增强特征的平均值、上一次预测中得到本次的加权特征进行拼接的公式包括:
31.向量拼接计算公式:
32.33.向量拼接计算公式:
[0034][0035]
式中:x
t
表示本次输入的解码向量,h
t
表示第t次预测的解码向量,y
t-1
表示第t-1次预测的单词向量,表示输入解码模型的增强特征的平均值,表示第t-1次的加权特征;
[0036]
输入解码模型的增强特征的平均值计算公式:
[0037][0038]
式中:表示增强特征的平均值,i表示增强特征的序号下标,表示总数m+n的增强特征中第i个增强特征;
[0039]ht
,c
t
=lstm(h
t-1
,c
t-1
,x
t
)
[0040]
式中:c
t
表示当前第t步的单元状态,h
t-1
表示上一次的解码向量,c
t-1
表示上一次的单元状态;
[0041]
注意力机制计算公式:
[0042][0043]
式中:表示第t步的加权特征,x表示增强特征集合。
[0044]
在循环迭代的第t次中,获得加权解码向量和预测分数的方法包括:
[0045]
使用逻辑回归模型获得门控权重和文字视觉特征对应的文字权重;
[0046]
采用解码向量加权公式获得加权解码向量,其中,解码向量加权公式通过调整解码向量中文字视觉特征的比重,通过门控权重捕获需要保留的解码向量;
[0047]
通过线性分类网络对加权解码向量进行线性分类后得到本次预测的预测分数;
[0048]
逻辑回归模型计算公式具体如下:
[0049][0050]
式中:α1表示门控权重,α
n+1
表示第n个文字视觉特征对应的文字权重,表示将中间过程的向量变换为行向量,w
vis
表示将解码向量进行线性变换,h
t
表示表示本次的解码向量,w
txt
表示将文字表征向量进行线性变换;
[0051]
解码向量加权公式具体如下:
[0052][0053]
式中:表示本次的加权解码向量,α1表示门控权重,αk表示第k-1个文字视觉特征对应的文字权重,表示第k-1个文字视觉特征;
[0054]
线性分类网络计算公式具体如下:
[0055]
[0056]
线性分类网络计算公式具体如下:
[0057][0058]
式中:s
t
表示预测分数,w
fc
表示对加权解码向量进行线性维度变换,b
fc
表示线性变换的偏移项。
[0059]
可选的,循环迭代的第t次中,在预测分数中获取最大预测分数的索引的公式具体如下:
[0060]
index=argmax(s
t
)
[0061]
式中:index表示索引,s
t
表示预测分数。
[0062]
可选的,还包括解码网络的训练方法:
[0063]
使用逻辑回归函数进行概率转换得到第t次循环的中预测分数所属分类的概率值;
[0064]
基于概率值,使用损失函数训练并优化解码模型参数;
[0065]
损失函数:
[0066][0067]
式中:l表示损失函数,t表示预测的描述句子的最大长度,t表示循环次数,c表示分类的数目,idx表示第idx个分类数目,y表示数据本身真值的分数,表示第t次循环的第idx个分类的概率值;
[0068][0069]
式中:表示第t次循环的第1个分类的概率值,表示第t次循环的第c个分类的概率值,s
t
表示预测分数。
[0070]
损失函数训练并优化解码模型参数的过程还包括:判断损失函数是否收敛,判断结果为是,得到本次的解码网络模型,判断结果为否,将增强特征重新送入模型解码网络。
[0071]
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于主要目标面向场景的文字字幕生成方法,从而可以得到以下有益效果:
[0072]
1、定义了场景文字的主要目标这个概念,从而去除了场景图中冗余和干扰信息。
[0073]
2、不仅关注了图像中的物体,也注重了与图像相关的文字所构建的物体之间的关系,从生成的结果上可以直观的看出生成的句子对场景文字的描述字幕更加准确。
附图说明
[0074]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0075]
图1附图为本发明的流程示意图;
[0076]
图2附图为本发明的解码模型结构示意图。
具体实施方式
[0077]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0078]
如图1、图2所示本发明实施例公开了一种基于主要目标面向场景的文字字幕生成方法,具体步骤包括:
[0079]
对图像进行预处理得到样本数据,其中,样本数据包括关于m个物体中每个物体的物体区域框坐标、物体视觉特征、物体表征向量,样本数据还包括关于n个文字中每个文字的文字区域框坐标、文字视觉特征、文字表征向量;
[0080]
提取物体区域框坐标和文字区域框坐标,建立两者之间的图关系;
[0081]
图卷积网络模型根据图关系对物体表征向量、文字表征向量进行增强,得到增强特征;
[0082]
将增强特征发送到解码模型进行解码,得到表述图片内容的句子。
[0083]
进一步的,样本数据包括若干物体区域框坐标、若干物体视觉特征、若干物体表征向量、若干文字区域框坐标、若干文字视觉特征、若干文字表征向量,物体区域框坐标、物体视觉特征、物体表征向量一一对应,文字区域框坐标、文字视觉特征、文字表征向量一一对应。
[0084]
可选的,预处理的步骤包括:
[0085]
s1:使用faster-rcnn网络对图像进行区域特征提取,得到关于m个物体的物体区域框坐标和物体视觉特征;
[0086]
对物体区域框坐标建立的集合:
[0087][0088]
式中:b
obj
表示物体区域框坐标集合,表示第1个物体区域框坐标,表示第m个物体区域框坐标,表示第m个物体区域框坐标;
[0089]
对物体视觉特征建立集合:
[0090][0091]
式中:v
obj
表示文字区域框坐标集合,表示第1个文字区域框坐标,表示第m个文字区域框坐标,表示第m个文字区域框坐标。
[0092]
s2:通过光学字符识别工具对图像进行特征提取,得到关于n个文字的文字区域框坐标;
[0093]
对文字区域框坐标建立集合:
[0094][0095]
式中:b
ocr
表示文字区域框坐标集合,表示第1个文字区域框坐标,表示第
n个文字区域框坐标,表示第n个文字区域框坐标。
[0096]
s3:使用resnet101网络对图像进行特征提取,得到关于n个文字的文字视觉特征;
[0097]
对文字视觉特征建立集合:
[0098][0099]
式中:v
ocr
表示文字视觉特征集合,表示第1个文字视觉特征,表示第n个文字视觉特征,表示第n个文字视觉特征。
[0100]
s4:视觉特征通过线性变换、层标准化正则化和relu激活函数处理,得到物体表征向量;
[0101][0102]
式中:表示第m个物体表征向量,σ表示relu激活函数,ln表示层标准化正则化,w
obj
表示对每一个物体表征向量进行线性变换;
[0103]
对物体视觉特征建立集合:
[0104][0105]
式中:x
obj
表示物体表征向量集合,表示第m个物体表征向量,表示第m个物体表征向量。
[0106]
s5:使用fasttext工具对图像进行特征提取,获得关于第n个文字的文字向量;使用phoc方法对文本字符在变化的金字塔层次尺度处上处理,获得文本向量;通过线性变换、层标准正则化ln和relu激活函数处理,得到文字表征向量;
[0107]
文字表征向量计算公式:
[0108][0109]
式中:表示第n个文字表征向量,wm表示对整体向量进行线性维度变换,表示文本向量,表示语义文本向量,w
bb
表示对文字区域对应的坐标进行线性维度变换;
[0110]
进一步的,对文字视觉特征、文本向量和文本语义向量在第2个维度拼接为整体向量。
[0111]
对文字表征向量建立集合:
[0112][0113]
式中:x
ocr
表示第n个文字表征向量集合,表示第1个文字表征向量,表示第n个文字表征向量。
[0114]
进一步的,步骤一,图像中有物体(如人,汽车,书)和可能存在的文字标识信息(如路牌、广告标语,书本标题等)。为了使得模型能对图像中的物体和文字进行描述,需要从中提取出这些信息,并转化为特征表示:
[0115]
(1)使用预训练好的faster-rcnn网络对图像i提取区域特征,得到m个物体的包围
盒坐标和对应的m个视觉特征其中,包围盒也可被称为区域框。视觉特征通过线性变换、层标准化正则化ln和relu激活函数σ处理,得到图像物体的表征:
[0116][0117]
(2)通过光学字符识别工具得到图像i中的n个文字的包围盒坐标(2)通过光学字符识别工具得到图像i中的n个文字的包围盒坐标使用预训练好的resnet101网络,对图像i中包围盒坐标b
ocr
区域进行特征提取,得到对应的n个视觉特征集合进行特征提取,得到对应的n个视觉特征集合对于每一个文字,使用fasttext工具获得语义文字向量使用phoc方法对文本字符在变化的金字塔层次尺度处上处理,获得文本向量采用类似(1)中的方法,通过线性变换、层标准正则化ln和relu激活函数处理,得到文字表示特征。
[0118][0119]
通过以上步骤,建立了图像中物体的特征表示集合通过以上步骤,建立了图像中物体的特征表示集合和文字的特征表示集合
[0120]
可选的,图关系的建立方法包括:
[0121]
将文字表征向量作为顶点v;对n个文字中的每一个文字均进行建边处理,得到边集合e和物体视觉特征中的主要目标;通过顶点v和边集合e建立图关系g(v,e);其中,建立的图关系为稀疏图关系;
[0122]
对n个文字中的每一个文字均进行建边处理的方法具体包括:
[0123]
若文字i的区域完全包含于物体的区域即物体矩形区域j完全包含文字矩形区域i,则认为文字i依附于对应的物体j,在文字i和物体j之间建立一条边e
ij
∈e;
[0124]
若文字i的区域同时被多个物体区域j1,...,j
t
包含,从多个物体区域中选择面积最小的物体区域j
t
∈{j1,...,j
t
},作为文字i的相邻节点,在文字i和物体j
t
之间建立一条边
[0125]
进一步的,步骤二,步骤一得到物体和文字的表征向量以及物体和文字对应的包围盒b
obj
和b
ocr
。将表征向量看作图关系g(v,e)中的顶点v,建立图关系的步骤如下:
[0126]
(1)若文字i的区域坐标完全包含于物体的区域坐标即矩形区域j完全包含矩形区域i,则认为文字i依附于对应的物体j,在文字i和物体j之间建立一条边e
ij
∈e。
[0127]
更进一步的,对于区域完全包含于区域,区域体现为区域方框,区域方框使用左上角和右下角的两个顶点坐标(x1,y1),(x2,y2)来描述,所以两个方框的各自的顶点坐标决定了两个方框是否是包含关系。
[0128]
(2)若文字i的区域同时被多个物体区域j1,...,j
t
包含,从中选择面积最小的物体区域j
t
∈{j1,...,j
t
},作为文字i的相邻节点,在文字i和物体j
t
之间建立一条边
[0129]
(3)对步骤一的n个文字均按照(1)(2)步骤进行处理,就找到了物体视觉特征中的主要目标,同时建立较为稀疏的图g(v,e)。
[0130]
可选的,利用图卷积网络模型处理关系图的方法包括:
[0131]
图卷积网络输入的结点特征由物体表征向量和文字表征向量组成;
[0132]
结点特征经过一层的图卷积网络mr-gcn计算,得到增强特征。
[0133]
进一步的,图卷积网络输入的结点特征由物体表征向量和文字表征向量组成;根据已有的或建立的图关系g(v,e)中的节点相邻关系r,mr-gcn图卷积网络使得每一个节点特征获得了在关系r中相邻的节点的特征信息。这些相邻节点经过线性变换后计算均值,与线性变换后的原有节点相加,最后经过激活函数处理,得到最终的结果。
[0134]
以上处理可以根据图卷积网络层数l而进行l次。实际情况下大多使用1~3层,本发明此处只使用1层足够。图网络的输入通过网络线性变换,获得了关系r下更丰富的相邻关系节点信息,从而实现了增强特征为
[0135]
增强特征公式:
[0136][0137]
式中:x表示物体和文字的增强特征集合。
[0138]
更进一步的,图卷积网络可以有多层,上标l表示该标注的向量特征属于图卷积网络的第l层的计算结果,l+1表示第l层图卷积网络的计算结果再经过第l+1层网络计算后的结果,当特征上标l=0或未标注上标l时,表示该特征为增强前的特征。发明实施例中步骤一使用的卷积网络为一层,所以l+1表示经过图卷积网络增强后的特征,其中,前面m个连续的物体+后面n个连续的文字编号,所以整体就是m+n个物体,编号从1开始递增,直到m+n,表示物体的增强特征,表示文字的增强特征,r
(m+n)
×
1000
表示全部的特征几何是m+n个1000维的向量,即特征整体维度是2维的(m+n)
×
1000。
[0139]
再进一步的,mr-gcn的计算过程如下:
[0140][0141]
式中:σ为relu激活函数,其括号中的整体可分为两项,前面的为节点特征的原有信息,后面的为节点的相邻节点的信息;表示每一个增强前的特征,表示经过图卷积网络的第l层增强之后的特征,对于第l层网络:原有信息部分,表示对原有的特征进行线性变换以保留原始信息;相邻节点信息部分,表示对特征的
所有相邻节点进行线性变换,表示在关系中,所有与节点i相邻的节点数目,作为分母计算特征平均值(数目为0时,该部分不再计算,避免分母除数为0的情况)。节点之间的图关系可以不止一种,表示其中的一种图关系,此处r表示文字特征和物体特征之间的关系,以及物体特征与文字特征之间的关系,文字特征和物体特征之间的关系和物体特征与文字特征之间的关系为两种不同方向的关系。本质上,图卷积网络根据图关系g(v,e)中的相邻关系,用每一个节点的相邻节点作为额外信息,从而使得原有节点拥有更多关系信息。
[0142]
稀疏图的图关系g(v,e)中记录了所有顶点与顶点之间的边,顶点-边关系可以用一个矩阵来表示,0表示没有关系,1表示有边关系。图卷积网络会根据图关系g(v,e)中的点和边的关系,计算出顶点对应的特征向量增强后的结果。具体计算过程如下:
[0143]
1)对于输入网络的一组特征x={x1,x2,x3...xi,...,xn},其中的每一个节点为xi。根据图关系g(v,e)中的顶点v,可以得到xi对应图中哪一个顶点;根据边e中的关系若e
{ij}
=1,可以得出特征i和特征j之间是相邻的、有关系的特征。
[0144]
2)对于xi,将与其相邻的所有节点{xj}经过参数wr线性变换后,求平均值。
[0145]
3)图关系g(v,e)可以用一个0-1矩阵wr表示关系,这个矩阵的第i行第j列位置的值为1,则表示第i个特征和第j个特征之间有是关联的。所以表示对特征的所有每一个节点的相邻节点进行线性变换。
[0146]
进一步的,步骤三,利用图卷积的方法去处理关系图,以获得新的图像表征。图卷积网络输入的结点特征为步骤1中物体和文字的表征向量图关系为步骤二建立的关系g。经过一层的图卷积网络mr-gcn计算,得到增强后的特征gcn计算,得到增强后的特征
[0147]
可选的,解码模型采用多次循环迭代直到预测到句子的结尾标志;
[0148]
多次循环迭代结束后,根据索引和单词-编号对照表,得到描述图片内容的句子;
[0149]
其中,多次循环迭代中的每一次包括以下过程:
[0150]
将上一次预测中得到的解码向量、上一次预测中得到的单词向量、输入解码模型的增强特征的平均值、上一次预测中得到的加权特征进行拼接得到本次预测的解码向量,其中,加权特征经过注意力机制计算得到;
[0151]
采用门控机制调整解码向量中文字视觉特征的比重后得到本次预测的加权解码向量,本次预测的加权解码向量经过线性分类网络计算后得到本次预测的预测分数;
[0152]
在预测分数中获取最大预测分数的索引。
[0153]
可选的,在循环迭代的第t次中,将上一次预测得到的的解码向量、上一次预测得到的单词向量、输入解码模型的增强特征的平均值、上一次预测中得到本次的加权特征进行拼接的公式包括:
[0154]
向量拼接计算公式:
[0155][0156]
式中:x
t
表示本次输入的解码向量,h
t
表示第t次预测的解码向量,y
t-1
表示第t-1次预测的单词向量,表示输入解码模型的增强特征的平均值,表示第t-1次的加权特
征;
[0157]
输入解码模型的增强特征的平均值计算公式:
[0158][0159]
式中:表示增强特征的平均值,i表示增强特征的序号下标,表示总数m+n的增强特征中第i个增强特征;
[0160]ht
,c
t
=lstm(c
t-1
,h
t-1
,x
t
)
[0161]
式中:c
t
,c
t-1
分别表示当前次数和上一次的状态单元向量,h
t-1
表示上一次的解码向量;
[0162]
进一步的,h,c都是lstm网络的输入和输出,都是随着次数迭代更新,但是只有h会用来作为解码向量,c只用于lstm内部网络中的更新计算,不被其它地方使用。
[0163]
注意力机制计算公式:
[0164][0165]
式中:表示第t步的加权特征,x表示增强特征集合。
[0166]
可选的,在循环迭代的第t次中,获得加权解码向量和预测分数的方法包括:
[0167]
使用逻辑回归模型获得门控权重、文字视觉特征对应的文字权重;
[0168]
采用解码向量加权公式获得加权解码向量,其中,解码向量加权公式通过调整解码向量中文字视觉特征的比重,通过门控权重捕获需要保留的解码向量;
[0169]
通过线性分类网络对加权解码向量进行线性分类后得到本次预测的预测分数;
[0170]
逻辑回归模型计算公式具体如下:
[0171][0172]
式中:α1表示门控权重,α
n+1
表示第n个文字视觉特征对应的文字权重,表示将中间过程的向量变换为行向量,w
vis
表示将解码向量进行线性变换,h
t
表示表示本次的解码向量,w
txt
表示将文字表征向量进行线性变换;
[0173]
其中,将注意力矩阵矩阵变换为n+1维的行向量,w
vis
表示将解码向量进行维度线性变换,w
txt
表示对增强特征的平均值与所有文字特征拼接后的结果,进行线性维度变换,该结果与维度变换后的解码向量相加,得到解码向量对文字特征的注意力矩阵。
[0174]
解码向量加权公式具体如下:
[0175][0176]
式中:表示本次的加权解码向量,α1表示门控权重,αk表示第k-1个文字视觉特征对应的文字权重,表示第k-1个文字视觉特征;
[0177]
线性分类网络计算公式具体如下:
[0178][0179]
式中:s
t
表示预测分数,w
fc
表示对加权解码向量进行线性维度变换,b
fc
表示线性变换的偏移项。
[0180]
循环迭代的第t次中,在预测分数中获取最大预测分数的索引的公式具体如下:
[0181]
index=argmax(s
t
)
[0182]
式中:index表示索引,s
t
表示预测分数。
[0183]
进一步的,索引对应的单词为本次的预测结果。
[0184]
步骤四,增强之后的特征送入模型解码部分。解码部分由带有注意力机制的长短期记忆单元(long-shortterm memory,lstm)组成,解码部分采用循环迭代方式。
[0185]
(1)在第t步,将之前预测的解码向量h
t-1
、上一步预测的单词向量y
t-1
、输入特征的平均值经过注意力机制计算后的加权特征以上4个向量进行拼接。由于该任务预测的句子中,有来自于图像中的文字单词(类似图像中的某个广告牌标识文字),而本身模型建立的单词-编号的表中没有这些单词。因此,当单词w
t-1
的来源为固定的词表时,y
t-1
表示为对应编号经过embedding网络转化后的向量;w
t-1
的来源为图像中的文字时,y
t-1
表示为对应的文字表征向量向量拼接方式和注意力机制计算过程如下:
[0186][0187]ht
,c
t
=lstm(h
t-1
,x
t
)
[0188][0189]
(2)模型经过lstm解码得到解码向量h
t
。当预测的单词为图像中的场景文字时,解码向量应该与文字的视觉特征有较高的关联。因此,模型中采用门控机制,调整解码向量中文字视觉特征的比重,从而关注不同方面的信息。通过如下计算步骤,得出的门控权重α1表示保留的解码向量,其余的权重表示文字视觉特征的比重。w
vis
,w
txt
均为学习的参数,因此权重在每一步预测中都会进行动态调整。
[0190][0191][0192]
最后经过式线性分类网络fc得到当前预测的分数s
t

[0193][0194]
(3)在预测分数中,获取一个分数最大的索引index=argmax(s
t
),将索引位置对应的单词,作为当前步骤的预测结果。同时将预测单词对应的向量y
t
,预测的解码向量h
t
作为下一步预测的输入,转到第(1)步。该过程循环进行,直到预测句子的结尾标志,停止预
测。预测结束后,根据索引和单词-编号对照表,得到模型描述图片内容的句子。
[0195]
可选的,还包括解码网络的训练方法:
[0196]
使用逻辑回归函数进行概率转换得到第t次循环的中预测分数所属分类的概率值;
[0197]
基于概率值,使用损失函数训练并优化解码模型参数;
[0198]
损失函数:
[0199][0200]
式中:l表示损失函数,t表示预测的描述句子的最大长度,t表示循环次数,c表示分类的数目,idx表示第idx个分类数目,y表示数据本身真值的分数,表示第t次循环的第idx个分类的概率值;
[0201][0202]
式中:表示第t次循环的第1个分类的概率值,表示第t次循环的第c个分类的概率值,s
t
表示预测分数。
[0203]
可选的,损失函数训练并优化解码模型参数的过程还包括:判断损失函数是否收敛,判断结果为是,得到本次的解码网络模型,判断结果为否,将增强特征重新送入模型解码网络。
[0204]
进一步的,步骤五,使用如下的交叉熵函数,训练并优化模型参数,其中c为分类的数目,即词表中,所有常用单词数目和图像中检测到的场景文字的总类别数目,t为预测的描述句子的最大长度。
[0205][0206][0207]
其中y表示数据本身真值的分数,具体形式为one-hot编码[0,0,...,1,0,0...,0],即单词对应的序号的位置为1,其余位置均为0。s
t
为模型预测的分数,使用softmax函数进行概率转换。
[0208]
下面结合具体实施例对本发明作进一步说明:
[0209]
使用给定的图像数据集textcaps,包含约28,000张图片。每张图片有5个字幕,数据划分成训练,验证和测试集三部分,将数据按照批次为50进行训练和验证。
[0210]
通过利用基于卷积神经网络的目标检测模型faster-rcnn来提取图片的物体和物体区域坐标。给定一张图片,检测模型从图片中检测100个物体区域,得到物体视觉特征维度为2048,和100个维度为4的区域坐标。
[0211]
我们使用光学字符识别工具rosetta提取图片中的字符文本,得到最多50个文字字符,和50个区域坐标。使用预训练好的resnet101网络对图片中的50个区域提取视觉特征,得到物体视觉特征维度为2048,和100个维度为4的区域坐标。
[0212]
构建数据阶段,物体视觉特征和文字视觉特征经过线性变化、标准化处理后,成为1024维的向量。
[0213]
为图像字幕中的单词建立词表,首先选择texcaps数据集句子中,句子开始、结束和长度填充的符号,和出现次数大于10的所有单词,按照顺序建立编号建立对应关系,得到0-6735编号作为固定词表。其次,每一幅图像中有不同的场景文字,根据光学字符识别工具rosetta识别的结果,编号排在固定词表之后。对于每一幅图片,最多为50个场景文字编号6736-6785。
[0214]
图卷积模型模块,采用多关系的图卷积网络。将图关系g(v,e)中的节点边关系分为物体-场景文字和场景文字-物体两种。在图的卷积阶段,使用一层维度为768的图卷积层。
[0215]
在训练的过程中,设置循环迭代预测句子的最大长度t=30,为了防止过拟合采用了dropout方法且使用了adam优化器。模型整体训练迭代约30个epoch,采用梯度下降优化交叉熵损失函数。
[0216]
在测试阶段,设置beam search为5去生成字幕,并且用常见的指标bleu,meteor,cider和rouge-l去评估整体的字幕生成模型。所有的评价指标结果,都是通过生成结果与texcaps数据集真值结果在指标上计算获得。
[0217]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0218]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1