本发明属于图像识别处理,具体涉及基于多层解码器动态融合网络的图像描述生成方法及系统。
背景技术:
1、图像转文字的应用在众多领域有着重要的应用,比如屏幕字幕自动生成、基于图像的检索等领域。
2、目前已有的技术和算法,对图像描述生成的处理效果都不理想。随着深度神经网络的发展,给图像转文字领域带来了一线希望。使用卷积神经网络(cnn)来对图像进行特征提取,再使用循环神经网络(rnn)对图像的特征进行描述,这种方式通常称为编码-解码方式。使用编码-解码方式进行图像转文字处理,可以提高图像转文本的转换准确性。但是,虽然可以生成描述,但是描述的内容往往模糊,不够清楚,反应事物真是情况的描述性较差。
3、例如如下申请中:(1)申请专利号:cn110879849a“一种基于图像转文字的相似度比较方法及装置”;(2)申请号:2022116628049“基于transformer的场景图像文字修改方法、装置、电子设备及存储介质”;(3)申请号:2022111491001“基于多尺度特征聚合的场景图像文字检测方法”;(4)申请号:2022109227956“图像文字行检测方法及装置”,上述专利中宣称能够对图像进行语言识别,但是能够达到的效果非常有限;虽然有图像转语言的能力,但是描述的准确度较差,不足以描述图中确实的含义。
4、在图像转语言领域,对一幅图生成的描述好坏可以定义明确的标准,比如mscoco2014数据集就广泛应用于目标检测和图像理解算法使用的通用数据集,该数据集包含80,000多张训练图像和40,000多张验证/测试图像。其中,每一幅图像通常是256×256像素的彩色图像,并且每一幅图像都对应5句长短不一的英文描述。在对算法模型效果的验证与评估中,不同的评价指标包括bleu1-4指标,rouge指标,meteor指标,rouge_l指标和cider评价指标来评价生成的成果,但是,目前已有成果,达到的指标较低。
技术实现思路
1、针对现有技术中存在的图像描述生成的处理效果都不理想等问题,本发明提供了基于多层解码器动态融合网络的图像描述生成方法及系统,本发明的方法是采用网络模型对mscoco 2014数据集进行训练和测试,解决了传统解码器梯度消失的问题,从而生成更加准确的图像描述;结果表明方法具有较好的预测效果,其中,在ms coco数据集中,bleu-1值提高了0.096,rouge_l值提高了0.153,cider值提高了0.32。其中,bleu指标关注准确率,是一种通过对比预测序列中的n元组在真实标签中出现的次数来分析文本相似性的一种评价指标;rouge指标关注召回率,是一种通过对比真实标签中的n元组未出现在预测序列中的次数来分析文本相似性的一种评价指标;meteor指标是综合考虑召回率和准确率的一种评价指标;spice指标使用probabilistic context-free grammar(pcfg)将预测的序列和真实的标签编码成一种语义依赖树,并通过一定的规则将其进行映射,利用这种方式来获取评价分数。cider指标采用余弦相似度结合的方式来预测描述与参考句子的相似性,更适宜于评价句子描述的好坏,在图像理解领域中使用最多。
2、本发明通过如下技术方案实现:
3、基于多层解码器动态融合网络的图像描述生成方法,具体包括如下步骤:
4、s1、采用卷积神经网络对输入图像进行视觉特征和语义特征进行提取;
5、s2、采用标准解码进行特征的融合;
6、s3、将所述图像的视觉特征编码通过联级多层解码器进行提取,得到提取主要重要特征;
7、s4、通过自适应注意力机制和动态融合门机制处理所述主要重要特征,并生成图像描述语句。
8、进一步地,步骤s1具体包括如下内容:
9、s11:将输入图像标准化,即将每一幅输入图像都处理成224×224大小,并将图像中的每一个自然语言描述语句与该图像成对保存,一个图像-自然语言语句作为一个图像理解数据;
10、s12:获取所有图像理解数据中具有最长序列的自然语言语句的长度,然后采用填充符将剩下的自然语言语句的序列填充至该长度,并且重新保存填充完毕的图像理解数据;
11、s13:采用卷积神经网络对输入图像进行特征提取,随后生成一个标注向量组α:
12、α=[α1,α2,...,αl];αi∈rd, (1)
13、该向量中αi是标注,d是标注语句的个数,α中每一个向量αi均对应输入图像的一个区域的d维表达。
14、进一步地,步骤s2中,标准解码器结构由1个跨模态注意力模块和1个文本生成模块组成,其中,跨模态注意力模块是通过点乘的注意力机制来建立文本与图像之间的联系,该模块以查询矩阵q∈rm×d、键矩阵k∈rn×d和值矩阵v∈rn×d作为输入;
15、在图像描述的任务当中,将视觉特征编码矩阵x和文本序列编码矩阵y作为输入;标准解码器中的跨模态模块将x和y映射形成查询矩阵q、值矩阵v和键矩阵k;
16、q∈rm×d:查询矩阵,m是采样个数;d是标注向量维数;
17、k∈rn×d:键矩阵,n是采样个数;d是标注向量维数;
18、v∈rn×d:值矩阵,n是采样个数;d是标注向量维数。
19、进一步地,步骤s2具体包括如下内容:
20、s21:计算查询矩阵和键矩阵之间的相似性来进一步推出权重矩阵,公式为:
21、
22、式中,α表示不同值向量对应的注意力权重,ψ(q,k)是计算权重的函数,权重越大表示对应的值向量与查询矩阵的相似性越大;fsoftmax函数是标准归一化函数,定义为:这里表示每一个输出结果对应的概率值;
23、s22:结合权重矩阵和值矩阵,对不同的值向量进行加权融合,经注意力机制聚焦后表示为:
24、z=fattention(q,k,v)=ψ(q,k)v (3)
25、fattention是注意力函数,表示ψ(q,k)与值矩阵v的乘积,是注意力机制聚焦后得到的矩阵;
26、s23:通过多头注意力机制预测下一时刻输出单词,再经过前馈神经网络输出最终的特征向量f,具体如下:
27、f=ffn(z)=fattention(wqy,wkx,wvx) (4)
28、注意力函数fattention中,wq、wk和wv是自己定义的可学习的参数,x是视觉特征编码矩阵,y是文本序列编码矩阵,因此fnn()代表前馈神经网络的计算函数;
29、文本序列的编码矩阵由前面所有的预测单词y1,t-1经过掩膜化自注意力操作形成编码;
30、y=samask(y1,t-1) (5)
31、式中,samask()是经过掩膜化的自注意力函数,掩膜化自注意力操作就是在训练的过程中需要的一个对称矩阵用于掩盖掉当前t时刻之后的所有信息内容,对称部分保留,其他部分清零;
32、s24:通过图像的特征编码,预测生成语句描述的概率分布,具体表示为:
33、yt~fsoftmax(wep) (6)
34、式中,we为可学习的投影矩阵,p是生成单词的概率分布。
35、进一步地,步骤s3具体包括如下内容:
36、s31:对于第一层解码,在t时刻之前输出的单词为{y1,y2,…,yt-1},t时刻的输出为在第s层解码器,t时刻时结合上一层解码器预测的单词和之前所有的预测词y1,t-1,经过掩膜化自注意力操作形成编码,即:
37、
38、式中,表示结合拼接的操作,这个拼接操作就是将当前t时刻第s层解码器输出的单词连同之前所有时刻预测的单词结合后,经对称矩阵掩膜后形成编码;
39、s32:对于第s层解码,在该层的t时刻来说,跨模态注意力模块是以图像的视觉特征编码和文本序列编码作为输入,对输出的单词信息进行更新;
40、fs=ffn(zs)=fattention(wqys,wkx,wvx) (8)
41、
42、式中,是可学习的投影矩阵,ps为输出单词的概率分布。
43、进一步地,步骤s4具体包括如下内容:
44、s41:提出一种自适应融合门机制,可以最大化的利用不同层解码器的输出结果,引入一个权重变量δ,动态控制不同层解码器的输出信息结果;
45、其中,第s层解码器的权重δs由输入的文本序列编码ys和输出的注意力编码fs共同决定;
46、
47、式中:表示拼接操作,ws∈r1×2d是可学习的权重矩阵,δ=[δ1,δ2,…,δs]表示不同层解码器的权重;
48、s42:融合机制利用已学习的权重集成不同层注意力特征,表示为:
49、
50、其中δs=[δ1,δ2,…,δs]表示解码器的权重,fs融合后的特征向量,fe是融合后的特征向量;
51、s43:利用融合后的特征生成最终的预测文本,即:
52、yt~fsoftmax(wefe), (11)
53、其中fe是融合后的特征向量,we是可学习的投影矩阵;
54、yt是最终预测文本,即最终结果。
55、第二方面,本发明提供了基于多层解码器动态融合网络的图像描述生成系统,用于实现上述方法,包括:
56、提取模块,用于采用卷积神经网络对输入图像进行视觉特征和语义特征进行提取;
57、增强提取模块,用于采用自注意力机制进一步增强步骤s1提取的视觉特征和语义特征,从而得到图像的视觉特征编码;
58、重要特征提取模块,用于将所述图像的视觉特征编码通过联级多层解码器进行提取,得到提取主要重要特征;
59、生成模块,用于通过自适应注意力机制和动态融合门机制处理所述主要重要特征,并生成图像描述语句。
60、进一步地,所述重要特征提取模块包括联级多层解码器,所述联级多层解码器由多层解码器组成,第一层解码器在t时刻之前输出的单词为{y1,y2,…,yt-1},t时刻的输出为第s层解码器在t时刻时结合上一层解码器预测的单词和之前所有的预测词y1,t-1,经过掩膜化自注意力操作形成编码;
61、所述生成模块是一个动态的自适应融合门,可同时输入多条信息流,利用softmax函数的互斥性来感知不同层次解码器的上下文信息,整合全局信息,指导权重动态调整。
62、第三方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的基于多层解码器动态融合网络的图像描述生成方法。
63、第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的基于多层解码器动态融合网络的图像描述生成方法。
64、与现有技术相比,本发明的优点如下:
65、本发明的一种基于多层解码器动态融合网络的图像描述生成方法,通过级联多层解码器来实现注意力机制的逐步精确化,结合融合门机制,动态的自适应融合生成的文本信息,提高图像理解的准确率。