一种基于嵌入双边卷积激活的场景文字识别方法与流程

文档序号:13519551阅读:320来源:国知局

本发明属于模式识别技术领域,具体涉及一种基于嵌入双边卷积激活的场景文字识别方法。



背景技术:

场景文字识别在模式识别领域扮演着重要的角色,很多应用都需要借助场景文字识别来自动地理解场景中的文字。然而,场景文字识别仍然是一个非常具有挑战性的研究方向,因为场景文字受到很多外界因素的影响,比如:不均匀的光照、变形、任意的字体、失真、复杂的背景、模糊、噪声等等。

近几十年来,场景文字识别受到广泛的关注,一些早期的方法利用光学字符识别技术来识别场景中的文字。光学字符识别技术依赖于场景文本二值化和成熟的光学字符识别引擎。其中,场景文本二值化是非常难以实现的。考虑到光学字符识别技术的局限性,gao等人提出在传统的bow(bagofwords,词包模型)的框架下创建空间嵌入词典,来获取场景文字图像的最终的特征表示。newell等人利用多尺度的hog(histogramoforientedgradients,梯度直方图)进行特征表示来识别自然场景中的文字。尽管他们的方法取得了一定的成效,但是他们的特征表示缺乏判别性。因此为了解决此问题,perronnin等人提取使用gmm(gaussianmixturemodel,高斯混合模型)来学习码本,并将gmm的均值向量和协方差向量的导数连接起来得到最终的fv(fishervectors)。与传统的bow相比,fv对更高层次的信息进行编码,但是fv很容易在最终表示中引入噪声或者异常值。为此,wang等人将卷积神经网络中的全连接层的输出作为最终的图像表示。jaderberg等人同样将卷积神经网络中的全连接层的输出作为最终的图像表示,并得到较好的分类效果。cimpoi和babenko等人证明了使用卷积激活描述子来表示特征比使用全连接层的输出表示特征得到的分类准确率高。虽然这些方法取得了一定的成效,但是他们在一定程度上忽视了文字的重要特征信息和笔画结构信息。由于不同文字在不同的位置可能包含相同的特征信息,这会造成重构误差,所以不能够充分的保留重要的特征信息和有效的笔画结构信息。



技术实现要素:

本发明的目的是要解决文字特征信息和笔画结构信息对场景文字识别结果影响较大的技术问题,为此,本发明提供一种基于嵌入双边卷积激活的场景文字识别方法。

为了实现所述目的,本发明嵌入双边卷积激活的场景文字识别方法包括以下步骤:

步骤s1,将训练场景文字图像输入至预先训练得到的卷积神经网络中,得到卷积激活描述子;

步骤s2,利用所述训练场景文字图像输入至卷积神经网络中输出得到的卷积层,得到双边卷积激活图;

步骤s3,利用所述双边卷积激活图对所述卷积激活描述子进行编码,得到所述训练场景文字图像的特征向量;

步骤s4,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;

步骤s5,按照所述步骤s1-s3获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。

可选地,所述步骤s1包括:

步骤s11,将所述训练场景文字图像的大小归一化为h×w,其中,h和w分别表示训练场景文字图像的高度和宽度;

步骤s12,将所述训练场景文字图像输入至所述卷积神经网络中,选择所述卷积神经网络中的一个卷积层,得到卷积激活图hc×wc×n,其中,hc和wc分别表示卷积激活图的高度和宽度,n表示卷积激活图的数目;

步骤s13,从n个卷积激活图的相同位置处提取元素,得到hc×wc个n维的卷积激活描述子。

可选地,所述步骤s2包括:

步骤s21,获取所述卷积激活图hc×wc×n;

步骤s22,将n个大小为hc×wc的卷积图的对应位置元素相加,得到卷积求和图;

步骤s23,基于所述卷积求和图,得到双边卷积激活图。

可选地,所述卷积求和图表示为:

其中,ci表示卷积求和图的第i个激活响应,表示卷积层中的第n个卷积图的第i个激活响应,n是该卷积层中卷积激活图的总数目。

可选地,所述双边卷积激活图表示为:

其中,i和j为表示卷积激活图中激活响应的索引,oj表示双边卷积激活图,bij为ci的权重系数。

可选地,所述权重系数bij表示为:

其中,li和lj分别是激活响应ci和cj对应的位置信息,α是一个用来调整空间相似度影响的参数,σ1是用来控制两个激活响应的差值对bij影响的参数,σ2是用来控制两个激活响应的空间距离对bij影响的参数。

可选地,所述步骤s3包括:

步骤s31,通过高斯混合模型对于所述卷积激活描述子进行编码,得到多个高斯成分的均值向量的梯度向量和多个高斯成分的协方差向量的梯度向量;

步骤s32,将所有高斯成分的均值向量和协方差向量的梯度向量组合,得到每幅训练场景文字图像的特征向量。

可选地,所述步骤s31中,利用下式对于所述卷积激活描述子进行编码:

其中,xj表示从卷积图中提取得到的卷积激活描述子,m表示一幅场景文字图像中卷积激活描述子的总数目,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差向量,φj(k)表示卷积激活描述子xj分配到第k个高斯分量的权重,fμk表示第k个高斯成分的均值向量的梯度向量;fσk表示第k个高斯成分的协方差向量的梯度向量。

可选地,每幅训练场景文字图像的特征向量表示为:

f=(fμ1,fσ1,fμ2,fσ2,...,fμk,fσk,...,fμk,fσk),

其中,k表示高斯混合模型中高斯分量的总数目,f表示所述训练场景文字图像最终的特征向量。

本发明的有益效果为:本发明利用双边卷积激活图进行特征向量表示,能够将最重要的特征信息和笔画结构信息有效的结合在特征向量中,达到有效挖掘显著特征信息和笔画结构信息的目的,从而提高场景文字识别的正确率。

需要说明的是,本发明得到了国家自然科学基金项目no.61501327、no.61401309、天津市自然科学基金项目no.17jczdjc30600、no.15jcqnjc01700、国家模式识别实验室开放计划项目no.201700001的资助。

附图说明

图1是根据本发明一实施例的基于嵌入双边卷积激活的场景文字识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例的基于嵌入双边卷积激活的场景文字识别方法的流程图,下面以图1为例来说明本发明的一些具体实现流程。本发明的方法是关于一种基于嵌入双边卷积激活的场景文字识别方法,包括以下步骤:

步骤s1,将训练场景文字图像输入至预先训练得到的卷积神经网络中,得到卷积激活描述子;

其中,所述步骤s1包括以下步骤:

步骤s11,将所述训练场景文字图像的大小归一化为h×w,其中,h和w分别表示训练场景文字图像的高度和宽度;

步骤s12,将所述训练场景文字图像输入至所述卷积神经网络中,选择所述卷积神经网络中的一个卷积层,得到卷积激活图hc×wc×n,其中,hc和wc分别表示卷积激活图的高度和宽度,n表示卷积激活图的数目;

步骤s13,从n个卷积激活图的相同位置处提取元素,得到hc×wc个n维的卷积激活描述子。

在本发明一实施例中,将所述训练场景文字图像的大小归一化为64×32,其中,64和32分别表示所述训练场景文字图像的高度和宽度。选取所述卷积神经网络的第二个卷积层,得到卷积激活图8×8×128,然后从128个卷积激活图的相同位置处分别提取元素,这样在每一个位置处均提取得到128个元素,这128个元素组成一个128维的卷积激活描述子,对于8×8大小的卷积激活图,就可以得到8×8个128维的卷积激活描述子。

步骤s2,利用所述训练场景文字图像输入至卷积神经网络中输出得到的卷积层,得到双边卷积激活图;

进一步地,所述步骤s2包括以下步骤:

步骤s21,获取所述卷积激活图hc×wc×n;

步骤s22,将n个大小为hc×wc的卷积图的对应位置元素相加,得到卷积求和图;

进一步地,所述卷积求和图表示为:

其中,ci表示卷积求和图的第i个激活响应,表示卷积层中的第n个卷积图的第i个激活响应,n是该卷积层中卷积激活图的总数目;

步骤s23,基于所述卷积求和图,得到双边卷积激活图。

进一步地,所述双边卷积激活图表示为:

其中,i和j为表示卷积激活图中激活响应的索引,oj表示双边卷积激活图,bij为ci的权重系数。

在本发明一实施例中,所述权重系数bij可以表示为:

其中,li和lj分别是激活响应ci和cj对应的位置信息,α是一个用来调整空间相似度影响的参数,σ1是用来控制两个激活响应的差值对bij影响的参数,σ2是用来控制两个激活响应的空间距离对bij影响的参数。

步骤s3,利用所述双边卷积激活图对所述卷积激活描述子进行编码,得到所述训练场景文字图像的特征向量;

进一步地,所述步骤s3包括以下步骤:

步骤s31,通过高斯混合模型对于所述卷积激活描述子进行编码,得到多个高斯成分的均值向量的梯度向量和多个高斯成分的协方差向量的梯度向量:

其中,xj表示从卷积图中提取得到的卷积激活描述子,m表示一幅场景文字图像中卷积激活描述子的总数目,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差向量,φj(k)表示卷积激活描述子xj分配到第k个高斯分量的权重,fμk表示第k个高斯成分的均值向量的梯度向量;fσk表示第k个高斯成分的协方差向量的梯度向量。

步骤s32,将所有高斯成分的均值向量和协方差向量的梯度向量组合,得到每幅训练场景文字图像的特征向量:

f=(fμ1,fσ1,fμ2,fσ2,...,fμk,fσk,...,fμk,fσk),

其中,k表示高斯混合模型中高斯分量的总数目,f表示所述训练场景文字图像最终的特征向量,特征向量的维度是2nk。

步骤s4,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;

步骤s5,按照所述步骤s1-s3获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。

以网上公开的场景文字图像数据库作为测试对象,比如在icdar2003数据库上,当h×w=24×24,hc×wc×n=8×8×64,σ1=0.05,σ2=6,α=1.5时,场景文字识别的正确率为85.08%,由此可见本发明方法的有效性。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1