本发明涉及光学字符识别技术领域,尤其涉及一种文档版面分析方法。
背景技术:
版面分析是光学字符识别(ocr)系统的基本步骤之一,是对文档版面中的图像、文本、表格特征和位置关系进行分析、识别和理解的过程。版面分析结果的优劣会直接影响到ocr后续模块的性能,随着深度学习的发展,基于深度学习的文档版面分析系统逐渐成为主流方法。
由于图像语义分割技术具有像素级别的识别和定位能力,非常适用于文档版面分析任务。众所周知,文字是一种稀疏的非刚体结构,其尺度变化大、结构复杂、种类繁多、含有极为丰富的语义信息。因此,相比于通用物体的图像处理过程,文档版面对图像的缩放操作更加敏感,如果操作不当很容易导致文字严重变形、模糊,甚至丢失其所包含的语义信息。这些原因导致基于语义分割的文档版面分析方法需要输入图像和输出特征图都具有较高的分辨率,才能保证有较高的精确度。但是,高分辨率的文档图像版面分析不仅会增加深度神经网络模型的复杂度,而且也会增加其计算负荷和显存需求。
另一方面,文档版面的结构非常复杂,大多数文档都存在不同版面元素互相嵌套、交叉重叠的现象。如复杂图像作为文字等的页面背景,表格中含有图像,手写字体与打印字体混杂,以及页面中存在深色水印、印章和文字类图标等。然而,通常文本数据的标注方式大都沿袭通用目标检测的标注方法,使用矩形框的大区域块状标注。这种标注方法虽然简便、成本低,但不适合于应用于图像语义分割的数据标注,会降低模型训练的精度。通用的使用多边形标注语义分割数据的方式会严重增加标注成本,而且一个像素还是只能匹配一个标签,并不解决版面元素交叉重叠的问题,这些现象最终都会导致版面元素相互影响,精度低、分割版面杂乱细碎且不规则。
技术实现要素:
为克服相关技术中存在的问题,本发明实施例提供一种文档版面分析方法,能够融合多尺度的输入图像,增加分割网络对不同尺度输入图像的适应能力,降低输入图像缩放操作对模型的影响,针对版面元素的不同属性增加不同的分割网络分支,降低不同版面元素的相互影响。
本发明实施例提供一种文档版面分析方法,包括以下步骤:
将输入的版面图像缩放成3种尺度的图像;
将各个尺度的图像进行特征的提取和融合;
将融合后的图像特征送入分割网络主干进行语义信息特征的提取;
将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合;
根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,同时,将输出的特征图像恢复到预先指定的分辨率,完成文档版面分析。
所述将输入的版面图像缩放成3种尺度的图像,进一步包括以下步骤:
将输入的版面图像进行2倍和0.5倍的缩放操作,获得3种尺度的图像。
所述将多尺度的文本图像进行特征的提取和融合,进一步包括以下步骤:
将所述2倍尺度的版面图像经过输出特征通道数为16、步长为2的3×3的卷积层进行下采样;
与所述原尺度的版面图像的输出特征通道数为32、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第一次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样;
与所述0.5倍尺度的版面图像的输出特征通道数为16、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第二次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样。
进一步地,所述融合后的图像特征送入分割网络主干时分辨率是所述原尺度的版面图像分辨率的1/4,输出特征通道数为64。
进一步地,所述分割网络主干是残差网络,在残差网络的顶端使用密集空洞金字塔池化模块进行多尺度的版面图像的卷积特征的提取,提取后输出特征通道数为256,分辨率为所述原尺度的版面图像分辨率的1/32。
所述将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合,进一步包括以下步骤:
将高语义信息的高层低分辨率特征进行8倍的双线性插值上采样,同时低层高分辨率特征经过一个输出特征通道数为32、步长为1的1×1卷积层进行特征平滑和通道降维;
再与具有丰富空间细节信息的低层高分辨率特征进行融合中,使用特征向量拼接方式和1个3×3卷积层对经过上采样的高层特征和低层特征进行融合,融合后输出特征通道数为320,分辨率为所述原尺度的版面图像分辨率的1/4;
然后分别使用3个输出特征通道数为64、步长为1的3×3或5×5卷积层作为3个不同的分割网络分支的头部来提取属于不同对象属性的特征;
接着,采样双线性插值将特征的分辨率上采样到所述预先指定的分辨率;
最后,使用1个输出特征通道数为64、步长为1的3×3卷积层和1个通道数为所述分割网络分支的分割识别类别数、步长为1的1×1卷积层作为分割网络的顶部识别结构。
进一步地,全部卷积层后都接正则化bn层,激活函数relu层。
进一步地,所述高层特征进行上采样后,与所述低层特征具有相同的分辨率。
进一步地,所述分割网络分支使用1个卷积层进行特征提取和通道降维,使用双线性插值上采样到预先指定的分辨率,使用1个3×3卷积层和1×1卷积层作为分割网络的顶部识别结构。
进一步地,三个分割网络分支的分割识别类别数为2。
本发明的实施例提供的技术方案具有以下有益效果:由于融合了多种尺度的输入图像,增加了分割网络对不同尺度输入图像的适应能力,降低了输入图像缩放操作对模型的影响;另外针对版面元素的不同属性,增加了不同的分割网络分支,降低了不同元素的相互影响,更便于交叉重叠元素的分割,使网络具有识别多类别标签元素的能力;同时,也更利于分割结果的后处理。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例中文档版面分析的流程图。
图2是本发明实施例中图像进行特征的提取和融合的流程图。
图3是本发明实施例中高层特征与低层特征进行融合的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置及相关应用、方法的例子。
本发明的技术方案是为了解决复杂文档版面对图像缩放十分敏感,需要较高分辨率的输入图像和输出特征来保留更多的细节信息,同时,版面数据的标注方式导致不同版面元素互相干扰严重,分割版面杂乱细碎这一问题,而提出的针对多尺度输入图像的多任务版面分割网络mlsnet。
图1是本发明实施例中文档版面分析的流程图。如图1所示,该文档版面分析流程包括以下步骤:
步骤10、首先将同一张输入的版面图像缩放成3种尺度的图像。
具体来说,本步骤是先指定一个输入版面图像和输出特征图像的大小,然后对输入版面图像再分别进行一次2倍和0.5倍的缩放操作。例如输入rgb图像有1536*2048,768*1024,384*512等3种尺度大小,输出特征图像的大小为1024*1536。
步骤11、并将各个尺度的图像进行特征的提取和融合。
如图2所示,本步骤进一步包括步骤:
步骤111、首先将输入的1536*2048尺度的版面图像经过输出特征通道数为16、步长为2(stride=2)的3×3的卷积层进行下采样。
步骤112、再与输入的768*1024尺度的版面图像的输出特征通道数为32、步长为1(stride=1)的3×3卷积特征进行特征向量拼接。
步骤113、接着使用1个输出特征通道数为64、步长为1(stride=1)的3×3卷积层进行第一次特征融合。
步骤114、再使用1个输出特征通道数为64、步长为2(stride=2)的3×3卷积层进行下采样。
步骤115、然后与输入的384*512尺度的版面图像的输出特征通道数为16、步长为1(stride=1)的3×3卷积特征进行特征向量拼接。
步骤116、最后使用1个输出特征通道数为64、步长为1(stride=1)的3×3卷积层进行第二次特征融合。
步骤117、并使用1个输出特征通道数为64、步长为2(stride=2)的3×3卷积层进行下采样。
经过上述特征的提取和融合,图像特征送入分割网络主干时分辨率是原尺度的版面图像分辨率(768*1024)的1/4,输出特征通道数为64,具有较高的分辨率。
步骤12、然后将融合后的图像特征送入分割网络主干进行语义信息的提取。
本实施例中分割网络主干是残差网络(resnet-50),同时在残差网络的顶端使用密集空洞金字塔池化模块(denseaspp)进行多尺度的版面图像的卷积特征的提取,提取后输出特征通道数为256,分辨率为原尺度的版面图像分辨率(768*1024)的1/32。
步骤13、接着将具有高语义信息的高层特征进行上采样,高层特征进行上采样后,与低层特征具有相同的分辨率,再使用特征向量拼接方式和1个3×3卷积层对经过上采样的高层特征与具有丰富空间细节信息的低层特征进行融合。
如图3所示,该融合流程包括以下步骤:
步骤131、将高语义信息的高层低分辨率特征进行8倍的双线性插值上采样,同时低层高分辨率特征经过一个输出特征通道数为32、步长为1(stride=1)的1×1卷积层进行特征平滑和通道降维。
步骤132、再与具有丰富空间细节信息的低层高分辨率特征进行融合中,使用特征向量拼接方式和1个3×3卷积层对经过上采样的高层特征和低层特征进行融合,融合后输出特征通道数为320,分辨率为原尺度的版面图像分辨率(768*1024)的1/4。
步骤133、然后分别使用3个输出特征通道数为64、步长为1(stride=1)的3×3或5×5卷积层作为3个不同的分割网络分支的头部来提取属于不同对象属性的特征。
步骤134、接着,采样双线性插值将特征的分辨率上采样到预先指定的分辨率(1024*1536)。
步骤135、最后,使用1个输出特征通道数为64、步长为1(stride=1)的3×3卷积层和1个通道数为分割网络分支的分割识别类别数、步长为1
(stride=1)的1×1卷积层作为分割网络的顶部识别结构。
全部卷积层后都接正则化bn层,激活函数relu层。
步骤14、最后根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,在这个过程中将输出的特征图像恢复到预先指定的分辨率(1024*1536),完成文档版面分析。
为了降低显存的消耗,每个分割网络分支使用1个卷积层进行特征提取和通道降维,再使用双线性插值上采样到预先指定的分辨率(1024*1536),使用1个3×3卷积层和1×1卷积层作为分割网络的顶部结构。由于标注数据类别的限制,三个分割网络分支的分割识别类别数为2(c1=c2=c3=2)。
采用了上述发明的实施例,由于融合了多种尺度的输入图像,增加了分割网络对不同尺度输入图像的适应能力,降低了输入图像缩放操作对模型的影响;另外针对版面元素的不同属性,增加了不同的分割网络分支,降低了不同元素的相互影响,更便于交叉重叠元素的分割,使网络具有识别多类别标签元素的能力;同时,也更利于分割结果的后处理。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。