一种基于深度学习的藏文古籍版面分析方法和系统

文档序号:30506302发布日期:2022-06-25 00:30阅读:270来源:国知局
一种基于深度学习的藏文古籍版面分析方法和系统

1.本发明涉及版面分析领域,特别是涉及一种基于深度学习的藏文古籍版面分析方法和系统。


背景技术:

2.藏文古籍数量众多,涉及内容广泛,是中国珍贵的文化遗产。但是由于年代久远,保存时间较长以及保存方式不当等原因,导致古籍纸张退化严重,无法供研究人员反复翻阅。因此为了能够更好的对古籍进行研究,迫切需要对藏文古籍文字进行整理,将图像中的文字信息存储为字符内码文件。藏文古籍完全以人工录入的形式完成文字信息整理较为困难,利用自动化识别的方式对其进行版面分析与文字识别可以节省大量的时间成本。而对于自动的计算机分析与识别,由于藏文古籍版面复杂,笔迹退化严重,并且存在大量的笔画粘连、断裂以及噪点现象,大大增加了藏文古籍版面分析与识别的难度。
3.对藏文古籍的研究目前大多使用的自动的计算机分析与识别方法,主要包括以下步骤:第一步,对图像进行色彩校正、二值化、图像方向校正等预处理过程;第二步,利用版面分析技术将预处理后的文档图像分割为文本、图片、注释、修饰以及边框等不同的区域,其中主要目标是获取文本、注释等文字区域以供识别使用;第三步,设计文本行分割方法完成文本区域分割任务,从而将文本行区域分割成一个个单独的文本行。
4.现有处理方法中,将版面分析中每个环节分开进行的方式,所需要计算量较大,时间效率低,每一环节的结果都将对下一环节产生直接影响,一个环节的结果不精确则会导致整个版面分析结果出现大幅度的波动。
5.在二值化阶段,传统的方法难以保证算法的鲁棒性,对存在光照不均、污渍、破损等现象的文档图像往往难以得到清晰的二值图;基于神经网络的方法训练过程复杂,且需要较高质量的数据集才能完成网络模型的训练,而且在处理过程中往往对细节信息无法准确预测,从而使原始文档图像上笔画不粘连的区域产生粘连,给下一阶段的处理造成更多的困难。
6.在文本行切分阶段,传统方法在处理过程中需要更多的计算量,而且往往适用于一种字体,对于不同字体的文档图像,往往需要在实验过程中反复调节参数,此外,切分时需要对行间粘连区域和笔画断裂区域分别进行单独处理,极大的影响了文本行切分速度。例如,预处理阶段(一种藏文古籍文档图像二值化方法及系统申请号:202110226520.4;一种古籍文档图像污渍去除方法申请号:2017107487873)分别通过颜色空间转换和设计网络模型,进行了古籍文档图像二值化和提出了相应的方法;文本行切分阶段(一种藏文古籍文档的行切分方法及系统[p]、cn107944451b;乌金体藏文古籍文档图像的粘连文本行切分方法及系统[p]、cn111626302a)利用基线信息与字符连通域的位置关系,提出了一种文本行切分方法。论文(li x h,yin f,xue t,et al、instance aware document image segmentation using label pyramid networks and deep watershed transformation[c]//2019international conference on document analysis and recognition
(icdar)、2019.)提出了一个基于标签金字塔的版面分析方案,在中英文的文本行分割中取得了较好的结果,但是版面分析结果不理想。


技术实现要素:

[0007]
为解决现有技术存在的上述问题,本发明提供了一种基于深度学习的藏文古籍版面分析方法和系统。
[0008]
为实现上述目的,本发明提供了如下方案:
[0009]
一种基于深度学习的藏文古籍版面分析方法,包括:
[0010]
获取待分析的藏文古籍文档图像;所述待分析的藏文古籍文档图像为藏文古籍文档的整体图像或藏文古籍文档的切片图像;
[0011]
将所述待分析的藏文古籍文档图像输入至训练好的版面分析模型得到藏文古籍版面分析结果;所述版面分析模型采用数据集进行训练;所述数据集包括:原始图像数据集和mask图像数据集;所述版面分析模型包括:分支一、分支二、分支三、分支四和分支五;所述分支一用于进行文本行mask预测;所述分支二用于进行文本行x-height高度位置mask预测;所述分支三用于进行字符区域mask预测;所述分支四用于进行注释信息mask预测;所述分支五用于进行边框线mask预测。
[0012]
优选地,所述数据集的构建过程包括:
[0013]
获取原始图像,以生成原始图像数据集;
[0014]
对所述原始图像数据集中的原始图像进行二值化处理,得到二值化结果图;
[0015]
对所述二值化结果图进行结构元素分割得到结构元素分割结果图;所述结构元素分割结果图包括:边框线mask图像、注释信息mask图像、字符区域mask图像和文本行分割图像;
[0016]
根据所述结构元素分割结果图中的文本行分割图像得到文本行x-height高度位置mask图像;
[0017]
将所述文本行x-height高度位置mask图像与所述文本行分割图像进行按位相加得到叠加图像;
[0018]
对所述叠加图像进行挤压操作得到文本行mask图像;
[0019]
基于所述边框线mask图像、文本行x-height高度位置mask图像、字符区域mask图像、注释信息mask图像和所述文本行mask图像生成mask图像数据集。
[0020]
优选地,所述对所述叠加图像进行挤压操作得到文本行mask图像,具体包括:
[0021]
预设相邻两个文本行间向外侧挤压的最大像素个数和经挤压后相邻两个文本行间的最小像素个数;
[0022]
依据相邻两个文本行的开始坐标位置和结束坐标位置,根据预设最大像素个数和所述最小像素个数确定实际最大向外侧挤压像素个数挤压像素个数;
[0023]
根据实际最大向外侧挤压像素个数调整所述叠加图像得到文本行mask图像。
[0024]
优选地,所述依据相邻两个文本行的开始坐标位置和结束坐标位置,具体包括:
[0025]
当(q
i-pi)-(max
push
+min
dist
)*2≥0时,push
dist
=max
push

[0026]
当(q
i-pi)-(max
push
+min
dist
)*2<0,且(q
i-p
i-min
dist
)//2>0时,push
dist
=(q
i-p
i-min
dist
)//2;
[0027]
当(q
i-pi)-(max
push
+min
dist
)
*
2<0,且(q
i-p
i-min
dist
)//2≤0时,push
dist
=-min
dist

[0028]
其中,//表示取整,qi表示相邻两个文本行的开始坐标位置,pi表示相邻两个文本行的结束坐标位置,max
push
表示预设相邻两个文本行间向外侧挤压的最大像素个数,min
dist
表示预设经挤压后相邻两个文本行间的最小像素个数,push
dist
表示实际最大向外侧挤压像素个数。
[0029]
优选地,对所述版面分析模型进行预测过程中,采用镜像填充法填充所述原始图像数据集中的图像。
[0030]
优选地,对所述版面分析模型进行预测过程中,采用镜像填充法填充所述原始图像数据集中的图像,具体包括:
[0031]
当采用藏文古籍文档的整体图像进行预测时,根据采用的所述藏文古籍文档的整体图像的宽度、高度和所述版面分析模型的下采样次数确定图像左边界、右边界、上边界和下边界的填充尺寸;
[0032]
当采用藏文古籍文档的切片图像进行预测时,使采用的藏文古籍文档的切片图像的左边界、右边界、上边界和下边界的填充尺寸满足预设值。
[0033]
优选地,根据采用的所述藏文古籍文档的整体图像的宽度、高度和所述版面分析模型的下采样次数确定图像左边界、右边界、上边界和下边界的填充尺寸,具体包括:
[0034]
当w%2
p
=0时,则padding
left
=padding
right
=0;
[0035]
当w%2
p
≠0且(2
p-w%2
p
)%2=0时,padding
left
=padding
right
=(2
p-w%2
p
)//2;
[0036]
当w%2
p
≠0且(2
p-w%2
p
)%2≠0时,padding
left
=(2
p-w%2
p
)//2,padding
right
=(2
p-w%2
p
)//2+1;
[0037]
当h%2
p
=0时,padding
top
=padding
bottom
=0;
[0038]
当h%2
p
≠0,且(2
p-h%2
p
)%2=0时,则padding
top
=padding
bottom
=(2
p-h%2
p
)//2;
[0039]
当h%2
p
≠0,且(2
p-h%2
p
)%2≠0时,则padding
top
=(2
p-h%2
p
)//2,padding
bottom
=(2
p-h%2
p
)//2+1;
[0040]
其中,//表示取整,%表示取余,w表示所采用藏文古籍文档的整体图像的宽度,h表示表示所采用藏文古籍文档的整体图像的高度,p表示下采样次数,padding
left
表示左边界的填充尺寸,padding
right
表示右边界的填充尺寸,padding
top
表示上边界的填充尺寸,padding
bottom
表示下边界的填充尺寸。
[0041]
优选地,在进行切片图像预测时,所述预设值为(m-n)/2;其中,m为所采用藏文古籍文档的切片图像的宽度,n为所采用藏文古籍文档的切片图像的高度,其中m为2
p
的整数倍,n为2的整数倍。
[0042]
优选地,对所述版面分析模型进行预测过程中,使用分水岭算法对所述版面分析模型中的文本行mask图像进行分割,之后使用文本行x-height高度位置mask预测结果对满足预设条件的文本行mask图像进行分配,以完成文本行切分预测。
[0043]
根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0044]
本发明提供的基于深度学习的藏文古籍版面分析方法,通过采用训练好的包括有用于进行文本行mask预测的分支、用于进行文本行x-height高度位置mask预测的分支、用
于进行字符区域mask预测的分支、注释信息mask预测的分支,以及用于进行边框线mask预测的分支的版面分析模型,基于藏文古籍文档的整体图像或藏文古籍文档的切片图像就可以实现藏文古籍版面的精确分析。
[0045]
此外,本发明还通过了一种基于深度学习的藏文古籍版面分析系统,该系统包括:处理器和存储器;所述处理器和所述存储器进行数据交互;所述存储器中存储有数据集和计算机软件程序;所述数据集包括:原始图像数据集和mask图像数据集;所述计算机软件程序用于执行上述提供的基于深度学习的藏文古籍版面分析方法。
[0046]
因本发明提供的基于深度学习的藏文古籍版面分析系统实现的技术效果与上述提供的基于深度学习的藏文古籍版面分析方法实现的技术效果相同,故在此不再进行赘述。
附图说明
[0047]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0048]
图1为本发明提供的基于深度学习的藏文古籍版面分析方法的流程图;
[0049]
图2为本发明实施例提供的结构元素分割结果示意图;其中,图2(a)为待分割的原图;图2(b)文本行分割图;图2(c)为边框线mask图;图2(d)为文本行正文字符mask图;图2(e)为注释信息mask图;
[0050]
图3为本发明实施例提供的藏文音节实例图;
[0051]
图4为本发明实施例提供的文本行x-height高度位置图;其中,图4(a)为文本行的x-height高度位置实例图;图4(b)为文本行的x-height高度位置mask图;
[0052]
图5为本发明实施例提供的实际最大向外侧挤压像素个数确定流程图;
[0053]
图6为本发明实施例提供的文本行内部存在较大空隙的示意图;
[0054]
图7为本发明实施例提供的文本行分割图与文本行x-height高度位置图像叠加图;
[0055]
图8为本发明实施例提供的预设相邻两个文本行间向外侧挤压的最大像素个数和经挤压后相邻两个文本行间最小像素个数为不同值时生成的文本行mask图像;其中,图8(a)为原始图像,图8(b)为预设相邻两个文本行间最大向外侧挤压像素个数为-2,预设经挤压操作后相邻两个文本行间最小像素个数为3时生成的文本行mask图像;图8(c)为预设相邻两个文本行间最大向外侧挤压像素个数为0,预设经挤压操作后相邻两个文本行间最小像素个数为3时生成的文本行mask图像;图8(d)为预设相邻两个文本行间最大向外侧挤压像素个数为2,预设经挤压操作后相邻两个文本行间最小像素个数为3时生成的文本行mask图像;图8(e)为预设相邻两个文本行间最大向外侧挤压像素个数为3,预设经挤压操作后相邻两个文本行间最小像素个数为3时生成的文本行mask图像;
[0056]
图9为本发明实施例提供的样本集的示意图;其中,图9(a)为样本集中的原图;图9(b)为样本集中的边框线mask图;图9(c)为样本集中的注释信息mask图;图9(d)为样本集中的字符区域mask图;图9(e)为样本集中的文本行x-height高度位置mask图;图9(f)为样本
集中预设相邻两个文本行间最大向外侧挤压像素个数为3,预设经挤压操作后相邻两个文本行间最小像素个数为3时生成的文本行mask图像;
[0057]
图10为本发明实施例提供的镜像填充方法实施流程图;
[0058]
图11为本发明实施例提供的采用基于深度学习的藏文古籍版面分析方法进行版面分析的整体流程框架图;
[0059]
图12为本发明实施例提供的藏文古籍版面分析模型的结构示意图;
[0060]
图13为本发明实施例提供的版面分析结果示意图;其中图13(a)为待预测的乌金体藏文古籍文档图;图13(b)为得到的待预测的乌金体藏文古籍文档图的文本行分割结果图;图13(c)为待预测的乌金体藏文古籍文档图的版面分析结果示意图;
[0061]
图14为本发明提供的基于深度学习的藏文古籍版面分析系统的结构示意图;
[0062]
图15为本发明实施例提供的镜像填充计算方法的计算机软件程序图;
[0063]
图16为本发明实施例提供的确定实际最大向外侧挤压像素个数的计算机软件程序图。
具体实施方式
[0064]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0065]
本发明的目的是提供一种基于深度学习的藏文古籍版面分析方法和系统,能够提高藏文古籍版面分析结果的精确度。
[0066]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0067]
如图1,本发明提供的基于深度学习的藏文古籍版面分析方法,包括:
[0068]
步骤100:获取待分析的藏文古籍文档图像。待分析的藏文古籍文档图像为藏文古籍文档的整体图像或藏文古籍文档的切片图像。
[0069]
步骤101:将待分析的藏文古籍文档图像输入至训练好的版面分析模型得到藏文古籍版面分析结果。版面分析模型采用数据集进行训练和预测。数据集包括:原始图像数据集和mask图像数据集。版面分析模型包括:分支一、分支二、分支三、分支四和分支五。分支一用于进行文本行mask预测。分支二用于进行文本行x-height高度位置mask预测。分支三用于进行字符区域mask预测。分支四用于进行注释信息mask预测。分支五用于进行边框线mask预测。其中,版面分析模型的结构如图12所示。
[0070]
其中,上述所采用数据集的构建过程包括:
[0071]
步骤102:获取原始图像,以生成原始图像数据集。
[0072]
步骤103:对原始图像数据集中的原始图像进行二值化处理,得到二值化结果图。
[0073]
步骤104:对二值化结果图进行结构元素分割得到结构元素分割结果图。结构元素分割结果图包括:边框线mask图像、注释信息mask图像和文本行分割图像。
[0074]
步骤105:根据结构元素分割结果图中的文本行分割图像得到文本行x-height高度位置mask图像。
[0075]
步骤106:将文本行x-height高度位置mask图像与文本行分割图像进行按位相加得到叠加图像。
[0076]
步骤107:对叠加图像进行挤压操作得到文本行mask图像。该步骤具体包括:
[0077]
步骤1071:预设相邻两个文本行间向外侧挤压的最大像素个数和经挤压后相邻两个文本行间的最小像素个数。
[0078]
步骤1072:依据相邻两个文本行的开始坐标位置和结束坐标位置,根据预设最大像素个数和预设最小像素个数确定实际最大向外侧挤压像素个数。如图5所示,实际最大向外侧挤压像素个数的确定过程具体如下:
[0079]
当(q
i-pi)-(max
push
+min
dist
)*2≥0时,push
dist
=max
push

[0080]
当(q
i-pi)-(max
push
+min
dist
)*2<0,且(q
i-p
i-min
dist
)//2>0时,push
dist
=(q
i-p
i-min
dist
)//2;
[0081]
当(q
i-pi)-(max
push
+min
dist
)*2<0,且(q
i-p
i-min
dist
)//2≤0时,push
dist
=-min
dist

[0082]
其中,//表示取整,qi表示相邻两个文本行的开始坐标位置,pi表示相邻两个文本行的结束坐标位置,max
push
表示预设相邻两个文本行间向外侧挤压的最大像素个数,min
dist
表示预设经挤压后相邻两个文本行间的最小像素个数,push
dist
表示实际最大向外侧挤压像素个数。
[0083]
步骤1073:根据实际最大向外侧挤压像素个数调整叠加图像得到文本行mask图像。
[0084]
步骤108:基于所述边框线mask图像、文本行x-height高度位置mask图像、字符区域mask图像、注释信息mask图像和所述文本行mask图像生成mask图像数据集。
[0085]
进一步,对版面分析模型进行预测过程中,采用镜像填充法填充原始图像数据集中的图像,具体包括:
[0086]
当采用藏文古籍文档的整体图像进行预测时,根据采用的藏文古籍文档的整体图像的宽度、高度和版面分析模型的下采样次数确定图像左边界、右边界、上边界和下边界的填充尺寸。例如,如图10所示,填充尺寸的确定过程可以是:当w%2
p
=0时,则padding
left
=padding
right
=0。当w%2
p
≠0且(2
p-w%2
p
)%2=0时,padding
left
=padding
right
=(2
p-w%2
p
)//2。当w%2
p
≠0且(2
p-w%2
p
)%2≠0时,padding
left
=(2
p-w%2
p
)//2,padding
right
=(2
p-w%2
p
)//2+1。当h%2
p
=0时,padding
top
=padding
bottom
=0。当h%2
p
≠0,且(2
p-h%2
p
)%2=0时,则padding
top
=padding
bottom
=(2
p-h%2
p
)//2。当h%2
p
≠0,且(2
p-h%2
p
)%2≠0时,则padding
top
=(2
p-h%2
p
)//2,padding
bottom
=(2
p-h%2
p
)//2+1。其中,//表示取整,%表示取余,w表示所采用藏文古籍文档的整体图像的宽度,h表示表示所采用藏文古籍文档的整体图像的高度,p表示下采样次数,padding
left
表示左边界的填充尺寸,padding
right
表示右边界的填充尺寸,padding
top
表示上边界的填充尺寸,padding
bottom
表示下边界的填充尺寸。
[0087]
当采用藏文古籍文档的切片图像进行预测时,使采用的藏文古籍文档的切片图像的左边界、右边界、上边界和下边界的填充尺寸满足预设值。例如,预设值可以设置为(m-n)/2。其中,m为所采用藏文古籍文档的切片图像的宽度,n为所采用藏文古籍文档的切片图像的高度,其中m为2
p
整数倍,n为2的整数倍。
[0088]
进一步,对版面分析模型进行预测过程中,使用分水岭算法对版面分析模型中的文本行mask图像进行分割,之后使用文本行x-height高度位置mask预测结果对满足预设条件的文本行mask图像进行分配,以完成文本行切分预测。例如,如果某个mask的高度小于文本行x-height高度位置mask高度的1/2,则认定为分水岭产生的过切分图像块,如果该mask经过某一文本行的高度位置区域则将该mask分配给x-height所在文本行的mask中,否则分配给最近的文本行mask中,最终得到文本行分割结果。断裂笔画归属和粘连笔画切分均由文本行mask预测自动完成,不需要进行额外的处理,该方法大大降低了文本行分割的难度并提高了分割速度。
[0089]
此外,本发明还通过了一种基于深度学习的藏文古籍版面分析系统,如图14所示,该系统包括:处理器200和存储器201。处理器200和存储器201进行数据交互。存储器201中存储有数据集和计算机软件程序。数据集包括:原始图像数据集和mask图像数据集。计算机软件程序用于执行上述提供的基于深度学习的藏文古籍版面分析方法。其中,存储器201可以是计算机可读存储介质。
[0090]
下面基于机器运行的角度,以对乌金体藏文古籍进行版面分析为例对上面提供的技术方案的具体实施过程进行举例说明,在实际应用中不限于此。
[0091]
为了能够实施上述提供的技术方案,其核心工作主要包括:数据集建设和版面分析流程。
[0092]
a、数据集建设
[0093]
第一步、二值化。对原始文档图像进行二值化处理,此处二值化过程采用u-net等网络模型或者ostu等传统二值化算法得到。
[0094]
第二步、结构元素分割并获取边框线mask图像、注释信息mask图像、字符区域mask图像和文本行分割图像。
[0095]
不同文本行区域、边框线、注释信息以及文本行正文字符均为不同的结构元素。通过切分方法的方式对得到的二值化图像进行不同文本行区域、边框线、注释信息以及字符进行分割,并通过人工方式对部分细节进行修正,从而得到结构元素分割结果图像,如图2所示,直接将边框线、注释信息以及字符区域的分割结果分别作为其mask,并保存不同文本行分割图像以供获取文本行x-height高度位置mask图像过程中使用。
[0096]
第三步、获取文本行x-height高度位置mask图像。根据乌金体藏文古籍文本行特点,对结构元素分割结果图像中的文本行分割图进行局部水平投影,获取局部基线位置,然后通过人工方式对局部基线进行修正,从而得到准确的局部基线位置,最后得到x-height的mask图像。精细的局部基线打标过程将耗费大量的时间,因此选取局部基线作为某行文字局部范围内的基线位置。
[0097]
在进行人工修正时,由于不同人对基线位置的判断会有差异而使局部基线精准度下降。同时作为一个线条的基线使其检测难度增加,此外由于每个字符都有不同数量的水平笔画,这些水平笔画会干扰基线检测进而增大了基线检测的难度,使基线检测的错误率增加。而对x-height进行预测,则可以让网络模型更容易的利用字符的特征信息和文本行的特征信息,降低检测的难度,此外和一个线条的基线相比,x-height是一个范围,其容错率更高,最后根据x-height的定义,可以很容易的从x-height的预测结果中推导出基线的位置。
[0098]
不同于其他字符,藏文字符的书写从基线的第一笔划开始,按照基线位置从左到右进行对齐排列,该隐线就是文本行的基线位置。藏文是拼音文字,有30个字母4个元音组成。藏文的句子由词构成,词由不同的音节组成,音节之间用隔音符即音节点分开,音节点也和基线位置对齐。一个音节最多由基字、上加字、下加字、前加字、后加字、又后加字和元音7个部件组成,每个纵向单位称为字丁,如图3所示就是一个4字丁的音节。除了基字外其它成分都可省略或部分省略,并按照音节的拼写规则,就可形成单字丁的音节、双字丁的音节、三字丁的音节和四字丁的音节。藏文的字母有长腿和短腿之分,因此我们定义从基线向下延伸至短腿字符的高度位置为x-height,如图4(a)所示每个文本行都有其x-height,乌金体藏文古籍文本充分体现了这一特点,图4(b)为文本行的x-height高度位置mask图像。
[0099]
第四步、获取文本行mask图像。根据文本行分割图记录相邻文本行位置信息,然后计算其mask位置。在计算相邻文本行mask位置过程中,为了防止膨胀腐蚀运算处理会导致标注图像出现一些不可控的情况,同时也为了得到精细的标注数据,设计和提出了一种基于挤压原理的方法,对文本行mask进行标注,该方法可以精准的控制相邻文本行间mask的大小范围。这种方式进行mask标注可以将粘连区域自动断开,降低文本行之间笔划粘连切分的难度,同时将文字笔划断裂区域自动归属到文本行的mask中,降低字符笔划因断裂而造成分配给正确文本行的难度,从而在mask的制作过程中解决了笔划粘连和笔划断裂的问题。通过这种方式进行mask制作将使网络模型在训练过程中完成行间笔划粘连的切分和笔划断裂分配给正确行的问题,极大的降低了文本行切分的困难。
[0100]
定义一个水平方向上i的位置中,qi和pi分别表示相邻上下两个文本行开始和结束的坐标位置,max
push
代表预设相邻两个文本行间向外侧挤压的最大像素个数,min
dist
代表预设相邻两个文本行间经挤压后的最小像素个数,push
dist
代表实际最大向外侧挤压像素个数。实际最大向外侧挤压像素个数将根据与相邻元素的最大像素个数动态调节,以保证挤压过程中不产生相邻文本行mask交叠的现象,因此在实际的挤压过程中,实际最大的向外侧挤压像素个数push
dist
的具体计算过程如图5所示,其计算机实施程序如图16所示。
[0101]
基于上述计算过程,由于部分文本行内部存在较大的空隙,如图6所示,这些空隙可能会导致一个文本行生成多个mask,因此本发明将x-height高度位置mask图像与文本行分割图进行按位相加从而生成叠加图,如图7所示,从而将行内间隙进行填充,之后对叠加图使用基于挤压原理确定的最大向外侧挤压像素个数进行处理。
[0102]
最终,当max
push
、min
dist
取值不同时生成的文本行mask图像如图8所示。
[0103]
通过以上步骤可以得到212张原始图像与其对应的边框线mask图像、文本行x-height高度位置mask图像、字符区域mask图像、注释信息mask图像以及文本行mask图像作为样本集,如图9所示。
[0104]
b、版面分析流程
[0105]
本发明所采用的版面分析算法流程如图11所示,具体包括:
[0106]
第一步、数据集预处理。由于gpu性能限制,所以难以完成整张图像的训练,因此需要对图像进行切片处理。为了得到标注数据的完整切片结果,首先按照从左到右、从上到下的顺序进行图像顺序切分,从而完成完整图像的切片,该过程将保证每张图像中的全部信息均能用于网络模型的训练,得到图像顺序切片样本集。此外,为了增加样本数量与多样性,再对图像进行随机位置选取并进行切片,得到图像随机切片样本集。图像顺序切片样本
集与图像随机切片样本集共同组成训练数据集。
[0107]
第二步、数据读取。数据读取模块将数据集从存储介质中读取到内存、显存中。
[0108]
第三步、数据增广。对读取到的图像进行随机数据增广,包括加入旋转、平移和翻转等图像处理操作,此过程需要将原始图像与mask图像数据集同时进行处理。
[0109]
第四步、网络模型定义。定义网络模型(即版面分析模型)结构,包括不同的主干网络、不同任务分支设置、网络模型超参数以及损失函数等设定,本发明中提出的网络模型结构如图12所示,在本发明样例图中,从上到下依次为分支一、分支二、分支三、分支四以及分支五,其中分支一进行文本行mask预测、分支二进行文本行x-height高度位置mask预测、分支三进行字符区域mask预测、分支四进行注释信息mask预测、分支五进行边框线mask预测。在实际使用过程中可以根据任务需求增加或删除任务分支。
[0110]
第五步、模型训练及保存。使用优化函数不断优化网络模型输出的结果与标注mask图像之间的损失值,并完成网络模型的训练,之后将训练后的网络模型进行持久化保存。
[0111]
第六步、模型预测。提供两种预测方式,整张文档图像预测以及文档图像切片预测。整张图像预测是将整张图像直接进行预测。切片预测是将待测试图像进行切片,然后调用网络模型对切片后的图像进行预测,最后将切片后的图像进行拼接完成图像预测。
[0112]
由于切片图像边缘部分预测效果较差,因此本发明采用交叉切片的方式完成图像预测,即使用m
×
m的尺寸对图像进行切片,但仅仅选取其中n
×
n的结果作为预测信息,其中m>n。
[0113]
本发明的网络模型,在进行特征提取时进行了4次下采样,因此在预测过程必须保证输入图像可以被2的4次方整除,所以在预测过程中,首先需要将图像尺寸进行调整,本发明提出了一种镜像填充方案。
[0114]
针对整张图像预测的情况需要考虑整张图像的宽度w、高度h和下采样次数p的关系,从而计算得到图像上边界填充的尺寸padding
top
、下边界填充的尺寸padding
bottom
、左边界填充的尺寸padding
left
、右边界填充的尺寸padding
right
,镜像填充计算方法如图10所示。实施该镜像填充计算方法的计算机软件程序如图15所示。
[0115]
图像切片预测过程中,切片图像尺寸m必须是2
p
的整数倍,n是2的整数倍。针对图像边缘区域切片过程中图像上边界填充的尺寸padding
top
、下边界填充的尺寸padding
bottom
、左边界填充的尺寸padding
left
、右边界填充的尺寸padding
right
均等于(m-n)/2。
[0116]
第七步、文本行切分。使用分水岭算法对网络模型文本行mask的预测图进行分割,之后使用x-height检测结果对较小的分割图mask进行分配。具体的,如果某个mask高度小于x-height高度的1/2,则认定为分水岭产生的过切分图像块,如果该mask经过某一文本行的x-height区域则将该mask分配给x-height所在文本行的mask中,否则分配给最近的文本行mask中,最终得到文本行分割结果。断裂笔画归属和粘连笔画切分均由文本行mask预测自动完成,不需要进行额外的处理,该方法大大降低了文本行分割的难度并提高了分割速度。
[0117]
当输入乌金体藏文古籍文档图像如图13(a)所示时,得到的文本行分割结果如图13(b)所示。
[0118]
第八步、版面分析。网络模型中分支二、分支三、分支四和分支五分别对应于文本行x-height高度位置mask、字符区域mask、注释信息mask以及边框线mask,其结果即为版面分析的结果。版面分析工程将对每个像素点进行预测,大大提高了版面分析的精准度。
[0119]
当输入乌金体藏文古籍文档图像如图13(a)所示时,得到的版面分析结果如图13(c)所示。
[0120]
基于上述描述,相对于现有技术,本发明提供的技术方案具有以下优点:
[0121]
1、将文本行之间的粘连切分、笔画断裂归属的问题转换为mask制作的问题,为自动化的结构元素切分提供了解决方案。
[0122]
2、适用于藏文古籍版面分析的多分支网络结构,可以精确完成像素级的版面分割任务。
[0123]
3、对乌金体藏文文档图像文本行的x-height进行了定义和利用,可以进一步提高分割结果精确性。
[0124]
4、本发明提出的数据集标注方案可以通过二值图像对版面分析数据集进行快速的制作,而且在制作过程中可以根据需求修改不同的参数,从而得到像素级版面数据标记,能够填充针对乌金体藏文古籍的版面分析数据集制作的技术空白。
[0125]
5、本发明通过对多分支网络模型建模使每个分支进行不同任务的处理,最后完成像素级版面分割任务,可以简单、有效的解决藏文古籍版面结构复杂,行间字符存在大量的粘连、断裂、交叉等问题。
[0126]
6、该模型具有多个分支可以根据不同级别的任务进行分支数量的调整,具有极强的可扩展性。
[0127]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0128]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1