文稿页面方向检测方法和装置的制作方法

文档序号:6598855阅读:160来源:国知局
专利名称:文稿页面方向检测方法和装置的制作方法
技术领域
本发明涉及图像处理领域,具体而言,涉及一种文稿页面方向检测方法和装置。
背景技术
尽管数字化文件交换已经逐渐成为现代通信的主流方式,但是合同和有价纸张等具有法律效应和需要认证的内容仍然需要以纸质文档形式加以传递和存储。对此类纸质文档的管理以及内容的传递,则需要通过扫描的方式加以数字化。在日常办公及文档集中管理机构,大批量纸质文档扫描的业务需求都是巨大的。在大批量文档扫描过程中需要将将所有文档按照正向排布。事后对文档方向的校正分为两种方法,一种仍然是由人工一页一页浏览并旋转图像,另一种方式就是通过计算机程序自动识别文档图像的方向并将其转正。事后自动文档方向判别又分为两种方法一种是通过OCR (Optical Character Recognition,光学字符识别)技术对文档图像中的文字进行识别从而判断页面方向,另一种方法是通过特征识别算法判断页面方向。有关文稿页面检测技术,国内外也有相关的专利和文献。1991年美国专利 US5276742 “快速页面方向检测”中提出了罗马字符的上下起伏与文字书写方向之间的关系。1998年,贝尔实验研究人员在文章“复杂、无定向以及不清晰文档图像的语言识别”提出了一种与亚洲文字书写方向相关联的特征。以上这些专利和文献都集中在探寻文稿页面中字符或者标点特征与书写方向之间的关系。然而实际文稿页面扫描图像往往由复杂的内容交杂而成。其中包括图像、文字、数字、标点,并且随着国际交流的增加,一个页面中常常还包含多种语言不同字体和尺寸的文字。现有技术中对于复杂的文稿页面,无法得到正确的检测结果。

发明内容
本发明旨在提供一种文稿页面方向检测方法和装置,能够解决现有技术中对于复杂的文稿页面,无法得到正确的检测结果的问题。同时,还提供了一种文稿页面方向检测结果的置信度计算方法,以提供判别方向检测结果是否可用的依据。根据本发明的一个方面,提供了一种文稿页面方向检测方法,包括以下步骤对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定多个文字单元的语言类别属性;针对语言类别属性获取多个文字单元的书写方向属性特征值,并将其纳入相应的全局统计量中;根据全局统计量中各书写方向属性特征值分别得到针对各书写方向属性特征值的页面方向及对应的置信度;根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度。根据本发明的另一个方面,还提供了一种文稿页面方向检测装置,包括拆分模块,用于对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定多个文字单元的语言类别属性;第一计算模块,用于针对语言类别属性获取多个文字单元的书写方向属性特征值,并将其纳入相应的全局统计量中;第二计算模块,用于根据全局统计量中各书写方向属性特征值分别得到针对各书写方向属性特征值的页面方向及对应的置信度; 第三计算模块,用于根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度。在本发明中,通过将文稿页面图文分离后的文字区域拆分为文字单元,进而根据文字单元的语言类别属性得到针对各书写方向属性特征值的页面方向及对应的置信度,最后根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度,实现了文稿页面方向的自动确定,并提供整体置信度供用户确定判定结果是否可用,克服了现有技术中对于复杂的文稿页面,无法得到正确的检测结果的问题。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1示出了根据本发明一个实施例的文稿页面方向检测方法流程图;图2示出了一张日本报纸的文稿页面的屏幕效果示意图;图3示出了文字单元处于不同方向的文稿页面示意图;图4示出了根据本发明一个优选实施例的文稿页面示意图;图5示出了根据本发明一个实施例的文稿页面方向检测装置示意图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。图1示出了根据本发明一个实施例的文稿页面方向检测方法流程图,包括以下步骤S102,对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定多个文字单元的语言类别属性;S104,针对语言类别属性获取多个文字单元的书写方向属性特征值,并将其纳入相应的全局统计量中;S106,根据全局统计量中各书写方向属性特征值分别得到针对各书写方向属性特征值的页面方向及对应的置信度;S108,根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度。在本实施例中,通过将文稿页面图文分离后的文字区域拆分为文字单元,进而根据文字单元的语言类别属性得到针对各书写方向属性特征值的页面方向及对应的置信度, 最后根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度,实现了文稿页面方向的自动确定,并提供整体置信度供用户确定判定结果是否可用,克服了现有技术中对于复杂的文稿页面,无法得到正确的检测结果的问题。优选地,在上述的文稿页面方向检测方法中,对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元具体包括将文稿页面的图像二值化后进行连通域检测;分别按照水平和竖直方向对检测到的连通域进行行检测;根据连成行的连通域的行内连通域
5数量、行内连通域尺寸及相对位置关系、行内连通域复杂度确定连通域是否为文字行;将确定为文字行的连通域作为文字区域,并对文字行进行分割得到文字单元。在本实施例中,通过文字单元的拆分得到单词(较短文字行,主要是罗马文字)或者句子(较长文字行,主要是亚洲文字)。在本发明的实施例中对有效连通域进行分析来确定文字行及语言类别属性。有效连通域是指沿着扫描方向不重叠的连通域。满足有效连通域尺寸(沿扫描法向的尺度)和沿扫描方向的中心位置变化幅度均不超过30 %的连通域行是文字行。行内连通域数量超过 16个的一般是亚洲语言文字段。对于行内连通域数量不超过16个且复杂度满足要求的连通域数量占到行内连通域总数25%以上的一般是罗马文字行。例如,书刊报纸杂志等页面内容丰富,主要可分为文字区域与图像区域,文字区域又可进一步划分为罗马字符语言文字区域和亚洲语言文字区域。且亚洲语言文字的书写方向可分为横写和纵写两种类别,罗马字符语言文字的书写方向则仅有横写类别。图2示出了一张日本报纸的文稿页面的屏幕效果示意图,如图2所示,包含图像区域21和文字区域。同一张页面中同时出现了横写书写方式的文字区域22以及纵写方式的文字区域23。图3示出了文字单元处于不同方向的文稿页面示意图,如图3所示,同一页面中的文字单元可能出现不同方向的情况,文字区域32中文字单元的局部方向为朝上,而文字区域32中文字单元的局部方向为朝左,对于这样的情况,后续的综合分析步骤将会结合各自文字数量分布比重,给出最终页面方向的判断结果。图3所示实施例中包含了两种书写方向,但是所有字符的书写方向特征值进行整体统计后,由向上的书写方向特征值占优, 因此最终页面方向被判别为向上。因此,图文混合、多语言(亚洲、欧洲)混合的文稿页面方向的判别需要对各个文字区域进行分析,提高了判别结果的准确度。优选地,在上述的文稿页面方向检测方法中,对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定多个文字单元的语言类别属性具体包括根据文字单元的文字连通域内部连通域的尺寸、形态及相对位置关系确定其语言属性特征值;将语言属性特征值与数据库中预存的相应参考值相比较,确定文字单元的语言类别属性。在上述实施例中,通过连通域复杂度度量确定该连通域是否为罗马字符。连通域复杂度主要是以沿扫描方向法向的负值内部连通域数量及相对位置关系来定义的。优选地,在上述的文稿页面方向检测方法中,根据全局统计量中各书写方向属性特征值分别得到针对各书写方向属性特征值的页面方向及对应的置信度具体包括将各书写方向属性特征值与数据库中预存的参考值相比较,确定针对各书写方向属性特征值的页面方向及对应的置信度。在本实施例中,对用以判别文稿页面方向的每个特征值分别进行统计,得到文稿页面方向以及依据该特征值判别得到的页面方向的置信度,置信度是通过每个特征的强弱来确定的。例如,依据标点符号在四个相限内的分布数量特征判别的文稿页面方向的置信度,是由标点符号在四个象限中的最大数量和占标点符号总数比例来计算的。在单一象限内标点符号的最大值越大、该最大值占标点符号总数比例越大,则依据标点符号判别得到的页面方向置信度就越高,反之则越低。而最终的文稿页面方向和置信度由几个针对不同特征值的判别结果综合分析得到。可以通过取几个页面方向判别结果中置信度最大的方向为最终页面方向。最终的整体置信度是以特征置信度中最大值为基础进行增强或者削弱得到。如果次最大置信度方向与最大置信度方向一致则整体置信度在最大特征方向置信度基础上进一步提升,反之则降低最大特征方向置信度得到最终整体置信度。图4示出了根据本发明一个优选实施例的文稿页面示意图,如图4所示,经过文字行检测和组词组句后,得到一些待选文字片段。经过待选文字片断中每个字符语言特征分析,能够区分出来文字片段是否为罗马单词。对确定为罗马单词中的每一个字符进行罗马文字书写方向特征(罗特征1、罗特征2等)抽取,对非罗马文字片段中的每一个字符进行亚洲文字书写方向特征(亚特征1、亚特征2等)抽取。将抽取得到的特征值分别加入亚洲文字书写方向特征统计量(亚统计1、亚统计2等)和罗马文字书写方向特征统计量(罗统计1、罗统计2等)。对亚洲语言和罗马语言的各种特征统计值进行分析能够得到对应于每种统计值的页面方向判别结果和置信度(亚统计1_方向,亚统计1_置信度;亚统计2_方向,亚统计2_置信度;罗统计1_方向,罗统计1_置信度;罗统计2_方向,罗统计2_置信度;等等)。最后综合对比分析所有的特征方向和置信度得到页面整体方向和置信度。在本发明的实施例中,以具有最高置信度的特征方向为页面方向。如果次高置信度特征方向与最高置信度特征方向一致,则页面置信度在最高置信度基础上上浮(如 20%),相反则削弱(如20%)。例如图4实施例中“亚统计1_置信度”在“亚统计1_置信度”、“亚统计2_置信度”、“罗统计1_置信度”、“罗统计2_置信度”最大,则页面方向为“亚统计1_方向”。如果 “罗统计2_置信度”为次大置信度,且“亚统计2_方向”与“亚统计1_方向” 一致,则页面方向置信度为“亚统计1_置信度” *120%。优选地,在上述的文稿页面方向检测方法中,文字单元包括以下至少一种罗马单词、亚洲文字段和标点符号。优选地,在上述的文稿页面方向检测方法中,语言类别包括以下至少一种亚洲语言类别和罗马字符语言类别。优选地,在上述的文稿页面方向检测方法中,书写方向特征包括以下至少一种亚洲文字的撇捺特征、罗马字符语言文字的开口方向特征、上下起伏特征以及标点符号相对于文字的位置特征。图5示出了根据本发明一个实施例的文稿页面方向检测装置示意图,包括拆分模块10,用于对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定多个文字单元的语言类别属性;第一计算模块20,用于针对语言类别属性获取多个文字单元的书写方向属性特征值,并将其纳入相应的全局统计量中;第二计算模块30,用于根据全局统计量中各书写方向属性特征值分别得到针对各书写方向属性特征值的页面方向及对应的置信度;第三计算模块40,用于根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度。在本实施例中,通过将文稿页面图文分离后的文字区域拆分为文字单元,进而根据文字单元的语言类别属性得到针对各书写方向属性特征值的页面方向及对应的置信度,
7最后根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度,实现了文稿页面方向的自动确定,并提供整体置信度供用户确定判定结果是否可用,克服了现有技术中对于复杂的文稿页面,无法得到正确的检测结果的问题。优选地,在上述的文稿页面方向检测装置中,拆分模块具体包括连通域检测单元,用于将文稿页面的图像二值化后进行连通域检测;行检测单元,用于分别按照水平和竖直方向对检测到的连通域进行行检测;文字行确定单元,用于根据连成行的连通域的行内连通域数量、行内连通域尺寸及相对位置关系、行内连通域复杂度确定连通域是否为文字行;分割单元,用于将确定为文字行的连通域作为文字区域,并对文字行进行分割得到文字单元。在本实施例中,通过文字单元的拆分得到单词(较短文字行,主要是罗马文字)或者句子(较长文字行,主要是亚洲文字)。例如,书刊报纸杂志等页面内容丰富,主要可分为文字区域与图像区域,文字区域又可进一步划分为罗马字符语言文字区域和亚洲语言文字区域。且亚洲语言文字的书写方向可分为横写和纵写两种类别,罗马字符语言文字的书写方向则仅有横写类别。图2示出了一张日本报纸的文稿页面示意图,如图2所示,包含图像区域21和文字区域。同一张页面中同时出现了横写书写方式的文字区域22以及纵写方式的文字区域 23。图3示出了文字单元处于不同方向的文稿页面示意图,如图3所示,同一页面中的文字单元可能出现不同方向的情况,文字区域32中文字单元的局部方向为朝上,而文字区域32 中文字单元的局部方向为朝左,对于这样的情况,后续的综合分析步骤将会结合各自文字数量分布比重,给出最终页面方向的判断结果。因此,图文混合、多语言(亚洲、欧洲)混合的文稿页面方向的判别需要对各个文字区域进行分析,提高了判别结果的准确度。优选地,在上述的文稿页面方向检测装置中,第一计算模块具体包括属性特征值单元,用于根据文字单元的文字连通域内部连通域的尺寸、形态及相对位置关系确定其语言属性特征值;第一比较单元,用于将语言属性特征值与数据库中预存的相应参考值相比较,确定文字单元的语言类别属性。语言属性特征值是用以判断每个文字单元属于何种语言类别的特征。优选地,在上述的文稿页面方向检测装置中,第二计算模块具体包括第二比较单元,用于将各书写方向属性特征值与数据库中预存的参考值相比较,确定针对各书写方向属性特征值的页面方向及对应的置信度。在本实施例中,对用以判别文稿页面方向的每个特征值分别进行统计,得到文稿页面方向以及依据该特征值判别得到的页面方向的置信度,置信度是通过每个特征的强弱来确定的。例如,依据标点符号在四个相限内的分布数量特征判别的文稿页面方向的置信度,是由标点符号在四个象限中的最大数量和占标点符号总数比例来计算的。在单一象限内标点符号的最大值越大、该最大值占标点符号总数比例越大,则依据标点符号判别得到的页面方向置信度就越高,反之则越低。而最终的文稿页面方向和置信度由几个针对不同特征值的判别结果综合分析得到。可以通过取几个页面方向判别结果中置信度最大的方向为最终页面方向。最终的整体置信度是以特征置信度中最大值为基础进行增强或者削弱得到。如果次最大置信度方向与最大置信度方向一致则整体置信度在最大特征方向置信度基础上进一步提升,反之则降低最大特征方向置信度得到最终整体置信度。优选地,在上述的文稿页面方向检测装置中,文字单元包括以下至少一种罗马单词、亚洲文字段和标点符号。优选地,在上述的文稿页面方向检测装置中,语言类别包括以下至少一种亚洲语言类别和罗马字符语言类别。优选地,在上述的文稿页面方向检测装置中,书写方向特征包括以下至少一种亚洲文字的撇捺特征、罗马字符语言文字的开口方向特征、上下起伏特征以及标点符号相对于文字的位置特征。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种文稿页面方向检测方法,其特征在于,包括以下步骤对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定所述多个文字单元的语言类别属性;针对所述语言类别属性获取所述多个文字单元的书写方向属性特征值,并将其纳入相应的全局统计量中;根据所述全局统计量中各书写方向属性特征值分别得到针对所述各书写方向属性特征值的页面方向及对应的置信度;根据所述各书写方向属性特征值的页面方向及对应的置信度确定所述文稿页面的方向以及其对应的整体置信度。
2.根据权利要求1所述的文稿页面方向检测方法,其特征在于,对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元具体包括将文稿页面的图像二值化后进行连通域检测;分别按照水平和竖直方向对检测到的连通域进行行检测;根据连成行的所述连通域的行内连通域数量、行内连通域尺寸及相对位置关系、行内连通域复杂度确定所述连通域是否为文字行;将确定为文字行的所述连通域作为文字区域,并对所述文字行进行分割得到文字单兀。
3.根据权利要求2所述的文稿页面方向检测方法,其特征在于,对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定所述多个文字单元的语言类别属性具体还包括根据所述文字单元的文字连通域内部连通域的尺寸、形态及相对位置关系确定其语言属性特征值;将所述语言属性特征值与数据库中预存的相应参考值相比较,确定所述文字单元的语言类别属性。
4.根据权利要求1所述的文稿页面方向检测方法,其特征在于,根据所述全局统计量中各书写方向属性特征值分别得到针对所述各书写方向属性特征值的页面方向及对应的置信度具体包括将所述各书写方向属性特征值与数据库中预存的参考值相比较,确定针对所述各书写方向属性特征值的页面方向及对应的置信度。
5.根据权利要求1所述的文稿页面方向检测方法,其特征在于,所述文字单元包括以下至少一种罗马单词、亚洲文字段和标点符号。
6.根据权利要求1所述的文稿页面方向检测方法,其特征在于,所述语言类别包括以下至少一种亚洲语言类别和罗马字符语言类别。
7.根据权利要求4所述的文稿页面方向检测方法,其特征在于,所述书写方向特征包括以下至少一种亚洲文字的撇捺特征、罗马字符语言文字的开口方向特征、上下起伏特征以及标点符号相对于文字的位置特征。
8.一种文稿页面方向检测装置,其特征在于,包括拆分模块,用于对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定所述多个文字单元的语言类别属性;第一计算模块,用于针对所述语言类别属性获取所述多个文字单元的书写方向属性特征值,并将其纳入相应的全局统计量中;第二计算模块,用于根据所述全局统计量中各书写方向属性特征值分别得到针对所述各书写方向属性特征值的页面方向及对应的置信度;第三计算模块,用于根据所述各书写方向属性特征值的页面方向及对应的置信度确定所述文稿页面的方向以及其对应的整体置信度。
9.根据权利要求8所述的文稿页面方向检测装置,其特征在于,所述拆分模块具体包括连通域检测单元,用于将文稿页面的图像二值化后进行连通域检测; 行检测单元,用于分别按照水平和竖直方向对检测到的连通域进行行检测; 文字行确定单元,用于根据连成行的所述连通域的行内连通域数量、行内连通域尺寸及相对位置关系、行内连通域复杂度确定所述连通域是否为文字行;分割单元,用于将确定为文字行的所述连通域作为文字区域,并对所述文字行进行分割得到文字单元。
10.根据权利要求8所述的文稿页面方向检测装置,其特征在于,所述第一计算模块具体包括属性特征值单元,用于根据所述文字单元的文字连通域内部连通域的尺寸、形态及相对位置关系确定其语言属性特征值;第一比较单元,用于将所述语言属性特征值与数据库中预存的相应参考值相比较,确定所述文字单元的语言类别属性。
11.根据权利要求8所述的文稿页面方向检测装置,其特征在于,所述第二计算模块具体包括第二比较单元,用于将所述各书写方向属性特征值与数据库中预存的参考值相比较, 确定针对所述各书写方向属性特征值的页面方向及对应的置信度。
12.根据权利要求9所述的文稿页面方向检测装置,其特征在于,所述文字单元包括以下至少一种罗马单词、亚洲文字段和标点符号。
13.根据权利要求8所述的文稿页面方向检测装置,其特征在于,所述语言类别包括以下至少一种亚洲语言类别和罗马字符语言类别。
14.根据权利要求11所述的文稿页面方向检测装置,其特征在于,所述书写方向特征包括以下至少一种亚洲文字的撇捺特征、罗马字符语言文字的开口方向特征、上下起伏特征以及标点符号相对于文字的位置特征。
全文摘要
本发明公开了一种文稿页面方向检测方法和装置,其中,方法包括以下步骤对文稿页面进行图文分离,将得到的文字区域拆分为多个文字单元,并确定多个文字单元的语言类别属性;针对语言类别属性获取多个文字单元的书写方向属性特征值,并将其纳入相应的全局统计量中;根据全局统计量中各书写方向属性特征值分别得到针对各书写方向属性特征值的页面方向及对应的置信度;根据各书写方向属性特征值的页面方向及对应的置信度确定文稿页面的方向以及其对应的整体置信度。
文档编号G06K9/32GK102194117SQ201010119229
公开日2011年9月21日 申请日期2010年3月5日 优先权日2010年3月5日
发明者六尾敏明, 张宏志, 李平立, 袁梦尤 申请人:京瓷美达株式会社, 北京大学, 方正国际软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1