识别图像块中文字的方向的方法和装置的制作方法

文档序号：6429279阅读：189来源：国知局

专利名称：识别图像块中文字的方向的方法和装置的制作方法
技术领域：
本发明一般地涉及文档图像处理。具体而言，本发明涉及一种识别图像块中文字的方向的方法和装置。
背景技术：
当用户使用扫描仪等设备对一叠文档进行扫描时，理想的输入是每个文档的每一页都以正向放置。以正向放置文档时，用户能够轻松阅读该文档，扫描出的文档图像也无需用户调整方向即可阅读。然而，实际使用中，用户要扫描的文档往往是以正向0°、反向180°、横向90°和270°交叠放置。如果用户需要在扫描时对文档的放置方向进行逐页的检查和调整，工作是繁重而耗时的。因此，扫描仪设计有自动文档图像方向判别的功能。基于自动文档图像方向判别功能，扫描得到的文档图像可以被调整为正向，从而减轻了用户的负担，提高了用户的使用效率。传统的文档图像自动判别方法是找到文档图像中的文本行，在4个可能的方向上分别做光学字符识别OCR (Optical Character Recognition)处理,得到4个可能方向上的识别字符及对应的置信度或识别距离，并计算文本行的平均置信度或平均识别距离。平均置信度最大或平均识别距离最小的方向被判别为文本行的方向。进而根据文本行的方向判断文档图像的方向。文本行的方向是指文本行的正向，文档图像的方向是指文档图像的正向。下文中，文字(的)方向是指文字的正向。

发明内容
在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。如图1所示，输入文本行“TIP AMOUNT”的图像块，设该方向为0°方向，将该文本行图像块旋转180°得到180°方向的文本行图像块。由于90°和270°方向与0°和180°方向的处理类似，因此这里仅以0°和180°为例进行说明。分别对0°和180°上的文本行图像块进行光学字符识别OCR处理，得到如图I中所示的两个方向上的子图像块、子图像块对应的识别字符及其置信度。采用传统的方法，0°方向上识别字符的平均置信度=(O. 54+0. 36+0. 48+0. 61+0.62+0. 61+0. 58+0. 65)/8 = O. 55625，180。方向上识别字符的平均置信度=(O. 62+0. 58+0.65+0. 62+0. 46+0. 50+0. 61)/7 = O. 5771。由于 O. 55625 小于O. 5771，传统的方法会将 180。方向(即平均置信度高的方向)错误地判断为文本行图像块中文字的方向。产生上述错误的原因之一是采用支持多语种的OCR引擎时，OCR引擎给出的识别字符有时会属于不同的语种。这一点是容易理解的。因为属于一个语种的字符在其被正向放置时容易被识别为属于正确语种的字符，而其经过旋转90°、180°、270°之后不总能够被识别为同语种的字符，反而可能会与其它语种中的字符形似。现有技术中，缺乏对语种一致性的考虑。本发明的发明人意识到文字经多个角度旋转后得到的各个方向的OCR识别结果中，正向的文字被OCR引擎误判为其它语种字符的概率最低，因而该方向的各个识别字符的语种一致性更高，因此，对包含文字的图像块分别以不同的方向作为假设文字方向进行OCR处理，得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量时，能够在其中的至少一个方向上判断出图像块中的文字所属的语种，并且识别结果中与所判断的语种不同的识别字符更有可能对应不是正向的文字。在传统的利用平均识别置信度来判断文本行方向的方法中，由于没有考虑到语种的一致性，造成了一定的性能下降。本发明的目的是针对上述问题，提出了一种能够正确识别图像块中文字的方向的方法和装置。该方案通过考虑识别字符的语种一致性并据此对子图像块对应的正确性度量 (置信度或识别距离)进行调整，能够提高自动文档图像方向判别的正确率。为了实现上述目的，根据本发明的一个方面，提供了一种识别图像块中文字的方向的方法，包括分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；判断图像块中文字所属的语言组；调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及根据所述累积正确性度量识别图像块中文字的方向。根据本发明的一个具体实施例，所述正确性度量包括置信度和识别距离。根据本发明的一个具体实施例，所述调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量包括减小该子图像块对应的置信度或增大该子图像块对应的识别距离。根据本发明的一个具体实施例，所述调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量包括将该子图像块对应的置信度或识别距离调整为该子图像块所对应的在该假设文字方向上属于所判断的语言组的所有候选字符所对应的置信度中的最大置信度或所对应的识别距离中的最小识别距离；并且当该子图像块所对应的在该假设文字方向上的所有候选字符均不属于所判断的语言组时，将该子图像块所对应的在该假设文字方向上的所有候选字符所对应的置信度中的最小置信度或所对应的识别距离中的最大识别距离作为该子图像块对应的置信度或识别距离。根据本发明的一个具体实施例，所述判断图像块中文字所属的语言组包括分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值时，将该语言组判断为图像块中文字所属的语言组。根据本发明的一个具体实施例，所述判断图像块中文字所属的语言组包括分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值且属于该语言组的核心字符集的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第二阈值时，将该语言组判断为图像块中文字所属的语言组。根据本发明的一个具体实施例，所述语言组包括拉丁语言组；所述拉丁语言组包括拉丁字母、阿拉伯数字和非文字符号；所述第一阈值的取值范围为(O. 65,0. 85)。根据本发明的一个具体实施例，所述语言组包括韩文语言组、中文/日文语言组；所述韩文语言组包括韩文字母、拉丁字母、阿拉伯数字和非文字符号，所述韩文语言组的核心字符集包括韩文字母；所述中文/日文语言组包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名、拉丁字母、阿拉伯数字和非文字符号，所述中文/日文语言组的核心字符集包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名；所述第一阈值的取值范围为(O. 65，O. 85)，所述第二阈值的取值范围为(O. 45，O. 65)。根据本发明的另一个方面，提供了一种识别图像块中文字的方向的装置，包括光学字符识别处理单元，配置为分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；语言组判断单元，配置为判断图像块中文字所属的语言组；子图像块调整单元，配置为调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；累积正确性度量计算单元，配置为基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及文字方向识别单元，配置为根据所述累积正确性度量识别图像块中文字的方向。根据本发明的一个具体实施例，所述子图像块调整单元被配置为减小各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的置信度或增大该子图像块对应的识别距离。根据本发明的一个具体实施例，所述子图像块调整单元被配置为将各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的置信度或识别距离调整为该子图像块所对应的在该假设文字方向上属于所判断的语言组的所有候选字符所对应的置信度中的最大置信度或所对应的识别距离中的最小识别距离；并且当该子图像块所对应的在该假设文字方向上的所有候选字符均不属于所判断的语言组时，将该子图像块所对应的在该假设文字方向上的所有候选字符所对应的置信度中的最小置信度或所对应的识别距离中的最大识别距离作为该子图像块对应的置信度或识别距离。另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中图I示出了文本行图像块在OCR处理后所得到的0°和180°方向上的子图像块、识别字符及其置信度、候选字符及其置信度；图2示出了文本行图像块在OCR处理后所得到的0°和180°方向上的子图像块、识别字符及其识别距离、候选字符及其识别距离；图3示出根据本发明的一个实施例的识别图像块中文字的方向的方法的流程图；图4示出根据本发明的一个实施例的识别图像块中文字的方向的识别装置的结构方框图；以及图5示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。在本文中进行如下假设，已经从文档图像中找到文本行，并从文档图像中分割出包含文本行的图像块。本发明的重点并不在于如何从文档图像中搜索文本行的位置，而关注如何正确识别包含文本行的图像块中文字的正确方向。一般而言，主要考虑四个主要方向作为假设文字方向。即图像块本身的方向(0°方向)、将图像块旋转180°的方向、将图像块旋转90°的方向、将图像块旋转270°的方向，也可称为图像块的横向上的两个方向和纵向上的两个方向。90°和270°方向主要应用于汉语、日语等可能竖写文字的情形。由于0°和180°方向与90°和270°方向的情况类似，因此，在下文中以0°和180°方向为例进行说明。下面将参照图3描述根据本发明的一个实施例的识别图像块中文字的方向的方法的流程。首先，以0°和180°作为假设文字方向对图像块进行OCR处理，以得到0°和180°方向上的子图像块、子图像块对应的识别字符及其正确性度量(步骤S301)。图I示出了 0°和180°方向上的子图像块、识别字符、置信度的示例，并对子图像块设置了序号。图2示出了 0°和180°方向上的子图像块、识别字符、识别距离的示例，并对子图像块设置了序号。OCR识别结果一般包括分割出的子图像块、子图像块对应的识别字符、识别字符的正确性度量。正确性度量反映了识别字符的可靠程度，通常为置信度或识别距离。置信度越大，识别字符正确的可能性越大；识别距离越小，识别字符正确的可能性越大。接着，判断图像块中文字所属的语言组(步骤S302)。如上所述，出现错误的原因之一是没有考虑到语种的一致性。在实际生活中，书写的文字往往除了主要的语种外，掺杂有少量其它语种的字符、阿拉伯数字、非文字符号等，例如，以中文书写文字时，可能混用“good lUCk”、“5782”、“Y”、“％”等不属于汉字的符号。因此，在本发明中并不局限于语种，而是采用语言组的概念。语言组包括拉丁语言组、韩文语言组、中文/日文语言组等。拉丁语言组包括拉丁字母、阿拉伯数字和非文字符号等。非文字符号例如是“Y”、等。韩文语言组包括韩文字母、拉丁字母、阿拉伯数字和非文字符号等。由于拉丁字母经常出现在医学名词、植物品种等中，并经常在其它语言中混用，因此，在非拉丁语言组中包括拉丁字母、阿拉伯数字、非文字符号等。但正是由于例如韩文语言组之类的其它语言组包含了拉丁语言组的全部内容，为了防止将拉丁语言组误判为其它语言组，需要对其它语言组进行进一步的表征以与拉丁语言组区分。因此，对于其它语言组，还设置了核心字符集。一个语言组的核心字符集包括了该语言组区别于拉丁语言组的字符集合。例如，韩文语言组的核心字符集包括韩文字母。类似地，中文/日文语言组包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名、拉丁字母、阿拉伯数字和非文字符号。中文/日文语言组的核心字符集包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名。进行这样的设置是因为由于历史上文化传播的原因，日文书写的文字中经常包含汉字。上述给出的拉丁语言组、韩文语言组、中文/日文语言组仅仅作为语言组的示例。本领域技术人员能够在给出的示例的基础上容易地想到其它语言组的设计。例如，俄文语言组可包括俄文字母、拉丁字母、阿拉伯数字和非文字符号等。判断图像块中文字所属的语言组的方法有多种。在此，给出基于OCR处理结果的示例性方法，但本发明不限于此。分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例。拉丁语言组的判定条件是，当其中一个假设文字方向上、属于拉丁语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值时，判断图像块中文字所属的语言组为拉丁语言组。确定一个语言组的第一阈值可以基于对属于该语言组的语料构造的语料库进行统计分析。第一阈值相对较高，因为在使用一种语言写成的文字中，属于该语言的字符应占主导地位。经过统计分析，拉丁语言组的第一阈值的取值范围宜取(O. 65，O. 85)，优选为O. 7。韩文语言组的判定条件是，当其中一个假设文字方向上、属于韩文语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值且属于韩文语言组的核心字符集的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第二阈值时，判断图像块中文字所属的语言组为韩文语言组。同样，确定一个语言组的第二阈值也可以基于对属于该语言组的语料构造的语料库进行统计分析。显然，第一阈值高于第二阈值。经过统计分析，韩文语言组的第一阈值的取值范围宜取(O. 65，O. 85)，优选为O. 7，第二阈值的取值范围宜取(O. 45，O. 65)，优选为O. 5。中文/日文语言组的判断方法和韩文语言组类似。对于不同的语言组，可根据统计分析的结果并基于经验和语言学知识设定不同的第一阈值和第二阈值。
如上所述，在各个假设文字方向上分别判断图像块中文字所属的语言组是否是拉丁语言组、韩文语言组、中文/日文语言组等。只要在一个假设文字方向上满足上述条件之一即可判定图像块中文字所属的语言组。为了与实际的文字组成情况相符，在非拉丁语言组中引入了拉丁语言组的全部元素。同时通过引入了核心字符集的概念能够有效地区分拉丁语言组和非拉丁语言组，避免了出现在各个假设文字方向上判断出图像块中文字属于不同语言组的情况。例如，在图I所示的示例中，0°方向上的识别字符为U、P、A、H、0、V、N、「。设第一阈值为O. 7，第二阈值为O. 5。其中，属于拉丁语言组的识别字符个数为8，每个识别字符对应一个子图像块，该方向上的子图像块个数为8，100%大于第一阈值O. 7，因此判断出图像块中文字所属的语言组是拉丁语言组。类似地，180°方向上也能判断出图像块中文字所属的语言组是拉丁语言组。韩文语言组、中文/日文语言组虽然满足第一阈值的条件但不满足第二阈值的条件，从而被排除。接着，在步骤S303中，调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量。具体地，减小该子图像块对应的置信度或增大该子图像块对应的识别距离。这是因为根据如上分析的结果，在判断出正确的所属语种的情况下，属于其它语种的识别字符更有可能是由于正向字符被旋转后导致的错误识别结果。因此，减小置信度或增大识别距离以使得基于正确性度量的图像块中文字方向的判断结果更为准确。因而可以理解，减小置信度和增大识别距离，只要是在合理的程度内均可。这里给出一种更为具体的实施方式。在OCR引擎对图像块进行切割和识别时，通常会获得多个子图像块，对于每个子图像块，可以给出具有不同正确性度量的多个候选字符，其按置信度减小或识别距离增大的顺序排列，如图1、2下方所示。通常将具有最高置信度或最小识别距离的候选字符作为识别字符给出。然而，如上所述，某个假设文字方向上的某个识别字符可能不属于图像块中文字所属的语言组，例如图1、2中的子图像块N3、N5所对应的识别字符。但是对于N3、N5，其在该假设文字方向上的部分候选字符可能属于图像块中文字所属的语言组。因此，可取子图像块对应的在该假设文字方向上属于图像块中文字所属的语言组的所有候选字符所对应的置信度中的最大置信度或所对应的识别距离中的最小识别距离作为该子图像块对应的调整后的置信度或识别距离。显然，调整后的置信度减小，调整后的识别距离增大。对于该子图像块所对应的在该假设文字方向上的所有候选字符均不属于图像块中文字所属的语言组的情况，可将该子图像块所对应的在该假设文字方向上的所有候选字符所对应的置信度中的最小置信度或所对应的识别距离中的最大识别距离作为该子图像块对应的调整后的置信度或识别距离。例如，在图1、2所示的示例中，N3、N5的识别字符并不属于在步骤S302中判断的拉丁语言组。因此，从N3对应的候选字符中搜索属于拉丁语言组且具有最大置信度或最小识别距离的候选字符。图I中示出候选字符“n”，其属于拉丁语言组，且具有该方向上N3对应的候选字符中最高的置信度O. 49。因此，将O. 49代替O. 65作为N3对应的置信度。类似地，N5对应的置信度被调整为O. 39。同理，图2中N3、N5对应的识别距离被分别调整为920,1230ο
接着，在步骤S304中基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量。在步骤S305中，根据所述累积正确性度量识别图像块中文字的方向。累积正确性度量包括累积置信度和累计识别距离。累积置信度是用来表征一个方向上文本行图像块的识别结果整体的正确性度量。通常可以将一个假设文字方向上的所有子图像块对应的置信度之和作为该方向上的累积置信度。也可以将一个假设文字方向上的所有子图像块对应的置信度的算术平均值作为该方向上的累积置信度。累积置信度更高的方向更有可能是正确的识别结果。由于各个方向上的子图像块个数可能不同，因此，平均置信度更为可靠。累积识别距离也是用来表征一个方向上文本行图像块的识别结果整体的正确性度量。类似地，可以将一个假设文字方向上的所有子图像块对应的识别距离之和作为该方向上的累积识别距离。也可以将一个假设文字方向上的所有子图像块对应的识别距离的算术平均值作为该方向上的累积识别距离。累积识别距离更小的方向更有可能是正确的识别结果。由于各个方向上的子图像块个数可能不同，因此，平均识别距离更为可靠。在图I的示例中，经步骤S301-S303后，O。方向累积置信度=(O. 54+0. 36+0. 48+0. 61+0. 62+0. 61+0. 58+0. 65) /8 =O.55625180。方向累积置信度=(O. 62+0. 58+0. 49+0. 62+0. 39+0. 50+0. 61)/7 = O. 5442。在图2的示例中，经步骤S301-S303后，O。方向累积识别距离=(928+1279+1034+774+578+779+840+695)/8 = 863. 375180。方向累积识别距离=(759+840+920+769+1230+1005+790)/7 = 901. 857可见，采用上述方式调整置信度或识别距离后，0°方向累积置信度大于180°方向累积置信度或0°方向累积识别距离小于180°方向累积识别距离。即给出了更为准确的判断结果。下面将结合图4描述根据本发明的一个实施例的识别图像块中文字的方向的识别装置的结构。如图4所示，根据该实施例的识别图像块中文字的方向的识别装置400包括光学字符识别处理单元401，配置为分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；语言组判断单元402，配置为判断图像块中文字所属的语言组；子图像块调整单元403，配置为调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；累积正确性度量计算单元404，配置为基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及文字方向识别单元405，配置为根据所述累积正确性度量识别图像块中文字的方向。由于在根据本发明的识别装置400所包括的光学字符识别处理单元401、语言组判断单元402、子图像块调整单元403、累积正确性度量计算单元404以及文字方向识别单元405中的处理分别与上面描述的识别图像块中文字的方向的方法的步骤S301-S305中的处理类似，因此为了简洁起见，在此省略这些单元中的详细描述。此外，这里尚需指出的是，上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。在图5中，中央处理单元(CPU) 501根据只读存储器(ROM) 502中存储的程序或从存储部分508加载到随机存取存储器(RAM) 503的程序执行各种处理。在RAM 503中，还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 50KROM 502和RAM 503经由总线504彼此连接。输入/输出接口 505也连接到总线504。下述部件连接到输入/输出接口 505 :输入部分506 (包括键盘、鼠标等等)、输出部分507 (包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508 (包括硬盘等)、通信部分509 (包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口 505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等
坐寸ο本发明实施例中公开的识别图像块中文字的方向的识别装置，识别图像块中文字的方向的识别方法，以及相应的程序产品可以用于扫描仪等图像扫描装置，用于识别所扫描的文件中文字的方向。在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。SidI. 一种识别图像块中文字的方向的方法，包括分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；判断图像块中文字所属的语言组；调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及根据所述累积正确性度量识别图像块中文字的方向。2.根据附记I所述的方法，其中所述正确性度量包括置信度和识别距离；所述调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量包括减小该子图像块对应的置信度或增大该子图像块对应的识别距离。3.根据附记I所述的方法，其中所述正确性度量包括置信度和识别距离；所述调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量包括将该子图像块对应的置信度或识别距离调整为该子图像块所对应的在该假设文字方向上属于所判断的语言组的所有候选字符所对应的置信度中的最大置信度或所对应的识别距离中的最小识别距离；并且当该子图像块所对应的在该假设文字方向上的所有候选字符均不属于所判断的语言组时，将该子图像块所对应的在该假设文字方向上的所有候选字符所对应的置信度中的最小置信度或所对应的识别距离中的最大识别距离作为该子图像块对应的置信度或识别距离。4.根据附记I所述的方法，其中所述判断图像块中文字所属的语言组包括分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值时，将该语言组判断为图像块中文字所属的语言组。5.根据附记I所述的方法，其中所述判断图像块中文字所属的语言组包括分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值且属于该语言组的核心字符集的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第二阈值时，将该语言组判断为图像块中文字所属的语言组。6.根据附记4所述的方法，其中所述语言组包括拉丁语言组；所述拉丁语言组包括拉丁字母、阿拉伯数字和非文字符号；所述第一阈值的取值范围为(0.65，0.85)。
7.根据附记5所述的方法，其中所述语言组包括韩文语言组、中文/日文语言组；所述韩文语言组包括韩文字母、拉丁字母、阿拉伯数字和非文字符号，所述韩文语言组的核心字符集包括韩文字母；所述中文/日文语言组包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名、拉丁字母、阿拉伯数字和非文字符号，所述中文/日文语言组的核心字符集包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名；所述第一阈值的取值范围为(O. 65，0. 85)，所述第二阈值的取值范围为(0.45，O. 65)。8.根据附记1-7之一所述的方法，其中所述不同的方向包括所述图像块的横向上的两个方向和纵向上的两个方向。
9. 一种识别图像块中文字的方向的装置，包括光学字符识别处理单元，配置为分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；语言组判断单元，配置为判断图像块中文字所属的语言组；子图像块调整单元，配置为调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；累积正确性度量计算单元，配置为基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及文字方向识别单元，配置为根据所述累积正确性度量识别图像块中文字的方向。10.如附记9所述的装置，其中所述子图像块调整单元被配置为减小各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的置信度或增大该子图像块对应的识别距离。11.如附记9所述的装置，其中所述子图像块调整单元被配置为将各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的置信度或识别距离调整为该子图像块所对应的在该假设文字方向上属于所判断的语言组的所有候选字符所对应的置信度中的最大置信度或所对应的识别距离中的最小识别距离；并且当该子图像块所对应的在该假设文字方向上的所有候选字符均不属于所判断的语言组时，将该子图像块所对应的在该假设文字方向上的所有候选字符所对应的置信度中的最小置信度或所对应的识别距离中的最大识别距离作为该子图像块对应的置信度或识别距离。12.如附记9所述的装置，其中所述语言组判断单元被配置为分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值时，将该语言组判断为图像块中文字所属的语言组。13.如附记9所述的装置，其中所述语言组判断单元被配置为分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值且属于该语言组的核心字符集的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第二阈值时，将该语言组判断为图像块中文字所属的语言组。
14. 一种扫描仪，所述扫描仪包括附记9-13之一所述的识别图像块中文字的方向的装置。
权利要求
1.一种识别图像块中文字的方向的方法，包括分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；判断图像块中文字所属的语言组；调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及根据所述累积正确性度量识别图像块中文字的方向。
2.根据权利要求I所述的方法，其中所述正确性度量包括置信度和识别距离；所述调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量包括减小该子图像块对应的置信度或增大该子图像块对应的识别距离。
3.根据权利要求I所述的方法，其中所述正确性度量包括置信度和识别距离；所述调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量包括将该子图像块对应的置信度或识别距离调整为该子图像块所对应的在该假设文字方向上属于所判断的语言组的所有候选字符所对应的置信度中的最大置信度或所对应的识别距离中的最小识别距离；并且当该子图像块所对应的在该假设文字方向上的所有候选字符均不属于所判断的语言组时，将该子图像块所对应的在该假设文字方向上的所有候选字符所对应的置信度中的最小置信度或所对应的识别距离中的最大识别距离作为该子图像块对应的置信度或识别距离。
4.根据权利要求I所述的方法，其中所述判断图像块中文字所属的语言组包括分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值时，将该语言组判断为图像块中文字所属的语言组。
5.根据权利要求I所述的方法，其中所述判断图像块中文字所属的语言组包括分别在各个假设文字方向上，计算属于各个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例；当属于某个语言组的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第一阈值且属于该语言组的核心字符集的识别字符所对应的子图像块个数占该假设文字方向上的所有子图像块个数的比例大于第二阈值时，将该语言组判断为图像块中文字所属的语言组。
6.根据权利要求4所述的方法，其中所述语言组包括拉丁语言组；所述拉丁语言组包括拉丁字母、阿拉伯数字和非文字符号；所述第一阈值的取值范围为(0.65，0.85)。
7.根据权利要求5所述的方法，其中所述语言组包括韩文语言组、中文/日文语言组；所述韩文语言组包括韩文字母、拉丁字母、阿拉伯数字和非文字符号，所述韩文语言组的核心字符集包括韩文字母；所述中文/日文语言组包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名、拉丁字母、阿拉伯数字和非文字符号，所述中文/日文语言组的核心字符集包括简体汉字、繁体汉字、日文汉字、日文平假名、日文片假名；所述第一阈值的取值范围为(O. 65，O. 85)，所述第二阈值的取值范围为(O. 45，O. 65)。
8.一种识别图像块中文字的方向的装置，包括光学字符识别处理单元，配置为分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；语言组判断单元，配置为判断图像块中文字所属的语言组；子图像块调整单元，配置为调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；累积正确性度量计算单元，配置为基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及文字方向识别单元，配置为根据所述累积正确性度量识别图像块中文字的方向。
9.如权利要求8所述的装置，其中所述子图像块调整单元被配置为减小各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的置信度或增大该子图像块对应的识别距离。
10.一种扫描仪，所述扫描仪包括权利要求8或9中所述的识别图像块中文字的方向的装直。
全文摘要
本发明公开了一种识别图像块中文字的方向的方法和装置。所述方法包括分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理，以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量；判断图像块中文字所属的语言组；调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量；基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量；以及根据所述累积正确性度量识别图像块中文字的方向。
文档编号G06K9/20GK102890783SQ20111020983
公开日2013年1月23日申请日期2011年7月20日优先权日2011年7月20日
发明者孙俊, 直井聪申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙俊;直井聪
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：识别图像块中文字的方向的方法和装置的制作方法
上一篇：服务群组分类方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。