专利名称:由字符图象直方图0-1图形表示识别字符的方法和装置的制作方法
技术领域:
本发明涉及一种用于识别纸上的字符图象的字符识别方法和装置。
字符识别装置适用于形成电子文件或数据库、文件处理、自动翻译、以及大容量的印刷文件处理的信息处理装置,并已进行了广泛的研究的研制。
用来识别纸上印刷的或手写的字符图象的常规的字符识别系统一般包括(1)文件图象输入处理,(2)字符提取处理,(3)预处理(平滑、标准化、细线变换等),(4)特征提取处理,(5)大分类处理,(6)细分类处理,(7)记入(Post)处理等。
在这种字符识别系统中,纸上的字符图象作为光学图象被读取,并把光图象转变为电信号。读进系统中的字符图象例如根据边缘分布的直方图被提取进入识别单元,例如字符单元中。然后,被提取的字符经过预处理,以便有效地识别,在特征得取处理中,输入字符的特征,如拓朴特征、在被分成网格图形的象素单元中的特征等被提取,从而用结构分析法图形匹配法等进行识别处理。大分类处理专门用于例如具有大量字符种类的汉字字符,并用简单方法限制或缩小候选物。在细分类处理中,对经过限制的候选物进行更仔细地识别处理。而且,在记入处理中,当候选物不能借助于各个输入字符的识别处理被确定时,相邻的输入字符被连接,并参考适当的语法作为字符串判别。
常规字符识别系统具有如下问题。
在字符提取处理中,当有几个离散的字符连续地出现时,易于发生提取错误。这是决定字符识别精度的主要因素之一。作为有效的解决这一问题的措施,已知有一种用于改进和识别精度有关的字符提取方法。然而,这方法需要长的识别时间。
在特征提取处理中,被规格化成预定大小的字符图象在象素(位)单元中被扫描,字符的特征量(通过数字表示特征获得的)考虑扫描象素和其相邻的象素之间的关系被提取。这种特征量表示每个字符的整个的或全部的特征,但并不总是揭示出每个字符的突出的特征。因此,特征量容易受噪声的影响。
在常规的大分类或细分类中所用的字符识别中,进行图形匹配(距离计算)以便测量用特征量表示的未知的输入字符和字典中的标准图形的总体相似度,并按照较小的距离选择合适数量的候选类型。在这种常规的方法中,因为距离是分类的唯一标准,而使每个字符的突出的结构特征在分类过程中不能灵活地利用。为此,在常规的方法中,未知的输入图形必须和所有字符类型的标准图形进行比较。例如,当字符类型数量为5000时,就需要5000次距离计算。这一缺点是高速字符识别的严重障碍。而且,在这种字符识别处理中,难于检查分类或识别结果的有效性,因为识别错误的检查和校正操作被委托给记入处理,例如用大词典校对。这缺点也严重地阻碍了而速处理。
在另一方向,日本专利申请分开NOS.63—15383(图形校正装置),63—118993(字符识别方法),以及63—131287(字符识别系统)试图通过实现高速大分类来实现高速处理,所采用的方法与距离计算无关,并只对少数的受限制的候选字符类型进行距离计算。然而,在这些方法中,因为字符图象被扫描,并借助于检查在象素单元(一点)中的相邻象素的方法来提取特征工作为基本手段,因而所提取的特征容易受噪声影响,并且,要使用这种特征量来限制候选字符类型并具有高的精度是相当困难的。
如上所述,常规的字符识别方法和装置在抗噪声能力识别速度以及识别精度方面不能付诸满意地应用,这是由于所用的识别处理的性质决定的。
本发明是考虑上述情况作出的,其目的是提供一种字符识别的方法和装置,借助于同时改善抗噪能力、识别速度和识别精度来改善其实用性。
通过字符图象的直方图,借助于有效地利用与字符结构有关的信息,可以实现极高速的且只有极高的精度的字符识别。
更具体地说,按照本发明的字符识别装置包括提取装置,用来从输入文件图象中提取预定的识别单元;直方图制备装置,用来根据每个提取的识别单元制备直方图;以及大分类装置,用来检索和识别单元一致的识别目标类别的候选物,通过部分地核对从由识别单元制备的直方图中提取的0—1图形表示和预先制备的识别目标类别的0—1图形表示完成所述检索。
大分类装置最好预先制备识别目标类别的直方图,代替预先制备识别目标类别的0—1图形表示,并在检索时由各个识别目标类别的直方图来制备0—1图形表示。
该装置最好还包括细分类装置,用来检查检索的识别目标种类的候选的有效性。
细分类装置最好根据对从制备的识别单元的直方图中提取的0—1图形表示和与检索的识别类别的候选物相符的预先制备的识别目标类别的0—1图形表示之间的部分地核对的结果,检查所述有效性。
该装置最好还包括优先权确定装置,用来确定识别目标类别的检索的候选物的优先权。
该装置最好还包括优先权确定装置,用来确定识别目标类别的被检查的候选物的优先权。
优先权确定装置最好根据对基于制备的识别单元的直方图所制备的矢量图形表示和与检索的识别目标类别的候选物相应的预先制备的识别目标类别的矢量图形表示之间的距离的计算结果确定所述优选权。
识别单元最好与一个字符相符。
在另一方向,按照本发明的字符识别方法包括从输入文件图象中提取预定识别单元的提取步骤;由每一个提取的识别单元制备直方图的直方图制备步骤;以及大分类步骤,用于对从制备的每个识别单元的直方图中提取的0—1图形表示用预先制备的识别目标类别的0—1图形表示进行校核,并检索和识别单元相符的识别目标类别的候选物。
大分类步骤最好包括在检索时由预先制备的识别目标类别的直方图来制备0—1图形表示的步骤,代替使用预先制备的识别目标类别的0—1图形表示。
本方法最好还包括细分类步骤,用来检查检索的识别目标类别的候选物的有效性。
所述细分类步骤最好包括根据对从识别单元的制备的直方图中提取的0—1图形表示和与识别目标类别的检索的候选物相符的识别目标类别的预先制备的0—1图形表示之间的部分核对结果进行检查所述有效性的步骤。
本方法最好还包括确定检索的识别目标类别的优先权的优先权确定步骤。
所述优先权确定步骤最与包括根据对基于制备的识别单元的直方图制备的矢量图形表示和预先制备识别目标类别的矢量图形表示中和检索的识别目标类别的候选物相符的那些矢量图形表示之间的距离计算结果确定优先权的步骤。
识别单元最好相应于一个字符。
本发明注意到这样的事实,即垂直和水平线段之间的尺寸和位置关系直接地反映在垂直的和水平方向的直方图的结构中,还注意到,钭线段之间的尺寸和位置关系反映在两个方向即±45°方向的直方图中,这样,按照本发明,通过利用直方图的0—1图形表示,可充分吸收噪声的影响,并且每个字符的结构信息可被有效地利用。
更具体地说,按照本发明,输入文件图象被提取进入预定的识别单元即字符单元中,根据所提取的识别单元,制备例如垂直和水平方向的直方图。
从所制备的每个识别单元的直方图中提取的0—1图形表示,用预先制备的识别目标类别的0—1图形表示进行校核,从而检索和识别单元相符的识别目标类别的候选物,从而限制类别候选物(例如字符候选物)的数量。结果,识别目标类别的一个或几个候选物作为识别结果(或作为大分类结果)被输出。
本发明只需要简单的操作,例如比较/判别,计数等,而不需要任何复杂的图象处理,例如根据图形匹配方法的距离计算,规格化、细—线(thin—line)变换,以及在现有技术中的字符图象的处理。在本发明中,简单的处理,即制备直方图是唯一的图象处理。用这种方式,通过用较小的计算量用标准图形校核未知的输入字符,大分类的处理速度可以显著地提高。
通过使用基于采用字符图象的直方图的0—1图形表示进行部分的校核,这是本发明首次提出的,因为每个字符的结构信息直接地作为突出特征信息反映在直方图中,可以通过上述的简单的校核处理以高的精度识别字符。
因为使用直方图的0—1图形表示,所以可以有效地吸收操声的影响,从而极大地改善了抗噪能力。
本发明的另外的目的和优点将在下面的说明中提出,其中一部分可从下面的说明中看出,或可由本发明的实施中得知。本发明的目的和优点可以借助于在所附权利要求中具体提出的装置及组合实现与获得。
以下的附图是说明书的一部分,与上述的一般说明以及下面给出的实施例的详细说明一起,共同解释本发明的原理。
图1是按照本发明的实施例的字符识别系统的结构方块图2是图1所示实施例的字符识别处理的流程图;图3是图1的实施例的大分类过程的流程图;图4是在垂直和水平方向上字符图象“”的点阵的例子以及它的直方图;图5A到5C是在±45°方向字符图象“”的点阵的例子及其直方图;图6A到6J是各种字符图象的垂直和水平方向的直方图;图7A到7J是不同字符图象的垂直和水平方向上的直方图;图8A到8C是说明垂直和水平方向上的直方图以及0—1图形表示;图9A到9C是在图1的实施例中的大分类的分类处理1A的分类算法的流程图;图10A是图1的实施例的细分类处理的流程图;图10B是图1的实施例的细分类处理的流程图;图10C是图1的实施例的细分类处理的流程图;图10D是图1所示的实施例的细分类处理的流程图;图11是图1所示实施例的改型的方块图;以及图12到14是图1中实施例的另一种改型的流程图。
下面参照
本发明的最佳实施例。
基本上说,本发明注意到了这样的事实,即和每个字符结构有关的信息直接地反映在字符图象的各个方向的边缘分布(以后称为直方图)中。通过用标准字符的直方图根据其0—1图形表示部分地校正被提取的输入字符图象的直方图来充分地利用直方图,从而显著地改善处理速度和精度,包括字符识别的识别错误的自动检测处理的速度和精度。因此,本发明可望显著地改进字符识别的实用性。
图1所示为本发明的一个实施例的字符识别系统。图2是这一实施例的字符识别处理的流程图。
如图1所示,本发明的字符识别系统包括文件图象输入部分2、字符提取处理部分4、大分类处理部分6、细分类处理部分8、直方图制备部分10,以及0—1图形表示部分12(字典存储)。直方图制备部分10根据字符的点图形制备直方图。0—1图形表示字典12是具有在大分类和细分类中使用的标准字符的0—1图形表示的标准字典。
文件图象输入部分2使用例如图象扫描仪读取印在文件表面的字符图象,并把其转换成电信号。此后,部分2按预定的门限值把读取字符图象的浓度值量化为黑白值,并输出量化的数据(步S1)。
字符提取处理部分4执行从输入图象中提取字符的提取处理。在这种情况下,通过利用已知技术可以提取字符行和单个字符。例如,考虑字符在纸上的排列规则,并利用例如直方图(边缘分布)特征,局部区域的连接关系等。
当使用直方图时,按照垂直(水平)书写格式,使用文件图象和字符图象的列(行)直方图提取单个字符。例如,因为字符串或字符的排列规则反映在垂直和水平方向的边缘分布(黑色象素计数值的分布)中,根据检测到的规则提取字符间距,并根据检测到的字符间距,检验相邻字符之间的周期间隔,从而确定提取位置。当需要进行例如垂直(水平)可分离的字符的判别处理时,与识别处理例如分类处理(下文说明)协同提取字符是有效的。
当根据边缘分布的直方图来实现字符提取时,则可以利用直方图准备部分10。
字符提取处理部分4把提取的未知的输入字符输入到大分类处理部分6(步S2)。
大分类部分6使用直方图制备部分10,根据从字符提取处理部分4中输入的每个提取的字符的点图形获得垂直和水平方向的直方图。然后,部分6使用0—1图形表示字典12进行每个未知的输入字符的直方图的大分类处理。部分6把处理的结果和字符的点图形(如果需要)供给细分类处理部分8(步S3)。
细分类处理部分8执行细分类(下文说明)。在这种情况下,考虑到和上述的大分类相区匹配,候选字符类型用高精度被有效地选择,而不需任何图象处理,例如规格化,细线(thin—line)变换等,而是采用基于直方图的新的细分类法。
在执行处理时,部分8使用直方图制备部分10,根据需要从通过大分类处理部分6由字符提取处理部分4提供的每个提取字符的点图形中,获得±45°方向的两个直方图,并使用第二个0—1图形表示字典14(见图11)执行细分类处理。最后处理的结果被作为例如字符码输出。当有几个字行候选时,这些候选字符的优先权被确定,并和其字符码一起输出(步S4)。
注意,输出的字符代码之类被存放在RAM或例如磁盘之类的存储装置中,并/或由显示装置例如CRT,打印机之类显示。
字符提取,大分类,以及细分类可由CPU,存储器,软件程序来实现,但也可由硬件实现,从而进一步提高处理速度。图1所示的所需的一些功能方块可用硬件实现,其余的一些可用软件实现。
下面说明作为本发明特征的在步S3用的新的大分类方法。(以后,在步S4的细分类方法将考虑和大分类法以及自动错误检测相匹配进行说明)。
图3是大分类处理的示意的流程图。在大分类处理中,使用一种新的方法作为本发明的核心,和常规方法相比,以显著的高速度和高精度限制候选字符类型。
供每个未知输入字符的大分类用的直方图使用直方图制备部分10由提取的未知输入字符的点图形制备(步S5)用于大分类(下文说明)的分类处理1A通过使用标准的0—1图形表示字典12,参照输入制备的直方图被执行,从而获得一组候选字符类型(步S6)。
用于大分类(下文说明)的分类处理1B通过使用标准的0—1图形表示字典12,参照输入制备的直方图被执行,从而获得一组候选字符类型(步7)。
在分类处理1A和1B中获得的候选字符类型组被供给细分类处理部分8。
在本实施例中的大分类和细分类操作中使用的直方图及其0—1图形表示将在下文说明。
在本实施例中使用的直方图是一种所谓的边缘分布,以及在例如垂直、水平方向,±45°等方向上的黑色象素的计数值的分布。在本实施例中,作为字符图象的直方图的目标范围,一个由字符高宽限定的内接的矩形范围被限定。
图4所示为代表字符图象“本”的点阵H1的例子。内接的矩形范围包括水平方向的7点和垂直方向的8点。图4还表示在垂直方向上的直方图H2的一个例子,以及在水平方向上的直方图H3的一个例子。
图5A至5C表示沿±45°方向的直方图的例子。
图6A到6J以及图7A到7J表示不同字符图象在垂直和水平方向上的直方图的例子。
注意,图6A到6J以及图7A到7J表示的是例如“门”,“乱”沿水平方向的每个直方图,并作为可垂直地分开的字符的相应于分开的部分的两个直方图的例子。在本实施例的大分类中,可垂直地分开的字符的水平方向的直方图作为在水平方向上不被分开的单个直方图来制备。更具体地说,在本实施例中,字符提取处理部分4作为一组(one group)来提取可垂直分开的字符。
此外,作为可垂直分开的直方图,可以为每个字符制备两个分开的直方图,如图6A至6J以及7A到7J所示。并且字符提取部分4可以作为分开的图形提取可垂直分开的字符。在记入处理中,被分开的部分可被连合,从而恢复原始字符。此外,这两种方法还可以结合。
下面参照图8A至8C说明在分类处理1A和1B中使用的0—1图形表示(也在以后要说明的分类处理2A、2B中使用)。图8A、8B表示在大分类中使用的垂直和水平方向的直方图,图8C是其相应的0—1图形表示。
为了从图8A、8B中所示的直方图中得到图8C所示的0—1图形表示,要进行下述操作。
首先,把图8A所示的垂直方向的直方图和图8B所示的水平方向的直方图并列放置。图8A和8B中的直方图的横座标被分别分成L1和L2个间隔。考虑到字型字体(type face)的偏移,相邻间隔彼此重迭一个宽度δ。
在图8A和8B中,在垂直和水平方向的直方图的高度分别用相对于字符图象的高和宽的百分数(%)表示纵座标的间隔(0,100)被分成m份。在mx(L1+L2)的每个区域中,如果直方图通过关心(interest)的区域,对该区域就指定为1,如果直方图不通过该区域,对该区域就指定为0。用这种方式,就得到如图8C所示的0—1图形表示。当直方图的高度等于100%时,就被确定为直方图通过纵座标的100%边界。
横座标的每个间隔被称作座标i(i=,1,2…,L1+L2),纵座标用门限值θ表示,两端和分割点用θt(t=1,2…m+1)表示。注意θ=100%,θm+1=0%。直方图的0—1图形表示的各个区域用(i,θt)表示,其中t=1,…m。
注意,在两个±45°的方向中的直方图的0—1图形表示具有和上述相同的排列,这在细分类时根据需要使用。
0—1图表示字典12具有用这种方式得到的识别目标字符的0—1图形表示(对所有的mx(L1+L2)个区域),作为标准字符,注意,标准图形是在0—1图形表示的预定的制备条件下(例如横座标的间隔数之类)获得的。此外,在识别目标字符单元中,可以制备相应于几个不同制备条件的0—1图形表示。
下面解释0—1图形表示的对偶性(duality)。
因为0—1图形表示代表直方图,显然(A)在扫描过程中,门限值θt从θ1=100%向下(朝向θm+1=0%),如t=1,2,3…,如果区域(i,θt)是1,则所有满足t′≥t的区域(i,θt)都是1,如果该区域是0,则所有满足t′≤t的区域都为0。
在另一方面,显然(B)当把门限值θt的大小指定上述(A)中相应于100%的位置为0%,并把100%指定为(A)中相应于0%的位置时,在从θ1=100%向上(朝向θm+1=0%)扫描的过程中,如t=1,2,3…,如果区域(i,θt)为0,则所有满足t′≥t的区域(i,θt′)都为0;如果区域(i,θt)是1,则所有满足t′≤t的区域(i,θt′)为1。
(A)和(B)之间的这种关系,这里叫做0—1图形的对偶性。
在本实施例中,在垂直和水平方向上根据(A)和(B)对直方图的0一1图形的分类处理分别被称为处理1A和1B,并被应用于大分类。在另一方面,根据(A)和(B)对沿±45°方向的直方图的0—1图形的分类处理分别叫做分类处理2A,2B,并被用于细分类。
现对用于大分类的分类处理1A说明如下。图9A到9C表示分类处理1A的分类算法。这处理被大致分成4个处理操作(a),(b),(c),和(d)。
处理(a)首先,设定初始值(步S11),。确定间隔的重迭宽度δ和常数K,和作为指标用来限制候选字符类型数。作为初始值,作为要被分类的对象的字符类型集Ω被设定为Ω=所有目标字符类型的集(0—1图形表示)此外,纵座标被分成m个间隔,并且t的初始值被设定为t=1,θ1=100%(例如θt+1=θt—5%,t=1,2…,m=20)注意,每个座标之初始不是固定的,这里固定一个座标意味着从下述的处理中将其排除。
设u是由区域(i,θt)(i=1,2…,L1+L2)呈现的0和1的阵列(水平排列),V,W,和X分别为由(i,θt+1),(i,θt+2)和(i,θt+3)以和(i,θt)同一方式呈现的0和1的阵列。在下面的说明中,U,V,W和X将简单地被称为阵列。
U,V,W,和X根据它们的确定方法代表0—1图形表示(图8C)的局部图形。
处理(b)按照属于Ω(图8C)的未知的输入字符X的直方图得到关于门限值θt,θt+1,θt+2以及θt+3的阵列U,V,W和X(步S12)。
处理(C)在不是固定座标的座标中不存在的U值是1的座标也不存在X值为0的座标时(如果在步S13中YES被确定),则设θt=θt+1,θt+1=θt+2,θt+2=θt+3以及θt+3=θt+4(步S14),并且流程进行到处理(b)(步S12)。
否则(如果在步S13中NO被确定),则U值为1的座标被指定给i,X值为0的座标被指定为i′(步S15)。由于直方图的性质,i和i′彼此不同。一般而言,可以存在一组座标i和一组座标i′。
此外,在U值为1的座标i,W值为1,在X值为0的座标i′,W值为0。在所有属于Ω的字符类型当中,由W值为1和0的所有这了符类型构成的关于所有这种座标i(1≤i≤L1+L2)以及i′(1≤i≤L1+L2)的集分别由SW(i=1,i′=0)表示。在这种情况下,当i和i′之一不存在时,则在括号中只描述存在的一个。更具体地说,这种集由SW(i=1)或SW(i′=0)代替SW(i=1,i′=0)(步S16)如果i≤|SW(i=1,i′=0)|≤K(如果步S17为YES),则SW(i=1,i′=0)并被输出作为候选字符类型集(步S23),这样便结束处理。
如果|SW(i=1,i′=0)|>K(在步S18中为YES),则这里使用的全部座标i为固定的(步S28)并按着进行(d)(下文说明,步30)。
如果1≤|SW(i=1′)|≤K(步S19为YES),则SW(i=1)并被输出作为候选字符类型集(步S24),这样便结束处理。
如果|SW(i=1′)>K(如果步S20为YES),则此处使用的所有座标为固定的(步S29),并接着进行处理(d)(下文说明,步S30)。
如果1≤|SW(i′=0)|≤K(如果在步S21为YES),则SW(i′=0)被输出作为候选字符集(步S25),这便结束处理。
如果|SW(i′=0)|>K(如果在步S22为YES),则设Ω=SW(i′=0),且θt=θt+1,θt+1=θt+2,θt+2=θt+3,以及θt+3=θt+4也被设定(步S26)。以后进行处理(b)(步S12)。
如果|SW(i=1,i′=0)|=0,|SW(i=1)|=0或|SW(i′=0)|=0(如果在步S22中为NO),则在这一步要被作为目标的字符类型的集Ω被输出作为候选字符类型集(步S27),结束处理。
处理(d)如果所有座标i(1≤i≤L1+L2)是固定的,(如果在步S30为YES),则当i和i′作为候选字符类型集存在时,输出SW(i=1,i′=0),或当只有i存在时,输出SW(i=1)(步S31),处理结束。
如果不是固定的座标i存在(在步S30中为NO),则根据上述两种情况之一设Ω=SW(i=1,i′=0),或Ω=SW(i=1),并且还设θt=θt+1,θt+1=θt+2,θt+2=θt+3,以及θt+3=θt+4。然后进行步S32接着返回步S12。
分类处理1A的分类算法已描述完毕。
通过在步S12中以及以后的步中用1代替0用0代表1得到在大分类中使用的另一分类处理1B的分类算法。通过在分类处理B中的0—1图形表示中用1代替0,用0代替1,则相当于应用分类处理1A的分类算法。如上所述,这一关系称为分类处理1A和1B的对偶性。
对细分类处理的过程解释如下。
在细分类中,根据需使用分类处理2A和2B。分类处理2A的分类算法和分类处理1A的相同,分类处理2B的分类算法和分类处理1B的相同。不过,这些分类处理使用±45°方向的直方图作为字符图象的直方图,并且对具有接近±45°的斜的线段的字符的分类尤其有效。
分类处理2A可以认为是基于字符图像的黑色象素的分类法,而分类处理2B可以认为是根据其白色象素的分类。此外,这些处理处在不同的噪声影响下。因此,当存在1个并且只有1个对两种处理的分类结果是公共的候选字符类型时,该字符类型可以以足够高的可靠性被确定为真正的候选字符类型。否则,便进行确定关于可靠性优先权的处理,并输出几个候选字符类型。用这种方式,由常规系统不能实现的大部分识别错误(或分类错误)的自动检测便可以实现。
下面说明在细分类处理中用于确定优先权的矢量图形以及矢量图形之间的矩离计算。
对于未知的输入字符X的4个方向即垂直、水平和倾斜(±45°方向)方向的直方图的0—1图形表示按预定顺序例如按垂直、水平-45°和+45°的顺序排列,对其各自的横座标指定若干个编号,即间隔,在每个间隔之中取第一个编号作为其值的变量由Yi表示(对于1≤i≤L1+L2+L3+L4=n),这里L3、L4分别代表-45°和+45°方向的两个直方图的编号。这样,矢量Y被定义为Y=(Y1,Y2,…,Yn)根据Y的定义,每个元素Yi取非负整数。
Yj作为每个字符类型Xj的标准图形并通过相同的字符类型的某些抽样的矢量平均值给出。注意,整个图形可被用作这里要被使用的矢量图形,不过,灵活地利用部分图形或通过部分地细分直方图的纵座标和横座标而定义的图形是有效的。
在未知输入字符X和标准图形之间的距离计算中使用正整的(normal)欧几里德距离。具体地说,当考虑噪声影响时,可以使用被矢量元素的方差(variance)的倒数加权的欧几里德距离。
第一候选字符类型的选择以及误差检查,根据作为关于未知输入字符X的大分类结果获得的候选字符类型数在以下的步骤中进行。
图10A到10D表示细分类过程。下述的1A=1和1A>1被用来分别表示1A只给出1个候选字符类型和一个以上的候选字符类型,对于1B也使用同样的规定。
(i)当在分类处理1A和1B的每个中获得一个候选字符类型时(如果在步S41中为YES)如果这两个候选字符类型彼此一致(如果在步S42中为YES),则该候选字符类型作为第一候选输出(步S43)。
如果这两个候选字符类型彼此不一致时(如果在步S42为NO),则进行输入X的矢量和两个候选字符类型的矢量(标准矢量)之间的距离计算,并按照较短距离的顺序,作为第一和第二候选物输出这些候选字符类型(步S44)。
(ii)当在分类处理1A和1B之一中获得一个候选字符类型,而在其它分类处理中获得几个候选字符类型时(如果步S45为YES)如果在一个分类处理中被限制的一个候选字符类型被包括在另外的分类处理中的候选字符类型的集中(如果在步S46为YES),则该候选字符类型作为第一候选输出(步S47)。
如果在一个分类处理中被限制的一个候选字符类型不被包括在其它分类处理中的候选字符类型的集中(如果在步S46为NO),则未知的输入字符X的点图形从大分类处理部分6中送入直方图准备部分10,以便制备输入字符X的直方图(步S52)。分类处理2A和2B则相对于在处理1A和1B中获得的候选字符类型的集的和进行。然后,在处理2A和2B中获得的候选字符类型的集的和S2和积P2分别被进行计算(步S53)。
如果积P2包括一个字符类型(如果步S54为YES),则该字符类型作为第一候选输出(步S55)。
如果积P2只包括几个字符类型(如果在步S56中YES),则进行未知输入字符X和这些字符类型之间的距离计算,并把这些字符类型按较短距离的次序作为第一和第二候选输出(步S57)。
如果积P2为空(如果在步S56为NO),则进行在字符X和属于和S2的每个字符类型之间的距离计算,并按照较短距离的次序,把这些字符类型作为第一、第二候选输出(步S58)。
(iii)当在分类处理1A和1B的每个中获得几个候选字符类型时(如果步S45为NO),则设S1和P1分别为在两个处理中得到的候选字符类型的和和积(步S48)。
当P1不为空时如果积P1只包括一个字符类型(如果步S49为YES),则该字符类型作为第一候选输出(步S50。
如果积P1包括几个字符类型(如果在步S51为YES),则未知输入字符X的点图形被从大分类处理部分6中送到直方图制备部分10,从而制备直方图(步S59)。对于积P1进行分类处理2A和2B,并计算在两个处理中分别获得的候选字符类型的集的积P2’和和S2’(步S60)。
如果集P2’只包括一个字符类型(如果在步S61为YES),则该字符类型作为第一候选输出(步S62)。
如果集P2’包括几个字符类型(如果步S63为YES),则在字符X和这些字符类型之间进行距离计算,并按照较短距离的次序,作为第一、第二候选输出这些字符类型(步S64)。
如果集P2’为空(如果在步S63为NO),则进行字符X和属于和S2’的每个字符类型之间的距离计算,并按较小距离的顺序,作为第一和第二候选输出这些字符类型(步S65)。
当P1是空时(如果步S51为NO)则把未知输入字符X的点图形从大分类处理部分6送到直方图制备部分10,从而制备直方图(步S66)。对和S1进行分类处理2A和2B,并且计算在两个处理中分别获得的候选字符类型的集的积P2″和和S2″(步S67)。
如果积P2″只包括一个字符类型(如果步S68为YES),则该字符类型作为第一候选输出(步S69)。
如果积P2″只包括几个字符类型(如果步S70为YES),则进行字符X和这些字符类型之间的距离的计算,并按照较短距离的次序,作为第一和第二候选输出这些字符类型(步S71)。
如果集P2″是空(如果步S70为NO),则进行字符X和属于和S2″的字符类型之间的距离的计算,并按照较短距离的次序,作为第一和第二候选输出这些字符类型(步S72)。
细分类的分类算法已说明完毕。
如上所述,本实施例注意到这样的事实垂直和水平线段的尺寸和位置关系,直接地反映在垂直和水平方向的直方图的结构中,并且还注意到这样的事实斜线段之间的尺寸和位置关系反映在两个方向即±45°方向的直方图中。因而,按照本实施例,利用直方图的0—1图形表示,可有效地吸收噪声的影响,并且有效地利用每个字符的结构信息。
更具体地说,本实施例的分类处理依据的原理和常规的图形匹配法截然不同,它使用根据草划例如构成字符的垂直、水平以及斜线段中的关系作为基本手段。本实施细的分类处理只需要简单的操作,例如比较/容易的判别,计数等,而不需要任何复杂的图象处理,例如规格化,细线转换,以及字符图象的处理。在本实施例中,制备直方图是唯一的图象处理。
用这种方式,通过用较小的计算量实现未知输入字符和标准图形之间的校对,可以显著地改善大分类的处理速度。关于高精度,可以首次实现分类错误的或识别错误的自动检验处理。
此外,按照本实施例,因为可利用分别基于黑白象素的两种大分类方法,当只有一个字符被公共地包括在两种分类方法的候选字符类型中时,可以以极高的概率认为该字符是真的候选字符,并可以实现识别或分类错误的自动检测处理。
如下文所述,在计算机实验中,大多数字符图象可被在大分类过程中正确地识别,只有少数的字符类型需要细分类。在细分类中要被分类的候选字符类型的数量大约为2个,因而容易从这些候选者当中找到真正的候选者,从而实现了高精度识别。
关于本发明能抵抗强噪声的原因现在参考图8A到8C说明如下。
请注意未知字符X的垂直水平方向的直方图(图8A和8B)以及通过把这些直方图转换成0—1图形形示得到的图8C所示的“0”和“1”的阵列U,V,W和X。
(1)在阵列U中每个1意味着“1”连续地向下,象V,W,X,…中出现。在另一方面,在阵列X中每个0意味着“0”连续地向上,象W,V,U,…中出现。因此,在阵列U中的第1和第5列中的“1”以及在阵列X中的第2、第6和第7列中的“0”作为突出的结构信息。
这一结构信息可用阵列W(作为例子)的相应的座标值表示,即第1和第5的“1”和第2、第6以及第7的“0”。在这种情况下,为了用高度方向上的噪声把阵列W中第1和第5的“1”改变为“0”,该噪声必须有足够大的幅值,便得按顺序把U,V和W改变为0,并且为了把在阵列W的第2、第6和第7的“0”改变为“1”,噪声必须有能使X和W按顺序变为1的足够大的幅值。
2)为了加强上述的结构信息的抗噪能力,在第1和第5列的“1”可以用在阵列X中的第1和第5列的“1”表示。为了把这些“1”改变为“0”,噪声必须具有能把阵列U,V,W和X中的“1”变为“0”的足够大的幅值,在另一方面,第2、第6和第7列中的“0”可以用在阵列U中相应的座标表示。为了把这些“0”改变为“1”,噪声必须具有能反阵列X,W,V和U中的“0”改变为“1”的足够大的幅值。
在本实施例的方法中,可利用各种改变来加强高度方向的抗噪能力。在上述的方法1)和2)中,前一方法相对来说抗噪能力弱,但它方便一些,因为这一操作可以根据限制的候选字符类型数,连续进行到从最低的阵列10%的位置(后一种方法可使这种操作进行到从最低阵列20%的位置)。根据噪声程度可灵活地运用这些改型。
在本实施例的方法中,由在水平方向(称为座标)上的与位移(位置移动)有关的噪声引起了一种实际问题。水平间隔(座标)彼此重迭2δ。然而,当直方图和峰值出现在相邻间隔之间的边界附近时,即使由于小的位置移动,在相应间隔中的直方图的高度也极大地改变。在这种情况下,制备两个0—1图形(标准图形),也就是使用所谓的多样板吸收这一变化。虽然样板数增加了,但因为校正非常简单,对识别速度的影响是可以忽略的。
代替如图1所示的存储标准图形的0—1图形表示字典,可以设置存储标准字符的直方图的标准字符直方图字典14,如图11所示,并且在执行大或细分类时,可以根据标准直方图制备标准的0—1表示。包括0—1图形表示字典12的装置可以实现高速处理,因为标准的0—1图形表示不必顺序地制备。在另一方面,包括标准字符直方图字典14的排列可以灵活地在制备0—1图形表示时改变参数。
细分类处理部分8的上述的处理过程仅是一个例子,还可以得到其它的改型。
细分类处理部分8输出一个或两个识别结果,当输出两个结果时,则候选字符类型的优选权被确定。此外,部分8可能总是输出唯一的一个识别结果,或者可能输出一个候选字符类型的预定数(三个或多个)的最大的一个。当两个或多个识别结果要被输出时,决定优先权时使用的距离可以直接地被输出以代替输出字符候选者的优先权。
根据识别目标字符的分类或根据目标字类型数,如图12所示,在大分类处理中,可以只进行分类处理1A或1B,而不执行细分类,从而得到足够的效率。更具体地说,在本发明中细分类不是不可省略的步骤,而是一个记入处理的例子。
如图13或图14所示,常规的记入处理可以加于上述的实施例。该记入处理包括,在字单元中的常规识别处理,对字符串的识别处理等。在上述的实施例中,在分类处理1A与1B中,使用了垂直和水平方向的直方图,在分类处理2A和2B中,使用±45°方向的直方图。不过,在每个分类处理中,垂直、水平以及±45°的四个方向的直方图以及其它方向的直方图(例如±30°,±60°等方向)均可使用。
在本发明的范围和构思内,可以作出本发明的各种其它的改型。
本发明人使用本发明的字符识别系统的实验结果说明如下。
在现有技术和本实施之间,对用于大分类所需的计算量的差别以及在候选字符类型数方面的差别将进行比较。
当识别目标字符类型被设定为3122JIS level—1字符类型(2,965个汉字字符,147个假各字符和10个数字字符),常规的大分类对每一未知输入字符需要3,122次距离计算(图形匹配),而本实施例的大分类只需对每个未知输入字符使用分类处理1A和1B进行简单的计算,包括比较/容易的识别和计数。因为本实施例的大分类只需要简单的计算,包括简单的比较/容易的识别和计数,所以本实施例的计算量比常规方法中用于单独的距离计算的计算量小。此外,候选字符类型数通过这种小的计算量将能被限制在平均2个或更少。
用这种方式,本实施例可以实现高速高精度的识别处理,因为它不需要用全部的标准图形(3122个字符类型)来进行大量的距离计算(3122次),而大量的距离计算会防碍高速度。
按照在“High—speed Character Recognition Algorithm Based onAssociative Matching Method”,Journal of Society of Information Pro-cessing,Vol.32,No.3,pp.404—413(1991)中披露的方法,候选字符类型的数量可以被限制到5。然而,这一方法也需要距离计算(图形匹配)。
通过本实施例大分类的实验获得的候选字符类型的平均数的例子说明如下。
当输入一个和被准备标准图形的字符集相同的数据集时(几乎在理想条件下)(i)在分类处理1A中,对于英文字母类型的候选字符类型的平均数是1.11,在分类处理1B中为1.12。
(ii)对于3122 JIS level—1字符类型的候选字符类型的平均数在分类处理1A中为1.25,在分类处理1B中为1.27。
(iii)对于在3122 JIS level—1字符类型中的157假名/数字字符类型,在分类处理1A中为1.10,在分类处理1B中为1.11。
在每个处理中获得的候选字符类型都包括了真的候选物。
在这种情况下,在垂直和水平方向的直方图的横座标分别被分成6个间隔,并且相应于字符的高度和宽度,座标分别具有100%位置。这些直方图被分成要被量化成0—1图形的20个间隔。
关于英文字母、罗马字符、黑体字符、以及象26个英文字母典型字符的斜体字符,连同它们的大写小写字符都被算作不同的字符类型,共计使用了156个字符类型。
在噪声影响下由大分类实验获得的候选字符类型的平均数的例子说明如下。
i)关于英文字母,对52个字符类型进行了分类实验,其中包括用略微不同的打印机打印的11组罗马大小写字符。在这种情况下,根据11组字符类型中的任意的一组准备标准图形,并且剩下的10组字符类型被用作未知输入字符。在这种情况下,对于四组字符类型,直方图的峰值位于沿横座标相邻间隔之间的边界附近,并且由于由噪声引起的位置位移的影响发生了识别错误。然而,对于这些字符类型,可以借助于制备两个标准图形来避免分类错误。
在这种情况下的大分类中的个候选字符类型的平均数在分类处理1A中为1.23,在分类处理1B中为1.23。
在分类处1A和1B之间的公共集中的错误数是1(分类精度98。0%),分类处理1A和1B的结果的集的和包括了真正的候选字符类型(分类精度100%)。
(ii)对于汉字和假名字符,使用图象扫描仪输入了3,122个JISlevel—1字符类型,并用略有不同的打印机打印,以制备11组3112个字符类型。在这些组当中,使用任意一组作标准字符,对其余10组进行了大分类。
对于3122个字符类型中的157个汉字/数字字符类型,候选字符类型的平均数为1.31。
在此情况下,由于噪声引起的位置移动产生了6个错误。然而,因为基本上是同一个字符类型引起错误,这些错误可通过对这些字符类型中的每一个选择几个不同的标准图形来消除。
在对3,122个字符类型的大分类中,候选字符类型的平均数为1.52。
注意,借助于采取合适措施来由噪声引起的水平方向的偏移而导致的分类错误,从而可期望得到进一步的改进。
本发明应用的例子说明如下,(应用例1用于实现应于常规方法的高速字符识别)按照本发明方法的大分类,直接地利用在字符提取中使用的字符的直方图,不需任何的预处理。因此,本发明方法的大分类可在常规方法中的字符提取之后被插入,从而使在常规方法中的预处理以及以后的处理过程可应用于由本发明方法获得的分类结果。
常规方法字符提取→用本发明的方法大分类→预处理(格式化,变细等)→特征提取大分类→细分类→输出(第一和第二候选字符类型之类)。
在此情况下,按照本发明方法的大分类只需要简单的计算,例如比较/容易的识别,计数等,和常规的大分类中的单项计算量相比其计算量可以忽略。因此,当把常规方法中的预处理及以后的处理应用于按本发明的方法的大分类获得的候选字符类型集S时,则在常规大分类处理中要进行距离计算的目标数从所有的字符类型数即3,122减少到在集S中包括的候选字符类型数(即使在确保裕度以避免错误时,平均而言为30或更少)。
因此,距离计算的次数从3122减少到至多为30,因而处理速度可以显著地提高。
更具体地说,本发明可以完全解决用于图形匹配的距离计算问题,这问题是高速处理的最严重的障碍。在此情况下,图象处理例如格式化,变细(thinning)等的计算量可能提出另外的问题。然而,本发明的方法不需要这种复杂的图像处理,而只要求制备直方图以及根据直方图的单一的计算例如比较/容易的识别,计数之类。在这方面本发明的方法见有大的实际效益。
(应用例2应用于打印文件的字符提取)决定字符识别精度的一个重要的因素,已经知道的一个问题与字符提取精度有关。在这一问题中,在水平(垂直)书写格式的情况下,水平(垂直)地可分开的字符是产生提取错误的主要原因,并且当可分开的字符连续出现时问题尤为严重。在这种情况下,被提取的部分可以和字符识别协同地被识别,并可以把识别结果反回提取部分,以实现校正提取。
然而,常规的识别方法在速度和精度方面却不能提供完全的解决办法。从水平书写的印刷文件提取时,可引起错误的垂直地可分开的字符数在JIS level—1汉字字符中大约为280,在假各字符中大约为15,即总共大约300。因此,通过应用本发明的大分类方法,可以足够高的速度检测要被识别的字符是否是可分开的字符,因而可以实现用于高级的实际应用。
(应用例3应用于印刷的英文字母的识别)把本发明的方法应用于印刷的英文字母,其中包括各种类型的字体,和常规方法相比,可以实现保持极高速度处理的印刷英文字母的高级识别,并可以自动检查识别错误。
本发明不限于上述的实施例,在本发明的范围和构思内,可以作出各种改型。
对本领域的技术人员来说容易看出另外的优点和改型。因此,本发明在其较宽的方面并不限于这些具体的细节、有代表性的装置以及说明中所用的例子。因而,不脱离由所附权利要求及其等效物限定的总的发明构思的范围,可以作出各种改型。
权利要求
1.一种字符识别装置,包括提取装置(4),用来从输入的文件图象中提取预定的识别单元;直方图制备装置(10),用来由所提取的识别单元制备直方图;0—1图形表示字典存储装置(12),用来存储各个识别目标类别的0—1图形表示;以及识别装置(6),用来对由制备的每个识别单元的直方图中提取的0—1图形表示用存储在所述0—1图形字典存储器中的0—1图形表示进行核对,并输出符合于识别单元的识别目标类别的候选物。
2.如权利要求1的装置,其特征在于还包括装置(8),用来根据文件图像中的黑象素进行分类并用来根据文件图象中的白象素进行分类,并根据两种分类的分类结果输出几个字符候选物。
3.如权利要求2的装置,其特征在于所述输出几个字符候选物的装置使用基本上±45°方向的直方图作为字符图象,进行根据黑象素的分类和根据白象素的分类。
4.如权利要求1的装置,其特征在于还包括优先权确定装置,用来确定识别目标类别的候选物的优先权。
5.如权利要求4的装置,其特征在于所述优先权确定装置根据在由制备的识别单元的直方图制备的矢量图形表示和与检索到的识别目标类别的候选物相符合的预先制备的识别目标类别的矢量图形表示之间的距离计算结果确定所述优先权。
6.如权利要求1的装置,其特征在于,每个识别单元相应于一个字符。
7.一种字符识别装置,包括提取装置(4),用来从输入文件图象中提取预定的识别单元;直方图制备装置(10),用来由提取的识别单元制备直方图;直方图字典存储装置(14),用来存储识别目标类别的直方图;0—1图形制备装置(6),用来根据存储在所述直方图存储装置中的识别目标类别的直方图制备识别目标类别的0—1图象形表示;以及识别装置(6),用来把从制备的每个识别单元的直方图中提取的0—1图形表示和由所述0—1图形制备装置制备的0—1图形表示进行核对,并输出和识别单元相符的识别目标类别候选物。
8.如权利要求7的装置,其特征在于,还包括优先权确定装置,用来确定检索到的识别目标类别的候选物的优先权。
9.一种字符识别方法,包括提取步骤(S2),用来从输入文件图象中提取预定的识别单元;直方图制备步骤(S5),用来由提取的识别单元制备直方图;以及大分类步骤(S6,S7),用来对从制备的每个识别单元的直方图中提取的0—1图形表示用预先制备的识别目标类别的0—1图形表示进行核对,并获得和识别单元相符的识别目标类别的候选物。
10.如权利要求9的方法,其特征在于,还包括细分类步骤,用来根据文件图象中的黑象素进行分类并根据文件图象中的白象素进行分类,并根据两种分类结果输出几个字符候先物。
11.如权利要示10的方法,其特征在于,在细分类步骤中,包括使用基本上±45°方向的直方图作为字符图象,根据黑象素进行分类和根据白象素进行分类的步骤。
12.如权利要求9的方法,其特征在于,进一步包括用来确定识别目标类型候选物的优先权的优先权确定步骤(S57,S64,S17)。
13.如权利要求12的方法,其特征在于,所述优先权确定步骤包括根据对由制备的识别单元的直方图制备的矢量图形表示和预先制备的识别目标类型中和检索的识别目标类型的候选物相符的矢量图形表示之间的距离计算结果确定优先权的步骤。
14.如权利要求9的方法,其特征在于,每个识别单元相应于一个字符。
15.一种字符识别方法,包括提取步骤(S82,S92,S102),用于从输入的文件图象中提取预定的识别单元;直方图制备步骤(S5),用来由提取的识别单元制备直方图;0—1图形表示制备步骤,用来根据存储在直方图字典存储装置中的识别目标类别的直方图制备各个识别目标类别的0—1图形表示;以及0—1图形表示校核步骤,用在0—1图形制备步骤中制备的0—1图形表示对从制备的每个识别单元的直方图中提出的0—1图形表示进行部分地校核,并输出相应于识别单元的识别目标类别的候选物。
16.如权利要求15的方法,其特征在于,还包括根据文件图象中的黑色象素进行分类和根据文件图象中的白色象素进行分类,并根据两种分类结果输出几个字符候选物的步骤。
17.如权利要求16的方法,其特征在于,所述输出几个辽符候选物的步骤包括使用基本上为±45°方向的直方图作为字符图象,根据黑色象素进行分类和根据白色象素进行分类的步骤。
18.如权利要求15的方法,其特征在于,还包括确定识别目标类别的候选物的优先权的优先权确定步骤。
19.如权利要求18的方法,其特征在于,所述优先权确定步骤包括根据对由制备的识别单元的直方图制备的矢量图形表示和预先制备的识别目标类别中的与检索到的识别目标类别的候选物相符的矢量图形表示之间的距离计算结果确定优先权的步骤。
20.如权利要求15的方法,其特征在于,其中的每个识别单元相应于一个字符。
全文摘要
从输入的文件图象中提取预定的识别单元,根据所提取的识别单元制备直方图。通过用预先制备的各个识别目标类别的0-1图形表示,对由制备的每个识别单元的直方图中提取的0-1图形表示进行部分地校核,并检索和识别单元相符的识别目标类别的候选物。
文档编号G06K9/68GK1129331SQ95118548
公开日1996年8月21日 申请日期1995年10月30日 优先权日1994年12月15日
发明者木村正行 申请人:北陆先端科学技术大学院大学长