专利名称:识别七笔段手写数字的非点阵方法
技术领域:
本发明涉及一种机器识别阿拉伯数字字符的方法。特别是一种识别基于七笔划的手写或其它方式产生的阿拉伯数字字符的方法。
现有的机器识别手写阿拉伯数字的方法种类较多。最常见的是点阵扫描特征抽取法。由于手写阿拉伯数字的随意性很大,给机器识别带来很大困难。并且,这类方法的识别开销也较大。因而,人们提出了各种各样的受限制的手写字符的识别问题。
《图象识别与自动化》90年2期“七段码有限制手写体数字的识别”一文,提出了识别基于七笔划手写体数字字符的方法。除掉滤除燥声等予处理手段外,该法大体上仍是由点阵扫描、抽取点阵的特征、按统计模式识别与按结构模式识别相结合的一种方式识别判断等几个步骤来识别字符的。因而仍然有一个方法复杂、识别代价大的缺点。
在不使用点阵扫描方式识别阿拉伯数字的方法中,比较成熟的是已进入实用阶段的OCR法。该方法的识别对象为“ISO1073/1-1976”中规定的字符集。其具体实现是通过扫描字符,将一个字符的扫描区从垂直方向一分为二,从水平方向等分成五份,形成十个扫描部位。分别检测这十个部位的逻辑值(是否有笔划),从而识别字符的。识别率较高,开销也较低。但是这种方法识别对象的形状要素要求严格,而且很不符合人们的书写习惯。就是其中的阿拉伯数字要手工书写,形成推广的局面是很困难的。
本发明的目的是要提供一种方法。它能以较低的识别开销,较高的识别率识别七笔划阿拉伯数字。识别对象的集合为“零”至“玖”十个字符以及小数点、负号等字符。根据需要,其识别对象还可以增加。比如空格,抹字符等。
本发明是这样实现的在七笔划字符的下部水平方向设置2个辅助扫描标识(6),(7)。识别字符的器件的扫描束,在保证水平方向定位的前提下,以一定速度从左到右扫过整个字符及字符外部的辅助扫描标识。可以根据字符外形尺寸、扫描器件具体构成等,进行设计,使整个字符扫描区水平地割分出4个彼此平行,相互独立的扫描道(1),(2),(3),(4),以及一个辅助标识扫描道(5)。在外部辅助扫描标识(6),(7)的作用下,扫描一个字符,实际上是分成三个连续的扫描阶段完成的。而每个阶段都检测这4个扫描道(1),(2),(3),(4)扫过的信息。
下面结合附图
进一步说明。
设立一个2位的辅助存贮器(8)及一个5位的笔划信息存贮器(9)。还设立一个2位的扫描阶段计数器。
在扫描束扫到(6)之前,为初始阶段。这时(8),(9)均置为初值(全为二进制0)。而且扫描阶段计数器的值为2进制“00”。
(6)有三个作用。首先它表示对该字符的扫描开始,其次,有一个屏蔽及选通作用。即通过对控制线路的设计,使扫描束扫过它时,对(1),(3)的扫描信息作屏蔽,而对(2),(4)的扫描信息作选通,并将其送入(9)的第1,第2位之中。(6)的宽度可以控制信息采集的几何范围。从某种意义上说,对于笔划的粗细,倾斜等误差因素,起到一个控制作用。在整个第一阶段扫描过程中阶段计数器的值为“01”。
在扫完(6),而(7)未扫到的第二阶段。控制线路对(1),(2),(3),(4),的扫描信息均作选通处理。将(1),(3)的采集信息送入(9)的第3,第4位。并将(2),(4)采集信息送入(8)中,以判别本字符是否被抹掉。(1)、(3)的宽度,(6)、(7)之间的距离,决定了信息采取的几何范围,起到误差控制作用。在本阶段扫描过程中阶段计数器的值为“10”。
(7)的作用与(6)基本上相同。这个阶段表示字符扫描将结束。在这个阶段,控制线路仅选通(2),并将采集到的信息送入(9)的第5位。而对(1),(3),(4)不作理会。在本阶段;阶段计数器的值为“11”。本阶段仅选通(2),是因为识别我们前面述及的字符集只需取5个笔段信息即已足够。这可以从全部字符集的五笔划逻辑真值表中看出。
扫描束一旦扫完(7),表示一个字符的扫描结束。这时触发控制线路对前三个阶段采集到的贮存在(9)中的信息,通过识别线路作出识别判断。并在输出端产生数字字符的二进制编码值或者给出一个字符已抹除的信息。此时阶段计数器的值又变为二进制“00”了。它为识别下一个字符作出了准备。
本方法的辅助扫描标识起到重要的作用。它们不但可设在字符的下部,也可以设在上部,还可以上、下部同时设置。甚至还可以与字符形成某种“叠加”。如果能够严格控制扫描速度为匀速,也可以取消标识,而用内部的电子器件产生同步的读取控制信号,同样也可以采用本方法原理。标识的个数也不一定是每个方向2个,可以更多。只要能形成三段扫描。
本方法只需作一点工作也可以实现从右到左的扫描。
可以看出,本方法检测字符信息是基于笔划逻辑的。不存在点阵扫描法中的燥声滤除,抽取特征,样本核对等复杂的处理过程。因而识别率高,识别开销很小。且配套的译码及其它控制线路逻辑上特别简单。初期投资也很小。
随着数显电子钟表等各种采用七笔划字符的显示设备的普及,本方法所识别的七笔划阿拉伯数字在世界上具有很广的普及性,已被大家普遍接受。事实上,中央电视台的报时也采用七笔划数字。足见其普遍程度。七笔划数字的笔划都是横平竖直,在一定的辅助约束及示范样本的帮助下,手工书写毫不困难,并且比较规范。因而引起误识别或无法识别的概率很低。
当然,由于本方法的特点所致,其适应性受到一定限制。首先,针对一种尺寸的识别对象的识别器件,一般不能识别其它尺寸的字符。其次,辅助扫描标识及字符书写约束框要事先制好,且要有一定的相对几何尺寸及绝对几何精度的要求。
邮电部邮政总局早已在全国推行邮政编码,其目的就是为了能够采用机器识别邮码,进而实现邮件的自动分拣处理。但由于邮政的社会广泛性,邮码书写的极不规范等种种原因。目前机器识别一直无法进入实用阶段。本发明可以用于邮码的机器识别。
如附图2,可以在信封的固定位置,事先印刷好基于七笔划字段的书写约束框,并在框外水平方向印刷好辅助扫描标识。用户使用信封时,只需按七笔划字段方式将邮码写上去即可。
邮局扫描邮码时,可以利用信封的上部水平边缘定现水平扫描定位。进而按本发明所提出的方法识别出邮码来。考虑到邮政信封的尺寸及上面印刷的各种图形的位置及相互关系,可以由国家标准加以确定。因而推广也是不困难的。光扫描器件可根据实际情况加以选择。如光电二极管或CCD元件等。
本方法还可以用到邮电系统的电话拨号的改进方面。可以为拨号电话机动加接一个读出设备及相应的接口线路。打电话时,用户只需将扫描装置在自己的电话号码本的号码部位或电子电话号码存贮卡的显字屏上一划,即可实现自动拨号。当然,这种电话号码本,也必须依本发明提出的方法按照扫描装置的尺寸,事先印刷好书写约束及辅助扫描标识。而电子电话号码存贮卡的显示屏也应加上辅助的扫描标识。
权利要求
1.一种识别受限制的基于七笔段的手写的或其它规范方法产生的阿拉伯数字字符的方法。其特征是a).通过(1)、(2)、(3)、(4)共四个水平扫描道,从左到右扫描字符的一部分。b).通过字符以外的带有控制作用的辅助扫描标识,使整个扫描过程形成三个扫描阶段。c).识别字符是扫描字符的笔段存在与否来实现的。
2.根据权利要求1所述的方法,其特征是通过(1)、(2)、(3)、(4)共四个水平扫描道,从右到左扫描字符的一部分。
3.根据权利要求1所述的方法,其特征是字符的上部、下部或上下部同时设有带控制作用的辅助扫描标识。
4.根据权利要求1或3所述的方法,其特征是每方设有2个辅助扫描标识。
5.根据权利要求4所述的方法,其特征是每方设有2个以上的辅助扫描标识。
全文摘要
本发明提出了一种识别手写的七笔段阿拉伯数字的方法,其特征是在字符的水平方向设立四个平行扫描道,另外同时设立辅助扫描标识,扫描束沿扫描道扫描字符时,也扫到辅助标识,在辅助标识的作用下,一个扫描字符的过程形成三个连续的阶段,通过各个阶段对笔段信息的选通或屏蔽,可以识别一个七笔段数字。
文档编号G06K9/00GK1064959SQ92108089
公开日1992年9月30日 申请日期1992年4月10日 优先权日1992年4月10日
发明者戴二蓉 申请人:戴二蓉