专利名称:字符识别方法与系统的制作方法
技术领域:
本发明涉及一种字符识别方法和系统,尤其适用于识别手写体汉字和多字体印刷汉字的识别方法。
国内外已经研制的若干字符识别系统,主要采用对字符图象的象元分布抽取特征参量,并以此参量为依据进行分类和匹配识别的字符识别方法。例如,1989年2月8日中国专利审定公告CN1003257B的字符识别系统,1990年11月21日中国专利审定公告CN1010512B所公开的技术。
因此,通常的技术有如下的问题1.不能直接反映字符的结构特征,因而忽视了笔划结构作为字符构成的本质特点。
2.大字符集的情况下难以达到高的识别率。
3.区分形态相似或笔划结构复杂的字符十分困难。
4.在手写体字符情况下,字形书写变化很大,所抽取的特征参量分散性大,且需采用高维特征矢量。
本发明的目的是创造一种字符识别方法,力求准确地抽取字符图象的笔划特征,充分反映字符的结构本质;直接利用字符的笔划结构词义对字符分类和匹配识别;运用知识表达字符的结构词义,达到简化字符的匹配识别过程,提高辨认相似字符的准确性和识别方法的适应能力。
本发明所涉及的字符识别方法包括对书写有字符的页面扫描获得字符图象为第一步骤;字符图象二值化、字符切分及规格化为第二步骤;抽取字符二值化点阵的笔划结构特征为第三步骤;由结构特征求得分类特征码以确定所属分类为第四步骤;将结构特征与所属分类的字符模型进行匹配并识别之为第五步骤;将识别结果转为可见输出为第六步骤。
所述的第三步骤包括1.字符结构模式作为模式整体可以分解为元字符、笔划和笔划元三种子模式。元字符是构造字符的字符。笔划分解为直线段即为笔划元。笔划元是最低级子模式,用作描述字符模式的结构基元,其结构特征包括笔划元中心坐标、长度、方向和连接关系。
2.对字符点阵作一次简单的扫描,检测每一象元在8个方向上与相邻象元的连接情况,将其区分为笔划的始端、终端、连接区或普通笔划元素并标记相应的符号,从而将字符点阵平面(CDP)转换成字符象元属性平面(CAP)。
3.除属于连接区的象元以外,在CAP上处于边缘点的象元,计算其“︱”、“-”、“/”“\”四个方向上连续的象元个数en,en最大的方向取作该边缘点的纤维主方向。在主方向上的en值称作纤维长度,纤维长度上连接的象元赋以主方向相应的权值。各边缘点的纤维可能相交形成交织区,交织区的象元其方向权值累加。所有边缘点完成上述计算后即可求得字符纤维结构图(CFP)。
4.对照CAP连接区的方向特征,除去CFP中的噪声纤维,将属于“︱”、“-”、“/”“\”四个方向的纤维分别置于v、h、s、b四个平面中,即可求得每一笔划元的中心坐标、长度和方向。
5.利用CAP的端点和连接区特征,结合已经求到的笔划元中心坐标、长度和方向可以计算笔划元的连接关系。
所述的第四步骤包括1.应用字符外围结构的四角特征和四边特征作为字符的分类特征,在二个层次上进行外围结构的描述和分类。由已知字符的四角特征和四边特征建立预分类字典。
2.在字符的笔划平面上(CSP)以平面的四个角为中心,搜索距离四角最近的笔划元。
3.判断最近角点的笔划元方向属性,并分成横、竖、撇、捺、角、交六种类型,赋以相应的编码,称作角码。由四个角码组成的码串构成字符的第一分类特征。
4.在CSP上由中心引出射线,按顺时针扫描,获得射线与字符最外层笔划元所组成的多边形作为字符外围轮廓,抽取其超过某一阈值的凸点,分别计数每一边的凸点数求得四边的码串构成字符的第二分类特征。
5.查找预分类字典中与待识字符四角码及四边码相同的同类字符代码,完成第四步骤。
所述的第五步骤1.字符结构词义采用框架形式的知识表达,由字符框架表达每一字符模式。在框架中,构成字符的全部笔划元分别在h、v、s、b四个平面上分组排序,并列出必要的笔划连接关系和相似字之间笔划元特征的辨析条件。在字符框架中参与分组排序的每一个笔划元由笔划元框架描述。笔划元框架表达笔划元之正常方向、中心位置和长度。此外,还给出该笔划的权重和允许的畸变方向。字符框架中的必要连接关系和笔划元框架中的权重属于运用知识表达、强调对识别结果有重要影响的笔划元及其连接关系而忽视那些冗余的或影响不大的成份。相似字辨析条件和允许的畸变方向使得识别过程既能顾及在结构复杂而且数量庞大的字符集中辨认不同字符间笔划结构的细微差别,又能对变化万千的字形具有良好的适应能力。
2.取出预分类同类的字符模型,依次与待识字符的笔划元特征进行搜索匹配、计算属性距离,若距离小于某一阈值认为匹配成功,否则认为匹配失败。如此过程在每个模型的四个笔划元子平面上依次执行直至结束。
3.按照笔划元框架指定的权重计算笔划元属性的加权距离。对字符结构起关键作用的笔划元由于有最高的权重而便于区分字符间笔划的细微差异,影响不大的笔划元有较小的权重,从而达到忽略冗余笔划的目的。
4.匹配未成的笔划元中若存在容许畸变方向的、转向相应方向的样本子平面搜索匹配。
5.对必要的连接关系进行检测,不满足这一要求时退出匹配候选列。
6.检测笔划元比较和相似字符辨析条件,不满足要求时退出匹配候选列。
7.匹配总距离在阈值范围内的所有字符,按距离从小到大排序,取出最小的几个作为识别候选字,若无识别候选字以拒识处理。
本发明具有的独特优点可概括如下准确抽取笔划结构特征从而充分反映了字符的本质特点。直接利用笔划特征描述字符之结构骨架而以笔划属性矢量适应字符形态的种种变化,实现字符分类和匹配识别。对字符的结构词义模型运用框架形式的知识表达,既便于强调重要的笔划或笔划连接关系,又可忽视对识别字符影响不大的笔划,十分有利于突出字符间的区别简化匹配识别过程。框架中表达了相似字的辨析条件,使得辨认字符间细微的笔划差异成为可能,例如风、凤;士、土;澜、谰……,从而极大地提高了字符的识别率。在笔划框架中还给出允许畸变的方向,使得识别的灵活性和适应能力显著提高。与现有的技术比较,既避免统计方法中因采用高维特征存在特征选择和模式可分性方面的困难而限制识别率的提高。也避免了结构方法难以适应字符形态多变的缺陷。
本发明的实施例由图文扫描仪、微型计算机主机、显示器、打印机、磁带机及有关接口板组成。扫描仪包括手持扫描在内各种型式均可适用。微型计算机主机使用DOS操作系统最为通用。磁带机不是必要的设备可以作为主机存储器的扩充或后备自由选用。系统的工作原理结合下面的附图逐步说明。
图1是实施例的系统方块图,书写在纸张上的字符用图文扫描仪扫描页面,每页扫描得到一幅图象文件,按所选的灰度阈值转换成二值化(0,1)点阵,经接口板存入计算机内。由页面切分程序模块搜索点阵的起始行,行总数,字首和字数自动完成字的切分,经规格化处理后得到每个字符的点阵(例如32×32或64×64字符点阵),抽取每个字符点阵的笔划特征,进行分类、匹配进而识别该字符至存于机内的字符点阵全部识别完毕,以机内码表示识别结果。最后以标准字形显示或打印出书写在样张上全部字符的识别结果,或者继续进行必要的编辑。
图2是结构特征抽取的流程图,以规格化处理后的字符点阵(CDP)作为该流程的起点,扫描CDP的行和列,检测在行和列二个方向取值为1的连续象元数X,记录出现次数最多的X作为笔划宽度wi,在行和列方向用笔划宽度量连续象元素不足wi时,分别用“︱”和“-”标记该象元。在“-”象元的两侧检测其是否为0,如左侧为0属于左端点,标记为“W”。如右侧为0属于右端点,标记为“E”。在“︱”象元的上、下二方检测其是否为0,上方为0属于上端点标记为“N”,下方为0属于下端点标记为“S”。在CDP中所有既不是“-”亦不是“︱”的象元,按其区域的坐标顺序用小写英文字符标记。该英文字符标记的区域即为笔划的连接区,并计算该连接区的特征。CDP的每一个象元按上述要求由指定符号标记之后即赋予笔划的始端、终端、连接区或普通象元等不同的属性称为字符象元属性平面(CAP),图3示出书写字符“毗”字的结构特征抽取实例。其中左上方是CAP图,下方是连接区特征表,第一列是序号、第二列是连接区代号、第三、四列分别是起始和终结的列坐标、第五、六列分别是起始和终结的横坐标。最后一列是连接区的连接特征,连接特征用代码表示示于图4。对CAP的每一个边缘点,除连接区的象元外,在行、列、左斜、右斜四个方向上计算其连续非0的象元数,取其象元数最大的方向作为该边缘点的纤维主方向,主方向上连接的象元数为纤维长度,各象元赋以主方向相应的权值。各边缘点的纤维可能相交形成交织区,交织区象元其方向权值累加。所有边缘点完成上述计算后即求得字符纤维结构图(CFP)。除去交织区的噪声纤维,将属于行、列、左斜、右斜四个方向的纤维分别置于h、v、s、b四个平面中即可求得每一笔划元的中心坐标、长度和方向,再利用CAP的端点和连接特征求得笔划元的连接关系,从而取得字符的全部结构特征。图3的右上图示出了“毗”字结构特征的实例。
图5是预分类工作流程图。在字符的笔划平面上,以平面的四个角为中心,搜索距离四角最近的笔划元。判断该笔划元的方向属性,把它们分成横、竖、撇、捺、角、交和空七种类型。它们的编码如图6所示称为角码,由四个角码组成的码串构成字符的第一分类特征。在字符笔划平面上再由中心引出射线,按顺时针扫描,获得射线与字符最外层笔划元所组成的多边形作为字符的外围轮廓,抽取其超过某一阈值的凸点,分别计算每一边的凸点数作为边码,四个边码构成四边码串即为字符的第二分类特征。由四边码和四角码查找预分类字典,获得同类字符代码。
图7是表达字符结构词义模型的框架,其中带下标的εi表示第i个笔划元,分别在h、v、s、b四个子面上分组排序,图8为笔划元条件排序结构图,排序条件可参照图9。必要的连接关系Ωmn是指该字符第m个笔划元和第n个笔划元之间必须满足的连接关系,例如“夫”字,第一横笔和竖笔之间必须是相交的关系,而天则无此要求。笔划元比较槽口则用以辨别字符内部笔划长短比较或方向的不同,例如土、士;天、夭,而相似字符辨析条件则判断某一笔划元缺少或存在时,候选字符的转移方向,例如风、凤;梁、粱等等。图10是笔划元框架表达图7中的每一个笔规元εi的结构特征。包括笔划元的正常方向之量化为横、竖、撇、捺为四个方向分别用h、v、s、b代表;笔划元中心坐标(XO,YO)i和笔划长度。框架中还给出了该笔划允许畸变的方向ε′i和结构权重wi,前者使匹配过程灵活而提高系统对字形变化的适应能力,后者则突出重点简化匹配。图7和图10组成系统的结构模型。图11示出运用知识引导的匹配识别工作流程图。图12是某子平面笔划元匹配工作流程图。按照预分类所给出的同类字符代码从知识库中逐个取出相应的字符模型,由图9表示的条件排序程序模块对已求得之笔划元进行排序。在h、v、s、b四个子平面上依次将模型中的笔划元与待识字符之笔划元先组内后组间依次匹配,笔划之间的属性距离小于规定阈值δ时认为匹配成功,否则认为匹配失败。若匹配失败,向下搜索字符笔划元是否匹配,如无匹配可能,取下一个模型笔划元进行匹配。这一过程一直进行到最后一个模型笔划元。若模型笔划元全部匹配成功或字符笔划元匹配完毕,则按照指定的权重计算全部笔划的属性距离,距离在阈值△范围之内时认为可列入匹配候选。模型中匹配未成的笔划元中若存在允许畸变方向的,转向相应方向的样本子平面搜索匹配,方法相同。对于列入匹配候选的字符模型进一步检测待识字符是否满足指定的连接关系Ωmn,例如夫、天;力、刀;……,夫和力相交关系都是必要的,不满足这一要求时退出匹配候选列。如果模型框架中存在笔划元比较的要求则检查是否满足要求,不满足比较条件的退出候选列。重复上述匹配比较直至全部分类模型匹配完毕。匹配总距离在阈值范围内的所有字符按距离从小到大的次序排列作为识别候选字排列首位的是第一候选字,通常情况下取为识别结果。若无识别候选字则以拒识处理。
图1是本发明实施例的方块结构2是结构特征抽取工作流程3是结构特征抽取的实例图4是笔划元连接关系描述图5是预分类工作流程6是四角特征码表图7是字符框架图8是笔划元条件排序结构9是笔划元条件排序工作流程10是笔划元框架图11是运用知识引导的匹配识别工作流程12是子平面h笔划元匹配工作流程图。
权利要求
1.一种字符识别方法,对书写有字符的页面扫描获得字符图象为第一步骤;字符图象二值化、字符切分及规格化为第二步骤;抽取字符二值化点阵的笔划结构特征为第三步骤;由结构特征求得分类特征码以确定所属分类为第四步骤;将结构特征与所属分类的字符模型进行匹配并识别之为第五步骤;将识别结果转为可见输出为第六步骤,本发明的特征是所述的第三步骤包括(1)字符结构模式作为模式整体可以分解为元字符、笔划和笔划元三种子模式,元字符是构造字符的字符。笔划分解为直线段即为笔划元。笔划元是最低级子模式,用作描述字符模式的结构基元,其结构特征包括笔划元中心坐标、长度、方向和连接关系。
(2)对字符点阵作一次简单的扫描,检测每一象元在8个方向上与相邻象元的连接情况,将其区分为笔划的始端、终端、连接区或普通笔划元素并标记相应的符号,从而将字符点阵平面(CDP)转换成字符象元属性平面(CAP)。(3)除属于连接区的象元以外,在CAP上处于边缘点的象元,计算其“︱”、“-”、“/”“\”四个方向上连续的象元个数en,en最大的方向取作该边缘点的纤维主方向。在主方向上的en值称作纤维长度,纤维长度上连接的象元赋以主方向相应的权值。各边缘点的纤维可能相交形成交织区,交织区的象元其方向权值累加。所有边缘点完成上述计算后即可求得字符纤维结构图(CFP)。(4)对照CAP连接区的方向特征,除去CFP中的噪声纤维,将属于“︱”、“-”、“/”、“\”四个方向的纤维分别置于v、h、s、b四个平面中,即可求得每一笔划元的中心坐标、长度和方向。(5)利用CAP的端点和连接区特征,结合已经求到的笔划元中心坐标、长度和方向可以计算笔划元的连接关系。所述的第四步骤包括(1)应用字符外围结构的四角特征和四边特征作为字符的分类特征,在二个层次上进行外围结构的描述和分类。由已知字符的四角特征和四边特征建立预分类字典。(2)在字符的笔划平面上(CSP)以平面的四个角为中心,搜索距离四角最近的笔划元。(3)判断最近角点的笔划元方向属性,并分成横、竖、撇、捺、角、交六种类型,赋以相应的编码,称作角码。由四个角码组成的码串构成字符的第一分类特征。(4)在CSP上由中心引出射线,按顺时针扫描,获得射线与字符最外层笔划元所组成的多边形作为字符外围轮廓,抽取其超过某一阈值的凸点,分别计数每一边的凸点数求得四边的码串构成字符的第二分类特征。(5)查找预分类字典中与待识字符四角码及四边码相同的同类字符代码,完成第四步骤。所述的第五步骤(1)字符结构词义采用框架形式的知识表达,由字符框架表达每一字符模式。在框架中,构成字符的全部笔划元分别在h、v、s、b四个平面上分组排序,并列出必要的笔划连接关系和相似字之间笔划元特征的辨析条件。在字符框架中参与分组排序的每一个笔划元由笔划元框架描述。笔划元框架表达笔划元之正常方向、中心位置和长度。此外,还给出该笔划的权重和允许的畸变方向。字符框架中的必要连接关系和笔划元框架中的权重属于运用知识表达、强调对识别结果有重要影响的笔划元及其连接关系而忽视那些冗余的或影响不大的成份。相似字辨析条件和允许的畸变方向使得识别过程既能顾及在结构复杂而且数量庞大的字符集中辨认不同字符间笔划结构的细微差别,又能对变化万千的字形具有良好的适应能力。(2)取出预分类同类的字符模型,依次与待识字符的笔划元特征进行搜索匹配、计算属性距离,若距离小于某一阈值认为匹配成功,否则认为匹配失败。如此过程在每个模型的四个笔划元子平面上依次执行直至结束。(3)按照笔划框架指定的权重计算笔划元属性的加权距离。对字符结构起关键作用的笔划元由于有最高的权重而便于区分字符间笔划的细微差异,影响不大的笔划元有较小的权重,从而达到忽略冗余笔划的目的。(4)匹配未成的笔划元中若存在容许畸变方向的、转向相应方向的样本子平面搜索匹配。(5)对必要的连接关系进行检测,不满足这一要求时退出匹配候选列。(6)检测笔划元比较和相似字符辨析条件,不满足要求时退出匹配候选列。(7)匹配总距离在阈值范围内的所有字符,按距离从小到大排序,取出最小的几个作为识别候选字,若无识别候选字以拒识处理。
全文摘要
本发明涉及一种字符识别方法与系统。抽取字符图象的笔划特征,直接利用笔划特征对字符进行分类和匹配识别。字符的结构词义采用框架形式的知识表达,框架中强调有重要影响的笔划和笔划连接,忽视作用不大的笔划,给出允许畸变的笔划方向以及为辨析相似字所必须的比较条件,十分有利于突出字符间的区别又简化了匹配识别的过程。较之目前通用的字符识别技术具有更高的识别率和适应能力。
文档编号G06K9/62GK1066335SQ9210365
公开日1992年11月18日 申请日期1992年5月12日 优先权日1992年5月12日
发明者杨源远, 路浩如, 杨震, 杨平勇, 李璇 申请人:浙江大学