一种基于笔划编码的印刷体汉字识别方法
【专利摘要】本发明公开了一种基于笔划编码的印刷体汉字识别方法,包括如下步骤:(1)根据汉字笔划对汉字进行编码;根据编码结果建立笔划编码数据库;(2)提取汉字库中各字符图像的LBP特征;(3)使用svm分类器学习汉字的编码,以获得学习器;(4)使用所述学习器对待识别汉字的字符图像进行预判,获取笔划编码;(5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配成功的笔划编码所对应的汉字即为识别结果;本发明公开的这种印刷体汉字识别方法,基于笔划编码进行汉字识别,使用特征学习的方法空间映射预判,笔划编码特征向量只由25位二进制编码表示,具有识别速度快,识别精度高的特点。
【专利说明】
-种基于笔划编码的印刷体汉字识别方法
技术领域
[0001] 本发明属于印刷体汉字识别技术领域,更具体地,设及一种基于笔划编码的印刷 体汉字识别方法。
【背景技术】
[0002] 现有技术的印刷体汉字识别多基于均匀网格特征、弹性网格方向分解特征、梯度 特征,LBP特征进行分析识别。其中,基于均匀网格特征的方法是W网格为单位进行的,个别 像素差异不会对结果有很大的影响,该方法识别速度快,简单易行,但是对图像的质量要求 很高,不易满足。而弹性网格方向分解特征法对不同的字体之间,笔划宽度,大小不固定的 情况有着比较好的适应能力,但是该方法增加了对字符划分弹性网格的步骤,从而增加了 耗时;基于梯度特征的方法是基于灰度图像上提取的,可W避免信息的损失,获得较高的识 别率,但是需要通过SObel算子检测边缘,耗时不能满足实时需求;LBP特征算法简单,识别 速度快,能够满足实时性要求,但是其特征不能良好的表示汉字字符,导致识别精度不高。
[0003] 目前,印刷体汉字识别技术的难点在于:其一,图像印刷质量较低、图像倾斜、W及 字符粘连断裂等干扰都对特征提取造成了 一定的影响,导致最后汉字识别率不高;其次,汉 字的字符集非常庞大,常用的简体汉字集合大约为7000个,还不包括其他的大量生僻字的 情况,大量的汉字使得一些简单的特征无法唯一的表示所有的汉字;运些特殊性都给汉字 识别带来了较大的困难。
【发明内容】
[0004] 针对现有技术的W上缺陷或改进需求,本发明提供了一种基于笔划编码的印刷体 汉字识别方法,其目的在于解决现有技术识别精度不高、实时性较差的技术问题。
[0005] 为实现上述目的,按照本发明的一个方面,提供了一种基于笔划编码的印刷体汉 字识别方法,包括如下步骤:
[0006] (1)根据汉字笔划对汉字进行编码;根据编码结果建立笔划编码数据库;
[0007] (2)提取汉字库中各字符图像的LBP特征;
[000引(3)使用svm分类器学习汉字的编码,W获得学习器;
[0009] (4)使用学习器对待识别汉字的字符图像进行预判,获取笔划编码;
[0010] (5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配 成功的笔划编码所对应的汉字即为识别结果。
[0011] 优选地,上述基于笔划编码的印刷体汉字识别方法,步骤(1)中,根据汉字笔划,为 每个汉字生成一个唯一对应的25位二进制编码。
[0012] 优选地,上述基于笔划编码的印刷体汉字识别方法,根据汉字笔划对汉字进行编 码的方法,具体如下:
[0013] (1.1)判断汉字是否包含横竖撇掠折运五个笔划,若是,则将对应笔划的编码位标 记为1;若否,则将对应笔划的编码位标记为0;由此生成二进制编码的第0-4位的编码;
[0014] (1.2)将汉字图像区域均匀划分为2*2的区域;并按照从左到右,从上到下的顺序, 依次判断各区域是否包含有横竖撇掠折运五个笔划;
[0015] 若是,则将对应笔划的编码位标记为1;若否,则将对应笔划的编码位标记为0;获 得各区域的5位编码;
[0016] 按照上述各区域在汉字图像里从左到右,从上到下的顺序,将上述各区域的5位编 码,依次对应到二进制编码的第5-9位、第10-14位、第15-19位、第20-24位;并与所述第0-4 位二进制编码一起按照比特位顺序生成25位二进制编码;
[0017] 运个步骤,将汉字图像划分为巧2的区域,对笔划编码加上了汉字的空间分布信 息,提高了对于汉字的分辨能力。
[0018] 优选地,上述基于笔划编码的印刷体汉字识别方法,其步骤(2)中对字符图像提取 LBP特征向量的过程,包括如下子步骤:
[0019] (2.1)对字符图像进行灰度化处理;
[0020] (2.2)对灰度化处理后的字符图像进行图像分块,均匀划分为16*16个图像块;
[0021] (2.3)获取灰度化处理后的字符图像中各像素点的LBP特征值;
[0022] (2.4)根据各图像块内各像素的LBP特征值,获取LBP特征值直方图;
[0023] 对直方图进行归一化处理,将所有256种LBP值均等量化为32个等级,根据LBP特征 值在32个量级中出现的频率,获取各图像块的32维的LBP特征向量;其中,LBP值由8位二进 制组成,共有256种不同的值;
[0024] (2.5)按照图像块在字符图像里从左到右,从上到下的顺序,依次将各图像块的 LBP特征向量拼接起来,由此获得字符图像的16*16*32维的LBP特征向量。
[0025] 优选地,上述基于笔划编码的印刷体汉字识别方法,获取字符图像中各像素点的 LBP特征值方法,包括如下子步骤:
[0026] (2.3.1)在3*3的窗口内,W窗口中屯、像素点的灰度值为阔值,与相邻的8个像素的 灰度值依次进行比较;若周围像素点的灰度值大于中屯、像素点灰度值,则将该像素点的位 置标记为1,否则标记为0;
[0027]
[002引其中,(Xe,yc)是指3x3邻域的中屯、元素,它的像素值为ic,ip是指邻域内其他像素 的值;
[0029]
[0030] (2.3.2)对3*3邻域内的8个点进行比较,由此生成8位二进制数;将该8位二进制数 转换为十进制;该十进制数即为该窗口中屯、像素点的LBP特征值,采用该LBP特征值来反映 对应区域的纹理信息。
[0031] 优选地,上述基于笔划编码的印刷体汉字识别方法,其步骤(3)中使用svm分类器 学习步骤(1)中获得的汉字的编码,W获得学习器,具体为:
[00创将步骤(2)获得的LBP特征向量,依次输入到25个svm分类器中,与汉字库中对应的 笔划编码进行训练学习;使得每一位笔划编码对应的svm分类器形成对应的规则,可判断 LBP特征向量对应的笔划编码位是O还是1,获得学习器。
[0033] 优选地,上述基于笔划编码的印刷体汉字识别方法,其步骤(4)使用学习器对待识 别汉字的字符图像进行预判,获取笔划编码的方法,具体包括如下子步骤;
[0034] (4.1)提取待识别汉字的字符图像的LBP特征向量;
[0035] (4.2)将上述LBP特征向量输入到学习器中,预判出该LBP特征向量对应的25位笔 划编码;运串笔划编码即为待识别汉字的字符图像所对应的笔划编码。
[0036] 总体而言,通过本发明所构思的W上技术方案与现有技术相比,能够取得下列有 益效果:
[0037] (1)本发明所提供的基于笔划编码的印刷体汉字识别方法,其步骤(3)中使用特征 学习的方法训练获得学习器,步骤(4)中使用学习器进行空间映射预判获取字符图像的笔 划编码,步骤(5)中基于匹配的思想,将待识别字符的笔划编码与汉字库中字符的笔划编码 进行匹配;
[0038] 对于拟捜索的汉字文本字符,可获得对应的笔划编码;然后将拟捜索的文本块图 像进行字符切分,获得单个字符的图像,依次进行编号,获取每个字符图像的笔划编码,将 拟捜索的字的笔划编码与文本块图像中字的笔划编码进行对比,匹配成功即为捜索结果; 实现了 W字捜图;
[0039] 相比较而言,现有技术中的印刷体汉字识别方法是先进行简单的特征提取,然后 进行训练分类,特征提取时的处理对象都是image图像,而无法获取一个txt文本字符的特 征,因此无法进行后续的训练分类,进而无法实现W字捜图;
[0040] (2)本发明所提供的基于笔划编码的印刷体汉字识别方法,采用笔划特征,对汉字 图像区域进行均匀划分,加入运种空间划分,使得每个汉字对应唯一的笔划编码;由于笔划 特征本身就具有比其他统计特征更强的汉字表征能力;就加上空间划分之后,笔划编码特 征加上了汉字的空间分布信息,其区分汉字的能力进一步增强,极大的提高了识别精度;
[0041] (3)本发明所提供的基于笔划编码的印刷体汉字识别方法,其笔划编码特征向量 每一位都采用0或者1表示,而现有的特征算法,特征向量是采用浮点数表示的,而计算机处 理0或1的布尔值类型速度远远快于处理浮点数的速度,因此本发明所提供的运种基于笔划 编码的印刷体汉字识别方法,在识别过程中的耗时更短,极大的提高了识别的实时性。
【附图说明】
[0042] 图1是本发明实施例的识别方法对应的流程图;
[0043] 图2是本发明实施例的汉字编码示意图。
【具体实施方式】
[0044] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。此外,下面所描述的本发明各个实施方式中所设及到的技术特征只要 彼此之间未构成冲突就可W相互组合。
[0045] 本发明实施例提供的一种基于笔划编码的印刷体汉字识别方法,其流程如图1所 示,包括如下步骤:
[0046] (1)根据汉字笔划是否包含横竖撇掠折运五个笔划,对汉字进行二进制编码;将汉 字图像区域均匀划分为2*2的区域;根据各区域是否包含有横竖撇掠折运五个笔划,对各区 域进行编码,根据汉字整体的笔划编码,W及各子区域的编码,生成汉字对应的25位二进制 编码;根据编码结果建立笔划编码数据库。
[0047] (2)提取汉字库中各字符图像的LBP特征;该步骤包括如下子步骤:
[0048] (2.1)对字符图像进行灰度化处理;
[0049] (2.2)对灰度化处理后的字符图像进行图像分块,均匀划分为16*16个图像块;
[0050] (2.3)获取灰度化处理后的字符图像中各像素点的LBP特征值;
[0051 ] (2.4)根据各图像块内各像素的LBP特征值,获取LBP特征值直方图;
[0052] 对直方图进行归一化处理,将所有256种LBP值均等量化为32个等级,根据LBP特征 值在32个量级中出现的频率,获取各图像块的32维的LBP特征向量;其中,LBP值由8位二进 制组成,共有256种不同的值;
[0053] (2.5)按照图像块在字符图像里从左到右,从上到下的顺序,依次将各图像块的 LBP特征向量拼接起来,由此获得字符图像的16*16*32维的LBP特征向量。
[0054] (3)将步骤(2)获得的LBP特征向量,依次输入到25个svm分类器中,与汉字库中对 应的笔划编码进行训练学习;使得每一位笔划编码对应的svm分类器形成对应的规则,可判 断LBP特征向量对应的笔划编码位是0还是1,获得学习器。
[0055] (4)使用学习器对待识别汉字的字符图像进行预判,获取笔划编码,该步骤包括如 下子步骤;
[0056] (4.1)提取待识别汉字的字符图像的LBP特征向量;
[0057] (4.2)将上述LBP特征向量输入到学习器中,预判出该LBP特征向量对应的25位笔 划编码;运串笔划编码即为待识别汉字的字符图像所对应的笔划编码。
[0058] (5)将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配 成功的笔划编码所对应的汉字即为识别结果。
[0059] 实施例中,对汉字"天"进行编码的细节如图2所示的,先判断整个天字是否包含横 竖撇掠折五个基本笔划,若是,则将对应笔划的编码设为1,若否,则将对应笔划的编码设为 0,由此,对"天"字整体进行编码后获得第0-4位笔划编码为10110;
[0060] 然后将"天"字均匀划分为2*2的区域,根据各区域是否包含横竖撇掠折五个笔划, 对各区域单独进行编码;并按照各区域从左到右,从上到下的顺序,将四个区域对应的笔划 依次编码为:11000,10010,00100,00010;与上述汉字整体图像的笔划编码一起,由此获得 "天"字对应的 25 位编码为"1011011000100100010000010"。
[0061] 实施例中,采用笔划特征,对汉字图像区域进行均匀划分,加入运种空间划分,使 得每个汉字对应唯一的笔划编码;由于笔划特征本身就具有比其他统计特征更强的汉字表 征能力;加上空间划分之后,笔划编码特征加上了汉字的空间分布信息,其区分汉字的能力 进一步增强,极大的提高了识别精度;而且笔划编码特征向量每一位都采用0或者1表示,与 现有的特征算法的特征向量采用浮点数表示的方法相比,计算机处理0或1的布尔值类型速 度远远快于处理浮点数的速度,因此运种基于笔划编码的印刷体汉字识别方法,可极大的 降低识别耗时,提高识别的实时性。
[0062] 将实施例提供的运种汉字识别方法应用于身份证识别系统,具体过程如下:
[0063] (1)采集获取统一的身份证图像;
[0064] (2)对上述身份证图像进行预处理,包括对身份证图像进行灰度化,版块分割,二 值化;
[0065] 采用加权平均法对图像进行灰度化,W保留较多的高频信息;由于身份证是一种 具有规范格式的证件,个人信息总体布局是统一的,且各自有独立的含义,因此可将其划分 为多个区域,W减少冗余信息或噪声对二值化的干扰,提高二值化的效果;身份证图像明显 的被分为背景,底纹与字符=个部分,运=个部分之间的灰度值差距明显,因此采用二值化 采用直方图谷点口限法可W得到一个较好的二值化效果;
[0066] (3)字符分割:采用投影法对字块进行行初次切分,然后使用改进的投影算法对初 次划分获得的每一行字块进行字切分;
[0067] (4)字符识别:依次输入字符分割后的字符图像到本发明实施例中的学习器中进 行预判编码,然后与词库中的笔划编码进行匹配,匹配成功的笔划编码对应的汉字即为识 别结果;所有识别结果可保存至数据库中。
[0068] 将本实施例提供的汉字识别方法用于身份证识别系统中的汉字识别,可快速录入 身份证个人信息,避免手动录入可能带来的误差,W及能够快速、高效的完成识别工作。
[0069] 本领域的技术人员容易理解,W上所述仅为本发明的较佳实施例而已,并不用W 限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含 在本发明的保护范围之内。
【主权项】
1. 一种基于笔划编码的印刷体汉字识别方法,其特征在于,包括如下步骤: (1) 根据汉字笔划对汉字进行编码;根据编码结果建立笔划编码数据库; (2) 提取汉字库中各字符图像的LBP特征; (3) 使用svm分类器学习汉字的编码,获得学习器; (4) 使用所述学习器对待识别汉字的字符图像进行预判,获取笔划编码; (5) 将预判获得的笔划编码与笔划编码数据库里所有的笔划编码进行匹配,匹配成功 的笔划编码所对应的汉字即为识别结果。2. 如权利要求1所述的印刷体汉字识别方法,其特征在于,所述步骤(1)中,根据汉字笔 划,为每个汉字生成一个唯一对应的25位二进制编码。3. 如权利要求2所述的印刷体汉字识别方法,其特征在于,所述步骤(1)根据汉字笔划 对汉字进行编码的方法,具体包括如下子步骤: (1.1) 判断汉字图像是否包含横竖撇捺折这五个笔划,若是,则将对应的笔划的编码位 标记为1;若否,则将对应的笔划的编码位标记为0;由此生成二进制编码的第0-4位的编码; (1.2) 将汉字图像区域均匀划分为2*2的区域;并按照从左到右,从上到下的顺序,依次 判断各区域是否包含有横竖撇捺折这五个笔划; 若是,则将对应的笔划的编码位标记为1;若否,则将对应的笔划的编码位标记为0;获 得各区域的5位编码; 按照所述各区域在汉字图像里从左到右,从上到下的顺序,将所述各区域的5位编码, 依次对应到二进制编码的第5-9位、第10-14位、第15-19位、第20-24位;并与所述第0-4位二 进制编码一起按照比特位顺序生成25位二进制编码。4. 如权利要求1所述的印刷体汉字识别方法,其特征在于,所述步骤(2)中对字符图像 提取LBP特征向量的过程,包括如下子步骤: (2.1) 对字符图像进行灰度化处理; (2.2) 对灰度化处理后的字符图像进行图像分块,均匀划分为16*16个图像块; (2.3) 获取灰度化处理后的字符图像中各像素点的LBP特征值; (2.4) 根据各图像块内各像素的LBP特征值,获取LBP特征值直方图; 对直方图进行归一化处理,将所有256种LBP值均等量化为32个等级,根据LBP特征值在 32个量级中出现的频率,获取各图像块的32维的LBP特征向量; (2.5) 按照图像块在字符图像里从左到右,从上到下的顺序,依次将各图像块的LBP特 征向量拼接起来,由此获得字符图像的16*16*32维的LBP特征向量。5. 如权利要求4所述的印刷体汉字识别方法,其特征在于,其步骤(2.3)所述获取字符 图像中像素点的LBP特征值方法,包括如下子步骤: (2.3.1) 在3*3的窗口内,以窗口中心像素点的灰度值为阈值,与相邻的8个像素的灰度 值依次进行比较;若周围像素点的灰度值大于中心像素点灰度值,则将该像素点的位置标 记为1,否则标记为0; (2.3.2) 对3*3邻域内的8个点进行比较,由此生成8位二进制数;将该8位二进制数转换 为十进制数;所述十进制数即为所述窗口中心像素点的LBP特征值。6. 如权利要求1所述的印刷体汉字识别方法,其特征在于,所述步骤(3)中使用svm分类 器学习步骤(1)中获得的汉字的编码以获得学习器的过程,具体为: 将步骤(2)获得的LBP特征向量,依次输入到25个svm分类器中,与汉字库中对应的笔划 编码进行训练学习;使得每一位笔划编码对应的svm分类器形成对应的规则,获得学习器。7.如权利要求1所述的印刷体汉字识别方法,其特征在于,所述步骤(4)使用学习器对 待识别汉字的字符图像进行预判,获取笔划编码的方法,具体包括如下子步骤; (4.1) 提取待识别汉字的字符图像的LBP特征向量; (4.2) 将上述LBP特征向量输入到学习器中,预判出该LBP特征向量对应的25位笔划编 码;这串笔划编码即为待识别汉字的字符图像所对应的笔划编码。
【文档编号】G06K9/68GK106022393SQ201610352919
【公开日】2016年10月12日
【申请日】2016年5月25日
【发明人】尤新革, 李政, 陈鹏旭
【申请人】华中科技大学