专利名称:一种文字识别的方法和系统的制作方法
技术领域:
本发明涉及图像处理技术领域,尤其涉及一种文字识别的方法和系统。
背景技术:
目前光学字符识别(OCR)技术已经非常成熟并形成了 一系列的产品,其中中文OCR识别技术己经在生产生活中得到广泛应用,中文印刷体的识别率可以达到98%以上。但是目前的OCR技术只能处理从扫描仪得到的高清晰度图像,从扫描仪获取的图像,是在源文档完全平整的条件下获取的,因此几乎不会存在几何失真,所得图像值可能在角度上存在一定的倾斜,对于这种倾斜的校正处理实际上已经相当成熟,几乎所有针对扫描仪的商业化OCR软件或者文档采集软件都具备相应的功能。
一个汉字识别系统大体上可分为输入、预处理、识别、后处理和输出共五个部分。
脱机汉字识别系统的对象是印(写)在纸上的文字。它的输入装置可以是扫描仪、传真机、 一般摄像机或数字相机等。这些输入装置通常把印在纸上的图文整页地输入计算机。预处理的主要作用不但要把页面上的图文分开,还必须把所有文字逐个分离。在正常情况下,各行文字的投影之间有一空隙。利用这些间隔可以实现行切割,把各行文字分开。同理把每一行文字向垂直方向投影也可以得到投影图。汉字通常是矩形,彼此间有间隔,因此利用各行的垂直投影进行字切割也不困难。
对某一待识字进行识别时, 一般必须将该字按一定准则,与存储在机内的每一个标准汉字模板逐一比较,找出其中最相似的字,作为识别的结果。显然,
4汉字集合的字量越大,识别速度越低。为了提高识别速度,常采用树分类,即多级识别方法,先进行粗分类,再进行单字识别。因此识别模块包含粗分类和单字识别两部分。粗分类的作用是把整个汉字集合划分为若干个较小的子集,叫做候选集。有时有的候选集中的字数较多,还可以进行第二次粗分类,使候选集的字数进一步减少。这样的识别方法通常叫做树分类法,它好像是一棵树,
整个汉字集合是树根;然后有树干和树枝,最后的树叶就是单字。顺便指出,这种具有多层分类结构的识别方法,对粗分类特征的要求更高,因为如果粗分类错误,影响很大。
后处理模块的作用是对单字识别器的输出进行校对、纠错,以提高整个系统的正确识别率。后处理纠错方法可以是人工的,也可以是自动的。
通过数码相机采集文档图像,是一个全新的应用领域。与传统的文档图像采集设备——扫描仪相比,数字照相机具有使用灵活,携带方便,不受版面大小限制等优点。
但是,现有的方案主要对于来自扫描仪的工整图像和具有一定倾斜角度的图像都可以很好的识别,对于来自数码相机和收集的任意角度拍摄的图像不能还不能识别。主要是视觉变形的图像不能通过传统的预处理进行有效分割,也不能采取简单的二值化方法进行特征提取。
直接拍摄得到的文档图像通常会存在一定程度的几何畸变,从而降低文档图像的质量,不利于人们对图像文档的阅读效果,同时也不利于后期进行分析和文字识别。如何将直接拍摄的文档图像进行处理以消除这种几何畸变就成为了一个亟待解决的问题。
发明内容
本发明的目的在于提出一种文字识别的方法和系统,能够解决几何畸变图像的文字识别问题。
5为达此目的,本发明采用以下技术方案-一种文字识别的方法,包括以下步骤
A、 获取变形图像矫正所需的几何特征参数;
B、 在所述变形图像上等距离绘制网格,并将网格点投影到成像平面;
C、 对每一个网格进行四边形变换,获得所述网格的矫正图像,并将所有 网格的矫正图像拼接成最终矫正图像;
D、 确定要识别的文字段落区域,对应到最终矫正图像区域进行预处理, 切分得到独立文字;
E、 对所述独立文字图像,采用基于灰度的识别算法进行识别。
步骤A中,所述变形图像矫正所需的几何特征参数包括全局Bezier曲线
和消失点。
步骤A进一步包括以下步骤
获取所述变形图像的水平基线和垂直基线;
对所有的垂直基线交点按照交点的权重取加权平均,获得所述变形图像的 垂直方向消失点;
对所有的水平基线变换到同一位置,利用所有的水平基线的点同一进行 Bezier曲线拟和,获得一条Bezier准线;
使用最小二乘法进行三次Bezier曲线拟和,获得所述变形图像的全局 Bezier曲线。
获取所述变形图像的水平基线进一步包括以下步骤
对所述变形图像按亮度进行灰度化处理;
将灰度图像进行模糊处理;
对得到的图像进行二值化,数学形态学独粘连处理,形成互相独立的文本 行连通域;
对图像进行连通域分析,计算出上下边缘曲线的平均曲线作为水平基线。使用霍夫变换,从文本行的左右端点中获取所述变形图像的垂直基线。
步骤c中,对每一个网格进行四边形变换是通过双线形插值。
一种文字识别的系统,包括摄影几何参数提取装置、图像变换装置、文档
图像版面分析装置和OCR文字识别装置,其中,
摄影几何参数提取装置,用于获取变形图像矫正所需的几何特征参数,并 发给图像变换装置;
图像变换装置,用于根据几何特征参数,将变形图像变换为最终矫正图像, 并发给文档图像版面分析装置;
文档图像版面分析装置,用于确定要识别的文字段落区域,并发送给0CR 文字识别装置;
OCR文字识别装置,用于对图像进行语言判断和识别。
采用了本发明的技术方案,可以将变形图像复原成为原始状态,然后再进 行图像文字提取并实现变形图像的识别,从而使得数码相机和手机成为有效的 信息采集工具,这样广大群众可以使用自己现有的设备进行信息输入,大大提 高工作效率并避免了设备采购的资源消耗。
图l是本发明具体实施方式
中文字识别系统的结构示意图; 图2是本发明具体实施方式
中文字识别的流程图。
具体实施例方式
下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。 本发明技术方案的主要思想是从透镜系统的成像几何关系出发,分析了用
照相机拍摄时最经常所遇到的两种文档图像几何畸变透视畸变和装订线弯曲畸变的成因。将一般柱面模型抽象为Bezier柱面模型,将非参数模型转化为参 数模型,并利用该几何模型,给出一整套参数估计与图像校正的算法,不仅解 决了对装订线畸变的校正问题,而且可以将透视畸变作为模型的一个特例进行 校正。
图1是本发明具体实施方式
中文字识别系统的结构示意图。如图1所示, 文字识别系统包括摄影几何参数提取装置101、图像变换装置102、文档图像 版面分析装置103和OCR文字识别装置104,其中,摄影几何参数提取装置获 取变形图像矫正所需的几何特征参数,并发给图像变换装置;图像变换装置根 据几何特征参数,将变形图像变换为最终矫正图像,并发给文档图像版面分析 装置;文档图像版面分析装置确定要识别的文字段落区域,并发送给OCR文字 识别装置;OCR文字识别装置对图像进行语言判断和识别。
图2是本发明具体实施方式
中文字识别的流程图。如图2所示,文字识别的 流程包括以下步骤
步骤201、用户用数码相机及手机随时随地采集信息,经USB读卡器或经 蓝牙无线传递至计算机。
根据摄影几何原理可以证明,只要计算出消失点的位置和任意一条准线的 投影,就可以恢复柱面的形状。
步骤202、计算机对接收到的变形图像按亮度进行灰度化处理,并将灰度 图像进行模糊处理。对得到的图像进行二值化,数学形态学独粘连处理,形成 互相独立的文本行连通域。
步骤203、对图像进行连通域分析,筛选出宽高比较大的连逋域,计算出 上下边缘曲线的平均曲线作为水平基线。
步骤204、使用霍夫变换,从文本行的左右端点中获取变形图像的垂直基 线。也可以采用与获得水平基线类似的方法获得垂直基线。
步骤205、对所有的垂直基线交点按照交点的权重取加权平均,获得所述变形图像的垂直方向消失点。
步骤206、根据图像的对应的原始曲面特征采用不同的拟合函数f(x),常 用的方法是采用最小均方误差方法来确定多项式拟合函数f (x)的参数。根据 曲面特征可以选择相应的拟合方法,如抛物线拟合、椭圆拟合、二维三阶拟合 (例如二维高斯拟合)等。对于柱面的书籍变形曲面,可以采用三次Bezier曲 线拟合。
即对所有的水平基线变换到同一位置,利用所有的水平基线的点同一进行 Bezier曲线拟和,获得一条Bezier准线。使用最小二乘法进行三次Bezier 曲线拟和,获得变形图像的全局Bezier曲线。
对于其他形式的投影几何变形文档图像的校正,可以采用同样的方法处 理,只是要选取一种跟变形曲面接近的曲线作为准线,采用最小二乘法进行拟 和即可。
步骤207、在变形图像上等距离绘制网格,并将网格点投影到成像平面。 对每一个网格通过双线形插值进行四边形变换,获得所述网格的矫正图像,并 将所有网格的矫正图像拼接成最终矫正图像。
其中双线形插值是图像四边形变换中最为简单的一种。双线形插值变换算 法效率较高,但存在一定误差。当图像区域较大,也就是网格较为稀疏时,这 种算法并不理想, 一定会存在相当大的误差,严重影响校正图像质量。然而当 网格数较多,每个网格尺寸较小时,该误差完全可以忽略,而此时其模型简单、 计算效率较高的特点就完全显现了出来。因此我们对每个网格内的图像校正采 用了双线形插值的算法,可以兼顾算法效率与校正质量。
步骤208、确定要识别的文字段落区域,对应到最终矫正图像区域进行预 处理,切分得到独立文字,对所述独立文字图像,采用基于灰度的识别算法进 行识别。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局 限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变 化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该 以权利要求的保护范围为准。
权利要求
1、一种文字识别的方法,其特征在于,包括以下步骤A、获取变形图像矫正所需的几何特征参数;B、在所述变形图像上等距离绘制网格,并将网格点投影到成像平面;C、对每一个网格进行四边形变换,获得所述网格的矫正图像,并将所有网格的矫正图像拼接成最终矫正图像;D、确定要识别的文字段落区域,对应到最终矫正图像区域进行预处理,切分得到独立文字;E、对所述独立文字图像,采用基于灰度的识别算法进行识别。
2、 根据权利要求1所述的一种文字识别的方法,其特征在于,步骤A中, 所述变形图像矫正所需的几何特征参数包括全局Bezier曲线和消失点。
3、 根据权利要求2所述的一种文字识别的方法,其特征在于,步骤A进 一步包括以下步骤获取所述变形图像的水平基线和垂直基线;对所有的垂直基线交点按照交点的权重取加权平均,获得所述变形图像的 垂直方向消失点;对所有的水平基线变换到同一位置,利用所有的水平基线的点同一进行 Bezier曲线拟和,获得一条Bezier准线;使用最小二乘法进行三次Bezier曲线拟和,获得所述变形图像的全局 Bezier曲线。
4、 根据权利要求3所述的一种文字识别的方法,其特征在于,获取所述 变形图像的水平基线进一步包括以下步骤对所述变形图像按亮度进行灰度化处理; 将灰度图像进行模糊处理;对得到的图像进行二值化,数学形态学独粘连处理,形成互相独立的文本 行连通域;对图像进行连通域分析,计算出上下边缘曲线的平均曲线作为水平基线。
5、 根据权利要求3所述的一种文字识别的方法,其特征在于,使用霍夫 变换,从文本行的左右端点中获取所述变形图像的垂直基线。
6、 根据权利要求1所述的一种文字识别的方法,其特征在于,步骤C中, 对每一个网格进行四边形变换是通过双线形插值。
7、 一种文字识别的系统,其特征在于,包括摄影几何参数提取装置、图 像变换装置、文档图像版面分析装置和OCR文字识别装置,其中,摄影几何参数提取装置,用于获取变形图像矫正所需的几何特征参数,并 发给图像变换装置;图像变换装置,用于根据几何特征参数,将变形图像变换为最终矫正图像, 并发给文档图像版面分析装置;文档图像版面分析装置,用于确定要识别的文字段落区域,并发送给0CR 文字识别装置;OCR文字识别装置,用于对图像进行语言判断和识别。
全文摘要
本发明公开了一种文字识别的方法和系统,首先获取变形图像矫正所需的几何特征参数;在变形图像上等距离绘制网格,并将网格点投影到成像平面;对每一个网格进行四边形变换,获得网格的矫正图像,并将所有网格的矫正图像拼接成最终矫正图像;确定要识别的文字段落区域,对应到最终矫正图像区域进行预处理,切分得到独立文字;对独立文字图像,采用基于灰度的识别算法进行识别。采用了本发明的技术方案,可以将变形图像复原成为原始状态,然后再进行图像文字提取并实现变形图像的识别。
文档编号G06K9/32GK101458770SQ20081024095
公开日2009年6月17日 申请日期2008年12月24日 优先权日2008年12月24日
发明者啸 于, 岩 张 申请人:北京文通科技有限公司