一种印刷体斜体字符的识别方法

文档序号:6558529阅读:419来源:国知局
专利名称:一种印刷体斜体字符的识别方法
技术领域
本发明涉及计算机信息处理领域的光学字符识别技术,尤其涉及一种印刷体斜体字符的识别方法。
背景技术
斜体字符检测技术是一种非常有用的图像处理技术。对黑白二值图像中的斜体字符进行检测,可以对斜体字符加以校正,使整个识别系统对斜体字符与正常字符采用统一的识别方法,降低识别系统的复杂度,有效的提高识别系统的识别速度;此外很多识别系统的字符特征库中仅包含正常字符的特征,此类识别系统依赖于使用提取字符的正常特征的稳定性识别该字符的正常体与斜体,其对斜体字符的识别率不够理想。此时,若向特征库中加入斜体字符特征将使特征库规模骤增,识别效率降低。对斜体字符检测校正后再进行识别,可以在保持特征库原有规模的基础上大大提高图像的识别率。
现有技术中,检测斜体字符基本思路是通过分析字符中笔划的走向,对字符中的连续的黑像素进行逐点判断,确定两两像素之间的位置关系,进而求出字符中所有笔划与竖直方向的夹角,在这些夹角中找出竖笔划的倾斜角度,由此来确定整个字符的倾斜方向与倾斜角度。这种检测方法的关键在于像素点的搜索策略。使用合理的搜索方法进行逐点判断才能比较准确快速的确定笔划的倾斜角度。文献“中文斜体印刷字倾斜角度的检测方法”[科技情报开发与经济,2003年2月第29卷第2期,作者 李甦,张俊华,张榆锋,施心陵]较好地使用了竖直笔划的倾斜角度确定了字符整体的倾斜角度,从而进行校正。还有很多文献涉及到斜体字符的识别,虽然没有明确的提出斜体字符的检测方法,但他们都提取比较稳定的字符特征,这些特征可以同时识别同一字符的正常体与斜体,如文献“鲁棒的多体印刷英文识别系统的实现”[计算机工程与应用,2001年第20期,作者 伍振军等]描述了这种斜体字符的识别方法。
现有的斜体字符检测方法都需要对每个待识别字符进行逐点判断,其计算量较大,对于连续黑像素点的搜索算法复杂。当图像中字符较多,或者批量识别图像样张时,将大大的延长识别的时间,导致系统的整体识别速度下降。若不使用特定的检测方法,单纯依靠提取字符的某项特征对斜体字符进行识别,由于每种字符特征的稳定性有限,导致整个系统对斜体字符的识别率不高,难以达到实用的要求。

发明内容
针对现有技术中存在的缺陷和不足,本发明的目的是提供一种能够对多个连续的斜体字进行识别的印刷体斜体字符的识别方法。
为达到上述目的,本实用新型采用以下技术方案。一种印刷体斜体字符的识别方法包括将欲识别的图像二值化为黑白二值图像,并切分出单行的文字行,步骤一,获取图像单行字符在竖直方向及固定倾斜方向上的投影直方图;步骤二,对比竖直方向和固定倾斜方向的投影直方图,分析字符间距特征,确定斜体字区域;步骤三,对字符行的斜体字区域进行校正;步骤四,将校正后的斜体字区域送入识别系统进行识别。
在上述印刷体斜体字符的识别方法中,确定斜体字区域的方法为当倾斜方向投影直方图上的字符间距的个数大于竖直方向投影直方图的字符间距个数的1.5倍,则该文字行为斜体字符行。
分析字符间距特征,确定斜体字符区域的原理为对于正常样张中的字符,字符间均存在明显的字间距。不考虑样张中污点及字符扭曲的干扰,那么对于正常体的字符行进行竖直方向的投影,理论上将获得一系列的孤峰,峰与峰之间将存在一定宽度的截断,即在该宽度内Y方向取值为0,此宽度即为两个字符间的字间距。在理想的竖直方向投影直方图上,表现为字符行中较为明显且规则的字符间距。再对以上文字行进行固定倾斜方向的投影,获得其固定倾斜投影直方图,可以发现在倾斜投影直方图上,孤峰的数量减少,峰与峰之间未被截断或截断宽度很小。这表明,正常体的字符在其竖直方向投影直方图上表现出了良好的字符间距特征,而在其固定倾斜方向投影直方图上的字符间距特征较差。相反,斜体字符行将在其固定倾斜投影的直方图上表现出更好的的字符间距特征。若文字行中既存在正常体字符又存在斜体字符,则该文字行中的正常体字符将在其竖直投影直方图的对应区域内表现出良好的字符间距特征,而在其固定倾斜投影直方图上的字符间距特性较差。相反,文字行中的斜体字符将在其固定倾斜投影直方图的对应区域表现出良好的字符间距特征。
根据以上原理,我们对一个未知的文字行分别进行竖直及固定倾斜方向的投影,对比两个直方图的字符间距特征,确定斜体字区域,并对这些斜体字符进行倾斜校正,使其能与其他正常体字符一起进入识别系统被识别出,从而在不增大识别系统规模的基础上使其能够支持对斜体字符进行识别。当图像中字符较多,或者批量识别图像样张时,本发明大大缩短了识别时间,提高了系统的识别速度。


图1为本发明印刷体斜体字符的识别方法的流程图;图2为待处理的图像样张;图3为待处理图像样张中的斜体字符;图4为检测校正后的斜体字符;图5为上述斜体字符在竖直方向的投影直方图;图6为上述斜体字符在固定倾斜方向的投影直方图;图7为使用本发明方法(左)和不使用本发明方法(右)对待处理图像样张的识别结果的效果对比。
具体实施例方式
下面结合附图和具体实施例对本发明作进一步详细说明。
图1列出了本发明各步方法的流程示意图,包括以下步骤1、获取图像单行字符在竖直方向及固定倾斜方向上的投影直方图。
分别对二值化后的黑白二值图像的文字行(图3)统计竖直方向的投影直方图H(x)[x=0…n](图5)以及固定倾斜方向的投影直方图S(x)[x=0…n](图6)。
在计算文字行倾斜投影前,需要确定投影的倾斜角度。对于横排文字行,以水平线为基线,水平向右为正方向,则投影射线与水平正方向的夹角θ的正切值为1/3。该正切值为经验值,通过调查多种字体多种字号的不同内码的斜体汉字字符后而确定,该经验值为这些斜体汉字的倾斜角度正切值的平均值。
对文字行进行竖直方向投影时,其直方图的宽度与文字行的宽度LWidth相同,即H(x)中,x∈
;但进行倾斜投影时,其直方图宽度为LWidth+2*LHeight/tanθ,其中LHeight为文字行高度,θ为投影射线与水平方向的夹角,即S(x)中,x∈
。这是由于倾斜投影使文字行在水平方向的投影宽度被拉伸造成的,拉伸导致的宽度增幅恰为2*LHeight/tanθ。
2、对比不同方向的投影直方图,分析字符间距特征,确定斜体字符所在的区域。
分析字符间距特征,确定斜体字符区域的原理为对于正常样张中的字符,字符间均存在明显的字间距。不考虑样张中污点及字符扭曲的干扰,那么对于正常体的字符行进行竖直方向的投影,理论上将获得一系列的孤峰,峰与峰之间将存在一定宽度的截断,即在该宽度内Y方向取值为0,此宽度即为两个字符间的字间距。在以上理想的竖直投影直方图上,将表现字符行中较为明显且规则的字符间距。再对以上文字行进行固定倾斜方向的投影,获得其固定倾斜投影直方图,可以发现在固定倾斜投影直方图上,孤峰的数量减少,峰与峰之间未被截断或截断宽度很小。这表明,正常体的字符在其竖直投影直方图上表现出了良好的字符间距特征,而在其固定倾斜投影直方图上的字符间距特征较差。相反,斜体字符行将在其固定倾斜投影的直方图上表现出更好的的字符间距特征。
因此,根据以上原理,我们对一个未知的文字行分别进行竖直及固定倾斜方向的投影,对比两个直方图的字符间距特征,则可得到文字行倾斜与否的结论。
另外,在样张中,斜体字符有时整行出现,有时仅作为文字行中连续的若干个字符出现。因此,在对比不同方向的投影直方图中,不能只注重文字行的整体投影特征,这样可能将文字行中的斜体区域的字符的特征抹煞掉,应当以一小段区域为单位,对比其不同方向的投影的字符间距特征,对于字符间距特征相同的连续的区域可以进行合并。
依据以上原理,我们对实际样张(图2)中的某文字行(图3)进行分析。
对比文字行(图3)的竖直方向投影直方图(图5)和固定倾斜方向投影直方图(图6),可以看到,不同投影方向上获得的直方图表现出了不同的字符间距特征;1、从整体特征上看,倾斜方向投影直方图的字符间距特征较好,即SkewCharTotleSpace>NorCharTotleSpace,其中SkewCharTotleSpace、NorCharTotleSpace分别为倾斜投影直方图及竖直投影直方图上的字符间距宽度总和。
另外,倾斜方向上的平均字符间距特征也较好,即AvgSkewSpace>AvgNorSpace其中AvgSkewSpace=SkewCharTotleSpace/SkewSpaceNum,AvgNorSpace=NorCharTotleSpace/NorSpaceNum,NorSpaceNum和SkewSpaceNum分别为固定倾斜投影直方图及竖直投影直方图上的字符间距的个数。
若某一直方图的整体字符间距特征明显优于另一直方图,则可断定整行文字为正常字符行或斜体字符行。在实际应用中,如NorSpaceNum>SkewSpaceNum*1.5或AvgNorSpace>AvgSkewSpace*1.5&&NorSpaceNum>4(注以上不等式中的系数因子及阈值均为经验值,这些经验值是通过对大量的实际样张进行测试后而获得的)则可断定该行为正常字符行,不需再进行其他的细部特征判断,可直接对其进行识别。
若某一直方图的整体字符间距特征较好,但不明显。则该字符行并不完全为斜体字符或正常体字符,而是二者的混合形式,这就需要将该字符行分成若干个小的区域,进一步分析其细部特征,确定斜体字符的位置。
2、对文字行的字间距特征进行详细分析。
为了分析文字行的字间距特征,首先将H(x)和S(x)中波谷的起始位置及波谷宽度记录入两个数组HB(n)[n=0…A]和SB(n)[n=0…B]中,HB(n)中的每一个元素为一条记录(一个波谷的起始位置及波谷宽度),描述了一个字间距的位置及宽度特性。
HB(n)的元素个数与SB(n)的元素个数不一定相等,即使相等他们也不存在一一对应的关系,因此相同索引值的HB(a)和SB(a)不具备可比性。而应当比较字间距位置相近的元素,在实际应用中,可以认为起始或终止位置相差±15像素的两个字间距HB(a)和SB(a)可以进行比较。若竖直投影字间距SB(a)的宽度大于倾斜投影字间距HB(a)可以认为这是一个斜体区域的起始或终止或者中间位置,否则该间距两侧均为正常体字符。若该特性连续出现,则可认为这一连续的区域即为斜体字区域。
利用以上原则,找出文字行中所有的斜体字符区域。
3、对斜体字区域进行校正。
按照固定角度对斜体字符区域进行校正。校正斜体字符所使用的角度值与倾斜投影的角度值相同。校正后的斜体字符已经和正常字符十分接近(图4);4、对逐行校正后的二值化图像使用某OCR软件进行文字识别,图6和图7的右侧显示识别结果。对于多数斜体文字行,本发明的方法都可以将斜体字符有效的检测出,并且对于正常的字符行,该方法不会将其误检测为斜体字符。我们也可以看到识别结果中仍然存在未被检测出的斜体字符行,这是因为他们的字符间距特征不明显,用该方法无法决策其是否为斜体字符。为解决此类问题,需要对本发明的方法加以改进,调整各经验值或者引入其他斜体字符的特征进行辅助判断,将漏判和误判率降到最低。
可以看到,本发明的斜体字符的检测方法能够有效的检测出图像中的斜体字符并加以校正,而输出结果给OCR使用时,能有效提高识别率。
实施例1本发明印刷体斜体字符的识别方法首先将欲识别的图像二值化为黑白二值图像,然后进行识别,具体步骤为步骤一,获取图像单行字符在竖直方向及固定倾斜方向上的投影直方图;步骤二,对比竖直方向和固定倾斜方向的投影直方图,分析字符间距特征,确定斜体字区域;步骤三,对字符行的斜体字区域进行校正。
本发明针对连续区域的斜体字进行识别,关键要找出斜体字所在的区域。实际应用中会出现两种情况1、斜体字符整行出现;2、在文字行中出现连续的若干个斜体字符。
实施例1针对第一种情况1、斜体字符整行出现时进行识别。判断的依据是若某一直方图的整体字符间距特征明显优于另一直方图,则可断定整行文字为正常字符行或斜体字符行。
明显优于具体量化标准为当固定倾斜方向投影直方图上的字符间距的个数大于竖直方向投影直方图的字符间距个数的1.5倍,则该文字行为斜体字符行。1.5是经验值,该经验值的取值范围是1.2-1.8。当取值为1.2、1.6、1.8时识别的效果最好。
当固定倾斜方向投影直方图上的平均字符间距大于竖直方向投影直方图的平均字符间距的1.5倍,同时,倾斜投影直方图字符间距的个数大于4。这两个条件都满足时,则固定倾斜方向投影直方图的整体字符间距特征明显优于竖直方向投影直方图的整体字符间距,则该文字行为斜体字符行。固定倾斜投影直方图字符间距的个数大于4,这个条件保证了识别的字符不能少与5个。
按照固定角度对上述斜体字符区域进行校正。校正斜体字符所使用的角度值与倾斜投影的角度值相同。校正后的斜体字符已经和正常字符十分接近。对逐行校正后的二值化图像使用某OCR软件进行文字识别。
实施例2若某一直方图的整体字符间距特征较好,但不明显。则该字符行并不完全为斜体字符或正常体字符,而是在正常体字符文字行中出现连续的若干个斜体字符。
实施例2针对第二种情况在正常体字符文字行中出现连续的若干个斜体字符,进行识别。
首先要确定斜体字区域,具体方法为步骤一,在竖直方向投影直方图上任意确定一字符间距,在固定倾斜方向投影直方图上找出一与其起始或终止位置相差±15像素以内的字符间距;该步骤确定了可以进行比较的字符间距;步骤二,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则可以确定该字符间距两侧均为斜体字符;步骤三,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距左边相邻的字符间距,如果,竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距,则步骤一确定的字符间距与步骤三确定的字符间距之间的字符是所述斜体字区域的起始字符;步骤四,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距右边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;步骤五,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则该字符间距左侧的斜体字为所述斜体字区域的终止字符。
这种方法确定的斜体字区域不会漏掉起始字符和终止字符,不会发生漏检的字符。而这样确定的斜体字区域,有利于对检测出的斜体字符块进行整体校正、切分、识别,使斜体字符的识别率得到提高。
按照固定角度对上述斜体字区域进行校正。校正斜体字符所使用的角度值与固定倾斜投影的角度值相同。校正后的斜体字符已经和正常字符十分接近。对逐行校正后的二值化图像使用某OCR软件进行文字识别。
实施例3实施例3与实施例2的不同点在于步骤三、步骤四、步骤五。
步骤三,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距左边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;步骤四,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则该字符间距右侧的斜体字为所述斜体字区域的起始字符;步骤五,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距右边相邻的字符间距,如果,竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距,则该字符间距左侧的斜体字为所述斜体字区域的终止字符。
实施例4实施例4与实施例2的不同点在于步骤三、步骤四、步骤五、步骤六。
步骤三,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距左边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;
步骤四,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则该字符间距右侧的斜体字为所述斜体字区域的起始字符;步骤五,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距右边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;步骤六,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则该字符间距左侧的斜体字为所述斜体字区域的终止字符。
权利要求
1.一种印刷体斜体字符的识别方法,包括将欲识别的图像二值化为黑白二值图像,并切分出单行的文字行,其特征在于,还包括以下步骤步骤一,获取图像单行字符在竖直方向及固定倾斜方向上的投影直方图;步骤二,对比竖直方向和固定倾斜方向的投影直方图,分析字符间距特征,确定斜体字区域;步骤三,对字符行的斜体字区域进行校正;步骤四,将校正后的斜体字区域送入识别系统进行识别。
2.根据权利要求1所述的印刷体斜体字符的识别方法,其特征在于确定斜体字区域的方法为当固定倾斜方向投影直方图上的字符间距的个数大于竖直方向投影直方图的字符间距个数的1.8倍,则该文字行为斜体字符行。
3.根据权利要求1所述的印刷体斜体字符的识别方法,其特征在于确定斜体字区域的方法为当固定倾斜方向投影直方图上的字符间距的个数大于竖直方向投影直方图的字符间距个数的1.6倍,则该文字行为斜体字符行。
4.根据权利要求1所述的印刷体斜体字符的识别方法,其特征在于确定斜体字区域的方法为当固定倾斜方向投影直方图上的字符间距的个数大于竖直方向投影直方图的字符间距个数的1.5倍,则该文字行为斜体字符行。
5.根据权利要求1所述的印刷体斜体字符的识别方法,其特征在于确定斜体字区域的方法为步骤一,在竖直方向投影直方图上任意确定一字符间距,在固定倾斜方向投影直方图上确定一与其位置对应的字符间距;步骤二,如果竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧均为斜体字符;步骤三,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距左边相邻的字符间距,如果,竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距,则步骤一确定的字符间距与步骤三确定的字符间距之间的字符是所述斜体字区域的起始字符;步骤四,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距右边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;步骤五,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则字符间距左侧的斜体字为所述斜体字区域的终止字符。
6.根据权利要求1所述的印刷体斜体字符的识别方法,其特征在于确定斜体字区域的方法为步骤一,在竖直方向投影直方图上任意确定一字符间距,在固定倾斜方向投影直方图上确定一与其位置对应的字符间距;步骤二,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧均为斜体字符;步骤三,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距左边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;步骤四,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则字符间距右侧的斜体字为所述斜体字区域的起始字符;步骤五,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距右边相邻的字符间距,如果,竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距,则该字符间距左侧所述斜体字区域的终止字符。
7.根据权利要求1所述的印刷体斜体字符的识别方法,其特征在于确定斜体字区域的方法为步骤一,在竖直方向投影直方图上任意确定一字符间距,在固定倾斜方向投影直方图上确定一与其位置对应的字符间距;步骤二,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧均为斜体字符;步骤三,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距左边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;步骤四,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则字符间距右侧的斜体字为所述斜体字区域的起始字符;步骤五,在竖直方向投影直方图和固定倾斜方向投影直方图上比较与步骤一确定的字符间距右边相邻的字符间距,如果,竖直方向投影直方图上的字符间距小于固定倾斜方向投影直方图上的字符间距,则该字符间距两侧为斜体字;继续比较分析下一个字符间距;步骤六,当出现竖直方向投影直方图上的字符间距大于固定倾斜方向投影直方图上的字符间距时,则字符间距左侧的斜体字为所述斜体字区域的终止字符。
8.根据权利要求5、6、或7所述的印刷体斜体字符的识别方法,其特征在于所述位置对应是指竖直方向投影直方图上确定的字符间距,与固定倾斜方向投影直方图上确定的字符间距的起始或终止位置相差±15像素以内。
9.根据权利要求1所述的印刷体斜体字符的识别方法,其特征在于所述固定倾斜方向投影直方图中投影射线与水平方向的夹角的正切值为1/3。
全文摘要
本发明公开了一种印刷体斜体字符的识别方法。针对现有的斜体字符检测方法只能对单个待识别字符进行逐点判断,导致计算量较大,连续黑像素点的搜索算法复杂的问题而发明。本发明一种印刷体斜体字符的识别方法包括将欲识别的图像二值化为黑白二值图像,并切分出单行的文字行;首先,获取图像单行字符在竖直方向及固定倾斜方向上的投影直方图;然后,对比竖直方向和固定倾斜方向的投影直方图,分析字符间距特征,确定斜体字区域;最后,对字符行的斜体字区域进行校正。本发明提高了对斜体字符的识别速度和识别率,降低了计算量,适用于各种需要对印刷体字符进行识别和校正的领域。
文档编号G06K9/20GK101064008SQ20061007899
公开日2007年10月31日 申请日期2006年4月29日 优先权日2006年4月29日
发明者贺白, 康凯 申请人:北大方正集团有限公司, 北京北大方正技术研究院有限公司, 北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1