专利名称:一种字符切分方法和装置的制作方法
技术领域:
本发明属于模式识别领域,具体涉及光学字符的切分技术。
技术背景随着OCR(Optical Character Recognition,光字符识别)中单字符识别正确率 的提高,字符切分已经成为OCR领域中的关键问题,目前在文字识别领域取 得的大部分进展也都可以归功为文字切分水平的提高。但是目前文字识别技术 的实用化已经受限于文字字符的切分技术,文字切分的正确率与文字识别正确 率直接相关,文字切分的错误会直接导致文字识别的错误。字符切分的目的就是从多字符图像中切分出 一系列子图像,其中每个子图 像都包含一个独立完整的字符。目前常用的字符切分方法有标准切分法、基 于识别的切分法、整体切分法以及前三种方法的组合。整体切分法主要使用在英文字符切分过程中,该方法是把一个单词作为一 个整体来进行识别,这种方法虽然避免了单词内部切分的问题,但它依赖于现 有的定义好的词典,这大大限制了该方法的应用范围。标准切分法主要使用在汉字字符切分过程中,该方法通过对图像进行分析 寻找到字符之间较为合理的切分点,采用静态的投影分析方法,将文本图像进 行行切分和列切分,该方法的具体实施过程如下通过扫描仪等数码成像设备获取文档的灰度图像数据。对于保存时间过长 的文档、被弄脏的文档、加深复印后的复制件,扫描后的灰度图像数据包含很 多额外的噪声,往往会影响字符切分的准确率,如图l所示。可以采用全局或 者局部的阈值化方法对灰度图像数据进行二值化操作,例如大津法、迭代法和 双峰法等,图2为对图1所示的图像采用大津法处理后的效果图,可以看出,经过二值化搡作后的图像数据上面依然存在很多噪声,比如201所示的长线段和202所示的小的连通区域,这时可以有选择性的对噪声进行过滤操作。可以采用基于区域生长的图像分割算法来过滤噪声,该方法将同 一 区域内 具有相似性质的像素点聚集起来,形成连通区域,像素的相似性质包括平均灰 度值、紋理、颜色等信息。从初始区域(如小邻域或甚至于每个像素)开始, 将相邻的具有相似性质的像素点或者其他区域具有该性质的像素点归并到当 前区域中,从而逐步增长区域,直至没有可以归并的点或其它小区域为止,形 成连通区域。遍历图像中所有的连通区域,并计算每个连通区域内的黑点个数。计算每个连通区域内的黑点个数后,设置一个经验阈值ThresholdPixel, 该经验阈值可以根据文本图像的噪声强弱来设置,也可以根据文档中字体名 称、字体大小以及排版布局来设置。所有黑点个数小于ThresholdPixel的连通 区域都被视为噪声而被过滤掉。其中ThresholdPixel的值不能太大,否则会将 很多汉字字符的偏旁部首过滤掉,比如"滤"字中的点;ThresholdPixel的值 也不能太小,否则会遗留一定数目的噪声区域。例如文档的布局排版格式为A4幅面大小;字体为"仿宋";字体大小为 小三号;文档共有22行,每行有28个字符(包括标点符号在内)。可以将 ThresholdPixel设为50,即黑点个数小于50的连通区域都被视为噪声而被过滤 掉,相应区域内的每个像素点值被改为0。图3为图2经过噪音去除处理后的 效果示意图,可以看出,其中类似202所述的黑点个数较少的连通区域大部分 被过滤掉,但是由于类似201所述的连通区域内的黑点个数较多不能作为噪声 过滤掉。将二值化操作后的图像进行行切分和列切分,图4为如图3的文本区域采 用标准切分方法后的效果示意图。可以看出,由于高噪声的存在,采用标准切 分法后的文本可能存在字符粘连的问题,粘连是指在多字符图像中,字符间笔 划相互接触的情况。基于识别的方法是对标准切分法及整体切分法所进行的反馈,该方法提供了多个切分^f叚设,然后对切分结构进行选择,得到最优的切分结果,这种方法 能够识别出字符切分结果的正确与否,但不能纠正字符切分的错误,也不能有 效的解决字符粘连、断笔等问题,而且这种方法比较复杂、耗时,在实际中应 用得4艮少。可以看出,在现有的字符切分技术中,存在以下缺点 (1 )、容易造成两个及两个以上的汉字图像由于图像预处理的影响或者字 符之间的间距过小而粘连在一起,造成了字符切分不准确、识别率低的问题。印刷体文本图像中,由于印刷样本质量比较差以及对文本图像进行二值化 操作后带来的噪声和误差等,常常会造成粘连搭接字符的存在。而且文献保存的时间过久或文档复制过程也会带来额外的噪声,比如文档 被弄脏、阅读者随手添加的批注、复印过程中增加了浓度设置等,普通的噪声 去除算法只会处理噪声较小的污点,无法处理长线的噪声,这些长线的噪声会 造成字符间的粘连,影响字符识别的结果。(2) 、容易把由偏旁部首组成的汉字分割成多个区域,把偏旁部首当作一 个汉字来处理,造成了汉字字符合并不准确、识别率低的问题,产生这种结果 的原因有两个一是对于由偏旁部首组成的汉字,在印刷或者打印前,由于偏旁部首之间 的距离比较小或者粘连的像素数比较少,通常会把偏旁部首当作一个整体的子 图像来处理,经过扫描后的灰度图像经过二值化操作后,偏旁部首很容易被当 作一个汉字来处理。二是对灰度文本图像进行二值化操作经常会丟失一些有用的信息,容易造 成字符的断笔,把由偏旁部首组成的汉字分割成多个区域。例如打印或者印刷 后的文档经过多数复印后,字符图像的灰度值会变得很浅,字符图像中较细的 笔划经常出现中间断裂的现象。(3) 对于字符切分结果的正确与否,不用过分依赖于字符识别反馈机制。发明内容本发明实施例提供一种字符切分方法和装置,用以提高字符切分的正确性。本发明实施例提供一种字符切分方法,包括 对文本图像进行行切分和列切分,获得若干个字符单元图像块;识别包含粘连字符的字符单元图像块,并继续切分所述包含粘连字符的字符单元图像块;识别汉字字符单元图像块区域和英文字符单元图像块区域,并在所述汉字 字符单元图像块区域中识别由汉字字符偏旁部首占用的字符单元图像块;将相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单 元图像块。其中,所述粘连字符包括粘连汉字字符,以及所述识别包含粘连汉字字符 的字符单元图像块的方法包括当字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,且该字符 单元图像块的高度与字符单元图像块的平均高度的差值小于设定的阚值时,确 定字符单元图像块包含粘连汉字字符。所述粘连字符包括粘连英文字符,所述识别包含粘连英文字符的字符单元图像块的方法包括当字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,且该字符单元图像块的高度与字符单元图像块的平均高度的差值大于设定的阔值时,确定字符单元图像块包含粘连英文字符。所述识别汉字字符偏旁部首占用的字符单元图像块的方法包括 当字符单元图像块的高度大于字符单元图像块的平均高度,宽度大于汉字字符单元图像块的平均宽度的4/5时,确定字符单元图像块包含汉字字符; 当所述汉字字符单元图像块与前一字符单元图像块之间的距离处于相邻中英文字符单元图像块之间的距离范围之外时,将前一字符作为当前字符;当当前字符单元图像块与前一字符单元图像块中心之间的距离处于相邻 汉字字符单元图像块中心之间的距离范围之外时,确定所述当前字符与前一字 符均为偏旁部首字符。进一步,该字符切分方法还包括识别标点符号的字符单元图像块。其中,所述识别标点符号的字符单元图像块的方法包括 当字符单元图像块的宽度小于等于该字符单元图像块的高度,且该字符单元图像块完全在文本行中心线位置的上面或者下面时,确定字符单元图像块包含标点符号,或者当字符单元图像块的高度小于文本行的高度,宽度小于汉字字符单元图像 块平均宽度的1/4,且该字符单元图像块与其相邻的前一字符单元图像块或后 一字符单元图像块之间的距离值中,至少有一个距离值大于相邻中英文字符单 元图像块之间距离范围的上限时,确定字符单元图像块包含标点符号。本发明实施例提供一种字符切分装置,包括初步切分单元,用于对文本图像进行行切分和列切分,获得若干个字符单 元图像块;粘连字符切分单元,用于识别包含粘连字符的字符单元图像块,并继续切 分所述包含粘连字符的字符单元图像块;识别偏旁部首单元,用于识别汉字字符单元图^f象块区域和英文字符单元图 像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏旁部首占用 的字符单元图像块;字符合并单元,用于将相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单元图像块。其中,所述粘连字符切分单元具体用于,当字符单元图像块的宽度大于汉 字字符单元图像块的平均宽度,且该字符单元图像块的高度与字符单元图像块 的平均高度的差值小于设定的阔值时,确定字符单元图像块包含粘连汉字字 符,或者当字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,且该字符 单元图像块的高度与字符单元图像块的平均高度的差值大于设定的阈值时,确 定字符单元图^f象块包含粘连英文字符。所述识别偏旁部首单元具体用于,当字符单元图像块的高度大于字符单元 图像块的平均高度,宽度大于汉字字符单元图像块的平均宽度的4/5时,确定字符单元图像块包含汉字字符;当所述汉字字符单元图像块与前一字符单元图像块之间的距离处于相邻中英文字符单元图像块之间的距离范围之外时,将前一字符作为当前字符;当当前字符单元图像块与前一字符单元图像块中心之间的距离处于相邻 汉字字符单元图像块中心之间的距离范围之外时,确定所述当前字符与前一字 符均为偏旁部首字符。进一步,所述字符切分装置还包括识别标点符号单元,用于当字符单元图 像块的宽度小于等于该字符单元图像块的高度,且该字符单元图像块完全在文 本行中心线位置的上面或者下面时,确定字符单元图像块包含标点符号,或者当字符单元图像块的高度小于文本行的高度,宽度小于汉字字符单元图像 块平均宽度的1/4,且该字符单元图像块与其相邻的前一字符单元图像块或后 一字符单元图像块之间的距离值中,至少有一个距离值大于相邻中英文字符单 元图像块之间距离范围的上限时,确定字符单元图像块包含标点符号。通过上述技术方案,本发明实施例通过对文本图像进行行切分和列切分, 获得若干个字符单元图像块;识别包含粘连字符的字符单元图像块,并继续切 分所述包含粘连字符的字符单元图像块;识别汉字字符单元图像块区域和英文 字符单元图像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏 旁部首占用的字符单元图像块;将相邻的汉字字符的偏旁部首占用的字符单元 图像块合并为一个字符单元图像块。该方法能够识别出包含粘连字符的字符单 元图像块及包含偏旁部首的字符单元图像块,使得字符切分结果不用过分依赖 于字符识别反馈机制,进一步提高了字符的识别率。
图1为扫描后文档的灰度图像示意图; 图2为图1经过大津法二值化后的效果示意图; 图3为图2经过噪音去除处理后的效果示意图; 图4为如图3的文本区域采用标准切分方法后的效果示意图; 图5为本发明实施例提供的一种字符切分方法的流程图; 图6为对二值化处理后文本图像进行行切分和列切分的流程图; 图7为经过二值化处理的文本点阵图像; 图8为图7所示的文本区域经过行切分后的效果示意图; 图9为图7所示的文本区域添加额外噪音的文本图^f象示意图; 图IO为图9在小阈值情况下的行切分文本区域示意图; 图11为图9在大阈值情况下的行切分文本区域示意图; 图12为低噪音的文本图像在大阈值情况下的行切分文本区域示意图; 图13为图7经过初步的行切分和列切分后的效果示意图; 图14为本发明实施例提供的文本行的高度及中心线位置的结构示意图; 图15为本发明实施例提供的字符单元图像块的高度结构示意图; 图16为本发明实施例提供的字符单元图像块的宽度结构示意图; 图17为本发明实施例提供的相邻字符单元图像块中心之间的距离结构示 意图;图18为本发明实施例提供的相邻字符单元图像块之间的距离结构示意图;图19为本发明实施例提供的切分字符单元方法的流程图;图20为图13中部分区域的放大效果示意图;图21为图20中的粘连字符单元字符块进行切分后的效果示意图;图22为将偏旁部首字符进行合并的方法流程图;图23为采用本发明实施例提供的方法将图20进行正确切分后的结果;图24为采用本发明实施例提供的方法将图13进行正确切分后的结果; 图25为本发明实施例提供的一种字符切分装置的结构示意图。
具体实施方式
本发明实施例提供一种字符切分方法及其装置,针对现有技术提供的字符 切分方法导致字符切分错误带来的字符识别率较低的问题,提出了以下技术方 案,现结合说明书附图及具体实施例对该技术进行详细说明本发明第一实施例提供了一种字符切分方法,如图5所示,具体实施过程 如下5100、 对文本图像进行行切分和列切分,获得若干个字符单元图像块。结 合图6对该具体过程进行详细说明5101、 对二值化后的文本图像进行行切分。获得待切分的二值文本点阵图像,文本区域的像素宽度为nWidth,高度为 nHeight。设置函数/ ( ),表示图像第/行第y'列的像素值,当像素点/ () 为前景点时,取值为1;当像素点/(4/)为背景点时,取值为0。为了切分出文本的行区域,并且去除成行状分布的噪声,从上向下扫描文 本图像,并计算每条水平扫描线上前景点的像素值之和Sn,其中Sn = S, + S2 + ...+Si+...(i= 0, 1, 2…nWidth)。设置阈值NP如果S^N,,则该扫描 线为组成文本的扫描线;如果S,Np则该扫描线为噪声或者空白,去除成行 状分布的噪声,初步切分出文本的行区域。如图7所示的文本区域经过行切分 后的效果示意图如图8所示。同时记录每一行的边界位置左上点和右下点的 坐标位置以及两条水平线之间的中线MiddleLine的位置,并计算出每个联体文 本行的高度。对于N!的设置需要注意以下几点 (1)、如果文本图像的噪声比较小,N,可以设置得比较小,基本不影响行 切分。例如,可以将N!设置为IO。(2)、如果文本图像的噪声比较大,图9所示,Ni可以设置得比较大。如 果N!设置得比较小,强一些的噪声就不会被消除,切分出的文本行区域就会 不准确,如图10所示,所以必须将N^殳置得比较大才能解决这个问题,可以 将N^殳置为60,切分后的效果如图11所示。(3)、 Ni设置得比较大时,会影响字符数量较少的文本行。如果文本行 的字符数量较少,该文本行中某些水平扫描线上的前景点数量就比较少,计算 出的Sn值就较小,如果N^殳置得比较大,会造成S^Np易将该文本行的某 些前景点视为噪声或者空白,如图12所示,最后一行只有一个汉字"战",文 本被错误地切分为2行或者更多行。可以通过两种途径解决这个问题 一是需 要人工参与,比如根据文本图像的污染情况,手工设定阈值N!的大小;二是 设定一个比较大的阈值进行切分,初步分析切分后的文本行间距、文本行的高 度,查找异常数据,根据异常数据尝试合并文本行边界。如果合并后没有引起 新的异常数据,则合并该异常数据对应的文本行边界,否则放弃。这样即可以 摒除大部分的噪声干扰,同时还可以有效地消除数据高度序列、文本行间距序 列中的异常数据。5102、 对二值化后的文本图像进行行切分的基础上,进行列切分的操作。 为了切分出文本的列区域,并且去除成列状分布的噪声,从左至右扫描文本图像,并计算每条纵向扫描线上的前景点的像素值之和Rn,其中R,R^ R2+... + Rj + ...,其中j的范围为该文本行区域的上边界和下边界。设置阈值 N2 ,如果R^N2,则该扫描线为组成字符的扫描线,如果Rj〈N2,则该扫描线为 噪声或者空白,去除呈列状分布的噪声。由于对二值化后的文本图像进行了噪 声去除处理,所以一般小的噪声不会影响文本列区域切分,所以可以设置N2 为0。这样每个字符都会有一个外接矩形框,字符的上下边界为该行的上下边 界,左右边界为该字符的列切分点。5103、 获得包含每个字符所有黑色像素的最小外接矩形框。由于每个字符的外接矩形框高度不一致,尤其是中英文字符高度的差异, 将每个字符的外接矩形框进行向内收敛或者向外扩展,使得矩形框为包含字符 所有黑色像素的最小外接矩形,从而得到一个包含若干个字符单元图像块的集 合序列Q,如图13所示。S200、统计分析文本图像中所有矩形图像块的特征数据。 根据S103中得到的包含字符矩形图像块的集合序列Q,统计分析文本图 像中所有矩形图像块的特征数据,包括如下特征数据(1) 、文本行的高度、中心线位置及文本行的平均行高如图14所示,文本行的高度HL是指包含文字的两条水平线之间的距离; 文本行的中心线MiddleLine是指两条水平线之间的中线所处的位置;统计所有 文本行的高度HL,计算出文本区域的平均行高HLAVE。遍历S100中切分出 的所有文本区域,计算相应的行高HL、中心线位置MiddleLine、以及文本区 域的平均4亍高HLAVE。(2) 、字符单元图像块的平均高度如图15所示,字符单元图像块的高度H是指每个字符单元最小外接矩形 框的高度,统计所有字符单元最小外接矩形框的高度,计算出字符单元图像块 的平均高度HeightAve。(3) 、字符单元图像块的平均宽度如图16所示,字符单元图像块的宽度Width (简写W)是指每个字符单 元最小外接矩形框的宽度。但是该字符不一定是一个合法字符,比如汉字的偏 旁部首组成的字符或者字符间相互粘连组成的字符等,如图16中"报纸"和 "到","报纸"是由于字符间相互粘连,将2个汉字字符组成了一个字符,"到" 被分成了 2个汉字的偏旁部首字符。统计所有字符单元图像块的宽度分布特征,设x轴为字符单元图像块的宽 度,y轴为该宽度值所对应的字符单元图像块的个数,类似于灰度图像的直方 图统计。由于汉字字符基本上是方块字,汉字字符单元图像块的宽度不会比其高度大很多,故x轴的上限可以为文本区域的平均行高HLAVE的1.5倍。普通文档中,汉字和英文/数字之间不会发生粘连。得到如上字符单元图像 块宽度分布图后,由分布特征可以看出,会有两个相邻的宽度值数目聚集的区 域,其中宽度大的聚集区是正常的汉字字符单元图像块的宽度值范围,宽度较 小的聚集区是正常的英文或者数字字符单元图像块的宽度值范围。另外在该宽 度分布图中,会有一些宽度值更大的区域或者更小的区域,其中,宽度值更大 的区域是由包含粘连字符的字符单元图像块造成的,例如"报纸",该字符单 元图像块包含两个汉字字符,所以每个字符单元图像块的宽度值都较大;宽度 值更小的区域可能是由包含汉字字符偏旁部首的字符单元图像块组成的,例如 "川"字,被分割成三个字符,所以每个字符单元图像块的宽度值都较小。 在汉字字符的宽度值分布区间内,取局部的波峰值为汉字字符单元图像块 的平均宽度ChnWidth;同样,在英文/数字字符的宽度值分布区间内,取局部 的波峰值为英文/数字字符单元图像块的平均宽度EnWidth。 (4)、相邻字符单元图像块中心之间的距离如图17所示,相邻字符单元图像块中心之间的距离Wave是指相邻字符最 小外接矩形框中心之间的距离。设x轴为相邻字符单元图像块中心之间的距离值,y轴为该距离值所对应 的字符单元图像块的数目,得到字符单元图像块中心之间的距离值分布图后, 由分布特征可以看出,会有两个相邻的距离值分布聚集的区域,其中,距离值 比较大的区域对应的是汉字字符单元图像块聚集的区域,距离值比较小的是英 文/数字字符单元图像块聚集的区域。在汉字字符和英文/数字字符单元图像块聚集的区域内,分别找出局部的波 峰值WaveCN和WaveEN。根据WaveCN和WaveEN,可以划定出相邻汉字字 符单元图像块中心之间的距离范围为[(2*WaveCN+WaveEN) /3, (4* WaveCN -WaveEN)/3],相邻英文/数字字符单元图像块中心之间的距离范围为[(4* WaveEN - WaveCN) /3 , ( WaveCN+2*WaveEN) /3]。(5)、相邻字符单元图像块之间的距离如图18所示,字符单元图像块之间的距离Dis是指同一文本行中相邻 的两个字符单元图像块,前一个字符单元图像块的右边界到后一个字符单元图 像块的左边界之间的距离。统计所有字符单元图像块之间的距离分布,得到该 分布图后,可以看到一个明显的数目聚集的区域,该区域内既可能包括相邻的 汉字字符单元图像块之间的距离,也可能包括相邻的英文/数字字符单元图像块 之间的距离,因为相邻的汉字字符单元图像块之间的距离及相邻的英文/数字字 符单元图像块之间的距离都很小,没有绝对的分界线。但是由分布特征可以看 出,会有另外一个聚集区,是相邻的汉字字符和英文/数字字符单元图像块之间 的距离,取其局部的波峰值DisChnAndEn,该聚集区的数目多少不固定,根据 文档区域中英文混排的程度,可以划定出相邻中英文字符单元图像块之间的距 离范围是[DisChnAndEn - Threshold, DisChnAndEn + Threshold],其中Threshold 是一个给定的阈值,可以根据实际情况来设置。5300、 识别包含粘连字符的字符单元图像块,并继续切分包含粘连字符的 字符单元图像块。如果字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,则确定 出该字符为粘连字符。根据确定出的粘连字符单元图像块的高度与字符单元图 像块的平均高度HeightAve进行比较,可以将粘连字符单元图像块划分为粘连 汉字字符图像块和粘连英文字符图像块,下面分别对粘连汉字字符图像块和粘 连英文字符图像块进行识别,并对包含粘连字符的字符单元图像块进行切分。如果粘连字符单元图像块的高度与字符单元图像块的平均高度之差小于 设定的阈值,则确定出该粘连字符为粘连汉字字符。 一般来说,粘连汉字字符 之间粘连处的纵向扫描线的前景点的个数最少,处在投影分布的波谷地段,所 以,可以根据粘连字符纵向扫描线对应的前景点个数对该粘连汉字字符进行切 分,下面结合图19对该具体过程进行详细说明5301、 如果粘连字符单元图像块的高度与字符单元图像块的平均高度之差小于设定的阈值,则确定出该粘连字符为粘连汉字字符。S302、记粘连字符单元图像块的上、下、左、右边界为分别为T、 B、 L、 R,以L至R为横轴,T至B为纵轴,计算该粘连字符单元图像块纵向扫描 线上黑色像素点的个数,将横坐标按照其对应的前景点个数的多少从小到大 进行排序,得到一个关于位置的数组序列0。5303、 创建一个空的数组序列0P将左边界L和右边界R的横坐标加入 到0!中,选择0中的第一个元素,按照位置的大小顺序插入到0,中。5304、 计算0i中两两相邻的位置之间的距离,如果距离都小于字符单元 图像块的平均宽度,则执行S306;否则执行S305。5305、 选择0中的下一个元素,按照位置大小顺序插入到0i中,重复 S304的过程,直至0!中两两相邻的位置之间的距离都小于字符单元图像块 的平均宽度ChnWidth为止。5306、 以0i中的位置为分割点,将粘连字符单元图像块进行分割,从而 得到多个首尾重叠的子字符单元图像块,将每个字符的外接矩形框进行向内 收敛或者向外扩展,使得矩形框为包含字符所有黑色像素的最小外接矩形。5307、 将粘连字符单元图像块从原来的序列Q中删除,并将S306中得到 的所有字符单元图像块插入到Q中相同的位置上,从而得到一个新的字符单 元图像块序列Qj。图20为图13部分区域放大后的效果示意图,图21为图20按照S300进 行切分后的效果示意图。如果粘连字符单元图像块的高度与字符单元图像块的平均高度之差大于 设定的阈值,确定出该粘连字符单元图像块为英文/数字字符单元图像块,对于 英文字符之间的粘连,需要考虑两种情况第一种情况,相邻字符图像间不粘连,但是无法用白竖线进行分割而造成 的字符粘连,此时可以使用边缘跟踪算法,找出各自的连通区域即可对粘连字 符进行切分。第二种情况,相邻字符图像间存在粘连,可以利用字符的轮廓搜索所有可 能的切分点,生成一系列的切分路径,根据英文切分评价挑选出最佳的切分路 径对粘连字符进行切分。S400、识别标点符号的字符单元图像块。对于确定字符单元图像块中的字符为标点符号,需要考虑两种情况,只要满足下面的任一种情况,该字符就确定为标点符号第一种情况,若字符单元图像块的高度小于文本行行高的1/2,宽度小于 等于该字符单元图像块的高度,且该字符单元图像块完全在MiddleLine的上面 或者下面,则确定出该字符单元图像块中的字符为标点符号,例如","、"。"、 "、"等标点符号;第二种情况,若字符单元图像块的高度小于文本行行高,宽度小于 ChnWidth/4,且该字符单元图像块与前后的字符单元图像块之间的距离值中, 至少有一个值大于1.2*(DisChnAndEn +Threshold),即该距离已经超过了中英 文字符单元图像块之间的距离范围的上限,则确定出该字符单元图像块中的字 符为标点符号,例如";"、"!"、":"等标点符号。5500、 识别汉字字符单元图像块区域和英文字符单元图像块区域,并在汉 字字符单元图像块区域中识别由汉字字符偏旁部首占用的字符单元图像块;将 相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单元图像块。该步骤可以针对每个文本行区域分别进行处理,首先在每一个文本行中找 到所有标点符号,然后依次处理每两个标点符号之间的字符单元图像块,结合 图22对该具体过程进行详细说明5501、 记录两个标点符号之间起始字符单元图像块在整行中的索引值为 IndexBegin和IndexEnd。5502、 遍历索引值处于IndexBegin和IndexEnd之间所有的字符单元图像 块,根据汉字字符单元图像块的高度大于HeightAve,宽度大于ChnWidth*0.8,按照从前至后的顺序,查找出第一个汉字字符单元图像块O,并记录该汉字字符单元图像块在整行中的索引值Index。5503、 以汉字字符单元图像块O为基准,依次往前搜索,并记字符单元图 像块C为当前的汉字字符单元图像块,搜索到索引值IndexBegin的字符单元 图像块,具体的处理过程为如果当前汉字字符单元图像块C的索引值为IndexBegin,则执行S507;否则,取出当前汉字字符单元图像块C前面的一个字符单元图像块d, 计算C与d之间的距离Dis,若Dis落在区间[DisChnAndEn-Threshold, DisChnAndEn +Threshold]中,则表明C,为英文字符单元图像块,直接将该字 符单元图像块加入切分结果序列,并将d视为新的当前英文字符单元图像块 C,执行S506;否则执行S504。5504、 考察汉字字符单元图像块C,前面的字符C2是否为其偏旁部首,具 体包括计算Ci与C2中心之间的距离Disl,如果Disl落在区间范围 [(2*WaveCN+WaveEN) /3 , (4* WaveCN - WaveEN)/3]中,表明C2不是d的 偏旁部首,而是一个独立的汉字字符单元图像块,执行S505;否则继续下面的 过程如果Disl没有落在区间范围[(2*WaveCN+WaveEN) /3, (4* WaveCN-WaveEN)/3]中,将d和C2合并为一个新的字符单元图像块Oj;考察C2前面的字符单元图像块C3,计算Ch和C3中心之间的距离Dis2, 戈口果Dis2落在区间范围[(2*WaveCN+WaveEN) /3, (4* WaveCN - WaveEN)/3] 中,则表明C3为一个独立的汉字字符单元图像块,则将Ch加入到切分结果序 列中,Ch被视为新的当前汉字字符单元图像块C,其具体实施过程与S503的 相关描述雷同,此处不再作详细描述;如果Dis2没有落在区间范围[(2* WaveCN+WaveEN) /3, (4* WaveCN -WaveEN)/3]中,则C3肯定不是一个独立的汉字字符单元图像块,它有可能是Oi中字符的偏旁部首,也有可能是C3前面的字符单元图像块Q中字符的偏旁 部首;计算Q与Q合并后字符单元图像块的宽度Widthl,以及Q与O,合并后 字符单元图像块的宽度Width2;如果Widthl的宽度小于Width2的宽度,则Q再次被合并,然后将 Oj加入到切分结果序列中,0!被视为新的当前汉字区域C,其具体实施过程 与S503的相关描述雷同,此处不再作详细描述;如果Widthl的宽度大于Width2的宽度,直接将C^加入到切分结果序列 中,Oj皮视为新的当前汉字区域C,其具体实施过程与S503的相关描述雷同, 此处不再作详细描述。5505、 将d直接加入到切分结果序列中,并将d视为新的当前汉字字符 单元图像块C,其具体实施过程与S503的相关描述雷同,此处不再作详细描 述。5506、 如果当前英文字符单元图像块的索引值为IndexBegin,则直接转向 S507,否则,取出当前英文字符单元图像块C前面的一个字符单元图像块d, 计算C与d中心之间的距离Dis,若Dis落在区间[(4* WaveEN - WaveCN) /3, (WaveCN+2*WaveEN) /3]中,则表明d为英文字符单元图像块,直接将 该字符单元图像块加入切分结果序列,并将d视为新的当前英文字符单元图 像块,并且重复此过程,否则转向S504;5507、 以汉字字符单元图像块O为基准,依次往后搜索,并记字符单元图 像块C为当前的汉字字符单元图像块,搜索到索引值IndexEnd的字符单元图 像块,具体实施过程与S503中的相关描述雷同,此处不再作详细描述。按照上述的方法步骤,依次处理完整个文本图像中所有的文本行区域,得 到最终的字符区域切分结果,其中,图23为对图22按照S500进行切分后的 效果示意图。图24为采用本发明实施例提供的方法将图13进行切分后的最终字符区域切分结果示意图,可以看出,本发明实施例提供的字符切分方法保证字符切分 结果的正确性,解决了字符间的粘连及偏旁部首被当作一个独立字符的问题。 本发明第二实施例提供了一种字符切分装置,该字符切分装置的结构参见图25,包括,初步切分单元2501、粘连字符切分单元2502、识别偏旁部首单 元2503和字符合并单元2504。其中,初步切分单元2501,用于对文本图像进行行切分和列切分,获得若 干个字符单元图像块;粘连字符切分单元2502,用于识别包含粘连字符的字符单元图像块,并继 续切分包含粘连字符的字符单元图像块;识别偏旁部首单元2503,用于识别汉字字符单元图像块区域和英文字符单 元图像块区域,并在汉字字符单元图像块区域中识别由汉字字符偏旁部首占用 的字符单元图像块;字符合并单元2504,用于将相邻的汉字字符的偏旁部首占用的字符单元图 像块合并为 一个字符单元图像块。其中,粘连字符切分单元2502具体用于,当字符单元图像块的宽度大于 汉字字符单元图像块的平均宽度,且该字符单元图像块的高度与字符单元图像 块的平均高度的差值小于设定的阈值时,确定字符单元图像块包含粘连汉字字 符,或者当字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,且该字符 单元图像块的高度与字符单元图像块的平均高度的差值大于设定的阈值时,确 定字符单元图像块包含粘连英文字符。识别偏旁部首单元2503具体用于,当字符单元图像块的高度大于字符单 元图像块的平均高度,宽度大于汉字字符单元图像块的平均宽度的4/5时,.确 定字符单元图像块包含汉字字符;当汉字字符单元图像块与前一字符单元图像块之间的距离处于相邻中英 文字符单元图像块之间的距离范围之外时,将前一字符作为当前字符;当当前字符单元图像块与前一字符单元图像块中心之间的距离处于相邻 汉字字符单元图像块中心之间的距离范围之外时,确定当前字符与前一字符均 为偏旁部首字符。进一步,该字符切分装置还包括识别标点符号单元2505,用于当字符单元 图像块的宽度小于等于该字符单元图像块的高度,且该字符单元图像块完全在 文本行中心线位置的上面或者下面时,确定字符单元图像块包含标点符号,或者当字符单元图像块的高度小于文本行的高度,宽度小于汉字字符单元图像 块平均宽度的1/4,且该字符单元图像块与其相邻的前一字符单元图像块或后 一字符单元图像块之间的距离值中,至少有一个距离值大于相邻中英文字符单 元图像块之间距离范围的上限时,确定字符单元图像块包含标点符号。本发明实施例保证了字符切分结果的正确性,使得字符切分结果不用过分 依赖于字符识别反馈机制,进一步提高了字符的识别率。明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种字符切分方法,其特征在于,包括对文本图像进行行切分和列切分,获得若干个字符单元图像块;识别包含粘连字符的字符单元图像块,并继续切分所述包含粘连字符的字符单元图像块;识别汉字字符单元图像块区域和英文字符单元图像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏旁部首占用的字符单元图像块;将相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单元图像块。
2、 如权利要求1所述的方法,其特征在于,还包括识别标点符号的字 符单元图像块。
3、 如权利要求2所述的方法,其特征在于,所述识别标点符号的字符单 元图像块的方法包括当字符单元图像块的宽度小于等于该字符单元图像块的高度,且该字符单 元图像块完全在文本行中心线位置的上面或者下面时,确定字符单元图像块包 含标点符号,或者当字符单元图像块的高度小于文本行的高度,宽度小于汉字字符单元图像 块平均宽度的1/4,且该字符单元图像块与其相邻的前一字符单元图像块或后 一字符单元图像块之间的距离值中,至少有一个距离值大于相邻中英文字符单 元图像块之间距离范围的上限时,确定字符单元图像块包含标点符号。
4、 如权利要求1所述的方法,其特征在于,所述粘连字符包括粘连汉字 字符,以及所述识别包含粘连汉字字符的字符单元图像块的方法包括当字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,且该字符 单元图像块的高度与字符单元图像块的平均高度的差值小于设定的阈值时,确 定字符单元图像块包含粘连汉字字符。
5、 如权利要求1或4所述的方法,其特征在于,所述粘连字符包括粘连 英文字符,所述识别包含粘连英文字符的字符单元图像块的方法包括当字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,且该字符 单元图像块的高度与字符单元图像块的平均高度的差值大于设定的阔值时,确 定字符单元图像块包含粘连英文字符。
6、 如权利要求1所述的方法,其特征在于,所述识别汉字字符偏旁部首 占用的字符单元图像块的方法包括当字符单元图像块的高度大于字符单元图像块的平均高度,宽度大于汉字 字符单元图像块的平均宽度的4/5时,确定字符单元图像块包含汉字字符;当所述汉字字符单元图像块与前一字符单元图像块之间的距离处于相邻 中英文字符单元图像块之间的距离范围之外时,将前一字符作为当前字符;当当前字符单元图像块与前一字符单元图像块中心之间的距离处于相邻 汉字字符单元图像块中心之间的距离范围之外时,确定所述当前字符与前一字 符均为偏旁部首字符。
7、 一种字符切分装置,其特征在于,包括初步切分单元,用于对文本图像进行行切分和列切分,获得若干个字符单 元图像块;粘连字符切分单元,用于识别包含粘连字符的字符单元图像块,并继续切 分所述包含粘连字符的字符单元图像块;识别偏旁部首单元,用于识别汉字字符单元图^f象块区域和英文字符单元图 像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏旁部首占用 的字符单元图像块;字符合并单元,用于将相邻的汉字字符的偏旁部首占用的字符单元图像块 合并为一个字符单元图像块。
8、 如权利要求7所述的字符切分装置,其特征在于,所述装置还包括识 别标点符号单元,用于当字符单元图像块的宽度小于等于该字符单元图像块的高度,且该字符单元图像块完全在文本行中心线位置的上面或者下面时,确定 字符单元图像块包含标点符号,或者当字符单元图像块的高度小于文本行的高度,宽度小于汉字字符单元图像块平均宽度的1/4,且该字符单元图像块与其相邻的前一字符单元图像块或后一字符单元图像块之间的距离值中,至少有一个距离值大于相邻中英文字符单 元图像块之间距离范围的上限时,确定字符单元图像块包含标点符号。
9、 如权利要求7或8所述的字符切分装置,其特征在于,所述粘连字符 切分单元具体用于,当字符单元图像块的宽度大于汉字字符单元图像块的平均 宽度,且该字符单元图像块的高度与字符单元图像块的平均高度的差值小于设 定的阈值时,确定字符单元图像块包含粘连汉字字符,或者当字符单元图像块的宽度大于汉字字符单元图像块的平均宽度,且该字符 单元图像块的高度与字符单元图像块的平均高度的差值大于设定的阔值时,确 定字符单元图像块包含粘连英文字符。
10、 如权利要求7或8所述的字符切分装置,其特征在于,所述识别偏旁 部首单元具体用于,当字符单元图像块的高度大于字符单元图像块的平均高 度,宽度大于汉字字符单元图像块的平均宽度的4/5时,确定字符单元图像块 包含汉字字符;当所述汉字字符单元图像块与前一字符单元图像块之间的距离处于相邻 中英文字符单元图像块之间的距离范围之外时,将前一字符作为当前字符;当当前字符单元图像块与前一字符单元图像块中心之间的距离处于相邻 汉字字符单元图像块中心之间的距离范围之外时,确定所述当前字符与前一字 符均为偏旁部首字符。
全文摘要
本发明公开了一种字符切分方法及装置,其能够识别出包含粘连字符的字符单元图像块及包含偏旁部首的字符单元图像块,保证字符切分结果的正确性。本发明技术方案中,通过对文本图像进行行切分和列切分,获得若干个字符单元图像块,识别包含粘连字符的字符单元图像块,并继续切分所述包含粘连字符的字符单元图像块,识别汉字字符单元图像块区域和英文字符单元图像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏旁部首占用的字符单元图像块,将相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单元图像块。使得字符切分结果不用过分依赖于字符识别反馈机制,进一步提高了字符的识别率。
文档编号G06K9/68GK101251892SQ20081010159
公开日2008年8月27日 申请日期2008年3月7日 优先权日2008年3月7日
发明者亓文法, 卢书一, 李晓龙, 程道放 申请人:北大方正集团有限公司;北京大学;北京北大方正电子有限公司