图像处理装置及图像处理方法

文档序号:9476262阅读:381来源:国知局
图像处理装置及图像处理方法
【技术领域】
[0001] 本发明设及字符识别技术。
【背景技术】
[0002] 作为图像处理之一的字符识别已经在各种各样的场合得到广泛的普及,例如有传 真机及扫描仪中的字符书写自动化(OCR:化tical化aracterReco即ition:光学字符识 别)、生产线上的打印字符的检查等。在FA业界内,近年来,存在强化追踪能力的趋势,高速 且准确地读取打印在工业产品等上的字符的技术需求进一步增加。
[0003] 字符识别大致分为字符切出处理与字符识别处理运两个阶段的步骤来实施。最 初,通过字符切出处理来进行图像中的字符区域的检测、位置的确定、行及布局的确定等, 在后面的字符识别处理中,鉴别各个字符区域内的像素表示哪个字符(鉴别字符也称为 "读取字符")。
[0004] 为了提高字符识别的准确性,鉴别算法的改进当然是重要的,但是,在前面的字符 切出处理中,准确地确定字符的行及布局也是非常重要的。例如,在食品包装上,制造年月 日与保质期分2段(2行)来打印的情况较多,在字符切出处理中,确定各个字符(数字) 属于哪一行,如果事先没有正确地将第1行的字符组与第2行的字符组分离,则制造年月日 及保质期的读取失败。
[0005] 作为引起行的识别(字符属于哪一行的判断)错误的要因之一,可举出字符串的 弯曲(同一行的字符串呈曲线配置的状态)。在产生字符串弯曲的代表性的原因中,列举如 下原因。
[0006] ?在非平面的物体表面上打印字符的情况 阳007]?被打印有字符的物体本身弯曲的情况(例如在片状的物体或表面伸缩的物体上 进行打印时) 阳00引 ?字符串被曲线配置的布局设计的情况
[0009] ?由打印机的故障等导致打印弯曲的情况
[0010] 此外,作为图像处理的问题,在图像上存在多个字符的情况、W及将杂质(污物 等)误识别为字符的情况下,有时导致行的识别发生错误。
[0011] 作为与弯曲的字符串的行识别相关的现有技术,在专利文献1中,公开有如下方 法:在通过扫描仪对横向书写的文本进行读取来识别字符时,根据相邻的两个字符的外切 矩形彼此的纵向的重叠度来判定相邻的两个字符是否处于同一行,通过反复上述操作来提 取同一行的字符组。对于像文本原稿那样,行与行之间的空白比较大(即,行的分离性高) 并且各行的字符整齐排列的图像,该方法可能是有效的方法。但是,在行间狭窄的情况或者 字符串的弯曲较大的情况等中,可能发生行的误识别。例如,设想图15所示那样的包含字 符串(第1行:"123",第2行:"ABCD")的图像。在专利文献1的方法中,W"l"为起点 按照"1" 一 "2" - "3"的顺序进行捜索时,如果将"3"与"C"误判定为位于同一行,则如 "3" - "C" 一"D"那样向其他行继续捜索,结果,将"123CD"作为一行而切出。并且,由于在 下一行中,在W"A"为起点捜索到"A" - "B"的时刻就结束处理,结果是,由于第1行的误 识别也招致了第2行的误识别。
[0012] 此外,在专利文献2中,公开了如下方法:在提供了纵向书写的行与横向书写的行 同时存在的文本的情况下,根据行内的字符数、字符的接近性、字符的尺寸及间隔的同质性 等,来判定是纵向书写的行还是横向书写的行。但是,该方法不是W弯曲的字符串的行识别 为目的,即使应用该方法,也难W准确地识别图15所示那样的字符串的行。
[0013] 现有技术文献
[0014] 专利文献
[0015] 专利文献1 :日本特开平8-44819号公报
[0016] 专利文献2 :日本特开2008-217833号公报

【发明内容】

[0017] 发明要解决的课题
[0018] 本发明是鉴于上述情况而完成的,目的在于提供用于提高字符切出处理中的行识 别精度的技术。
[0019] 用于解决课题的手段
[0020] 为了达成上述目的,在本发明中,采用W下结构。
[0021] 本发明的图像处理装置从包含多行字符串的图像中确定各行的区域,该图像处理 装置是具有:字符区域设定单元,其从图像中提取作为构成字符的像素组的字符要素,W分 别包含字符要素的方式设定多个字符区域;W及行识别单元,其改变作为起点的字符区域 来反复执行行提取处理,由此将所述多个字符区域分为多个行,所述行提取处理是W某个 字符区域为起点,依次连结满足规定的相邻条件的字符区域,由此提取被推断为属于相同 行的字符区域的组。所述行识别单元执行如下操作:在W第1字符区域为起点进行行提取 处理的情况、W及W位于与所述第1字符区域不同的行的第2字符区域为起点进行行提取 处理的情况下,能够重复选择相同的第3字符区域时,比较将所述第3字符区域加入到W所 述第1字符区域为起点的行的情况与将所述第3字符区域加入到W所述第2字符区域为起 点的行的情况,由此确定应该将所述第3字符区域加入到哪一行。
[0022] 根据该结构,考虑、比较了第3字符区域属于与第1字符区域相同行的可能性化及 第3字符区域属于与第2字符区域相同行的可能性运两者,来确定将第3字符区域加入到 哪一行是妥当的。因此,相比于W往,能够实现误判定少的高精度的行识别。
[0023] 作为"比较将所述第3字符区域加入到W所述第1字符区域为起点的行的情况与 将所述第3字符区域加入到W所述第2字符区域为起点的行的情况"的方法,可W采用评价 第3字符区域本身的局部的连结性(与任意行的连结性是否良好)的方法、生成改变了第 3字符区域的连结对象后的变型(行划分方式的候选)来综合评价各候选的妥当性的方法 等各种方法。
[0024] 例如,作为"评价局部的连结性的方法",存在如下方法:所述行识别单元比较所述 第3字符区域相对于W所述第1字符区域为起点的行的相邻字符区域的连结强度与所述第 3字符区域相对于W所述第2字符区域为起点的行的相邻字符区域的连结强度,将所述第3 字符区域加入到连结强的行中。
[00巧]根据该方法,只需评价第3字符区域相对于相邻字符区域的局部的连结性即可, 因此,能够实现高速且简单的处理。此外,也能够在反复执行各行的行提取处理的过程中, 逐次修正错误的连结部位。
[0026] 作为用于评价"连结强度"的指标,例如,可W优选使用"在与行的方向垂直的方 向上的、相邻字符区域与第3字符区域的重叠程度"、"相邻字符区域与第3字符区域的大小 (高度、宽度、面积等)的相似程度V哺邻字符区域内的图像与第3字符区域内的图像的颜 色或者亮度的特征的相似程度"等指标。此外,也可W将"相邻字符区域与第3字符区域的 靠近度(间隔小的程度)"、"相邻字符区域中包含的字符与第3字符区域中包含的字符的 连接关系的强度"等作为用于评价"连结强度"的指标来使用。既可W将运些指标中的两个 W上的指标组合来使用,也可W使用运些指标W外的指标。
[0027] 此外,作为"综合评价多个候选的妥当性的方法",存在利用了对各行的字符串的 格式进行定义的格式字符串的方法。具体而言,可W是:设将所述第3字符区域加入到W所 述第1字符区域为起点的行中的情况下生成的多个行是第1候选,将所述第3字符区域加 入到W所述第2字符区域为起点的行中的情况下生成的多个行是第2候选,行识别单元对 如下两种相似度进行比较而采用相似度高的候选,所述两种相似度是:从所述第1候选的 各行中识别的字符串的格式与所述格式字符串所定义的各行的字符串的格式之间的相似 度;从所述第2候选的各行中识别的字符串的格式与所述格式字符串所定义的各行的字符 串的格式之间的相似度。
[0028] 根据该方法,从存在可能性的多个候选中,选择与格式字符串所定义的字符串的 格式最相符的候选,因此,能够实现误判定更少的高精度的行识别。该方法可W优选地应用 于例如保质期、批号、汽车的号码牌、卡号等那样,行数及各行的格式是已知的情况。
[0029] 所述格式字符串可W是至少定义了构成字符串的字符的个数W及一部分或者全 部字符的字符种类的信息。即便是预先仅仅知晓字符数与字符种类,对于行候选的妥当性 判断也是非常有用的。
[0030] "行"是指多个字符的排列,在本说明书中,横向、纵向、倾斜方向等任意的方向上 的字符排列都称为"行"。在"字符"中可W包含英文字符、数字、记号、特殊字符、汉字、平假 名、片假名、图形字符等任何种类的字符。"字符要素"是指构成字符的像素组(多个像素的 块)。期望将构成单一字符的像素组提取为字符要素,但是,也可W将与字符的一部分对应 的像素组、或者
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1