图像处理装置及图像处理方法
【专利摘要】一种图像处理装置,在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间存在有意义的差异的情况下,选择将像素数最多的灰阶中的非字符成分除去后的字符候选成分作为输出图像,并且在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间没有有意义的差异的情况下,选择将边缘像素数最少的灰阶中的非字符成分除去后的字符候选成分作为输出图像。
【专利说明】 图像处理装置及图像处理方法
【技术领域】
[0001]本发明的实施方式涉及从图像数据提取字符的图像处理装置及图像处理方法。
【背景技术】
[0002]以往,已知有在图像数据中包含有被修边的字符的情况下、将修边部分除去而提取字符的技术。作为具体的方法,有以下的技术:在将图像数据向二值图像变换后,按照各灰阶将字符切取,判定切取后的字符是通常字符还是中空字符,在是中空字符的情况下,进行向通常字符变换的图像修正,取得字符。此外,也存在如下技术:对于图像数据,参照多个字符识别词典而执行字符识别,计算作为各自的执行结果的字符的可靠度,选择可靠度较高的识别结果。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献1:日本特开平11 - 161739号公报
[0006]专利文献2:日本特开2009 - 199276号公报发明概要
[0007]发明要解决的课题
[0008]但是,在通过以往的图像处理的字符提取时,在修边较粗的情况下、或字符彼此接触的情况下,存在字符的切取较困难的情况。此外,在使用字符识别词典的情况下,由于将多个字符识别词典组合而进行计算,所以计算量有增大的趋势。
[0009]
【发明内容】
[0010]本发明是鉴于上述情况而做出的,目的是提供一种不论修边的状态如何、都能够从图像数据适当地提取字符的图像处理装置。
[0011]用于解决课题的手段
[0012]为了解决上述课题、达到目的,本发明的图像处理装置具备:取得部,取得图像数据;提取部,基于预先设定的第I基准,从图像数据按照该图像数据的灰阶来提取字符候选成分的集合;除去部,基于预先设定的第2基准,从字符候选成分的集合将非字符成分除去。
[0013]此外,图像处理装置具备:字符计测部,对表示将非字符成分除去后的字符候选成分所包含的像素数的字符像素数进行计测;边缘计测部,对表示与将非字符成分除去后的字符候选成分邻接的边缘像素的像素数的边缘像素数进行计测;
[0014]并且,图像处理装置在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间存在有意义的差异的情况下,选择将非字符成分除去后的像素数最多的灰阶中的字符候选成分作为输出图像。此外,图像处理装置在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间没有有意义的差异的情况下,选择将非字符成分除去后的边缘像素数最少的灰阶中的字符候选成分作为输出图像。并且,图像处理装置将所选择的输出图像输出。
【专利附图】
【附图说明】
[0015]图1是在实施方式中包括图像处理装置的图像处理系统的功能块图。
[0016]图2是在实施方式中表示图像处理的流程的流程图。
[0017]图3是在实施方式中表示图像数据的一例的图。
[0018]图4是在实施方式中表示划分处理的流程的流程图。
[0019]图5是在实施方式中表示被分割为小区域的图像数据的一例的图。
[0020]图6是在实施区域中表示被划分为划分区域的图像数据的一例的图。
[0021]图7是在实施方式中表示字符像素提取处理的流程的流程图。
[0022]图8是在实施方式中表示进行字符像素提取处理时的变换图像的状态的推移的图。
[0023]图9是在实施方式中表示变换图像的状态的一例的图。
[0024]图10是在实施方式中表示变换图像的状态的一例的图。
[0025]图11是在实施方式中表示生成输出图像的处理的流程的图。
[0026]图12是在实施方式中表示变换图像的边缘像素的图。
[0027]图13是在实施方式中表示输出的输出图像的图。
[0028]图14是在实施方式中表示图像数据的一例的图。
[0029]图15是在实施方式中表示进行字符像素提取处理时的变换图像的状态的推移的图。
[0030]图16是在实施方式中表示图像数据的一例的图。
[0031]图17是在实施方式中表示进行字符像素提取处理时的变换图像的状态的推移的图。
[0032]图18是在实施方式中表示图像数据的一例的图。
【具体实施方式】
[0033]以下,基于附图详细地说明有关本发明的图像处理装置的实施方式。另外,不通过本实施方式限定本发明。图1是表示包括本实施方式的图像处理装置10的图像处理系统100的结构的块图。
[0034]如图1所示,该图像处理系统100对于图像处理装置10连接着作为输入装置的扫描仪1、手写输入部2及HDD记录器3等。对于图像处理装置10输入来自这些输入装置的图像数据。
[0035]图像处理装置10具备CPU、存储器、硬盘、输入输出接口等的通用的硬件。图像处理装置10具备图像取得部21、存储部22、划分部23、提取部24、除去部25、像素计测部26、边缘计测部27及输出部28。存储部22由存储器或硬盘实现。此外,图像取得部21、划分部23、提取部24、除去部25、像素计测部26、边缘计测部27及输出部28例如作为存储在硬盘中的图像处理程序的功能实现。
[0036]图像取得部21取得从输入装置输入的处理对象的图像数据,将所取得的图像数据向存储部22写入。划分部23从存储部22读出图像数据,将图像数据划分为I个以上的划分区域。划分部23将划分后的图像数据的各个的划分区域中的开始位置及结束位置的坐标信息向存储部22写入。
[0037]提取部24将图像数据以及各划分区域的开始位置和结束位置从存储部22读出,从各个划分区域中包含的图像数据提取字符像素,向存储部22写入。除去部25从提取部24提取的字符像素将修边及非字符成分等除去,将除去后的字符像素向存储部22写入。像素计测部26及边缘计测部27对字符候选成分中包含的像素数进行计测,与提取部24协同发挥功能。关于详细情况在后面叙述。输出部28从存储部22读出字符像素作为输出图像,向能够识别OHP等的字符的字符识别装置30输出。
[0038]接着,参照图2说明实施方式的图像处理系统的处理的流程。图像处理装置10如果从输入装置取得字符串的图像数据,则将所取得的图像数据向存储部22写入(步骤S100) O图3表示图像数据的一例,是横宽为1100像素、高度为215像素、能够取的像素值是O以上且255以下的灰度范围的图像。另外,图像数据也可以是彩色图像或二值图像。接着,划分部23从存储部22将图像数据读出,将图像数据划分为I个以上的划分区域,将图像数据中的各个划分区域的开始位置、结束位置向存储部22写出(步骤S101)。
[0039]接着,提取部24从存储部22选择I个划分区域(步骤S102)。在本实施方式中,以写入到存储部22中的顺序选择划分区域。接着,提取部24从在步骤S102中选择的划分区域内,提取后述的字符候选成分的集合,在除去部25从字符候选成分将后述的非字符成分除去后,实施将构成该字符候选成分的字符像素向存储部22写出的字符像素提取处理(步骤S103)。接着,提取部24将在步骤S102中选择的划分区域从存储部22消除(步骤
5104)。通过将字符像素提取处理完成后的划分区域消除,在下个步骤S102的划分区域的选择时,选择在存储部22中接着存储的划分区域。另外,也可以不是消除字符像素提取处理完成的划分区域,而是例如能够通过变更存储器地址的指针来选择下个划分区域。
[0040]接着,提取部24判定是否在全部的划分区域中实施了字符像素提取处理(步骤
5105)。在判定为在全部的划分区域中实施了字符像素提取处理的情况下(步骤S105:是),输出部28从存储部22将字符像素读出,作为输出图像向字符识别装置30输出,结束处理(步骤S106)。另一方面,在判定为没有在全部的划分区域中实施字符像素提取处理的情况下(步骤S105:否),再次重复从步骤S102起的处理。
[0041]接着,使用图4对步骤SlOl中的将图像数据划分为多个划分区域的处理进行说明。为了进行将图像数据划分为划分区域的处理,例如可以采用将以一定间隔分隔图像数据而得到的区域作为划分区域、或从图像数据中提取包含预先设定的颜色的区域而将所提取的区域分别作为划分区域、或将预先设定的位置或预先设定的形状的区域作为划分区域等的方法。
[0042]在本实施方式中,将图像数据的像素值连续而类似的区域作为图像数据的划分区域。如图4所示,首先划分部23进行初始化处理(步骤S201)。在初始化处理中,划分部23按照图像数据中的读取方向,将图像数据向小区域数为Nk个的、以等间隔划分且比划分区域小的小区域分割。分割时的间隔及分割数只要在小区域的大小比划分区域小的范围内适当设定就可以。字符的读取方向既可以预先设定,也可以自动地判定。在本实施方式中,如果图像数据的长边是上边及下边,则将读取方向判定为横方向,如果图像数据的长边是左边及右边,则将读取方向判定为纵方向。在图3的图像数据中,由于图像的长边是上边及下边,所以读取方向是横方向。
[0043]此外,作为参数,将表示当前处理中的小区域的号码的变量即i设为O。此外,将表示划分区域的边界的小区域的位置的变量即b设为O。此外,将表示划分区域的号码的变量即s设为O。
[0044]图5表示被分割为小区域的图像数据500的状态。如图5所示,图像数据500被分隔为O~14的合计15个小区域。小区域数既可以是预先设定的值,也可以使用图像数据的值计算。在本实施方式中,使用以下的式I计算小区域数Νκ。
[0045][数学式I]
【权利要求】
1.一种图像处理装置,其特征在于,具备: 取得部,取得图像数据; 提取部,基于预先设定的第I基准,从上述图像数据按照该图像数据的每个灰阶来提取字符候选成分的集合; 除去部,基于预先设定的第2基准,从上述字符候选成分的集合将非字符成分除去;字符计测部,对表示将上述非字符成分除去后的上述字符候选成分所包含的像素数的字符像素数进行计测; 边缘计测部,对表示与将上述非字符成分除去后的上述字符候选成分邻接的边缘像素的像素数的边缘像素数进行计测; 输出图像选择部,在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间存在有意义的差异的情况下,选择将上述像素数最多的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像,并且在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间没有有意义的差异的情况下,选择将上述边缘像素数最少的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像;以及输出部,将所选择的上述输出图像输出。
2.如权利要求1所述的图像处理装置,其特征在于, 上述除去部,在上述字符候选成分的上述图像数据中的位置与其他上述字符候选成分相比为例外的情况、上述字符候选成分的大小与其他上述字符候选成分相比为例外的情况、上述字符候选成分的线宽与其他上述字符候选成分相比为例外的情况、以及上述字符候选成分中包含的上述像素数与其他上述字符候选成分相比为例外的情况的至少一个情况下,将例外的上述字符候选成分作为上述非字符成分从上述集合除去。
3.如权利要求1所述的图像处理装置,其特征在于, 还具备将所取得的上述图像数据向二值图像变换的变换部。
4.如权利要求1?3中任一项所述的图像处理装置,其特征在于, 还具备将所取得的上述图像数据向按照像素值的每个趋势进行了分组的I个以上的划分区域分割的划分部, 上述提取部按照每个上述划分区域进行上述字符候选成分的提取, 上述除去部按照每个上述划分区域进行上述字符候选成分的除去。
5.如权利要求4所述的图像处理装置,其特征在于, 上述划分部在将上述图像数据向比上述划分区域细小的I个以上的小区域分割后,按照每个上述小区域,生成上述像素值的直方图,将上述直方图的值类似的上述小区域的集合作为上述划分区域。
6.一种图像处理方法,其特征在于,实施如下步骤: 取得步骤,取得图像数据; 提取步骤,基于预先设定的第I基准,从上述图像数据按照该图像数据的每个灰阶来提取字符候选成分的集合; 除去步骤,基于预先设定的第2基准,从上述字符候选成分的集合将非字符成分除去; 字符计测步骤,对将上述非字符成分除去后的上述集合所包含的像素数进行计测; 边缘计测步骤,对作为与将上述非字符成分除去后的上述集合邻接的像素的边缘像素的像素数进行计测; 输出图像选择步骤,在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间存在有意义的差异的情况下,选择将上述像素数最多的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像,并且在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间没有有意义的差异的情况下,选择将上述边缘像素数最少的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像; 输出步骤,输出上述输出图像。
【文档编号】G06K9/20GK104137119SQ201280070746
【公开日】2014年11月5日 申请日期:2012年7月23日 优先权日:2012年3月16日
【发明者】长田邦男 申请人:株式会社东芝, 东芝解决方案株式会社