用于内容识别的系统和方法

文档序号:6561338阅读:206来源:国知局
专利名称:用于内容识别的系统和方法
技术领域
本发明涉及扫描图像分割,具体上涉及识别在被扫描的文件中的文本、图像和艺术线条内容。
背景技术
诸如绝版(out-of-print)书籍之类的硬拷贝文件的传统数字化是缓慢和困难的。部分地,所述困难起因于识别在给定文件中的各种类型内容的需要。一些典型内容类型是文本、图像和艺术线条。文本一般包括具有一致大小的小字符或符号。艺术线条一般包括线条和图案的绘制图。图像一般包括具有许多中间级(诸如灰度)来描绘某个画面的画面。文本和艺术线条基本上是双级的(例如黑和白)。相反,图像具有更多的半色调形式的灰度级(例如在8位系统中的256级)(例如,近似于中间色或阴影——诸如灰色——的空间分布的高分辨率像素)。
术语“扫描内容”在此用于指被扫描和数字化的任何内容。术语“图像内容”指在扫描内容中的特定类型的内容、半色调图像。其他类型的内容包括文本和艺术线条,如上所述。为了保持扫描内容的优质再现,可以不同的方式来处理不同的内容类型。但是,为了以不同的方式来处理不同的内容类型,可能需要首先识别每个内容类型。
一种传统的扫描技术使用在文件中的不同内容类型的人工识别。例如,一个人在内容段周围物理地绘制矩形限制的方框或其他标识符,以指示应当以某种方式来处理所述被限制的内容。内容段指具有一致内容类型的扫描文件或扫描内容的一部分。可以按照默认处理模式来处理在所述限制方框之外的内容。因此,在一个示例中,一个人可以在半色调图像段周围而不是在文本段周围绘制矩形限制方框。所述半色调图像可以被去遮蔽(descreen)以去除半色调,并且可以将文本简单地按比例放大到较高的分辨率,并且将阈值按比例变为两级。传统的去遮蔽使用用于将半色调平滑为共色(contone)图像的算法。不幸的是,这种用于在图像周围绘制矩形限制方框的传统方法缓慢并且成本大。
另一种传统的扫描技术使用局部优化。局部优化使用在扫描内容中的局部信息,确定是否应当将内容段当作两级文本和艺术线条或半色调图像。但是,局部优化没有足够的信息来将扫描文件分割为可以按照每个段的内容类型而不同地处理的独立内容段。结果,局部优化扫描技术可导致降低的图像质量。
从上述的讨论应当清楚的是,需要一种用于克服传统扫描分段技术的装置、系统和方法。有益的是,这样的装置、系统和方法将比人工分段更快和简单。另外,这样的装置、系统和方法将比局部优化技术更准确。

发明内容
响应于本领域的当前状态,具体上响应于还没有由当前的扫描分段技术完全解决的本领域内的问题和需要,已经开发了本发明的几个实施例。因此,本发明已经被开发来提供一种用于扫描分段的装置、系统和方法,其克服了在本领域内的许多或全部上述缺陷。
本发明的各实施例便于扫描分段。具体上,某些实施例自动化扫描分段,包括识别段和每个段的内容类型。
用于识别在扫描内容中的内容的装置配备逻辑单元,它包括多个模块,它们被配置来在功能上执行扫描分段所需要的操作。在所述实施例中的这些模块包括图像模块、修改模块、识别模块、分段模块、面积计算模块、面积比较模块、子图像模块、直方图计算模块、直方图比较模块和相邻模块。
在一个实施例中,所述图像模块访问扫描内容数据集。所述扫描内容数据集可以作为修改内容数据集的基础,所述修改内容数据集继而可以用于识别扫描内容的可能内容类型。
在一个实施例中,所述修改模块从扫描内容数据集建立修改内容数据集。为了建立修改内容数据集,修改模块可以向扫描内容数据集应用数学函数。在一个实施例中,所述修改模块向扫描内容数据集应用S形函数,以便建立修改内容数据集。
在一个实施例中,所述识别模块识别在修改内容数据集内的内容段。所述识别模块可以使用8相邻连接性确定来识别修改内容数据集的内容段。
在一个实施例中,所述分段模块识别在修改内容数据集内的内容段的内容段类型。对应地,所述分段模块识别扫描内容数据集的内容段的内容段类型。在一个实施例中,所述分段模块响应于所计算的段表面面积小于预定的最小图像表面面积的判定,将内容段的内容段类型识别为文本。
在一个实施例中,如果所述段表面面积不小于预定的最小图像表面面积,则分段模块响应于修改内容直方图类似于扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条。否则,所述分段模块可以响应于所述修改内容直方图不类似于扫描内容直方图的判定,将内容段的内容段类型识别为图像。或者,所述分段模块可以将所述内容段类型识别为另一内容类型。
在一个实施例中,所述面积计算模块计算在修改内容数据集内的内容段的段表面面积。在一个实施例中,所述面积比较模块将所计算的内容段的段表面面积与预定的最小图像表面面积相比较。
在一个实施例中,所述子图像模块定义子图像窗口,它包括其大小被确定为等于或大于所述最小图像表面面积的内容段。所述子图像窗口可以用于识别修改内容数据集的数据的一部分或扫描内容数据集的对应部分。在一个实施例中,所述子图像窗口可以是矩形的,其宽度和高度近似等于但是略大于所选择的内容段的所计算的宽度和高度。或者,所述子图像窗口可以使用其他形状的各种大小或轮廓。
在一个实施例中,所述直方图计算模块计算用于描述扫描内容数据集的扫描内容直方图。具体上,所述直方图计算模块可以计算对应于被应用到扫描内容数据集的子图像窗口的扫描内容直方图。类似地,所述直方图计算模块可以计算对应于被应用到修改内容数据集的子图像窗口的修改内容直方图。在一个实施例中,所述直方图比较模块将修改内容直方图与扫描内容直方图相比较。
在一个实施例中,所述相邻模块将预定范围的像素值转换为在预定范围内的单个像素值。换句话说,所述相邻模块向在某组像素值内的每个像素分配单个像素值。所述相邻模块可以对于对应于单色通道或多色通道的修改内容数据集执行这样的分组操作。
一种本发明的系统也被提供来识别在扫描文件内的内容。所述系统可以被体现为具有扫描器、电子存储器件和分段装置的扫描器系统。所述扫描器捕获和数字化具有内容段的扫描内容。所述电子数据存储器件存储用于描述所述数字化的扫描内容的扫描内容数据集。所述分段装置识别内容段的内容段类型。所述系统也可包括用户界面、捕获模块和数字化模块。
一种信号承载介质也被提供来存储程序,所述程序当被执行时执行识别在扫描内容内的内容的操作。在一个实施例中,所述操作包括通过向扫描内容数据集应用S形函数来建立修改内容数据集;识别在修改内容数据集内的内容段;并且在修改的扫描数据和原始扫描数据之间比较数据。
在进一步的实施例中,所述操作可以包括确定与基本上黑色的像素的8相邻连接性,并且识别在所述内容段内的所有像素。在进一步的实施例中,所述操作可以包括计算在修改内容数据集内的内容段的段表面面积,将所述段表面面积与最小的图像表面面积相比较;并且/或者响应于所述段表面面积小于所述最小图像表面面积的判定,将内容段的内容段类型识别为文本。
在进一步的实施例中,所述操作可以包括响应于内容段不是文本的判定,定义包括内容段的子图像窗口;计算对应于所述子图像窗口的扫描内容直方图;计算对应于子图像窗口的修改的扫描内容直方图;并且/或者,将修改的扫描内容直方图与所述扫描内容直方图相比较。在进一步的实施例中,所述操作可以包括响应于所述修改的扫描内容直方图类似于所述扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条;响应于所述修改的扫描内容直方图不类似于所述扫描内容直方图的判定,将内容段的内容段类型识别为图像;并且/或者,将预定范围的像素值转换为在所述预定范围的像素值内的单个像素值。
有益的是,所提供的实施例自动地识别扫描内容的段,并且识别每个段的内容类型。各个段的内容类型的识别便于按照其内容类型而适当地处理每个段。另外,这样的扫描分段提高了扫描数字化和再现的质量。
遍及本说明书对于特征、优点或类似的语言的引用,不意味着可以使用本发明实现的所有特征和优点应当处于或处于本发明的任何单个实施例中。而是,引用所述特征和优点的语言被明白表示结合一个实施例所述的具体特征、优点或特性被包括在本发明的至少一个实施例中。因此,遍及本说明书对于特征和优点和类似的语言的讨论可以但不必然指向同一实施例。
而且,可以在一个或多个实施例中以任何适当的方式来组合本发明的所述特征、优点和特性。本领域内的技术人员将会认识到可以在没有特定实施例的一个或多个具体特征或优点的情况下实践本发明。在其他情况下,在某些实施例中可识别本发明的所有实施例中可能未提供的另外的特征和优点。
本发明的这些特征和优点通过下面的说明和权利要求将变得更充分清楚,或者可以通过实践如以下给出的本发明来获知。


为了会容易地了解本发明的优点,将通过参见在附图中图解的具体实施例,提供如上简述的本发明的更具体的说明。在了解这些附图仅仅描述本发明的典型实施例、因此不被视为限制其范围的情况下,将通过使用附图来额外具体和详细地描述和解释本发明,附图中图1是图解扫描器系统的一个实施例的示意方框图;图2是图解分段装置的一个实施例的示意方框图;图3是图解具有各种类型的内容的文件的一个实施例的示意方框图;图4是图解S形函数的一个实施例的示意曲线图;图5是图解像素阵列的一个实施例的示意方框图;图6是图解分段方法的一个实施例的示意流程图;图7是图解分段识别方法的一个实施例的示意流程图;以及图8是图解类型识别方法的一个实施例的示意流程图。
具体实施例方式
在本说明书中所述的许多功能单元已经被标注为模块,以便更具体地强调它们的实现独立性。例如,可以将模块实现为硬件电路,它包括定制的VLSI(超大规模集成电路)或门阵列、诸如逻辑芯片、晶体管或其他离散分段的现成半导体。模块也可以被实现在可编程硬件器件中,诸如现场可编程门阵列、可编程阵列逻辑或可编程逻辑器件等。
也可以以通过各种类型的处理器执行的软件来实现模块。可执行代码的被识别模块可以例如包括计算机指令的一个或多个物理或者逻辑块,其例如被组织为对象、过程或功能。尽管如此,被识别模块的可执行部分不必物理地位于一起,而是可以包括在不同位置存储的全异指令,其当在逻辑上结合在一起时包括所述模块,并且实现所述模块的所述目的。
事实上,可执行代码的模块可以是单个指令或多个指令,并且可以甚至被分布在几个不同的代码段上、在不同的程序之间和跨越几个存储器件。类似地,操作数据可以在此在各模块内被识别和图解,并且可以以任何适当的形式被体现并且被组织在任何适当类型的数据结构中。所述操作数据可以被汇集为单个数据集,或者可以被分布在包括不同存储器件上的不同位置上,并且可以至少部分地仅仅作为在系统或网络上的电子信号存在。
图1说明了扫描器系统100的一个实施例。所图解的扫描器系统100包括中央处理单元(CPU)102,用户界面104和电子存储器件106。所图解的扫描器系统100也包括捕获模块108、数字化模块110和分段装置112。
CPU 102处理算术和逻辑运算以及控制指令。在一个实施例中,用户界面104包括硬件和软件,以便于向扫描器系统100中输入用户命令以及向用户显示或另外通信来自扫描器系统100的信息。用户界面104可以包括硬件和软件,所述硬件诸如键盘、可视显示器等,所述软件诸如命令提示、图形用户界面(GUI)、菜单等。
捕获模块108便于使用硬件和/或软件来捕获文件图像。类似地,数字化模块110便于建立所捕获的文件的数字化图像。所述文件的数字化图像在此被称为扫描内容。在一个实施例中,扫描内容被表示为用于描述在扫描内容内的许多独立像素的扫描内容数据集114。扫描内容数据集114可以如图所示被存储在电子存储器件106中或另一电子存储器件中。电子存储器件106或其他的电子存储器件可以是扫描器系统100本地的,如图所示,或者可以位于扫描器系统100的远处。
当在扫描内容数据集114中以诸如黑色之类的单色通道来表示扫描内容时,每个像素可以具有对应于相关联的像素的灰度级的单色调值。或者,当通过诸如红色、绿色和蓝色之类的多色通道来表示扫描内容时,每个像素可以具有对应于相关联的像素的每个色调级的色调值。在一个实施例中,色调的色调值在8位系统中在0和255之间。例如,0可以表示黑色,255可以表示白色,并且在0和255之间的中间值可以表示特定级的灰色、红色、蓝色或绿色。或者,所述色调值的范围可小于或大于8位系统中的色调值的范围。
分段装置112便于将扫描内容自动地分割为不同的内容类型,诸如文本、艺术线条和图像。如在此使用的,术语“图像”与“扫描内容”区分地被使用来表示内容类型而不是文件本身的图形表示。在某些实施例中,分段装置112实现修改内容数据集(未示出),以便利扫描内容数据集114的分段。分段装置112可以是对扫描器系统100本地的,如图所示,或可以在扫描器系统100远处。参见图2而更详细地示出和描述了分段装置112的一个示例。
图2描述了实际上可类似于图1的分段装置112的分段装置200的一个实施例。所图解的分段装置200包括图像模块202、修改模块204、识别模块206、分段模块208、面积计算模块210、面积比较模块212、子图像模块214、直方图计算模块216、直方图比较模块218和相邻模块220。除了下面马上说明的之外,参见图6-8的流程图进一步说明这些模块的每个的功能的实施例。
在一个实施例中,图像模块202访问扫描内容数据集114。扫描内容数据集114可以作为修改内容数据集的基础,所述修改内容数据集继而可以用于识别扫描内容的可能内容类型。
在一个实施例中,修改模块204从扫描内容数据集114建立修改内容数据集。以这种方式,扫描内容数据集114可以保持不变,同时操纵修改内容数据集以确定在扫描内容内的各个段的内容类型。如在此使用的,术语“段(segment)”表示在扫描内容内的一致内容类型的区域。在一个实施例中,可以通过与扫描内容的其他段的物理分离来识别段。例如,文本的一个段落可以由从艺术线条绘制的空白来分离。类似地,通过扫描文件内的间隔或边缘,可以将画面、图形、图表或图像与文本分离。参见图3,更详细地示出和说明内容类型的一些示例。
为了建立修改内容数据集,修改模块204可以向扫描内容数据集114应用数学函数。在一个实施例中,修改模块204向扫描内容数据集114应用S形函数,以便建立修改内容数据集。参见图4,更详细地示出和说明S形函数的曲线图的一个示例。
一般地,数学S形函数可以便于将数据向极性极端强制。在像素值的情况下,数学S形函数可以用于将扫描内容数据集114的中间值转换为更接近0或255的新值。以这种方式,向扫描内容数据集114应用数学S形函数,可以便于在双级段(例如文本和艺术线条)和半色调段(例如图像)之间区分。数学S形函数的一个示例如下f(x)=(x128)n×128]]>0<x<128f(x)=255-(255-x127)n×127]]>128<x<255其中,n是用于确定S形函数的形状的参数,x是扫描内容数据集114的像素的像素值,f(x)定义修改内容数据集的修改像素的对应修改像素值。在替代实施例中,可以使用数学S形函数的其他变形。在进一步的实施例中,修改模块204可以应用类似于数学S形函数的其他函数,以便建立修改内容数据集。
在一个实施例中,识别模块206分析所述修改内容数据集,以从扫描内容识别独立的段。在一个实施例中,识别模块206可以使用8相邻连接性确定来识别修改内容数据集的内容段。一般地,8相邻连接性的确定指分析所选择的像素的相邻像素,确定是否相邻像素连接到所选择的像素。换句话说,可以使用8相邻连接性来确定一个段包括相邻像素的程度。当通过多个迭代而扩展时,8相邻连接性便于了内容段的周长的识别。参见图5而说明关于8相邻连接性的进一步的细节。
在一个实施例中,分段模块208识别在修改内容数据集内的内容段的内容段类型。对应地,分段模块208识别扫描内容数据集114的内容段的内容段类型。在一个实施例中,分段模块208响应于判定所计算的段表面面积小于预定的最小图像表面面积,识别内容段的内容段类型为文本。
在另一个实施例中,如果所述段表面面积不小于预定的最小图像表面面积,则分段模块208响应于修改内容直方图类似于扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条。否则,分段模块208可以响应于修改内容直方图不类似于扫描内容直方图的判定,将内容段的内容段类型识别为图像。
在一个实施例中,面积计算模块210计算在修改内容数据集内的内容段的段表面面积。可以以多种方式来计算所述段表面面积。例如,可以通过相加在内容段内的“导通(on)”像素的总数而计算内容段的段表面面积。所述“导通”像素来自使用内容段的左、右、上、下坐标而建立的矩形限制方框的位图。
在一个实施例中,面积比较模块212将所计算的内容段的段表面面积与预定的最小图像表面面积相比较。可以以像素、量度或描述可以与所计算的段表面面积相比较的最小图像尺寸的任何其他量,表达所述最小图像表面面积。在一个实施例中,预定的最小图像表面面积的使用预先假定所有的非文本段将具有大于任何文本段的最大尺寸的最小尺寸。否则,可以将具有等于或大于最小图像表面面积的表面面积的文本段处理为图形而不是文本。但是,在给定识别和处理双级图形的能力的情况下,这样的处理可能不会对于过大的文本的图像质量有害,如下所述。
在一个实施例中,子图像模块214定义子图像窗口,它包括被确定为等于或大于最小图像表面面积的内容段。换句话说,如果内容段被确定为不是文本,则子图像模块214可以定义大约围绕所述非文本段的子图像窗口。所述子图像窗口可以用于识别修改内容数据集的数据的一部分或扫描内容数据集114的对应部分。在一个实施例中,所述子图像窗口可以是矩形的,其宽度和高度大约等于但是略大于所选择的内容段的所计算的宽度和高度。参见图3更详细示出和说明子图像窗口的一个示例。
在一个实施例中,直方图计算模块216计算用于描述扫描内容数据集114的扫描内容直方图。具体上,直方图计算模块216可以计算对应于被应用到扫描内容数据集114的子图像窗口的扫描内容直方图。类似地,直方图计算模块216可以计算对应于被应用到修改内容数据集的子图像窗口的修改内容直方图。一般地,直方图是被分析数据的不同灰度级的频率分布的表示。
在一个实施例中,直方图比较模块218将修改内容直方图与扫描内容直方图相比较。如上所述,在所述直方图之间的类似性可以被分段模块208解释为指示对应的内容段是双级艺术线条,因为应用S形函数对于基本上黑和白的图形有很小的影响。或者,在所述直方图之间的不类似性可以被分段模块208解释为指示对应的内容段是半色调图像,因为S形函数的应用使得中间色调级图像失真。
在一个实施例中,相邻模块220将预定范围的像素值转换为在所述预定范围内的单个像素值。换句话说,相邻模块220向某组像素值内的每个像素分配单个像素值。例如,相邻模块220可以识别具有在0和10之间的像素值的、在扫描内容数据集114内的所有像素。然后相邻模块220可以使用黑色模块222,向所有那些被识别的像素分配0值。以这种方式,假定是黑色的所有的像素实际上被分配为黑色。类似地,相邻模块220可以识别具有在245和255之间的像素值的所有像素,并且使用白色模块224将它们转换为255的值。相邻模块220也可以执行彩色像素的类似操作,改变单个色调(例如红色、绿色和蓝色)或色调的组合。有益的是,相邻模块220可以提高扫描数据的动态范围,并且去除噪音。
图3描述了具有各种类型的内容的文件300的一个实施例。所图解的文件300表示可扫描的文件,诸如来自书籍的页面,它可以由扫描器系统100扫描。文件300也图解可以被扫描内容数据集114表示的扫描内容302(由最外部的虚线示出)。
所述的文件300包括在可扫描的文件的区域内的三种不同的内容类型。可扫描文件的最上面的内容段包括双级艺术线条内容。可扫描文件的中间的内容段包括双级文本(由方框表示)。可扫描的文件的最低的内容段包括半色调图像。
如在此所述,分段装置200识别表示扫描内容的扫描内容数据集114的各种内容段。分段装置200可以使用修改内容数据集来便利这样的识别。分段装置200也识别每个内容段的内容类型。在所述的实施例中,扫描内容数据集114包括三个内容段。艺术线条内容对应于艺术线条段304。文本内容对应于文本段306。在另一个实施例中,每个文本字符可以被定义为独立文本段306。图像内容对应于图像段308。图6-8的流程图提供了分段装置200可以执行来识别每个内容段及其内容类型的操作的一个实施例的进一步的细节。
图4描述了数学S形函数的一个实施例。S形函数的所图解的图形表示400仅仅是一个示例表示。其他类型的S形函数部分地根据所使用的常数,可以产生更多或更少线性的表示。虽然如上所述给出了数学S形函数的具体示例,参见图2的说明,可以使用具有更少或更多的常数或其他数学项的其他数学函数。另外,可以线性地或按照其他方式调整一些数学S形函数,以容纳在0和255之间的像素值的范围。
所图解的S形函数在修改内容数据集和扫描内容数据集114的像素值之间产生非线性关系。在给定所示出的示例S形函数的情况下,与扫描内容数据集114的对应像素相比较,可以将修改内容数据集的像素的像素值调整为更接近极性极端的任一个。
对于大约在值128之下的扫描内容数据集114的每个像素值,可以将修改内容数据集的对应像素的值调整为更接近值0。或者,对于大约在值128之上的扫描内容数据集114的每个像素值,可以将修改内容数据集的对应像素的值调整为更接近值255。在一个实施例中,这种修改建立了修改内容数据集,它人为地将扫描器的动态像素值范围(对于8位扫描器而言通常在大约20和230之间)扩展到更大的范围(例如在0和255之间)。
图5描述了用于说明8相邻连接性的像素阵列500的一个实施例。像素阵列500包括一个中心像素P1和8个相邻像素N1到N8。所选择的像素P1基本上是黑色的。8相邻连接性的概念用于确定所述相邻像素N1到N8的哪个也基本上是黑色的(假定扫描内容包括相对于亮背景的黑色印刷)。
在一个实施例中,识别模块206分析所述相邻像素N1到N8的每个,并且确定哪些像素类似于所选择的像素P1。可以通过比较每个像素的像素值来确定所述类似性。或者,如果像素在像素值的预定范围内,则可确定类似性。例如,可以将具有在230和255之间的像素值的任何像素确定为类似。在另一个示例中,可以将具有小于20的像素值的任何像素确定为类似。在所图解的实施例中,识别模块206可以确定相邻像素N1、N2和N5到N8与所选择的像素P1类似。
图6描述了可以由分段装置200与扫描器系统100结合来执行的分段方法600的一个实施例。所图解的分段方法600开始,并且修改模块204建立(602)对应于扫描内容数据集114的修改内容数据集。所述修改内容数据集可以被存储在电子存储器件106上或在另一个电子存储器件上。在一个实施例中,修改模块204向扫描内容数据集114应用S形函数,以便建立修改内容数据集,如上所述。
使用所述修改内容数据集,然后识别模块206识别(604)在所述修改内容数据集内的内容段。或者,识别模块206可以识别(604)在修改内容数据集内的所有内容段。在识别模块206识别内容段后,然后分段模块208根据所识别的内容段的内容而识别(606)内容段类型。在一个实施例中,分段模块208将所述内容段类型识别为文本、艺术线条或图像。或者,分段模块208可以更一般地(例如文本或画面、图形或双级或半色调)或更具体地(例如文本、艺术线条和图像的子类等)识别内容。然后所述的分段方法600结束。
图7描述了通过图6的分段方法600的段识别操作604的示例而给出的段识别方法700的一个实施例。所图解的段识别方法700开始,并且识别模块206识别(702)开始像素,如参见图5的像素阵列500所述的被选择像素P1。
然后识别模块206确定(704)是否存在可以处理的更多的像素。如果存在,则识别模块206确定(706)是否已经在组合的段像素周围检测到白色边界(假定基本上黑色的内容段)。如果还没有建立这样的边界,则识别模块206确定(708)是否被处理的像素的面积超过定义总的处理面积的窗口大小,它对应于扫描内容302。
然后识别模块206识别(710)所选择的像素的相邻像素。在一个实施例中,识别模块206使用8相邻连接性来识别(710)相邻像素。对于被识别的相邻像素,识别模块206确定(712)哪些像素是基本上黑色的,并且调整(714)用于定义内容段的段窗口。当更多的黑色像素被识别为属于特定的内容段时,对应的段窗口被扩展(714)以包括被识别的像素。
所图解的段识别方法700迭代地继续在段中选择像素,直到满足终止标准。当识别模块206确定(704)已经处理了所有的像素、确定(706)已经对于所述段建立了白色边界或确定(708)所处理的面积超过了像素处理窗口时,所描述的段识别方法700结束。
图8描述了通过图6的分段方法600的识别操作606的示例而给出的类型识别方法800的一个实施例。所图解的类型识别方法800开始,并且识别模块206识别(802)内容段之一,它可能已经按照如上所述的段识别方法700而被识别出。然后面积计算模块210计算(804)所选择的内容段的段表面面积。然后面积比较模块212将所计算的段表面面积与预定的最小图像表面面积相比较,以确定(806)是否所述段表面面积小于所述最小图像表面面积。如果所述段表面面积小于所述最小图像表面面积,则分段模块208将所述段类型识别(808)为文本内容。
如果段表面面积不小于最小图像表面面积,则子图像模块214定义(810)围绕所述段的子图像窗口。然后直方图计算模块216计算(812)对应于所述子图像窗口的扫描内容数据集114的扫描内容直方图。直方图计算模块216也计算(814)对应于所述子图像窗口的修改内容数据集的修改内容直方图。
直方图比较模块218随后将修改内容直方图和扫描内容直方图相比较,以确定(816)是否所述直方图是类似的。如果所述直方图被确定(816)为类似的,则分段模块208将所述段识别(818)为艺术线条内容。否则,如果所述直方图被确定(816)为不类似,则分段模块208将所述段识别(820)为图像内容。
在将段识别为文本、艺术线条或图像内容后,分段装置200确定(822)是否另外的段需要被处理,如果需要,则迭代地返回以选择(802)随后的内容段。否则,所描述的类型识别方法800结束。
有益的是,所提供的实施例自动地识别扫描内容的段,并且识别每个内容段的内容类型。独立段的内容类型的识别便于按照其内容类型而适当地处理每个段。另外,这样的扫描段提高了扫描数字化和再现的质量。
在此包括的所述示意流程图被一般地描述为逻辑流程图。因此,所述顺序和标注的操作指示所提供的方法的一个实施例。可以想象在功能、逻辑或效果上等同于所说明的方法的一个或多个操作或其部分的其他操作和方法。另外,所使用的格式和符号被提供来说明所述方法的逻辑操作,并且被理解为不限制所述方法的范围。虽然各种箭头类型和线条类型可以被用于所述流程图中,但是它们被理解为不限制对应方法的范围。事实上,一些箭头或其他连接符可以用于仅仅指示所述方法的逻辑流程。例如,箭头可以指示在所述方法的所列举操作之间的未指定持续时间的等待或监视时段。另外,特定方法发生的顺序可以或可以不严格地遵守所示出的对应操作的顺序。
遍及本说明书对于“一个(an,one)实施例”或类似语言的引用,表示有关所述实施例所述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,遍及本说明书出现词语“在一个(an,one)实施例中”和类似语言,可以、但不必然全部指同一实施例。
对于信号承载介质的引用可以采取能够产生信号、使得产生信号或使得在数字处理装置上执行机器可读指令的程序的任何形式。信号承载介质可以体现为传输线路、致密盘、数字视频盘、磁带、伯努里驱动器、磁盘、穿孔卡、快闪存储器、集成电路或其他数字处理装置存储设备。
而且,可以在一个或多个实施例中以任何适当的方式来组合本发明的所述特征、结构或特性。在随后的说明中,提供了多种具体细节,诸如编程、软件模块、用户选择、网络交易、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等的示例,以提供对本发明实施例的完全理解。但是,本领域内的技术人员将会明白,在没有一个或多个所述具体细节的情况下,或使用其他方法、部件、材料等,可以实践本发明。在其他情况下,不详细示出或说明公知结构、材料或操作,以避免模糊本发明的各方面。
在不脱离本发明的精神或基本特性的情况下,本发明可以被体现为其他具体形式。所述实施例在各个方面都要被考虑为仅仅是说明性的而不是限定性的。因此,本发明的范围由权利要求而不是由上述的说明指示。在权利要求的等同内容的含义和范围内的所有改变要被包含在它们的范围内。
权利要求
1.一种用于识别在扫描图像中的内容的装置,所述装置包括修改模块,它被配置来通过向扫描内容数据集应用S形函数而建立修改内容数据集;识别模块,它耦合到所述修改模块,所述识别模块被配置来识别在修改内容数据集内的内容段;以及分段模块,它耦合到所述修改模块,所述分段模块被配置来识别内容段的内容段类型。
2.按照权利要求1的装置,其中,所述识别模块进一步被配置来确定与基本上黑色的像素的8相邻连接性,并且识别在所述内容段内的所有像素。
3.按照权利要求1的装置,还包括面积计算模块和面积比较模块,它们每个耦合到所述分段模块,所述面积计算模块被配置来计算所述内容段的段表面面积,所述面积比较模块被配置来将所述段表面面积与最小图像表面面积相比较。
4.按照权利要求3的装置,其中,所述分段模块被进一步配置来响应于所述段表面面积小于所述最小图像表面面积的判定,将内容段的内容段类型识别为文本。
5.按照权利要求1的装置,还包括子图像模块,它耦合到所述分段模块,所述子图像模块被配置来响应于所述内容段不是文本的判定,定义包括所述内容段的子图像窗口。
6.按照权利要求5的装置,还包括直方图计算模块和直方图比较模块,它们每个耦合到所述分段模块,所述直方图计算模块被配置来计算对应于所述子图像窗口的扫描内容直方图,并且计算对应于所述子图像窗口的修改内容直方图,所述直方图比较模块被配置来比较所述修改内容直方图和扫描内容直方图。
7.按照权利要求6的装置,其中,所述分段模块还被配置来响应于所述修改内容直方图类似于所述扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条。
8.按照权利要求6的装置,其中,所述分段模块进一步被配置来响应于所述修改内容直方图不类似于扫描内容直方图的判定,将所述内容段的内容段类型识别为图像。
9.按照权利要求1的装置,还包括相邻模块,它耦合到所述修改模块,所述相邻模块被配置来将预定范围的像素值转换为在所述预定范围的像素值内的单个像素值。
10.按照权利要求1的装置,其中,所述修改内容数据集包括对应于至少一个彩色通道的数据。
11.一种用于识别在扫描图像内的内容的系统,所述系统包括扫描器,用于捕获和数字化具有内容段的扫描内容;电子数据存储器件,用于存储用于描述数字化的扫描内容的扫描内容数据集;以及分段装置,用于识别所述内容段的内容段类型。
12.按照权利要求11的系统,其中,所述分段装置进一步被配置来从扫描内容数据集建立修改内容数据集,所述修改内容数据集对应于修改内容直方图,该修改内容直方图比对应于扫描内容数据集的扫描内容直方图更极化。
13.按照权利要求12的系统,其中,所述修改内容数据集按照基本上类似于下列的S形函数而与扫描内容数据集相关f(x)=(x128)n×128]]>0<x<128f(x)=255-(255-x127)n×127]]>128<x<255其中,n是用于确定S形函数的形状的参数,x是扫描内容数据集的像素的像素值,f(x)定义修改内容数据集的修改像素的对应修改像素值。
14.一种用于扫描图像内的内容识别的方法,所述方法包括通过向扫描内容数据集应用S形函数而建立修改内容数据集;识别在修改内容数据集内的内容段;以及识别内容段的内容段类型。
15.按照权利要求14的方法,还包括响应于段表面面积小于最小图像表面面积的判定,将内容段的内容段类型识别为文本。
16.按照权利要求14的方法,还包括响应于修改内容直方图类似于扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条。
17.按照权利要求14的方法,还包括响应于修改内容直方图不类似于扫描内容直方图的判定,将所述内容段的内容段类型识别为图像。
18.按照权利要求14的方法,还包括确定与基本上黑色的像素的8相邻连接性,并且识别在所述内容段内的所有像素。
19.按照权利要求14的方法,还包括计算在修改内容数据集内的内容段的段表面面积;将所述段表面面积与最小图像表面面积相比较;并且响应于所述段表面面积小于所述最小图像表面面积的判定,将内容段的内容段类型识别为文本。
20.按照权利要求14的方法,还包括响应于所述内容段不是文本的判定,定义包括所述内容段的子图像窗口;计算对应于所述子图像窗口的扫描内容直方图,并且计算对应于所述子图像窗口的修改内容直方图;并且比较所述修改内容直方图和扫描内容直方图。
21.按照权利要求20的方法,还包括向应于所述修改内容直方图类似于所述扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条;并且响应于所述修改内容直方图不类似于扫描内容直方图的判定,将所述内容段的内容段类型识别为图像。
22.按照权利要求14的方法,还包括将预定范围的像素值转换为在所述预定范围的像素值内的单个像素值。
23.一种信号承载介质,用于确实地包含可由数字处理装置执行的机器可读指令的程序,所述指令用于执行用于识别扫描图像内的内容的操作,所述操作包括前述方法权利要求的任何一种方法的步骤。
全文摘要
公开了一种用于识别扫描文件内的内容的装置、系统和方法。所述装置包括修改模块、识别模块和分段模块。所述修改模块通过向扫描内容数据集应用S形函数而建立修改内容数据集。所述识别模块识别在修改内容数据集内的内容段。所述分段模块识别内容段的内容段类型。示例内容段类型包括文本、艺术线条和图像。
文档编号G06K9/20GK1920853SQ20061012188
公开日2007年2月28日 申请日期2006年8月25日 优先权日2005年8月25日
发明者詹姆斯·T·史密斯第二, 李红, 约瑟夫·S·齐斯兹克泽维斯基 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1