从复杂背景文档图像提取文本的装置、方法、程序及介质的制作方法

文档序号:82600阅读:301来源:国知局
专利名称:从复杂背景文档图像提取文本的装置、方法、程序及介质的制作方法
技术领域
本发明一般地涉及图像处理。更具体地说,本发明涉及从具有复杂背景的文档图像中提取文本的装置、从具有复杂背景的文档图像中提取文本的方法、计算机程序及其存储介质。
背景技术
文本提取对于许多应用来说是非常重要的一步,例如光学字符识别(OCR)、基于文本的视频检索、文档图像压缩等等。大多数当前的技术都针对从具有简单背景的图像中提取文本。近年来,从复杂背景图像中提取文本的技术在越来越多的领域变得非常急需,例如复杂文档分析、工程图分析等等。但是,从具有复杂背景的文档图像中提取文本非常困难。虽然已经提出了许多方法,但是大部分仅对于简单图像或不是特别复杂的图像有效。
现有的文本提取方法可以分为两大类,即基于色彩聚类的方法(Color-clustering based method)和基于边缘分析的方法。
基于色彩聚类的方法假定文本具有均一的前景颜色。但是,情况并不总是这样,尤其是对于小字符。例如,文本字符可能用不同的颜色进行印刷,而且图像也可能是在不均匀的照明条件下捕获的。对于较小的文字,前景颜色基本上总是不均一的,这是因为与笔划宽度相比过渡区域太大。相应地,对于整个图像来说很难获得恰当的全局二值化阈值,由此几乎不可能消除所有的具有不均匀颜色的色彩光背景。
另一方面,基于边缘分析的方法假定文本与背景之间的对比度足够大。但是在具有复杂背景的图像中,非文本图像也可能与背景之间具有很大的对比度,这将导致边缘检测处理之后文本边缘和非文本边缘彼此接触相连。由此,常常给边缘分析带来困难或导致不稳定的结果。
例如,日本专利申请公开文本No.JP-A-2000-20714公开了一种图像处理方法、及其装置和存储图像处理功能的记录介质。
图10示出了上述日本专利申请公开文本No.JP-A-2000-20714所公开的图像处理方法的流程图。
为了获得即使在背景图像上也不具有影响识别的噪音的二值图像,将要进行阈值处理的原始图像的灰度图像在步骤S101中输入,并在步骤S102中存储。而后,在步骤S103中,关注特定的像素,并且判断所述像素是否是一个字符的边缘或者是否是格线(ruledline)。此后,在步骤S104,确定并存储被判断为边缘的像素在二值图像上的像素值。在步骤S105对原始图像上的所有像素重复这些操作并且在步骤S106找到非边缘的像素的所有连通区域(connectioncomponent)。而后,在步骤S107,关注与某一连通区域的外围接触的并且已经具有确定的像素值的像素,并且分别计算黑色像素的数量和白色像素的数量。在步骤S108中互相比较黑色和白色像素的数量,并且当黑色像素的数量更大,则在步骤S110登记整个连通区域为黑色像素。在另一种情况下,则在S109登记整个连通区域为白色像素。在步骤S111,为所有连通区域重复上述操作,并且最后在步骤S112生成二值图像,并在步骤S113输出该二值图像。
根据上述方法,能够从二值化边缘图中识别和去除出现在背景中由连通区域形成的长线条。但是,在二值化之后的边缘图中,彼此靠近的文本行(text row)也由可能形成长连通区域。在这种情况下,根据上面所述的方法,将文本从靠近的文本行中分离出来并不容易,并且有可能将整个靠近的文本行当作背景而被忽略。然而这些文本行却恰恰是需要的并且不应该仅仅是简单的去除。因此,如果采用现有技术中上面描述的这些方法对具有复杂背景的扫描文档图像进行二值化和处理,则有可能丢失有用的文本。

发明内容有鉴于此,本发明的目的是提供一种从具有复杂背景的文档图像中提取文本的装置、一种从具有复杂背景的文档图像中提取文本的方法、计算机程序及其存储介质,以便克服现有技术中存在的上述缺陷。
为了实现上述目的,根据本发明的一个方面,提供一种从具有复杂背景的文档图像中提取文本的方法,包括步骤第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;第二边缘提取步骤,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。
为了实现上述目的,根据本发明的另一方面,提供一种从具有复杂背景的文档图像中提取文本的方法,包括步骤调整步骤,用于调整对比度阈值;文本区域确定步骤,用于根据所述调整的对比度阈值确定文本区域;其中所述调整步骤包括目标区域确定步骤,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整步骤在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定步骤确定相应于调整已经结束的对比度阈值的目标区域为文本区域。
为了实现上述目的,根据本发明的再一方面,提供一种从具有复杂背景的文档图像中提取文本的装置,包括第一边缘提取部件,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索部件,用于从所述提取的边缘中搜索连通的边缘;第二边缘提取部件,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。
为了实现上述目的,根据本发明的又一方面,提供一种从具有复杂背景的文档图像中提取文本的装置,包括调整部件,用于调整对比度阈值;文本区域确定部件,用于根据所述调整的对比度阈值确定文本区域;其中所述调整部件包括目标区域确定部件,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整部件在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定部件确定相应于调整已经结束的对比度阈值的目标区域为文本区域。
为了实现上述目的,根据本发明的再一方面,提供一种从具有复杂背景的文档图像中提取文本的装置,包括边缘图计算单元,用于计算文档图像的边缘图;长背景连通边缘去除单元,用于将边缘图计算单元所计算的边缘图中的边缘分成“正边缘”和“负边缘”两类、搜索由相同类型的边缘构成的连通边缘、以及去除比预定阈值长的由相同类型的边缘构成的连通边缘;边缘图重计算单元,用于在由相同类型的边缘构成的长连通边缘已经被长背景连通边缘去除单元去除的边缘图中搜索由两类边缘构成的连通边缘、并针对比第二预定阈值长的由两类边缘构成的连通边缘的边界框重计算局部边缘图;文本图标记单元,用于将连通边缘划分为三种类型“正常文本”、“反转文本”和“背景”并生成标记图,其中将“正常文本”连通边缘的前景像素标记为“正常文本”,将“反转文本”连通边缘的前景像素标记为“反转文本”,以及将剩余像素标记为“背景”;以及文本连通边缘搜索和合并单元,用于搜索文本图标记单元所生成的标记图上由具有相同标记的像素形成的连通边缘并将该连通边缘形成文本行。
另外,本发明还提供用于实施上述从具有复杂背景的文档图像中提取文本的方法的计算机程序。
此外,还提供其上记录有用于实施上述从具有复杂背景的文档图像中提取文本的方法的计算机程序代码的至少一种计算机可读记录介质的计算机程序产品。
本发明的其它目的、特征和优点将通过结合附图和下面的描述变得更加清楚,在本发明的整个附图中,相似的附图标记表示相同或类似的部分。
包含在本说明书中并作为本说明书的组成部分的附图示出了本发明的实施例,并且结合下面的描述阐述了本发明的原理。其中图1是可以用于本发明的计算机系统的方框图;图2示出根据本发明的从具有复杂背景的文档图像中提取文本的方法的流程图;图3示出边缘分类和去除长背景边缘连通区域的结果的示例;图4示出根据本发明使用连通区域尺寸的反馈进行局部边缘图重计算的方法的流程图;图5示出根据本发明通过使用连通区域尺寸的反馈进行边缘图重计算所获得的去除文本附近的背景干扰的结果示例;图6和图7示出使用本发明的方法所获得的文本提取的结果;图8示出根据本发明的从具有复杂背景的文档图像中提取文本的方法的典型应用;图9示出根据本发明的实施例的从具有复杂背景的文档图像中提取文本的装置的方框图;以及图10示出现有技术中所公开的图像处理方法的流程图。
具体实施方式为了更加透彻地理解本发明,下面的具体描述将给出本发明的许多具体细节。然而,本领域的普通技术人员应该知道本发明并不局限于所给出的具体细节。
计算机系统示例本发明的方法能够在任何一种图像处理设备中实施,例如,个人计算机(PC)、笔记本电脑、或者嵌在照相机、视频摄像机、扫描仪等等中的单片微处理器(SCM)。对于本领域的普通技术人员来说,能够非常容易地通过软件、硬件、和/或固件实现本发明。还应该指出的是,为了实施本发明的方法的任意一个步骤或者这些步骤的组合、或者组件的任意组合,对于本领域的普通技术人员来说,显然可能会需要使用I/O设备、存储设备、诸如CPU的微处理器等等。在下面的描述以及本发明的方法中将不再重复提及这些设备,尽管实际上可能会用到它们。
作为上面提到的图像处理设备,图1中所示的方框图示出可能会在本发明中使用的典型计算机系统的一个具体示例。应该指出的是,尽管图1示出了计算机系统的各种组成部件,但是并不试图表示任何具体的结构或连接这些部件的具体方式,这是由于这些细节对于本发明来说并不重要。还应该指出的是,具有更少或更多部件的网络计算机及其它数据处理系统,也可以应用到本发明中。
如图1所示,作为数据处理系统形式的计算机系统包括总线101,与微处理器102、ROM 104、易失性RAM 105以及非易失性存储器106相连接。微处理器102可以是Intel公司的Pentium微处理器,连接到高速缓冲存储器103,如图1中的例子所示。总线101将这些各种部件互连,并且将这些部件高速缓冲存储器103、ROM 104、易失性RAM 105以及非易失性存储器106连接到显示控制器和显示设备107、以及诸如输入/输出(I/O)设备的外围设备,比如鼠标、键盘、调制解调器、网络接口、打印机,以及其它本领域公知的设备。通常输入/输出设备109通过输入/输出控制器108连接到系统上。易失性RAM 105典型地为动态RAM(DRAM),需要连续的电源以便刷新或保持存储器中的数据。非易失性存储器106典型地为硬盘驱动器、磁光盘驱动器、光盘驱动器、DVD RAM或其它类型的存储系统,能够在电源从系统中移除后也能保持数据。通常,非易失性存储器也可以是随机存取存储器,尽管这不是必须的。虽然图1示出非易失性存储器是直接连接到数据处理系统的其它部件上的本地设备,但是应该指出的是,本发明也可以使用远离系统的非易失性存储器,例如通过诸如调制解调器的网络接口或以太网接口连接到数据处理系统的网络存储设备。总线101可以包括各种桥接器、控制器、和/或适配器相互连接的一种或多种总线,这在本技术领域
中是公知的。在一个实施例中,I/O控制器108包括用于控制USB(通用串行总线)外围设备的USB适配器。
从具有复杂背景的文档图像中提取文本的方法及其装置在根据本发明的从具有复杂背景的文档图像中提取文本的方法及其装置中,边缘信息用于提取文本以便克服背景边缘的干扰,并且采用了以下新颖的操作1)根据边缘分类去除边缘图中由背景对象或非常靠近的文本形成的长连通区域(即,长背景边缘连通区域);2)使用边缘连通区域尺寸的反馈重计算边缘图;3)根据边缘连通区域分类标记文本图。
这里,连通区域(connected component)指的是覆盖相连区域的区域,并且边缘分类指的是将边缘像素分成正边缘和负边缘两类,这将在下文中进行详细描述。边缘图指的是仅包括对象的边缘像素的图像,而边缘连通区域尺寸的反馈则可以被认为是一种类型的反馈,使用该反馈可以确定是否需要对边缘图进行重计算。
根据本发明的从具有复杂背景的文档图像中提取文本的方法一般地包括以下步骤(1)计算边缘图;(2)将边缘分成“正边缘”和“负边缘”两类并搜索由相同类型的边缘形成的连通区域(CC),如果由相同类型的边缘形成的连通区域长到一定程度,则去除其边缘像素;(3)搜索由两种类型的边缘形成的连通区域(即,边缘连通区域),如果由两种类型的边缘形成的连通区域太大,则重计算其边界框(bounding box)的局部边缘图并再次搜索连通区域;(4)将连通区域分成三种类型“正常文本”、“反转文本”和“背景”,并且由此生成标记图,其中,将“正常文本”连通区域的前景像素标记为“正常文本”,将“反转文本”连通区域的前景像素标记为“反转文本”,并且将余下的像素标记为“背景”;(5)在标记图上搜索由具有相同标记的像素形成的连通区域(即,文本连通区域)并将该连通区域形成文本行。
下面,将参照附图详细描述根据本发明的从具有复杂背景的文档图像中提取文本的方法和从具有复杂背景的文档图像中提取文本的装置的具体实施例。图2示出根据本发明的从具有复杂背景的文档图像中提取文本的方法的流程图。
如图2所示,在输入图像之后,在步骤1中通过对初始图像执行Sobel运算来计算边缘图,然后对梯度图像进行二值化。
之后,在步骤2中,根据边缘分类将长背景边缘连通区域去除。
在这一步骤中,对边缘图进行连通区域分析。对于从具有复杂背景的图像中计算的边缘图来说,存在两种类型的连通区域可能极大地干扰连通区域分析处理,即,由长线条的边缘形成的连通区域以及由彼此非常靠近的文本边缘形成的相触连通区域。
上述两种类型的连通区域可能出现在由文本边缘形成的连通区域的周围,或者甚至与由文本边缘形成的连通区域相接触,这将严重干扰连通区域分析。因此,非常希望找到一种方法在进行连通区域分析之前将它们去除。为此目的,在本发明中采用边缘分类的方法。
根据本发明的该边缘分类方法,将边缘按照其梯度方向分成“正边缘”和“负边缘”两类。假定P0是当前边缘像素的灰度等级,Pneighbor是其8个相邻像素的灰度等级,则当前边缘像素的类型按照下式(1)来确定 在进行边缘分类之后,将分别独立地搜索正边缘连通区域和负边缘连通区域。如果这些连通区域中的任意一个比预定阈值比如100长,则将其看作背景连通区域并将其从边缘图中去除。在该操作之后,已经将属于长线条的边缘去除。另外,靠近文本的接触边缘也已经去除,由此可以将余下的边缘分离开来。图3示出边缘分类和去除长背景边缘连通区域的结果的示例。
从图3所示的结果可以看出,根据本发明的方法,不仅能够去除长线条的干扰,而且也能够去除靠近的文本之间的干扰。
去掉长线条形成的连通区域比较容易实现,并且已经提出了多种方法,例如上文中的日本专利申请公开文本No.JP-A-2000-20714所描述的方法。但是,在边缘图中,靠近的文字行也会形成一个长的连通区域。文字行是我们要提取的目标,他们不能被简单地就去掉了。,在对边缘分类后,文字的附近区域会产生两种边缘连通区域,一种是外边缘连通区域,一种是内边缘连通区域,如图3中所示。可以看出外边缘连通区域很长,而内边缘连通区域相对较短。如果把长的外边缘连通区域去掉后,剩下的内边缘连通区域仍然能形成文字的轮廓,而这些轮廓可用来做后续的边缘分析。
在根据如上所述的步骤2,基于边缘分类的方法将背景对象和非常靠近的文本形成的长连通区域从边缘图中去除之后,将在步骤3使用连通区域尺寸的反馈重计算边缘图。
在去除长背景边缘连通区域之后,再次搜索由两种类型的边缘形成的连通区域(此时不再需要区分“正边缘”和“负边缘”)。
由于假定将基于边缘的文本提取方法应用到尺寸小于60像素的文本,因此可以将大于60像素的连通区域丢弃(连通区域尺寸通常根据连通区域的边界框的较短的边确定)。但是在具有复杂背景的图像中,文本的边缘和背景的边缘彼此接触,这有可能形成尺寸大于60像素的连通区域。由此必须处理这种情形。通过调整每一个较大连通区域的边界框中的边缘阈值,可以去掉一些具有相对较小对比度的边缘像素(这些边缘应该属于背景对象)。针对此处理的流程图和示例分别示于图4和图5中。
图4示出根据本发明使用连通区域尺寸的反馈进行局部边缘图重计算的方法的流程图。
首先,在步骤S41中,在输入的边缘图中不区分负边缘和正边缘而再次搜索由两种类型的边缘形成的连通区域。
然后,在步骤S42,将连通区域的像素数与预定阈值比如60像素进行比较,以便确定靠近该连通区域的边缘图是否需要重新进行计算。如果该连通区域的像素数小于60像素,则处理结束并返回到图2中的步骤4,继续下面的处理。
另一方面,如果在步骤S42中确定该连通区域的像素数不小于所述预定阈值,则意味着该连通区域有可能属于背景并应该被丢弃,处理流程前进到步骤S43。
在步骤S43中,将阈值增大预订值,比如20,以便重计算局部边缘图并去除复杂背景的干扰。
然后,在步骤S44中,使用新的阈值再次二值化相应的梯度块,并将单个字符从复杂背景中分离出来。
之后,在步骤S45中判断是否所有的连通区域的像素数都小于60像素。如果是,则处理流程前进到图2的步骤4,继续下面的处理。
否则,如果不是所有的连通区域的像素数都小于60像素,则处理流程前进到步骤S46,继续搜索像素数大于60像素的其它连通区域。然后,处理流程返回到步骤S46并继续处理此种像素数大于60像素的连通区域。
根据本发明通过使用连通区域尺寸的反馈进行边缘图重计算所获得的去除文本附近的背景干扰的结果示例示于图5。在图5所示的示例中,深黑矩形块的大连通区域边界框的边缘将需要重新进行计算,而浅颜色的矩形块是小连通区域的边界框并且无需重新计算其边缘图。
对于上述的步骤3,也可以使用现有技术中合适的二值化方法来替代,但对整副图像而言,通常很难找到一个合适的阈值。通过使用边缘连通区域尺寸的反馈,可以把目标定位在连通区域覆盖的区域,在这些区域里,可以利用区域的局部信息而不是全局信息来获得期望的文字。
此外,在局部区域里背景和文字通常有不同的对比度。不合适的阈值选择会导致文字和背景的边缘粘连在一起。而根据上面描述的步骤通过调整该区域的边缘阈值并重计算边缘图,背景对象的边缘和期望文字的边缘很容易就分开了。一旦分开,也很容易通过边缘分析的方法把背景对象扔掉,这比二值化的方法实现起来更简单。而且,通过对边缘图进行重新计算,也可以容易地确定文字是正常还是反转,而正确的判断有利于后续的文字行合并。
在此步骤执行之后,已经将大部分属于背景对象的边缘像素去除,而将属于文本的那些边缘像素留了下来。如此,单个的字符很容易从背景中分离出来,这将极大地帮助准确定位文本。
现在返回到图2,在步骤3中使用边缘连通区域尺寸的反馈重计算局部边缘图之后,处理流程前进到步骤4。
在步骤4中,根据边缘连通区域分类标记文本图。在该步骤中,将在前述步骤中得到的边缘连通区域分成“正常文本”、“反转文本”和“背景”三种类型。然后生成标记图,其中“正常文本”连通区域的前景像素标记为“正常文本”,“反转文本”连通区域的前景像素标记为“反转文本”,以及剩余像素标记为“背景”。
由此,在所述标记图上存在三种类型的像素,“正常文本”、“反转文本”和“背景”。该标记图将有助于将具有类似属性(即,“正常文本”和“反转文本”)的字符合并为文本行,并且将非文本区域丢弃。此外,标记图将有助于更好地二值化文本行,这将在下一步骤5中得到。
然后,在步骤5中,搜索文本连通区域并将其合并成行。在标记图上,搜索由具有相同标记的像素形成的连通区域(即,文本连通区域)并将其合并成行。主要基于以下两点而将文本连通区域合并成行。第一,标记文本图不能用作最后的二值化图像,这是因为可能会丢失一些文本并且还可能存在大量噪声。通过将文本连通区域形成为行能够方便地发现一些丢失的文本并去除一些噪声的影响。第二,前面滤波文本边缘连通区域的操作并不完全确信,这是因为仅仅使用其自身的特征很难判断连通区域是否为文本。但是对于文本行来说则非常容易,因为很容易找到更加有效的特征来区分文本行。
现有技术中已经公开了多种文本行形成方法,在本发明中采用其中之一,包括如下所述的步骤。
步骤S51在文本图像的边缘图上查找具有相同标记的连通区域。
步骤S52合并交叉的连通区域。
步骤S53将非文本连通区域丢弃。
步骤S54使用近连通区域(close connected component)形成行种子,并且合并其它连通区域为行。
步骤S55使用远连通区域(far connected component)形成行种子,并且合并步骤S54所余下的连通区域为行。
步骤S56使用相同的连通区域形成行种子,并且合并步骤S55所余下的连通区域为行。
步骤S57判断每一个合并的行是否为真正的文本行。
在经过上述处理之后,可以从具有复杂背景的图像中提取清晰的文本。图6和图7示出使用本发明的文本方法所获得的文本提取的结果。
根据本发明的文本提取方法主要用于提取具有复杂背景的图像中的文本,它可以应用到许多领域中,例如OCR(光学字符识别)中的预处理、基于文本的视频检索、以及文档图像压缩等等。
图8示出了一种典型应用,其中根据本发明的基于边缘的文本提取方法首先用于处理彩色文档图像。然后,使用光学字符识别方法对二值化文本行进行处理,并且输出识别后的字符。
下面将结合附图描述根据本发明的从具有复杂背景的文档图像中提取文本的装置。图9示出根据本发明的一个实施例的从具有复杂背景的文档图像中提取文本的装置的方框图。
如图9所示,根据本发明的该实施例的从具有复杂背景的文档图像中提取文本的装置包括边缘图计算单元901、长背景连通区域去除单元902、边缘图重计算单元903、文本图标记单元904、以及文本连通区域搜索和合并单元905。
边缘图计算单元901计算输入文档图像的边缘图,并且将所计算的边缘图输出到长背景连通区域去除单元902。
长背景连通区域去除单元902将边缘图计算单元901所计算的边缘图中的边缘分成“正边缘”和“负边缘”两类,并且搜索由相同类型的边缘构成的连通区域(Conneeted Component,CC)。如果由相同类型的边缘构成的连通区域长到一定程度,则长背景连通区域去除单元902去除该连通区域。
边缘图重计算单元903在由相同类型的边缘构成的长连通区域已经被长背景连通区域去除单元902去除的边缘图中搜索由两类边缘构成的连通区域(即边缘连通区域)。如果由两种类型的边缘构成的连通区域的尺寸达到一定程度,则边缘图重计算单元903重计算其边界框(bounding box)的局部边缘图并再次搜索连通区域。
在边缘图重计算单元903重计算边缘图之后,文本图标记单元904将连通区域划分为三种类型“正常文本”、“反转文本”和“背景”并生成标记图。在文本图标记单元904生成的标记图中,将“正常文本”连通区域的前景像素标记为“正常文本”,将“反转文本”连通区域的前景像素标记为“反转文本”,以及将剩余像素标记为“背景”。
文本连通区域搜索和合并单元905搜索文本图标记单元904所生成的标记图上由具有相同标记的像素形成的连通区域(即文本连通区域),并将该连通区域形成文本行。
在根据本发明的从具有复杂背景的文档图像中提取文本的装置中包括的上述边缘图计算单元901、长背景连通区域去除单元902、边缘图重计算单元903、文本图标记单元904、以及文本连通区域搜索和合并单元905所执行的详细处理过程分别与参照图2所描述的步骤1至5中所描述的相同,由此省略其详细描述。
另外,本领域的技术人员应该理解,根据本发明的从具有复杂背景的文档图像中提取文本的装置还应该包括用于输入文档图像的输入单元、以及用于输出根据本发明的上述方法和装置文本被提取后的二值化文本的输出单元。
显然,本领域的普通技术人员还应该理解根据本发明的其它实施例的从具有复杂背景的文档图像中提取文本的装置也可以实施为包括第一边缘提取部件,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索部件,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取部件,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。
在根据本发明的一个优选实施例中,在所述搜索的连通边缘的像素数小于或等于所述预定数目时,第二边缘提取部件确定所述搜索的连通边缘是文本边缘。
此外,在所述搜索的连通边缘的像素数大于所述预定数目时,第二边缘提取部件仅从所述连通边缘中提取具有比第二对比度阈值高的对比度的边缘。
在根据本发明的另一个优选实施例中,在覆盖所述连通边缘的区域的像素数大于所述预定数目时,第二边缘提取部件从所述区域中提取具有比第二对比度阈值高的对比度的边缘。在这种情况下,根据本发明该优选实施例的从具有复杂背景的文档图像中提取文本的装置还包括第二连通边缘搜索部件,用于从所述第二边缘提取部件所提取的边缘中搜索连通边缘;以及第三边缘提取部件,用于在所述搜索的连通边缘的像素数大于所述预定数目时,提取具有比第三对比度阈值高的对比度的边缘;其中所述第三对比度阈值比所述第二对比度阈值大。
根据本发明该实施例的从具有复杂背景的文档图像中提取文本的装置还可以包括边缘分类部件,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除部件,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。
在根据本发明的另一优选实施例中,从具有复杂背景的文档图像中提取文本的装置还包括文本图标记部件,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。该从具有复杂背景的文档图像中提取文本的装置还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的部件。
此外,根据本发明的另一优选实施例,另一种从具有复杂背景的文档图像中提取文本的装置包括调整部件,用于调整对比度阈值;文本区域确定部件,用于根据所述调整的对比度阈值确定文本区域;其中所述调整部件包括目标区域确定部件,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整部件在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定部件确定相应于调整已经结束的对比度阈值的目标区域为文本区域。
具有上述结构的该从具有复杂背景的文档图像中提取文本的装置还可以包括边缘分类部件,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除部件,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。
另外,具有上述结构的从具有复杂背景的文档图像中提取文本的装置还可以包括搜索部件,用于不区分负边缘和正边缘而搜索覆盖由两种类型的边缘构成的连通边缘的区域;局部边缘重计算部件,用于如果不区分负边缘和正边缘所搜索的覆盖由两种类型的边缘构成的连通边缘的区域的像素数大于第二预定阈值,则重计算其像素数大于第二预定阈值的搜索区域局部边缘;以及第二去除部件,用于根据重计算的局部边缘去除复杂背景的干扰。
在上述从具有复杂背景的文档图像中提取文本的装置的一个优选实施例中,局部边缘重计算部件将二值化阈值增加预订值,并且通过使用增加后的二值化预定阈值二值化其像素数大于第二预定阈值的搜索区域周围的梯度块。
在具有上述结构的从具有复杂背景的文档图像中提取文本的装置还可以包括文本图标记部件,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。另外,该从具有复杂背景的文档图像中提取文本的装置还可以包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的部件。
此外,根据本发明的另一优选实施例的从具有复杂背景的文档图像中提取文本的装置还可以实施为包括用于根据边缘分类将文档图像的边缘图中由背景对象或非常靠近的文本形成的长连通区域去除的部件;用于使用边缘连通区域尺寸的反馈重计算已经去除由背景对象或非常靠近的文本形成的长连通区域的文本图像的新边缘图的部件;以及用于根据边缘连通区域分类标记文本图的部件。
根据本发明一个优选实施例的从具有复杂背景的文档图像中提取文本的装置还包括用于通过对文档图像的初始图像执行Sobel运算来计算文档图像的边缘图的部件。
在本发明的一个实施例中,上述用于去除长连通区域的部件根据下式将边缘图中的边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级。如果由相同类型的边缘构成的任何连通区域大于预定阈值,则将其背景连通区域并从边缘图中去除。
最好N等于8并且上述预定阈值等于100。
在本发明的另一个实施例中,用于重计算新边缘图的部件不区分负边缘和正边缘而搜索由两种类型的边缘构成的连通区域。如果不区分负边缘和正边缘所搜索的由两种类型的边缘构成的连通区域大于第二预定阈值,则重计算大于第二预定阈值的所搜索的连通区域的局部边缘图,并且去除重计算的局部边缘图上复杂背景的干扰。优选地,第二预定阈值等于60。
根据本发明的另一个优选实施例,用于标记文本图的部件将边缘连通区域分成三种类型“正常文本”、“反转文本”和“背景”,并且由此生成标记图。其中,将“正常文本”连通区域的前景像素标记为“正常文本”,将“反转文本”连通区域的前景像素标记为“反转文本”,并且将余下的像素标记为“背景”。
根据本发明的从具有复杂背景的文档图像中提取文本的装置还包括用于在标记图上搜索由具有相同标记的像素构成的文本连通区域、并将该文本连通区域形成文本行的部件。
在本发明的从具有复杂背景的文档图像中提取文本的装置的一个优选实施例中,用于搜索和形成文本连通区域的部件d1)在文本图像的边缘图上查找具有相同标记的连通区域;d2)合并交叉的连通区域;d3)将非文本连通区域丢弃;d4)使用近连通区域(close connected component)形成行种子,并且合并其它连通区域为行;d5)使用远连通区域(farconnected component)形成行种子,并且合并余下的连通区域为行;d6)使用相同的连通区域形成行种子,并且合并余下的连通区域为行;以及d7)判断每一个合并的行是否为真正的文本行。
除了上述根据本发明的方法和装置的具体实施方案之外,还应该指出的是,本发明的目的也能够通过在与处理装置通信的任何一种信息处理设备上运行程序或一系列程序来实现。所述信息处理设备及处理装置可以是本领域公知的任何一种通用设备。
因此,应该指出的是,本发明包括通过将实现前述实施例功能的软件程序(与各实施例中的所示流程图相对应的程序)直接或远端提供给一个系统或装置、并且由该系统或装置的计算机读出并执行所提供的程序码来实现本发明的情况。在该情况下,形式并不限于程序,只要可以提供程序功能即可。
因此,安装在计算机中以使用计算机实现本发明的功能处理的程序码本身实现本发明。也就是,本发明包括用于实现本发明的功能处理的计算机程序本身。
在这种情况下,程序的形式不受到特定的限制,并且可以使用目标码、由解释器执行的程序、提供给OS的脚本数据等,只要它们具有程序功能即可。
可以使用例如软盘、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM、DVD(DVD-ROM、DVD-R)等作为用于提供程序的记录介质。
作为另一种程序提供方法,可以在客户计算机上使用浏览器建立与因特网上的给定主页的连接,并且可以将经过压缩且包括自动安装功能的本发明计算机程序本身或文件从该主页下载到记录介质如硬盘等,从而提供程序。另外,形成本发明程序的程序码可以分成多个文件,并且可以从不同主页下载这些文件。也就是,本发明还包括使多个用户下载用于使用计算机实现本发明的功能处理的程序文件的WWW服务器。
另外,存储本发明加密程序的存储介质如CD-ROM等可以交付给用户,已清除预定条件的用户可以允许通过因特网从网页下载对程序解密的密钥信息,并且可以使用该密钥信息执行加密程序以安装在计算机上,从而实现本发明。
前述实施例的功能可以不仅通过由计算机执行读出程序码而且通过根据该程序指令由运行在计算机上的OS等执行的一些或所有实际处理操作来实现。
而且,在从记录介质读出的程序写入在功能扩展板或单元的存储器中之后,前述实施例的功能可以通过安置在功能扩展板或功能扩展单元中的CPU等所执行的一些或所有实际处理来实现,其中,功能扩展板或功能扩展单元插入在计算机中或者连接到计算机。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
权利要求
1.一种从具有复杂背景的文档图像中提取文本的方法,包括步骤第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取步骤,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。
2.根据权利要求
1所述的从具有复杂背景的文档图像中提取文本的方法,其中在所述搜索的连通边缘的像素数小于或等于所述预定数目时,第二边缘提取步骤确定所述搜索的连通边缘是文本边缘。
3.根据权利要求
1所述的从具有复杂背景的文档图像中提取文本的方法,其中在所述搜索的连通边缘的像素数大于所述预定数目时,第二边缘提取步骤仅从所述连通边缘中提取具有比第二对比度阈值高的对比度的边缘。
4.根据权利要求
1所述的从具有复杂背景的文档图像中提取文本的方法,其中在覆盖所述连通边缘的区域的像素数大于所述预定数目时,第二边缘提取步骤从所述区域中提取具有比第二对比度阈值高的对比度的边缘。
5.根据权利要求
2所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤第二连通边缘搜索步骤,用于从所述第二边缘提取步骤所提取的边缘中搜索连通边缘;以及第三边缘提取步骤,用于在所述搜索的连通边缘的像素数大于所述预定数目时,提取具有比第三对比度阈值高的对比度的边缘;其中所述第三对比度阈值比所述第二对比度阈值大。
6.根据权利要求
1所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤边缘分类步骤,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除步骤,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。
7.根据权利要求
1所述的从具有复杂背景的文档图像中提取文本的方法,还包括文本图标记步骤,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。
8.根据权利要求
7所述的从具有复杂背景的文档图像中提取文本的方法,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的步骤。
9.一种从具有复杂背景的文档图像中提取文本的方法,包括步骤调整步骤,用于调整对比度阈值;文本区域确定步骤,用于根据所述调整的对比度阈值确定文本区域;其中所述调整步骤包括目标区域确定步骤,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整步骤在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定步骤确定相应于调整已经结束的对比度阈值的目标区域为文本区域。
10.根据权利要求
9所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤边缘分类步骤,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除步骤,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。
11.根据权利要求
10所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤不区分负边缘和正边缘而搜索覆盖由两种类型的边缘构成的连通边缘的区域;如果不区分负边缘和正边缘所搜索的覆盖由两种类型的边缘构成的连通边缘的区域的像素数大于第二预定阈值,则重计算其像素数大于第二预定阈值的搜索区域局部边缘;以及根据重计算的局部边缘去除复杂背景的干扰。
12.根据权利要求
11所述的从具有复杂背景的文档图像中提取文本的方法,其中重计算局部边缘的步骤包括步骤将二值化阈值增加预订值;以及通过使用增加后的二值化预定阈值二值化其像素数大于第二预定阈值的搜索区域周围的梯度块。
13.根据权利要求
9所述的从具有复杂背景的文档图像中提取文本的方法,还包括文本图标记步骤,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。
14.根据权利要求
13所述的从具有复杂背景的文档图像中提取文本的方法,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的步骤。
15.一种从具有复杂背景的文档图像中提取文本的装置,包括第一边缘提取部件,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索部件,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取部件,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。
16.根据权利要求
15所述的从具有复杂背景的文档图像中提取文本的装置,其中在所述搜索的连通边缘的像素数小于或等于所述预定数目时,第二边缘提取部件确定所述搜索的连通边缘是文本边缘。
17.根据权利要求
15所述的从具有复杂背景的文档图像中提取文本的装置,其中在所述搜索的连通边缘的像素数大于所述预定数目时,第二边缘提取部件仅从所述连通边缘中提取具有比第二对比度阈值高的对比度的边缘。
18.根据权利要求
15所述的从具有复杂背景的文档图像中提取文本的装置,其中在覆盖所述连通边缘的区域的像素数大于所述预定数目时,第二边缘提取部件从所述区域中提取具有比第二对比度阈值高的对比度的边缘。
19.根据权利要求
16所述的从具有复杂背景的文档图像中提取文本的装置,还包括第二连通边缘搜索部件,用于从所述第二边缘提取部件所提取的边缘中搜索连通边缘;以及第三边缘提取部件,用于在所述搜索的连通边缘的像素数大于所述预定数目时,提取具有比第三对比度阈值高的对比度的边缘;其中所述第三对比度阈值比所述第二对比度阈值大。
20.根据权利要求
15所述的从具有复杂背景的文档图像中提取文本的装置,还包括边缘分类部件,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除部件,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。
21.根据权利要求
15所述的从具有复杂背景的文档图像中提取文本的装置,还包括文本图标记部件,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。
22.根据权利要求
21所述的从具有复杂背景的文档图像中提取文本的装置,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的部件。
23.一种从具有复杂背景的文档图像中提取文本的装置,包括调整部件,用于调整对比度阈值;文本区域确定部件,用于根据所述调整的对比度阈值确定文本区域;其中所述调整部件包括目标区域确定部件,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整部件在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定部件确定相应于调整已经结束的对比度阈值的目标区域为文本区域。
24.根据权利要求
23所述的从具有复杂背景的文档图像中提取文本的装置,还包括边缘分类部件,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除部件,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。
25.根据权利要求
24所述的从具有复杂背景的文档图像中提取文本的装置,还包括搜索部件,用于不区分负边缘和正边缘而搜索覆盖由两种类型的边缘构成的连通边缘的区域;局部边缘重计算部件,用于如果不区分负边缘和正边缘所搜索的覆盖由两种类型的边缘构成的连通边缘的区域的像素数大于第二预定阈值,则重计算其像素数大于第二预定阈值的搜索区域局部边缘;以及第二去除部件,用于根据重计算的局部边缘去除复杂背景的干扰。
26.根据权利要求
25所述的从具有复杂背景的文档图像中提取文本的装置,其中局部边缘重计算部件将二值化阈值增加预订值,并且通过使用增加后的二值化预定阈值二值化其像素数大于第二预定阈值的搜索区域周围的梯度块。
27.根据权利要求
23所述的从具有复杂背景的文档图像中提取文本的装置,还包括文本图标记部件,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。
28.根据权利要求
27所述的从具有复杂背景的文档图像中提取文本的装置,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的部件。
29.一种从具有复杂背景的文档图像中提取文本的装置,包括边缘图计算单元(901),用于计算文档图像的边缘图;长背景连通边缘去除单元(902),用于将边缘图计算单元(901)所计算的边缘图中的边缘分成“正边缘”和“负边缘”两类、搜索由相同类型的边缘构成的连通边缘、以及去除比预定阈值长的由相同类型的边缘构成的连通边缘;边缘图重计算单元(903),用于在由相同类型的边缘构成的长连通边缘已经被长背景连通边缘去除单元(902)去除的边缘图中搜索由两类边缘构成的连通边缘、并针对比第二预定阈值长的由两类边缘构成的连通边缘的边界框重计算局部边缘图;文本图标记单元(904),用于将连通边缘划分为三种类型“正常文本”、“反转文本”和“背景”并生成标记图,其中将“正常文本”连通边缘的前景像素标记为“正常文本”,将“反转文本”连通边缘的前景像素标记为“反转文本”,以及将剩余像素标记为“背景”;以及文本连通边缘搜索和合并单元(905),用于搜索文本图标记单元(904)所生成的标记图上由具有相同标记的像素形成的连通边缘并将该连通边缘形成文本行。
30.根据权利要求
29所述的从具有复杂背景的文档图像中提取文本的装置,还包括输入单元,用于输入文档图像;以及输出单元,用于输出文本被提取后的二值化文本。
31.一种计算机程序,当由计算机执行时能够使计算机执行权利要求
1~8所述的各种动作。
32.一种记录在至少一种计算机可读介质中的计算机程序产品,包括当计算机使用时,使计算机执行权利要求
1~8所述的方法步骤的功能性描述素材。
33.一种计算机程序,当由计算机执行时能够使计算机执行权利要求
9~14所述的各种动作。
34.一种记录在至少一种计算机可读介质中的计算机程序产品,包括当计算机使用时,使计算机执行权利要求
9~14所述的方法步骤的功能性描述素材。
专利摘要
本发明公开一种从具有复杂背景的文档图像中提取文本的装置、方法、计算机程序及其存储介质。根据本发明的从具有复杂背景的文档图像中提取文本的优选方法包括步骤第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取步骤,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。
文档编号G06K9/32GK1991865SQ200510135744
公开日2007年7月4日 申请日期2005年12月29日
发明者王艳清, 游亚平, 杜尚锋 申请人:佳能株式会社导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1