图像二值化方法和装置的制作方法

文档序号：6557807阅读：306来源：国知局

专利名称：图像二值化方法和装置的制作方法
技术领域：
本发明涉及图像处理领域，具体来说涉及一种对文档图像进行二值化的图像二值化方法和装置。
背景技术：
文档是当前社会的主要信息载体。文档图像一般由文本、表格、线条以及图片构成，并且由于文档图像的信息本质上是二值信息，因此理想条件下，可以将其用单一的前景和背景来表示，比如用白色表示背景，黑色表示有用信息，即前景。然而，实际应用中，由于打印过程、不均匀的反光、文档本身内容的多样化以及各种丰富的艺术效果，图像通常前景和背景都是变化的。文档图像二值化的目的就是从无用信息中将有用信息分离出来，并将结果表示为一幅二值图像。
图像二值化在诸如文档图像处理、文档管理以及文档的分析和识别等很多应用中是必要的步骤，并且在现有技术中已经提出了各种图像二值化方法。例如，美国专利5,452,107提出了一种根据原始图像局部区域的密度，包括目标像素和周围像素的平均值，来确定二值化阈值的方法。该方法的缺陷是局部只能提供有限的信息。
另外，美国专利6,587,576提出了一种图像分割方法，根据图像的二维直方图对输入文档图像的灰度进行量化。该方法假定图像的背景灰度在直方图中可聚类为一个类别。然而，该假定并不对所有的文档图像都成立。
美国专利6,738,496提出了一种结合局部背景的分割和拉普拉斯边缘增强的二值化方法。只有当当前像素超过两个阈值的时候才将该像素设为“on”。这种方法在大字符、低对比度和反色字的情况下将会失效。
美国专利6,842,541利用颜色信息来辅助二值化过程。不同颜色通道内的多个分割结果最终被结合为一个全局的更好的二值化结果。
另外，请参阅以下文献，以获得相关图像二值化技术的信息N.Otsu，“A threshold selection method from grey-level histograms，”IEEETrans.Syst.，Man，Cybern.，vol.SMC-1，pp.62-66，Jan.1979；和J.Sauvola，M.Pietkinen，“Adaptive document image binarization”，PatternRecognition，Vol.33，pp.225-236，2000。

发明内容
本发明的目的在于针对图像，特别是文档图像的二值化进行改进。
为了实现上述目的，根据本发明的一个方面，提供了一种对文档图像进行二值化的图像二值化方法，其包括以下步骤a)针对所述文档图像的灰度图像数据，计算所述文档图像的图像复杂度，并且根据算出的图像复杂度，将所述文档图像分为简单类别或复杂类别；以及b)当所述文档图像为简单类别时，通过全局分割方法二值化所述灰度图像数据，而当所述文档图像为复杂类别时，通过复合分割方法二值化所述灰度图像数据，从而生成二值化图像数据。
根据本发明的另一方面，提供了一种用于对文档图像进行二值化的图像二值化装置，包括图像分类单元，用于针对所述文档图像的灰度图像数据，计算所述文档图像的图像复杂度，并且根据算出的图像复杂度，将所述文档图像分为简单类别或复杂类别；全局分割单元，用于当所述文档图像为简单类别时，通过全局分割方法二值化所述灰度图像数据，从而生成二值化图像数据；以及复合分割单元，用于当所述文档图像为复杂类别时，通过复合分割方法二值化所述灰度图像数据，从而生成所述二值化图像数据。
在本发明中，首先利用图像的复杂度度量将输入图像分为简单和复杂两种类别。对于简单图像，使用全局化的方法进行分割；对于复杂图像，则结合全局以及局部信息、使用复合分割方法为每个像素确定各自的分割阈值，从而达到更好的图像二值化结果。

通过结合附图对本发明的优选实施例进行详细描述，本发明的上述和其它目的、特性、优点将会变得更加清楚，其中图1示出了根据本发明的图像二值化方法的流程图；图2示出了图1中的预处理步骤的示例性流程图；图3示出了图1中的复合分割步骤的示例性流程图；
图4示出了一个文档图像直方图以及对应的全局分割阈值A、A’、B、C和C’；图5描述了在图1的复合分割步骤中使用的局部自适应分割方法的示例性流程图；图6示出了图1中的后处理单元的示例性流程图；图7给出了一个文档图像的例子以及分别使用全局分割方法和局部自适应分割方法的二值化结果；图8描述了整个图像二值化系统的结构；以及图9示意性地示出了根据本发明的图像二值化装置的方框图。
具体实施例方式
在本文中，全局分割方法是指利用相同的阈值分割整幅图像，而局部自适应分割方法是指对图像中的每个像素确定单独的分割阈值。如果整个图像中的文字以及其他有用信息的灰度都是一致的，则可以使用全局分割方法对整个图像进行分割。然而，由于许多图像中存在不同区域之间的不一致性，单一的分割阈值难以取得好的分割结果。在这种情况下需要使用局部自适应分割方法对不同的像素确定不同的分割阈值。
下面参考附图来详细描述根据本发明的图像二值化方法和图像二值化装置。
参考图1，本发明提出的图像二值化方法的流程图以原始文档10为输入，并且以最终的二值图像16为输出。首先，在可选的预处理步骤11中，完成二值化处理所需的数据准备工作，例如在需要的情况下对文档10进行数字化，如果文档图像为彩色图像，还需将其转换为灰度图像，以及对灰度图像数据进行低通滤波、背景的去除。然后，在图像分类步骤12中，针对灰度图像数据，计算文档图像的图像复杂度例如Otsu判据(OC)和Fisher判据(d’)等，并且根据算出的图像复杂度，将文档图像分为“简单”和“复杂”两种类别，其中“简单”意味着图像基本是由黑色的文字和白色背景构成，否则图像被认为是复杂的。每一类图像使用不同的二值化方法来处理。对于简单图像，在全局分割步骤13中采用全局分割方法(例如，Otsu方法，Kittler方法，基于熵的分割方法，以及任何其它基于直方图的分割方法)进行二值化；另一方面，对于复杂图像，则在复合分割步骤14中使用一种更精细的方法即组合全局分割方法和局部自适应方法的复合分割方法进行处理。最后，在可选的后处理步骤15中，对在步骤13或14中输出的二值图像进行噪声的去除。通常来说有三种噪声相邻字符(笔画)的相连、字符(笔画)的断裂以及单独的噪声点。通过后处理可以去除大量的此类噪声。经过这些处理，文档10中的基本信息被保存在二值图像16中。此二值图像可以用于多种应用，例如字符的颜色检测、文档版面分析，光学字符识别等。具体每个步骤处理的细节将在下文中进行详细的介绍。
参考图2，预处理步骤11完成对文档图像的一系列图像处理操作。由于原始文档10可以是一个电子文档或者是一个物理的纸质文档。对于后一种情况需要使用光学扫描设备，例如扫描仪、传真机，或者是数码相机将物理文档转换为电子文档图像(步骤111)。根据具体使用的扫描设备不同，数字化后的图像可能是彩色的也可能是灰度的。对于彩色图像，需要在步骤112中将其转换为灰度图像以便后续处理。该灰度信息可能是自原始彩色图像的亮度，也可以是某个指定的颜色通道。此外，根据具体的应用环境不同，有时需要在步骤113中使用低通滤波来去除图像中的噪声，以便提高输入图像的质量，然后在步骤114中将输入图像分为固定大小的方块，根据每个方块内图像灰度的变化判断其是否为背景。例如，如果方块内像素的最大和最小灰度值之差小于一个很小的阈值，这意味着该块内的像素灰度非常均匀，则将该块认为是背景并从输入图像中去除。剩下的区域构成的子图像成为二值化操作的目标区域。此方法保证了对分割阈值的更准确估计。这一步中，也可以根据方块内的方差作为背景的判据。显然地，在预处理步骤11中，步骤111、112、113均为可选的。
在图像分类步骤12中，针对文档图像的灰度图像数据，计算文档图像的图像复杂度，其中优选地采用以下两种图像复杂度度量一个是Otsu判据(OC)，另一个是Fisher判据(d’)。下面详细描述计算这两种度量的具体过程。
首先，根据图像的灰度分布确定分割阈值T，其中阈值T优选地由Otsu算法计算得到。但是原则上，它可以用任何全局分割算法获得。
然后，根据阈值T按下面公式(1)和(2)计算Otsu判据和Fisher判据OC=argmaxTP(T)[1-P(T)][mb(T)-mf(T)]P(T)σb2(T)+[1-P(T)]σf2(T)---(1)]]>
d′=mb(T)-mf(T)σ2b(T)+σ2f(T)---(2)]]>其中将图像中灰度小于或等于T的像素子集标记为SetA，将灰度高于T的像素子集标记为SetB，P(T)为给定一个像素属于SetA的概率，mf(T)为SetA中像素的灰度均值，mb(T)为SetB中像素的灰度均值，σf(T)为SetA中像素的标准差，σb(T)为SetB中像素的标准差。
接下来，如果OC大于预设阈值TOC或者d’大于预设阈值Td’，则图像被认为是简单的，否则被认为是复杂的。
如果输入图像被认为是简单图像，在全局分割步骤13中采用全局分割方法对文档图像的灰度图像数据进行二值化，从而得到一个较快的分割速度。这里，步骤13中使用的优选地是步骤12中给出的Otsu分割阈值T，但是根据具体应用可以换为任何其他的全局分割方法。
如果输入图像被认为是复杂图像，则在复合分割步骤14中采用组合全局分割方法和局部自适应分割方法的复合分割方法进行分割，具体地说，首先，采用全局分割方法，将像素分为三种类别黑色(0)、白色(255)和未确定。通常图像中的大部分像素将被划入黑色和白色两种类别，剩下的未确定的像素将用局部自适应分割方法进行分割。由于通常局部自适应分割方法的计算量远大于全局分割方法，因此这种复合分割策略在保证分割质量的同时将大大提高二值化的速度。下面将结合图3的流程图详细描述复合分割步骤14的处理的一个优选实施例。
首先，在步骤140中，从文档图像的灰度图像数据当中选择一个位于图像最大和最小灰度之间的阈值B，然后在最小灰度和B之间选择一个小于B的阈值A，同时在B和最大灰度之间选择一个大于B的阈值C。根据本发明的一个可能实现是重复使用基于直方图的方法如Otsu方法选择A，B，C，其中A≤B≤C。
由于文档图像处理系统常常需要处理扫描的打印文档，此类文档通常会有半调效果。我们注意到半调效果在直方图上通常表现出一种类似高斯的分布。受此启发，在步骤141中调整阈值A和C，确保其落在直方图中相邻的波谷中。图4给出了最后的全局分割阈值的示例，其中调整后的阈值A和C用A’和C’表示。显然地，在复合分割步骤14中，步骤141是优选的，而不是必需的。
在步骤142中，所有灰度小于A’的像素均被标记为黑色(0)，同样灰度大于C’的像素均被标记为白色(255)。
需要指出的是，这里我们并不区分前景和背景(前景指图像中承载信息的部分，例如字符、表格等，背景指用户并不关心其内容的部分)。这提供了我们的方法处理反色字符或表格区域的能力。
所有灰度位于阈值A’和C’之间的像素被认为是未确定像素。由于难以通过分析图像的直方图来确定此类像素的类别属性，因此这里使用了一种局部自适应分割方法。在局部自适应分割步骤143中，通过提取局部信息并结合相邻像素的历史分割阈值信息确定该像素的最优分割阈值。在本发明中，历史分割阈值信息是非常重要的，使用该信息可使二值化的效果得到大幅的提升。
通常说来，根据前景和背景的灰度分布可将文字区域分割正常文字和反色字。在理想情况下，对于正常文字，分割阈值应该大于文字笔画的最高灰度，同时小于背景像素的最小灰度；同样地，对于反色字的最优分割阈值应该小于文字笔画的最低灰度同时高于背景的最大灰度。然而在低对比度同时有噪声出现的情况下上面的规则一般不成立。因此，在自适应分割过程中，以当前像素为中心确定一个局部窗口，局部窗口被分为三种情况正常文字、反色字和低对比度区域，对三种情况采用不同的方法计算阈值作为当前像素的分割阈值。在图5中给出了局部自适应分割处理的流程。首先，在步骤1430中，使用与步骤140相同的方法作用于当前窗口获得三个阈值A1，B1和C1，并且在步骤1431中，计算局部窗口内的均值m和标准差std。然后，在步骤1432中，根据算出的均值m、标准差std和所获得的A1，B1和C1，将该窗口分为上述的三种类别，具体地说，若均值m小于B1，则是反色字；若标准差std小于一个阈值，且当前局部窗口内小于A1和大于C1的像素数目大于另一个阈值，则属于低对比度；其他情况，属于正常文字。最后，在步骤1433中，使用下面的公式计算像素(x，y)的分割阈值T(x，y)T(x，y)＝m*[1-(k1*std+k2*T(x-1，y))/R](3)这里的k1、k2和R根据类别的不同而选用不同的参数。
阈值化过程从全局分割步骤142的结果开始，依次确定每个像素的分割阈值。当前处理的像素成为目标像素。如果目标像素已经是二值的，即已经被前面的步骤给出了标记0或255，则继续处理下面的像素。否则利用公式(3)计算目标像素的阈值。此外，如果当前像素为该行的第一个像素且并非二值的，由于这里并没有历史阈值信息，此时令k2＝0。
在公式(3)中，目标像素的阈值由局部灰度信息以及上一个像素的阈值共同确定，并且其中的参数可以针对具体的应用进行优化。例如，如果二值图像用于OCR应用场合，则参数需要选择来使OCR的字符识别率达到最高。阈值选定后，如果目标像素的灰度值高于阈值，则标记为255，否则标记为0。
然后，下一个像素被选为目标像素并重复上述的过程，直至所有像素均被二值化。
图6给出了可选的后处理步骤15的示例性流程，其中的处理包含若干个循环。是否要继续循环取决于当前循环的结果。该后处理方法可以有效地消除噪声。后处理单元从全局分割步骤13或复合分割步骤14得到的二值化图像开始。在每次循环中，统计在以当前像素为中心的局部窗口内与该像素标记(0或255)相同的像素个数N(步骤151，152)，这里局部窗口大小可以由图像的分辨率决定。如果N小于一个设定的阈值TN，则改变当前像素类别(0变为255或255变为0)(步骤153，154)，其中阈值TN也可以由图像的分辨率决定，另外，阈值TN可以随每次循环而变化。如果在当前循环中改变类别的像素数目足够小，即小于一个设定的阈值TC，这意味着图像中已经没有明显的噪声点，这时循环停止。或者，如果循环的次数超过了指定的数值，同样要将该循环停止以阻止过度的平滑(步骤155)。作为一种可能变形，后处理步骤15中的循环次数也可以是固定的，而与在当前循环中改变类别的像素数目无关。
图7给出了通过复合分割方法进行二值化的一个例子，其中A是原始图像，B是经过步骤142后的结果，其中灰色像素代表未确定类别的像素，而C是后处理后的最终输出的二值化图像。
图8示出了整个二值化系统的结构。单元1是根据本发明的图像二值化模块；单元2是编辑模块，其用于在不同的应用情况下编辑二值化的处理流程和参数；处理器用于完成二值化的计算工作；内存用于存储图像数据和处理的中间数据。
下面参考附图描述根据本发明的图像二值化装置。
图9示意性地示出了根据本发明的图像二值化装置的方框图。如图9所示，根据本发明的图像二值化装置可以包括预处理单元91(可选)、图像分类单元92、全局分割单元93、复合分割单元94、以及后处理单元95(可选)。预处理单元91用于完成二值化处理所需的数据准备工作，例如在需要的情况下对文档90进行数字化，如果文档图像为彩色图像，则需将其转换为灰度图像，以及对灰度图像数据进行低通滤波、背景的去除。图像分类单元92用于针对灰度图像数据，计算文档图像的图像复杂度例如Otsu判据(OC)和Fisher判据(d’)等，并且根据算出的图像复杂度，将文档图像分为“简单”和“复杂”两种类别。全局分割单元93用于当文档图像为简单类别时，通过全局分割方法二值化文档图像的灰度图像数据。复合分割单元94用于当文档图像为复杂类别时，通过复合分割方法二值化文档图像的灰度图像数据。后处理单元95用于对由全局分割单元93或复合分割单元94输出的二值图像进行噪声的去除，以生成最终的二值图像96。
本领域的技术人员知道，本发明的图像二值化装置和方法可以通过仅软件、仅硬件和/或软件与硬件相结合的方式来实现，因此，其实现方式不对本发明的技术范围构成限制。
另外，本发明的方法不限于按照说明书中所描述的时间顺序来执行，也可以按照其它的时间循序，或并行或独立地执行，因此，本发明中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管以上参照具体实施例对本发明进行了详细的描述，但是本领域的技术人员知道，在不脱离本发明的精神和范围的情况下，可以对本发明的实施例做出各种修改、替换和变更。
权利要求
1.一种对文档图像进行二值化的图像二值化方法，包括以下步骤a)针对所述文档图像的灰度图像数据，计算所述文档图像的图像复杂度，并且根据算出的图像复杂度，将所述文档图像分为简单类别或复杂类别；b)当所述文档图像为简单类别时，通过全局分割方法二值化所述灰度图像数据，而当所述文档图像为复杂类别时，通过复合分割方法二值化所述灰度图像数据，从而生成二值化图像数据。
2.根据权利要求1所述的图像二值化方法，其中在步骤a)之前还包括以下步骤对物理文档进行数字化，以获得所述文档图像。
3.根据权利要求1所述的图像二值化方法，其中在步骤a)之前还包括以下步骤如果所述文档图像为彩色图像，则将其转换为灰度图像，以获得所述灰度图像数据。
4.根据权利要求1所述的图像二值化方法，其中在步骤a)之前还包括以下步骤对所述灰度图像数据进行低通滤波，以去除其中的图像噪声。
5.根据权利要求1所述的图像二值化方法，其中在步骤a)之前还包括以下步骤通过将所述灰度图像数据分为固定大小的方块，并且根据每个方块内的图像灰度变化判断其是否为背景，然后对所述灰度图像数据进行图像背景去除。
6.根据权利要求1所述的图像二值化方法，其中步骤a)包括以下步骤根据所述灰度图像数据的灰度分布，确定分割阈值T；根据所述分割阈值T，计算Otsu判据和Fisher判据；如果算出的Otsu判据值大于预设阈值TO，或者算出的Fisher判据值大于预设阈值TD，则所述文档图像被认为属于简单类别，否则认为属于复杂类别。
7.根据权利要求6所述的图像二值化方法，其中所述分割阈值T由基于直方图的全局分割方法得到。
8.根据权利要求1所述的图像二值化方法，其中所述全局分割方法为基于直方图的全局分割方法。
9.根据权利要求1所述的图像二值化方法，其中通过复合分割方法二值化所述灰度图像数据包括以下步骤通过全局分割方法，将所述灰度图像数据中的每个像素分为3类黑色、白色和未确定；通过局部自适应分割方法，为每个属于未确定类别的像素计算最优分割阈值，从而二值化所述像素。
10.根据权利要求9所述的图像二值化方法，其中通过全局分割方法将所述灰度图像数据中的每个像素分为3类包括以下步骤通过基于直方图的方法，在所述灰度图像数据中的最小灰度值和最大灰度值之间确定分割阈值B；通过基于直方图的方法，在所述最小灰度值和所述分割阈值B之间确定分割阈值A；通过基于直方图的方法，在所述分割阈值B和所述最大灰度值之间确定分割阈值C；以及将灰度小于等于所述分割阈值A的像素标记为黑色，将灰度大于所述分割阈值C的像素标记为白色，将灰度位于所述分割阈值A和所述分割阈值C之间的像素标记为未确定；
11.根据权利要求10所述的图像二值化方法，其中在所述灰度图像数据的直方图中，分别在所述分割阈值A和所述分割阈值C的附近寻找波谷，并且将所述分割阈值A和所述分割阈值C分别调整为所述波谷对应的灰度值。
12.根据权利要求9所述的图像二值化方法，其中通过局部自适应分割方法为每个属于未确定类别的像素计算最优分割阈值包括以下步骤根据所述像素的局部特征，将所述像素所属的局部区域进一步分为正常文字、反色字和低对比度区域三类；根据所述局部区域的分类结果、以及所述像素所在行的前一像素的已确定的阈值，计算所述像素的分割阈值。
13.根据权利要求9所述的图像二值化方法，其中通过局部自适应方法为每个属于未确定类别的像素计算最优分割阈值还基于具体应用而不同。
14.根据权利要求1所述的图像二值化方法，其中在步骤b)之后还包括以下步骤c)对所述二值化图像数据进行后处理，以去除其中的噪声。
15.根据权利要求14所述的图像二值化方法，其中对所述二值化图像数据进行后处理包括以下步骤d1)针对所述二值化图像数据中的每个像素，统计所述像素的局部窗口内具有相同标记的像素数目N，如果该数目N小于设定阈值TN，则将所述像素的标记取反，否则不变；d2)重复执行步骤d1)，直至循环次数达到指定的数值或者在当前循环中其标记被改变的像素数小于设定阈值TC。
16.根据权利要求14所述的图像二值化方法，其中对所述二值化图像数据进行后处理包括以下步骤d1)针对所述二值化图像数据中的每个像素，统计所述像素的局部窗口内具有相同标记的像素数目N，如果该数目N小于设定阈值TN，则将所述像素的标记取反，否则不变；d2)重复执行步骤d1)，直至循环次数达到固定的数值。
17.根据权利要求15或16所述的图像二值化方法，其中所述局部窗口和所述设定阈值TN由所述二值化图像数据的图像分辨率决定。
18.一种用于对文档图像进行二值化的图像二值化装置，包括图像分类单元，用于针对所述文档图像的灰度图像数据，计算所述文档图像的图像复杂度，并且根据算出的图像复杂度，将所述文档图像分为简单类别或复杂类别；全局分割单元，用于当所述文档图像为简单类别时，通过全局分割方法二值化所述灰度图像数据，从而生成二值化图像数据；以及复合分割单元，用于当所述文档图像为复杂类别时，通过复合分割方法二值化所述灰度图像数据，从而生成所述二值化图像数据。
19.根据权利要求18所述的图像二值化装置，还包括预处理单元，用于对物理文档进行数字化，以获得所述文档图像。
20.根据权利要求18所述的图像二值化装置，还包括预处理单元，用于如果所述文档图像为彩色图像，则将其转换为灰度图像，以获得所述灰度图像数据。
21.根据权利要求18所述的图像二值化装置，还包括预处理单元，用于对所述灰度图像数据进行低通滤波，以去除其中的图像噪声。
22.根据权利要求18所述的图像二值化装置，还包括预处理单元，用于通过将所述灰度图像数据分为固定大小的方块，并且根据每个方块内的图像灰度变化判断其是否为背景，然后对所述灰度图像数据进行图像背景去除。
23.根据权利要求18所述的图像二值化装置，还包括后处理单元，用于对所述二值化图像数据进行后处理，以去除其中的噪声。
全文摘要
本发明提供了一种用于对文档图像进行二值化的图像二值化方法和装置。该图像二值化方法包括以下步骤a)针对所述文档图像的灰度图像数据，计算所述文档图像的图像复杂度，并且根据算出的图像复杂度，将所述文档图像分为简单类别或复杂类别；以及b)当所述文档图像为简单类别时，通过全局分割方法二值化所述灰度图像数据，而当所述文档图像为复杂类别时，通过复合分割方法二值化所述灰度图像数据，从而生成二值化图像数据。通过该图像二值化方法，可以达到更好的图像二值化结果。
文档编号G06K9/38GK101042735SQ20061006801
公开日2007年9月26日申请日期2006年3月23日优先权日2006年3月23日
发明者郝英, 李滔申请人:株式会社理光

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝英;李滔
技术所有人：株式会社理光
我是此专利的发明人

上一篇：用于执行商业交易的方法和装置的制作方法
上一篇：信息输入设备和图像形成设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。