专利名称:文本增强的制作方法
在IEEE,Proceedings of the international conference onacoustics,speech,and signal processing(ICASSP),NY,1995年第20卷(vol.20)第2395-2398页上,W.W. Cindy Jiang所写的文章“Thresholding and enhancement of text images forcharacter recognition”中,公开了一种用于字符识别、将低空间分辨率的灰色文本图像转换成较高空间分辨率的二值图像的方案。其中使用了一个可变阈值技术及形状滤波。据说,绝大多数光字符识别系统在试图识别之前执行输入的二值化,而且通常假定文本图像是二元的。
在日本的Systems and Computers,1993年第24卷第2期(Vol.24,No.2,)第35-44页中,由S.Ochuchi等人所写的文章“Asegmentation method for composite text/graphics(halftoneand continuous tone photographs)documents”中,公开了当为数字复印机以及传真机处理包含文本、半色调及连续色调相片的混合物的复合文档时,理想地,文本部分能够从图形部分中分离出来,而且能够比多位像素位图表示更有效地表现出来。
现今数字显示设备越来越频繁地是矩阵设备,例如液晶显示器,其中每个像素都映射到该屏幕的一个位置上,该屏幕在光栅数据和显示器点之间具有一一对应关系。这种技术隐含着对一个比例缩放系统的使用,以改变输入视频/图像信号的格式从而使它满足该设备的尺寸,即它的像素数目。该比例缩放块以一个滤波器组为基础,其中当缩放系数改变时该滤波器组执行像素插值。实际上,市场上可用的解决方案在该图形光栅上应用一个一致处理,这会导致一个具有不可避免的人工因素结果。一般低通滤波能够减少象素效应,也称为在对角线上的交替效果,而且能够防止信号由于二次采样而导致失真,但是它们也引入了其它令人讨厌的影响例如使图像变得模糊。它取决于显示信号的内容,与由于不可避免而优先考虑的、察觉到的人工因素及人工因素种类有关。
特别地,本发明的一个目的是提供一种简易的文本增强,用于需要一个比例缩放操作的显示器。为此,本发明提供了如独立权利要求中定义的文本增强。在从属权利要求中定义了有益实施例。
从上述观察开始,这里提供了一种新颖的方法,它能够考虑图像的内容,而且仅仅在需要的地方应用一个特别的后处理。所以,根据本发明,在比例缩放操作之后的文本增强以比例缩放操作之前的文本检测为基础。该处理仅仅在文本区域内有效。这个发明的一个可行应用范围是在LCD设备的情况下,当,而且一般都是这种情况,我们不想影响该显示信号的其它部分时,增强文本可读性。
这里介绍的技术的一个显著特征是它相当低的计算复杂度。这个方面就价格/性能比而言决定了一个高效率。事实上,根据平均用户的感觉,在没有相当大地影响它的成本的情况下,在另一个实现调整矩阵显示设备输入大小所需要的全部数字处理的电路中插入该建议的算法,可能会提高显示质量。
应当注意到,虽然在一个实施例中发生了二值化,但是这个二值化仅仅在已经检测到文本的区域中进行,而在现有技术中,二值化是在字符能够被识别出来之前进行的一个预备步骤。
参考以下描述的这些实施例,本发明的这些及其它方面将会变得明显并得到阐明。
在这些附图中
图1-3说明了一个形状滤波器的操作;以及图4显示了根据本发明的一个系统的框图。
本发明提出了一种文本检测算法的设计,它和一个后处理块一起用于文本增强。可以表明,就内容可读性而言,本发明显著地提高了性能,而且导致整个显示信号的良好感知结果,同时保持整个比例缩放系统的计算复杂度相当的低。
这个文档剩余部分的组织结构如下。首先将简要地概述一般的比例缩放问题以及当前可用的算法。其后将介绍关于通过一个非整数系数进行格式转换的概念。接着将描述该后处理块,其特征为阈值操作和形状滤波,并且将描述它的特征。最后将介绍文本搜索策略,并且将阐明该检测算法以及它与先前介绍的后处理块的协作。
总的框架将图片调整大小为一个不同比例需要格式转换。这个操作涉及公知的、当前用于完成它的再采样理论和经典的滤波过程。滤波避免了频率上的失真问题,为由在原始范围中的采样操作所引入的循环释放空间。在插值滤波器系列当中,通常使用一阶多项式插值器,其中重建的像素是最邻近像素值的一个加权平均值。这种滤波器也被称作有限脉冲响应滤波器。
在标准显示设备内部,格式转换问题通常也面临着线性滤波。一类特别简单的F.I.R.滤波器在两个可用像素之间重建像素,其值位于这两个相邻点的连线上。还存在许多其他可能的技术。例如具有更复杂加权函数的像素再现或者多项式插值。利用这些不同解决方案处理的图象的质量感觉实际上通常是不高的,这里存在不能够完全避免的减损和人工因素。这个考虑隐含着,为了到达一个可接受的或是最好的、令人满意的价格/性能比,应进行一些折衷。
在过去,最简单的解决方案通过使用像素再现解决了该问题。一个最近的解决方案,参见Philips换算器PS6721,仍然运用线性滤波,但是具有一个稍微不同形状的脉冲响应,以提高该变换斜率。
测量阶跃响应的上升时间是一种评估插值器在一个边缘面前性能的经典方法。事实上低通滤波器改变了边沿斜率,并且作为一个模糊效应会察觉到一个平滑斜率。
此外,这个惹人讨厌的人工因素的实际影响取决于被显示信号的种类。实际上在自然图像的情况下,一个模糊效应在某个测量中是可以容许的。
然而就仿真图形来说,只有当其内容需要接近一种逼真效果时(这是虚拟现实和3D游戏的情况),一种稍微光滑的效果是可取的。在这种情况下,滤波被用作一个防失真处理过程。为了同样的理由,这类滤波器被用在文本/字符上以避免象素效应影响,也称为在对角线上的交替影响。插值滤波器也是防失真滤波器,因为它们减少了该输入信号的最高频率。此外,倘若在一个白色背景上有一个黑色文本,由这类滤波器引入的灰度级数值应该是该黑色引文的一个较小百分数。如果不是这种情况的话,我们将具有一个人工效应而不是一个图片增强,而且感知的图像会变得模糊。例如,当双线性插值以及更复杂的滤波如双三次滤波被用在小字符(一般使用的大小为10~12点)及细线条上时,它们看起来会散焦。在所有这些情况中,看起来最好就根本不使用滤波器,至少不使用实际上使用的低通滤波器。
从上述考虑开始,我们能够得出结论因为格式转换需要再取样,所以滤波过程是不可避免的,为解决上述的问题,我们不得不找出其它的解决方案。在文本情况下,一种简单的想法是在该换算器之后应用一个后处理模块,以在发现字符的地方清除所有的灰度级。由于比例变化,这个操作不能仅仅使用一个简单的阈值块来执行。事实上阈值是一个非线性的运算符,当它把灰度级字符转换为二元值时,会引入不均匀的图形,这是值得高度注意的另一个人工因素。形状滤波是一种有趣类型的运算符,它能够把没有规则的图形转变成更有规则的图形。将在下一节中对它们进行介绍。
用一个合理系数进行格式转换在当今的数字显示设备中,图像频繁地用一个像素矩阵表示出来,所以一个固定的图片格式是必需的。当具有一个不同格式的信号到达一个矩阵显示器的输入端时,格式转换是不可避免的。假如一个图形卡产生了该信号,却选择一个不同的图形格式,而不是由该显示器使用的那个,这取决于运行的应用软件的要求。目前仅仅为了显示器的要求而限制图形卡的输出是不明智的。
我们回想一下当今的图形格式标准是VGA,SVGA、XGA、SXGA以及更高的标准。几乎在所有的情况中,在这些光栅尺寸之间的格式转换都需要用一个系数进行重新缩放。这本身会导致该重新取样图片的明显退化。事实上,例如,当我们需要将在显示器输入端的VGA转换成在显示器输出端的XGA时,涉及的系数将是8/5,等于原图尺寸的1.6倍。这个格式转换比将明显需要一个子象素分辨率,但是利用标准的线性滤波技术,没有付出高模糊的代价,这是不允许的。
假定s(i,j)是在输入网格中位置(i,j)上的输入信号,且 为格式转换之后在较厚输出网格中位置 上的信号。假定有一个从VGA到XGA的重新缩放,即一个8/5的系数,则在采样器输入端的每5个像素将会在它的输出端变成8个像素。用一个合理系数进行的重新缩放在概念上依赖于一个中间“超分辨率”网格,它通过使用一个等于分子的缩放系数、在本例中为8来获得。在这种情况下,“超分辨率”网格将会比原来那个厚八倍。在同一条线j的两个位置i与i+1上定位两个输入值,s(i,j)和s(i+1,j),在该超分辨率网格中,插入值 将位于两个原始值中间,即位于该网格上可用的八个可能位置中的一个。我们用下列等式表示这个情况 k∈
其中,对于线性插值器来说 k是密集网格中像素的位置,该位置也被称作滤波器段。在一个线性滤波中,δ∝k,而且δ是在被插入像素和原来两个相邻点之间的距离。在输出网格上将会获得其值定位在一个变薄5倍的网格上的信号。在该输出端的子采样信号可以用下式来表示s*(i+5·k8,j)=w1·s^(i+k-5,j)k-∈[0···7]]]>因为输出网格不是该输入网格的倍数,因此通常原始像素值将会丢失,而且它们将根据我们上面所述由一个平均值代替。如果该输入图形是一个黑白文本,则它的像素将经常被它们值的加权平均值、一个灰度等级所取代。
经由阈值化处理的文本增强位于该比例缩放滤波器输出端的一个阈值运算符将恢复一个黑白图形,或者通常为一个双色图形,根据以下关系选择该阈值最近值 其中lk是黑色等级而lw是白色等级。
我们可以注意到在黑/白以及双色图形的情况下,如果根据实际的滤波器段设置lk和lw,该阈值函数就能够被包含到滤波运算符中。这样,阈值运算依据它们的新位置从插入点中恢复原来的双色等级。在引入的灰度等级数值太高的区域中,这个简单的运算符能够改善对陡沿的感知。不管怎样,这是以引入不规则图形为代价的。在下一节中我们将看到怎样能够解决这个问题。
形状滤波算法引入数学形状学来解决文本模糊的问题,起因于一个形状滤波器能够消除灰度等级而不破坏字符规则性的事实,其中该形状滤波器即可做为一个检波器又可做为一个非线性运算符。此外,在双色图形的情况中,在需要的地方能够恢复一个指定的规则性。
一般说来,该检波器,也称为结构化单元,是一个小矩阵(通常2×2或者3×3);它能够识别在该数据上的一个特殊图形,在我们的情况下就是在显示器输出端的栅格图像像素,而且能够利用一组不同的请求值来取代那个图形。假定在该阈值块之后在一个二级图形上使用该形状滤波器,该结构化单元将做为在基础数据上的一个二元掩码,用于在运行矩阵的位和扫描数据的位之间执行一组逻辑操作。等于1的一个输出将表示一个指定图形已经被识别出来了。
一个属于形状滤波器系列的特定运算符,也称为“对角线”滤波,在数据上应用以下的逻辑操作组Y=X4∪(P1∪P2∪P3∪P4)P1=(X4c∩X7∩X6c∩X3)]]>P2=(X4c∩X3∩X0c∩X1)]]>P3=(X4c∩X1∩X2c∩X5)]]>P4=(X4c∩X5∩X8c∩X7)]]>这里,X0……X8是当前由该结构化单元分析的一组数据;此外在二进制数据的情况下,∪是经典的逻辑或运算符,而∩是经典的逻辑与运算符。如图1所示,该结构化单元在它的框架中排序该数据。
在上面介绍的这组逻辑操作之后的输出值,y,将替换该数据矩阵起源处的先前值,在该图中为X4。能够注意到如果P1∪P2∪P3∪P4的结果是0,则X4保持不变,相反,如果结果是1,则X4总是由1替代。
仔细观察,很明显逻辑操作中的这组P1、P2、P3、P4对应于图2中所示图形的检测。在二元图像的情况下,图2所示的图形是黑白像素的对角线图形。根据上述关系,当这些结构中的一个被发现时,在图中由一个圆圈标识出在检测区域的起源处,0值用1代替。这个操作,就图形效果而言,会填充在对角线结构中的缺口。
我们能够注意到不使用逻辑运算符,而利用由该结构化单元中的位结构编址的一个LUT就能够进行同样的操作。假定依据上述图形将该单元的单元格排序,这个结构具有如下地址LUTaddress=X8X7X6X5X4X3X2X1X0其中每个Xi根据在该矩阵第i位置的值,相应地等于1或者0。为了填充缺口,在位置XXX10X01X、01X10XXXX、X10X01XXX、XXXX01X10的LUT将被设置为1,在所有其它位置,它将被设置为0。这里不用管X的意思。
从一个概念观点上看,由于该“对角线”结构化单元的缺口填充功能,如上所述,在一个3×3结构单元上的操作组,等同于在一个2×2矩阵中用一个统一块改变一个任何导向的对角线图形。这个概念在图3中阐明了。
系统实施例的框4显示了整个系统的一个框图,其中概述了用于检波器和后处理块的结构的主要原理。将一个输入图像InIm s提供给一个检索窗口部分SW和文本检波器部分Del进行处理。如果在某些区域内可能会被文本检波器部分Del修改的输入图像InIm s被文本检波器部分Det识别为文本,则将其提供给一个换算器Scal、诸如市场上可买到的换算器PS6721进行处理。来自换算器Scal的按比例缩放图像被提供给一个后处理部分Post-proc进行处理,由它产生输出图象OutIm s*。
检索窗口和文本检波器该检索窗口和文本检波器是一个关键的运算符。事实上它取决于该输入信号是否将被二值化及进一步处理,或者是简单地用该线性换算器进行滤波。根据先前所述,检测特别适用于识别文本图形。当施加在检波器上的要求限制没有得到满足时,该信号最终不能从这个更进一步的处理阶段中得到好处。检测利用一个局部传感器执行,该传感器识别在一个小区域中的颜色数量。所以,在原则上它做为一个检索窗口工作,扫描该栅格图象以发现文本区域。
为了满足低存储器成本来设计它,使用了一个固定垂直宽度,其等于在原始信号域上的3行。相反,它的水平深度根据图像特征进行改变,而且它基于使用在文本属性上的某些直观假定定义的一个简单增长条件。当前在图形文本上的假定如下所示1.文本区域是一个双色区域,其中文本是一种颜色而另一种颜色是背景。
2.在一个文本区域中,文本颜色比背景颜色感觉上要少很多。
3.文本区域具有一个合理的水平扩充。
这些假定决定了检波器在图形上识别到文本区域的约束条件。就象我们能够看到的那样,既不是滤波的文本又不是非均匀的背景被识别为文本区域。这是一个合理的假定,因为在这些情况中的阈值运算符将引入的人工因素比好处要多。此外,两种颜色的非均衡百分比防止了该检波器将具有可能危险图形的两色区域识别为文本。一个例子是经常出现的国际象棋图形,例如在窗口文件夹背景中。最后,第三个条件防止了将该光栅信号的小双色碎片识别为文本区域,该碎片也许可能是边界或者图形对象的其他小块。
上面介绍的条件用于定义某些参数以调整检波器的特性,从而使它能够达到最佳性能。让我们考虑上述在位置(r,c)的输入光栅信号s(r,c)。检索窗口用q(r,c)表示,其中(r,c)是该块的起源坐标,其标识在图像中它的参考像素;标识该检索窗口中一个单元的相对坐标,参考该块起源,而且用(i,j)表示。此外,检波器的高度和宽度将用h和w表示。其中w是一个可变参数,相反h是固定的,以满足行存储器的约束条件,而且当前它的值h=h=3。
假定Nc是在该检索窗口中检测到的颜色数目。依据先前描述的块增长,宽度w将按照这个搜索策略增加 Nc>2是来自该增长搜索策略的退出条件。当该退出条件被验证时,系统将返回最后的块宽度w。
和该块增长过程一起,在每个新的步骤k,两个颜色计算器将会增加值。能够注意到一个步骤k相当于在水平方向对一个新输入象素的计算。称r1为具有颜色c1的像素数目,以及r2为具有颜色c2的像素数目,根据相应的块增长步骤以下列方式增加这些计数器值 以及 τ=3w(k+1)+h是在该检索窗口中的一个新计数步骤,使用在项k处的增长窗口计算一个新像素。
最后让我们引入最后的参数ξ,其表示在两种颜色计数器之间的比值,依据以下关系,就可以识别出背景 一旦从检索策略中退出该算法,该检测窗口就可以用来识别它的内容。
如上所述,必须满足使得一个区域被识别为文本的第一个条件,就是该块具有一个合理的扩展。设定ε=minw就像素而言,是允许一个区域被识别为文本区域的最小值。一个文本区域要满足的条件将是w≥ε参数ε的当前值固定为ε=300。
由于ξ是背景和文本颜色之间的比值,使得该块被识别为一个文本区域必须满足的第二个条件将是ξ≥ξ其中,ξ是一个可修改的参数,实际上固定为ξ=1.2。换句话说如果ξ<ξ q[·]不是一个文本窗口当上述条件中的一个不被满足时,该块将当作不是一个文本块而丢弃。新的检索窗口将是q(r,c+w),而且它将从原始图象中的位置(r,c+w)开始,或者是如果在前一个步骤中到达了行的末尾,就从位置(r+3,c)开始。
按照这个策略,整个图像将被该检索窗口扫描而且将检测出文本区域。
当检测到文本时,将应用先前描述的后处理操作。
回到图4,基于不同颜色的数目是否不超过2(Nc≤2),一个输入图像首先进行一个块增长处理BlGr,这是文本存在的第一个指示。一旦颜色数目超过2,就停止该块增长过程BlGr,然后确定另一个参数Outpar,它表示上面列出的用于文本的三个条件。根据这些参数Outpar,来确定是否存在一个文本区域(Txt reg )。如果是这样的话,背景颜色Cbackground被设置为白色,而且文本颜色Ctext被设置为黑色。
这儿产生的图像进行一个比例缩放操作SCAL。
在该比例缩放操作SCAL之后,该文本区域进行一个阈值化操作(阈值θ),其输出用一个形状滤波器(Morph. Filt.)进行处理。因此,将白色设回背景颜色Cbackground,以及黑色设回文本颜色Ctext,这个操作的结果形成了显示在一个矩阵显示器D上的输出图象OutIms。
本发明的一个主要方面能够概述如下。这里提出了一种新颖的技术,它能够考虑图像的内容而且仅仅在需要的地方应用一个专门的换算器后处理。这个发明的一个可行应用范围是在LCD设备情况中,当,而且一般都是这种情况,我们不想要影响该显示信号的其它部分时,增强文本的可读性。除此之外,本发明的一个目的是提供一个专门的简单文本检测器。本发明提出了用于文本增强的一个文本检测算法设计,以及一个后处理块。本发明在保持整个比例缩放系统相当低的计算复杂度的同时,就内容可读性而言,显著地提高了性能,同时导致整个显示信号良好的感知效果。本发明最好应用在LCD换算器IC中。
必须注意到以上描述的实施例仅仅用于说明而不是限制本发明,而且本领域技术技术人员将能够设计出许多替换的实施例而没有背离附加权利要求书的范围。在这些权利要求中,放置在括号内的任何标记符号将不会被看作是限制该权利要求。词“包含”没有排除除了列在一个权利要求内的元素或者步骤外,还存在有其它元素或者步骤。在一个元件之前的词“一个”并没有排除多个这样元件的存在。本发明能够利用包含几个单独元件的硬件来现实,也可以利用一个合适的程序控制计算机来实现。在枚举了几个装置的一个设备权利要求中,这些装置的某几个能够被包含在硬件的同一个部分中。仅有的事实是在互相独立的权利要求中列举的某些措施并不表示这些措施的组合不能够获得更多优点。
参考文献1.1991年J.Wiley & Sons出版的“数字图像处理”中,由W.K.Pratt所著的“CAP 15形态学的图像处理”。
2.1989年Prentice-Hal International Inc.出版,A.V.Oppenheim R.W. Schafer所著的“离散的-时间信号处理”。
3.1990年Masson,Milano出版,P.Zamperoni所著的“Metodidell’elaborazione digitate di immagini”。
4.1990年Comput. Vision Graphics Image Process. 50,245-295页上,H.J.A.M. Heijmans,C. Ronse所著的“数学形态学I.扩展和腐蚀的代数基础”。
5.1991年的CVGIPImage Understanding,Vol. 54,No.l,74-97页上,H.J.A.M. Heijmans,C. Ronse所著的“数学形态学II.打开和关闭的代数基础”。
6.1992年SPIE Optical Engineering Press上,E.R. Dougherty所著的“形态学图像处理”。
7.1987年7月IEEE Trans. Pattern Anal. Machine Intell.,vol.PAMI-9,No.4,532-550页上,S.R.Sternberg,R.M.Haralick,X.Zhuang所著的“使用数学形态学的图像分析”。
权利要求
1.一种文本增强的方法,包含如下步骤在一幅图像中检测(SW,Det)文本;将该图像进行比例缩放(Scal),以把该图像的像素/行和行/图像的第一个数值调整为像素/行和行/图像的第二个数值,该第二个数值适合于在其上显示该图像的一个显示器(D);以及取决于文本检测步骤的结果,处理(Post-proc)该图像。
2.如权利要求1所述的方法,其特征在于该检测步骤(SW,Det)包含设置背景颜色(Cbackground)为白色,文本颜色(Ctext)为黑色的步骤;以及该处理步骤(Post-proc)包含将白色设回背景颜色(Cbackground)以及黑色设回文本颜色(Ctext)的步骤。
3.如权利要求1所述的方法,其特征在于该检测步骤(SW,Del)包含确定文本颜色是否显得少于背景颜色的步骤。
4.如权利要求1所述的方法,其特征在于该检测步骤(SW,Det)包含确定(BlGr)一个保持颜色数目不超过2的区域的步骤。
5.如权利要求1所述的方法,其特征在于该处理步骤(Post-proc)包含对一个比例缩放的图像进行一个阈值化操作的步骤。
6.如权利要求1所述的方法,其特征在于该处理步骤(Post-proc)包含对一个比例缩放的图像进行一个形状滤波的步骤。
7.一个用于文本增强的设备,该设备包含用于在一个图像中检测(SW,Det)文本的装置;用于将该图像进行比例缩放(Scal)的装置,以把该图像的像素/行和行/图像的第一个数值调整为像素/行和行/图像的第二个数值,其中该第二个数据适合于将在其上显示该图像的一个显示器(D);以及用于依据该文本检测装置的结果处理(Post-proc)该图像的装置。
8.一个显示装置,包含如权利要求7所述用于文本增强的一个设备;以及一个显示器(D)。
全文摘要
在一种文本增强的方法中,在一幅图像检测(SW,Det)到文本,该图像进行比例缩放(Scal),以将该图像的像素/行和行/图像的第一个数值调整到像素/行和行/图像的第二个数值,其中该第二个数值适合于一个在其上显示该图像的显示器(D),而且取决于文本检测的结果对图像进行处理(Post-proc)。
文档编号G09G5/36GK1351735SQ00807661
公开日2002年5月29日 申请日期2000年12月22日 优先权日2000年1月17日
发明者P·卡赖, P·瓦勒, A·萨蒂, S·图巴罗 申请人:皇家菲利浦电子有限公司