专利名称:文本鉴别方法和相关装置的制作方法
技术领域:
本发明涉及在电子生成图像内的文本和背景之间进行鉴别并且包括扫描图像中各行以识别文本和背景段的步骤的方法。
电子可视显示装置得到广泛应用,特别是在信息技术领域。例如,对于计算机生成的图像来说,为了使图像适应特殊显示需求而经常有必要处理图像数据。
例如,特别是对于显示固定像素面积的LCD设备,有必要转换由与显示器相关的图形卡传递的输入RGB信号的图像格式。这样的显示器通常采用IC控制器用于适应输入的RGB信号以便完成适当的同步,帧速率转换,颜色/亮度/对比度调整以及,如前面所提到的图像格式转换。例如,当图形卡用于产生一个不同于LCD可视显示装置支持的图像格式时,必须执行某种形式的匹配,通常是图像缩放,用于使信号适应LCD提供的特殊分辨率。详细地说,如假设LCD本身分辨率为1024×768像素,而提供的是相当旧的,可能仅支持标准VGA模式的800×600或640×480像素的图形卡,则可以理解必须将图像从水平640像素缩放到1024像素及从垂直480像素缩放到768像素。这样的缩放通常通过重新采样和滤波输入信号得以实现。这不利地造成将变模糊的部分引入例如文本那样特别引人注意的围绕预期锐边的图像中。
当然理解可以通过采用文本处理专用的图像处理装置避免这样的图像模糊。之后保持所需要的文本图像的清晰度,但是任何这样特殊的文本比例缩放算法将不对其它图像内容起到适当的作用,例如背景或图像中的照片部分,这样可看到这种装置提供一种方案,其中可有利地使用在图像内的文本和背景段间进行精确鉴别的方法。经分离的文本部分和背景图像部分可借助适合的相应比例缩放算法分别得到有利的处理以使经缩放的图像保持原始图像所有适当的清晰度和对比度。
并且,传统的IC控制器会将相同的处理功能应用于整个图像。如此情况下,一个单独的滤波器则必须用来提供在文本/图形的清晰度保持和固有内容区域未经抗混淆(non-antialiased)处理的平滑度间的妥协。更近的IC控制器为锐边和假定的固有部分采用了一种运用低通滤波装置的有区别的处理步骤,而且这样的区别通常建立在局部对比度评价的基础上。然而,后续处理只是包括在两个线性滤波器间的转换而且在试图逐像素地识别文本过程中不引致任何后续处理工作。
US-A-5048096公开了一种方法,该方法用于试图从图像中去除非文本内容以便帮助例如后续的光符识别处理,并且用于利用所谓的游程长度分析,其中检查形成单个行的像素以试图识别各行内形成文本图像部分的那些像素。
然而,这样的装置对于这种方式受到不利的限制,其中它可检测多于一种文本颜色,或者处理发生在图像水平方向的背景反转。此外,对于如此一种已知处理过程而产生的硬件需求可证实这些局限。
本发明的目的在于提供一种改进的文本鉴别方法和与驱动视觉显示装置的视频信号一起使用的装置。本发明由独立权利要求进行定义。从属权利要求定义了有利的实施方案。
根据本发明的一个方面,提供了一种用于电子生成图像的而且包括扫描图像中一行的步骤的文本鉴别方法,其特征在于估计被扫描的图像行中至少一个背景段的步骤,以及分析在至少一个被估测背景段和被估计非背景段之间的差别来确定该被估测非背景段是否形成图像文本部分的一个部分的步骤。
本发明特别有利于降低的硬件资源需求,诸如单一的存储线路及有限数量的计算,同时也有利于实现适合的操作速度和精确度。本发明有利地允许多于一种颜色的文本部分的检测,即使发现在显示的相同区域中的相邻位置中有多于一种颜色的文本部分。产生于每一图像行的水平方向的背景反转也可以以比现有技术有优势的方式进行处理。
在本发明提供的可有利地通过一种合适的算法实现的处理方法内,不仅使在如当前的图像文本的范围和区域内进行识别成为可能,而且更重要的是,可识别形成部分文本段的图像的像素。进而有利的是使以特别有效的方式按比例缩放文本图像成为可能,因为用已被确定的文本像素的实际位置,可应用改进的像素重复过程,它不象已知传统的线性滤波,而是不将灰度级引入所处理的图像,使得原始对比度和清晰度以有利的方式得到保持。
当然应当理解本发明可应用于各种情况下,其中它可证实有利于与背景部分分开地处理图像的文本部分以及,特别是,其中需要某些形式的缩放操作以保持文本图像的清晰度和对比度。
权利要求2,3和4的特征特别证实了有利于在保持只有单一的存储线路的硬件需求的同时保持该方法的精确度。
权利要求5的特征证实了有利于提供特别精确,然而又是简单的方法,该方法确认被确定为非背景段的图像行中的哪些段又可被精确地确定为包括文本段。
权利要求6的特征用于为实现背景鉴别提供特别有益且简单的手段,而且权利要求7的特征可证实特别有益于当分析例如那些照片或图形图像产生的具有高对比度背景区域的图像。
因此应当理解本发明能够提供一种方法,它可以一种算法实现,而且可被用于在像素水平检测例如在计算机生成的图像内发现的文本。这样的检测通过分析在已感觉到的文本段和被估计背景段之间的对比度差异进行的,而其中在逐行基础之上完成的背景估计过程是基于用那些确定为足够一致且足够长以代表背景的当前输入行的部分更新背景估计行缓冲器的。之后例如用监视器定标器(monitorscalers),用不同于其它图像区域的方式,计算机生成的文本图像的光符识别或图像编辑程序的缩放特征等有益地处理文本。
本发明的这些以及其它方面将是显而易见的而且会由以下描述的实施方案的说明所阐明。
以下仅通过实例,参照
本发明,其中图1是其中可应用本发明的IC控制器处理链的方框图;图2是图1的比例缩放引擎(scaling engine)的方框图,而且其中应用了实现本发明的文本检测器;图3是说明在图2所示的这样一个文本检测器内应用的处理的流程图;以及图4A,4B和4C说明在原始VDU图像,被估计背景的VDU图像之间的差异,图像中文本已被检测和移出,检测输出图像包括依据本发明一种实施方案的经检测文本。
首先转到图1,说明了IC控制器处理链10的方框图,该链被安排在图像捕捉设备14处接收,例如YUV或RGB输入视频信号12,并且接下来传递信号至YUV到RGB转换器16。来自RGB转换器16的信号输出被传递到与帧存储器22接口的帧速率转换单元20。之后信号从帧速率转换单元20被传递到经图示说明的实施方案中的比例缩放引擎24,该引擎包括用于依据本发明进行操作的如后面涉及图2的描述的文本检测器。该比例缩放引擎的输出被传递到用于整体亮度/对比度控制的伽马校正单元26。
正如所提到的,在图示实例中的本发明的方法在一种算法中得以实现,它的功能位置在IC控制器10的比例缩放单元24内。这样比例缩放单元24用来提供图像格式转换。
RGB输入信号12以逐行方式传递到IC控制器10,以使每行由在图1中说明的处理链14-26依次进行处理。该链形成处理流水线,其中各部分用于影响或适应图像的特定特征,例如颜色转换,交错扫描(de-interlacing),帧速率转换,图像格式转换和照相校正等。如前面所提到的,格式转换通过比例缩放引擎24有利地实现,而且可在图示的实施方案中看作是一个两步处理,其中图像的文本段和非文本段被分开并且之后两个分开的部分通过相应的比例缩放算法处理来实现对整个图像所要求的处理。
这样的处理通过图2被进一步解释,其中详细显示了图1中的比例缩放引擎24。比例缩放单元24被安排用于接收来自图1中的帧速率转换单元20的输入信号28,之后该信号既被传递到信号分解(splitting)单元30,也被传递到提供实现本发明的算法的功能位置的文本检测单元32。鉴于其操作方式,文本检测单元32在这里称为背景估计行文本检测器32,它也用于驱动信号分解单元30。更清楚地阐述为,背景估计行文本检测器32的输入包括传递自帧速率转换单元20的图像行,并且背景估计行文本检测器32的输出包括一个二进制信号,它代表对于该行的每个像素的文本/非文本判断。背景估计行文本检测器32的输入可包括一个行缓冲器,从该行缓冲器读取数据,并且可通过一具有相同长度的二进制缓冲器(未显示出)形成输出。然而当然应理解可实现由本发明提供的处理以使输出或是一个行缓冲器,其中每个元素的二进制值指示各相应像素的文本/非文本判断,或是一个实际上的位流,它可特别有益的证实,引入预定像素数目的恒定延迟是否有必要。实际上,一个背景段可被识别,并且在从最新的导数阈值转换的最小预定像素数目之后被复制到背景估计行缓冲器,并且背景段逐像素地得以继续,直到如将在以下进一步描述的那样实现下一个导数阈值转换为止。然而,如果将缓冲器引入到图1的处理流水线中,而该缓冲器证实具有比预计最小像素数目更大的长度,则可如所需那样和当所需时实现这样的操作,由此允许在逐像素基础上的延迟判断。然而,在所示的实例中,整个检测行被作为输出计算。
如将在以下进一步描述的涉及实现本发明的特定算法,本发明的一个关键特征涉及被估计的背景段在逐行基础上的连续更新。对于原始图像的每一行,那些足够均匀且宽的部分被识别为被估计背景并被复制到背景估计行缓冲器内的相关位置。之后可通过组合被估计背景行形成最后的图像以给出一个完整的但无文本的图像。对于图像中的每一行,原始图像的亮度与相应位置中的背景估计行的亮度相比较,而且如果亮度差异超出对于各像素的预测阈值,那个特定像素即被标记为文本像素。
如图1和2的方框图中所说明,实现本发明的算法在IC控制器10处理流水线内得到特定应用,而且基于背景估计行文本检测器32内运行的背景估计行算法的输出,输入图像信号在两个分离的信号部分之间被分解。特别参考图2,之后被分开的文本和背景数据在相应的比例缩放单元34(文本),36(背景)中用不同的相应的算法进行处理,而之后这样的已按比例缩放的信号被组合在组合单元38中以给出要被传递到图1中伽马校正单元26的输出信号40。由于分开的文本和背景信号已通过适当相应的算法在比例缩放单元34,36中得以按比例缩放,组合信号40可生成在对比度和清晰度上保持原始图像真实性的按比例缩放后图像。
然而应当理解被估计背景仅应用于检测文本而不为比例缩放引擎提供输入。相反地,可通过补充经检测的文本和从相邻像素外推丢失像素而提取实际背景。
现在转向图3,它说明用于说明一种方式的流程图,其中实现本发明的算法可实现对随后的背景估计行更新所需的背景评估,以及随后的文本检测。
该算法基于使用一行状态寄存器的扫描行分析。图示的实施方案始于文本通常由背景包围的前提,该背景或是均匀(单色)的或是图形/照片性质的。如果在逐行基础上扫描图像,则可以在一行内估计和更新背景区域。之后通过分析相对于被估计背景的对比度差异估计文本。由于文本具有水平方向,所以背景行通常总是先于文本行。在此基础上,很可能当分析文本时当前背景估计保持正确的值。背景估计过程如下进行工作并且涉及到在以下概述的表示算法实施方案的Matlab码。
首先,用作算法的状态寄存器的背景估计行(BEL)用常规值(-1)进行初始化,指示未检测到背景,即bel=-1*ones(1,w)其中w是图像宽度而函数“ones()”生成包括若干一(ones)的行矢量。
第二,对于图像的每一行,执行对那些可归类为背景的段的选择。如前所提到,每一段必须足够宽和均匀并呈现出低亮度变化。这些条件通过分别设置被估计段的长度的阈值(minL),以及每一段的最大导数阈值(maxD)而实现。当长于minL的一个段以绝对值高于maxD的两个导数峰值包围时,被复制到BEL上,由此更新先前的估计。BEL的其余部分将保持先前的值,由此传播最新的有效估测。
在设置maxD阈值中,应当理解一个证实为太高的值可能在背景段中包括一些低对比度文本,而证实太低的值可能因为将照片识别为文本而导致失败。
某些情况下,例如对于抗混淆文本,可能识别两个连续的亮度增强或减弱,例如本底到浅灰和浅灰到深灰,反之亦然。然而,即使这些差异高于maxD它们也不应被解释为一个背景段的开始。因此可施加进一步的条件以避免这样的包含(inclusion)。即,符合条件的那些段被复制到BEL内的相应位置中,而对于背景的其它部分来说将保持先前的有效估计。
对于未被归类为背景的那些段,执行与先前的背景估计的比较。继而被确定为相对于被估计背景呈现出足够的对比度的像素被识别为文本。
为进一步说明实例,现来概述一下表示实现本发明算法的Matlab码。
//最小背景段长度minL=35;
//背景转换的最小导数maxD=60;//D是输入亮度的水平差异矢量,它被填充一个零以使该差异矢量大小与该亮度一致D=([diff(lum(i,))0]);//以下操作用满足被认为是作为背景段的开始或结束的倒数条件的亮度矢量的那些像素标志(index)填充矢量fD。
//这些包括//-与像素相关的导数绝对值必须高于maxD//abs(D)>maxD//-当具有相同的符号时,导数的连续高值被看作背景的一部分。
//在某些情况下,例如对于抗混淆文本,可能发现两个连续和相似的亮度增强或减弱(本底到浅灰和浅灰到深灰,反之亦然)。
//即使这些差异高于maxD,它们也不应被解释为一个背景段的开始。我们因此将这样的导数看作是背景段的有效开始/结束,该导数除足够高外,还具有与之前或之后的导数相比交替的符号//....D./[[D(2:w)D(w)]+0.0001]<0...and...D./[[D(1)D(1:w-1)]+0.0001]<0...
//或者//与之前或之后的导数相比高出许多//....D./[[D(2:w)D(w)]+0.0001]>th_step...
//(所有除法都是逐元素的矢量除法而0.0001是为避免除零)////-矢量fD被填入1(前)和w(后),意味着行的开始和结束必须作为段的端值//[1 find(ab.... ...<0))w];fD=[1 find(abs(D)>maxD & (D./[[D(2:w)D(w)]+0.0001]>th_step|D./[[D(2:w)D(w)]+0.0001]<0) & (D./[[D(1)D(1:w-1)]+0.0001]>th_step|D./[[D(1)D(1:w-1)]+0.0001]<0))w];//以下操作计算导数峰值和随后
//(记住fD是包含导数峰值索引的矢量)之间的距离(像素中)。
DfD=diff(fD);//现在我们可选择长到足以被作为背景段的段。fDfD代表比minL长的段的DfD内的标志。
fDfD=find(DfD>minL);现在转到图4A,说明了一个原始图像如希望的那样按这种正常显示在计算机屏幕上的实例,而图4B说明按照本发明对来自图形卡的信号进行了处理以在文本和非文本部分之间进行鉴别的相同显示。这里该显示表示移除了文本部分的示例。文本部分本身在图4C说明的检测输出图像信号中得到。
应当注意上面提到的实施方案是说明而不是限制本发明,而且本领域的技术人员能够设计许多可供替换的实施方案而不偏离所附权利要求的范围。在权利要求中,任何置于括号之间的参考符号都不应解释为限制权利要求。词“包含”不排除存在列在权利要求中的那些元件和步骤以外的元件和步骤。元件之前的词“一个”不排除存在多个这样的元件。该发明可通过包含几个不同元件的硬件和通过被适当编程的计算机实现。在列举了几种装置的装置的权利要求中,这些装置中的几种可通过同一硬件实现。只不过某些方法在互不相同的从属权利要求中都得到引用的情况并不表明这些方法的组合不能得到有益的应用。
权利要求
1.一种用于图像的文本鉴别方法,该方法包括扫描图像中一行的步骤,其特点在于估计图像行中的至少一个背景段,以及分析至少一个背景段和非背景段之间的差异以确定非背景段是否形成图像的文本部分的一部分。
2.如权利要求1所要求的方法,包括当后续行的背景段被估计时在准备得到更新的存储装置内存储被估计背景段的步骤。
3.如权利要求2所要求的方法,其中背景段在逐行基础上得到估计并且存储装置用当前行输入中的背景估计更新。
4.如权利要求3所要求的方法,包括在未用当前背景行估计值更新的存储单元中保持先前有效的背景估计段的步骤。
5.如权利要求1所要求的方法,其中估计至少一个背景段基于对一行图像中的段的宽度和均匀性的确定。
6.如权利要求5所要求的方法,其中均匀性是由将每一段的导数与阈值相比较而推出的。
7.如权利要求5所要求的方法,包括采用每一背景估计行段的直方图参数化。
8.如权利要求1所要求的方法,包括步骤-在逐行基础上对于一行上的像素确定像素的亮度值和一个邻近像素亮度值的差值;-将该行上的后续像素的序列分类为背景段,如果-在该序列中的像素具有小于最大差值的差值;及-在该序列中的多个像素大于最小长度,-否则将该像素分类为可能的文本。
9.如权利要求8所要求的方法,该方法进一步包括步骤-将分类为可能的文本的像素的亮度值与一个背景段中前一行中对应像素的亮度值相比较;及-如果两个亮度值之间的绝对差值超过最大差值则将一个像素分类为文本。
10.如权利要求1所要求的方法,其中分析被估计背景段和非背景段之间差异的步骤包括分析非背景段相对于被估计背景段的对比度。
11.如权利要求1所要求的方法,其中文本识别信号通过二进制缓冲器输出。
12.如权利要求1所要求的方法,其中文本识别信号通过位流输出。
13.用于在图像内的文本和背景之间进行鉴别,并包括执行权利要求1的方法的装置的装置。
全文摘要
本发明提供一种文本鉴别方法,包括扫描一行电子生成的图像,其特征在于估计被扫描图像行的背景段,以及分析被估计背景段和非背景段之间的差异以确定非背景段是否形成图像的文本部分的一部分。
文档编号G06K9/20GK1613092SQ02801805
公开日2005年5月4日 申请日期2002年5月21日 优先权日2001年5月23日
发明者R·迪弗德里科, P·卡赖 申请人:皇家菲利浦电子有限公司