检测文本图像中的文本行的方法和装置与流程

文档序号:13805192阅读:152来源:国知局
检测文本图像中的文本行的方法和装置与流程

本发明涉及图像处理技术,尤其涉及一种检测文本图像中的文本行的方法和装置。



背景技术:

文本图像可以以电子形式存储于各种介质,网络等,成本低廉,从而在人们的日常生活中得到了广泛的应用。文本行检测对于理解文本图像中内容起着非常重要的作用。然而,文本行总是包含不同种类的语言、不同颜色和不同关系,使得文本行检测变得更困难。



技术实现要素:

鉴于此,本发明提出了一种新的检测文本图像中的文本行的方法和装置。

根据本发明的一方面,提供了一种检测文本图像中的文本行的方法,包括:对文本图像执行二值化处理,并提取连通域;在具有相似尺寸的相邻的连通域之间建立链接,以形成交织的多条链路;基于第一权重来对所述多条链路的链接进行裁剪,以得到主体链路;基于第一权重从所述主体链路中搜索最大权重和链路,该最大权重和链路中的各个链接的第一权重的总和大于其他链路中的各个链接的第一权重的总和;将满足以下条件的与被裁剪掉的链接相关联的连通域融合到所述最大权重和链路中以得到融合链路,所述条件为:执行所述融合后的融合链路中的各个链接的第二权重的总和小于融合前的最大权重和链路中的各个链接的第二权重的总和;以及基于融合链路来获取文本行。

根据本发明的另一方面,提供了一种检测文本图像中的文本行的装置,包括:连通域提取部件,用于对文本图像执行二值化处理,并提取连通域;链接建立部件,用于在具有相似尺寸的相邻的连通域之间建立链接以形成交织的多条链路;裁剪部件,用于基于第一权重来对所述多条链路的链接进行裁剪以得到主体链路;搜索部件,用于基于第一权重从所述主体链路中搜索最大权重和链路,该最大权重和链路中的各个链接的第一权重的总和大于其他链路中的各个链接的第一权重的总和;融合部件,用于将满足以下条件的与被裁剪掉的链接相关联的连通域融合到所述最大权重和链路中以得到融合链路,所述条件为:执行所述融合后的融合链路中的各个链接的第二权重的总和小于融合前的最大权重和链路中的各个链接的第二权重的总和;文本行获取部件,用于基于融合链路来获取文本行。

根据本发明的再一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

根据本发明的又一方面,还提供了一种程序。所述程序包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。

通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。

附图说明

参照附图来阅读本发明的各实施方式,将更容易理解本发明的其它特征和优点,在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:

图1示出了根据本发明的实施例的检测文本图像中的文本行的方法的流程图;

图2示出了根据本发明的实施例的检测文本图像中的文本行的方法所得到的文本行的示意图;

图3至图6示出了将根据本发明的一个实施例的检测文本图像中的文本行的方法应用于示例性文本图像应用的过程的示意图;

图7示出了根据本发明的实施例的检测文本图像中的文本行的装置的结构框图;以及

图8示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。

具体实施方式

现参照附图对本发明的实施方式进行详细描述。应注意,以下描述仅仅是示例性的,而并不旨在限制本发明。此外,在以下描述中,将采用相同的附图标号表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征,可彼此结合,以形成本发明范围内的其他实施方式。

图1示出了根据本发明的实施例的检测文本图像中的文本行的方法100的流程图。如图1所示,该方法100包括步骤s110至s180,其中步骤s130和s180不是实现方法100所必须的,但却是优选的。

在步骤s110中,对文本图像进行二值化处理,并提取图像的各个连通域。二值化处理为图像预处理中的常用技术,其目的是将图像的文字前景区域与背景区域相分离。经过二值化处理的图像成为由0和1组成的二值图。对图像进行二值化处理后,可以获取潜在的文字区域。此处,连通域是指文本图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。

然后,在步骤s120中,在具有相似尺寸的相邻连通域之间建立链接,从而形成交织的多条链路。在本文,将所形成的多条链路视为多叉树结构,即各个连通域构成多叉树中的节点,连通域之间的链接构成多叉树的节点之间的分支。为了更形象的描述多条链路,在下文中多条链路也被称为树状链路,其由根连通域和若干颗子树构成。

这里,根据步骤s120所得到的树状链路可能包括闭环链路和如图3所示的非文字连通域。为了提高文本行提取的精确度,优选地,根据本发明的检测文本图像中的文本行的方法还可以包括步骤s130,其对树状链路中的链接进行优化以排除闭环链接,从而得到优化的树状链路。

具体地,首先剪掉树状链路中权重大于预定阈值的链接。本领域技术人员可以根据实际应用或经验来设定该预定阈值。此处的权重为依赖于建立链接的两个连通域之间的距离的第二权重,例如该第二权重可以设定为相邻的连通域之间的距离。然后,对所得到的链路应用最小生成树算法,以得到没有闭环链路的优化的树状链路。

接着,在步骤s140,基于第一权重来对树状链路中的链接进行裁剪,以得到主体链路。具体地,可以先对树状链路中的第一权重进行排序,然后使用贪心算法每次裁剪掉权重最小的链接,直至树状链路的总层数发生变化时,停止算法,由此得到树状链路的主体。

此处,第一权重根据建立链接的两个相邻连通域之间的距离和它们的尺寸来计算,例如,可以根据以下表达式来计算:

对于竖直方向上的链接:

wij=hi÷hj×d(cci,ccj),其中hi<hj……(1)

其中,wij表示相邻的两个连通域cci和连通域ccj之间的链接的权重,hi表示连通域cci的高度,hj表示连通域ccj的高度,并且d(cci,ccj)表示连通域cci和连通域ccj之间的距离。

对于水平方向上的链接:

wij=wi÷wj×d(cci,ccj),其中wi<wj……(2)

其中,wij表示连通域cci和连通域ccj之间的链接的权重,wi表示连通域cci的宽度,wj表示连通域ccj的宽度,并且d(cci,ccj)表示连通域cci和连通域ccj之间的距离。

注意,链接的第一权重与连通域cci和连通域ccj的顺序无关,即wij=wji。在以上表达式(1)和(2)中,设定条件hi<hj和wi<wj是为了排除连通域cci和连通域ccj的计算顺序对权重的影响。可替代地,也可以设定成hi>hj和wi>wj。

链接的方向可以根据以下来判定:如果与某个链接关联的两个连通域在水平方向上的投影没有重叠而在竖直方向上的投影有重叠,则为水平方向;反之,如果与某个链接关联的两个连通域在竖直方向上的投影没有重叠而在水平方向上的投影有重叠,则为竖直方向。

接着,在步骤s150中,基于第一权重从主体链路中搜索最大权重和链路,其中该最大权重和链路中的各个链接的第一权重总和大于其他链路中的各个链接的第一权重总和。

具体地,在本发明中,利用以下递归算法来搜索最大权重和链路。从根连通域r出发的最大权重和链路的权重值val可以表示为:

val=max(val(ri)+wr-ri),i∈t……(3)

其中ri是根连通域r的t个子连通域中的一个;wr-ri表示根连通域r和子连通域ri之间的链接的权重;以及val(ri)可以表示为:

val(ri)=max(val(rit)+wri-rit),rit∈n……(4)

其中rit是连通域ri的n个子连通域中的一个;wri-rit表示在连通域ri和子连通域rit之间的链接的权重;以及val(rit)可以类似表达式(3)和(4)那样进行递归运算,并最终得到最大权重和链路。

接着,在步骤s160,将满足特定条件的与被裁剪掉的链接相关联的连通域融合到所述最大权重和链路中以得到融合链路,所述特定条件为:执行所述融合后的融合链路中的各个链接的第二权重总和小于融合前的最大权重和链路中的各个链接的第二权重总和。其中,第二权重基于建立链接的两个相邻连通域之间的距离来计算,例如,可以将该两个连通域之间的距离设定为该链接的权重。

优选地,将与被裁剪掉的链接相关联的连通域融合到最大权重和链路中的最近的连通域中。并且,在计算融合链路的各个链接的第二权重的总和时,先更新融合链路的链接,然后计算各个链接的第二权重,进而求出第二权重总和。

具体地,在该步骤s160中,假设与步骤s140中所裁剪掉的某个链接相关联的连通域被融合到最大权重和链路内的最近的连通域中,从而与该最近的连通域合并成一个新的连通域。接着,更新如此融合后的融合链路的链接,并计算各个链接的权重,以求出融合链路的权重总和。如果融合后的权重总和小于融合前的权重总和,则判定融合该连通域,否则不融合该连通域。在判定融合该连通域的情形下,将该连通域融合到最大权重和链路中,并且更新链接。

接下来,在步骤s170中,基于融合链路来获取文本行。

在步骤s170中得到的文本行可能包括如图2所示的不连贯的连通域,即在图2中,文字部分“东京”与数字部分“tel.0265-83-2324”不连贯。为了去除这类不连贯的连通域,优选地,根据本发明的检测文本图像中的文本行的方法100还可以包括对文本行进行过滤以去除不连贯的连通域的步骤s180。

具体地,可以对文本行中的各个连通域顺序进行编号,将图2中的各个连通域即“东”、“京”、“t”、“e”、“l”、“.”、“0”、“2”……“4”顺次编号为1、2、3、4、5、6……18。然后,计算各个连通域相对于参考位置的距离。该参考位置可以任意选定,例如文本行的左边界或右边界等。接着,针对每一连通域来计算该连通域的编号与该连通域相对于参考位置的距离之间的比率r,即:

r=连通域的编号/连通域相对于参考位置的距离……(5)

并且,将所计算的各个比率r与预定范围相比较,如果超出该预定范围,则过滤掉与该比率r对应的连通域。本领域技术人员可以根据实际应用或凭经验来设定该预定范围。

以上结合图1详细描述了根据本发明的实施例的检测文本图像中的文本行的方法流程。下面,以图3至图6中的文本图像为例,对检测文本行的方法100进行具体说明。

首先,在步骤s110中进行二值化处理,并且提取连通域然后,在步骤s120中,在具有相似尺寸的相邻的连通域之间建立链接,形成图3中所示的树状链路。接着,在步骤s130中,对该树状链路进行优化,去除权重较大的链接,即连通域之间的链接,得到如图4所示的优化的树状链路。在步骤s140中,对该优化的树状链路进行裁剪,得到如图5所示的主体链路,其中连通域与主体链路之间的链接被剪断,从而该连通域被从主体链路中删除。在经过上述操作之后,示例性文本图像仅得到一个主体链路,在该情形下,可以省略对最大权重和链路进行搜索的步骤s150,因为该主体链路即为最大权重和链路。接下来,在步骤s160中,首先判定是否进行融合。先假设连通域与主体链路融合,进而将连通域与连通域融合一个新的连通域然后,计算融合后的链路(如图6所示)的第二权重总和,包括:更新连通域与相邻连通域之间的链接,基于更新后的链接来计算融合链路的第二权重总和。接着,比较融合前的链路(如图5所示)和融合后的链路,显然融合后的链路具有更小权重总和,因融合后的连通域与相邻连通域之间的距离更短,进而与相邻连通域之间的链接的权重更小。根据该比较,可以判定将连通域与主体链路融合。由此,执行融合并且更新相关链接。最后,基于融合链路得到文本行。所得到的文本行中没有不连贯的连通域,因此省略过滤不连贯的连通域的步骤s180。

根据本发明的检测文本图像中的文本行的方法,利用二值化处理来提取图像的连通域。然而,在通过二值化处理得到的连通域中,既可能存在由单个文字或文字中的笔画构成的连通域,也可能存在与文字无关的非文字连通域。因此,优选地,在执行步骤s120之前,可以利用本领域熟知的图像滤波方法来滤掉非文字连通域。

以上结合附图对根据本发明的实施例的检测文本图像中的文本行的方法进行了详细描述。下面将结合附图对根据本发明的实施例的检测文本图像中的文本行的装置进行描述。图7示出了根据本发明的实施例的检测文本图像中的文本行的装置的结构框图。

如图7所示,检测文本图像中的文本行的装置700包括连通域提取部件710、链接建立部件720、裁剪部件740、搜索部件750、融合部件760和文本行获取部件770。

连通域提取部件710用于对文本图像进行二值化处理,并提取图像的各个连通域。

链接建立部件720,在具有相似尺寸的相邻连通域之间建立链接,从而形成交织的多条链路。在此,将所形成的多条链路视为多叉树结构,因而亦称为树状链路。优选地,链接建立部件720在相邻的连通域之间建立链接以形成交织的多条链路之前,可以利用本领域熟知的图像滤波方法来滤掉非文字连通域。

裁剪部件740基于第一权重来对树状链路中链接进行裁剪,以得到主体链路。具体地,裁剪部件可以先对链路中的第一权重进行排序,然后使用贪心算法每次裁剪掉权重最小的链接,直至树状链路的总层数发生变化时,停止算法,由此得到树状链路的主体。

搜索部件750基于第一权重从主体链路中搜索最大权重和链路。其中该最大权重和链路中的各个链接的第一权重总和大于其他链路中的各个链接的第一权重总和。具体地,搜索部件750根据表达式(3)和(4)来递归地搜索最大权重和链路。

融合部件760将满足特定条件的与被裁剪掉的链接相关联的连通域融合到所述最大权重和链路中以得到融合链路,所述特定条件为:执行所述融合后的融合链路中的各个链接的第二权重总和小于融合前的最大权重和链路中的各个链接的第二权重总和。其中,在计算融合链路的各个链接的第二权重的总和时,先更新融合链路的链接,然后计算各个链接的第二权重,进而求出第二权重总和。

文本行获取部件770基于融合链路来获取文本行。

优选地,根据本发明的检测文本图像中的文本行的装置700还可以包括链路优化部件730,其在对树状链路的链接进行裁剪以得到主体链路之前,对树状链路中的链接进行优化以排除闭环链接,得到优化的树状链路。具体地,链路优化部件730首先剪掉树状链路中第二权重大于预定阈值的链接。本领域技术人员可以根据实际应用或经验来设定该预定阈值。然后,对所得到的链路应用最小生成树算法,以得到没有闭环链路的优化的树状链路。

优选地,根据本发明的检测文本图像中的文本行的装置700还可以包括用于对文本行获取部件770所获取的文本行进行过滤以去除不连贯的连通域的过滤部件780。具体地,过滤部件780首先对各个连通域顺次进行编号,然后计算各个连通域相对于参考位置的距离。接着利用表达式(5)来计算与各个连通域对应的比率r,并且将分别将各个比率r与预定范围比较,如果超出该范围,则过滤掉与比率r相对应的连通域。

另外,这里尚需指出的是,上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能。

图8示出了可用于实施根据本发明实施例的方法和装置的计算机800的示意性框图。

在图8中,中央处理单元(cpu)801根据只读存储器(rom)802中存储的程序或从存储部分808加载到随机存取存储器(ram)803的程序执行各种处理。在ram803中,还根据需要存储当cpu801执行各种处理等等时所需的数据。cpu801、rom802和ram803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如lan卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。

相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的次序顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是示例性的,而非旨在对本发明进行限制。应注意,在以上描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。本领域技术人员可以理解,在不脱离本发明的发明构思的情况下,针对以上所描述的实施方式进行的各种变化和修改,均属于本发明的范围内。

综上,在根据本发明的实施例中,本发明提供了如下技术方案。

方案1.一种检测文本图像中的文本行的方法,包括以下步骤:

对文本图像执行二值化处理,并提取连通域;

在具有相似尺寸的相邻的连通域之间建立链接,以形成交织的多条链路;

基于第一权重来对所述多条链路的链接进行裁剪,以得到主体链路;

基于第一权重从所述主体链路中搜索最大权重和链路,该最大权重和链路中的各个链接的第一权重的总和大于其他链路中的各个链接的第一权重的总和;

将满足以下条件的与被裁剪掉的链接相关联的连通域融合到所述最大权重和链路中以得到融合链路,所述条件为:执行所述融合后的融合链路中的各个链接的第二权重的总和小于融合前的最大权重和链路中的各个链接的第二权重的总和;以及

基于融合链路来获取文本行。

方案2.根据方案1所述的方法,其中,在执行融合时,将与被裁剪掉的链接相关联的连通域与所述最大权重和链路中的最近的连通域相融合。

方案3,根据方案2所述的方法,其中,所述融合链路中的各个链接的第二权重的总和通过下述来计算:更新所述融合链路中的链接,并且基于更新后的链接来计算所述融合链路的第二权重的总和。

方案4.根据方案1-3中任一项所述的方法,其中,所述第一权重依赖于建立链接的两个连通域的尺寸和距离,并且所述第二权重依赖于建立链接的两个连通域之间的距离。

方案5.根据方案4所述的方法,其中,

当链路竖直分布时,基于建立了链接的两个连通域的高度和距离来计算所述第一权重;以及

当链路水平分布时,基于建立了链接的两个连通域的宽度和距离来计算所述第一权重。

方案6.根据方案1-3中任一项所述的方法,还包括:在搜索最大权重和链路之前应用最小生成树算法来排除闭环链接。

方案7.根据方案1-3中任一项所述的方法,其中,所述裁剪利用贪心算法来执行。

方案8.根据方案1-3中任一项所述的方法,还包括:过滤所述文本行中不连贯的连通域。

方案9.根据方案8所述的方法,其中,过滤所述文本行中不连贯的连通域包括:对各个连通域依次进行编号,并且基于连通域的编号和连通域相对于参考位置的距离来执行过滤。

方案10.根据方案1-3中任一项所述的方法,还包括,在建立链接之前,对所述连通域进行过滤,以排除非文字连通域。

方案11.一种检测文本图像中的文本行的装置,包括:

连通域提取部件,用于从文本图像中提取连通域;

链接建立部件,用于在具有相似尺寸的相邻的连通域之间建立链接以形成交织的多条链路;

裁剪部件,用于基于第一权重来对所述多条链路的链接进行裁剪以得到主体链路;

搜索部件,用于基于第一权重从所述主体链路中搜索最大权重和链路,该最大权重和链路中的各个链接的第一权重的总和大于其他链路中的各个链接的第一权重的总和;

融合部件,用于将满足以下条件的与被裁剪掉的链接相关联的连通域融合到所述最大权重和链路中以得到融合链路,所述条件为:执行所述融合后的融合链路中的各个链接的第二权重的总和小于融合前的最大权重和链路中的各个链接的第二权重的总和;以及

文本行获取部件,用于基于融合链路来获取文本行。

方案12.根据方案11所述的装置,其中,所述融合部件在执行融合时,将与被裁剪掉的链接相关联的连通域与所述最大权重和链路中的最近的连通域相融合。

方案13.根据方案12所述的装置,其中,所述融合部件通过下述来计算所述融合链路的第二权重的总和:更新所述融合链路中的链接,并且基于更新后的链接来计算所述融合链路的第二权重的总和。

方案14.根据方案11-13中任一项所述的装置,其中,所述第一权重依赖于建立链接的两个连通域的尺寸和距离,并且所述第二权重依赖于建立链接的两个连通域之间的距离。

方案15.根据方案14所述的装置,其中,

当链路竖直分布时,基于建立了链接的两个连通域的高度和距离来计算所述第一权重;以及

当链路水平分布时,基于建立了链接的两个连通域的宽度和距离来计算所述第一权重。

方案16.根据方案11-13中任一项所述的装置,还包括:链路优化部件,其对所述链接建立部件所形成的多条链路应用最小生成树算法,以排除闭环链接。

方案17.根据方案11-13中任一项所述的装置,还包括:所述裁剪部件利用贪心算法来进行裁剪。

方案18.根据方案11-13中任一项所述的装置,还包括:过滤部件,其过滤所述文本行中不连贯的连通域。

方案19.根据方案18所述的装置,其中,所述过滤部件对各个连通域依次进行编号,并且基于连通域的编号和连通域相对于参考位置的距离来执行过滤。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1