版面分析方法、阅读辅助设备、电路及介质与流程

文档序号:18011369发布日期:2019-06-26 00:08阅读:184来源:国知局
版面分析方法、阅读辅助设备、电路及介质与流程

本公开涉及数据处理领域,特别涉及一种版面分析方法、阅读辅助设备、电子设备以及相应的芯片电路和计算机可读存储介质。



背景技术:

存在对图像中包含的读物版面中的文字进行识别的相关技术。在实际应用中,所述图像可能不仅包括读物版面,而且还包括与读物版面无关的背景物体中的文字(背景文字),因而可对图像中的文字进行筛选以去除背景文字。相关技术中的版面筛选技术主要依赖于文字的图像数据、文本字符串或文字的语义信息等,利用图像处理或语义分析算法来判断哪些文字是需要被去除的背景文字。这类技术通常算法较复杂且计算量较大。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。



技术实现要素:

根据本公开的一个方面,提供一种版面分析方法,包括:基于图像中的多个段落的坐标信息,将所述多个段落划分成在水平方向上排列的一个或更多栏,每个栏包括所述多个段落中的一个或更多段落;对于所述一个或多个栏中的至少一些栏中的每个栏中所包括的一个或更多段落,基于与段落的几何信息有关的预定准则确定该栏的主要段落;对于所述每个栏,如果该栏中的一个或更多非主要段落与所述主要段落之间满足用于追加主要段落的几何关系,则将所述一个或更多非主要段落作为针对所述主要段落的追加的主要段落。

根据本公开的另一个方面,提供一种芯片电路,包括:被配置为执行根据本公开中所述的方法的步骤的电路单元。

根据本公开的又一个方面,提供一种阅读辅助设备,包括:传感器,被配置为获取所述图像;如前所述的芯片电路,所述芯片电路还包括:被配置对所述图像进行文字识别以获得文字数据的电路单元;以及被配置为按照版面分析结果而将主要段落中的文字数据转换成声音数据的电路单元;以及声音输出设备,被配置为输出所述声音数据。

根据本公开的又一个方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行本公开中所述的方法。

根据本公开的又一个方面,提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行本公开中所述的方法。

从下面结合附图描述的示例性实施例中,本公开的更多特征和优点将变得清晰。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。

图1是示出根据本公开的示例性实施例的包含读物版面和背景文字的图像的例子的示意图;

图2是示出根据本公开的示例性实施例的版面分析方法的流程图;

图3是示出根据本公开的示例性实施例的将图像中的段落进行分栏的示例性方法的流程图;

图4是示出根据本公开的示例性实施例的计算两个段落在水平方向上的重叠率的示意图;

图5是示出根据本公开的示例性实施例的确定每个栏的主要段落的示例性方法的流程图;

图6是示出根据本公开的示例性实施例的在各栏中基于已有主要段落扩展出针对该主要段落的追加的主要段落的示例性方法的流程图;

图7(a)和7(b)是示出用于例示根据本公开的示例性实施例的判断段落边界的关系和重叠率关系的例子的示意图;

图8是示出根据本公开的示例性实施例的版面分析方法的流程图;

图9是示出用于例示根据本公开的示例性实施例的方法的版面分析例子的示意图;

图10是示出根据本公开的示例性实施例的阅读辅助设备的结构框图;

图11是示出能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在本公开中,对于图像,“水平”是指基本上平行于文字行(例如,夹角小于45度)的图像边的方向,而“垂直”是指垂直于“水平”的另一图像边的方向。

对本公开的以下描述主要基于文本行相对于读者在基本上左右方向上延伸(即横版读物)的情况,但是本公开的技术方案不限于此,本公开的技术方案也适用于文本行相对于读者在基本上上下方向上延伸(即竖版读物)的情况,即本公开的算法也适用于竖版读物的情况。在文本行在基本上上下方向上延伸的情况下,本公开中的水平方向可意味着基本上上下方向,而垂直方向可意味着基本上左右方向。换言之,本公开中的“水平”、“垂直”等术语并不具有绝对的含义,而是只要其是两种相互垂直的方向即可。在文字行具有基本上为上下方向的情况下,本公开中的“上下”与“左右”方向互换即可。

在本公开中,阈值可以是各种参数的绝对值,也可以是比值(例如,某一绝对值的倍数或若干分之一)。

在将图像中所包含的读物(例如书籍、杂志等等)版面进行文字识别的应用中,可能会遇到如下的情况:在图像中不仅包含读物版面中的文字,而且还包含与读物版面无关的背景物体中的文字(背景文字)。为了在进行文字识别时仅处理用户所希望的读物版面中的文字,而避免背景文字的干扰,可以利用版面筛选技术以确定哪些是背景文字并将该背景文字去除。“版面筛选”意味着仅保留图像中应被识别为属于读物版面的文字,或去除图像中不应被识别为属于读物版面的文字。

本公开提供了一种版面分析(版面筛选)方法,其避免对文字图像直接进行复杂的图像处理,也无需基于文本进行语义分析,而是利用段落划分处理所得到的各个段落的坐标信息,以段落为单位来进行版面筛选。

图1是示出根据本公开的示例性实施例的包含读物版面和背景文字的图像的例子的示意图。在图1的例子中,所述图像包括读物版面101,所述读物版面101中包括各个段落101-1~101-5,每个段落中例如可以有图示的多个文字行。所述图像还例如包括与读物版面101无关的背景物体即平板计算机103,平板计算机103中可以包括其屏幕中显示的段落103-1~103-3。此外,所述图像还例如包括矿泉水包装上的文字的段落105。根据本公开的版面分析方式,能够基于图像中的各个段落的坐标信息对版面进行筛选,从而确定出段落101-1~101-5为图像的版面段落,而将段落103-1~103-3以及段落105确定为图像的背景段落。根据本公开的一些实施例,可以依次将主要段落中的文字转换成声音,并通过诸如扬声器、耳机之类的声音输出设备输出声音。

以下将结合附图对本公开的版面分析方法的示例性实施例进行进一步描述。

图2是示出根据本公开的示例性实施例的版面分析方法的流程图。如图2所示,该版面分析方法例如可以包括以下步骤:将图像中的段落进行分栏(步骤s201),确定每个栏的主要段落(步骤s203),在各栏中基于已有主要段落扩展出针对该主要段落的追加的主要段落(步骤s205)。

在步骤s201中,基于图像中的多个段落的坐标信息,将所述多个段落划分成在水平方向上排列的一个或更多栏,每个栏包括所述多个段落中的一个或更多段落。

由于与图像中的背景段落相比,图像中的版面段落在垂直方向上的相对位置往往比较紧凑,而在水平方向上也表现出较好的重叠性(即对齐性),因此对图像中的多个段落进行分栏能够有助于将版面段落与背景段落进行初步划分,也可以为之后在栏内进行进一步划分做好准备。

这里,段落的坐标信息是指能够表达段落在图像中的位置和占据的区域的坐标信息,其可以具有各种形式。例如,段落的坐标信息可以是包含该段落的矩形(例如包含该段落的最小矩形,或者将包含该段落的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)的四个顶点的坐标,也可以是段落的任一顶点的坐标以及段落的长度和宽度,但是并不限于这些具体形式。

在图1所示的例子中,段落103-1~103-3可以被划分为一栏,段落101-1、101-3和101-4可以被划分为一栏,且段落101-2、101-5和105可以被划分为一栏。

在步骤s203中,对于所述一个或多个栏中的至少一些栏中的每个栏中所包括的一个或更多段落,基于与段落的几何信息有关的预定准则确定该栏的主要段落。

在此步骤中,所述一个或多个栏中的至少一些栏被认为是包含版面段落的栏。由于包含版面段落的栏中也可能会包括背景段落,因此在此步骤中要确定该栏中最有可能是版面段落(主要段落)的段落作为该栏的起初的主要段落,由此在之后的步骤中基于主要段落进一步扩展出该栏的其他主要段落(追加的主要段落)。一个栏中可能只有一个主要段落(即,起初的主要段落),也可能有多个主要段落(即,起初的主要段落以及追加的主要段落)。

所述几何信息可以是与段落的尺寸、段落的位置(包括相对位置关系)、文字行的倾斜度、文字行的数量以及文字行的尺寸等中的至少一个有关的信息。与段落的几何信息有关的预定准则意味着段落在段落的尺寸、段落的位置(包括相对位置关系)、文字行的倾斜度、文字行的数量以及文字行的尺寸等中的至少一个方面的预定准则。

根据一些实施例,用于确定栏中的主要段落的所述预定准则可以基于以下因素中的至少一个:段落的宽度、段落的面积、段落中的文字行数、段落的中心点距离图像中心点的距离。例如,段落的宽度越大,和/或段落的面积越大,和/或段落的文字行数越多,和/或段落的中心点距离图像中心点的距离越近,则该段落越有可能被确定作为栏中的主要段落。

在图1所示的例子中,所述一个或多个栏中的所述至少一些栏(即,被认为包含版面段落的栏)可以是段落101-1、101-3和101-4所在的栏(称为栏1),以及段落101-2、101-5和105所在的栏(称为栏2)。换言之,段落103-1~103-3所在的栏可能被认为是不合格的栏(例如由于文字行倾斜度过大、或者栏的宽度过窄等原因)而被丢弃。在此例子中,段落101-1和段落101-5由于最佳地符合前述与段落的几何信息有关的预定准则,从而分别被确定为栏1和栏2的主要段落。被确定为栏中的主要段落意味着被确定为最有可能是该栏中的版面段落。

在步骤s205中,对于所述每个栏,如果该栏中的一个或更多非主要段落与所述主要段落之间满足用于追加主要段落的几何关系,则将所述一个或更多非主要段落作为针对所述主要段落的追加的主要段落。

在此步骤中,在已经确定了各栏的主要段落的基础上,基于其他段落(当前的非主要段落)与已有的主要段落之间的相对关联性是否较高(即是否满足所述用于追加主要段落的几何关系),扩展出针对已有的主要段落的追加的主要段落。

所述用于追加主要段落的几何关系指的是非主要段落与主要段落之间在段落的相对位置、段落的尺寸、文字行倾斜度、文字行的数量以及文字行的尺寸等方面的相关性。根据一些实施例,所述用于追加主要段落的几何关系例如可以包括以下关系中的至少一个:平均文字行高度的关系、文字行倾斜度的关系、段落边界的关系(其例如可体现段落之间的距离)、段落之间的重叠率关系。非主要段落与主要段落的平均文字行高度的关系例如可以包括非主要段落的文字行的平均高度(即一个文字行平均有多高)与主要段落的文字行的平均高度之间的差值或者比值;其段落倾斜度的关系例如可以包括非主要段落的中的文字行的倾斜度与主要段落的中的文字行的倾斜度之间的差值角度;其段落边界的关系例如可以包括非主要段落的段落边界与主要段落的段落边界之间的相对位置关系(例如上、下、左、右位置关系和/或其间的距离);其段落之间的重叠率关系例如可以包括非主要段落与主要段落在水平方向/垂直方向上的重叠率。这些条件可以根据应用需要而以各种方式组合运用,其运用次序也不限于特定的次序。可以例如先判断段落边界的关系,只有在满足段落边界的关系的情况下再判断其他几何关系是否满足追加主要段落的要求。也可以例如先判断平均文字行的高度的关系和文字行倾斜度的关系,只有在满足这两个关系的情况下再判断其他几何关系是否满足追加主要段落的要求。这些几何关系在判断是否满足追加主要段落的要求时的运用方式和运用顺序不限于特别的运用方式和运用顺序。

要注意的是,起初确定的主要段落和追加的主要段落都属于主要段落的概念范畴,在处理结束时,这些主要段落会被视作要进行进一步处理(例如,文字-声音转换和语音播报等)的版面段落。此外,非主要段落是指处理时仍未被确定为主要段落的段落,但非主要段落可能在后续处理中被扩展作为主要段落(即追加的主要段落)。

在图1所示的例子中,已在之前步骤中将段落101-1和段落101-5分别确定为栏1和栏2的主要段落。然后在此步骤中,由于段落101-3与主要段落101-1的关联性较高(即满足上述的用于追加主要段落的几何关系),因此将段落101-3确定为栏1中针对主要段落101-1的追加的主要段落。之后,由于段落101-4与主要段落101-3的关联性较高,因此将段落101-4确定为栏1中针对主要段落101-3的追加的主要段落。类似地,由于段落101-2与段落101-5的关联性较高(即满足上述的用于追加主要段落的几何关系),因此将段落101-2确定为栏2的追加的主要段落。由于段落105与其所在的栏2中的主要段落101-5之间的关联性较低(即不满足上述的用于追加主要段落的几何关系,例如文字行高度过大或距离已有的主要段落太远),因此不将段落105确定为栏2的追加的主要段落。由此,最终得到的主要段落(版面段落)包括段落101-1~101-5。

根据图2所示的方法,由于利用各个段落的坐标信息以段落为单位来进行版面筛选,因此无需对文字图像进行复杂的图像处理也无需基于本文进行语义分析,可在保持一定的版面分析精度的同时显著降低算法复杂度和计算量,减轻计算机分析版面问题时的运算负荷。

以上已参照图1~2对于本公开的版面分析方法进行了描述。下面将结合图3~9进一步详细描述上述步骤s201、s203和s205的示例性实施方式以及其他实施例,其中图3示出步骤s201中的将图像中的段落进行分栏的处理的示例性实施例,图5示出步骤s203中的确定每个栏的主要段落的处理的示例性实施例,图6示出步骤s205中的在各栏中基于已有主要段落扩展出针对该主要段落的追加的主要段落的处理的示例性实施例,图8示出基于追加的主要段落迭代地确定进一步追加的主要段落的处理的示例性实施例。需要注意的是,前文中参照图1-2描述的各种定义、实施例、实施方式和例子等也均可适用于之后描述的示例性实施例或与其进行组合。

图3是示出根据本公开的示例性实施例的将图像中的段落进行分栏的示例性方法的流程图,其可作为前述的步骤s201的一种示例性实施方式,即步骤s201可包含图3中的流程图的步骤。

在步骤s301中,从所述多个段落中确定一个或更多分栏基础段落,所述一个或更多分栏基础段落是所述多个段落中与其他段落相比宽度较大的段落。

在步骤s303中,对于所述多个段落中不属于分栏基础段落的普通段落,如果该普通段落与一个分栏基础段落之间满足第一预定几何关系,则将该普通段落划分到该分栏基础段落所属的栏中。

在一些实施例中,与图像中的其他段落相比宽度较大的所述一个或更多分栏基础段落例如可以是对图像中的所述多个段落按照宽度大小进行排序而获得的前n个大段落(n为小于段落数量的预定正整数),也可以是段落宽度超过第一阈值宽度(所述第一阈值宽度例如可以设为图像宽度的若干分之一)的段落,也可以是前述的宽度较大的段落中根据一定条件筛去一些段落(例如文字行数过少的段落、或与其他宽度较大的段落在水平方向上重叠的段落等)之后得到的段落。在这里,“宽度”意味着在水平方向上的尺寸。

所述第一预定几何关系是用于确定普通段落应被划分到哪一栏的准则,其可以包括普通段落与所述一个分栏基础段落之间的关系准则。在一些实施例中,满足所述第一预定几何关系的必要条件可以包括条件a,条件a包括:所述普通段落与所述一个分栏基础段落在水平方向上的重叠率不小于第一阈值重叠率(所述第一阈值重叠率例如可以设为40%~70%之间的值)。根据一些实施例,上述的条件a还可以进一步包括:所述普通段落相对于所述一个分栏基础段落的倾斜度不大于第一阈值倾斜度(所述第一阈值倾斜度例如可以设为15度~35度之间的值)。

根据一些实施例,步骤s301中的从所述多个段落中确定一个或更多分栏基础段落可以包括如下步骤:将所述多个段落中宽度最大的段落作为第一分栏基础段落;以及对于图像中的所述多个段落中不同于第一分栏基础段落的备选段落,如果该备选段落与所述第一分栏基础段落之间满足第二预定几何关系,则将该备选段落作为第二分栏基础段落。

根据一些实施例,所述第二预定几何关系一方面保证第二分栏基础段落也具有较大宽度(例如与第一分栏基础段落可比拟的宽度),另一方面保证第二分栏基础段落并非是应与第一分栏基础段落划分到同一栏的段落。根据一些实施例,满足所述第二预定几何关系的必要条件例如可以包括条件c,条件c包括:所述备选段落的宽度与所述第一分栏基础段落的宽度的比值不小于阈值宽度比(所述阈值宽度比例如可以是40%~80%之间的值),并且所述备选段落与所述第一分栏基础段落在水平方向上的重叠率不大于第二阈值重叠率(所述第二阈值重叠率例如可以设为20%~50%之间的值,其可以等于第一阈值重叠率,但也可以小于第一阈值重叠率)。根据前述的第二预定几何关系,可以确定出段落宽度较大且与第一分栏基础段落尺寸可比拟、相互较少重叠(即可被认为属于不同栏)的一个或更多第二分栏基础段落。根据一些实施例,所述条件c例如还可以包括:所述备选段落相对于所述第一分栏基础段落的倾斜度不大于第二阈值倾斜度(所述第二阈值倾斜度例如可以设为15度~35度之间的值,其可以等于第一阈值倾斜度,但也可以不同于第一阈值倾斜度)。

根据一些实施例,如果在步骤s301中备选段落相对于所述第一分栏基础段落的倾斜度不大于第二阈值倾斜度且与所述第一分栏基础段落的宽度的比值不小于阈值宽度比,但该备选段落与所述第一分栏基础段落在水平方向上的重叠率大于第二阈值重叠率,则在步骤s303中可以将该备选段落划分到所述第一分栏基础段落所属的栏中。换言之,满足所述第一预定几何关系的必要条件可以包括所述条件a和条件b中的任一个,即只要满足所述条件a和所述条件b中的任一个,就可认为满足所述第一预定几何关系。条件a例如可如前所述,条件b例如可以包括:所述普通段落与所述第一分栏基础段落的宽度的比值不小于阈值宽度比,并且所述普通段落与所述第一分栏基础段落在水平方向上的重叠率大于第二阈值重叠率。根据一些实施例,所述条件b还可以包括:所述普通段落相对于第一分栏基础段落的倾斜度不大于第二阈值倾斜度。其中,两个段落在某一方向上重叠意味着这两个段落在该方向的坐标轴上的投影存在共同的部分。

根据一些实施例,两个段落在某一方向上的重叠率可以定义为ovr=max(ovl/l1,ovl/l2),其中max表示括号中较大的数,ovl表示这两个段落在该方向上的重叠部分的尺寸,l1和l2分别表示这两个段落在该方向上的尺寸。图4是示出根据本公开的示例性实施例的计算两个段落在水平方向上的重叠率的示意图。在图4的例子中,ovl=12,l1=20,l2=17,因此这两个段落在水平方向上的重叠率ovr=max(ovl/l1,ovl/l2)=12/17。虽然这里给出了重叠率的概念和计算方法,但应理解,重叠率的概念和计算方法不限于此,只要其能够表达两个段落在某一方向上的重叠状况即可。

在一些情况下,有可能发生一个普通段落与多个分栏基础段落之间满足第一预定几何关系的情况,则可以用任意方式来确定将该普通段落划分到哪一个分栏基础段落所属的栏中。例如,可以随机将该普通段落划分到与其之间满足第一预定几何关系的任意一个分栏基础段落所属的栏中;或者也可以将该普通段落划分到段落宽度较大的分栏基础段落所属的栏中;或者也可以对于普通段落相对于多个分栏基础段落之间的倾斜度和重叠率进行打分(倾斜度越大分数越低,且重叠率越大分数越高),并将该普通段落划分到分数较高的分栏基础段落所属的栏中。

通过图3中的流程图所例示的方法,可以确定一个或更多分栏基础段落,并将各个段落划分到相应分栏基础段落所属的栏中,即完成对所述多个段落的分栏处理。

图5是示出根据本公开的示例性实施例的确定每个栏的主要段落的示例性方法的流程图,其可作为前述的步骤s203的一种示例性实施方式,即步骤s203可包含图5中的流程图的步骤。如前所述,确定一个栏的主要段落是要确定可能是版面段落而非背景段落的段。图5中流程图给出了确定一个栏中的起初的主要段落的示例性方法。

根据图5所示的示例性实施例,步骤s203中基于与段落的几何信息有关的预定准则确定该栏的主要段落可以包括如下步骤:

在步骤s501中,对于该栏中的各段落,基于段落的宽度、段落的面积、段落中的文字行数、段落的中心点距离图像中心点的距离中的至少一个因素对该段落分别进行打分;

在步骤s503中,将基于各因素的分数进行加权相加以得到该段落的加权分数;以及

在步骤s505中,将具有最高加权分数的段落作为该栏的主要段落。

基于各因素对于段落是否可能是版面中的段落的影响方式,确定打分方式。例如,段落的宽度越大,段落的宽度的分数越大;段落的面积越大,段落的面积的分数越大;段落中的文字行数越大,段落中的文字行数的分数越大;段落的中心点距离图像中心点的距离越小,段落中的该距离的分数越大。

各个分数可以是各个因素的实际度量值,也可以是各个因素的实际度量值相对于该因素基准值的倍数。例如,段落宽度的分数可以是实际段落宽度除以段落宽度基准值(例如,图像宽度或图像中最宽的段落的宽度等等),段落面积的分数可以是实际段落面积除以段落面积基准值(例如,图像面积或图像中最大面积的段落的面积等等),段落中的文字行数的分数可以是实际文字行数除以文字行数基准值(例如,图像中最大文字行数的段落的中的文字行数等等),段落的中心点距离图像中心点的距离的分数可以是实际距离除以距离基准值(例如,图像的一边长度等等)并取相反数或倒数。

所述加权的权重可以根据具体应用中每个因素对于段落是否可能是版面段落的贡献程度来确定。在各个分数是各个因素的实际度量值的情况下,所述权重有相应的量纲,而在各个分数是各个因素的实际度量值相对于该因素基准值的倍数时,所述权重没有量纲。注意,根据一些实施方式,加权可能已经体现在s501中进行打分时所使用的因素基准值中,因此在s503中的权重为1。未特别设置权重(即权重为1)而相加的实施例也包括在本公开中“加权相加”的范围内,即视为以权重为1进行加权相加。

图6是示出根据本公开的示例性实施例的在各栏中基于已有主要段落扩展出针对该主要段落的追加的主要段落的示例性方法的流程图。虽然图6中的流程图的处理是针对一个栏中的一个已有主要段落的处理,对所有栏中的所有主要段落均可执行该处理。这里的已有主要段落可以是前文所述的起初确定的主要段落(例如可根据图5中的流程图的示例性步骤来确定),也可以是追加的主要段落(即基于追加的主要段落再进一步追加主要段落)。

根据图6的流程图的处理,对于该栏中的该已有的主要段落,基于该主要段落与非主要段落之间的几何关系(即,用于追加主要段落的几何关系),判断所有的非主要段落是否可以基于该主要段落而被扩展为追加的主要段落。如果该几何关系表明该主要段落与非主要段落之间具有较高的关联性(例如距离接近、文字行的特征相似、对齐性较好,等等),则将该非主要段落追加作为基于该主要段落的追加的主要段落。

根据图6的流程图中的示例性实施例,先判断平均文字行高度的关系以及文字行倾斜度的关系,然后再判断段落边界的关系以及段落之间的重叠率关系,但是应该理解,这个流程图中的步骤顺序只是一种示例性实施方式,而本公开的技术方案不限于此。如前所述,这些条件可以根据应用需要而以各种方式组合运用,可以采用这些条件中的全部,也可以仅采用这些条件中的一部分,且其运用次序也不限于特定的次序。例如也可以先判断段落边界的关系,只有在满足段落边界的关系的情况下再判断其他几何关系是否满足追加主要段落的要求。例如也可以省略对平均文字行高度差的条件的判断。这些几何关系在判断是否满足追加主要段落的要求时的运用方式和运用顺序不限于特别的运用方式和运用顺序。

在步骤s601中,对于该栏中的该已有的主要段落,判断是否还有未考察过的非主要段落。如果针对该主要段落已经考察过所有非主要段落(步骤s601,“否”),则对该已有主要段落的处理结束。如果针对该主要段落还有未考察过的非主要段落(步骤s601,“是”),则进行到步骤s603,针对尚未考察过的一个非主要段落进行处理。

在步骤s603中,判断该非主要段落的平均文字行高度与所述主要段落的平均文字行高度之间的差(即平均文字行高度差)是否大于阈值高度差。如果所述平均文字行高度差大于阈值高度差(步骤s603,“是”),则不将该非主要段落作为针对所述主要段落的追加的主要段落(步骤s611)。如果所述平均文字行高度差不大于阈值高度差(步骤s603,“否”),则可继续判断用于追加主要段落的几何关系中的其他条件(步骤s605)。

根据步骤s603,如果非主要段落的平均文字行高度与主要段落的平均文字行高度显著不同,则可认为该非主要段落与该主要段落之间的关联性不高,即不大可能属于同一个版面。反之,则不排除该非主要段落可能作为追加的主要段落,即继续判断用于追加主要段落的几何关系中的其他条件。

这里,阈值高度差可以是一个绝对的文字行高度值,也可以是一个比值,例如是其中一个文字行(例如文字行高度值较小的文字行)的文字行高度值的几分之一或几倍。例如,阈值高度差可以设为3-10个像素中的值,也可以设为例如比较中的较小文字行高度的1/2等等。

根据一些实施例,如果针对一个主要段落,某非主要段落被确定为不作为针对该主要段落的追加的主要段落,则在针对另一个主要段落时,该非主要段落仍要作为非主要段落被考察。相反,如果针对一个主要段落,某非主要段落被确定为针对该主要段落的追加的主要段落,则在针对另一个主要段落时,已成为追加的主要段落的段落就不再被作为非主要段落看待。

在步骤s605中,判断该非主要段落的文字行倾斜度与所述主要段落的文字行倾斜度之间的差(即文字行倾斜度差)是否大于第三阈值倾斜度。如果所述文字行倾斜度差大于第三阈值倾斜度(步骤s605,“是”),则不将该非主要段落作为针对所述主要段落的追加的主要段落(步骤s611)。如果所述文字行倾斜度差不大于第三阈值倾斜度(步骤s605,“否”),则可继续判断用于追加主要段落的几何关系中的其他条件(步骤s607)。

根据这个步骤,如果非主要段落的文字行倾斜度与主要段落的文字行倾斜度显著不同,则可认为该非主要段落与该主要段落之间的关联性不高,即不大可能属于同一个版面。反之,则不排除该非主要段落可能作为追加的主要段落,即继续判断用于追加主要段落的几何关系中的其他条件。

这里,第三阈值倾斜度可以与前述的第一阈值倾斜度和第二阈值倾斜度中的至少一个相同,或与其都不同。根据一些实施例,所述第三阈值倾斜度例如可以根据具体应用需求而设为15度~35度之间的值。

在步骤s607中,判断该非主要段落与所述主要段落之间是否满足段落边界的关系并且其重叠率不小于第三阈值重叠率。如果该非主要段落与所述主要段落之间满足段落边界的关系并且其重叠率不小于第三阈值重叠率(步骤s607,“是”),则将该非主要段落作为基于所述主要段落的追加的主要段落(步骤s609)。如果该非主要段落与所述主要段落之间不满足段落边界的关系或者其重叠率小于第三阈值重叠率(步骤s607,“否”),则不将该非主要段落作为基于所述主要段落的追加的主要段落(步骤s611)。

所述第三阈值重叠率例如可以与第一阈值重叠率相同,也可以与第一阈值重叠率不同。根据一些实施例,所述第三阈值重叠率例如可以设为40%~70%之间的值。

所述段落边界的关系体现段落之间的位置关系,其例如可以包括上、下、左、右位置关系和/或其间的距离。段落边界的关系与重叠率的关系组合在一起能够体现两个段落之间是否紧密关联。例如,如果非主要段落与所述主要段落的最近的段落边界之间的距离较远或重叠率较低,则可认为该非主要段落与该主要段落之间的关联性不高,即不大可能属于同一个版面。反之,则可结合之前条件判断结果认为该非主要段落与该主要段落之间的关联性高,即属于同一个版面。

在执行了步骤s609的处理之后以及在执行了步骤s611的处理之后,当前的非主要段落考察完毕,流程回到步骤s601以判断是否还有对于当前的主要段落尚未考察的非主要段落。

下面进一步说明用于执行步骤s607的示例性处理。

在用于执行步骤s607的示例性处理中,判断非主要段落与主要段落之间是否满足所述段落边界的关系。

特别地,所述段落边界的关系可以包括非主要段落与主要段落的基本相对位置关系及其相应的段落边界距离关系。基本相对位置关系意味着非主要段落处于主要段落的上方、下方、左侧或右侧。段落边界距离可以是两个段落的最接近的平行边界之间的距离,在段落边界距离不大于阈值距离的情况下,认为非主要段落与主要段落之间满足所述段落边界的关系。此阈值距离可以根据具体应用需求来设定,例如可以设为平均文字行高度的1.5~4倍之间的值。根据一个实施例,如果满足以下条件中的至少之一,则认为非主要段落与主要段落之间满足所述段落边界的关系:

非主要段落位于主要段落的上方(例如但不限于非主要段落的上边界高于主要段落的上边界),并且非主要段落的下边界与主要段落的上边界之间的距离不大于阈值距离,或者非主要段落的下边界低于主要段落的上边界;

非主要段落位于主要段落的下方(例如但不限于非主要段落的下边界低于主要段落的下边界),并且非主要段落的上边界与主要段落的下边界之间的距离不大于阈值距离,或者非主要段落的上边界高于主要段落的下边界;

非主要段落位于主要段落的左侧(例如但不限于非主要段落的左边界在主要段落的左边界的左侧),并且非主要段落的右边界与主要段落的左边界之间的距离不大于阈值距离,或者非主要段落的右边界在主要段落的左边界的右侧;

非主要段落位于主要段落的右侧(例如但不限于非主要段落的右边界在主要段落的右边界的右侧),并且非主要段落的左边界与主要段落的右边界之间的距离不大于阈值距离,或者非主要段落的左边界在主要段落的右边界的左侧。

在用于执行步骤s607的示例性处理中,还要判断非主要段落与主要段落之间是否满足段落之间的重叠率关系。

所述重叠率的定义可以与前文所述的相同,例如可以采用结合图4描述的两个段落在某一方向上的重叠率的定义。根据一个实施例,如果满足以下条件中的至少之一,则认为非主要段落与主要段落之间满足所述重叠率关系:

非主要段落位于主要段落的上方或下方,且非主要段落和主要段落在水平方向上的重叠率不小于第三阈值重叠率;

非主要段落位于主要段落的左侧或右侧,且非主要段落和主要段落在垂直方向上的重叠率不小于第三阈值重叠率。

以下结合图7(a)和7(b)的示意图来例示用于执行步骤s607的示例性处理。图7(a)和7(b)是示出用于例示根据本公开的示例性实施例的判断段落边界的关系和重叠率关系的例子的示意图,图7(a)中示出了处于上下关系的一个非主要段落711和一个主要段落713,图7(b)中示出了处于左右关系的一个非主要段落721和一个主要段落723。

在图7(a)所示的示意图中,由于非主要段落711位于主要段落713的上方,并且非主要段落711的下边界711d与主要段落713的上边界713u之间的距离d11不大于阈值距离(例如设为3个文字行的高度),并且非主要段落711与主要段落713在水平方向上的重叠率ovr1=max(ovl1/l11,ovl1/l13)不小于第三阈值重叠率(例如设为50%),其中ovl1是非主要段落711和主要段落713在水平方向上的重叠部分的尺寸,l11和l13分别是非主要段落711与主要段落713在水平方向上的尺寸,因此可确定为该非主要段落711与所述主要段落713之间满足段落边界的关系并且满足重叠率关系(即其重叠率不小于第三阈值重叠率)。如果结合该非主要段落与主要段落之间的平均行高度差以及文字行倾斜度差,则可将该非主要段落作为针对所述主要段落的追加主要段落。

在图7(b)所示的示意图中,由于非主要段落721位于主要段落723的左侧,并且非主要段落721的右边界721r与主要段落723的左边界723l之间的距离d21不大于阈值距离(例如设为3个文字行的高度或者3个文字高度,等等),并且非主要段落721与主要段落723在垂直方向上的重叠率ovr2=max(ovl2/l21,ovl2/l23)不小于第三阈值重叠率(例如设为50%),其中ovl2是非主要段落721和主要段落723在垂直方向上的重叠部分的尺寸,l21和l23分别是非主要段落721与主要段落723在垂直方向上的尺寸,因此可确定为该非主要段落721与所述主要段落723之间满足段落边界的关系并且满足重叠率关系(即其重叠率不小于第三阈值重叠率)。如果结合该非主要段落与主要段落之间的平均行高度差以及文字行倾斜度差,则可将该非主要段落作为针对所述主要段落的追加主要段落。

已参照图1~图7(a)和7(b)描述了本公开的示例性实施方式的各个步骤及其实施例,其中的示例性方法可以包括:将段落进行分栏,对于多个栏中的至少一些栏中的每个栏确定该栏的主要段落,以及对于所述每个栏基于已有的主要段落确定追加的主要段落。所得到的主要段落(包括追加的主要段落)被认为是较有可能是版面段落的段落。

根据一些实施例,对于上述的追加的主要段落,还可以重复步骤s205的处理或者图6的流程图的处理,可以从已有的主要段落(包括追加的主要段落)迭代地确定进一步追加的主要段落。换言之,在获得所述追加的主要段落之后,基于所述追加的主要段落来选择该栏中符合所述用于追加主要段落的几何关系的非主要段落作为进一步的追加的主要段落,并且重复上述步骤,直至该栏中不再有符合所述用于追加主要段落的几何关系的非主要段落为止(即直到当前的主要段落(包括追加的主要段落)均无法再扩展出追加的主要段落为止),并将最终得到的主要段落(包括追加的主要段落)作为较有可能是版面段落的段落。此外,根据一些实施例,本公开的方法还可以包括一些附加的步骤。

图8是示出根据本公开的示例性实施例的版面分析方法的流程图。

在步骤s801中,基于图像中的多个段落的坐标信息,将所述多个段落划分成在水平方向上排列的一个或更多栏,每个栏包括所述多个段落中的一个或更多段落。步骤s801的实施可以利用与步骤s201中的处理(例如图3的流程图中的处理)类似的处理。

在步骤s803中,在步骤s801中在将所述多个段落划分成在水平方向上排列的一个或更多栏之后,丢弃不合格的栏,以获得所述一个或多个栏中的至少一些栏。所述不合格的栏是因其特征而被认为很可能不属于版面的栏。所述不合格的栏例如可以是但不限于以下中的至少之一:宽度小于第二阈值宽度的栏(所述第二阈值宽度例如可以但不限于设为图像宽度的1/5~1/3之间的值)、文字行数小于阈值文字行数的栏(所述阈值文字行数例如可以但不限于设为1~3行之间的值)、栏面积小于阈值栏面积的栏(所述阈值栏面积例如可以但不限于设为图像面积的1/8~1/3之间的值)、文字行倾斜度大于第四阈值倾斜度(所述第四阈值倾斜度可以大于前述的第一、第二和第三阈值倾斜度,所述第四阈值倾斜度例如可以但不限于设为25度~45度之间的值)的栏,等等。通过丢弃不合格的栏,可以在栏的层面上过滤掉明显不属于读物的版面的栏,从而提高版面分析的准确度同时也能够减少后续处理的计算量。

在步骤s805中,对于所述一个或多个栏中的所述至少一些栏(在步骤s803中丢弃不合格的栏之后剩余的栏)中的每个栏中所包括的一个或更多段落,基于与段落的几何信息有关的预定准则确定该栏的主要段落(即起初确定的主要段落)。步骤s805的实施可以利用与步骤s203中的处理(例如图5的流程图中的处理)类似的处理。

在步骤s807中,确定该栏中是否有与主要段落之间满足用于追加主要段落的几何关系的一个或更多非主要段落。步骤s807的实施可以利用与步骤s205中的处理(例如图6的流程图中的处理)类似的处理。

如果在步骤s807判断为该栏中存在与主要段落之间满足用于追加主要段落的几何关系的一个或更多非主要段落(步骤s807,“是”),则在步骤s809中将所述一个或更多非主要段落作为针对所述主要段落的追加的主要段落,并且将追加的主要段落作为主要段落,迭代地重复步骤s807和s809,直到在步骤s807判断为该栏中不再存在与所述主要段落之间满足用于追加主要段落的几何关系的一个或更多非主要段落。如果在步骤s807判断为该栏中不存在与任何主要段落之间满足用于追加主要段落的几何关系的任何非主要段落(步骤s807,“否”),则不将剩余的非主要段落作为所述主要段落的追加的主要段落,而是对这一栏的处理结束,判断是否还有下一个未处理的栏(步骤s811)。剩余的非主要段落可能由于与任何主要段落都具有较大的特征差异,而被作为不属于版面段落的段落(即背景段落)。

在步骤s811中,如果还有未处理的下一个栏(步骤811,“是”),则对于该下一个栏进行步骤s805~s811中的处理,直到所有栏都处理完毕。如果已不再有未处理的下一个栏(步骤811,“否”),则认为所有的栏均已处理完毕,可认为最终得到的主要段落(包括任何追加的主要段落)为所述读物的版面段落,并可以在步骤s813中对于图像中所有的最终得到的主要段落(包括任何追加的主要段落)进行排序。所述排序例如可以包括按照从上到下以及从左到右的正常阅读顺序对所有主要段落进行排序。

图9是示出用于例示根据本公开的示例性实施例的方法的版面分析例子的示意图,其中例示了通过对步骤s807和s809进行迭代而进行版面分析的例子。

在图9所示的例子中,段901是一个主要段。经过步骤s205的处理(或图6的流程图的处理,或步骤s807的处理),段903基于段901而被确定为追加的主要段;且再经过步骤s205的处理(或图6的流程图的处理,或步骤s807的处理),段905基于段903而被进一步确定为追加的主要段。

通过上述的迭代处理,可以不仅基于起初的主要段,而是还可以基于追加的主要段确定进一步追加的主要段,从而即使对于例如因拍摄角度或读物页面形变等原因而引起的段落重叠率、文字行倾斜度、段落边界距离、文字行高度等因素存在渐变的情况,也能够较好地识别应被作为主要段落(版面段落)的段落。

根据以上结合附图1-9阐述的本公开的至少一部分示例性实施例,先粗分栏并确定栏的主要段落,然后再基于主要段落继续确定追加的主要段落,能够确定出栏内很可能不是版面段落的段落,这种分步的版面分析可以较好地兼顾计算量与分析准确度。

以上已经结合附图描述了根据本公开的版面分析的示例性方法。在进行版面分析之后,还可以进行后续处理,例如可以结合文字识别结果,按照段落筛选和排序的结果而将逐个主要段落中识别出的文字数据转换成声音数据,这可以用于例如与有声读物相关的应用以及视障辅助应用中。

本公开的一个方面可包括一种阅读辅助设备。图10是示出根据本公开的示例性实施例的阅读辅助设备的结构框图。如图10所示,所述阅读辅助设备1100包括:传感器1101(例如可实现为摄像头、照相机等),被配置为获取前述的图像(图像例如可以是静态图像或视频图像,图像中可包含文字);以及芯片电路1103,所述芯片电路被配置为执行根据前述任何方法的步骤的电路单元。所述芯片电路还可以包括被配置对所述图像进行文字识别以获得文字数据的电路单元,以及被配置为按照版面分析结果而将主要段落中的文字数据转换成声音数据的电路单元。所述被配置对所述图像进行文字识别以获得文字数据的电路单元例如可以利用任何文字识别(例如光学文字识别ocr)软件或电路,所述被配置为按照段落划分结果而将逐个段落中的文字数据转换成声音数据的电路单元例如可以利用任何文字语音转换软件或电路。这些电路单元例如可通过asic芯片或fpga芯片来实现。所述阅读辅助设备1100还可以包括声音输出设备1105(例如扬声器、耳机等等),被配置为输出所述声音数据(即语音数据)。

本公开的一个方面可包括一种电子设备,该电子设备可包括处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行前述任何方法。根据一些实施例,所述程序还可以包括在由所述处理器执行时按照版面分析结果而将主要段落中的文字数据转换成声音数据的指令。根据一些实施例,这种电子设备例如可以是阅读辅助设备。根据一些实施例,这种电子设备可以是与阅读辅助设备进行通信的另一设备(例如手机、计算机、服务器等)。在这种电子设备是与阅读辅助设备进行通信的另一设备的情况下,阅读辅助设备可以将拍摄到的图像发送到所述另一设备,由另一设备执行前述任何方法,再将方法的处理结果(例如版面分析结果、文字识别结果、和/或将文字数据转换而成的声音数据等等)返回到阅读辅助设备,并由阅读辅助设备执行之后的处理(例如,将声音数据播放给用户)。

根据一些实施方式,所述阅读辅助设备可以被实施为可穿戴设备,例如可以被实施为可作为眼镜形式而被佩戴的设备、头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备、可附接到眼镜(例如眼镜架、眼镜腿等)上的配件、可附接到帽子上的配件等等。

借助该阅读辅助设备,视力障碍用户可以与视力正常读者一样,采用类似的阅读姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,阅读辅助设备可以进行文字识别和段落划分,然后按照前述实施例中的方法自动对段落进行过滤以获得主要段落(版面段落),并依照段落过滤后的主要段落的顺序而依次将主要段落中的文字转化为声音,通过扬声器或耳机等输出装置发出供用户聆听。

本公开的一个方面可包括存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行前述任何方法。

参照图11,现将描述计算设备2000,其是可以应用于本公开的各方面的硬件设备的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、智能电话、车载计算机、可穿戴设备或其任何组合。根据一些实施方式,上述的阅读辅助设备或电子设备也可以全部或至少部分地由计算设备2000或类似设备或系统实现。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如,计算设备2000可以包括总线2002、一个或多个处理器2004(其可以用于实施前述的阅读辅助设备所包含的处理器或芯片电路)、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备,并且可以包括但不限于传感器(例如前文所述的获取图像的传感器)、鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器(例如可用于实施前文所述的输出声音数据的输出设备)、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接,所述非暂时性存储设备(例如可以用于实施前文所述的计算机可读存储介质)可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、rom(只读存储器)、ram(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014(其可以用于实施前述的阅读辅助设备所包含的存储器),其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中,包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中,并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

在将图11所示的计算设备2000应用于本公开的实施方式时,存储器2014可以存储用于执行本公开的流程图的程序代码和/或待识别的包含文字内容的图像,其中应用2018中可以包括由第三方提供的光学字符识别应用(例如adobe)、语音转换应用、可编辑文字处理应用等等。输入设备2006可以是传感器,其用于获取包含文字内容的图像。其中所存储的包含文字内容的图像或者所获取的图像可以被ocr应用处理为包含文字的输出结果,并且通过文字处理应用而获得段落划分结果。输出设备2008例如是扬声器或耳机用于语音播报,其中处理器2004用于根据存储器2014中的程序代码来执行根据本公开的各方面的方法步骤。

还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现特定元件(例如上述的芯片电路)。例如,所公开的方法和设备中的一些或全部(例如上述的芯片电路中的各个电路单元)可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如verilog,vhdl,c++)对硬件(例如,包括现场可编程门阵列(fpga)和/或可编程逻辑阵列(pla)的可编程逻辑电路)进行编程来实现。

还应该理解,计算设备2000的组件可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样,计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1