一种图像文本行检测方法及装置与流程

文档序号：13844745阅读：175来源：国知局

本发明涉及计算机图像处理领域，特别涉及一种图像文本行检测方法及装置。

背景技术：

图像中的文本行检测一直是文本图像处理的研究热点，也是ocr(光学字符识别)的最重要环节之一，由于图像中的文本部分常包含图像的重要信息，所以对图像中的文本行进行检测对于图像分析、图像信息获取具有重要作用。

现有的文本行检测方法主要有传统方法和深度学习的方法。深度学习的方法适用的场景比较广泛广，识别的精度也相对较高，但是其需要大量的高质量标注过的数据和长时间的训练调参过程，且每次检测时运算量巨大，耗时久，不利于快速识别处理；而传统方法则有精度不高的问题，有较多的误报(falsepositive)，需要后处理去除。所以需要提供一种既快速又不失准确率的图像文本行检测。

技术实现要素：

为了在提高图像文本行检测速度的同时保证其检测精度和准确率，提高检测效率，本发明实施例提供了一种图像文本行检测方法及装置。所述技术方案如下：

第一方面，提供了一种图像文本行检测方法，所述方法包括：

对输入图像进行二值化预处理，获取预处理后的二值化图像；

对所述二值化图像中的连通域进行过滤处理，获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域，以及对所述符合标准字体尺寸的连通域生成外部矩形框；

按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框，及根据所述扩展矩形框对所述外部矩形框进行聚合处理；

根据所述聚合处理结果进行文本行识别。

结合第一方面，在第一种可能实现的方式中，所述过滤处理包括粗过滤和细过滤，所述对所述二值化图像中的连通域进行粗过滤处理包括：

获取所述二值化图像中的连通域，根据预设异常阈值，过滤所述连通域中异常的连通域，所述异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值；

获取粗过滤后的剩余连通域的宽高值，通过统计聚类算法对所述过滤后的剩余连通域的宽高值进行聚类，统计出现次数最多的连通域宽高值作为标准字体的尺寸。

结合第一方面的第一种可能实现的方式，在第二种可能实现的方式中，所述对所述二值化图像中的连通域进行细过滤处理包括：

以所述标准字体尺寸为标准，按照所述标准字体尺寸的宽高值的预设倍数过滤所述二值化图像中粗过滤后的剩余连通域；以及

获取所述二值化图像中所述细过滤处理后的连通域。

结合第一方面或第一方面的第二种可能实现的方式，在第三种可能实现的方式中，所述按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框，及根据所述扩展矩形框对所述外部矩形框进行聚合处理包括：

按照预设比例将每个所述符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框，其中，所述扩展矩形框与其对应的所述外部矩形框中心对齐；

判断两个连通域的所述扩展矩形框的iou值(相交范围占两个连通域并集的比例)是否在预设iou阈值范围内，若是，则将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合；若否，则不将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合。

结合第一方面的第三种可能实现的方式，在第四种可能实现的方式中，所述根据所述聚合处理结果进行文本行识别包括：

若聚合后矩形框个数大于等于预设个数，且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值，则确定为文本行；

若聚合后矩形框小于所述预设个数，或中心位置y分布分散，则确定为不是文本行。

第二方面，提供了一种图像文本行检测装置，所述装置包括：

预处理模块，用于对输入图像进行二值化预处理，获取预处理后的二值化图像；

过滤处理模块，用于对所述二值化图像中的连通域进行过滤处理，获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域；

外部矩形框生成模块，用于对所述符合标准字体尺寸的连通域生成外部矩形框；

扩展矩形框生成模块，用于按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框；

聚合处理模块，用于根据所述扩展矩形框对所述外部矩形框进行聚合处理；

文本行识别模块，用于根据所述聚合处理结果进行文本行识别。

结合第二方面，在第一种可能实现的方式中，所述过滤模块包括粗过滤子模块和细过滤子模块，所述粗过滤子模块具体包括：

异常连通域过滤单元，用于获取所述二值化图像中的连通域，根据预设异常阈值，过滤所述连通域中异常的连通域，所述异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值；

聚类单元，用于获取粗过滤后的剩余连通域的宽高值，通过统计聚类算法对所述过滤后的剩余连通域的宽高值进行聚类，统计出现次数最多的连通域宽高值作为标准字体的尺寸。

结合第二方面的第一种可能实现的方式，在第二种可能实现的方式中，所述细过滤子模块具体用于：

以所述标准字体尺寸为标准，按照所述标准字体尺寸的宽高值的预设倍数过滤所述二值化图像中粗过滤后的剩余连通域中；以及

获取所述二值化图像中所述细过滤处理后的连通域。

结合第二方面或第二方面的第二种可能实现的方式，在第三种可能实现的方式中，

所述扩展矩形框生成模块具体用于按照预设比例将每个所述符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框，其中，所述扩展矩形框与其对应的所述外部矩形框中心对齐；

所述聚合处理模块包括判断子模块和聚合子模块；

所述判断子模块用于判断两个连通域的所述扩展矩形框的iou值(相交范围占两个连通域并集的比例)是否在预设iou阈值范围内，若是，则所述聚合子模块将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合；若否，则所述聚合子模块不将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合。

结合第二方面的第三种可能实现的方式，在第四种可能实现的方式中，所述文本行识别模块具体用于：

若聚合后矩形框个数大于等于预设个数，且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值，则确定为文本行；

若聚合后矩形框小于所述预设个数，或中心位置y分布分散，则确定为不是文本行。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供了一种图像文本行检测方法及装置，方法通过对输入图像进行二值化预处理，对二值化图像中的连通域进行过滤处理，通过过滤处理能够去除异常的连通域以及去除非文字的图像区域，从而避免了异常连通域及非文字图像区域对于文本行检测的干扰，从而提高了文本行的检测精确度，以及能够提高文本行检测的效率；进一步地，通过按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框，因为生成的扩展矩形框与其对应的外部矩形框中心对齐，所以以扩展矩形框为参照，对外部矩形框进行聚合，从而根据聚合结合对文本行进行识别，因为对外部矩形框聚合后能够获取到聚合中心的坐标，以及若预设个数的外部矩形框相连，则可识别为文本行，从而通过本发明实施例提供的方法，在提高图像文本行检测速度的同时保证了检测精度和准确率，提高了检测效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像文本行检测方法流程图；

图2是本发明实施例提供的需要进行图本行检测的示例输入图像；

图3是本发明实施例提供的对示例输入图像进行预处理后的示意图像；

图4是本发明实施例提供的对预处理后的图像进行过滤处理后的示意图像；

图5是本发明实施例提供的对过滤处理后的图像进行聚合处理后的示意图像；

图6是本发明实施例提供的对示例输入图像最终文本检测结果的示意图像；

图7是本发明实施例提供的一种图像文本检测装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种图像文本行检测方法，参照图1所示，该方法包括：

101、对输入图像进行二值化预处理，获取预处理后的二值化图像。

其中，输入的图像中包含不同类型的对象，如文字、插图、logo、条形码二维码、各种符号等；在图像中文本的形式可以包括不同字体、不同字号、不同语言文字(如中文、英文等)、数字、拉丁字母等；为了说明本发明实施例所述文本行检测方法，将以示例图进行说明，该输入图像可以为图2所示的图像。

具体的，采用sauvola二值化方式对输入的图像进行二值化预处理，sauvola二值方式对光照分布不均匀的图像有较好的处理效果，能够有效避免由于图像的光照分布不均匀造成二值化预处理效果不佳影响文本行识别的问题，从而通过采用sauvola进一步提高了文本行识别的效果和准确度。该过程可以包括：

a、通过sauvola二值化方式对图像进行二值化预处理时，预先设定所要处理的输入图像的处理窗口参数。

具体的，需要设定对输入图像处理的窗口大小(m*n)和阈值(k)两个参数。窗口大小(m*n)和阈值k均可以为经验值，窗口大小(m*n)的取值范围为[9,13],k的取值范围为[0.05,0.11]；

其中，采用的sauvola二值化算法可以使用均值,如果算法中标准差大,则设定的阈值k数值较大,标准差小,阈值k数值相应较小。

b、对sauvola二值化预处理后的图像进行闭运算处理。

具体的，预处理后的文字可能会被断开，此时需要用形态学的闭运算方法将断开的文字重新连接起来。闭运算可以使用边长为l的正方形结构元，l为经验值，取值范围为[3，7]。

其中，参照图3所示，为对图2中所示的输入图像进行二值化预处理后获取的图像示意图。

通过在sauvola二值化预处理后，再进行闭操作，能够尽可能的确保一个中文连入同一连通域，提高了中文字符的检测精度，方便了后续基于连通域对图像中文本行进行识别。

102、对二值化图像中的连通域进行过滤处理，获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域。

本发明实施例所采用的过滤处理包括粗过滤和细过滤，在实际应用中过滤也可以采用其他方式，本发明实施例对此不加以限定。

对二值化图像中的连通域进行粗过滤处理的过程可以包括：

a、获取二值化图像中的连通域，根据预设异常阈值，过滤连通域中异常的连通域。

其中，异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值；按像素设置的异常阈值可以为像素个数少于10或多于100000，按连通域宽高比设置的异常阈值可以为宽高比或高宽比为15，此处异常阈值的具体设置可以为经验值。

具体的，若该异常阈值包括按像素设置的异常阈值，则根据预设异常阈值，过滤该连通域中异常的连通域包括：

获取二值化图像中的连通域，去除像素个数少于10的连通域，或者去除像素个数多于100000的连通域，或者去除像素个数少于10和去除像素个数多于100000的连通域。

若该异常阈值包括按宽高比设置的异常阈值，则根据预设异常阈值，过滤该连通域中异常的连通域包括：

获取二值化图像中的连通域，并获取每个连通域的宽高值，去除宽高比或高宽比大于15的连通域。

b、获取粗过滤后的剩余连通域的宽高值，通过统计聚类算法对过滤后的剩余连通域的宽高值进行聚类，统计出现次数最多的连通域宽高值作为标准字体的尺寸。

具体的，对于粗过滤后剩余的连通域生成对应的外部矩形框，统计每个剩余连通域的外部矩形框的宽高值，该外部矩形框的宽高值作为对应的每个连通域的宽高值；

通过统计聚类算法对该每个剩余连通域的宽高值进行聚类，统计每个宽高值出现的频次，获取出现次数最多的连通域宽高值，将该出现次数最多的连通域宽高值作为标准宽高值；该标准高宽值即为获取的标准字体的高宽尺寸值。

对二值化图像中的连通域进行细过滤处理的过程可以包括：

a、以标准字体尺寸为标准，按照标准字体尺寸的宽高值的预设倍数过滤二值化图像中粗过滤后的剩余连通域；

其中，该预设倍数可以为宽为该标准字体尺寸的宽的3倍，高为该标准字体尺寸的高的3倍，需要说明的是，该预设倍数根据细过滤的实际需求进行设备，为经验值，本发明实施例对该预设倍数不加以限定；

具体的，对于粗过滤剩余的连通域，再次过滤该剩余连通域中宽大于该标准字体宽的3倍的连通域，或过滤高大于该标准字体高的3倍的连通域，或者过滤宽大于该标准字体宽的3倍及高大于该标准字体高的3倍的连通域。

通过对粗过滤后剩余的连通域再次进行细过滤，能够去除图像中非文字的图像区域，从而去除了图像中非文字图像区域对于文本行识别的干扰，进一步方便了后续对文本行的识别，提高了识别效率和精度。

b、获取二值化图像中细过滤处理后的连通域。

具体的，对于预处理后的二值化图像进行粗过滤及细过滤处理，获取过滤后最后剩余的连通域。

其中，参照图4所示，为对图3中所示的经过预处理获取的二值化图像进行过滤处理，获取的过滤处理后的图像示意图。

103、对符合标准字体尺寸的连通域生成外部矩形框。

具体的，该过程包括：

对于102b步骤中粗过滤后剩余的连通域生成的对应的外部矩形框中，去除其中经细过滤处理过滤掉的连通域对应的外部矩形框；或者

根据粗过滤和细过滤处理后，获取剩余的符合标准字体尺寸的连通域，以及生成对应的外部矩形框。

通过对符合标准字体尺寸的连通域生成外部矩形框，方便了对连通域的宽高值进行统计，从而进一步提高了识别的速度，提高了识别的效率。

104、按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框，及根据扩展矩形框对外部矩形框进行聚合处理。

a、该按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框的过程可以包括：

按照预设比例将每个符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框，其中，扩展矩形框与其对应的外部矩形框中心对齐。

具体的，扩展矩形框按照该预设比例，即可以按该扩展矩形框的宽为该连通域新的宽的2.8倍，该扩展矩形框的高为该连通域的高的0.3倍进行扩展生成该扩展矩形框；此处需要说明的是，该扩展比例的具体设置可以根据具体需要进行设置，该数值为经验值，为在多次试验过程中获取，也可以为其他值，本发明实施例对此不加以限定。

b、根据扩展矩形框对外部矩形框进行聚合处理的过程可以包括：

判断两个连通的扩展矩形框的iou值(相交范围占两个连通域并集的比例)是否在预设iou阈值范围内，若是，则将该两个连通域的扩展矩形框对应的外部矩形框进行聚合；否则，则不将该两个连通域的扩展矩形框对应的外部矩形框进行聚合；

该iou阈值可以为0.1。

其中，参照图5所示，为对图4中所示的对于过滤处理后的图像经过聚合处理，获取的聚合处理后的图像示意图。

通过根据扩展矩形框的相交情况对连通域的外部矩形框进行聚合，该方法简单直观，便于对于不同场景变换调整参数及修正。

105、根据聚合处理结果进行文本行识别。

其中，文本行包括水平文本行、竖直文本行以及斜向的文本行等，其中，运用最多的为水平文本行的识别；

根据聚合处理结果对于水平文本行可以通过以下方式进行识别：

具体的，若聚合后矩形框个数大于等于预设个数，且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值，则确定为水平文本行；该预设个数可以为2，该坐标y方差预设值可以为0.2；

若聚合后矩形框小于预设个数，或中心位置y分布分散，则确定为不是水平文本行。

其中，参照图6所示，为图中2中所示的输入图像的最终文本行检测结果的图像示意图。

需要说明的是，对于竖直文本行、和斜向文本行进行识别时，可以根据实际试验设置对应的参数，如识别竖直文本行时，聚合后矩形框个数大于预设个数，且聚合类中矩形框中心位置坐标center(x,y)的x的方差小于预设值，以确定是否为纵向文本行，其中的预设个数及x的方差的预设值可以根据实际进行设置；以及对于斜向文本行的识别原理与水平文本行及斜向文本行类似，此处不再一一进行说明。

同时，需要说明的是，对于文本行识别主要是区分聚合后的边框内容是属于文本行还是非文字图像；其中，识别方式还可以采用复杂的分类方法(如svm)，或者可以采用简单的二分类判定准则。文本行特征主要通过边框内的连通域进行提取，简单起见，一般可直接采用边框中心位置。复杂分类方法(如svm)一般需要预先将文本行收集好用于训练分类器，然后将文本行特征输入到训练好的分类器中，判断是否为文本行类。二分类判定准则主要是通过判定候选文本行内边框位置是否按线性排列分布(如：沿水平线分布)，若是则认为是文本行，否则不是；除此以外，也可以采用其他的识别方法，本发明实施例对具体的识别方式不加以限定。

通过聚合后矩形框个数大于等于预设个数，且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值，以确定为水平文本行，该方法相较于多层网络的dnn模型，该方法实现方式简便，运算精简，能够在快速检测的基础上提高检测的精度。

本发明实施例提供了一种图像文本行检测方法，通过对输入图像进行二值化预处理，对二值化图像中的连通域进行过滤处理，通过过滤处理能够去除异常的连通域以及去除非文字的图像区域，从而避免了异常连通域及非文字图像区域对于文本行检测的干扰，从而提高了文本行的检测精确度，以及能够提高文本行检测的效率；进一步地，通过按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框，因为生成的扩展矩形框与其对应的外部矩形框中心对齐，所以以扩展矩形框为参照，对外部矩形框进行聚合，从而根据聚合结合对文本行进行识别，因为对外部矩形框聚合后能够获取到聚合中心的坐标，以及若预设个数的外部矩形框相连，则可识别为文本行，从而通过本发明实施例提供的方法，在提高图像文本行检测速度的同时保证了检测精度和准确率，提高了检测效率。

实施例二

本发明实施例提供了一种图像文本行检测装置，参照图7所示，装置7包括：

预处理模块71，用于对输入图像进行二值化预处理，获取预处理后的二值化图像；

过滤处理模块72，用于对二值化图像中的连通域进行过滤处理，获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域；

外部矩形框生成模块73，用于对符合标准字体尺寸的连通域生成外部矩形框；

扩展矩形框生成模块74，用于按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框；

聚合处理模块75，用于根据扩展矩形框对外部矩形框进行聚合处理；

文本行识别模块76，用于根据聚合处理结果进行文本行识别。

进一步地，过滤模块72包括粗过滤子模块721和细过滤子模块722，粗过滤子模块721具体包括：

异常连通域过滤单元7211，用于获取二值化图像中的连通域，根据预设异常阈值，过滤连通域中异常的连通域，异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值；

聚类单元7212，用于获取粗过滤后的剩余连通域的宽高值，通过统计聚类算法对过滤后的剩余连通域的宽高值进行聚类，统计出现次数最多的连通域宽高值作为标准字体的尺寸。

进一步地，细过滤子模块722具体用于：

以标准字体尺寸为标准，按照标准字体尺寸的宽高值的预设倍数过滤二值化图像中粗过滤后的剩余连通域；以及

获取二值化图像中细过滤处理后的连通域。

进一步地，扩展矩形框生成模块74具体用于按照预设比例将每个符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框，其中，扩展矩形框与其对应的外部矩形框中心对齐；

聚合处理模块75包括判断子模块751和聚合子模块752；

判断子模块751用于判断两个连通域的扩展矩形框的iou值(相交范围占两个连通域并集的比例)是否在预设iou阈值范围内，若是，则聚合子模块752将两个连通域的扩展矩形框对应的外部矩形框进行聚合；否则，聚合子模块752不将两个连通域的扩展矩形框对应的外部矩形框进行聚合。

进一步地，文本行识别模块76具体用于：

若聚合后矩形框个数大于等于预设个数，且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值，则确定为文本行；

若聚合后矩形框小于预设个数，或中心位置y分布分散，则确定为不是文本行。

本发明实施例提供了一种图像文本行检测装置，该装置通过对输入图像进行二值化预处理，对二值化图像中的连通域进行过滤处理，通过过滤处理能够去除异常的连通域以及去除非文字的图像区域，从而避免了异常连通域及非文字图像区域对于文本行检测的干扰，从而提高了文本行的检测精确度，以及能够提高文本行检测的效率；进一步地，通过按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框，因为生成的扩展矩形框与其对应的外部矩形框中心对齐，所以以扩展矩形框为参照，对外部矩形框进行聚合，从而根据聚合结合对文本行进行识别，因为对外部矩形框聚合后能够获取到聚合中心的坐标，以及若预设个数的外部矩形框相连，则可识别为文本行，从而通过本发明实施例提供的方法，在提高图像文本行检测速度的同时保证了检测精度和准确率，提高了检测效率。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像文本行检测装置在执行图像文本行检测方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像文本行检测装置与图像文本行检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李宏宇;彭宇翔
技术所有人：众安信息技术服务有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。