一种文本定位方法、装置、电子设备及存储介质与流程

文档序号：21272851发布日期：2020-06-26 23:02阅读：272来源：国知局

本申请涉及人工智能、图像处理和文本识别的技术领域，具体而言，涉及一种文本定位方法、装置、电子设备及存储介质。

背景技术：

文本识别，是指对包括字符的图像进行分析处理，获取版面信息并识别其中的字符，从而将文本图像转换为电子文本的过程。从图像中识别字符的过程包括：图像采集、图像预处理、行分割、字符分割和字符识别；图像采集是指使用摄像头将手写体的文字图片拍照采集录入；图像预处理是指对字符图像进行去噪和旋转矫正等处理。行分割是指在预处理完成以后，采用投影法将文字行分割出来，分割出来的结果例如：一行文字图像；字符分割是指在文字分割完成以后，将一行文字图分割为字符图像；字符识别是指从字符图像中识别出该字符图像对应的字符或者字符编码。

文本定位，是指从图像中检测出文本的位置范围，例如：广告牌上的广告文字等，可以简单地理解为上述的行分割，也可以理解为确定多个字符组成的文本位置范围的过程。

在具体的实践过程中，图像中的字符背景复杂多样，例如：广告牌上文字形变严重，以及产品包装上褶皱弯曲等等情况，目前使用传统方法很难从上述情况下的图像中确定出合适的文本边框，该文本边框表征图像中的多个字符组成文本的位置范围，也就是说，使用上述方法在图像中确定文本边框的效果较差。

技术实现要素：

本申请实施例的目的在于提供一种文本定位方法、装置、电子设备及存储介质，用于改善在图像中确定文本边框的效果较差的问题。

本申请实施例提供了一种文本定位方法，包括：获得待测图像；使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图，字符区域概率图表征图像区域中存在字符的概率大小，字符连接概率图表征图像区域中的字符之间存在连接的概率大小；根据字符区域概率图确定待测图像中的多个字符边框，字符边框表征图像中存在字符的位置范围；根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框，文本边框表征图像中的多个字符边框对应字符组成文本的位置范围。在上述的实现过程中，使用预先训练的神经网络模型预测获得的待测图像的字符区域概率图和字符连接概率图；再根据字符区域概率图确定待测图像中的多个字符边框；然后根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框；也就是说，通过使用字符连接概率图中表征字符连接概率预测出连接在一起的字符边框，避免将两个距离较远的文本区域识别为一个文本边框的情况，同时也避免了将字形严重变化或者文字极度弯曲的情况下识别为两个文本边框的情况，极大地提高了确定待测图像中的字符连接的准确率，从而有效地提高了确定待测图像中的文本边框的效果。

可选地，在本申请实施例中，在使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图之后，在根据字符区域概率图确定待测图像中的多个字符边框之前，还包括：对待测图像的字符区域概率图和字符连接概率图进行高斯滤波，获得滤波后的字符区域概率图和字符连接概率图。在上述的实现过程中，通过对待测图像的字符区域概率图和字符连接概率图进行高斯滤波，获得滤波后的字符区域概率图和字符连接概率图，将较小概率字符区域消除，使得滤波后的字符区域概率图和字符连接概率图的连接处更加平滑，从而有效地提高了确定待测图像中的文本边框的效果。

可选地，在本申请实施例中，根据字符区域概率图确定待测图像中的多个字符边框，包括：根据字符区域概率图生成至少一个连通区域，连通区域表征图像中的像素值相同且位置相邻的像素点组成的区域；根据至少一个连通区域计算待测图像中的多个字符边框。在上述的实现过程中，通过根据字符区域概率图生成至少一个连通区域，并根据至少一个连通区域计算待测图像中的多个字符边框；从而有效地提高了获得多个字符边框的准确率。

可选地，在本申请实施例中，根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框，包括：根据字符连接概率图确定文本边框包括的字符数量；将字符数量乘以多个字符边框的平均宽度，获得文本宽度；计算多个字符边框的平均高度，获得文本高度；根据文本宽度和文本高度确定文本边框。在上述的实现过程中，通过将字符数量乘以多个字符边框的平均宽度，获得文本宽度；计算多个字符边框的平均高度，获得文本高度；根据文本宽度和文本高度来确定文本边框，从而有效地提高了确定待测图像中的文本边框的效果。

可选地，在本申请实施例中，根据字符连接概率图确定文本边框包括的字符数量，包括：根据字符连接概率图从多个字符边框中筛选出至少一个字符边框；将至少一个字符边框的数量确定为字符数量。在上述的实现过程中，通过根据字符连接概率图从多个字符边框中筛选出至少一个字符边框；将至少一个字符边框的数量确定为字符数量，从而有效地提高了确定待测图像中的文本边框的效果。

可选地，在本申请实施例中，多个字符边框包括：第一字符边框和第二字符边框；根据字符连接概率图从多个字符边框中筛选出至少一个字符边框，包括：根据字符连接概率图确定第一字符边框和第二字符边框的连接概率，连接概率表征第一字符边框和第二字符边框相邻且有交集的概率；若连接概率大于预设阈值，则从多个字符边框中筛选出第一字符边框和第二字符边框。在上述的实现过程中，通过根据字符连接概率图确定第一字符边框和第二字符边框的连接概率；若连接概率大于预设阈值，则从多个字符边框中筛选出第一字符边框和第二字符边框；从而有效地提高了确定待测图像中的文本边框的效果。

可选地，在本申请实施例中，还包括：获得训练图像、训练图像的字符区域概率图和训练图像的字符连接概率图；以训练图像为训练数据，以字符区域概率图和字符连接概率图为训练标签，对神经网络进行训练，获得神经网络模型。在上述的实现过程中，以训练图像为训练数据，以字符区域概率图和字符连接概率图为训练标签，对神经网络进行训练，获得神经网络模型；从而有效地提高了确定待测图像中的文本边框的效果。

本申请实施例还提供了一种文本定位装置，包括：待测图像获得模块，用于获得待测图像；待测图像预测模块，用于使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图，字符区域概率图表征图像区域中存在字符的概率大小，字符连接概率图表征图像区域中的字符之间存在连接的概率大小；字符边框确定模块，用于根据字符区域概率图确定待测图像中的多个字符边框，字符边框表征图像中存在字符的位置范围；文本边框确定模块，用于根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框，文本边框表征图像中的多个字符边框对应字符组成文本的位置范围。

可选地，在本申请实施例中，文本定位装置还包括：图像高斯滤波模块，用于对待测图像的字符区域概率图和字符连接概率图进行高斯滤波，获得滤波后的字符区域概率图和字符连接概率图。

可选地，在本申请实施例中，字符边框确定模块，包括：连通区域生成模块，用于根据字符区域概率图生成至少一个连通区域，连通区域表征图像中的像素值相同且位置相邻的像素点组成的区域；字符边框计算模块，用于根据至少一个连通区域计算待测图像中的多个字符边框。

可选地，在本申请实施例中，文本边框确定模块，包括：字符数量确定模块，用于根据字符连接概率图确定文本边框包括的字符数量；文本宽度获得模块，用于将字符数量乘以多个字符边框的平均宽度，获得文本宽度；文本高度获得模块，用于计算多个字符边框的平均高度，获得文本高度；文本边框获得模块，用于根据文本宽度和文本高度确定文本边框。

可选地，在本申请实施例中，字符数量确定模块，包括：第一筛选模块，用于根据字符连接概率图从多个字符边框中筛选出至少一个字符边框；第一确定模块，用于将至少一个字符边框的数量确定为字符数量。

可选地，在本申请实施例中，多个字符边框包括：第一字符边框和第二字符边框；第一筛选模块，包括：第二确定模块，用于根据字符连接概率图确定第一字符边框和第二字符边框的连接概率，连接概率表征第一字符边框和第二字符边框相邻且有交集的概率；第二筛选模块，用于若连接概率大于预设阈值，则从多个字符边框中筛选出第一字符边框和第二字符边框。

可选地，在本申请实施例中，文本定位装置，还包括：数据获得模块，用于获得训练图像、训练图像的字符区域概率图和训练图像的字符连接概率图；模型训练模块，用于以训练图像为训练数据，以字符区域概率图和字符连接概率图为训练标签，对神经网络进行训练，获得神经网络模型。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的文本定位方法的流程示意图；

图2示出的本申请实施例提供的待测图像的其中一种示意图；

图3示出的本申请实施例提供的待测图像的字符区域概率图的示意图；

图4示出的本申请实施例提供的待测图像的字符连接概率图的示意图；

图5示出的本申请实施例提供的由vgg16-bn构成的神经网络模型的结构示意图；

图6示出的本申请实施例提供的制作字符区域概率图和字符连接概率图的示意图；

图7示出的本申请实施例提供的使用高斯过滤的文本定位方法的流程示意图；

图8示出的本申请实施例提供的文本定位装置的结构示意图；

图9示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的文本定位方法之前，先介绍本申请实施例所涉及的一些概念，本申请实施例所涉及的一些概念如下：

人工智能（artificialintelligence，ai），是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

深度学习（deeplearning），是指学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助；深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据，深度学习包括但不限于使用更深层次的神经网络模型提取文字、图像和声音等数据的特征。

人工神经网络（artificialneuralnetwork，ann），简称神经网络（neuralnetwork，nn）或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络（例如：动物的中枢神经系统，可以是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似；这里的神经网络由大量的人工神经元联结进行计算。这里的神经网络（neuralnetworks，nn）是由大量的、简单的处理单元（称为神经元）广泛地互相连接而形成的复杂网络系统。

卷积层（convolutionallayer），又称卷积神经网络层，是指卷积神经网络中每层卷积层是由若干卷积单元组成的计算单元层，每个卷积单元的参数都是通过反向传播算法最佳化得到的，卷积层是一组平行的特征图，通过在输入图像上滑动不同的卷积核并运行一定的运算而组成。

特征图，又称特征矩阵图，是指经过某网络模型对图像进行特征提取后，获得一个用于表征该图像中的某些特征的矩阵，这里的某些特征可能是表示位置边框信息的具体特征，也可能是表示语义信息的抽象特征。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和unix服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(reducedinstructionsetcomputing，risc)、单字长定点指令平均执行速度（millioninstructionspersecond，mips）等专用处理器，主要支持unix操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的文本定位方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑（personalcomputer，pc）、平板电脑、个人数字助理（personaldigitalassistant，pda）、移动上网设备（mobileinternetdevice，mid）、网络交换机或网络路由器等。

在介绍本申请实施例提供的文本定位方法之前，先介绍该文本定位方法适用的应用场景，这里的应用场景包括但不限于：使用该文本定位方法定位图像中的文本，以识别图像中的文本或者对图像进行分割等等，或者用于数据输入和编码溯源等；其中，数据输入例如：随时随地拍摄自己感兴趣的图片，这些图片包含着大量有用文本信息，在自然场景中的路标道路信息、商店名称、宣传标语等，这些文本信息可以为智能交通、实时翻译、无人驾驶、数据智能等提供决策数据输入；编码溯源例如：在工业场景中，零件上的激光刻印编号、印刷编号、点焊编号等，工人需要对这些编码进行系统录入，进行产品溯源，以便精确定位到生产环节。

请参见图1示出的本申请实施例提供的文本定位方法的流程示意图；该文本定位方法可以包括如下步骤：

步骤s110：获得待测图像。

请参见图2示出的本申请实施例提供的待测图像的其中一种示意图；待测图像，是指需要验证和测试是否包括文本的区域位置范围的图像，具体例如：包括路标道路信息、商店名称、宣传标语等文字的图片，或者包括零件的激光刻印编号、印刷编号、点焊编号等编号的图片等等。

上述的步骤s110中的待测图像的获得方式包括：第一种方式，获取预先存储的待测图像，从文件系统中获取待测图像，或者从数据库中获取待测图像；第二种方式，从其他终端设备接收获得待测图像，这里的其他终端设备可以是图像或视频获取设备，具体例如：彩色照相机或黑白照相机等；第三种方式，使用浏览器等软件获取互联网上的待测图像，或者使用其它应用程序访问互联网获得待测图像。

在步骤s110之后，执行步骤s120：使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图。

请参见图3示出的本申请实施例提供的待测图像的字符区域概率图的示意图；这里的字符区域概率图，又被称为字符区域响应图或者字符响应图，是指能够表征图像区域中存在字符的概率大小的响应图或特征图；这里的响应可以理解为高斯响应，因为高斯过程是服从正态分布的随机变量，在指数集内中心区域密度最高，即字符中心响应值最高，同高斯概率分布形同；在本文每个字符中，就是应用高斯贴图生成的敏感区域，表示为中心最亮，即映射为中心密度最高。

请参见图4示出的本申请实施例提供的待测图像的字符连接概率图的示意图；这里的字符连接概率图，又被称为字符连接响应图，是指能够表征图像区域中的字符之间存在连接的概率大小的响应图或特征图；这里的响应可以理解为高斯响应，高斯过程是服从正态分布的随机变量，因此，图中表示的亮度大小和高斯响应的关联和上述描述是一致的，有不清楚的地方可以参考上述对高斯响应的描述。

神经网络模型，是指使用预设的训练数据对未经训练的神经网络进行训练后获得的神经网络模型，这里的预设的训练数据可以根据具体实际情况进行设置，例如：在图像识别的任务中，预设的训练数据是指需要识别的图像，在有监督学习训练过程中，需要对训练数据设置正确的标签。

上述的神经网络的获得方式包括：第一种实施方式，从头开始搭建神经网络获得；第二种实施方式，使用现有的神经网络拼接和裁剪，获得上述的神经网络，这里的现有神经网络具体例如：vgg16、vgg16-bn和vgg19等。

请参见图5示出的本申请实施例提供的由vgg16-bn构成的神经网络模型的结构示意图；为了便于理解的和说明，这里以vgg16-bn进行拼接和裁剪为例进行说明，使用vgg16-bn进行拼接和裁剪，获得的神经网络模型如图5所示，使用h×w×3表示待测图像，其中，待测图像的高度为h，待测图像的宽度为w，图中的符号（h×w×3）中的3表示该待测图像为3个通道；该神经网络模型包括：基础架构部分和特征提取部分；其中，基础架构部分是用于对待测图像进行多次卷积运算，获得卷积特征，这里的卷积特征包括：浅层特征和深层特征，特征提取部分用于将浅层特征和深层特征进行融合，特征融合的具体方式可以采用连接（concatenate）层；这里的基础架构部分采用的是vgg16-bn模型，特征提取部分包括：多个卷积层、多个上卷积块（upconvblock）和多个上采样（upsample）层；其中，每个上卷积块包括：两个卷积层和两个批量标准化（batch_norm）层。

其中，上述步骤s120中的神经网络模型的训练方法可以包括：

步骤s121：获得训练图像、训练图像的字符区域概率图和训练图像的字符连接概率图。

训练图像，是指包括文本字符的图像，能够作为神经网络模型的训练数据的图像，具体例如：包括路标道路信息、商店名称、宣传标语等文字的图片，或者包括零件的激光刻印编号、印刷编号、点焊编号等编号的图片等等。这里的训练图像的字符区域概率图和训练图像的字符连接概率图的概念和上面的概念类似。

上述的步骤s121中的训练图像的获得方式包括：第一种方式，获取预先存储的训练图像，从文件系统中获取训练图像，或者从数据库中获取训练图像；第二种方式，从其他终端设备接收获得训练图像；第三种方式，使用浏览器等软件获取互联网上的训练图像，或者使用其它应用程序访问互联网获得训练图像；第四种方式，对现有的训练图像进行图像增强操作，又称扩增训练数据集，以获得更多的训练图像，图像增强操作具体例如：改变背景颜色或亮度、旋转图像角度或者裁剪图像大小等等。这里的图像增强是指将原来不清晰的图像变得清晰或者强调某些关注的特征，抑制非关注的特征，进而改善图像质量、丰富信息量，加强图像判读和识别效果的图像处理方法。

请参见图6示出的本申请实施例提供的制作字符区域概率图和字符连接概率图的示意图；上述的步骤s121中的字符区域概率图和字符连接概率图的获得方式包括：第一种方式，人工地观察训练图像，并将训练图像的字符区域概率图和字符连接概率图标注出来，即人工地对图像进行标注，如图右上角所示，字符区域概率图的制作方法具体例如：参照现有数据集中的标注信息，该标注信息包含词级标注和字符级标注，生成高斯响应图，利用字符标注信息中的4个角点坐标生成矩形框，高斯响应图通过透视旋转定律变换到字符框中。如图左上角所示，字符连接概率图的制作方法具体例如：根据字符4个角点坐标计算出中心点坐标，并向字符标注框长边方向各偏移h/4距离，每个字符都进行此操作，然后连接相邻字符偏移点4个坐标，生成字符间连接框，将高斯响应图透视变换贴到连接框中。

第二种方式，使用已经训练好的神经网络模型生成训练图像中的字符区域概率图和字符连接概率图，这里的具体方法与步骤s120类似，有不清楚的地方可以参照步骤s120，因此，这里便不再对该方法说明。

第三种方式，直接使用现有且已经公开的训练数据集，该训练数据集包括：多个训练图像、与训练图像对应的字符区域概率图和字符连接概率图。

步骤s122：以训练图像为训练数据，以字符区域概率图和字符连接概率图为训练标签，对神经网络进行训练，获得神经网络模型。

上述步骤s122中的对神经网络进行训练的实施方式例如：以训练图像为训练数据，以字符区域概率图和字符连接概率图为训练标签，使用监督式学习（supervisedlearning）方式对神经网络进行训练，获得神经网络模型。这里的监督式学习是机器学习的一种方法，可以由训练资料中学到或建立一个学习模式（learningmodel）或学习函数，并依此模式推测新的实例。

在步骤s120之后，执行步骤s130：根据字符区域概率图确定待测图像中的多个字符边框。

字符边框，是指表征图像中存在字符的位置范围的边框，可以理解为字符的最小外接矩形框；具体例如：待测图像中的产品编号为zs162fmk-s☆8k704378☆，那么这里的字符边框可以是框选出产品编号中每个字符的边框。

上述的步骤s130中的根据字符区域概率图确定待测图像中的多个字符边框的实施方式可以包括：根据字符区域概率图生成至少一个连通区域；这里的连通区域是指能够表征图像中的像素值相同且位置相邻的像素点组成的区域，请参照图6下半部分方框中的图像；具体例如：根据字符区域概率图可以生成四个连通区域；根据这四个连通区域计算待测图像中的多个字符边框的数量为五个，即可以获得五个字符边框。在上述的实现过程中，通过根据字符区域概率图生成至少一个连通区域，并根据至少一个连通区域计算待测图像中的多个字符边框；从而有效地提高了获得多个字符边框的准确率。

在步骤s130之后，执行步骤s140：根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框。

文本边框，是指表征图像中的多个字符边框对应字符组成文本的位置范围的边框，该边框中包括表征字符的文本，也可以理解为，连在一起的字符组成的文本的最小外接矩形框或者最小外接多边形区域。

上述的步骤s140的实施方式可以包括如下步骤：

步骤s141：根据字符连接概率图确定文本边框包括的字符数量。

上述的步骤s140中的根据字符连接概率图确定文本边框包括的字符数量的实施方式例如：根据字符连接概率图从多个字符边框中筛选出至少一个字符边框；将至少一个字符边框的数量确定为字符数量；具体例如：若一个广告牌中有十个字，共两句话，上面的一句话和下面的一句话都是五个字，可以根据字符连接概率图确定前五个字是相互连接的，也可以根据字符连接概率图确定后五个字是相互连接的；那么在确定上面的一句话或者下面的一句话时，可以得知文本边框包括的字符数量均为五个字。

上述的根据字符连接概率图从多个字符边框中筛选出至少一个字符边框的实施方式例如：根据字符连接概率图确定第一字符边框和第二字符边框的连接概率，连接概率表征第一字符边框和第二字符边框相邻且有交集的概率；若连接概率大于预设阈值，则从多个字符边框中筛选出第一字符边框和第二字符边框，这里的预设阈值是指预先设置的限制阈值，该预设阈值可以根据具体实际情况进行设置，例如：可以设置为20%、50%或90%等；其中，可以从字符连接概率图中筛选出第一字符边框和第二字符边框所占像素数，将该所占像素数和字符连接概率图中像素数的比例值确定为第一字符边框和第二字符边框的连接概率。

步骤s142：将字符数量乘以多个字符边框的平均宽度，获得文本宽度。

上述的步骤s142中的将字符数量乘以多个字符边框的平均宽度，获得文本宽度的实施方式例如：若字符数量为5，五个字符边框的平均宽度为3厘米，那么文本宽度则为15厘米。

步骤s143：计算多个字符边框的平均高度，获得文本高度。

上述的步骤s143中的计算多个字符边框的平均高度，获得文本高度的实施方式例如：若五个字符边框的平均高度为4厘米，则可以将4厘米确定为该文本的高度，即文本高度。

步骤s144：根据文本宽度和文本高度确定文本边框。

上述的步骤s144中的根据文本宽度和文本高度确定文本边框的实施方式例如：若文本宽度为15厘米，文本高度为4厘米，那么可以确定该文本边框的宽度为15厘米且高度为4厘米，将该文本边框可以在待测图像中显示出来。

上述的步骤s140的实施方式又例如：根据字符区域概率图生成连通域并消除较小连通域，并对连通域进行数字标记，遍历连通域数量，并对每个连通域进行最小外接矩的计算，得到文本框的四个坐标。

在上述的实现过程中，使用预先训练的神经网络模型预测获得的待测图像的字符区域概率图和字符连接概率图；再根据字符区域概率图确定待测图像中的多个字符边框；然后根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框；也就是说，通过使用字符连接概率图中表征字符连接概率预测出连接在一起的字符边框，避免将两个距离较远的文本区域识别为一个文本边框的情况，同时也避免了将字形严重变化或者文字极度弯曲的情况下识别为两个文本边框的情况，极大地提高了确定待测图像中的字符连接的准确率，从而有效地提高了确定待测图像中的文本边框的效果。

请参见图7示出的本申请实施例提供的使用高斯过滤的文本定位方法的流程示意图；可选地，在使用神经网络模型预测之后，在根据字符区域概率图确定多个字符边框之前，还可以使用高斯过滤方法进行过滤，那么该文本定位方法具体可以包括如下步骤：

步骤s210：获得待测图像。

其中，该步骤的实施原理和实施方式与步骤s110的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤s110的描述。

在步骤s210之后，执行步骤s220：使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图。

其中，该步骤的实施原理和实施方式与步骤s120的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤s120的描述。

在步骤s220之后，执行步骤s230：对待测图像的字符区域概率图和字符连接概率图进行高斯滤波，获得滤波后的字符区域概率图和字符连接概率图。

上述的步骤s230的实施方式例如：对待测图像的字符区域概率图和字符连接概率图进行高斯滤波，获得滤波后的字符区域概率图和字符连接概率图。这里的高斯滤波是指一种线性平滑滤波，适用于消除高斯噪声，广泛应用于图像处理的减噪过程；高斯滤波就是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作例如：用一个模板（或称卷积、掩模）扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。

在上述的实现过程中，通过对待测图像的字符区域概率图和字符连接概率图进行高斯滤波，获得滤波后的字符区域概率图和字符连接概率图，将较小概率字符区域消除，使得滤波后的字符区域概率图和字符连接概率图的连接处更加平滑，从而有效地提高了确定待测图像中的文本边框的效果。

在步骤s230之后，执行步骤s240：根据字符区域概率图确定待测图像中的多个字符边框。

其中，该步骤的实施原理和实施方式与步骤s130的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤s130的描述。

在步骤s240之后，执行步骤s250：根据字符连接概率图确定文本边框包括的字符数量。

上述的步骤s250中根据字符连接概率图确定文本边框包括的字符数量的实施方式包括：

步骤s251：根据字符连接概率图从多个字符边框中筛选出至少一个字符边框。

上述的步骤s251的实施方式例如：根据字符连接概率图确定第一字符边框和第二字符边框的连接概率，连接概率表征第一字符边框和第二字符边框相邻且有交集的概率；若连接概率大于预设阈值，则从多个字符边框中筛选出第一字符边框和第二字符边框，这里的预设阈值是指预先设置的限制阈值，该预设阈值可以根据具体实际情况进行设置，例如：可以设置为20%、50%或90%等。

步骤s252：将至少一个字符边框的数量确定为字符数量。

上述的步骤s252中的将至少一个字符边框的数量确定为字符数量的实施方式例如：若字符边框的数量为5，则将5确定为字符数量。

在步骤s250之后，执行步骤s260：将字符数量乘以多个字符边框的平均宽度，获得文本宽度。

其中，该步骤的实施原理和实施方式与步骤s142的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤s142的描述。

在步骤s240之后，执行步骤s270：计算多个字符边框的平均高度，获得文本高度。

其中，该步骤的实施原理和实施方式与步骤s143的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤s143的描述。

上述的步骤s260和步骤s270的执行顺序可以不作限制，可以步骤s260先执行且步骤s270后执行，也可以步骤s270先执行且步骤s260后执行，当然也可以步骤s260和步骤s270并行执行，即步骤s260和步骤s270一起执行。

在步骤s260和步骤s270之后，执行步骤s280：根据文本宽度和文本高度确定文本边框。

其中，该步骤的实施原理和实施方式与步骤s144的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤s144的描述。

在步骤s280之后，执行步骤s290：根据文本边框裁切待测图像，或者识别待测图像在文本边框中的字符。

上述的步骤s290的实施方式例如：若待测图像中的文本边框包括至少一个字符，则根据文本边框裁切待测图像，获得裁切图像；或者在获得裁切图像之后，可以识别待测图像在文本边框中的字符，即识别裁切图像中的字符。

在上述的实现过程中，通过将字符数量乘以多个字符边框的平均宽度，获得文本宽度；计算多个字符边框的平均高度，获得文本高度；根据文本宽度和文本高度来确定文本边框，从而有效地提高了确定待测图像中的文本边框的效果。

请参见图8示出的本申请实施例提供的文本定位装置的结构示意图；本申请实施例提供了一种文本定位装置300，包括：

待测图像获得模块310，用于获得待测图像。

待测图像预测模块320，用于使用预先训练的神经网络模型预测待测图像的字符区域概率图和字符连接概率图，字符区域概率图表征图像区域中存在字符的概率大小，字符连接概率图表征图像区域中的字符之间存在连接的概率大小。

字符边框确定模块330，用于根据字符区域概率图确定待测图像中的多个字符边框，字符边框表征图像中存在字符的位置范围。

文本边框确定模块340，用于根据多个字符边框和字符连接概率图确定待测图像中的至少一个文本边框，文本边框表征图像中的多个字符边框对应字符组成文本的位置范围。

可选地，在本申请实施例中，该文本定位装置还包括：

图像高斯滤波模块，用于对待测图像的字符区域概率图和字符连接概率图进行高斯滤波，获得滤波后的字符区域概率图和字符连接概率图。

可选地，在本申请实施例中，字符边框确定模块，包括：

连通区域生成模块，用于根据字符区域概率图生成至少一个连通区域，连通区域表征图像中的像素值相同且位置相邻的像素点组成的区域。

字符边框计算模块，用于根据至少一个连通区域计算待测图像中的多个字符边框。

可选地，在本申请实施例中，文本边框确定模块，包括：

字符数量确定模块，用于根据字符连接概率图确定文本边框包括的字符数量。

文本宽度获得模块，用于将字符数量乘以多个字符边框的平均宽度，获得文本宽度。

文本高度获得模块，用于计算多个字符边框的平均高度，获得文本高度。

文本边框获得模块，用于根据文本宽度和文本高度确定文本边框。

可选地，在本申请实施例中，字符数量确定模块，包括：

第一筛选模块，用于根据字符连接概率图从多个字符边框中筛选出至少一个字符边框。

第一确定模块，用于将至少一个字符边框的数量确定为字符数量。

可选地，在本申请实施例中，多个字符边框包括：第一字符边框和第二字符边框；第一筛选模块，包括：

第二确定模块，用于根据字符连接概率图确定第一字符边框和第二字符边框的连接概率，连接概率表征第一字符边框和第二字符边框相邻且有交集的概率。

第二筛选模块，用于若连接概率大于预设阈值，则从多个字符边框中筛选出第一字符边框和第二字符边框。

可选地，在本申请实施例中，上述的文本定位装置，还包括：

数据获得模块，用于获得训练图像、训练图像的字符区域概率图和训练图像的字符连接概率图。

模型训练模块，用于以训练图像为训练数据，以字符区域概率图和字符连接概率图为训练标签，对神经网络进行训练，获得神经网络模型。

应理解的是，该装置与上述的文本定位方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件（firmware）的形式存储于存储器中或固化在装置的操作系统（operatingsystem，os）中的软件功能模块。

请参见图9示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的文本定位方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（staticrandomaccessmemory,简称sram），电可擦除可编程只读存储器（electricallyerasableprogrammableread-onlymemory,简称eeprom），可擦除可编程只读存储器（erasableprogrammablereadonlymemory,简称eprom），可编程只读存储器（programmablered-onlymemory,简称prom），只读存储器（read-onlymemory,简称rom），磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张发恩;孙天齐;袁智超;陆强
技术所有人：创新奇智(北京)科技有限公司
我是此专利的发明人

上一篇：一种用于重烧窑工作层的整体预制方法与流程
上一篇：二氧化碳水合物微肥制备装置及制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。