目标检测模型的训练方法、文本组行的方法及相关产品与流程

文档序号：30966658发布日期：2022-07-30 18:12阅读：109来源：国知局

1.本发明的实施方式涉及数据处理技术领域，更具体地，本发明的实施方式涉及目标检测模型的训练方法、使用目标检测模型进行文本组行的方法、计算装置及计算机可读存储介质。

背景技术：

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
3.近年来，如何使机器学会阅读以及理解文字是学术界和工业界关心的热点课题。机器阅读的流程通常包含文本检测、文本识别和文本组行，目前主要通过深度学习进行文本识别并通过形态学后处理的方法进行文本组行。
4.但是，深度学习及形态学后处理的方法通常需要占用大量的计算资源和存储空间，这限制了机器阅读在各种移动端和边缘设备等方面的应用。另外，目前深度学习方法的文本识别的准确率较低，从而会降低其文本组行的准确性。进一步，形态学处理方法的耗时较长，因此使得文本组行的效率较低。

技术实现要素：

5.在现有技术中，如何对输入图像进行快速、准确的组行处理以及如何减小组行过程中的计算资源消耗是非常令人烦恼的过程。
6.因此，期望提供一种使用目标检测模型进行文本组行的方案，其能用较少的计算资源实现快速、准确的文本组行处理，从而使得其可以适用于各种设备(例如移动端设备)使用。
7.在本上下文中，本发明的实施方式期望提供一种目标检测模型的训练方法、使用目标检测模型进行文本组行的方法、计算装置及计算机可读存储介质。
8.在本发明实施方式的第一方面中，提供了一种目标检测模型的训练方法，其特征在于，所述目标检测模型用于预测文本中的文本字符和文本间隙，所述训练方法包括：获取训练图片，其中所述训练图片包括已标注类别的文本字符以及已标注类别的文本间隙；以及将所述训练图片输入到所述目标检测模型进行训练，以得到用于进行文本字符和文本间隙的分类和定位的目标检测模型。
9.可选地或附加地，在本发明的一个实施例中，上述文本字符通过文本框进行标注，所述文本间隙通过连接框进行标注，并且每个所述连接框分别与其左右两侧的两个文本框至少部分重合，其中所述左右两侧的两个文本框所对应的文本字符与所述连接框所对应的文本间隙属于同一文本行，在所述文本间隙的两侧且与其相邻。
10.在本发明的另一实施例中，上述文本框和所述连接框均为矩形框，每个所述连接
框的左侧两个端点为所述连接框左侧的文本框中的两条对角线对其切分所形成的上下两个三角形的质心，每个所述连接框的右侧两个端点为所述连接框右侧的文本框中的两条对角线对其切分所形成的上下两个三角形的质心。
11.在本发明实施方式的第二方面中，提供了一种使用目标检测模型进行文本组行的方法，所述目标检测模型已按照前述第一方面任一实施例所述的训练方法进行训练，并且所述方法包括：获取目标图片；根据所述目标检测模型对所述目标图片进行目标识别和定位，以确定所述目标图片中的文本字符、文本间隙以及文本字符和文本间隙的位置信息；以及根据文本字符的位置信息和文本间隙的位置信息对所述文本字符进行组行处理，以得到一个或多个文本行。
12.在本发明的又一个实施例中，上述对所述文本字符进行组行处理包括：根据所述文本字符的位置信息和文本间隙的位置信息，确定文本字符与文本间隙之间的距离；根据所述距离确定属于同一文本行的文本字符；以及根据各个文本行所包含的文本字符的位置信息将属于不同文本行的各个文本字符按照预设排序规则排列，以形成一个或多个文本行。
13.在本发明的一些实施例中，上述根据所述距离确定属于同一文本行的文本字符包括：针对任意两个文本字符，根据所述两个文本字符分别与同一文本间隙之间的距离，确定所述两个文本字符是否属于同一文本行。
14.在本发明的再一个实施例中，上述确定所述两个文本字符是否属于同一文本行包括：判断所述两个文本字符与任一相同文本间隙之间的所述距离是否均满足预设关系；以及响应于所述两个文本字符与一个相同文本间隙之间的所述距离均满足预设关系，确定所述两个文本字符属于同一文本行。
15.可选地或附加地，在本发明的一些实施例中，上述文本字符的位置信息使用文本框表征，所述文本间隙的位置信息使用连接框表征，所述文本字符与文本间隙之间的距离使用对应的文本框与连接框之间的交并比表示，所述预设关系为所述交并比超过交并比阈值。
16.在本发明的再一个实施例中，上述确定属于同一文本行的文本字符包括：构建节点集合，每个节点对应一个识别出的文本字符，并将每个节点的父节点初始化节点自己；对所述节点进行两两遍历，以检测两个节点是否属于同一文本行；将属于同一文本行的两个节点的父节点设置成相同；以及遍历结束后，将父节点相同的节点确定为同一文本行。
17.在本发明实施方式的第三方面中，提供了一种计算装置，包括：处理器，其配置用于执行程序指令；以及存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述处理器执行根据前述第一方面任一实施例所述的目标检测模型的训练方法或执行前述第二方面任一实施例所述的文本组行的方法。
18.在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据前述第一方面任一实施例所述的目标检测模型的训练方法或执行前述第二方面任一实施例所述的文本组行的方法。
19.根据本发明实施方式的目标检测模型的训练方法训练得到的目标检测模型，可以准确的识别出图片中的文本字符和文本间隙并定位，从而使得利用识别出的这些文本字符
和文本间隙对图片中的文本字符进行组行处理时，组行结果的准确率更高且消耗的计算资源更少，进而使得该方案可以在各种设备(如移动端设备)上使用。
20.另外，根据本发明实施方式的文本组行的方案，可以根据从图片中识别出的文本字符和文本间隙对文本字符进行组行处理，因此需要的计算资源较少，从而使得该方案可以在各种设备(如移动端设备)中使用。另外，目标检测模型可以准确识别出图片中的文本字符和文本间隙，因此使得文本组行的结果准确率更高。进一步，本方案由于不使用繁琐的形态学方法进行组行处理，因此耗时更短、效率更高。
附图说明
21.通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：
22.图1示意性地示出了适于实现本发明实施方式的示例性计算系统的框图；
23.图2示意性地示出了根据本发明一实施例的目标检测模型的训练方法的流程图；
24.图3示意性地示出了根据本发明一实施例的文本组行方法的流程图；
25.图4示意性地示出了根据本发明又一实施例的文本组行方法的流程图；
26.图5示意性地示出了根据本发明一实施例的确定属于同一文本行的文本字符的流程图。
27.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
28.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
29.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。
30.本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算
机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。
31.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
32.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
33.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
34.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
35.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
36.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
37.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
38.根据本发明的实施方式，提出了一种目标检测模型的训练方法、使用目标检测模型进行文本组行的方法、计算装置及计算机可读存储介质。
39.在本文中，需要理解的是，所涉及的术语包括如下：
40.文本检测：指的是获得图像中文本区域的位置信息(如坐标)，是实现图像中文本识别的必要处理工作。主流的文本检测方法通常步骤如下：提取输入图像的特征，根据特征选择文本候选区域，并根据一定规则实现候选区域的文本定位。
41.文本间隙：定义属于同一文本行的相邻两个文本字符之间的空隙为文本间隙。
42.目标检测：找出图像中所有感兴趣的物体，包含物体分类和物体定位两个子任务，即确定物体的类别和位置。
43.图像分割：指的是将数字图像细分为多个图像子区域(像素的集合)的过程，主要有语义分割和实例分割两类。
44.文本组行：根据预设的文本行判断规则判断定位到的哪些文本字符属于同一行，根据判断结果把同一行的文本字符按照预设顺序合并成一个文本行，最终得到从上到下的多行文本区域。
45.交并比，目标预测框和真实框的交集和并集的比例。
46.此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
47.下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。
48.发明概述
49.本发明人发现，现有的机器阅读通常采用例如图像分割等深度学习算法对输入的图像进行图像分割，得到图像子区域。接着，通过形态学处理方法对图像子区域进行组行处理，以识别出图像中的一个或多个文本区域。深度学习及形态学处理的方法需要消耗大量的计算资源，因此使得机器阅读不便于在各种移动端和边缘设备等方面应用。
50.另外，本发明人还发现，目前的深度学习算法对一些图像中的文本无法有效识别，例如对于距离较近的图像无法区分，ctpn方法无法识别弧形文本和弯曲文本中，因此导致其文本识别的准确率较低。进一步，形态学处理的组行方案耗时较长，因此使得文本组行的效率较低。
51.现有技术中提供了一种基于移动端的场景文字检测模型轻量化方法。该方法基于场景文字检测模型dbnet进行文字检测，模型dbnet是一种基于图像分割的算法，其需要进行像素级别的预测，因此对模型架构中的主干网络和特征融合模块的特征图尺寸均有较高的要求。然而，为了在移动端等进行操作，往往需要对上述模型进行轻量化处理，例如对模型的主干网络、特征融合模块和预测模块分别进行轻量化，以及通过通道剪枝和8比特定点量化进一步使模型变得更加轻量。
52.轻量化处理后的模型将大大影响图像分割的准确率，从而影响后续文本组行的准确性。进一步，该图像分割方法输出的结果为原图缩小一定比例的预测图，后续还需要进行繁琐的图像形态学处理进行文本组行，因此耗时较长、效率较低。
53.在本发明的实施方式中，提出了目标检测模型的训练方法，通过该训练方法训练得到的目标检测模型可以准确的识别出图片中的文本字符和文本间隙并定位，从而使得利用识别出的这些文本字符和文本间隙对图片中的文本字符进行组行处理时，组行结果的准确率更高且消耗的计算资源更少，进而使得该方案可以在各种设备(如移动端设备)上使用。
54.另外，本发明的实施方式还提出了利用从图片中识别出的文本字符和文本间隙进行文本组行的方案。由于该方案通过目标检测模型识别出的文本字符和文本间隙进行文本组行处理，因此需要的计算资源较少，从而使得该方案可以在各种设备(如移动端设备)中使用。另外，目标检测模型可以准确识别出图片中的文本字符和文本间隙，因此使得文本组行的准确率较高。进一步，本方案由于不使用繁琐的形态学方法处理组行处理，因此耗时更短、效率更高。
55.在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。
56.目标检测模型的训练方法
57.图2中示出了根据本发明一实施例的目标检测模型的训练方法。其中，目标检测模型用于预测文本中的文本字符和文本间隙。在一种实现中，目标检测模型可采用yolox或yolov5目标检测模型作为基准模型。
58.如图2中所示，训练方法200包括在步骤s201中，获取训练图片，其中训练图片包括已标注类别的文本字符以及已标注类别的文本间隙。文本字符和文本间隙可以通过预设形状的标注框进行标注，并可以通过不同的数字、字母、词语或其中至少两种的任意组合等进行类别标注。
59.在获取训练图片后，在步骤s202中，训练方法200将训练图片输入到上述目标检测模型进行训练，以得到用于进行文本字符和文本间隙的分类和定位的目标检测模型。
60.由此可见，通过本方案中的目标检测模型可以准确的识别出图片中的文本字符和文本间隙并定位，从而使得利用识别出的这些文本字符和文本间隙对图片中的文本字符进行组行处理时，组行结果的准确率更高且消耗的计算资源更少，进而使得该方案可以在各种设备(如移动端设备)上使用。
61.为了便于通过识别出的文本字符和文本间隙进行文本组行处理，在一个实施例中，文本字符可以通过文本框进行标注，文本间隙可以通过连接框进行标注，并且每个连接框可以分别与其左右两侧的两个文本框至少部分重合。其中，左右两侧的两个文本框所对应的文本字符与连接框所对应的文本间隙属于同一文本行，在文本间隙的两侧且与其相邻。
62.由此，在利用目标检测模型识别出的文本框和连接框进行文本组行处理时，可以通过判断两个文本框与任一相同文本间隙之间的交并比来判断两个文本框所对应的文本字符是否属于同一文本行，从而可以进行准确且高效的文本组行处理。
63.基于上述的文本框和连接框之间的关系，在一种具体实现中，每一个连接框可根据其左右两边的文本框生成。具体地，上述文本框和连接框可均为矩形框，每个连接框的左侧两个端点可以为连接框左侧的文本框中的两条对角线对其切分所形成的上下两个三角形的质心，每个连接框的右侧两个端点为连接框右侧的文本框中的两条对角线对其切分所形成的上下两个三角形的质心。
64.可以理解的是，上述文本框和连接框的标注方式仅仅是示例性的而非限制性的，本领域技术人员还可以根据需要选用其他方式进行标注，例如还可以将连接框左侧的文本框的上下两条边的中点作为连接框左侧的两个端点，并将连接框右侧的文本框的上下两条边的中点作为连接框右侧的两个端点。
65.文本组行方法
66.图3中示出了根据本发明一实施例的文本组行的方法。具体地，可使用目标检测模型进行文本组行的方法，并且目标检测模型可以按照前述实施例所述的训练方法进行训练，此处不再详述。
67.如图3中所示，方法300包括在步骤s301处，获取目标图片。
68.在获取到目标图片后，在步骤s302处，方法300可以根据目标检测模型对目标图片进行目标识别和定位，以确定目标图片中的文本字符、文本间隙以及文本字符和文本间隙的位置信息。
69.在一个实施场景中，文本字符和文本间隙的位置信息可以通过预设形状的标注框进行表征。具体地，可以通过标注框上的一些关键点的位置信息等进行表征。
70.例如，当通过矩形的标注框来表征文本字符和文本间隙的位置信时，可以通过标注框的至少一条对角线上的两个端点的位置信息(例如四个端点的位置信息)或者其上一个端点的位置信息及其长宽来表征该标注框。位置信息可以为图片中的横纵坐标信息。
71.可以理解的是，上述标注框的形状以及具体的表征方式等仅仅是示例性的而非限制性的，本领域技术人员还可以根据需要选用其他形状的标注框或选用其他表征方式来表征文本字符和文本间隙的位置信息，例如还可以选用圆形或椭圆形的标注框来表征文本字符和文本间隙的位置信息，或者可以通过矩形标注框的四条边的中心点的位置信息来表征标注框。
72.在识别出目标图片中的文本字符和文本间隙后，在步骤s303处，方法300可以根据文本字符的位置信息和文本间隙的位置信息对文本字符进行组行处理，以得到一个或多个文本行。在一个实施场景中，可以根据由文本字符的位置信息和文本间隙的位置信息所确定的文本字符和文本间隙之间的距离来进行组行处理。
73.由于本方案通过目标检测模型识别出的文本字符和文本间隙进行文本组行处理，因此需要的计算资源较少，从而使得该方案可以在各种设备(如移动端设备)中使用。另外，目标检测模型可以准确识别出图片中的文本字符和文本间隙，因此使得文本组行的结果准确率更高。进一步，本方案由于不使用繁琐的形态学方法处理组行处理，因此耗时更短、效率更高。
74.可以理解的是，同一文本行中两个相邻文本字符与不同位置的文本间隙之间具有不同的距离关系，例如相邻两个文本字符与位于它们之间的文本间隙之间的距离均小于预设距离，而与位于两个文本字符各自另一侧的文本间隙之间的距离中则会有一个距离很大。基于此，可以利用文本字符与文本间隙之间的距离来进行组行处理。
75.图4中示出了利用文本字符和文本间隙之间的距离进行文本组行的具体实现方式。如图4中所示，对文本字符进行组行处理可以包括在步骤s401处，根据文本字符的位置信息和文本间隙的位置信息，确定文本字符与文本间隙之间的距离。
76.该距离可以通过多种方式来体现，例如当通过文本框来表征文本字符的位置信息，通过连接框来表征文本间隙的位置信息时，可以使用对应的文本框与连接框之间的交并比表示文本字符与文本间隙之间的距离。
77.在确定文本字符与文本间隙之间的距离后，在步骤s402处，方法400可以根据上述距离确定属于同一文本行的文本字符。
78.根据前述的文本字符和文本间隙之间的距离关系，在一个实施场景中，可以针对任意两个文本字符，根据该两个文本字符分别与同一文本间隙之间的距离，确定该两个文本字符是否属于同一文本行。
79.具体地，可以判断两个文本字符与任一相同文本间隙之间的距离是否均满足预设关系，此处的预设关系例如可以为距离小于或等于预设值。响应于两个文本字符与一个相同文本间隙之间的距离均满足预设关系，确定该两个文本字符属于同一文本行。
80.当使用文本框表征文本字符的位置信息，使用连接框表征文本间隙的位置信息时，可以判断两个文本框与任一相同连接框之间的交并比是否超过交并比阈值，当两个文本框与同一连接框之间的交并比均超过交并比阈值时，确定该两个文本框所对应的文本字符之间的距离小于或等于预设距离，即该两个文本字符属于同一文本行；相应地，当两个文本框与任一相同连接框之间的交并比均未同时超过交并比阈值时，确定该两个文本框所对应的文本字符之间的距离大于预设距离，即该两个文本字符不属于同一文本行。
81.进一步，通过上述方法可以确定各个文本行所包含的文本字符。
82.在确定出各个文本行所包含的文本字符后，在步骤s403处，方法400可以根据各个文本行所包含的文本字符的位置信息将属于不同文本行的各个文本字符按照预设排序规则排列，以形成一个或多个文本行。
83.此处的预设排序规则例如可以为：对于每个文本行，按照文本字符的横坐标由小到大或由大到小的顺序从左至右排列合并成一个文本行；对于不同的文本行，按照每个文本行中同一位置(例如每行左侧第一个位置或右侧第二个位置)处的文本字符的纵坐标由小到大或由大到小的顺序从上至下依次排列形成一个或多个文本行。
84.通过上述描述可见，本方案可借助识别出的多个文本间隙不断确定任意两个文本字符是否为同一文本行中的两个相邻文本字符，并以此来确定所有属于同一行的文本字符，最终确定各个文本行所包含的文本字符。显然，该方法的处理速度相对于现有技术中采用形态学的处理方法快，从而提高了文本组行的效率。
85.为了充分了解上述的文本组行的方法，下面以文本框表征文本字符的位置信息为例来对文本组行方法进行说明。
86.1.对属于同一文本行的文本框，把每一个文本框分成多个宽度为a，高度与原文本框相同的小框。例如，原文本框左上角点坐标和宽高分别为(x1,y1,w,h)，那么多个小框的左上角点坐标和宽高分别为(x1,y1,a,h)，(x1+a,y1,a,h)
……
等。
87.2.求取上一步获得的所有小框的中心点，用所有的中心点拟合一条中心线，作为文本行的中心线，中心线长度记为l。
88.3.对于同一文本行的文本框，将高度最高的文本框的高度作为整行的行高，记为h。
89.4.初始化一个h行l列的矩阵，沿中心线上的每个像素点，往上遍历h/2个像素，往下遍历h/2个像素，将这h个像素一列列的填入矩阵。最终填满的矩阵就是组行结果。
90.为了充分了解上述的确定各个文本行所包含的文本字符的方法，下面通过一个识别出6个文本字符和5个文本间隙的具体实施例来进行说明。假设，其中6个文本字符分别为文本字符a1、a2、a3、a4、a5和a6，5个文本间隙分别为文本间隙b1、b2、b3、b4和b5。
91.在进行分行时，可以依次遍历其中任意两个文本字符，例如依次遍历a1以及a2-a6
中的任何一个组成的文本字符组，a2以及a3-a6中任何一个组成的文本字符组，a3以及a4-a6中任何一个组成的文本字符组
…
，并分别判断每个文本字符组中的两个文本字符与b1-b5中的任一相同的文本间隙之间的距离是否均满足预设关系，以此确定两个文本字符是否属于同一文本行。通过该遍历方式，可以最终确定各个文本行所包含的文本字符，例如其中一文本行包括文本字符a1、a2、a3和a4，另一文本行包括文本字符a5和a6。
92.可以理解的是，上述遍历方式仅仅是示例性的而非限制性的，本领域技术人员还可以根据需要(例如不同应用场景)对上述遍历进行改变，以适应不同的需求。
93.为了快速进行文本切行和组行，在一个实施例中，可采用并查集方法来进行文本切行和组行。图5中示出了通过并查集进行文本切行的具体实现方式。
94.如图5中所示，确定属于同一文本行的文本字符包括在步骤s501处，构建节点集合，每个节点对应一个识别出的文本字符，并将每个节点的父节点初始化节点自己。
95.假设由图片中识别出6个文本字符a1、a2、a3、a4、a5和a6，其中a1对应节点1，a2对应节点2，a3对应节点3，a4对应节点4，a5对应节点5，a6对应节点6，则a1的父节点初始化为节点1，a2的父节点初始化为节点2，a3的父节点初始化为节点3，a4的父节点初始化为节点4，a5的父节点初始化为节点5，a6的父节点初始化为节点6。
96.接着，在步骤s502处，方法500对节点进行两两遍历，以检测两个节点是否属于同一文本行。在未查找到属于同一文本行的节点时，可通过前述实施例的检测方法检测两个节点中的文本字符是否属于同一文本行，此处不再详述。
97.在确定两个节点属于同一文本行后，进入步骤s503，方法500将属于同一文本行的两个节点的父节点设置成相同。基于不同的需求，可以将该两个节点的父节点设置成较小或较大编号对应的节点。为了描述简单，下面以将属于同一文本行的两个节点的父节点设置成较小编号对应的节点为例来对此处的文本切行方法进行说明。
98.仍以上文所述的6个文本字符为例来说，假设在遍历过程中，确定文本字符a1和a2属于同一文本行，则将节点2的父节点设置成节点1。随着遍历的进行，假设又确定文本字符a2和a3属于同一文本行，则将节点3的父节点也设置成节点1。
99.随着遍历的继续进行，假设确定文本字符a4和a5属于同一文本行，则将节点5的父节点设置成节点4。接着，又确定文本字符a5和a6属于同一文本行，则将节点6的父节点也设置成节点4。
100.在通过上述方法遍历结束后，执行步骤s504，将父节点相同的节点确定为同一文本行。
101.对于上述包括6个文本字符的实施例来说，父节点为1的节点，即节点1、节点2和节点3确定为同一文本行，将父节点为4的节点，即节点4、节点5和节点6确定为同一文本行。
102.由此可见，通过并查集的方法可以快速实现文本切行，相对于现有技术中需要使用繁琐的形态学方法进行组行处理的方式，大大提高了文本组行的效率。在一些场景中，其处理时间例如可以从190ms缩短到70ms。
103.示例性应用场景
104.本发明实施方式的文本组行的方法可以应用于图像中的文字识别等应用场景。
105.在此应用场景中，可以利用本发明实施例方式的文本组行的方法来对图像进行文本组行处理，由于消耗的计算资源较少，因此可以在移动端设备中进行图像中的文字识别，
并且可以使得识别结果更准确、效率更高。
106.需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。
107.通过上面结合附图对根据本发明实施方式的由机器实施的语义相关性分析方案的示例性描述，可以理解是，本发明的实施方式提供了一种能更好地适用于多轮会话相关的任务的语义相关性分析方法，其通过在机器模型中对轮次信息进行显式建模，可以更准确地判断会话的问题与应答之间的语义相关性。
108.应当注意，尽管在上文详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
109.此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
110.申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
111.虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王丽瑶许彬林辉段亦涛
技术所有人：网易有道信息技术（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。