文本结构化处理方法、处理装置、电子设备以及存储介质与流程

文档序号：27309647发布日期：2021-11-09 21:51阅读：124来源：国知局

1.本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术领域，可应用于ocr光学字符识别等场景。具体地，涉及一种文本结构化处理方法、处理装置、电子设备以及存储介质。

背景技术：

2.随着信息技术的不断发展和普及，各行各业已经广泛利用信息技术来提高效率，由此产生了大量的文本数据，这些文本数据可能会包含较多的结构化信息，获取这些结构化信息有助于对基于文本数据的深层次应用提供帮助。

技术实现要素：

3.本公开提供了一种文本结构化处理的方法、处理装置、电子设备以及存储介质。
4.根据本公开的一方面，提供了一种文本结构化处理方法，包括：对文本图像进行文本检测，得到与上述文本图像对应的至少一个文本检测框的类别信息，其中，上述类别信息包括关键字类别或数值类别；确定与上述至少一个文本检测框中的目标文本检测框对应的文本图像，其中，上述目标文本检测框是上述类别信息为上述数值类别的文本检测框；对与上述目标文本检测框对应的文本图像进行文本识别，得到与上述目标文本检测框对应的文本图像的文本识别结果；对上述文本识别结果进行文本分类，得到与上述文本识别结果对应的语义类别结果；以及生成文本结构化结果，其中，上述文本结构化结果包括与上述关键字类别对应的值和与上述数值类别对应的值，与上述关键字类别对应的值包括上述语义类别结果，与上述数值类别对应的值包括上述文本识别结果。
5.根据本公开的另一方面，提供了一种文本结构化处理装置，包括：文本检测模块，用于对文本图像进行文本检测，得到与上述文本图像对应的至少一个文本检测框的类别信息，其中，上述类别信息包括关键字类别或数值类别；确定模块，用于确定与上述至少一个文本检测框中的目标文本检测框对应的文本图像，其中，上述目标文本检测框是上述类别信息为上述数值类别的文本检测框；文本识别模块，用于对与上述目标文本检测框对应的文本图像进行文本识别，得到与上述目标文本检测框对应的文本图像的文本识别结果；文本分类模块，用于上述文本识别结果进行文本分类，得到与上述文本识别结果对应的语义类别结果；以及生成模块，用于生成文本结构化结果，其中，上述文本结构化结果包括与上述关键字类别对应的值和与上述数值类别对应的值，与上述关键字类别对应的值包括上述语义类别结果，与上述数值类别对应的值包括上述文本识别结果。
6.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上的方法。
7.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储
介质，其中，上述计算机指令用于使上述计算机执行如上的方法。
8.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上的方法。
9.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
10.附图用于更好地理解本方案，不构成对本公开的限定。其中：
11.图1示意性示出了根据本公开实施例的可以应用文本结构化处理方法及处理装置的示例性系统架构；
12.图2示意性示出了根据本公开实施例的文本结构化处理方法的流程图；
13.图3示意性示出了根据本公开实施例的文本结构化处理过程的示意图；
14.图4示意性示出了根据本公开实施例的文本结构化处理装置的框图；以及
15.图5示出了根据本公开实施例的适用于文本结构化处理方法的电子设备的框图。
具体实施方式
16.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
17.文本结构化可以理解为将文本内容处理成包括与关键字类别对应的值和与数值类别对应的值的形式。关键字类别(即key)与数值类别(即value)可以理解为是一个key
‑
value。文本数据可以是以图像形式呈现的，即，形成文本图像，可以利用如下两种方式实现文本图像的文本结构化。
18.方式一，利用检测算法处理文本图像，得到针对文本图像包括的目标文本的类别识别结果，利用文本识别算法处理目标文本得到文本识别结果，根据类别识别结果和文本识别结果，得到针对目标文本的文本结构化结果。文本结构化结果包括与关键字类别对应的值和与数值类别对应的值，与关键字类别对应的值包括类别识别结果，与数值类别对应的值包括文本识别结果。
19.方式二，利用文本检测算法处理文本图像，得到针对文本图像包括的目标文本的位置信息，利用文本识别算法处理目标文本，得到文本识别结果，根据位置信息和预设位置关系，确定与目标文本对应的类别识别结果，根据类别识别结果和文本识别结果，得到针对目标文本的文本结构化结果。预设位置关系可以理解为关键字类别和与关键字类别对应的数值类别之间的位置关系。
20.在实现本公开构思的过程中，发现在文本图像的版式变化较多的情况下，由于不同文本之间的视觉差异性比较小，因此，利用方式一实现类别识别比较困难，可能会出现类别识别错误的情况。由于在文本图像中关键字类别和与关键字类别对应的数值类别之间的相对位置并不是固定不变的，因此，利用方式二的鲁棒性比较差。由此，利用文本检测算法和文本识别算法实现文本结构化的准确性不高。
21.在实现本公开构思的过程中，发现由于目标文本本身含有语义信息，因此，可以对目标文本进行语义提取，得到与目标文本对应的语义类别识别结果(即类别识别结果)，由此，可以将文本分类与文本检测和文本识别结合起来，用于实现文本图像的文本结构化。
22.为此，本公开实施例提供了一种将文本检测、文本识别和文本分类结合的文本结构化处理方案，即，利用文本检测和文本识别确定文本图像的文本识别结果，利用文本分类确定文本图像的语义类别识别结果，根据文本识别结果和语义类别识别结果，得到文本图像的文本结构化结果。由于实现了利用文字本身包括的语义信息进行类别识别，因此，提高了文本结构化的准确性。
23.基于上述内容，本公开实施例提供了一种文本结构化处理方法、处理装置、电子设备以及存储有计算机指令的非瞬时计算机可读存储介质及计算机程序产品。该文本结构化处理方法可以包括：对文本图像进行文本检测，得到与文本图像对应的至少一个文本检测框的类别信息，其中，类别信息包括关键字类别或数值类别，确定与至少一个文本检测框中的目标文本检测框对应的文本图像，其中，目标文本检测框是类别信息为数值类别的文本检测框；对与目标文本检测框对应的文本图像进行文本识别，得到与目标文本检测框对应的文本图像的文本识别结果，对文本识别结果进行文本分类，得到与文本识别结果对应的语义类别结果，并生成文本结构化结果，其中，文本结构化结果包括与关键字类别对应的值和与数值类别对应的值，与关键字类别对应的值包括语义类别结果，与数值类别对应的值包括文本识别结果。
24.图1示意性示出了根据本公开实施例的可以应用文本结构化处理方法及处理装置的示例性系统架构。
25.需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用文本结构化处理方法及处理装置的示例性系统架构100可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的文本结构化处理方法及处理装置。
26.如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等。
27.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
28.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
29.服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
30.服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中
的一项主机产品，以解决了传统物理主机与vps服务(virtual private server，vps)中，存在的管理难度大，业务扩展性弱的缺陷。服务器105也可以为边缘服务器。服务器105也可以为分布式系统的服务器，或者是结合了区块链的服务器。
31.需要说明的是，本公开实施例所提供的文本结构化处理方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的文本结构化处理装置也可以设置于终端设备101、102、或103中。
32.或者，本公开实施例所提供的文本结构化处理方法一般也可以由服务器105执行。相应地，本公开实施例所提供的文本结构化处理装置一般可以设置于服务器105中。本公开实施例所提供的文本结构化处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的文本结构化处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
33.例如，服务器105对文本图像进行文本检测，得到与文本图像对应的至少一个文本检测框的类别信息，确定与目标文本检测框对应的文本图像，对与目标文本检测框对应的文本图像进行文本识别，得到与目标文本检测框对应的文本图像的文本识别结果，对文本识别结果进行文本分类，得到与文本识别结果对应的语义类别结果，并生成文本结构化结果。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对文本图像进行文本检测，并最终生成文本结构化结果。
34.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
35.图2示意性示出了根据本公开实施例的文本结构化处理方法的流程图。
36.如图2所示，该方法200包括操作s210～s250。
37.在操作s210，对文本图像进行文本检测，得到与文本图像对应的至少一个文本检测框的类别信息，其中，类别信息包括关键字类别或数值类别。
38.在操作s220，确定与至少一个文本检测框中的目标文本检测框对应的文本图像，其中，目标文本检测框是类别信息为数值类别的文本检测框。
39.在操作s230，对与目标文本检测框对应的文本图像进行文本识别，得到与目标文本检测框对应的文本图像的文本识别结果。
40.在操作s240，对文本识别结果进行文本分类，得到与文本识别结果对应的语义类别结果。
41.在操作s250，生成文本结构化结果，其中，文本结构化结果包括与关键字类别对应的值和与数值类别对应的值，与关键字类别对应的值包括语义类别结果，与数值类别对应的值包括文本识别结果。
42.根据本公开的实施例，文本图像可以指包括文本内容的图像。文本图像的类型可以包括多种，例如，文本图像可以包括医疗文本图像、商品清单文本图像或财经文本图像等。文本检测框可以包括四角点框，即，可以用四个坐标来表征。文本检测框的类别信息可以包括关键字类别或数值类别，关键字类别可以表征文本检测框包括的文本内容的类别属性，数值类别可以表征文本检测框包括的文本内容的内容属性。与目标检测框对应的文本图像的文本识别结果可以用于表征与文本图像对应的数值类别的值。语义类别识别结果可
以用于表征与文本图像对应的关键类别的值。
43.例如，一个文本检测框包括的文本内容为“x1x2市中心医院”，则该文本检测框的类别信息为数值类别。一个文本检测框包括的文本内容为“姓名”，则该文本检测框的类别信息为关键字类别。一个文本检测框包括的文本内容为“张三”，则该文本检测框的类别信息为数值类别。
44.根据本公开的实施例，可以利用文本检测模型处理文本图像，得到与文本图像对应的至少一个文本检测框的类别信息。文本检测模型可以是利用第一训练样本集和第一标签集对第一预设模型进行训练得到的。第一预设模型可以包括深度学习模型或传统模型。深度学习模型可以包括基于候选框的文本检测模型、基于分割的文本检测模型或基于两者混合的文本检测模型等。传统模型可以包括基于swt(stroke width transform，笔画宽度变换)的文本检测模型或基于edgebox(即边缘盒)的文本检测模型等。
45.根据本公开的实施例，在获得与文本图像对应的文本检测框之后，可以根据类别信息，从至少一个文本检测框中确定类别信息为数值类别的文本检测框，可以将类别信息为数值类别的文本检测框确定为目标文本检测框。在确定目标文本检测框之后，可以将与目标文本检测框对应的文本图像从文本图像中提取出来，再对与目标文本检测框对应的文本图像进行文本识别。可以利用文本识别模型处理与目标文本检测框对应的文本图像。文本识别模型可以是利用第二训练样本集和第二标签集对第二预设模型进行训练得到的。第二预设模型可以包括模式匹配模型、机器学习模型或深度学习模型。深度学习模型可以包括基于单字符识别的文本识别模型或基于整体识别的文本识别模型。
46.例如，文本识别模型可以为基于单字符识别的文本识别模型。针对与目标文本检测框对应的包括“x1x2市中心医院”的文本图像进行文本识别，得到与“x1x2市中心医院”中的每个字符对应的文本识别结果，即，可以得到与“x
1”对应的文本识别标识为2，与“x
2”对应的文本类别标识为3，与“市”对应的为文本识别标识为4，与“中”对应的文本类别识别标识为5，与“心”对应的文本类别识别标识为7，与“医”对应的文本识别标识为8，与“院”对应的文本识别标识为6。根据字符含义与文本识别标识之间的映射关系，确定与目标文本检测框对应的包括“x1x2市中心医院”的文本图像的文本识别结果为“x1x2市中心医院”。
47.根据本公开的实施例，在获得与目标文本检测框对应的文本识别结果之后，可以利用文本分类模型处理文本识别结果，即，利用文本分类模型提取文本识别结果包括的语义特征，根据语义特征，确定与文本识别结果对应的语义类别结果。文本分类模型可以是利用第三训练样本集对第三预设模型进行训练得到的。第三预设模型可以包括机器学习模型或深度学习模型。机器学习模型可以包括基于朴素贝叶斯算法的文本分类模型或基于决策树的文本分类模型。
48.例如，文本识别结果为“张三”，对文本识别结果进行文本分类，得到语义识别结果为“姓名”。
49.根据本公开的实施例，可以将操作s240中得到的语义类别结果和操作s230中得到的文本识别结果组成与关键字类别对应的值为语义类别结果，与数值类别对应的值为文本识别结果的文本结构化结果。
50.需要说明的是，在本公开实施例的技术方案中，所涉及的文本图像、文本图像的类别信息、文本识别结果、语义类别结果及文本结构化结果的获得，均符合相关法律法规的规
定，采取了必要保密措施，且不违背公序良俗。
51.根据本公开的实施例，通过对文本图像进行文本检测，得到与文本图像对应的至少一个文本检测框的类别信息，类别信息包括关键字类别或数值类别，确定与目标文本检测框对应的文本图像，对与目标文本检测框对应的文本图像进行文本识别，得到与目标文本检测框对应的文本图像的文本识别结果，对文本识别结果进行文本分类，得到与文本识别结果对应的语义类别结果，并生成文本结构化结果，使得计算机视觉与语言模型相结合，实现了利用文字本身包括的语义信息进行类别识别，由此，提高了文本结构化的准确性。
52.根据本公开的实施例，操作s240可以如下操作。
53.利用文本分类模型处理文本识别结果，得到与文本识别结果对应的语义类别结果。
54.根据本公开的实施例，文本分类模型可以包括深度学习模型或机器学习模型。可以利用第三训练样本集和第三标签集训练第三预设模型，得到文本分类模型，第三训练样本集可以包括多个训练文本，第三标签集可以包括与每个训练文本对应的第三标签。
55.根据本公开的实施例，利用第三训练样本集和第三标签集训练第三预设模型，得到文本分类模型可以包括：将多个训练文本中的每个训练文本输入第三预设模型，得到与每个训练文本对应的语义类别结果。将与每个训练文本对应的语义类别结果和第三标签输入第一损失函数，得到第一输出值。根据第一输出值，调整第三预设模型的模型参数，直至第一输出值收敛。将在满足第一输出值收敛的情况下得到的第三预设模型确定为文本分类模型。
56.根据本公开的实施例，通过利用文本分类模型处理文本识别结果，得到与文本识别结果对应的语义类别结果，使其充分利用文本识别结果中本身含有的语义信息，进而提高文本结构化提取的准确性和实用性。
57.根据本公开的实施例，文本分类模型可以包括深度学习模型。
58.根据本公开的实施例，深度学习模型可以包括基于快速文本(即fasttext)的文本分类模型、基于文本卷积神经网络(即textcnn)的文本分类模型、基于循环神经网络(即textrnn)的文本分类模型或基于膨胀门卷积神经网络(dilate gated convolutional neural network，dgcnn)的文本分类模型。
59.根据本公开的实施例，操作s210可以包括如下操作。
60.对文本图像进行文本检测，得到与文本图像对应的至少一个文本检测框的类别信息和位置信息。
61.根据本公开的实施例，与文本检测框对应的位置信息可以用于表征文本检测框在文本图像上的位置。位置信息可以用四角点框的坐标信息表征。
62.根据本公开的实施例，操作s220可以包括如下操作。
63.根据与至少一个文本检测框中的目标文本检测框对应的位置信息，从文本图像中提取出与目标文本检测框对应的文本图像。
64.根据本公开的实施例，位置信息可以用于作为将与目标文本检测框对应的文本图像从文本图像中提取出来的依据。
65.根据本公开的实施例，根据与至少一个文本检测框中的目标文本检测框对应的位置信息，从文本图像中提取出与目标文本检测框对应的文本图像，可以包括如下操作。
66.利用仿射变换将与至少一个文本检测框中的目标文本检测框对应的位置信息转换为目标位置信息。根据目标位置信息，从文本图像中提取出于目标文本检测框对应的文本图像。
67.根据本公开的实施例，仿射变换是一种二维坐标到二维坐标之间的线性变换，用于保持二维图形的“平直性”和“平行性”。平直性可以理解为变换后直线还是直线，不会打弯，圆弧还是圆弧。平行性可以理解为保持不同二维图形间的相对位置关系不变，平行线还是平行线，相交直线的夹角不变。仿射变换可以通过平移、缩放、翻转、旋转和剪切等中的至少之一实现。
68.根据本公开的实施例，可以利用仿射变换将与目标文本检测框对应的位置信息转换为目标位置信息可以包括：可以利用仿射变换将以四角点框形式的文本检测框转换为以矩形框形式的文本检测框，将与矩形框形式的文本检测框对应的位置信息确定为目标位置信息，以便于可以根据目标位置信息将与目标文本检测框对应的文本图像从文本图像中提取出来。
69.例如，目标文本检测框为一个四角点框，该四角点框可以用{p1，p2，p3，p4}表征，p1表征四角点框的左上角的点，p2表征四角点框的右上角的点，p3表征四角点框的左下角的点，p4表征四角点框的右下角的点。p1的坐标可以表征为{x1，y1}，p2的坐标可以表征为{x2，y2}，p3的坐标可以表征为{x3，y3}，p4的坐标可以表征为{x4，y4}。利用仿射变换将p1→
p
′1，p2→
p
′2，p3→
p
′3，p4→
p
′4，得到矩形框{p
′1，p
′2，p
′3，p
′4}。p1‘
的坐标可以表征为{x
′1，y
′1}，p
′2的坐标可以表征为{x
′2，y
′2}，p
′3的坐标可以表征为{x
′3，y
′3}，p
′4的坐标可以表征为{x
′4，y
′4}。
70.根据本公开的实施例，操作s210可以包括如下操作。
71.利用文本检测模型处理文本图像，得到与文本图像对应的至少一个文本检测框的类别信息。
72.根据本公开的实施例，文本检测模型可以包括深度学习模型，深度学习模型可以包括基于候选框的文本检测模型、基于分割的文本检测模型或基于两者混合的文本检测模型等。基于候选框的文本检测模型实现文本检测的基本思路是预先生成多个候选文本检测框，再利用非极大值抑制得到与文本检测框对应的类别信息和位置信息。基于分割的文本检测模型的基本思路是利用分割网络对文本图像进行像素级别的分割，再进行处理得到与文本检测框对应的类别信息和位置信息。
73.根据本公开的实施例，可以利用第一训练样本集和第一标签集训练第一预设模型，得到文本检测模型，第一训练样本集包括多个训练文本图像，第一标签集包括与每个训练文本图像对应的第一标签，第一标签表征与训练文本图像包括的至少一个文本检测框对应的真实位置信息和真实类别信息。
74.根据本公开的实施例，利用第一训练样本集和第一标签集训练第一预设模型，得到文本检测模型可以包括：将多个训练文本图像中的每个训练文本图像输入第一预设模型，得到与每个训练文本图像包括的至少一个文本检测框对应的类别信息和位置信息。将与每个文本检测框对应的类别信息、位置信息和第一标签输入第二损失函数，得到第二输出值。根据第二输出值，调整第一预设模型的模型参数，直至第二输出值收敛。将在满足第二输出值收敛的情况下得到的第一预设模型确定为文本检测模型。
75.根据本公开的实施例，操作s230可以包括如下操作。
76.利用文本识别模型处理与目标文本检测框对应的文本图像，得到与文本检测框对应的文本图像的文本识别结果。
77.根据本公开的实施例，可以利用第二训练样本集和第二标签集训练第二预设模型，得到文本识别模型，第二训练样本集可以包括多个训练文本图像切片，第二标签集包括与每个训练文本图像切片对应的第二标签。
78.根据本公开的实施例，利用第二训练样本集和第二标签集训练第二预设模型，得到文本识别模型可以包括：将多个训练文本图像切片中的每个训练文本图像切片输入第二预设模型，得到与每个训练文本图像切片对应的文本识别结果。将与每个训练文本图像切片对应的文本识别结果和第二标签输入第三损失函数，得到第三输出值。根据第三输出值，调整第二预设模型的模型参数，直至第三输出值收敛。将在满足第三输出值收敛的情况下得到的第二预设模型确定为文本识别模型。
79.根据本公开的实施例，可以将训练完成的文本检测模型、文本识别模型和文本分类模型确定为文本结构化模型。
80.根据本公开的实施例，上述文本结构化处理方法还可以包括如下操作。
81.利用数据预处理得到文本图像。
82.根据本公开的实施例，数据预处理可以包括以下至少一项：降噪处理、倾斜校正处理和锐化处理。例如，对文本图像进行文本检测之前，针对拍摄倾斜的文本图像，可以通过一些倾斜校正算法对文本图像进行校正之后，再输入文本检测模型中进行文本检测。
83.根据本公开的实施例，通过对文本图像进行数据预处理，能够提高文本图像的质量，使得文本结构化结果更加准确和实用。
84.根据本公开的实施例，文本图像可以包括医疗文本图像。
85.根据本公开的实施例，医疗文本是医疗场景下保存信息的重要途径，其中包含了用户的很多结构化的信息，获取这些结构化信息有助于了解用户的健康状况，然后进行针对性的分析和处理。同时，也可以建立完善的数据库和用户画像。医疗文本可以是以图像形式存在的，如何从医疗文本图像中抽取所需要的结构化信息，是医疗场景下所面临的一个技术难点，可以利用本公开实施例所提供的文本结构化方案实现。
86.下面参考图3，结合具体实施例对根据本公开实施例的异常音频分类模型的训练方法做进一步说明。
87.下面参考图3，结合具体实施例对根据本公开实施例的文本结构化处理方法做进一步说明。
88.图3示意性示出了根据本公开实施例的文本结构化处理过程的示意图。
89.如图3所示，在文本结构化处理过程300中，文本检测模型302对文本图像301进行文本检测，得到与文本图像301对应的至少一个文本检测框的类别信息和位置信息，类别信息可以包括关键字类别或数值类别，至少一个文本检测框可以包括文本检测框303、文本检测框304、文本检测框305、文本检测框306和文本检测框307中的至少之一。文本检测框304和文本检测框306的类别信息可以为关键字类别，文本检测框303、文本检测框305和文本检测框307的类别信息为数值类别。
90.确定与目标文本检测框对应的文本图像，目标文本检测框可以是类别信息为数值
的文本检测框。目标文本检测框可以包括文本检测框303、文本检测框305和文本检测框307中的至少之一。下面以文本检测框303作为目标文本检测框为例对文本识别、文本分类和生成文本结构化结果的操作进行说明。
91.文本识别模型308对与文本检测框303对应的文本图像303
‑
1进行文本识别，得到与文本检测框303对应的文本图像303
‑
1的文本识别结果303
‑
2。
92.文本分类模型309对文本识别结果303
‑
2进行文本分类，得到与文本识别结果303
‑
2对应的语义类别结果310。
93.将语义类别结果310和文本识别结果303
‑
2组成结构化结果311。结构化结构311包括与关键字类别对应的值和与数值类别对应的值，与关键字类别对应的值包括语义类别结果310，与数值类别对应的值包括文本识别结果303
‑
2。
94.图4示意性示出了根据本公开实施例的文本结构化处理装置的框图。
95.如图4所示，文本结构化处理装置400可以包括文本检测模块410、确定模块420、文本识别模块430、文本分类模块440和生成模块450。
96.文本检测模块410，用于对文本图像进行文本检测，得到与文本图像对应的至少一个文本检测框的类别信息，其中，类别信息包括关键字类别或数值类别。
97.确定模块420，用于确定与至少一个文本检测框中的目标文本检测框对应的文本图像，其中，目标文本检测框是类别信息为数值类别的文本检测框。
98.文本识别模块430，用于对与目标文本检测框对应的文本图像进行文本识别，得到与目标文本检测框对应的文本图像的文本识别结果。
99.文本分类模块440，用于文本识别结果进行文本分类，得到与文本识别结果对应的语义类别结果。
100.生成模块450，用于生成文本结构化结果，其中，文本结构化结果包括与关键字类别对应的值和与数值类别对应的值，与关键字类别对应的值包括语义类别结果，与数值类别对应的值包括文本识别结果。
101.根据本公开的实施例，文本分类模块440可以包括第一获得子模块。
102.第一获得子模块，用于利用文本分类模型处理与文本识别结果，得到与文本识别结果对应的语义类别结果。
103.根据本公开的实施例，文本分类模型可以包括深度学习模型。
104.根据本公开的实施例，文本检测模块410可以包括第二获得子模块。
105.第二获得子模块，用于对文本图像进行文本检测，得到与文本图像对应的至少一个文本检测框的类别信息和位置信息。
106.根据本公开的实施例，确定模块420可以包括提取子模块。
107.提取子模块，用于根据与至少一个文本检测框中的目标文本检测框对应的位置信息，从文本图像中提取出与目标文本检测框对应的文本图像。
108.根据本公开的实施例，提取子模块可以包括转换单元和提取单元。
109.转换单元，用于利用仿射变换将与至少一个文本检测框中的目标文本检测框对应的位置信息转换为目标位置信息。
110.提取单元，根据目标位置信息，从文本图像中提取出与目标文本检测框对应的文本图像。
111.根据本公开的实施例，文本检测模块410可以包括第三获得子模块。
112.第三获得子模块，用于利用文本检测模型处理文本图像，得到与文本图像对应的至少一个文本检测框的类别信息。
113.根据本公开的实施例，文本识别模块430可以包括第四获得子模块。
114.第四获得子模块，用于利用文本识别模型处理与至少一个文本检测框中的目标文本检测框对应的文本图像，得到与目标文本检测框对应的文本图像的文本识别结果。
115.根据本公开的实施例，上述文本结构化处理装置400还可以包括获得模块。
116.获得模块，用于利用数据预处理得到文本图像，其中，数据预处理包括以下至少一项：降噪处理、倾斜校正处理和锐化处理。
117.根据本公开的实施例，文本图像包括医疗文本图像。
118.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
119.根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上的方法。
120.根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上的方法。
121.根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上的方法。
122.图5示出了根据本公开实施例的适用于文本结构化处理方法的电子设备的框图。电子设备500旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
123.如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(rom)502中的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序，来执行各种适当的动作和处理。在ram 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
124.电子设备500中的多个部件连接至i/o接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
125.计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如文本结构化处理方法。例如，在一些实施例中，文本结构化处理方法可被实现为计算机
软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到ram 503并由计算单元501执行时，可以执行上文描述的文本结构化处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本结构化处理方法。
126.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
127.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
128.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd
‑
rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
129.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
130.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
131.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。
132.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
133.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于海鹏;梁思远;李煜林;钦夏孟;姚锟
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种高速公路用ETC收费运维系统及方法与流程
上一篇：一种压波纹管半自动化工装及操作方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。