一种文本处理方法及装置与流程

文档序号：38071920发布日期：2024-05-21 20:06阅读：20来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本技术实施例涉及计算机视觉，尤其涉及一种文本处理方法及装置。

背景技术：

1、计算机文字识别俗称光学字符识别(opt ica l character recogn it ion，ocr)，ocr识别算法是指电子设备扫描图像资料，然后对扫描结果进行分析，输出图像资料中的文字的过程。

2、目前，ocr识别算法以“文本行”为单位进行文字提取，输出的文字也是以行的形式展示的。这种展示形式丢失了图像资料中文字原有的排版信息，为用户阅读带来一定程度的障碍。

技术实现思路

1、本技术的实施例提供一种文本处理方法及装置，可识别出图像中文字原有的排版信息，在一定程度上降低用户的阅读障碍，提高用户满意度。

2、为达到上述目的，本技术的实施例采用如下技术方案：

3、第一方面，本技术的实施例提供一种文本处理方法，包括：获取待识别图像；确定待识别图像对应的文本类型和文本信息，文本信息包括待识别图像对应的识别文本、识别文本对应的多个文本框、多个文本框的坐标信息、识别文本对应的多个段落框以及多个段落框的坐标信息；基于多个文本框、多个文本框的坐标信息、多个段落框以及多个段落框的坐标信息，确定待识别图像对应的多个分块数据；确定多个分块数据的属性信息，属性信息包括行高、行间距、行首缩进值和行尾缩进值中的至少一个；基于属性信息和文本类型，确定多个分块数据的排版信息，并将识别文本按照多个分块数据的排版信息展示。

4、也就是说，在本技术中可以基于待处理图像的属性信息还原待识别图像的排版信息，基于排版信息展示识别文本。这样，在一定程度上可以提高识别文本的可读性，降低了用户的阅读障碍，提高用户满意度。

5、在一种可能的设计方法中，文本类型包括文档文本、截图文本或第一文本；其中，第一文本为除文档文本和截图文本以外的文本类型，多个分块数据的排版信息包括多个分块数据的起始行和非起始行，基于属性信息和文本类型，确定多个分块数据的排版信息，包括：在文本类型是文档文本时，基于属性信息和属性信息对应的第一阈值范围，确定多个分块数据的起始行和非起始行；在文本类型是截图文本时，基于属性信息和属性信息对应的第二阈值范围，确定多个分块数据的起始行和非起始行；在文本类型是第一文本时，基于属性信息和属性信息对应的第三阈值范围，确定多个分块数据的起始行和非起始行。

6、也就是说，本技术针对不同文本类型的待识别图像设置不同的方式，来还原待识别图像的排版信息。有针对性的对待识别图像进行处理，从而提高排版信息的识别准确性。

7、在一种可能的设计方法中，确定多个分块数据的属性信息之前，方法还包括：基于多个文本框的坐标信息，按照预设排序规则，对多个文本框进行排序，得出多个文本框对应的多个行号；确定多个行号中，相邻两个行号对应的文本框是否为同一行；在相邻两个行号对应的文本框为同一行的情况下，合并相邻两个行号对应的文本框，并更新多个文本框的行号。本技术还设置的验证方式，来验证文本检测模型输出的文本框的准确性，从而为后续确定准确的排版信息提供良好的基础。

8、在一种可能的设计方法中，多个分块数据包括第一分块数据，在第一分块数据包括行首缩进值时，属性信息对应的第一阈值范围为：行间距是行高的第一倍数；或者，行首缩进值是行高的第二倍数；在第一分块数据不包括行首缩进值时，属性信息对应的第一阈值范围为：行间距是行高的第三倍数；在第一分块数据包括行尾缩进值时，属性信息对应的第一阈值范围为：行尾缩进值是行号的第四倍数。本技术提供一种确定文档文本的排版信息的方法。

9、在一种可能的设计方法中，多个分块数据包括第一分块数据，属性信息对应的第二阈值范围为：行间距是行高的第五倍数；在第一分块数据包括行首缩进值时，属性信息对应的第二阈值范围为：行首缩进值是行高的第六倍数；在第一分块数据包括行尾缩进值时，属性信息对应的第二阈值范围为：行尾缩进值是行号的第七倍数。本技术提供一种确定截图文本的排版信息的方法。

10、在一种可能的设计方法中，多个分块数据包括第一分块数据，属性信息对应的第三阈值范围为：行间距是行高的第八倍数；在第一分块数据包括行首缩进值时，属性信息对应的第三阈值范围为：行首缩进值是行高的第九倍数；在第一分块数据包括行尾缩进值时，属性信息对应的第三阈值范围为：行尾缩进值是行号的第十倍数。本技术提供一种确定第一文本的排版信息的方法。

11、在一种可能的设计方法中，基于多个文本框、多个文本框的坐标信息、多个段落框以及多个段落框的坐标信息，确定待识别图像对应的多个分块数据，包括：基于多个文本框的坐标信息和多个段落框的坐标信息，确定多个文本框中每个文本框对应的段落框；为每个文本框和每个文本框对应的段落框建立对应关系，基于对应关系，得到多个分块数据，一个分块数据包括一个段落框以及与该段落框对应的至少一个文本框。

12、在一种可能的设计方法中，基于多个文本框的坐标信息和多个段落框的坐标信息，确定多个文本框中每个文本框对应的段落框，包括：针对每个文本框执行以下步骤，得到文本框对应的段落框：基于文本框的坐标信息和多个段落框的坐标信息，确定文本框分别与多个段落框之间的交并比iou；将多个iou中最大的iou对应的段落框，作为文本框对应的段落框。本技术提供一种通过iou来确定文本框对应的段落框的方法。

13、在一种可能的设计方法中，确定多个行号中，相邻两个行号对应的文本框是否为同一行，包括：在第一文本框和第二文本框的横坐标的差值不超过第一阈值，且第一文本框和第二文本框的纵坐标的重叠度超过第二阈值的情况下，确定第一文本框和第二文本框是同一行，第一文本框和第二文本框为多个行号中，相邻两个行号对应的文本框。

14、在一种可能的设计方法中，确定待识别图像对应的文本类型包括：将待识别图像输入图像场景分类模型，图像场景分类模型输出待识别图像对应的文本类型。

15、第二方面，提供了一种电子设备，该电子设备具有实现上述第一方面的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

16、第三方面，提供了一种电子设备，包括：处理器和存储器；该存储器用于存储计算机执行指令，当该电子设备运行时，该处理器执行该存储器存储的该计算机执行指令，以使该电子设备执行如上述第一方面中任一项的文本处理方法。

17、第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机可以执行上述第一方面中任一项的文本处理方法。

18、第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述第一方面中任一项的文本处理方法。

19、第六方面，提供了一种装置(例如，该装置可以是芯片系统)，该装置包括处理器，用于支持第一设备实现上述第一方面中所涉及的功能。在一种可能的设计中，该装置还包括存储器，该存储器，用于保存第一设备必要的程序指令和数据。该装置是芯片系统时，可以由芯片构成，也可以包含芯片和其他分立器件。

20、其中，第二方面至第六方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果，此处不再赘述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙甜甜,刘石磊,刘曦,郑昊亮,李一博
技术所有人：荣耀终端有限公司
我是此专利的发明人

上一篇：门店确定方法、装置、设备及存储介质与流程
上一篇：具有自清洁功能的纳米过滤器及使用方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。