一种基于决策树的OCR文本还原方法、设备及存储介质与流程

文档序号：35472797发布日期：2023-09-16 16:17阅读：51来源：国知局

本发明涉及文字识别，特别涉及一种基于决策树的ocr文本还原方法、设备及存储介质。

背景技术：

1、为进一步提高文档信息的可访问性并方便管理，需要对文档进行文本内容识别，将图像和扫描图中的文本转换为可编辑、可搜索的文本。最早的文档识别技术就是基于ocr方法，它使用光学字符识别技术将文档中的文字提取出来。近年来，随着科学技术的快速发展，渐渐出现了基于深度学习的和基于计算机视觉的文档识别技术。基于深度学习的文档识别技术虽然在图像处理上有了显著进展，但需要大规模的数据集训练，并耗费大量的计算资源和时间。基于计算机视觉的文档识别技术在表格解析上已经被广泛应用，但它也需要消耗大量资源训练，并且对于特殊结构的表格仍可能发生解析错误或丢失部分信息。反观ocr技术具备较高的成熟度和稳定性，可用于多种类型文档，随着算法改进其识别结果准确度高，支持多种语言，还有许多商业和开源引擎可供选择。因此，当前ocr识别技术仍然是最常用的文档识别技术。

2、尽管ocr技术的识别准确性已经取得了显著的进步，但在文本较为复杂、模糊或扭曲的文本、低分辨率图像等具有挑战性的情况下，识别后的文本可能仍然无法完全保留原始文档的格式和布局，导致识别结果与原文不一致。这时后处理方法就会发挥作用：对于已知样式和模板的文档，可以根据样式规则和模板信息进行还原，但这种方法无法处理格式未知的文档。还可以通过自然语言处理技术，对ocr识别结果进行语义分析和实体识别，提取文本中的关键信息、命名实体、关系等，从而还原原始文档中的语义结构和信息，但这种方法需要耗费大量资源进行模型训练，还需要纳入特定领域的实体知识。所以，当前最常用的ocr文本后处理方法是文本布局分析法，通过分析ocr识别结果中文本块的相对位置关系，对多个文本框进行距离计算或聚类，来还原原始文档的布局结构。然而，目前许多文本布局分析法只关注了文本框的相对位置信息，却很少关注诸如字体、数字比例、特定关键字等其他特征。

3、针对现有研究情况，当前面向文档的ocr识别技术后处理方法有如下问题：

4、1.现有的后处理技术对所识别文本结构的还原能力较差，可能让文本被错误地分类或合并，影响识别结果地准确性和连续性；

5、2.缺乏对字体、数字比例、特定关键字等其他多种特征的关注。

技术实现思路

1、针对现有技术中存在的问题，提供了一种基于决策树的ocr文本还原方法、设备及存储介质，决策树分析文本框的多项特征，对文本框进行分类和合并，实现了文本还原，可以解决文本框被错误分类、排列或重叠的问题。

2、本发明采用的技术方案如下：一种基于决策树的ocr文本还原方法，包括：

3、对ocr识别的文本框进行预处理；

4、提取文本框特征，并基于文本框特征构建决策树；

5、根据决策树，对文本框进行分类与合并，还原文本原始布局。

6、进一步的，所述预处理包括：

7、对每个文本框进行编号，记录其初始内容；

8、将文本框的所有英文字符转换为小写；

9、去除文本框中的特殊字符。

10、进一步的，所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。

11、进一步的，所述提取文本框特征过程包括：

12、提取每个文本框的字数、行数以及在整个文档中的位置；

13、提取每个文本框的长度、宽度以及字体；

14、提取每个文本框中数字比例、字母比例以及包含的关键字。

15、进一步的，所述关键字为能表示文本框内容的含义的关键字，例如“图1”，“表2”，“1.1”“2.1”等。这些关键字的格式由专家根据经验制定，可通过正则表达式来识别。

16、进一步的，所述构建决策树包括：

17、根节点：判断是否包含关键字；是则根据关键字类型对文本框分类，包括：

18、章节节点判断：根据文本框的宽度、字体、关键字数量，细分章节等级；

19、图表节点判断；根据文本框的字体、位置、关键字特征，确定所属图表；

20、否则直接根据文本框长度、宽度、字体、位置等对文本框进行分类；

21、标题节点判断：文本框宽度最宽，处于页面中最高位置；

22、页码节点判断：若包含关键字“页”“page”，则其余内容均为数字，若不包含关键字，则全为数字；长度小于一行，处于页面中最高或最低位置；

23、段落节点判断：根据数字比例以及字母比例特征，确定段落类型。

24、进一步的，所述分类与合并过程包括：

25、将所有文本框按照决策树进行分类；

26、根据文本框编号，复原每个文本框的初始内容以及位置排布；

27、对同一类别内位置相邻、字体一致、宽度相同的文本框进行合并。

28、本发明第二方面提出了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现上述的基于决策树的ocr文本还原方法。

29、本发明第三方面提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于决策树的ocr文本还原方法。

30、与现有技术相比，采用上述技术方案的有益效果为：本发明关注了文本框除位置外的多项特征，使用决策树对文本框进行分类再合并，避免了位置相近的文本框被错误分类的情况，能够基于文本的不同类别进行针对性还原。

技术特征：

1.一种基于决策树的ocr文本还原方法，其特征在于，包括：

2.根据权利要求1所述的基于决策树的ocr文本还原方法，其特征在于，所述预处理包括：

3.根据权利要求2所述的基于决策树的ocr文本还原方法，其特征在于，所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。

4.根据权利要求2或3所述的基于决策树的ocr文本还原方法，其特征在于，所述提取文本框特征过程包括：

5.根据权利要求4所述的基于决策树的ocr文本还原方法，其特征在于，所述关键字为能表示文本框内容的含义的关键字，通过正则表达式来识别。

6.根据权利要求4所述的基于决策树的ocr文本还原方法，其特征在于，所述构建决策树包括：

7.根据权利要求6所述的基于决策树的ocr文本还原方法，其特征在于，所述分类与合并过程包括：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器执行所述计算机程序以实现权利要求1-7任一所述的基于决策树的ocr文本还原方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于决策树的ocr文本还原方法。

技术总结
本发明提供了一种基于决策树的OCR文本还原方法、设备及存储介质，包括：对OCR识别的文本框进行预处理；提取文本框特征，并基于文本框特征构建决策树；根据决策树，对文本框进行分类与合并，还原文本原始布局。本发明针对OCR的识别结果进行后处理，通过应用决策树分析文本框的多项特征，识别文本框内容类别：如标题、章节、页码、段落等，然后进行分类与合并，以还原文本的原始布局，避免了OCR识别结果中的文本框被错误分类、排列或重叠的情况，解决了文本内容不连贯、文本的格式和布局容易错乱的问题。

技术研发人员：刘法,白建亮,阎德劲,郑大安,雷文强,向元新,熊可欣,袁焦,丁栋威,邓欣,顾海燕,奂锐,谢明华,孙国东
受保护的技术使用者：中国电子科技集团公司第十研究所
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘法白建亮阎德劲郑大安雷文强向元新熊可欣袁焦丁栋威邓欣顾海燕奂锐谢明华孙国东
技术所有人：中国电子科技集团公司第十研究所
我是此专利的发明人

上一篇：一种便于安装的LED灯条的制作方法
上一篇：一种用于电力电缆施工的线缆收卷装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。