针对不规则表格的信息提取方法、装置、设备及存储介质与流程

文档序号:37750425发布日期:2024-04-25 10:37阅读:10来源:国知局
针对不规则表格的信息提取方法、装置、设备及存储介质与流程

本申请涉及计算机,尤其涉及一种针对不规则表格的信息提取方法、装置、设备及存储介质。


背景技术:

1、现有技术中,表格提取任务的目的是提取表格内容并进行结构化。传统方法主要是基于规则和图像处理方法,膨胀,腐蚀,找连通域,检测线段,找交点,合并猜测框,按大小过滤。

2、按照行或列线是否连续对表格进行划分为:其中,行或列线是连续为规则表格,行或列线不连续为不规则表格。现有方法对规则表格通用,但是在不规则表格上效果很差,因为这类表格不具备规则的线条,无法检测出行线和列线,自然在表格重建阶段失败。

3、pdf格式是由adobe system在1993年用于文件交所发展出来的,它的核心优势在于其跨平台性,能保留文件原有格式,开放标准。但是,pdf的结构复杂,从pdf中提取文本,图形和表格等信息的难度也相应增加。

4、对于表格结构,与html等格式不同,pdf对于表格没有单独的定义,pdf中的表格只是单纯的线条和文字的结合,属于不规则表格,即行线和列线不连续的非欧几里得数据。因此pdf表格数据的的识别和提取变成不小的挑战。

5、尤其是边框不完全表格或无边框表格,没有框线约束,虽然肉眼可见表格行列情况,但是机器识别的准确率往往受限制。

6、针对这些难点,本申请提出一种针对不规则表格的信息提取方法。


技术实现思路

1、本申请提供一种针对不规则表格的信息提取方法、装置、设备及存储介质,可以从行线和列线不连续的不规则表格中提取文本、图形和表格信息内容进行结构化,同时提高表格提取正确率。

2、第一方面,提供一种针对不规则表格的信息提取方法,包括:获取具有文件格式的目标文件;从所述目标文件中解析出不闭合线段;将所述不闭合线段组合单元格的情况下,对所述目标文件中的表格进行提取。

3、在第一方面的一种可能的实现方式中,将所述不闭合线段组合单元格,包括:获取所述不闭合线段中的所有线段;基于所述所有线段组合单元格。

4、在第一方面的一种可能的实现方式中,基于所述所有线段组合单元格,包括:确定所述所有线段的目标交点坐标;将所述目标交点坐标进行组合得到所述单元格。

5、在第一方面的一种可能的实现方式中,确定所述所有线段的目标交点坐标,包括:判断所述所有线段中的每条线段是否在任一线段的两侧;若是,则确定两条线段相交;在确定两条线段相交的情况下,确定所述所有线段的目标交点坐标。

6、在第一方面的一种可能的实现方式中,还包括:在确定所述不闭合线段中存在列线的情况,将所述目标交点坐标进行组合得到所述单元格。

7、在第一方面的一种可能的实现方式中,所述方法还包括:确定所述不闭合线段组合单元格的情况下,按照单元格排列,并将表格内容按照预设顺序进行抽取。

8、第二方面,提供一种文件的表格提取装置,包括:获取模块,用于获取具有文件格式的目标文件;确定模块,用于从所述目标文件中解析出不闭合线段;提取模块,用于将所述不闭合线段组合单元格的情况下,对所述目标文件中的表格进行提取。

9、第三方面,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面或其各实现方式中的方法。

10、第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面或其各实现方式中的方法。

11、第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如第一方面或其各实现方式中的方法。

12、本申请实施例提供的一种针对不规则表格的信息提取方法,获取具有文件格式的目标文件;从所述目标文件中解析出不闭合线段;将所述不闭合线段组合单元格的情况下,对所述目标文件中的表格进行提取。采用本申请实施例的技术方案可以从复杂的pdf格式中,提取文本、图形和表格信息内容进行结构化,同时提高表格提取正确率。



技术特征:

1.一种文件的表格提取方法,其特征在于,包括:

2.根据权利要求1所述的文件的表格提取方法,其特征在于,将所述不闭合线段组合单元格,包括:

3.根据权利要求2所述的文件的表格提取方法,其特征在于,基于所述所有线段组合单元格,包括:

4.根据权利要求3所述的文件的表格提取方法,其特征在于,确定所述所有线段的目标交点坐标,包括:

5.根据权利要求3所述的文件的表格提取方法,其特征在于,还包括:在确定所述不闭合线段中存在列线的情况,将所述目标交点坐标进行组合得到所述单元格。

6.根据权利要求1所述的文件的表格提取方法,其特征在于,所述方法还包括:确定所述不闭合线段组合单元格的情况下,按照单元格排列,并将表格内容按照预设顺序进行抽取。

7.一种文件的表格提取装置,其特征在于,包括:

8.一种电子设备,包括:

9.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

10.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。


技术总结
本申请实施例涉及计算机技术领域,尤其涉及一种针对不规则表格的信息提取方法、装置、设备及存储介质。该方法包括:获取具有文件格式的目标文件;从所述目标文件中解析出不闭合线段;将所述不闭合线段组合单元格的情况下,对所述目标文件中的表格进行提取。采用本申请的技术方案,可以从复杂的PDF文件格式中,提取文本、图形和表格信息,即解决不规则表格的信息提取问题,同时提高表格提取正确率。

技术研发人员:孙刈凡,杨青
受保护的技术使用者:度小满科技(北京)有限公司
技术研发日:
技术公布日:2024/4/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1