一种面向PDF文档的表格数据抽取方法及装置

文档序号：36893656发布日期：2024-02-02 21:25阅读：36来源：国知局

本说明书一个或多个实施例涉及计算机，尤其涉及一种面向pdf文档的表格数据抽取方法及装置。
背景技术：
：：1、多数情况下，多源异构多维度供应链数据包含了丰富的有价值信息，对于指导企业的经营管理、决策支持以及商业模式创新等方面具有重要意义。其中，可移植文档格式(portable document format, pdf)作为一种广泛应用的非结构化数据形式，在跨平台性、高保真度和安全性等方面具有显著优势，因此在各类文档的制作和传播中被广泛采用。特别是在企业应用领域，pdf文档是企业内部沟通以及外部交流的重要载体，例如招股说明书、上市公司定期报告（包括年报、半年报和季度报等）、合同协议、产品说明书等。这些pdf文档中蕴含了大量的企业信息，如经营状况、财务指标、市场竞争力、产品特性等，对于企业自身及其利益相关者都具有重要价值。然而，由于pdf文档通常是不可编辑的，且包含表格、图片及文本等多种非结构化数据，因此从中有效地抽取数据变得繁杂且耗时。目前，从pdf文档中抽取数据的方法主要包括人工摘取录入、pdf转换器、开源工具及智能算法等，然而这些方法都存在一定的局限和不足。具体如下：2、（1）数据复杂问题。pdf文档通常由表格、图片及文本等具有复杂性及多样性特点的非结构化数据组成，常见的数据转换方法/工具效率低、成本高且未能提供可视分析功能，操作不便捷、可用性受限。3、（2）数据质量问题。由于人为主观判断、疏忽或疲劳等多种因素，采用手工方式抽取pdf文档非结构化数据容易发生遗漏、错误，甚至忽略某些重要的数据信息，可能会对后续分析应用产生负面影响。4、（3）数据完整问题。采用自动化工具从pdf文档中抽取数据时，往往只能抽取一些常规的财务指标数据，而忽略了那些对数据分析具有极高价值的财务附注、图片及文本等信息，影响数据完整性及分析精准性。5、（4）数据对比问题。采用手工方式从pdf文档抽取的结构化数据通常存储在excel或word文档表格中，未来需要进行同比、环比以及本年累计等指标的统计分析时，无法实现历史数据的快速检索及调用。6、（5）数据融合问题。采用传统的数据抽取方法/工具从pdf文档中提取的结构化数据，通常难以按业务主题进行合理归纳、分类存储，数据可用性不强，由此带来了数据融合方面的挑战。7、为了有效解决上述问题，需要提供一种更有效的面向pdf文档的数据抽取方法。技术实现思路1、本说明书一个或多个实施例描述了一种面向pdf文档的表格数据抽取方法及装置，可以大大提升表格数据的抽取效率和准确性。2、第一方面，提供了一种面向pdf文档的表格数据抽取方法，包括：3、对pdf文档进行解析，得到其中包含的初始表格和多页文本内容；4、将所述多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本；5、从所述各个文本列表中，选取所述初始表格所在页对应的目标文本列表；6、按照预设符号，对所述目标文本列表进行切分，得到文本二维列表；7、根据所述初始表格的第一行数和第一列数，以及所述文本二维列表的第二列数，确定所述初始表格的表格类别；8、所述确定所述初始表格的表格类别包括，若所述第一行数小于预设行数，且所述第一列数和所述第二列数相等，则确定所述表格类别为三线表；若所述第二列数与所述第一列数的差值等于预设列数，则确定所述表格类别为边框缺失表；若所述第二列数与所述第一列数的差值大于预设列数，则确定所述表格类别为颜色阶梯表；9、根据确定的表格类别，对所述初始表格进行重构，得到重构表格；10、将所述重构表格确定为从所述pdf文档中抽取的表格数据。11、第二方面，提供了一种面向pdf文档的表格数据抽取装置，包括：12、解析单元，用于对pdf文档进行解析，得到其中包含的初始表格和多页文本内容；13、转换单元，用于将所述多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本；14、选取单元，用于从所述各个文本列表中，选取所述初始表格所在页对应的目标文本列表；15、切分单元，用于按照预设符号，对所述目标文本列表进行切分，得到文本二维列表；16、确定单元，用于根据所述初始表格的第一行数和第一列数，以及所述文本二维列表的第二列数，确定所述初始表格的表格类别；17、所述确定单元具体用于：若所述第一行数小于预设行数，且所述第一列数和所述第二列数相等，则确定所述表格类别为三线表；若所述第二列数与所述第一列数的差值等于预设列数，则确定所述表格类别为边框缺失表；若所述第二列数与所述第一列数的差值大于预设列数，则确定所述表格类别为颜色阶梯表；18、重构单元，用于根据确定的表格类别，对所述初始表格进行重构，得到重构表格；19、所述确定单元，还用于将所述重构表格确定为从所述pdf文档中抽取的表格数据。20、本说明书一个或多个实施例提供的一种面向pdf文档的表格数据抽取方法及装置，在从pdf文档中解析得到初始表格之后，先针对该初始表格所在页对应的文本列表进行切分，得到文本二维列表。之后，基于该初始表格的行列数和文本二维列表的列数，确定该初始表格的表格类别。最后，基于确定的表格类别和上述的文本列表，对该初始表格进行重构，得到重构表格作为从pdf文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。技术特征：1.一种面向pdf文档的表格数据抽取方法，包括：2.根据权利要求1所述的方法，其中，所述重构表格的数目为两个，且该两个重构表格包括，位于上一页面的第一重构表格和位于下一页面的第二重构表格；所述方法还包括：3.根据权利要求2所述的方法，还包括：4.根据权利要求3所述的方法，其中，所述两个部分包括第一拆分表格和第二拆分表格；5.根据权利要求1所述的方法，其中，所述对所述初始表格进行重构，包括：6.根据权利要求1所述的方法，还包括：7.根据权利要求6所述的方法，其中，所述确定所述表格主题信息所在区域，包括：8.根据权利要求1所述的方法，其中，所述将所述多页文本内容转换为多个文本列表，包括：9.一种可视化分析系统，包括：10.一种面向pdf文档的表格数据抽取装置，包括：技术总结本说明书实施例提供一种面向PDF文档的表格数据抽取方法及装置，在抽取方法中，在从PDF文档中解析得到初始表格之后，先针对该初始表格所在页对应的文本列表进行切分，得到文本二维列表。之后，基于该初始表格的行列数和文本二维列表的列数，确定该初始表格的表格类别。最后，基于确定的表格类别和上述的文本列表，对该初始表格进行重构，得到重构表格作为从PDF文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。技术研发人员：朱海洋,陈为,储诚灿,胡健,谈旭炜,应石磊,苏轶,王牡丹,潘奇豪,朱凌军,沈萍平受保护的技术使用者：浙江大学技术研发日：技术公布日：2024/2/1

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱海洋,陈为,储诚灿,胡健,谈旭炜,应石磊,苏轶,王牡丹,潘奇豪,朱凌军,沈萍平
技术所有人：浙江大学
我是此专利的发明人

上一篇：一种用于磁环电感加工的浸锡装置的制作方法
上一篇：一种放线张力的稳定装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。