本说明书一个或多个实施例涉及计算机,尤其涉及一种面向pdf文档的表格数据抽取方法及装置。
背景技术:
::1、多数情况下,多源异构多维度供应链数据包含了丰富的有价值信息,对于指导企业的经营管理、决策支持以及商业模式创新等方面具有重要意义。其中,可移植文档格式(portable document format, pdf)作为一种广泛应用的非结构化数据形式,在跨平台性、高保真度和安全性等方面具有显著优势,因此在各类文档的制作和传播中被广泛采用。特别是在企业应用领域,pdf文档是企业内部沟通以及外部交流的重要载体,例如招股说明书、上市公司定期报告(包括年报、半年报和季度报等)、合同协议、产品说明书等。这些pdf文档中蕴含了大量的企业信息,如经营状况、财务指标、市场竞争力、产品特性等,对于企业自身及其利益相关者都具有重要价值。然而,由于pdf文档通常是不可编辑的,且包含表格、图片及文本等多种非结构化数据,因此从中有效地抽取数据变得繁杂且耗时。目前,从pdf文档中抽取数据的方法主要包括人工摘取录入、pdf转换器、开源工具及智能算法等,然而这些方法都存在一定的局限和不足。具体如下:2、(1)数据复杂问题。pdf文档通常由表格、图片及文本等具有复杂性及多样性特点的非结构化数据组成,常见的数据转换方法/工具效率低、成本高且未能提供可视分析功能,操作不便捷、可用性受限。3、(2)数据质量问题。由于人为主观判断、疏忽或疲劳等多种因素,采用手工方式抽取pdf文档非结构化数据容易发生遗漏、错误,甚至忽略某些重要的数据信息,可能会对后续分析应用产生负面影响。4、(3)数据完整问题。采用自动化工具从pdf文档中抽取数据时,往往只能抽取一些常规的财务指标数据,而忽略了那些对数据分析具有极高价值的财务附注、图片及文本等信息,影响数据完整性及分析精准性。5、(4)数据对比问题。采用手工方式从pdf文档抽取的结构化数据通常存储在excel或word文档表格中,未来需要进行同比、环比以及本年累计等指标的统计分析时,无法实现历史数据的快速检索及调用。6、(5)数据融合问题。采用传统的数据抽取方法/工具从pdf文档中提取的结构化数据,通常难以按业务主题进行合理归纳、分类存储,数据可用性不强,由此带来了数据融合方面的挑战。7、为了有效解决上述问题,需要提供一种更有效的面向pdf文档的数据抽取方法。技术实现思路1、本说明书一个或多个实施例描述了一种面向pdf文档的表格数据抽取方法及装置,可以大大提升表格数据的抽取效率和准确性。2、第一方面,提供了一种面向pdf文档的表格数据抽取方法,包括:3、对pdf文档进行解析,得到其中包含的初始表格和多页文本内容;4、将所述多页文本内容转换为对应的各个文本列表,单个文本列表包括多行文本;5、从所述各个文本列表中,选取所述初始表格所在页对应的目标文本列表;6、按照预设符号,对所述目标文本列表进行切分,得到文本二维列表;7、根据所述初始表格的第一行数和第一列数,以及所述文本二维列表的第二列数,确定所述初始表格的表格类别;8、所述确定所述初始表格的表格类别包括,若所述第一行数小于预设行数,且所述第一列数和所述第二列数相等,则确定所述表格类别为三线表;若所述第二列数与所述第一列数的差值等于预设列数,则确定所述表格类别为边框缺失表;若所述第二列数与所述第一列数的差值大于预设列数,则确定所述表格类别为颜色阶梯表;9、根据确定的表格类别,对所述初始表格进行重构,得到重构表格;10、将所述重构表格确定为从所述pdf文档中抽取的表格数据。11、第二方面,提供了一种面向pdf文档的表格数据抽取装置,包括:12、解析单元,用于对pdf文档进行解析,得到其中包含的初始表格和多页文本内容;13、转换单元,用于将所述多页文本内容转换为对应的各个文本列表,单个文本列表包括多行文本;14、选取单元,用于从所述各个文本列表中,选取所述初始表格所在页对应的目标文本列表;15、切分单元,用于按照预设符号,对所述目标文本列表进行切分,得到文本二维列表;16、确定单元,用于根据所述初始表格的第一行数和第一列数,以及所述文本二维列表的第二列数,确定所述初始表格的表格类别;17、所述确定单元具体用于:若所述第一行数小于预设行数,且所述第一列数和所述第二列数相等,则确定所述表格类别为三线表;若所述第二列数与所述第一列数的差值等于预设列数,则确定所述表格类别为边框缺失表;若所述第二列数与所述第一列数的差值大于预设列数,则确定所述表格类别为颜色阶梯表;18、重构单元,用于根据确定的表格类别,对所述初始表格进行重构,得到重构表格;19、所述确定单元,还用于将所述重构表格确定为从所述pdf文档中抽取的表格数据。20、本说明书一个或多个实施例提供的一种面向pdf文档的表格数据抽取方法及装置,在从pdf文档中解析得到初始表格之后,先针对该初始表格所在页对应的文本列表进行切分,得到文本二维列表。之后,基于该初始表格的行列数和文本二维列表的列数,确定该初始表格的表格类别。最后,基于确定的表格类别和上述的文本列表,对该初始表格进行重构,得到重构表格作为从pdf文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。技术特征:1.一种面向pdf文档的表格数据抽取方法,包括:2.根据权利要求1所述的方法,其中,所述重构表格的数目为两个,且该两个重构表格包括,位于上一页面的第一重构表格和位于下一页面的第二重构表格;所述方法还包括:3.根据权利要求2所述的方法,还包括:4.根据权利要求3所述的方法,其中,所述两个部分包括第一拆分表格和第二拆分表格;5.根据权利要求1所述的方法,其中,所述对所述初始表格进行重构,包括:6.根据权利要求1所述的方法,还包括:7.根据权利要求6所述的方法,其中,所述确定所述表格主题信息所在区域,包括:8.根据权利要求1所述的方法,其中,所述将所述多页文本内容转换为多个文本列表,包括:9.一种可视化分析系统,包括:10.一种面向pdf文档的表格数据抽取装置,包括:技术总结本说明书实施例提供一种面向PDF文档的表格数据抽取方法及装置,在抽取方法中,在从PDF文档中解析得到初始表格之后,先针对该初始表格所在页对应的文本列表进行切分,得到文本二维列表。之后,基于该初始表格的行列数和文本二维列表的列数,确定该初始表格的表格类别。最后,基于确定的表格类别和上述的文本列表,对该初始表格进行重构,得到重构表格作为从PDF文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。技术研发人员:朱海洋,陈为,储诚灿,胡健,谈旭炜,应石磊,苏轶,王牡丹,潘奇豪,朱凌军,沈萍平受保护的技术使用者:浙江大学技术研发日:技术公布日:2024/2/1