一种工程计量清单的数据提取方法及系统与流程

文档序号:24742594发布日期:2021-04-20 22:11阅读:164来源:国知局
一种工程计量清单的数据提取方法及系统与流程

1.本发明涉及工程计量技术领域,具体涉及一种工程计量清单的数据提取方法及系统。


背景技术:

2.工程计量清单(工程量清单)是工程造价控制的核心,是招标文件的关键,是合同规定要实施的工程全部项目和内容,是确定合同价款,计算工程量变更价款,支付工程款,竣工结算及处理索赔的依据,是投标企业进行投标报价的基础,因此标准、规范化的工程计量清单是工程造价有效控制与管理的前提。工程量的计算经历了从手工计算到各类软件计算的历程,其中传统的手工计算工程量的过程是熟悉图纸、列出计算书、分项计算工程量和工程量汇总,其存在费时费力,且易出错、效率低的问题。因此,现有技术中大多采用软件计算工程量,并生成工程计量清单。
3.但是,建设行业还没有一个通用、标准的数据格式化存储方案,因此建设行业的各企业主要按照各自的意愿设置存储格式进行存储。这些存储格式不统一的工程计量清单数据上传到大数据分析平台后,系统难以自动进行识别及分析,因此对分析工作带来了很大困难。为此,公开号为cn107193788a的中国专利就公开了《一种建设行业工程项目excel文件数据格式化存储方法及系统》,所述方法包括以下步骤:a、基于分布式和高并发的计算机技术,在各客户端上采集建设行业工程项目excel文件,并提取excel文件中的字段属性信息;b、根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;c、将有效的关键特征字段加入kafka消息队列,并利用反垃圾大数据算法对导入的excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;d、将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。
4.上述现有方案能够规约excel格式的工程计量清单的标准格式数据,进而实现了存储格式的统一。然而,申请人发现各个单位生成的工程计量清单的文件格式是各不相同的,即除了excel格式的工程计量清单之外,还存在xml格式或其他文件格式的工程计量清单。但现有方案仅能够规约excel格式的工程计量清单的标准格式数据,因此其难以直接应用于建设工程领域。同时,申请人发现excel格式的文件具有很多格式和样式(例如各种表头,合并行列,有数字、字符等)。一方面,这使得系统对excel格式的文件进行识别和处理时,存在识别难度很高、处理计算量大的问题,导致工程计量清单的处理效率低;另一方面,使得excel格式的文件结构性和统一性差,也就很难将其他格式的文件转换成excel格式,导致工程计量清单的转换通用性不好。因此,申请人想到设计一种能够兼顾工程计量清单处理效率和转换通用性的工程计量清单管理方法。


技术实现要素:

5.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够兼顾工程计量清单处理效率和转换通用性的工程计量清单管理方法及系统,从而能够提升对
于工程计量清单的数据提取效果。
6.为了解决上述技术问题,本发明采用了如下的技术方案:一种工程计量清单的数据提取方法,其特征在于,包括以下步骤:s1:导入工程计量清单,并判断工程计量清单的文件格式;s2:对工程计量清单进行格式转换,以转换得到标记语言格式的工程计量清单;s3:将标记语言格式的工程计量清单与设置的标准格式模板做对比,并提取工程计量清单中的节点数据;s4:存储工程计量清单的节点数据。
7.优选的,所述标记语言格式为xml格式、html语言格式或txt文本格式。
8.优选的,步骤s2中,若工程计量清单的文件格式为excel格式、且标记语言格式为xml格式,则通过文件格式转换器对工程计量清单的文件格式进行格式转换;具体过程中如下:首先采用红黑树存储excel格式的工程计量清单的表头作为xml格式文件的节点;然后根据红黑树结构和xml格式文件的节点进行数据提取;最后通过设置的格式转换模型进行xml格式文件的节点遍历及数据类型处理,以得到xml格式的工程计量清单。
9.优选的,步骤s2中,文件格式转换器基于poi组件开发,并集成了dom4j开源库。
10.优选的,步骤s2中,得到xml格式的工程计量清单后,将工程计量清单存储于设置的xml格式文件库中。
11.优选的,步骤s2中,若工程计量清单的文件格式为xml格式、且标记语言格式为xml格式,则直接进入步骤s3。
12.优选的,步骤s3中,若标记语言格式为xml格式,则标准格式模板为标准xml模板;提取工程计量清单中的节点数据时包括如下步骤:标准xml模板中设置了对应于重要数据的节点数据提取规则,将标记语言格式的工程计量清单与标准xml模板做对比时,根据标准xml模板的节点数据提取规则提取节点数据。
13.优选的,所述节点数据提取规则包括对字段、名称和数值的特征提取。
14.本发明还公开了一种工程计量清单的数据提取系统,其基于上述的数据提取方法实施,具体包括:数据导入单元,用于导入工程计量清单;数据分析单元,用于根据工程计量清单的后缀名信息判断工程计量清单的文件格式;格式转换单元,用于对工程计量清单进行格式转换,以转换得到标记语言格式的工程计量清单;模板数据库,用于存储标准格式模板;节点提取单元,用于将标记语言格式的工程计量清单与标准格式模板做对比,并提取工程计量清单中的节点数据;业务数据库,用于存储工程计量清单中的节点数据。
15.本发明中的工程计量清单管理方法及系统与现有技术相比,具有如下优点:本发明中,对工程计量清单进行了格式转换得到了标记语言格式的工程计量清单,而标记语言格式没有任何样式和格式,使得数据识别和处理时的识别难度低、处理计算量小,从而能够提升工程计量清单的处理效率。其次,标记语言格式是一种通用标记语言,
其结构性和统一性较好,能够让各种不统一格式的文件变成一种具有结构性的标记语言,也就是能够将其他格式的文件很好的转换,从而能够提升工程计量清单的转换通用性。此外,本发明通过将标记语言格式的工程计量清单与标准格式模板做对比的方式提取节点数据,也就是能过通过设置标准格式模板的节点数据提取规则来提取重要数据,即能够“过滤”无用数据、存储重要数据,从而能够进一步提升工程计量清单的处理效率。
附图说明
16.为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:图1为实施例一中工程计量清单管理方法的逻辑框图;图2为实施例一中工程计量清单管理方法的工作流程图;图3为实施例二中工程计量清单管理系统的逻辑框图。
具体实施方式
17.下面通过具体实施方式进一步详细的说明:实施例一:本实施例中公开了一种工程计量清单的数据提取方法。
18.结合图1和图2所示,一种工程计量清单的数据提取方法,包括以下步骤:s1:导入工程计量清单,并判断工程计量清单的文件格式。
19.s2:对工程计量清单进行格式转换,以转换得到标记语言格式的工程计量清单。具体的,标记语言格式可以选用xml格式、html语言格式或txt文本格式;本实施例中选用xml格式,因为xml格式的规范统一性、可扩展性和互操作性均好于其他格式;若步骤s2中的工程计量清单的文件格式为xml格式、且标记语言格式为xml格式,则直接进入步骤s3,即无需对工程计量清单的文件格式进行格式转换。
20.s3:将标记语言格式的工程计量清单与设置的标准格式模板做对比,并提取工程计量清单中的节点数据。
21.s4:存储工程计量清单的节点数据。
22.本发明中,对工程计量清单进行了格式转换得到了标记语言格式的工程计量清单,而标记语言格式没有任何样式和格式,使得数据识别和处理时的识别难度低、处理计算量小,从而能够提升工程计量清单的处理效率。其次,标记语言格式是一种通用标记语言,其结构性和统一性较好,能够让各种不统一格式的文件变成一种具有结构性的标记语言,也就是能够将其他格式的文件很好的转换,从而能够提升工程计量清单的转换通用性。此外,本发明通过将标记语言格式的工程计量清单与标准格式模板做对比的方式提取节点数据,也就是能过通过设置标准格式模板的节点数据提取规则来提取重要数据,即能够“过滤”无用数据、存储重要数据,从而能够进一步提升工程计量清单的处理效率。
23.具体实施过程中,步骤s2中,若工程计量清单的文件格式为excel格式、且标记语言格式为xml格式,则通过文件格式转换器对工程计量清单的文件格式进行格式转换;具体过程中如下:首先采用红黑树存储excel格式的工程计量清单的表头作为xml格式文件的节点;然后根据红黑树结构和xml格式文件的节点进行数据提取;最后通过设置的格式转换模
型进行xml格式文件的节点遍历及数据类型处理,以得到xml格式的工程计量清单。本实施例中,文件格式转换器基于apache基金会的poi组件开发,并集成了dom4j开源库;设置的格式转换模型为dom模型。
24.实际管理过程中,工程计量清单一般为excel格式,而xml格式的规范统一性、可扩展性和互操作性均好于其他格式,所以,本发明中重点说明了将excel格式的工程计量清单转换为工程计量清单xml格式的方式。本发明中通过上述步骤能够很好的将excel格式的工程计量清单转换为工程计量清单xml格式,有利于数据的识别和处理,从而能够提升工程计量清单的处理效率。
25.具体实施过程中,步骤s2中,得到xml格式的工程计量清单后,将工程计量清单存储于设置的xml格式文件库中。本发明将工程计量清单存储于xml格式文件库中,更便于工程计量清单与标准格式模板作对比,有利于提升工程计量清单的处理效率。
26.具体实施过程中,步骤s2中,若工程计量清单的文件格式为xml格式、且标记语言格式为xml格式,则直接进入步骤s3,即无需对工程计量清单的文件格式进行格式转换。实际管理过程中,xml格式也是工程计量清单额主要格式之一,而xml格式的规范统一性、可扩展性和互操作性均较好,所以无需对工程计量清单的文件格式进行格式转换。
27.具体实施过程中,步骤s3中,若标记语言格式为xml格式,则标准格式模板为标准xml模板;提取工程计量清单中的节点数据时包括如下步骤:标准xml模板中设置了对应于重要数据的节点数据提取规则,将标记语言格式的工程计量清单与标准xml模板做对比时,根据标准xml模板的节点数据提取规则提取节点数据。本实施例中,设置的节点数据提取规则包括对字段、名称和数值等特征的提取。本发明通过设置标准格式模板的节点数据提取规则来提取重要数据,即能够“过滤”无用数据、存储重要数据,从而能够进一步提升工程计量清单的处理效率。
28.实施例二:本实施例在实施例一的基础上,进一步公开了一种工程计量清单的数据提取系统。
29.本实施例中,公开了一种工程计量清单的数据提取系统,其基于上述的格式转换方法实施。其中,工程计量清单的文件格式为excel格式,标记语言格式为xml格式,标准格式模板为标准xml模板。
30.结合图3所示,工程计量清单的数据提取系统,具体包括:数据导入单元,用于导入工程计量清单。
31.excel格式文件库,用于存储excel格式的工程计量清单。
32.数据分析单元,用于根据工程计量清单的后缀名信息判断工程计量清单的文件格式。
33.格式转换单元,用于对工程计量清单进行格式转换,以转换得到标记语言格式的工程计量清单。本实施例中,通过文件格式转换器对工程计量清单的文件格式进行格式转换;具体过程中如下:首先采用红黑树存储excel格式的工程计量清单的表头作为xml格式文件的节点;然后根据红黑树结构和xml格式文件的节点进行数据提取;最后通过设置的dom模型进行xml格式文件的节点遍历及数据类型处理,以得到xml格式的工程计量清单。具体的,文件格式转换器基于apache基金会的poi组件开发,并集成了dom4j开源库。
34.xml格式文件库,用于存储转换得到的xml格式工程计量清单。
35.模板数据库,用于存储标准格式模板。
36.节点提取单元,用于将标记语言格式的工程计量清单与标准格式模板做对比,并提取工程计量清单中的节点数据。标准xml模板中设置了对应于重要数据的节点数据提取规则,将标记语言格式的工程计量清单与标准xml模板做对比时,根据标准xml模板的节点数据提取规则提取节点数据。
37.业务数据库,用于存储工程计量清单中的节点数据。
38.中央处理单元,用于获取导入的工程计量清单并发送至数据分析单元;然后获取工程计量清单的文件格式并发送至格式转换单元;再获取标记语言格式的工程计量清单和标准格式模板并发送至节点提取单元;最后获取工程计量清单中的节点数据并发送至业务数据库存储。
39.本发明中,对工程计量清单进行了格式转换得到了标记语言格式的工程计量清单,而标记语言格式没有任何样式和格式,使得数据识别和处理时的识别难度低、处理计算量小,从而能够提升工程计量清单的处理效率。其次,标记语言格式是一种通用标记语言,其结构性和统一性较好,能够让各种不统一格式的文件变成一种具有结构性的标记语言,也就是能够将其他格式的文件很好的转换,从而能够提升工程计量清单的转换通用性。此外,本发明通过将标记语言格式的工程计量清单与标准格式模板做对比的方式提取节点数据,也就是能过通过设置标准格式模板的节点数据提取规则来提取重要数据,即能够“过滤”无用数据、存储重要数据,从而能够进一步提升工程计量清单的处理效率。
40.以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1