本发明属于大数据分析领域,具体为一种工程建设项目审批的大数据分析决策方法及系统。
背景技术:
1、当前国家全面开展工程建设项目审批制度改革,深入推进工程建设项目审批制度改革,需要收集全国各个城市的工程建设项目审批数据,建立全国统一的工程建设项目审批和监管体系,实时监管各城市的办件规范性及改革落实情况。
2、现有技术中,大部分工程建设项目审批系统都是在小范围内进行数据采集和处理;而全国工程建设项目审批系统,需要采集全国数据,数据量达到亿级别并且还在不断的爆炸式增长中,对数据的采集、清洗、分析等要求更高,需要一套高效的数据管理方法,保证数据的实时性并且易于决策分析。
技术实现思路
1、为解决现有技术存在的问题,本发明提供一种工程建设项目审批的大数据分析决策方法及系统,对工程建设项目审批数据按行政区划分片区管理、存储,并对数据进行关联处理形成以事项为单位的宽表,减少数据查询量,提高了查询效率,解决了大数据条件下,亿级海量工程审批数据的存储难、管理维护性能差的问题。
2、本发明方法采用以下技术方案实现:一种工程建设项目审批的大数据分析决策方法,包括以下步骤:
3、数据采集,以地市为单位收集工程审批数据,进行全国数据共享;
4、对采集的数据进行数据清洗和数据分级处理,构建树形的数据结构,获得树形父子关联关系结构的标准化数据;
5、按行政区划对数据进行分割,得到多个数据分片,以对数据进行分块管理;
6、以审批事项为单位进行数据关联和数据扩展,生成用于审批事项业务的宽表;
7、引入大数据引擎进行数据分析和数据同步;
8、对工程审批数据进行基于大数据的分析决策。
9、优选地,数据清洗和数据分级处理的过程包括:
10、对工程审批数据进行分级,构建树形的数据结构;
11、根据分级后数据之间的父子关系,对数据进行清洗;清洗原则为:地市上传子节点集数据,如果在父节点未找到关联数据,则判断数据不合格。
12、优选地,按行政区划对数据进行分割时,把每个数据表分成n个分区文件,每个分区文件按城市分块管理;分割后获得的数据分片分布在多个数据库集群节点上,每个数据分片上包含原有总数据集的至少一个子集。
13、优选地,对所生成的用于审批事项业务的宽表进行维护,采用中间表服务程序,将宽表扩展成中间表,通过定时检查增量的方式更新中间表的数据,并将所更新的数据同步到数据库。
14、本发明系统采用如下技术方案实现:一种工程建设项目审批的大数据分析决策系统,包括以下模块:
15、数据采集模块,用于以地市为单位收集工程审批数据,进行全国数据共享;
16、数据清洗模块,对采集的数据进行数据清洗和数据分级处理,构建树形的数据结构,获得树形父子关联关系结构的标准化数据;
17、数据分片模块,按行政区划对数据进行分割,得到多个数据分片,以对数据进行分块管理;
18、数据关联模块,以审批事项为单位进行数据关联和数据扩展,生成用于审批事项业务的宽表;
19、数据分析模块,引入大数据引擎进行数据分析和数据同步;
20、决策模块,对工程审批数据进行基于大数据的分析决策。
21、与现有技术相比,本发明取得的有益效果包括:
22、1、本发明对工程建设项目审批数据按行政区划分片区管理、存储,减少数据查询量,提高了查询效率,解决了大数据条件下,亿级海量工程审批数据的存储难、管理维护性能差的问题。
23、2、本发明对采集的数据在入库前进行清洗,并按树形父子关联关系进行分级处理,解决数据质量差、数据参差不齐的问题,保证了数据的关联性与完整性。
24、3、本发明对数据进行关联处理,形成以事项为单位的宽表,减少数据集统计的数量、减少业务表关联,提升统计分析的性能。此外,引入大数据引擎“clickhouse”,把用于分析的宽表从mysql数据库同步到该数据库,进一步提升了查询的性能。本发明所有的数据分析决策都基于上述宽表和数据引擎,对系统的开发和数据分析更快、更方便,数据承载力更强,维护成本低,架构简单并且性能提升巨大,克服了传统数据库在海量数据条件下统计分析性能不足的瓶颈。
25、4、本发明提供了一套采集全国工程建设审批数据的方法,并实现国家与地市的实时数据交换与共享;国家数据与省、市数据一致,对不合格的数据有详细的说明,方便地市整改,重新上传数据。
1.一种工程建设项目审批的大数据分析决策方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的大数据分析决策方法,其特征在于,数据清洗和数据分级处理的过程包括:
3.根据权利要求2所述的大数据分析决策方法,其特征在于,对工程审批数据进行分级时,将数据分为五级,一级为行政区划代码,二级为审批流程,三级为工程建设项目,四级为事项办理信息,五级为事项办理详细过程信息;从一级到五级为一对多,父与子的关系;
4.根据权利要求1所述的大数据分析决策方法,其特征在于,按行政区划对数据进行分割时,把每个数据表分成n个分区文件,每个分区文件按城市分块管理;分割后获得的数据分片分布在多个数据库集群节点上,每个数据分片上包含原有总数据集的至少一个子集。
5.根据权利要求1所述的大数据分析决策方法,其特征在于,对所生成的用于审批事项业务的宽表进行维护,采用中间表服务程序,将宽表扩展成中间表,通过定时检查增量的方式更新中间表的数据,并将所更新的数据同步到数据库。
6.根据权利要求5所述的大数据分析决策方法,其特征在于,所引入的大数据引擎为clickhouse数据库。
7.根据权利要求6所述的大数据分析决策方法,其特征在于,将mysql数据库和clickhouse数据库集群联合运用,mysql数据库用于存储,写入数据、做过程计算;clickhouse数据库用于统计分析、查询;mysql数据库把中间表及运算后的数据与clickhouse数据库同步。
8.根据权利要求1所述的大数据分析决策方法,其特征在于,数据采集的过程包括如下步骤:
9.一种工程建设项目审批的大数据分析决策系统,其特征在于,包括以下模块:
10.根据权利要求9所述的大数据分析决策系统,其特征在于,数据关联模块对所生成的用于审批事项业务的宽表进行维护,采用中间表服务程序,将宽表扩展成中间表,通过定时检查增量的方式更新中间表的数据,并将所更新的数据同步到数据库。