一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统与流程

文档序号:18192503发布日期:2019-07-17 05:39阅读:355来源:国知局
一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统与流程

本发明涉及税务数据处理技术领域,更具体地,涉及一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统。



背景技术:

目前,省国税局的数据汇聚库归集了金三核心征管、防伪税控、货运、电子底账、稽核和出口退税等主要业务系统数据。维度模型所需源数据主要通过数据汇聚库推送,再进行加工处理进入维度模型。维度模型数据加工处理作业约900个,加上纳税信息等级、决策二包、大企业等约1300个数据处理作业。税收监控分析、税收优惠等在用的统计分析类系统也通过数据汇聚库得到生产系统数据。现有的数据加工处理存在以下问题:不同系统采集的数据不统一,采集的数据没有进行统一整合,存在数据信息不完整的问题;不同的系统、不同的服务商分别进行各自的数据集中和加工处理,由于各服务商加工处理数据的方式各不相同,没有统一的标准规范,数据分析处理、挖掘困难,很难形成对税务数据的应用。随着税务大数据时代的到来,数据日益具备数据海量、类型多样、变化迅速、价值稀疏的显著特征,现有基于传统技术架构的数据分析应用面临巨大挑战,技术架构必须进行相应调整,以便适应的大数据分析挖掘的需要。

因此,需要一种技术,以实现基于分布式系统基础架构平台对税务数据进行处理。



技术实现要素:

本发明一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统,以解决如何对税务数据进行处理的问题。

为了解决上述问题,本发明提供了一种基于分布式系统基础架构平台对税务数据进行处理的方法,所述方法包括:

将税务数据存储至分布式文件系统;

将所述税务数据分为动态税务数据和静态税务数据;

采集所述动态税务数据,对采集的所述动态税务数据进行实时处理;

将所述动态税务数据存储至第一数据库,将所述静态税务数据存储至第二数据库;

对所述税务数据进行清洗转换,包括对所述税务数据进行统一处理,以及将不完整的所述税务数据补充完整;

对所述静态税务数据进行挖掘和分析;对所述动态税务数据进行流式处理。

优选地,还包括:建立用于所述税务数据展示的展示数据库。

优选地,还包括:对所述税务数据进行检索。

优选地,还包括:对所述税务数据进行展示。

优选地,还包括:通过以空间换空间的方式,进行所述税务数据的展示。

基于本发明的另一方面,提供一种基于分布式系统基础架构平台对税务数据进行处理的系统,所述系统包括:

第一存储单元,用于将税务数据存储至分布式文件系统;

定义单元,用于将所述税务数据分为动态税务数据和静态税务数据;

第一处理单元,用于采集所述动态税务数据,对采集的所述动态税务数据进行实时处理;

第二存储单元,用于将所述动态税务数据存储至第一数据库,将所述静态税务数据存储至第二数据库;

第二处理单元,用于对所述税务数据进行清洗转换,包括对所述税务数据进行统一处理,以及将不完整的所述税务数据补充完整;

分析单元,用于对所述静态税务数据进行挖掘和分析;对所述动态税务数据进行流式处理。

优选地,还包括展示单元,用于建立用于所述税务数据展示的展示数据库。

优选地,还包括检索单元,用于对所述税务数据进行检索。

优选地,还包括展示单元,用于对所述税务数据进行展示。

优选地,所述展单元还用于:通过以空间换空间的方式,进行所述税务数据的展示。

本申请技术方案通过使用基于分布式系统基础架构平台hadoop,统一进行税务数据的处理。本申请将税务数据存储至分布式文件系统hdfs,并将需要修改的税务数据分为动态税务数据,不需要修改的税务数据分为静态税务数据,本申请通过sqoop将税务数据存储至分布式文件系统hdfs,通过flume和kafka采集动态税务数据,并可以实现对采集的动态税务数据进行实时处理。本申请分别将动态税务数据存储至第一数据库,利用第一数据库的查询功能,使得动态税务数据查询以及处理速度快。本申请将静态税务数据存储至第二数据库,使得静态税务数据能够实现分区或分时间段的存储。本申请技术方案,通过spark程序,将不同来源的税务数据进行清洗转换,对于不完整的税务数据,进行完整性处理;对于税务数据信息不统一的税务数据,进行统一处理。通过本申请的技术方案,能够实现对静态税务数据进行挖掘和分析,以及实现对动态税务数据进行流式处理。本申请通过大数据平台hadoop的构建,使得海量税务数据能够进行统一管理,并在此基础上进行数据的处理分析,有效实现了税务数据的应用。

附图说明

通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:

图1为根据本发明一实施方式的一种基于分布式系统基础架构平台对税务数据进行处理的方法流程图;以及

图2为根据本发明一实施方式的一种基于分布式系统基础架构平台对税务数据进行处理的系统结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。

除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明一实施方式的一种基于分布式系统基础架构平台对税务数据进行处理的方法流程图。本申请实施方式通过使用基于分布式系统基础架构平台hadoop,统一进行税务数据的处理。本申请将税务数据存储至分布式文件系统hdfs,并将需要修改的税务数据分为动态税务数据,和不需要修改的税务数据分为静态税务数据,本申请通过sqoop将税务数据存储至分布式文件系统hdfs,通过flume和kafka采集动态税务数据,并可以实现对采集的动态税务数据进行实时处理。本申请分别将动态税务数据存储至第一数据库,利用第一数据库的查询功能,使得动态税务数据查询以及处理速度快。本申请将静态税务数据存储至第二数据库,使得静态税务数据能够实现分区或分时间段的存储。本申请实施方式,通过spark程序,将不同来源的税务数据进行清洗转换,对于不完整的税务数据,进行完整性处理;对于税务数据信息不统一的税务数据,进行统一处理。如图1所示,一种基于分布式系统基础架构平台对税务数据进行处理的方法100从步骤101开始:

优选地,在步骤101:将税务数据存储至分布式文件系统hdfs。本申请中由于税局的大部分原始税务数据都是存放的oracle中的,所以第一步就是通过sqoop将税务数据导入到大数据平台。

优选地,在步骤102:将税务数据分为动态税务数据和静态税务数据。本申请中,将经常会发生变化的税务数据定义为动态税务数据,将不会发生变化的税务数据,分为静态税务数据。

优选地,在步骤103:采集动态税务数据,对采集的动态税务数据进行实时处理。本申请对于一些需要实时处理的动态税务数据,通过flume和kafka进行统一的数据采集。

优选地,在步骤104:将动态税务数据存储至第一数据库,将静态税务数据存储至第二数据库,其中:第一数据库为数据库hbase,第二数据库为数据库hive。

本申请将税务数据存储在hdfs中,对于将经常有变化的动态税务数据存入到第一数据库hbase中,对不会发生变化的静态税务数据存储在第二数据库hive中。因为第二数据库hive数据库要进行全表扫描,所以聚合表和事实表只留存一个月的数据,历史数据存储在hbase中。hbase的列式存储特性及rowkey的存在,使得查询速度会比较快。本申请第二数据库hive中存储的税务数据,能够实现分区、分时间段的税务数据存储。

优选地,在步骤105:对税务数据进行清洗转换,包括对税务数据进行统一处理,以及将不完整的税务数据补充完整。本申请通过spark对税务数据进行补充,使税务数据完整。

本申请针对税务数据来源的不统一,以及某些税务数据信息的不完整性,需要对税务数据进行清洗转换。主要涉及税务数据的统一处理及信息的补全操作。这部分主要通过spark程序实现。

优选地,在步骤106:对静态税务数据进行挖掘和分析;对动态税务数据进行流式处理。优选地,通过sparkstreaming接收采集的实时税务数据,并对实时税务数据进行流式处理。

本申请针对税务数据的分析处理,以及对税务数据进行挖掘,主要通过spark实现。对于实时信息,通过sparkstreaming接受kafka采集的数据,进行流式处理。

优选地,还包括:建立用于税务数据展示的展示数据库。优选地,通过greenplum作为数据展示的数据库。

本申请税务数据展示部分的数据库采用greenplum,利用mpp数据库的优势,批量导入,并行查询。

优选地,方法100还包括对税务数据进行检索。优选地,通过elasticsearch进行税务数据的检索。

本申请对于需要全文搜索的税务数据,采用elasticsearch,利用其全文检索的速度优势,达到秒级的检索速度。

优选地,方法100还包括对税务数据进行展示。优选地,通过apachekylin进行税务数据展示。

本申请采用apachekylin用于税务数据展示,通过以空间换空间的方式,提高聚合数据的查询展示速度,并且简化税务数据处理过程。

本申请的实施方式灵活的使用了hbase表和hive表各自的优势,用以存储不同类型的税务数据。本申请税务数据的展示过程,按照不同的查询分类,利用多种技术进行数据展示,在提高系统响应速度的同时简化开发难度。本申请通过大数据平台的构建,得以对海量数据能够进行统一的管理,并在此基础上进行数据的处理分析展示,为领导决策和疑点监控提供了有利的保障。同时该平台具备良好的扩展性,能够轻松应对将来数据的增长情况。

图2为根据本发明一实施方式的一种基于分布式系统基础架构平台对税务数据进行处理的系统结构图。如图2所示,系统200包括:

第一存储单元201,用于将税务数据存储至分布式文件系统hdfs。本申请中由于税局的大部分原始税务数据都是存放的oracle中的,所以第一步就是通过sqoop将税务数据导入到大数据平台。

定义单元202,用于将税务数据分为动态税务数据和静态税务数据。本申请中,将经常会发生变化的税务数据定义为动态税务数据,将不会发生变化的税务数据,分为静态税务数据。

第一处理单元203,用于采集动态税务数据,对采集的动态税务数据进行实时处理。本申请对于一些需要实时处理的动态税务数据,通过flume和kafka进行统一的数据采集。

第二存储单元204,用于将动态税务数据存储至第一数据库,将静态税务数据存储至第二数据库,其中:第一数据库为数据库hbase,第二数据库为数据库hive。

本申请将税务数据存储在hdfs中,对于将经常有变化的动态税务数据存入到第一数据库hbase中,对不会发生变化的静态税务数据存储在第二数据库hive中。因为第二数据库hive数据库要进行全表扫描,所以聚合表和事实表只留存一个月的数据,历史数据存储在hbase中。hbase的列式存储特性及rowkey的存在,使得查询速度会比较快。本申请第二数据库hive中存储的税务数据,能够实现分区、分时间段的税务数据存储。

第二处理单元205,用于对税务数据进行清洗转换,包括对税务数据进行统一处理,以及将不完整的税务数据补充完整。本申请通过spark对税务数据进行补充,使税务数据完整。

本申请针对税务数据来源的不统一,以及某些税务数据信息的不完整性,需要对税务数据进行清洗转换。主要涉及税务数据的统一处理及信息的补全操作。这部分主要通过spark程序实现。

分析单元206,用于对静态税务数据进行挖掘和分析;对动态税务数据进行流式处理。优选地,通过sparkstreaming接收采集的实时税务数据,并对实时税务数据进行流式处理。

本申请针对税务数据的分析处理,以及对税务数据进行挖掘,主要通过spark实现。对于实时信息,通过sparkstreaming接受kafka采集的数据,进行流式处理。

优选地,系统200还包括展示单元,用于建立用于税务数据展示的展示数据库。优选地,通过greenplum作为数据展示的数据库。

本申请税务数据展示部分的数据库采用greenplum,利用mpp数据库的优势,批量导入,并行查询。

优选地,系统200还包括检索单元,用于对税务数据进行检索。优选地,通过elasticsearch进行税务数据的检索。

本申请对于需要全文搜索的税务数据,采用elasticsearch,利用其全文检索的速度优势,达到秒级的检索速度。

优选地,系统200还包括展示单元,用于对税务数据进行展示。优选地,通过apachekylin进行税务数据展示。

本申请采用apachekylin用于税务数据展示,通过以空间换空间的方式,提高聚合数据的查询展示速度,并且简化税务数据处理过程。

本发明一实施方式的一种基于分布式系统基础架构平台对税务数据进行处理的系统200与本发明另一实施方式一种基于分布式系统基础架构平台对税务数据进行处理的方法100相对应,在此不再进行赘述。

已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1