一种政务大数据预处理系统及处理方法
【专利摘要】本发明公开了一种政务大数据预处理系统,包括数据抽取模块、非结构化数据抽取模块、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块和非结构化数据抽取模块均与分布式调度框架连接。本发明一种政务大数据预处理系统,解决了现有预处理系统面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。本发明还提供了一种政务大数据处理的方法,解决了现有预处理系统面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。
【专利说明】一种政务大数据预处理系统及处理方法
【技术领域】
[0001]本发明属于大数据处理【技术领域】,涉及一种政务大数据预处理系统,本发明还涉及一种政务大数据预处理的方法。
【背景技术】
[0002]随着信息技术的飞速发展,人类已经进入了以深度挖掘数据价值为核心的大数据时代。人们可以利用大数据技术对数据间的关系进行分析做出科学的决策,改变过去依靠经验和直觉做决策的方式。政府拥有海量的、权威的信息资源优势,如果借助大数据发展,可以进一步推动电子政务建设,为社会提供更好的服务和公共产品。大数据从数据源经过分析挖掘到最终获得价值一般经过几个主要环节,包括数据预处理、数据存储与管理、计算处理(批处理、流处理、交互分析)、数据挖掘与分析、分布式检索、数据交付等几部分。数据预处理作为后续处理的前端处理,在应用大数据时,如果不对数据进行预处理,单纯依赖服务器的计算能力,无法满足大数据场景下对处理速度、处理精确性等的要求,且会增加大数据处理系统的压力。
[0003]数据预处理系统是指在主要的处理以前对数据进行的一些处理,目标是将获得的低质量的数据转换成高质量便于存储、处理的数据集。
[0004]目前,政务活动产生的数据主要存储在关系型数据库中,利用大数据技术对政务数据进行深度挖掘分析,首先应该将这些不同数据库的数据导入到一个集中的大型分布式数据库,或者分布式存储集群。从不同数据库抽取出的数据存在各种缺陷不利于后期的挖掘分析,比如数据源格式不同、数据叠加了噪声、数据有冗余和重复、数据有错误等,低质量的数据处理后得不到高质量的结果。所以我们应该在导入的基础上做一些清洗和预处理工作。在数据导入和预处理的过程中最大的特点和挑战主要是导入的数据量大,每秒钟的导入经常会达到百兆甚至千兆级别。因此,基于大数据种类多样、数据量大、处理速度要求高的特点,需要一种能够协调各种预处理操作以保证快速高效处理大批量数据的系统。
【发明内容】
[0005]本发明提供了一种政务大数据预处理系统,解决了现有预处理系统面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。
[0006]本发明还提供了一种政务大数据处理的方法,解决了现有预处理系统面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。
[0007]本发明所采用的一种技术方案是,一种政务大数据预处理系统,包括结构化数据抽取模块、非结构化数据抽取模块、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块和非结构化数据抽取模块均与分布式调度框架连接。
[0008]本发明一种技术方案的特点还在于,
[0009]数据预处理模块包括数据检验单元、数据转换单元、数据合并单元、数据压缩单元、数据去重单元和数据写入单元。
[0010]分布式调度框架由客户端、分布式调度系统和处理端组成。
[0011]管理控制台包括数据源管理单元、任务调度管理单元、信息统计单元、数据校验单元和故障回退控制单元。
[0012]本发明所采用的另一种技术方案是,一种政务大数据处理方法,利用上述的政务大数据预处理系统,其结构为:
[0013]包括结构化数据抽取模块、非结构化数据抽取模块、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块和非结构化数据抽取模块均与分布式调度框架连接;
[0014]数据预处理模块包括数据检验单元、数据转换单元、数据合并单元、数据压缩单元、数据去重单元和数据写入单元;
[0015]分布式调度框架由客户端、分布式调度系统和处理端组成;
[0016]管理控制台包括数据源管理单元、任务调度管理单元、信息统计单元、数据校验单元和故障回退控制单元;
[0017]采用上述预处理系统的大数据处理方法,具体按照以下步骤实施:
[0018]步骤I,系统根据客户需求,通过源数据管理单元向后台处理系统发送数据抽取请求,后台处理系统根据接收到的数据抽取请求从结构化数据库或非结构化数据库中抽取数据,所述数据抽取请求包括结构化数据抽取请求和非结构化数据抽取请求;
[0019]步骤2,判断抽取的数据是否为统一的数据格式,如果抽取的数据是统一的数据格式,则执行步骤3 ;如果抽取的数据不是统一的数据格式,则将抽取的数据按照系统需求统一格式后并执行步骤3 ;
[0020]步骤3,判断统一格式后的数据是否符合分析要求,如果统一格式后的数据符合分析要求,则将统一格式后的通过数据写入单元存储到大数据存储与管理系统;如果统一格式后的数据不符合分析要求,则将统一格式后的数据发送给分布式调度框架,并执行步骤4 ;
[0021]步骤4,分布式调度框架对统一格式后的数据进行判断,并将其发送给数据预处理模块进行处理;
[0022]步骤5,数据写入单元将步骤4中经过处理的数据存储到大数据存储与管理系统中。
[0023]本发明另一种技术方案的特点还在于,
[0024]步骤4具体按照以下步骤实施:
[0025]步骤4.1,分布式调度框架判断统一格式后的数据是否需要去重,如果有去重需要,则将统一格式后的数据发送给数据去重单元对其进行去重;如果没有去重需要,则执行步骤4.2 ;
[0026]步骤4.2,分布式调度框架判断去重后的数据是否需要合并,如果有合并需要,则将去重后的数据进行合并,并执行步骤4.3 ;如果没有合并需要,则执行步骤4.3 ;
[0027]步骤4.3,分布式调度框架将合并后的数据与处理前的数据进行比较,检查其是否有错误、残缺和遗漏,如果没有错误、残缺和遗漏则将合并后的数据存储到大数据存储与管理系统中;如果有错误、残缺和遗漏,则重新执行步骤4.1?步骤4.3。
[0028]本发明的有益效果是,
[0029](I)该系统能够在不影响其他处理任务的前提下通过元数据管理模块及任务分发框架来协调多个处理任务,实现负载均衡。
[0030](2)该系统的并行工作能力强,保证任务的快速处理。
[0031](3)能够实现政务大数据从无序状态到有序状态转换的过程,其过程是动态的、连续的,可监控度量的,转换的结果将直接写入大数据存储系统中,供大数据处理分析使用。
[0032](4)使用分布式任务调度系统,使得在不增加硬件设备的条件下,将CPU使用率较低的服务器充分利用起来,实现服务器的最大价值。
【专利附图】
【附图说明】
[0033]图1是本发明一种政务大数据预处理系统的架构示意图;
[0034]图2是本发明中分布式调度框架的结构示意图;
[0035]图3是本发明一种政务大数据处理方法的流程示意图;
[0036]图4是本发明一种政务大数据处理方法中进行分布式任务调度的流程示意图。
[0037]图中,1.结构化数据抽取模块,2.非结构化数据抽取模块,3.数据检验单元,4.数据转换单元,5.数据合并单元,6.数据压缩单元,7.数据去重单元,8.数据写入单元,9.客户端,10.分布式调度系统,11.处理端,12.数据源管理单元,13.任务调度管理单元,14.信息统计单元,15.数据校验单元,16.故障回退控制单元。
【具体实施方式】
[0038]下面结合附图和【具体实施方式】对本发明进行详细说明。
[0039]本发明一种政务大数据预处理系统,如图1所示,包括结构化数据抽取模块1、非结构化数据抽取模块2、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块I和非结构化数据抽取模块2均与分布式调度框架连接。
[0040]数据预处理模块包括数据预处理模块包括数据检验单元3、数据转换单元4、数据合并单元5、数据压缩单元6、数据去重单元7和数据写入单元8。
[0041]管理控制台包括数据源管理单元12、任务调度管理单元13、信息统计单元14、数据校验单元15和故障回退控制单元16。
[0042]如图2所示,分布式调度框架由客户端9、分布式调度系统10和处理端11组成。
[0043]管理控制台作为整个预处理系统的UI前端,该控制台提供友好的人机交互界面,提供的主要功能包括对数据源的管理(数据抽取/入库控制)、任务调度管理(任务状态监测/任务调度控制)、信息统计(对特定关键字的信息查看并统计)、数据校验、故障回退控制。
[0044]其中,结构化数据抽取模块I从政务结构化数据库中抽取要处理的数据,或非结构化数据抽取模块2从政务非结构化数据库中抽取要处理的数据,结构化数据抽取模块I和非结构化数据抽取模块2将抽取的数据发送给分布式调度框架,分布式调度框架接收到要处理的数据之后,对其进行判断并分发到合适的处理节点做实际的处理操作;
[0045]数据检验单元3实现对处理前后数据的一致性和完整性检验;
[0046]数据转换单元4实现对数据格式的转换,将其转换为符合挖掘和分析要求的数据类型;
[0047]数据合并5单元完成不同数据源的合并操作;
[0048]数据压缩单元6实现对大数据量的冗余压缩;
[0049]数据去重单元7完成对非必须数据的过滤和去重;
[0050]数据写入单元8实现将预处理之后的数据加载到目标存储区,即大数据存储与管理系统,该系统实现对与处理过的数据的持久化存储和管理。
[0051]本发明一种政务大数据处理方法,如图3所示,具体为:
[0052]首先,系统根据客户的需求,通过数据源管理单元12向后台处理系统发送数据抽取请求,后台处理系统根据接收到的数据抽取请求从结构化数据库I或非结构化数据库2中抽取数据;
[0053]然后,任务调度管理单元13监测任务状态和任务调度控制,将抽取后的数据通过分布式调度框架发送到数据预处理模块;数据预处理模块根据接收到的任务做相应的处理;
[0054]其中,数据预处理模块做相应的处理具体为:
[0055]在数据转换单元4上运行能够实现对数据库抽取的数据的修订,完成数据格式的转化;对于格式化的数据,如有去重需要,则进一步将去重后的数据导入到数据去重单元7,通过去重功能程序过滤掉重复的数据项;如不需要,则跳过此步操作;对于经过格式化/去重之后的数据,如果需要合并某些数据单元,则将其导入到数据合并单元5,通过运行数据合并功能的程序实现对数据项的内容的合并;如不需要,则跳过此步操作;对数据格式化/去重复值/合并之后,在将数据加载到大数据存储与管理系统之前需要对处理前后的数据的某些关键值作比对,检查其是否有错误、残缺、遗漏问题,确保数据的真实性、有效性和完整性,如果有错去、残缺和遗漏问题,则放弃预处理的数据重新进行预处理;对于有些需要在不同节点之间传输的大数据流,考虑到网络带宽等因素,需要将其压缩后再传输,此时需要将这些数据导入到数据压缩单元6,通过运行数据压缩程序实现对数据的压缩。
[0056]最后,将经过预处理的数据通过数据写入单元8加载到目标存储区,即大数据存储与管理系统。
[0057]在整个政务大数据处理的流程中最重要的模块是分布式调度框架,该框架是一个分布式过程通信的系统,它提供了一个通用的应用程序框架,主要负责具体任务的分发和监控,能够保证大批量数据的高效处理。如图3所示,该框架包括三个组成部分,一是客户端,二是分布式调度系统,三是处理端。客户端的作用是提出一个任务并将其交给分布式调度系统。分布式调度系统会去寻找一个合适的处理端来完成这项任务。处理端执行由客户端经任务调度框架发送过来的任务,并且将结果通过分布式调度框架返回给客户端。分布式调度系统提供了客户端和处理端的API,便于使用任意语言编写客户端和处理端程序。
【权利要求】
1.一种政务大数据预处理系统,其特征在于,包括结构化数据抽取模块(I)、非结构化数据抽取模块(2)、数据预处理模块、分布式调度框架和管理控制台,所述数据抽取模块(I)和所述非结构化数据抽取模块(2)均与分布式调度框架连接。
2.根据权利要求1所述的一种政务大数据预处理系统,其特征在于,所述数据预处理模块包括数据检验单元(3)、数据转换单元(4)、数据合并单元(5)、数据压缩单元(6)、数据去重单元(7)和数据写入单元(8)。
3.根据权利要求1所述的一种政务大数据预处理系统,其特征在于,所述分布式调度框架由客户端(9)、分布式调度系统(10)和处理端(11)组成。
4.根据权利要求1所述的一种政务大数据预处理系统,其特征在于,所述管理控制台包括数据源管理单元(12)、任务调度管理单元(13)、信息统计单元(14)、数据校验单元(15)和故障回退控制单元(16)。
5.一种政务大数据处理方法,其特征在于,利用上述的政务大数据预处理系统,其结构为: 包括数据抽取模块(I)、非结构化数据抽取模块(2)、数据预处理模块、分布式调度框架和管理控制台,所述数据抽取模块(I)和所述非结构化数据抽取模块(2)均与分布式调度框架连接; 所述数据预处理模块包括数据检验单元(3)、数据转换单元(4)、数据合并单元(5)、数据压缩单元¢)、数据去重单元(7)和数据写入单元(8); 所述分布式调度框架由客户端(9)、分布式调度系统(10)和处理端(11)组成; 所述管理控制台包括数据源管理单元(12)、任务调度管理单元(13)、信息统计单元(14)、数据校验单元(15)和故障回退控制单元(16); 具体按照以下步骤实施: 步骤1,系统根据客户需求,通过源数据管理单元向后台处理系统发送数据抽取请求,后台处理系统根据接收到的数据抽取请求从结构化数据库或非结构化数据库中抽取数据,所述数据抽取请求包括结构化数据抽取请求和非结构化数据抽取请求; 步骤2,判断抽取的数据是否为统一的数据格式,如果抽取的数据是统一的数据格式,则执行步骤3 ;如果抽取的数据不是统一的数据格式,则将抽取的数据按照系统需求统一格式后并执行步骤3 ; 步骤3,判断统一格式后的数据是否符合分析要求,如果统一格式后的数据符合分析要求,则将统一格式后的通过数据写入单元存储到大数据存储与管理系统;如果统一格式后的数据不符合分析要求,则将统一格式后的数据发送给分布式调度框架,并执行步骤4 ; 步骤4,分布式调度框架对统一格式后的数据进行判断,并将其发送给数据预处理模块进行处理; 步骤5,数据写入单元将步骤4中经过处理的数据存储到大数据存储与管理系统中。
6.根据权利要求5所述的一种政务大数据处理方法,其特征在于,所述步骤4具体按照以下步骤实施: 步骤4.1,分布式调度框架判断统一格式后的数据是否需要去重,如果有去重需要,则将统一格式后的数据发送给数据去重单元对其进行去重;如果没有去重需要,则执行步骤4.2 ; 步骤4.2,分布式调度框架判断去重后的数据是否需要合并,如果有合并需要,则将去重后的数据进行合并,并执行步骤4.3 ;如果没有合并需要,则执行步骤4.3 ; 步骤4.3,分布式调度框架将合并后的数据与处理前的数据进行比较,检查其是否有错误、残缺和遗漏,如果没有错误、残缺和遗漏则将合并后的数据存储到大数据存储与管理系统中;如果有错误、残缺和遗漏,则重新执行步骤4.1?步骤4.3。
【文档编号】G06F17/30GK104361031SQ201410578565
【公开日】2015年2月18日 申请日期:2014年10月24日 优先权日:2014年10月24日
【发明者】王茜, 史晨昱, 李安颖, 葛新, 梁小江 申请人:西安未来国际信息股份有限公司