一种基于Hadoop和Spark的可扩展性大数据分析平台的制作方法

文档序号:18544808发布日期:2019-08-27 21:33阅读:530来源:国知局
一种基于Hadoop和Spark的可扩展性大数据分析平台的制作方法

本发明涉及大数据分析领域,具体为一种基于hadoop和spark的可扩展性大数据分析平台。



背景技术:

随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。idc公司发布的数字宇宙研究报告称,全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8zb。idc认为,到下一个十年(2020年),全球所有it部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35zb的数据量。数据量的飞速增长预示着我们现在已经进入了一个大数据的时代。然而,当前不仅仅是数据规模越来越大,而且数据类型多和处理实时性要求都极大地增加了大数据处理的复杂度。

分布式计算框架spark适用于海量数据场景下的数据分析挖掘,spark的数据结构ataframe类似于python和r语言的dataframe,是一种结构化的数据处理结构,具有行索引和列索引。基于这些特性,可以方便、精确地对数据进行处理,dataframe本身自带了很多用于数据清洗加工的api,很多复杂的功能通过简单的调用即可实现。目前应用于大数据分析的分析平台方案单一、数据处理效率低下,同时可扩展性差。



技术实现要素:

本发明的目的在于提供一种基于hadoop和spark的可扩展性大数据分析平台,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于hadoop和spark的可扩展性大数据分析平台,包括可拓展数据接入模块、特征提取模块、全局数据分析模块、数据管理模块、流管理模块与算子管理模块,所述可拓展数据接入模块设置有多个且其用于提供多种数据源接入,其输入数据并支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;所述特征提取模块与多个可拓展数据接入模块连接且其用于读取输入数据,其包括整合单元与数据类型提取单元,整合单元接收多个可拓展数据接入模块的输入数据并对输入数据进行整合,其将输入数据整合成预制数据集;所述数据类型提取单元与整合单元连接且其用于获取预制数据集,其推测预制数据集中每一列的数据类型,并对其进行数据类型标注。

优选的,全局数据分析模块具有全局存储单元,全局数据分析模块与数据类型提取单元连接且其用于对预制数据集进行批量全局分析或在线实时全局分析,其基于内存进行迭代式计算,对海量预制数据集进行全局分析并在分析后将其分解存储至全局存储单元。

优选的,数据管理模块用于对全局存储单元中数据进行管理,其通过http协议将数据上传到平台的分布式文件系统中。

优选的,流管理模块用于对平台中的工作流进行管理、增删改查。

优选的,算子管理模块用于对平台中封装的各类spark算子进行管理,并由平台对这些算子进行图形化封装,算子管理模块利用sparkdataframe算子分类目录式管理方法将算子进行分类,以及管理、展示并生成分类目录。

优选的,算子管理模块包括切片单元,切片单元用以按预设周期获取算子切片并对该算子切片进行管理。

本发明还提供了上述一种基于hadoop和spark的可扩展性大数据分析平台的分析方法,包括以下步骤:

s1:可拓展数据接入模块提供多种数据源接入并将数据源接入特征提取模块;

s2:特征提取模块获取多种数据源并对其进行整合、提取;

s3:全局数据分析模块对整合、提取后的数据进行全局分析,全局分析后将其发送至数据管理模块;

s4:数据管理模块对全局存储单元中数据进行管理,并通过http协议将数据上传到平台的分布式文件系统中;

s5:算子管理模块对平台中封装的各类spark算子进行周期性管理。

与现有技术相比,本发明的有益效果是:

本发明减少手动编译开发sparkdataframe脚本的工作量,基于hadoop和spark具有处理更快、预测更准确,具有稳定可靠、容易扩展的特点,可以进行海量数据分析以帮助用户更好地从数据中获取价值。

附图说明

图1为本发明的模块结构示意图;

图2为本发明特征提取模块的模块结构示意图。

图中:1、可拓展数据接入模块;2、特征提取模块;21、整合单元;22、数据类型提取单元;3、全局数据分析模块;4、数据管理模块;5、流管理模块;6、算子管理模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1-2,本发明提供一种技术方案:一种基于hadoop和spark的可扩展性大数据分析平台,包括可拓展数据接入模块1、特征提取模块2、全局数据分析模块3、数据管理模块4、流管理模块5与算子管理模块6,所述可拓展数据接入模块1设置有多个且其用于提供多种数据源接入,其输入数据并支持分布式文件系统、列式数据库、关系型数据库的数据存储方式;所述特征提取模块2与多个可拓展数据接入模块1连接且其用于读取输入数据,其包括整合单元21与数据类型提取单元22,整合单元21接收多个可拓展数据接入模块的输入数据并对输入数据进行整合,其将输入数据整合成预制数据集;所述数据类型提取单元22与整合单元21连接且其用于获取预制数据集,其推测预制数据集中每一列的数据类型,并对其进行数据类型标注。

全局数据分析模块3具有全局存储单元,全局数据分析模块3与数据类型提取单元22连接且其用于对预制数据集进行批量全局分析或在线实时全局分析,其基于内存进行迭代式计算,对海量预制数据集进行全局分析并在分析后将其分解存储至全局存储单元。

数据管理模块4用于对全局存储单元中数据进行管理,其通过http协议将数据上传到平台的分布式文件系统中。

流管理模块5用于对平台中的工作流进行管理、增删改查。

算子管理模块6用于对平台中封装的各类spark算子进行管理,并由平台对这些算子进行图形化封装,算子管理模块6利用sparkdataframe算子分类目录式管理方法将算子进行分类,以及管理、展示并生成分类目录。

算子管理模块6包括切片单元,切片单元用以按预设周期获取算子切片并对该算子切片进行管理。

一种基于hadoop和spark的可扩展性大数据分析平台的分析方法,包括以下步骤:

s1:可拓展数据接入模块1提供多种数据源接入并将数据源接入特征提取模块2;

s2:特征提取模块2获取多种数据源并对其进行整合、提取;

s3:全局数据分析模块3对整合、提取后的数据进行全局分析,全局分析后将其发送至数据管理模块4;

s4:数据管理模块4对全局存储单元中数据进行管理,并通过http协议将数据上传到平台的分布式文件系统中;

s5:算子管理模块6对平台中封装的各类spark算子进行周期性管理。

本发明减少手动编译开发sparkdataframe脚本的工作量,基于hadoop和spark具有处理更快、预测更准确,具有稳定可靠、容易扩展的特点,可以进行海量数据分析以帮助用户更好地从数据中获取价值。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1