大数据环境下的数据挖掘平台的构建方法

文档序号:6538038阅读:188来源:国知局
大数据环境下的数据挖掘平台的构建方法
【专利摘要】本发明公开一种大数据环境下的数据挖掘平台的构建方法,适用于处理不同规模、类型多样的数据集,并利用R语言的丰富功能进行数据的分析和展现。本发明体系架构如下图所示,自底向上分为四层:物理层、虚拟化层、服务层和应用层。物理层部署了异构的硬件资源;在虚拟化层,利用CloudStack构建虚拟机群,然后在虚拟机集群上部署了Hadoop环境;在服务层,集成了R语言,实现了多种数据挖掘功能并封装成服务。在应用层,提供给用户清晰的操作界面,以可定制流程、参数可配置的方式供用户使用。本发明能有效处理大数据并展现分析结果,且具备较高的处理效率。
【专利说明】大数据环境下的数据挖掘平台的构建方法
[0001]
【技术领域】
[0002]本发明涉及一种大数据环境下的数据挖掘平台的构建方法,结合云计算、虚拟化和Hadoop等技术,集成了 R语言,适用于处理不同规模、类型多样的数据集,允许用户通过Web界面的方式进行数据挖掘、分析。
【背景技术】
[0003]随着信息化的推进,企事业单位产生或拥有了海量业务数据,其中蕴藏着大量未知的、潜在的信息。数据挖掘是一种新的商业信息处理技术,在银行、电信、保险、交通、零售等领域得到了普遍的应用。通过对大量业务数据进行抽取、转换、分析和其他模型化处理,可提取辅助做出正确而关键的决策。面对的数据量越来越大,针对大数据的挖掘、分析日趋得到关注。但是,单机模式的分析受限于内存容量和计算能力,使得传统的数据挖掘、分析方法在大数据环境下不再有效。
[0004]云计算的出现,为解决大数据问题提供了有效的途径。云计算、虚拟化技术可以有效地整合基础设施资源,为大数据的挖掘、分析提供了计算和存储能力。Hadoop是MapReduce编程模型的开源实现,为大数据的计算和存储提供了可用框架。开源软件R是当今相当流行的数据分析、统计制图语言,具有丰富的分析模块和实用工具,在业界已得到广泛应用。为了充分挖掘、分析大数据的价值,为用户提供功能强大的数据挖掘、分析功能,设计一个集成了 R语言、易用的大数据挖掘平台,具有很好的应用价值。

【发明内容】

[0005]发明目的:本发明提供一种大数据环境下的数据挖掘平台的构建方法,集成R语言作为数据分析引擎,设计了一个能够处理大数据环境下的数据挖掘平台。利用该平台进行数据挖掘,用户可以解决一些典型的数据挖掘问题,如客户细分、交叉销售,以及客户流失性分析、客户信用评价等问题。
[0006]为了实现上述目的,所构建系统的体系结构如下: 物理层:由服务器、PC机、网络设备等硬件组成,为大数据处理提供必需的硬件基础。
[0007]虚拟化层:采用开源云平台解决方案CloudStack 4.0搭建虚拟机集群,整合基础设施资源,为整个系统提供了可扩展的、易管理的计算和存储能力;然后,在虚拟机上部署Hadoop环境和MySQL集群,用于支持大数据的读写和存储。
[0008]服务层:部署RHadoop环境,使得R语言引擎能够运行在Hadoop集群之上,既可以充分发挥R语言在统计计算和绘图方面的强大功能,同时可以利用Hadoop在并行计算和扩展性方面的能力弥补R语言在处理大数据时的不足;开发服务,在服务中封装通常用到的数据挖掘方法实现的功能,包括4个大类10种数据挖掘算法,分别是:分类与预测的决策树、SVM支持向量机和神经网络算法;聚类分析的K-Mmeans、Pam、Clara、Agnes和Diana算法;回归分析的多元回归;时间序列分析的ARIMA模型分析方法。
[0009]应用层:以Web界面的方式向用户服务层实现的各种功能。用户可以建立分析流程,包括:设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。
[0010]技术方案:一种大数据环境下的数据挖掘平台的构建方法,包括如下几个步骤: 步骤1:基础设施虚拟化。采用虚拟化技术能实现主机和存储资源的一体化整合和共
享利用。将设施虚拟化,包括服务器虚拟化、存储虚拟化、网络虚拟化。主要从两个方面进行虚拟化,建立两个虚拟化池即计算虚拟化池和存储虚拟化池。计算虚拟化池主要实现应用虚拟化,在计算资源层面包括服务器虚拟化和应用中间件虚拟化。存储虚拟化池主要实现数据存储虚拟化,在存储层面包括存储硬件架构虚拟化和存储软件虚拟化。本发明按照上述思路搭建主机、管理节点、多台计算节点以及网络设备等硬件,为大数据处理提供必需的硬件基础。
[0011]步骤2:部署虚拟化器件,即虚拟机实例化的阶段。此流程大致分为以下几个步骤:
(1)选择虚拟器件并定制化;
(2)保存定制化参数文件; (3)选择部署的目标物理机服务器;
(4)拷贝虚拟器件的相关文件;
(5 )在目标机上启动部署后的虚拟器件。
[0012]步骤3:开源云计算解决方案CloudStack的安装。使用CloudStack作为基础,用户可以快速方便地在现有的基础架构上创建私有的云计算平台,其安装过程主要包含以下几步:
(O配置安装源(管理和计算节点均需要配置);
(2)安装CloudStack Management Server ;
(3)安装MySQL数据库;
(4)安装HOST主机;
(5)配置安全策略、网桥、防火墙、NFS共享等。
[0013]步骤4:服务层:部署RHadoop环境,使得R语言引擎能够运行在Hadoop集群之上;为了屏蔽R语言的复杂性,需要配置JRI动态链接库,使得实际的计算过程是通过在底层调用R语言来实现的。
[0014]步骤5:处理关系型数据库中的海量数据。结合R和Hadoop来实现对关系型数据库中大规模数据的操作。本发明采用了一种可以更高效地读取并处理关系数据库中大量数据记录的解决方案:通过开源工具Sqoop将大量待分析数据输出为文本数据文件,并上传到HDFS中,然后转化为对文本数据集进行分布式处理。
[0015]步骤6:流程化的操作方法。以Web界面的方式向用户服务层实现的各种功能。用户可以根据自身需求自定义分析流程,包括:设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。
[0016]本发明采用上述技术方案,具有以下有益效果:
(I)利用云计算和虚拟化技术,整合基础设施资源,为平台提供便于统一管理、具备高可扩展性的计算和存储能力。
[0017](2)针对不同规模数据集采用最优的数据处理模式,当数据规模单机模式不能处理时候,利用Hadoop集群提供支持。并且,Hadoop存储的多备份策略、任务执行时的心跳机制、以及数据库集群和复制技术保证了平台具备较高容错能力。
[0018](3)为解决数据挖掘算法的可扩展性,使用多种设计模式优化接口设计,表示层的参数配置界面和R语言分析数据的逻辑松耦合。
[0019](4)提供了主流的数据挖掘算法,支持处理结构化(MySQL、SQLServer、txt、csv和xls等格式文件)、半结构化(XML、HTML等格式文件)、非结构化(jpg、bmp和GIS底图等图像文件)三大类数据。
[0020](5)整个平台中集成运用了 8种开源软件,系统性价比高。
【专利附图】

【附图说明】
[0021]图1是大数据环境下的数据挖掘平台的体系架构图。
[0022]图2是应用层的业务流程图。
【具体实施方式】
[0023]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0024]大数据环境下的数据挖掘平台的体系架构,如图1所示,包括如下几个步骤:
步骤1:基础设施虚拟化。采用虚拟化技术能实现主机和存储资源的一体化整合和共
享利用,既能提高资源利用率,降低成本,又能降低管理的复杂性。将设施虚拟化,包括服务器虚拟化、存储虚拟化、网络虚拟化。本发明主要从两个方面进行虚拟化,建立两个虚拟化池即计算虚拟化池和存储虚拟化池。计算虚拟化池主要实现应用虚拟化,在计算资源层面包括服务器虚拟化和应用中间件虚拟化。存储虚拟化池主要实现数据存储虚拟化,在存储层面包括存储硬件架构虚拟化和存储软件虚拟化。本发明按照上述思路搭建主机、管理节点、多台计算节点以及网络设备等硬件,为大数据处理提供必需的硬件基础。
[0025]步骤2:部署虚拟化器件,即虚拟机实例化的阶段。此流程大致分为以下几个步骤:
(O选择虚拟器件并定制化;
(2)保存定制化参数文件;
(3)选择部署的目标物理机服务器;
(4)拷贝虚拟器件的相关文件;
(5)在目标物理机服务器上启动部署后的虚拟器件。
[0026]步骤3:开源云计算解决方案CloudStack的安装。使用CloudStack作为基础,用户可以快速方便地在现有的基础架构上创建私有的云计算平台,其安装过程主要包含以下几步:
(O配置安装源(管理和计算节点均需要配置);
(2)安装 CloudStack Management Server ; (3)安装MySQL数据库;
(4)安装HOST主机;
(5)配置安全策略、网桥、防火墙、NFS共享等。
[0027]步骤4:服务层:部署RHadoop环境,使得R语言引擎能够运行在Hadoop集群之上,既可以充分发挥R语言在统计计算和绘图方面的强大功能,同时可以利用Hadoop在并行计算和扩展性方面的能力弥补R语言在处理大数据时的不足。具体的配置步骤如下:①Ubuntu操作系统的安装。②Java环境的搭建。③Hadoop环境的搭建。④依赖库(rmr、rhdfs、rhbase)的安装。为了屏蔽R语言的复杂性,需要配置Rserve或者JRI动态链接库,实现R语言的跨平台通信,使得实际的计算过程是通过在底层调用R语言来完成的。Rserve是一个基于TCP/IP协议的,允许R语言与其他语言通信的C/S结构的程序,它的使用步骤如下:①依赖库(Rserve)的安装:install.packages ("Rserve")。②启动服务:在命令行中输入 R CMD Rserve。
[0028]步骤5:处理关系型数据库中的海量数据。R中有多种面向关系型数据库管理系统的接口,但对于大量数据记录,R同样存在内存限制和处理效率低的问题。本发明结合R和Hadoop来实现对关系型数据库中大规模数据的操作。Hadoop提供了相应的从关系数据库查询和读取数据的接口,虽然允许用相关接口从数据库中直接读取数据记录作为MapReduce的输入,但处理效率较低,而且大量频繁地从MapReduce程序中查询和读取关系数据库可能会大大增加数据库的访问负载。本发明采用了一种可以更高效地读取并处理关系数据库中大量数据记录的解决方案:通过开源工具Sqoop将大量待分析数据输出为文本数据文件,并上传到HDFS中,然后转化为对文本数据集进行分布式处理。
[0029]步骤6:流程化的操作方法。以Web界面的方式向用户服务层实现的各种功能。用户可以根据自身需求自定义分析流程,包括:设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示,具体的业务流程如图2所示。
【权利要求】
1.一种大数据环境下的数据挖掘平台的构建方法,其特征在于,包括如下几个步骤: 步骤1:基础设施虚拟化;采用虚拟化技术将设施虚拟化,包括物理层的服务器虚拟化、存储虚拟化和网络虚拟化,形成虚拟化层;主要从两个方面进行虚拟化,建立两个虚拟化池即计算虚拟化池和存储虚拟化池;计算虚拟化池主要实现应用虚拟化,在计算资源层面包括服务器虚拟化和应用中间件虚拟化;存储虚拟化池主要实现数据存储虚拟化,在存储层面包括存储硬件架构虚拟化和存储软件虚拟化; 步骤2:部署虚拟化器件,即虚拟机实例化的阶段;此流程大致分为以下几个步骤: (O选择虚拟器件并定制化; (2)保存定制化参数文件; (3)选择部署的目标物理机服务器; (4)拷贝虚拟器件的相关文件; (5)在目标机上启动部署后的虚拟器件; 步骤3:开源云计算解决方案CloudStack的安装;使用CloudStack作为基础,搭建虚拟机集群,用户可以快速方便地在现有的基础架构上创建私有的云计算平台,其安装过程主要包含以下几步: (O配置安装源; (2)安装CloudStack Management Server ; (3)安装MySQL数据库; (4)安装HOST主机; (5)配置安全策略、网桥、防火墙、NFS共享; 步骤4:服务层:部署RHadoop环境,使得R语言引擎能够运行在Hadoop集群之上;配置JRI动态链接库,使得实际的计算过程是通过在底层调用R语言来实现的; 步骤5:处理关系型数据库中的海量数据;结合R和Hadoop来实现对关系型数据库中大规模数据的操作:通过开源工具Sqoop将大量待分析数据输出为文本数据文件,并将文本数据文件上传到HDFS中,然后转化为对文本数据集进行分布式处理; 步骤6:流程化的操作方法;在应用层以Web界面的方式向用户服务层实现的各种功能;用户可以根据自身需求自定义分析流程,包括:设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。
2.根据权利要求1所述的大数据环境下的数据挖掘平台的构建方法,其特征在于:所述服务层中,使用了 MySQL数据库的复制技术以及开源工具Sqoop实现了 Hadoop与数据库间进行可定制的数据传递机制。
3.根据权利要求1所述的大数据环境下的数据挖掘平台的构建方法,其特征在于:所述应用层中,设计了 B/S模式的用户操作界面,用户只需利用图形化界面进行操作,而不需要直接编写R代码进行数据分析和统计,实际的计算过程则是通过在底层调用R语言来实现的,从根本上屏蔽了 R语言的复杂性。
【文档编号】G06F9/455GK103838617SQ201410055529
【公开日】2014年6月4日 申请日期:2014年2月18日 优先权日:2014年2月18日
【发明者】叶枫, 王亚普, 周发超, 周远超 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1