基于分布式并行计算的大数据挖掘系统的制作方法

文档序号:18192203发布日期:2019-07-17 05:38阅读:628来源:国知局
基于分布式并行计算的大数据挖掘系统的制作方法

本发明属于大数据挖掘技术领域,涉及一种基于分布式并行计算的大数据挖掘系统。



背景技术:

近些年来,随着数据量的急剧增加,数据挖掘面临着实现难题,数据复杂度和系统计算能力有限的矛盾日益突出,传统的单机系统在计算过程中表现出了速度慢、效率底、能耗高等不足,需要采用并行计算来实现大规模计算。

云计算平台是具备动态资源分配和调度、虚拟化和高可用特点的计算平台,能满足数据挖掘计算性能的要求,为并行数据挖掘提供强有力的支撑。



技术实现要素:

本发明目的在于提供一种基于分布式并行计算的大数据挖掘系统,针对传统单机系统在计算过程中表现出了速度慢、效率底、能耗高等不足等问题,利用数据库分片的思想,通过将数据分片后信息储存到各个分节点中,由一个统一的中央分布单元负责各个分节点信息的汇总和维护,有效地解决了海量数据处理问题,提高了资源的利用率,实现了对用户的按需提供。

为解决上述技术问题,本发明采用如下的技术方案:一种基于分布式并行计算的大数据挖掘系统,该系统包括:客户端模块、任务调度控制模块、算法模块以及数据集模块;其中,所述客户端模块负责为用户提供系统交互界面以及访问接口;所述任务调度控制模块是整个系统任务调度的核心,负责管理调用各功能部件并协调各部件的运行;所述算法模块主要负责管理并行算法库;所述数据集模块负责对原始数据进行预处理,并提供高效的数据存取接口,将处理后的数据高效地提交给所述任务调度控制模块以及所述算法模块使用。

进一步地,所述客户端模块包括计算机、手机等终端用户。

进一步地,所述任务调度控制模块由任务调度控制部件与知识库构成;其中,所述任务调度控制部件可接收用户界面和开放接口发出的客户请求并协调其他各功能部件实现系统功能;所述知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,采用知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合,对于用户满意的数据挖掘结果,可作为有用的知识存入知识库,从而引导用户评价挖掘结果。

进一步地,所述算法模块中的并行数据挖掘算法库是一个重要的功能部件,是算法模块的重要支撑,对其的管理是通过所述任务调度控制部件实现的。

进一步地,所述数据集模块主要包括数据仓库与数据文件组成的数据源以及数据预处理与数据存取管理等功能部件。

本发明与现有技术相比具有以下的有益效果:

本发明方案针对传统单机系统在计算过程中表现出了速度慢、效率底、能耗高等不足等问题,利用数据库分片的思想,通过将数据分片后信息储存到各个分节点中,由一个统一的中央分布单元负责各个分节点信息的汇总和维护,有效地解决了海量数据处理问题,提高了资源的利用率,实现了对用户的按需提供。

附图说明

图1是基于分布式并行计算的大数据挖掘系统的整体架构图。

图2是基于分布式并行计算的大数据挖掘系统的任务调度控制各部件的调度关系示意图。

具体实施方式

下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。

基于分布式并行计算的大数据挖掘系统是包括多种技术的复杂系统,有三大核心模块构成,由负责任务调度的任务调度控制模块,管理并行算法库的算法模块和组织和管理数据的数据集模块,各模块在平台模型中的布局如图1。

参照图1,本发明的一种基于分布式并行计算的大数据挖掘系统,该系统包括:客户端模块、任务调度控制模块、算法模块以及数据集模块;其中,所述客户端模块负责为用户提供系统交互界面以及访问接口;所述任务调度控制模块是整个系统任务调度的核心,负责管理调用各功能部件并协调各部件的运行;所述算法模块主要负责管理并行算法库;所述数据集模块负责对原始数据进行预处理,并提供高效的数据存取接口,将处理后的数据高效地提交给所述任务调度控制模块以及所述算法模块使用。

任务调度控制模块

任务调度控制模块由两部分构成,任务调度控制部件和知识库。任务调度控制部件可以接收用户界面和开放接口发出的客户请求,并且协调其他各功能部件实现系统功能;知识库是知识工程中结构化,易操作,易利用,全面有组织的知识集群,采用知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合,对于用户满意的数据挖掘结果,可以作为有用的知识存入知识库,这样可以引导用户评价挖掘结果。

任务调度控制部件是整个系统任务调度的核心,管理调用各功能部件并协调各部件的运行。

当用户提交数据挖掘请求时,用户通过用户界面或者开放接口提交一些数据挖掘必须的参数和基本数据给任务调度控制部件,任务调度控制部件利用已有信息控制生成配置文件,配置文件中包括加工过的并行数据挖掘算法的参数和数据存取部件需要用到的基本信息;同时任务调度控制部件要根据参数和基本数据调度并行数据挖掘算法库,从算法库中选择适合本次挖掘的数据挖掘算法;然后任务调度控制部件调度数据存取部件,数据存取部件控制从数据仓库和数据文件中提取数据;数据准备完成后,数据存取部件通过调度信息告知任务调度控制部件启动选好的并行数据挖掘算法进行数据挖掘。系统挖掘出的结果既可以按照用户的要求采用可视化的方式输出又可以存入知识库,用于以后的挖掘结果的评价。

算法模块

并行数据挖掘算法库是一个重要的功能部件,算法库是算法模块重要支撑。本数据挖掘平台引入算法库的主要目的是让数据和算法分开,这样可以降低提供的耦合度,方便各自的升级和维护。当有新的算法需要扩充并行数据挖掘算法库时,只需要在任务调度控制部件中注册就完成了对算法库的扩充。

对于并行数据挖掘算法库的管理是通过任务调度控制部件实现的,算法库的创建、扩充以及算法的调用和注销都是任务调度控制部件管理和控制的。所有并行数据挖掘算法必须在任务调度控制部件中注册才能使用,任务调度控制部件为每一个算法在其注册表中创建一个控制块,记录着算法的参数,当数据挖掘时,这些参数可以帮助任务调度控制部件从并行数据挖掘算法库中选择合适的算法。

从数据分析的角度出发,数据挖掘可以分为两种类型:描述型数据挖掘和预测型数据挖掘。描述型数据挖掘以简洁概述的方式表达数据中所存在的一些有意义的性质;预测型数据挖掘通过对所提供的数据集应用特定方法分析而获得一个或一组数据模型,并将此模型用于预测未来新数据的有关性质。描述型数据挖掘包含关联分析、序列分析、聚类分析等方法,而预测型数据挖掘包含分类和统计回归等方法,常见的预测模型包括决策树、神经网络、线性回归等。并行数据挖掘平台的并行算法库中包含了上述典型算法,经过分析和研究算法库中的算法具有较高的效率和较强的稳定性。算法库在包含了上述经典算法的同时还预留了算法库的扩充接口,当有优秀的数据挖掘算法时,只需调用扩充接口就可以实现算法库的扩充。

数据集模块

如果没有好的数据环境就不会有理想的数据挖掘结果,数据集模块的主要功能是降低数据的异构性,消除噪声数据、空缺数据和不一致数据,并提供高效的数据存取接口,以便把处理后的数据高效的提交给任务调度控制部件和并行数据挖掘算法使用,进而提供数据挖掘的准确性和高效性。数据集模块主要包括数据仓库、数据文件、数据预处理和数据存取管理部件,下面继续讨论各部件的功能并详细阐述数据存取管理部件的结构。

数据仓库中的数据是按照主题来组织的,存储的数据可以从历史的观点提供信息,面对多数据源,经过清洗和转换后的数据仓库可以为数据挖掘提供理想的发现知识的环境。数据文件是指数据库的文件,一个数据库的数据文件包含整个数据库的全部数据,数据文件时逻辑数据库的物理载体。在数据挖掘过程中,数据存取管理部件可以直接访问数据仓库和数据文件,当第一次数据挖掘的结果不能让用户满意时,并行数据挖掘平台可以利用数据文件中的数据引导用户进行第二次数据挖掘和增量挖掘,直到得到满意的结果为止。数据预处理是一种提高数据质量和数据挖掘结果质量的技术,使挖掘过程更有效、更容易,数据预处理方法包括数据清洗、数据集成和转换、数据规约、属性概念分层的自动生成等。

数据存取管理部件是数据集模块中数据调用的核心部件,为并行数据挖掘算法提供数据支持。数据存取管理部件的功能包括:响应任务调度控制部件的调度请求,从数据仓库或者数据文件中存取数据;采用mapreduce编程模型实现数据的分配和安置;为并行数据挖掘算法提供读写接口。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1