一种基于MapReduce的自适应作业调度方法

文档序号：6408281阅读：294来源：国知局

专利名称：一种基于MapReduce的自适应作业调度方法
技术领域：
本发明属于分布式并行计算领域，具体而言是MapReduce中自适应作业调度方法。
背景技术：
近年来，随着宽带网络技术与并行计算理论的快速发展，一种更简化的分布式并行计算模型——MapReduce应运而生。MapReduce是Google提出的一种实现分布式并行计算任务的通用软件框架，它简化了由普通计算机组成的超大集群上的并行软件编程模式，可用于大规模数据集的并行计算。MapReduce分布式计算系统中，作业的调度策略直接关系到系统整体资源的利用率以及各用户间使用资源的公平性。因此，作业的调度算法成为 MapReduce系统面临的一大挑战。在当前的MapReduce计算模型中，作业的调度主要由集中控制节点完成，该节点负责将计算任务分配给具有足够资源的空闲节点。为了在集群计算系统中，实现多点并行计算，调度节点将MapReduce应用划分为固定粒度大小的任务，分配给多个节点。然而， MapReduce集群计算系统中各计算节点的计算能力存在较大差异，常规的静态任务划分及指派方法，将影响作业的执行效率以及计算资源的利用率。另一方面，MapReduce集群计算系统的静态调度方法，使得每一个作业真正开始执行之前，需要等待一个较长的时间，完成所有分解任务的初始化装配，从而导致集群系统中的计算资源被浪费。因此，本发明提出一种自适应的任务划分及动态任务调度方法，以解决此类问题。

发明内容
本发明的目的是克服静态的任务划分及调度技术的缺陷，提供一种基于节点计算能力，具有自适应任务划分和任务调度的方法。为达到上述目的，本发明提供的方法包括以下步骤第一步，MapReduce计算节点初始化时，提供一种生成计算节点能力指数的方法，具体而言，各计算节点根据自身的计算能力(CPU核数量、CPU主频)、存储能力(内存容量) 与网络吞吐能力(网络带宽)等配置参数，生成计算节点单CPU核的能力指数；第二步，参照MapReduce集群计算系统内所有计算节点的能力指数，计算 MapReduce作业的数据块规模；第三步，调度节点根据计算出的数据块规模，对新进入的MapReduce作业的数据进行划分；第四步，结合各计算节点的能力指数，调度节点动态将MapReduce作业的数据块组装成任务，分配给各计算节点；第五步，动态统计各计算节点的资源使用率，如果资源使用率低于门限，重新计算 MapReduce作业的数据块规模。进一步，其中所述计算节点CPU核的能力指数计算，包括计算节点扫描自身的硬件配置参数，包括CPU核数、CPU核主频、内存容量及网络接口数量与带宽；根据硬件配置参数，按照下式产生所述计算节点单核能力指数
权利要求
1.一种基于MapReduce的自适应作业调度方法，其特征在于，包括下列步骤第一步，MapReduce计算节点根据自身的计算能力、存储能力与网络吞吐能力参数，生成各个计算节点单CPU内核的能力指数；第二步，参照MapReduce集群计算系统内所有计算节点的能力指数，计算MapReduce作业的数据块规模；第三步，调度节点根据计算出的数据块规模，对新进入的MapReduce作业的数据进行划分；第四步，结合各计算节点的能力指数，调度节点动态将MapReduce作业的数据块组装成任务，分配给各计算节点；第五步，动态统计各计算节点的资源使用率，如果资源使用率低于门限，重新计算 MapReduce作业的数据块规模。
2.根据权利要求1所述的基于MapReduce的自适应作业调度方法，其特征在于，所述计算节点单CPU内核的能力指数，包括计算节点扫描自身的硬件配置参数，包括CPU 核数、CPU核主频、内存容量及网络接口数量与带宽；根据硬件配置参数，按照下式计算C =---ζ微2P式中，C。_代表计算节点单CPU内核的能力指数，C。。re越大表示计算节点单一 CPU内核对单一任务的处理能力越强，越能处理较大规模的任务；W代表计算节点所有网络接口的带宽之和，单位为Mbps ；f代表计算节点的CPU内核主频，单位为GHz ；m代表计算节点的内存总量，单位为GB ；ρ代表计算节点的CPU内核数量，单位为个。
3.根据权利要求1所述的基于MapReduce的自适应作业调度方法，其特征在于，所述计算MapReduce作业的数据块规模，包括调度节点统计MapReduce集群计算系统所有计算节点的单核能力指数，按照下式计算数据块大小S = rriin{(a^Core):1 <i <η)式中，S代表数据块大小，单位为MB ；min{C!_ :l<l ^}代表MapReduce集群计算系统中所有计算节点单CPU内核的能力指数的最小值，Ccore1代表第i个计算节点的单核能力指数；η代表MapReduce集群计算系统中计算节点总数；α代表调节因子，取值范围为0 1。
4.根据权利要求1所述的基于MapReduce的自适应作业调度方法，其特征在于，所述 MapReduce作业的数据划分，包括如下步骤设定MapReduce集群计算系统的数据块规模；调用MapReduce集群计算系统的数据划分功能对MapReduce作业的数据划分为数据块。
5.根据权利要求4所述的基于MapReduce的自适应作业调度方法，其特征在于，所述调度节点对任务的动态装配及动态调度，包括计算节点向调度节点报告其剩余能力指数，所述调度节点根据所述计算节点的剩余能力指数，按照下式产生所述计算节点最大可处理数据块数D = Cr/S式中，D代表所述计算节点最大可处理数据块数，S代表数据块大小，C；代表计算节点可用的剩余能力指数。
6.根据权利要求5所述的基于MapReduce的自适应作业调度方法，其特征在于，所述计算节点向调度节点报告其剩余能力指数，按照下式公式计算Cr p*Ccore Cuse(j式中，C；代表计算节点可用的剩余能力指数，(；_代表计算节点单CPU内核的能力指数，P代表计算节点的CPU内核数量，Cused代表计算节点当前已经使用的能力指数。
7.根据权利要求5或6所述的基于MapReduce的自适应作业调度方法，其特征在于，所述调度节点对任务的动态装配及动态调度，进一步包括调度节点根据产生的计算节点最大可处理数据块数，将D块数据块装配成一个任务，并指派给所述计算节点。
8.根据权利要求1所述的基于MapReduce的自适应作业调度方法，其特征在于，所述 MapReduce集群计算系统的资源使用率统计，进一步包括计算节点向调度节点报告其总能力指数和当前已经使用的能力指数，所述调度节点按照下式产生MapReduce集群计算系统的资源使用率
全文摘要
本发明涉及分布式并行计算领域中MapReduce自适应作业调度方法，包括下列步骤MapReduce计算各个计算节点单CPU内核的能力指数；计算MapReduce作业的数据块规模；调度节点对新进入的MapReduce作业的数据进行划分；调度节点动态将MapReduce作业的数据块组装成任务，分配给各计算节点；动态统计各计算节点的资源使用率，如果资源使用率低于门限，重新计算MapReduce作业的数据块规模。本发明提供一种基于计算节点实际计算能力，具有自适应任务划分和任务调度的方法。
文档编号G06F15/16GK102004670SQ20091031168
公开日2011年4月6日申请日期2009年12月17日优先权日2009年12月17日
发明者卢正新, 王芙蓉, 王非, 黄本雄申请人:华中科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王非;卢正新;黄本雄;王芙蓉
技术所有人：华中科技大学
我是此专利的发明人

上一篇：基于体感的输入装置及其输入方法
上一篇：C语言结构体至关系数据库表的映射系统及映射方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。