一种在大数据背景下的负载平衡装置的制造方法
【技术领域】
[0001] 本发明属于电数据数字处理技术领域,涉及一种针对大数据背景下的数据处理装 置,更具体而言,涉及一种在大数据背景下的负载平衡装置。
【背景技术】
[0002] 随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的 中心,云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O性能、数据 安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V: Volume(大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多 样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。另外,大数据除了 表示海量的信息,同时还是人们获得新认知、创造新价值的源泉,其开启了一次重大的时 代转型,随着大数据时代的到来,我们需要以全新的眼光去审视和挖掘数据的潜在价值。 [0003]大数据的影响渗透到了各行业,对未来的科技和经济发展带来深远影响。其中,传 统节点通过改进以兼容大数据技术,以用于大数据管理、分析和挖掘;还推出了新型软硬 件产品。大数据是对传统数据节点的补充和延伸。然而,如何合理地存储和处理大数据是 一大难题。现有技术中已经有诸多可提供有效和强大的并行处理方法,但是由于数据偏态 (skew)的存在,在大数据分布不均衡时,节点会在运行时负载不平衡,部分任务会拖整个 任务的后退,导致系统的性能降低,延长整个任务的时间。
[0004]对此,提出了负载平衡的概念,负载平衡是一种计算能力共享的形式,其是为了改 善系统的性能,通过在处理结点之间重新分配负载,把当前重载处理结点的任务传送到轻 载的处理结点执行,目的是使各处理结点之间的负载基本均衡。
[0005]但是,现有技术中的负载平衡方案或者影响系统的整体性能,或者增加了平衡负 载的资源消耗,而且由于各种不可控的原因或者故障,大数据的安全性、负载平衡的效果和 准确性不能够得到有效的保障。有鉴于此,本发明提出一种在大数据背景下的负载平衡装 置,其能够有效地解决上述技术问题。
【发明内容】
[0006]本发明的目的之一是提供一种在大数据背景下的负载平衡装置,该装置不影响系 统的整体性能,而且减少了平衡负载的资源消耗,并且有效地保障了由于各种不可控的原 因或者故障导致的大数据安全性、负载平衡的效果和准确性。
[0007]本发明为解决上述技术问题而采取的技术方案为:一种在大数据背景下的负载平 衡装置,包括:用于接收待处理的大数据并确认大数据的完整性和有效性的第一部件;用 于估计待处理的大数据大小并进行目的地空间判断的第二部件;用于划分待处理的大数据 的第三部件;用于对待处理的大数据进行分布的第四部件;以及用于在任务运行时进行负 载平衡的第五部件。
[0008]根据本发明的一个方面,第一部件进一步包括第一子部件,用于:接收待处理的大 数据,确认大数据的完整性和有效性,如果大数据完整且有效则进行下一步操作,否则返回 给发送方,以提示重新发送。
[0009] 根据本发明的另一个方面,第二部件进一步包括第二子部件,用于:估计待处理的 大数据大小,并进行目的地空间判断;如果待处理的大数据大小大于诸如数据节点之类的 目的地空间的单位单元的大小,则用前者除以后者,以确定处理的单位单元的数量。
[0010] 根据本发明的另一个方面,第三部件进一步包括第三子部件,用于:划分待处理的 大数据;将大数据划分为N个数据片段,其中N是正整数。
[0011] 根据本发明的另一个方面,第四部件进一步包括第四子部件,用于:对待处理的大 数据进行均衡分布,因为一般大数据由多个子节点保存,所以每个节点保存一部分片段,每 个节点都是由一个主要子节点和多个辅助子节点组成的集群,借此保证大数据的安全。
[0012] 根据本发明的另一个方面,第五部件进一步包括:第五一子部件,用于:确定节点 的利用参数,该利用参数表示节点被利用的程度,并且被表示为利用参数ft 其中 Ui=', i表示第i个节点,i是正整数;Li表示第i个节点的负载参数,而L'表示各个节点的标称 负载参数,负载参数和标称负载参数是第i个节点的负载的函数表示,具体为Q=f(i),L' =f'(i);该标称负载参数L'是各个节点负载参数的平均值,或者该标称负载参数L'是 各个节点负载参数的最小二乘值。
[0013] 根据本发明的另一个方面,第五部件进一步包括第五二子部件,用于:定期检测一 个或多个或所有节点的负载利用参数,以根据每个节点的利用参数的值,将负载在节点之 间移动以进行平衡,该检测采用随机信号发生器触发,进而使能检测器来执行。
[0014] 根据本发明的另一个方面,第五部件进一步包括第五三子部件,用于:当一个节点 的利用参数大于零时,该节点向管理节点发送请求;管理节点获得该请求的节点的最邻近 节点的利用参数;管理节点判断最邻近节点的利用参数,然后将有关利用参数小于零的最 空闲相邻节点的详细信息发送到请求的节点,接下来请求的节点继续工作,其将选择最邻 近节点;如果管理节点判断最邻近节点的利用参数的步骤中,参数都大于零,然后将有关最 相邻节点的利用参数小于零的最空闲相邻节点的详细信息发送到请求的节点,接下来请求 的节点继续工作,其将选择最相邻节点的最空闲相邻节点。
[0015] 根据本发明的另一个方面,第五部件进一步包括第五四子部件,用于:使每个节点 保持缓存区以接收负载请求,消息递送接口管理该缓存区,主要的线程检测缓存序列并服 务接收的请求。
[0016] 根据本发明的另一个方面,该装置还包括第六部件,用于:仅在初始阶段,将节点 分为实体节点和临时节点,并据此进行负载平衡;在任务执行且使用实体节点和临时节点 期间,撷取执行的任务中的一个或多个实体节点和一个或多个临时节点;计算撷取的实体 节点和临时节点的第二利用参数Ui',其数量为A,,其中〇 ,表示撷取的实体 /=:( 节点和临时节点中每个节点的权重,A,表示撷取的实体节点和临时节点中每个节点的使 用次数,q为包括能够执行功能的硬件模块的节点j的节点数量;计算差值的第三利用参数 UiT',其值是针对的撷取的实体节点和临时节点的Ui'的均值或者最小二乘值,比较器根据 撷取的实体节点的第二利用参数和第三利用参数来进行负载平衡。
【附图说明】
[0017]在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中相 同的附图标记表示相同的元件,其中:
[0018] 图1图示在大数据背景下的负载平衡方法的流程图。
[0019] 图2图示在大数据背景下的负载平衡装置的框图。
【具体实施方式