一种基于计算相关度的多数据中心数据布局优化方法

文档序号:6547337阅读:251来源:国知局
一种基于计算相关度的多数据中心数据布局优化方法
【专利摘要】一种基于计算相关度的多数据中心数据布局优化方法,根据执行计算处理数据集的情况,生成计算集和数据集集合的访问关联矩阵,计算出任意两个数据集之间的计算相关度,生成对应的计算相关度矩阵;计算每个数据中心的基本容量,定义布局关联矩阵,根据计算相关度部署数据集。本发明通过构建访问关联矩阵和布局矩阵,给出计算相关度的具体数学表示,根据建立的计算相关度矩阵,以低复杂度的方法实现数据布局,并将新数据和中间数据动态部署至合适的数据中心,可以有效减少跨数据中心数据调度,提高系统的访问性能。
【专利说明】 一种基于计算相关度的多数据中心数据布局优化方法
【技术领域】
[0001]本发明涉及分布式数据存储与管理领域,尤其涉及一种基于计算相关度的多数据中心数据布局优化方法。
【背景技术】
[0002]数据爆炸使得信息社会已进入大数据时代。大数据的数据量庞大,蕴藏着丰富多样的信息,带来巨大经济效益和社会效益的同时也面临着严峻的技术挑战。大数据“3V”特性(即容量大、更新速度快、种类多种多样)使得传统的数据库管理已无法满足大数据存储与管理的要求,云计算作为目前非常重要的一种分布式网络计算平台,被视为是实现大数据非常有效的存储、管理和分析平台,是大数据管理与分析的一种经济有效的解决方案。
[0003]然而,在云计算的分布式多数据中心环境下,如何将这些数据部署到合适的数据中心就成为了一个关键性问题。大数据是复杂多样的,包括结构化数据,半结构化数据,非结构化数据,其中非结构化数据的比重愈来愈大,例如Web上的文字,文档,图片和视频等以及流数据都是非结构化数据。多种异构数据混合在一起,共同描述对象,因此传统的按照数据的本身属性来组织和部署数据已经是不可行的,需要在数据本身属性的基础上,按照数据的“社会属性”,即对数据的需求,以“按需存储,按需利用”的原则组织和部署数据。同时,处理大数据的计算是复杂的和数据密集的,大数据的数据集都是GB甚至TB级的,当执行一个计算需要处理不同数据存储在不同的数据中心时,数据调度成为一个无可忽视的巨大挑战。在当前有限的网络带宽资源下,在数据中心之间调度数据的代价是非常昂贵的,而调度计算的代价则非常低,因此大数据布局的基本思想是将计算需要同时处理的数据集部署在同一数据中心内,当计算调度至该数据中心时,所有的数据处理操作都在本地完成。
[0004]目前针对分布式系统的数据布局已经做了许多相关研究。传统的数据布局策略分为两类:动态的和静态的。动态数据布局方法在每一次访问请求之后都会潜在的更新布局。当数据量较少,例如缓存,动态数据布局是有效的。然而当分布式文件系统中数据量巨大,动态策略带来的系统负担和代价则过于庞大。静态数据布局假设访问统计是不变的,因此数据布局策略只需要计算一次就可以持续工作很长时间。LPT算法是著名的静态数据布局启发式算法,之后SP和BP算法都是在LPT基础上提出的静态数据布局算法,能够最小化跨节点的负载方差,达到理想的全局负载平衡。但这些布局策略都是基于这样一种假设:数据的访问是独立的,虽然简化了问题,但是不符合实际情况,并且不适用于数据密集型计算。
[0005]对于数据密集型计算,执行一个计算可能需要处理多个数据集,执行多个计算也可能需要处理同一个数据集。当执行某个计算常常需要共同处理几个数据集,则认为这几个数据集之间是相关的。当大规模并发计算需要跨数据中心执行时,数据调度会消耗很多的资源和时间,这是系统无法承受的。因此,更多的研究根据数据相关性部署数据,以期减少甚至避免数据中心间的数据调度次数。Doraimani等基于相关性将文件分组。Fedak等将数据相关性记为一个数据属性“affinity”,由用户预定义。然而,数据的存储位置是由云计算系统决定的,数据存储和管理对用户是透明的,用户无法获悉数据的存储位置,因此用户定义数据相关性很明显是不切实际的。Kosar等针对分布式计算系统提出一种数据布局方法,确保可靠有效的传输数据,但是主要考虑如何有效调度数据,无法减少整体的调度次数。Zheng等分别针对跨数据中心数据传输、数据依赖性和全局负载均衡,提出数据布局策略,但是数据依赖性及其破坏程度没有给出具体的定量表示,也没有考虑数据集和数据中心的差异,对负载均衡的实际效果会有影响,同时遗传编码效率与合理度对算法复杂度影响严重。副本策略也是减少数据中心间的数据迁移的有效手段,目前有大量针对副本策略的研究。但是大数据的数据量已经非常庞大,不合理的副本方法会进一步带来巨大的存储空间开销,有些并不常用的数据集副本造成系统太多不必要的冗余,严重影响存储效率和空间利用率。
[0006]综合分析,目前的多数据中心数据布局优化方法存在着以下缺陷:单一的静态布局方法无法实现数据布局优化,单一的动态布局方法复杂度过高,并且现存方法缺乏对数据间相关度以具体地和动态地描述,对分布式数据密集型计算产生的数据调度问题无能为力或者效果甚微,数据布局优化方法的实现复杂度较高。

【发明内容】

[0007]本发明要解决的技术问题在于针对现有数据布局优化方法中的缺陷和不足,提供一种基于计算相关度的多数据中心数据布局优化方法。
[0008]本发明技术方案提供的一种基于计算相关度的多数据中心数据布局优化方法,包括以下步骤:
[0009]步骤SI,对于分布式多数据中心存储系统,依据一定时期内系统日志的历史访问数据记录,分析得到系 统所有计算单位时间内的执行频次及计算所处理的数据集集合;
[0010]步骤S2,根据执行计算处理数据集的情况,生成计算集C和数据集集合D的访问关联矩阵A如下,
[0011]设依据一定时期内分布式多数据中心存储系统
【权利要求】
1.一种基于计算相关度的多数据中心数据布局优化方法,其特征在于,包括以下步骤: 步骤SI,对于分布式多数据中心存储系统,依据一定时期内系统日志的历史访问数据记录,分析得到系统所有计算单位时间内的执行频次及计算所处理的数据集集合; 步骤S2,根据执行计算处理数据集的情况,生成计算集C和数据集集合D的访问关联矩阵A如下, 设依据一定时期内分布式多数据中心存储系统
2.根据权利要求1所述基于计算相关度的多数据中心数据布局优化方法,其特征在于:所述步骤S6-4包括以下子步骤, 步骤S6-4-1,执行计算公式
3.根据权利要求1或2所述基于计算相关度的多数据中心数据布局优化方法,其特征在于:对写入分布式多数据中心存储系统的新数据集df,更新访问关联矩阵A,计算df与分布式多数据中心存储系统中每个数据中心Sk的计算相关度?Λ如下,

4.根据权利要求3所述基于计算相关度的多数据中心数据布局优化方法,其特征在于:对于执行计算产生的中间数据,先暂存在执行该计算的本地数据中心,如需要长期存储则将相应数据集则作为写入分布式多数据中心存储系统的新数据集df进行处理。
【文档编号】G06F17/30GK103984737SQ201410218596
【公开日】2014年8月13日 申请日期:2014年5月22日 优先权日:2014年5月22日
【发明者】徐正全, 王涛, 姚世红, 熊礼治 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1