一种云数据中心任务备份的方法、装置和系统的制作方法
【技术领域】
[0001] 本发明属于云计算系统控制领域,特别是设及一种云数据中屯、任务备份的方法、 装置和系统。
【背景技术】
[0002] 云计算是一种基于互联网的计算方式,通过该种方式,共享的软硬件资源和信息 可W按需求提供给计算机和其他设备。相对于传统的软件和计算形态,云计算具有松散禪 合、随需应变、成本可控、资源虚拟、异构协同等显著的优势,使其更适应现今的电子商务、 柔性制造、移动互联网等应用。
[0003] 云数据中屯、是指由多个异构的、由网络连接在一起的服务器所组成的用于承载提 供在线云服务的企业级应用的分布式计算系统。在云数据中屯、中,将大量的服务器进行集 中统一管理,可W保障服务器运行所需要的稳定电源环境,适宜的温湿度控制W及网络带 宽条件。
[0004] 同其他软硬件系统一样,云数据中屯、中的服务器也存在失效和故障的风险。由于 现今的云计算系统多运用于大规模科学计算、实时金融、在线交易、流媒体多播等高负载和 高复杂度的应用,其服务器时常处于超负荷运行的状态,因而出现故障和失效的频率较高 且带来的损失较大。此外,由于云任务请求的时间和地点分布体现出不规律性和人为偶然 性,云系统的实时负载因此也更具动态波动性,进而导致数据中屯、中服务器的可靠性特性 和故障失效风险随时间随意波动,难W进行预防性的控制和灾害避免。现有的任务备份技 术,往往难W动态的把握数据中屯、中各服务器的可靠性变化趋势,存在"过频备份"和"备份 不足"的问题:为了避免某个服务器在近期出现故障或失效,管理策略往往过于频繁的将认 定为高风险的服务器上的任务备份到其他服务器,该些任务迁移和备份活动本身带来了很 高的系统开销,而被认定高风险的服务器实际上可能近期内并没有出现故障,却因为任务 迁出处于闲置空转的状态,形成了浪费;如果对服务器失效和故障的可能性估计不足,可能 导致备份不足,在服务器失效和故障来临时,还有很多任务没来得及迁出,进而导致运行中 的任务随之出错,最终导致系统整体崩溃。
[0005] 现有的技术方案,主要存在W下的不足:
[0006] (1)多采用固定周期控制的手段。现有的方法多预先设定一个固定的间隔时间进 行周期性的任务备份。然而,由于系统负载的动态可变性,固定间隔时间的控制策略往往难 W即时的对短时间内服务器可靠性的突发性变化做出迅速响应;
[0007] 似缺乏量化趋势预测的机制。现有的技术,没有充分的对服务器历史可靠性数据 进行分析、建模和趋势预测,而多是机械的采用历史平均或最近数据作为依据进行控制决 策。
[0008] 在此背景下,如何动态的跟踪云数据中屯、各个服务器的可靠性状态,设置合理的 任务备份时机,避免过频和不足的两个极端,最终实现在不大幅度增加系统运行开销的前 提下提升云数据中屯、整体可靠性,便成为了研究的热点和难点。
【发明内容】
[0009] 有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种能够提升云 数据中屯、可靠性的云数据中屯、任务备份方法。
[0010] 为实现上述目的,本发明提供了一种云数据中屯、任务备份的方法,包括W下步 骤:
[0011] 步骤一、获取云数据中屯、各服务器的历史故障出现时间的信息;包括最近k次服 务器故障出现的时间fti,ft2, ...ftk和该k次故障所发生的服务器编号化1,化2,...化k; k为正整数;
[0012] 步骤二、计算故障间隔时间ifi和单位时间多步故障间隔时间增长率zzl:
[0013]ifi=ftw-fti,0<i《k-1;
[0014]zzl=mean化,jIi<j<k};
[0015]
【主权项】
1. 一种云数据中心任务备份的方法,其特征在于包括以下步骤: 步骤一、获取云数据中心各服务器的历史故障出现时间的信息:包括最近k次服务器 故障出现的时间ftp ft2, . . . ftk和这k次故障所发生的服务器编号fn p fn2, · . . fnk;k为 正整数; 步骤二、计算故障间隔时间ifdP单位时间多步故障间隔时间增长率zzl: Ifi= ft i+1-fti,0 < i k-1 ; zzl = mean (Zi,』I i < j < k};
步骤三、计算下一次任务备份的等待时间dt :
其中,csz为系统默认的备份间隔时间,m为数据中心中服务器的数量; 步骤四、计算近期单个服务器最大故障数dgzs、近期单个服务器最小故障数xgzs、备 份任务源服务器的序号yhx和备份任务目的服务器的序号mdhx ; 戶斤述 dgzs = max {gzSj I O < j < m}; 戶斤述 xgzs = min {gzSj I O < j < m};
所述 所述 所述gZSj表示第j个服务器在近期出现的故障数量,计算为:
步骤五、进行任务备份:若yxh和mdxh中有至少有一个为0,则不做任何操作;若yxh 和mdxh都不为0,则将第yxh号服务器上正在执行的任务,备份到第mdxh号服务器上;然 后等待dt时间,返回执行步骤一。
2. 如权利要求1所述的一种云数据中心任务备份的方法,其特征是:步骤二中,所述非 正常点按照以下步骤确定: 计算故障间隔时间序列的平均正负波动强度,bp和bn :
或
时,故障间隔时间值if非正常 占. 所述XS为预先给定的系数,XS为正整数。
3. -种云数据中心任务备份装置,其特征是:包括故障监测单元(3)、控制决策模块 (4)和任务备份模块(5);所述故障监测单元(3)的输出端连接所述控制决策模块(4)的输 入端,所述控制决策模块(4)的输出端连接所述任务备份模块(5)的输入端; 所述故障监测单元(3)用于获取云数据中心各服务器的历史故障出现时间的信息; 所述控制决策模块(4)用于分析数据中心各服务器未来出现故障的风险、计算下一次 任务备份的等待时间、计算控制决策参考值; 所述任务备份模块(5)用于执行服务器间的任务备份。
4. 如权利要求3所述的一种云数据中心任务备份装置,其特征是:所述控制决策模块 (4)包括风险分析单元(401)、控制时机决策单元(402)和控制量计算单元(403); 所述故障监测单元(3)的第一输出端连接所述风险分析单元(401)的输入端;所述故 障监测单元(3)的第二输出