考虑共因故障的云计算系统可靠性建模方法与流程

文档序号:13672256阅读:126来源:国知局
技术领域本发明属于网络可靠性技术领域,具体涉及一种考虑云计算共因故障的可靠性建模方法。

背景技术:
云计算作为一种新的计算模型,将大量计算资源组成数据中心,再以服务的形式提供给用户,带来便利的同时又降低了计算和存储成本,已经得到广泛应用。然而,云计算系统故障频发也让人们关注其可靠性问题,其复杂的结构为云计算可靠性分析带来困难。同时,虚拟化作为云计算系统的关键特征,通过在物理服务器上创建多个虚拟机(VM)实现,一方面实现了云计算基础设施的共享,提高资源利用率,另一方面,当服务器故障时,运行在其中的多个虚拟机存在共因故障,这使得云计算的可靠性建模与传统系统不同。云计算基础设施是指由服务器和虚拟机组成的云计算资源池。云计算系统的共因故障已被认知,例如Thanakornworakij等(参考文献[1]:ThanakornworakijT.,NassarR.F.,LeangsuksunC.,etal.Areliabilitymodelforcloudcomputingforhighperformancecomputingapplications[C]//Euro-Par2012:ParallelProcessingWorkshops.SpringerBerlinHeidelberg,2013:474-483)考虑了硬件故障和软件故障,假设一个应用程序分布在多个服务器的多个虚拟机上,分别考虑硬件和软件的共因故障进行可靠性建模。然而没有考虑由服务器故障引起的运行在其中的多个虚拟机共因故障;又如Qiu等(参考文献[2]:QiuX.,DaiY.,XiangY.,etal.AHierarchicalCorrelationModelforEvaluatingReliability,Performance,andPowerConsumptionofaCloudService[J].)考虑了服务器故障引起的虚拟机共因故障,其可靠性定义为至少一个虚拟机能提供服务的概率,然而事实上,要提供可靠的云服务,需要一定数量的服务器/虚拟机,因此本申请提出一种考虑共因故障的云计算系统状态空间建模方法,并在此基础上在给定需求下对云计算系统进行可靠性建模。

技术实现要素:
本发明的目的是为了解决云计算的可靠性建模中对由服务器故障引起虚拟机共因故障考虑不周的问题,以服务器和虚拟机为基本元素,分析云计算系统对应给定需求下的状态组合,并给出状态组合化简方法,基于故障树和状态空间模型实现给定需求下考虑共因故障的云计算系统可靠性建模。本发明提供的考虑共因故障的云计算系统可靠性建模方法,适用于如下情况:1)云计算系统的基础设施包含n类服务器,第i类服务器的个数为mi个且每个服务器含有pi个核。即云计算系统的服务器个数为个;(2)服务器被划分为多个虚拟机,划分策略为一个核对应一个虚拟机,即服务器的核与虚拟机之间为一对一映射关系;(3)服务器的故障会引起其上所有虚拟机的故障。考虑共因故障的基本参数模型(BasicParameterModel,BPM):同类服务器的故障服从指数分布,第i类服务器的失效率记为λs,i,同类服务器下虚拟机的故障也服从指数分布,第i类服务器下虚拟机的失效率记为λv,i;(4)服务器之间的故障独立。本发明提供的考虑共因故障的云计算系统可靠性建模方法,包括如下步骤:步骤一:确定云计算系统同类单台服务器状态组合并进行状态化简;每个虚拟机有故障和正常两种状态,分别用1和0表示。对于第i类单台服务器,虚拟机数目为pi,因此每台服务器包含种状态,每种状态由pi个0或1组成。进行状态化简的原则是:单台服务器内故障虚拟机数目相同,故障虚拟机的序号不同时,计算概率相同,进行化简。第i类单台服务器化简后的状态数xi=pi+1。步骤二:采用故障树法计算同类单台服务器简化后状态组合的存在概率;计算出第i类单台服务器的所有第z种状态的存在概率为Psc,z,z=1,2,…,xi。步骤三:确定云计算系统同类服务器间状态组合并进行状态化简,给出各状态组合的存在概率;第i类单台服务器化简后的状态数为xi,第i类服务器有mi台,第i类服务器的状态由mi台服务器的状态进行组合。第i类服务器的状态化简原则是:将所有服务器状态进行枚举时,对服务器状态排序不同但处于各种状态的服务器数量相同的状态组合,其存在概率相同,进行化简。第i类mi台服务器化简后的状态总数Mi为:第i类服务器的第j种状态组合中,单台服务器的xi种状态存在的个数分别为γ1,γ2,...,γxi,则第i类服务器的第j种状态组合的存在概率其中,Qβ,j为第j种状态组合的重复倍数,Psc,y为单台服务器的所有第y种状态的存在概率。步骤四:枚举云计算系统不同类服务器状态组合,并计算各状态组合的存在概率;n类服务器的状态枚举后的状态组合数为将不同类服务器状态对应的存在概率相乘,得到云计算系统在n类服务器状态枚举后的状态组合的存在概率。步骤五:根据云计算系统状态空间计算给定需求下的系统可靠度。本发明的优点与积极效果在于:(1)本发明考虑云计算系统中由服务器故障引起的多个虚拟机共因故障,该故障是云计算系统中特殊的共因故障,成为云计算系统可靠性建模的难点,本发明采用状态空间建模,解决了其他模型对这种共因故障考虑不周的问题;(2)本发明方法对状态空间进行了化简,解决了当系统规模增大时状态空间过大,计算繁琐的问题,提高了建模效率。附图说明图1是本发明的考虑共因故障的云计算系统可靠性建模方法的流程示意图;图2是云计算系统结构示意图;图3是单台服务器中虚拟机状态全为0的故障树模型;图4是单台服务器中虚拟机状态全为1的故障树模型;图5是单台服务器中虚拟机状态有0有1的故障树模型;图6是本发明实施例中的云计算系统组成结构图。具体实施方式下面将结合附图和实施例对本发明作进一步的详细说明。本发明提出一种考虑共因故障的云计算系统可靠性建模方法,流程如图1所示,包括如下步骤:步骤一:确定云计算系统同类单台服务器状态组合并给出化简方法;建立云计算系统,如图2所示,云计算操作系统(CloudOS)是云计算系统的核心,接收到来自用户的服务请求后将其转化为多个子任务,通过虚拟机分配器分配到各个虚拟机执行。云计算系统的基础设施包含n类服务器,第i类服务器的个数为mi个且每个服务器上含有pi个核,每个核对应一个虚拟机,其中第i类服务器故障服从失效率为λs,i的指数分布,服务器之间故障独立;第i类服务器下虚拟机的故障服从失效率为λv,i的指数分布。n、mi、pi均为正整数,i=1,2,…,n。每个虚拟机有故障和正常两种状态,分别用1和0表示。对于单台服务器,虚拟机数目为pi,因此每台服务器包含种状态,每种状态由pi个0或1组成,具体状态空间如下:由于状态数目过多,首先对其进行化简,化简原则如下:单台服务器内故障虚拟机数目(即单台服务器状态中1的数目)相同,故障虚拟机的序号不同时,计算概率相同,可化简。将单台服务器状态重复倍数Qα定义为单台服务器中虚拟机状态为1的数目相同时,该服务器的所有状态组合数目。具体地,对第i类服务器的单台服务器状态化简如下:(1)单台服务器中虚拟机状态全为0时,记为状态1,状态数目为1,状态1的重复倍数Qα,1=1;(2)单台服务器中虚拟机状态全为1时,记为状态2,状态数目为1,状态2的重复倍数Qα,2=1;(3)单台服务器中虚拟机状态有0有1时,设q为状态中1的数目,状态数目为pi-1,状态(2+q)的重复倍数化简后单台服务器状态总数目xi=1+1+(pi-1)=pi+1,与化简前状态相比,状态数目减少。步骤二:采用故障树法计算同类单台服务器简化后状态组合的存在概率。(1)单台服务器中虚拟机状态全为0:即全部虚拟机都不发生故障,且服务器不故障的状态。这种状态为服务器的状态1,采用故障树方法对这种状态建模,故障树如图3所示,第i类单台服务器有pi个虚拟机VM1,VM2,…,VMpi。可知,单个状态1的存在概率其中为服务器独立故障的概率,为虚拟机独立故障的概率。已知状态1的重复倍数为1,因此所有这种状态概率为Psc,1=Pc,1。公式中的t表示云计算系统的工作时间。(2)单台服务器中虚拟机状态为全1:这种状态有两种可能性:一是由服务器故障引发的虚拟机共因故障,二是全部虚拟机自身故障。这种状态为服务器的状态2,采用故障树方法对这种状态建模,故障树如图4所示。可知,单个状态2的存在概率已知状态2的重复倍数为1,因此所有这种状态概率为Psc,2=Pc,2。(3)单台服务器中虚拟机状态有0有1:即虚拟机有正常和故障两种,且服务器正常。状态中1的数目记为q(1≤q<pi),这种状态为服务器的状态(2+q),采用故障树方法对这种服务器建模,故障树如图5所示,图5中至少有一个虚拟机与其他VM的状态不同。可知,单个状态(2+q)存在的概率已知状态(2+q)的重复倍数为Qα,2+q=Cpiq,]]>则所有这种状态概率为Psc,2+q=Cpiq·Pc,2+q.]]>步骤三:确定云计算系统同类服务器间状态组合与化简方法,并给出各状态组合的存在概率。第i类服务器的状态由mi台服务器的状态组合而成。如步骤一所述,单台服务器化简后的状态数为xi=pi+1,将所有服务器状态进行枚举时,对那些服务器状态排序不同但处于各种状态的服务器数量相同的状态组合,其存在概率相同,可进行化简。将同类服务器间状态重复倍数Qβ定义为一组同类服务器状态组合在该类服务器中以相同状态组合出现在不同服务器上的状态个数。对第i类服务器的mi台服务器的状态组合进行如下化简,记状态组合的序号为j:(1)当mi台服务器状态种类为1时,化简后状态数目为xi,重复倍数Qβ,j=1(1≤j≤xi);Qβ,j为第j种状态组合的重复倍数。(2)当mi台服务器状态种类为2时,且两种状态数分别为ξj,1,(mi-ξj,1)时,化简后状态数目为重复倍数Qβ,j=Cmiξj,1,]]>其中1≤ξj,1≤mi-1,xi<j≤xi+Cxi2(mi-1);]]>(3)当mi台服务器状态种类为3时,且3种状态数分别为时,化简后状态数目为重复倍数对任意ξj,h,h=1,2,有:1≤ξj,h≤mi-2;xi+Cxi2(mi-1)<j≤xi+Cxi2(mi-1)+Cxi3(mi-1)(mi-2)2);]]>(4)依此类推,当mi台服务器状态种类为r,4≤r≤min(xi,mi),且r种状态数分别为ξj,1,ξj,2,...,ξj,r-1,(mi-Σh=1r-1ξj,h)]]>时,化简后状态数目为其中θ1,θ2,…,θr-3为中间变量。重复倍数对任意ξj,h,h=1,2,...,r-1,1≤ξj,h≤mi-r;当r=4时,xi+Cxi2(mi-1)+Cxi3(mi-1)(mi-2)2<j≤xi+Cxi2(mi-1)+Cxi3(mi-1)(mi-2)2+Cxi4Σθ1=2mi-2(mi-θ1)(mi-θ1-1)2,]]>r>4时,因此第i类mi台服务器化简后的状态总数为:假设mi=3,pi=2,化简之前的状态数目为Mi,0=23×2=64种;先对单台服务器状态进行化简,得到xi=3,然后对3台服务器状态进行化简,得到因此化简率可见本化简方法可以大大减少状态组合数目,提高建模效率。得到每台服务器不同状态对应的概率后,由于服务器间故障相互独立,可以相乘得到第i类服务器状态对应的概率,假设第i类服务器的第j种状态组合中,单台服务器的xi种状态存在的个数分别为γ1,γ2,...,γxi,则第i类服务器在第j种状态组合对应的存在概率为Psc,y为单台服务器的所有的第y种状态的存在概率。步骤四:枚举云计算系统不同类服务器状态组合,并计算各状态组合的存在概率。分别得到n类服务器化简后的状态组合及其存在概率后,可以枚举这n类服务器的不同状态,假设第i类服务器化简后的状态数为Mi,那么n类服务器的状态枚举后的状态组合数为考虑不同服务器间状态独立性,可将不同类服务器状态对应的存在概率相乘,得到云计算系统在n类服务器状态枚举后的状态组合存在概率。当第i类服务器的状态取ωi时,n类服务器的第k种状态组合的存在概率此处k为整数,取值范围为第i类服务器的状态ωi在利用步骤三获得的状态中进行选择。步骤五:根据云计算系统状态空间计算给定需求下的系统可靠度。云计算系统状态空间包含种状态,每种状态由个0或1组成。这里给定需求量为g,即系统中有不小于g个虚拟机正常工作即认为云计算系统可靠。进行化简后,云计算系统状态空间包含种状态,云计算系统可靠度为所有满足需求的状态概率总和,即其中Ak为判别变量,实施例:云计算系统中包含两类服务器,第1类服务器为单核服务器,个数为2台,该类服务器故障服从λs,1=0.00001的指数分布,虚拟机故障服从λv,1=0.00005的指数分布;第2类服务器为双核服务器,个数为3台,该类服务器故障服从λs,2=0.00002的指数分布,虚拟机故障服从λv,2=0.00008的指数分布。其中服务器之间故障独立。确定工作时间T=1000h。给定需求量g为5。用1和0分别表示虚拟机的故障和正常状态,虚拟机的总数为8,因此状态数目为28=256,状态空间如下:000000000000000100000010…11111111步骤一:确定云计算系统同类单台服务器状态组合并给出化简方法。1.对第1类服务器状态进行化简,(1)单台服务器中虚拟机状态全为0时,状态数目为1,即0,Qα,1=1;(2)单台服务器中虚拟机状态全为1时,状态数目为1,即1,Qα,2=1。因此单台双核服务器状态总数为x1=p1+1=2。2.对第2类服务器状态进行化简,(1)单台服务器中虚拟机状态全为0时,状态数目为1,即00,Qα,1=1;(2)单台服务器中虚拟机状态全为1时,状态数目为1,即11,Qα,2=1;(3)单台服务器中虚拟机状态有0有1时,状态数目为1,即01,因此单台双核服务器状态总数为x2=p2+1=3。步骤二:采用故障树法计算同类单台服务器简化后状态组合的存在概率。使用步骤二中的方法计算两类服务器的状态组合存在概率。1.单台单核服务器的状态存在概率计算如表1所示:表1单台单核服务器各状态概率状态编号状态种类Qα,zPc,zPsc,z=Qα,z·Pc,zz=1010.9417650.941765z=2110.0582350.0582352.单台双核服务器的状态存在概率计算如表2:表2单台双核服务器各状态概率状态编号状态种类Qα,zPc,zPsc,z=Qα,z·Pc,zz=10010.835270.83527z=20120.0695670.139134z=31110.0255950.025595步骤三:确定云计算系统同类服务器间状态组合与化简方法,并给出各状态组合的存在概率。1.单核服务器(1)当两台服务器状态种类为1时,化简后状态数目为x1=2,重复倍数Qβ,j=1,j=1,2;(2)当两台服务器状态种类为2时,两种状态数均为1,化简后状态数目为重复倍数Qβ,3=C21=2.]]>两台单核服务器的状态组合有M1=3种,其各自的存在概率计算如表3所示:表3单核服务器各状态概率2.双核服务器(1)当三台服务器状态种类为1时,化简后状态数目为3,重复倍数Qβ,j=1,j=1,2,3;(2)当三台服务器状态种类为2时,两种状态数分别为1、2和2、1,化简后状态数目为6,重复倍数Qβ,j=3,j=4,5,6,7,8,9;(3)当三台服务器状态种类为3时,3种状态数均为1,化简后状态数目为1,重复倍数Qβ,j=6,j=10;两台单核服务器的状态组合有M2=10种,其各自的存在概率计算如表3所示:表4双核服务器各状态概率步骤四:枚举云计算系统不同类服务器状态组合,并计算各状态组合的存在概率。对两类服务器状态进行枚举,枚举后状态总数为考虑不同服务器间状态独立性,可将不同类服务器状态对应的状态相乘,得到云计算系统在两类服务器状态枚举后的状态组合存在概率。步骤五:根据云计算系统状态空间计算给定需求下的系统可靠度。根据云计算系统中所有服务器状态枚举后的状态中0的数目计算判别变量Ak。给定需求量g为5时,云计算系统的可靠度为
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1