一种云计算系统节点失效预警装置和方法
【技术领域】
[0001] 本发明涉及计算机云计算领域,尤其涉及一种云计算系统节点失效预警装置和方 法。
【背景技术】
[0002] 云计算是一种基于互联网的计算方式,通过过种方式,共享的软硬件资源和信息 可以按需求提供给计算机和其他设备。相对于传统的软件和计算形态,云计算具有松散耦 合、随需应变、成本可控、资源虚拟、异构协同等显著的优势,使其更适应现今的电子商务、 柔性制造、移动互联网等应用。
[0003] 大型的云计算系统一般包含许多计算节点,这些节点为整个云计算系统提供计算 资源,在计算逻辑上通过云虚拟化技术成为一个整体,但在物理上,仍然是独立的个体。整 个云计算系统的可靠性和稳定性均依赖于这些计算节点的稳定性;计算节点越稳定,则云 计算系统的可靠性和稳定性越高。由于这些节点在空间上距离可能非常遥远(同为一个云 计算系统提供计算资源的计算节点可能相距数百公里),因此,使用人工或者电子监控方式 对单一节点的稳定性进行监控,不能从云计算系统整体出发,进行全局的统筹与分析。
[0004] 因此,如何针对大型云计算系统中的计算节点,结合其运行状态历史情况,从云计 算整体系统角度出发,进行符合统计规律、准确度高的节点失效分析与预警,是云计算领域 中亟待解决的一个关键技术问题。
【发明内容】
[0005] 本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种云计算 系统节点失效预警装置和方法。
[0006] 为了实现本发明的上述目的,本发明提供了云计算系统节点失效预警装置,其包 括:
[0007] 接收模块,用于接收服务器采集的计算节点运行状态历史数据和运行状态实时数 据,并指示数据模块对接收的数据进行存储;
[0008] 数据模块,用于存储由接收模块接收的计算节点运行状态历史数据和运行状态实 时数据,以及装置提取的节点失效特征和节点实时特征;其中节点运行状态数据存储单元, 用于存储接收模块接收的计算节点运行状态历史数据和运行状态实时数据;节点失效特征 存储单元,用于存储装置提取的节点失效特征;节点实时特征存储单元,用于存储装置提取 的节点实时特征;
[0009] 特征提取模块,用于执行云计算节点失效特征提取过程,和云计算节点实时特征 提取过程,并将提取的特征分别存入数据模块中的节点失效特征存储单元,和节点实时特 征存储单元;
[0010] 节点失效预警模块,用于执行云计算节点失效预警过程,输出失效的云计算节点 序号列表。
[0011] 所述的云计算系统节点失效预警装置,优选的,所述特征提取模块包括:
[0012] 初始化单元,用于初始化云计算节点失效特征提取过程,和云计算节点实时特征 提取过程中涉及的相关参数;
[0013] 提取单元,用于根据数据模块中,节点运行状态数据存储单元,存储接收模块接收 的计算节点运行状态历史数据,和运行状态实时数据,分别进行云计算节点失效特征提取, 和云计算节点实时特征提取;
[0014] 输出单元,用于将提取单元提取的云计算节点失效特征,和云计算节点实时特征, 分别存储至数据模块中的节点失效特征存储单元,和节点实时特征存储单元。
[0015] 所述的云计算系统节点失效预警装置,优选的,所述提取单元中云计算节点失效 特征提取包括:
[0016] 接收服务器提取云计算节点失效特征的指令;
[0017] 初始化相关参数;
[0018] 对节点运行状态属性a对应的运行状态历史矩阵Ra,关于其对应的节点特征矩阵 Da和时间特征矩阵E a,构造训练目标函数Fa;
[0019] 判断提取迭代控制变量k已达到上限K ;
[0020] 判断
[0021 ] 关于EJP D 3对F 3进行迭代优化;
[0022] 判断已处理完所有的节点运行状态属性;
[0023] 对于所有云计算节点1~N,对其运行状态属性1~A,在时间点1~T,根据节点 失效历史记录矩阵Y,和提取的节点特征矩阵Di- D A和时间特征矩阵E E A,构造并输出 所有失效节点实例的特征,存入数据模块中的节点失效特征存储单元。
[0024] 所述的云计算系统节点失效预警装置,优选的,所述提取单元中云计算节点实时 特征提取过程包括:
[0025] 接收服务器提取云计算节点实时特征的指令;
[0026] 结合云计算节点实时运行状态向量组{Bp B2,…,BJ,和云计算节点历史运行状态 矩阵组{&,R2,…,RA},构造云计算节点最近窗口运行状态矩阵IA,C2,…,CJ
[0027] 初始化相关参数;
[0028] 对节点运行状态属性a对应的最近窗口运行状态矩阵Ca,关于其对应的节点特征 矩阵Da和时间特征矩阵E a,构造训练目标函数Fa;
[0029] 判断提取迭代控制变量k已达到上限K ;
[0030] 判断
[0031 ] 关于EJP D 3对F 3进行迭代优化;
[0032] 判断已处理完所有的节点运行状态属性;
[0033] 对于所有云计算节点1~N,对其运行状态属性1~A,构造并输出其运行状态实 时特征,数据模块中的节点实时特征存储单元。
[0034] 所述的云计算系统节点失效预警装置,优选的,所述节点失效预警模块包括:
[0035] 接收服务器进行云计算节点失效预警的指令;
[0036] 从节点失效特征存储单元取出节点失效特征;
[0037] 从节点实时特征存储单中取出节点实时特征;
[0038] 对节点1~N,根据其节点失效特征和节点实时特征,判断其当前时刻是否会失 效;
[0039] 将可能失效的云计算节点序号列表输出,作为预警判断结果。
[0040] 所述的云计算系统节点失效预警装置,优选的,所述提取单元中云计算节点失效 特征提取包括:
[0041] 接收服务器提取云计算节点失效特征的指令;
[0042] 服务器向装置发送指令的方式为:定期、或根据所述装置的通知、或根据某服务器 的通知,将要求从云计算节点运行状态历史数据中提取云计算节点失效特征的指令发送给 装置;
[0043] 初始化相关参数;
[0044] 需要初始化的参数包括:特征空间维数D、节点特征矩阵组仉,D2,…,DJ、时间特 征矩阵组{Ei,E2,…,EA}、提取迭代控制变量k、提取迭代上限K和收敛判定阈值γ ;其中:
[0045] 特征空间维数D :是控制需要提取的特征的维数的变量,初始化为正整数,如20 ;
[0046] 节点特征矩阵组{Dd D2,…,DJ :对应节点运行状态属性{1,2,…,Α},根据云计算 节点个数N和特征空间维数D,建立的A个N行,D列的矩阵,其中每个元素初始化为为开区 间(〇, 0.1)内的随机数;
[0047] 时间特征矩阵组{Ed E2,…,EJ :对应节点运行状态属性{1,2,…,A},根据云计算 节点运行状态历史数据涉及的时间节点数T和特征空间维数D,建立的A个T行,D列的矩 阵,其中每个元素初始化为为开区间(〇, 0.1)内的随机数;
[0048] 提取迭代控制变量k :控制提取迭代过程的变量,初始化为0 ;
[0049] 提取迭代上限K :控制提取迭代过程中,迭代次数上限的变量,初始化为正整数;
[0050] 收敛判定阈值γ :判断提取迭代过程是否已收敛的阈值参数,初始化为极小正 数;
[0051] 对节点运行状态属性a对应的运行状态历史矩阵Ra,关于其对应的节点特征矩阵 Da和时间特征矩阵E a,构造训练目标函数Fa;
[0052] 训练目标函数Fa以下式表示:
[0054] 其中
表示计算矩阵RjPDaEa T间的欧式距离的平方。该目标函数的物 理意义为,使用欧式距离衡量矩阵&和D j/间的差异,并通过优化方法使该差异最小化;
[0055] 判断提取迭代控制变量k已达到上限K ;
[0056] 首先在提取迭代控制变量k上累加 1,然后判断提取迭代控制变量k是否大于提取 迭代上限N;
[0057] 判断
[0058] 判断F,E 3和D 3收敛为,本轮迭代开始前,F a的数值,对比上轮迭代开始前,F 3的 数值,其差的绝对值是否小于收敛判定阈值γ ;如果小于,则判定为已收敛,反之,则判定 为未收敛;
[0059] 关于EJP D 3对F 3进行迭代优化;
[0060] 关于EJP D 3对F a进行迭代优化,迭代优化的计算公式如下:
[0063] 其中D+k)表示矩阵D a的第N行,第k列的元素 ;E aa,k)表示矩阵E a的第T行,第k 列的元素;罐表示矩阵1的转置; <表示矩阵艮的转置;使用非负矩阵因式分解的非负 参数乘积更新方法,在Fa上对E 3和D a相对于Ra进行迭代优化;
[0064] 判断已处理完所有的节点运行状态属性;
[0065] 判断当前处理的节点运行状态属性a是否是所有待处理节点运行状态属性 {1,2,…,A}的最后一个属性,如果是,则判定已处理完所有属性,反之,则判定还未处理完 所有属性;
[0066] 对于所有云计算节点1~N,对其运行状态属性1~A,在时间点1~T,根据节点 失效历史记录矩阵Y,和提取的节点特征矩阵Di- D A和时间特征矩阵E E A,构造并输出 所有失效节点实例的特征,存入数据模块中的节点失效特征存储单元122 ;
[0067] 构造节点失效特征的方法为:
[0068] 遍历节点失效历史记录矩阵Y,如果节点N在时间点T上被标记为失效,即Υ(ΝιΤ) = 1,则从节点特征矩阵组{Dp D2,…,DA}的每个矩阵中提取第N行,即对应于节点N的特征向 量,总共提取A个向量,构造一个A行,D列的节点特征矩阵J ;
[0069] 同时,从时间特征矩阵组{Ε。E2,…,EA}中,提取第T行,即对应于时刻T的特征向 量,总共提取A个向量,构造一个A行,D列的时刻特征矩阵S ;
[0070] 然后,将J和S按列进行合并,构造节点N在时刻T的失效特征矩阵L,如下式所示
[0071] L(n,t) = {JS}
[0072] 根据云计算系统中节点1~N,时刻1~T的历史运行状态整体数据对各节点和各 时刻的特征进行建模,并使用符合统计规律的优化方法进行特征提取,最后用该特征描述 特定节点在特定时刻的失效状态;
[0073] 将构造完成的节点失效特征存入数据模块中的节点失效特征存储单元。
[0074] 所述的云计算系统节点失效预警装置,优选的,所述提取单元中云计算节点实时 特征提取包括:
[0075] 接收服务器提取云计算节点实时特征的指令;
[0076] 服务器向装置发送指令的方式为:定期、或根据所述装置的通知、或根据某服务器 的通知,将要求从云计算节点运行状态实时数据中提取云计算节点失效特征的指令发送给 装置;
[0077] 结合云计算节点实时运行状态向量组{Bp B2,…,BJ,和云计算节点历史运行状态 矩阵组{&,R2,…,RA},构造云计算节点最近窗口运行状态矩阵IA,C2,…,CJ ;
[0078] 结合云计算节点实时运行状态向量组{Bp B2,…,BJ,和云计算节点历史运行状态 矩阵组{&,R2,…,RA},构造云计算节点最近窗口运行状态矩阵组IA,C 2,…,CJ是:
[0079] 将云计算节点历史运行状态矩阵组{&,R2,…,RJ和云计算节点实时运行状态向 量组ΙΛ,B2,…,BA}按