1.本发明涉及智能运维技术领域,尤其涉及一种铁路数据中心关键性能指标趋势预测方法、异常识别方法及系统。
背景技术:2.近年来,随着我国铁路信息化飞速发展,构建铁路数据中心已经成为了趋势和主流。数据中心是否正常运行,直接关系到整个铁路系统能否正常运转,为保证数据中心的稳定运行,需要有专门的运维工程师对数据中心的可靠性进行保障,随着人工智能算法的普及,机器学习和深度学习的方法也开始在运维场景中得到应用,这就是人工智能运维的出现。数据中心运维数据预测主要是根据数据中心在运维过程中产生的海量历史运维数据,预测数据中心在未来的运维数据。
3.已经有多种方法进行运维数据预测,主要对运维数据中的某关键性能指标进行预测,可以大致分为两类,基于传统技术和基于人工智能的技术。在传统方法中,主要采用统计方法。包括多元线性回归、指数平滑和差分整合移动平均自回归(arima)算法。然而由于运维数据的非线性特性,上述技术在运维数据预测中的表现并不理想。在人工智能方法中,卷积神经网络(cnn)网络和长短期记忆(lstm)是运维数据预测中最广泛使用的深度学习技术。cnn模型可以过滤掉输入数据的噪声并提取数据中的趋势特征,然而cnn更适合处理空间自相关数据,对于具有复杂和长时间的时间依赖关系的运维数据不大理想;lstm模型由于其特殊的架构设计可以有效地捕获序列模式信息,然而lstm模型只利用了在训练集中提供的特征,对运维数据趋势特征提取较弱。目前,采用cnn或lstm的运维数据预测方法均存在各自的缺点,影响了预测精度。
技术实现要素:4.本发明提供了一种铁路数据中心关键性能指标趋势预测方法、异常识别方法,以解决现有的运维数据预测方法精度不高的问题。
5.第一方面,提供了一种铁路数据中心关键性能指标趋势预测方法,包括:
6.获取铁路数据中心各it设备的运维数据,提取多项整体关键性能指标的时间序列,构建整体关键性能指标矩阵;
7.将整体关键性能指标矩阵输入基于cnn网络的趋势特征提取子网络,得到一维趋势特征向量;
8.将一维趋势特征向量输入基于lstm网络的关键性能指标预测子网络,并将预测结果分别输入多个独立的全连接层,分别得到各项整体关键性能指标的预测结果。
9.进一步地,整体关键性能指标矩阵通过如下方法得到:
10.通过下式将各it设备的各项关键性能指标汇总成对应的整体关键性能指标,
11.12.其中,yk表示第k项整体关键性能指标,表示第i个it设备的第k项关键性能指标数值,n为it设备总数;
13.以各项整体关键性能指标时间序列为列进行横向拼接,得到整体关键性能指标矩阵。
14.进一步地,趋势特征提取子网络包括卷积层、最大池化层和flatten层,卷积层采用多个行长度为关键性能指标总数、列长度为p的卷积核对整体关键性能指标矩阵进行卷积运算,得到多个相同长度的一维矩阵;最大池化层对卷积层的输出进行最大池化处理;flatten层将最大池化层的输出转换成一维向量,即得到一维趋势特征向量,其中p与预设值。
15.进一步地,每个独立的全连接层对应一个关键性能指标预测子网络预测结果与一项整体关键性能指标的关系函数,用于根据关键性能指标预测子网络预测结果转换得到对应整体关键性能指标的预测结果。
16.进一步地,整体关键性能指标至少包括cpu占用率、内存使用率、网络以及磁盘io中的两种。
17.第二方面,提供了一种铁路数据中心异常识别方法,包括:
18.基于铁路数据中心历史故障发生时的各项整体关键性能指标数值及对应的故障类型构建历史故障数据集;
19.基于历史故障数据集构建cart决策树故障分类模型;
20.将采用如上所述的铁路数据中心关键性能指标趋势预测方法预测的各项整体关键性能指标的预测结果输入cart决策树故障分类模型;
21.cart决策树故障分类模型将各项整体关键性能指标的预测结果划分到对应叶子节点,该叶子节点对应的故障类型即为预测故障类型。
22.进一步地,所述基于历史故障数据集构建cart决策树故障分类模型包括:
23.a:从根节点开始,对于当前节点的历史故障数据集的各项整体关键性能指标,将其数值进行排序,依次取相邻两样本数值的中位数为切分点,分别计算各切分点对应基尼系数;
24.b:在计算出的各项整体关键性能指标的各个划分点对应的基尼系数中,选择基尼系数最小的整体关键性能指标及其对应的切分点作为最优特征和最优切分点;然后根据最优特征和最优切分点,将当前节点的历史故障数据集划分为两个数据集d1和d2,同时生成当前节点的两个子节点,左节点的数据集为d1,右节点的数据集为d2;
25.c:对左右两个子节点递归调用步骤a~b,直至达到终止条件,生成cart决策树故障分类模型。
26.进一步地,终止条件包括:
27.对于当前节点的数据集,若样本个数小于最低样本个数阈值或所有故障类型已经得到划分,则当前节点停止递归;
28.计算当前节点的数据集的基尼系数,如果基尼系数小于基尼系数阈值,则当前节点停止递归。
29.第三方面,提供了一种铁路数据中心关键性能指标趋势预测系统,包括:
30.存储器,其存储有计算机程序;
31.处理器,用于执行所述计算机程序时实现如上所述的铁路数据中心关键性能指标趋势预测方法的步骤。
32.第四方面,提供了一种铁路数据中心异常识别系统,包括:
33.存储器,其存储有计算机程序;
34.处理器,用于执行所述计算机程序时实现如上所述的铁路数据中心异常识别方法的步骤。
35.有益效果
36.本发明提出了一种铁路数据中心关键性能指标趋势预测方法、异常识别方法,首先基于铁路数据中心的多项整体关键性能指标的时间序列构建整体关键性能指标矩阵,然后利用基于cnn网络的趋势特征提取子网络提取出包括运维数据趋势特征的一维趋势特征向量,然后采用基于lstm网络的关键性能指标预测子网络对具有长时间依赖关系的运维数据进行预测,最后通过多个独立的全连接层分别对关键性能指标预测子网络的预测结果进行处理,得到各项整体关键性能指标的预测结果。同时,基于预测结果和预先构建的cart决策树故障分类模型实现铁路数据中心异常风险的识别,以供铁路数据中心实现实时异常故障风险预警。本发明能够对铁路数据中心运维数据进行高准确率预测,并进行异常风险识别及预警,减少铁路数据中心发生故障的可能性,提高铁路数据中心可靠性,大大较少运维人员的运维难度,提高整个运维体系的自动化、智能化。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是本发明实施例提供的铁路数据中心关键性能指标预测方法流程图;
39.图2是本发明实施例提供的趋势特征提取子网络结构示意图;
40.图3是本发明实施例提供的lstm单元结构示意图;
41.图4是本发明实施例提供的铁路数据中心异常识别方法流程图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
43.实施例1
44.如图1所示,本实施例提供了一种铁路数据中心关键性能指标预测方法,包括:
45.s1:获取铁路数据中心各it设备的运维数据,提取多项整体关键性能指标的时间序列,构建整体关键性能指标矩阵。
46.具体实施时,可编写铁路数据中心各it设备自动化运维数据收集脚本,实现各项关键性能指标的定时自动收集,其中关键性能指标包括cpu占用率、内存使用率、网络以及
磁盘io等,可任意选择其中的至少两种关键性能指标进行组合来实现本方案,本实施例中,以选用cpu占用率、内存使用率、网络以及磁盘io四项关键性能指标为例进行说明。
47.初始收集到的各it设备的各项关键性能指标,为了反映铁路数据中心整体的情况以及后期的故障风险预测,则需要将各it设备的各项关键性能指标转换为反映铁路数据中心整体情况的各项整体关键性能指标。具体地,通过下式将各it设备的各项关键性能指标汇总成对应的整体关键性能指标,
[0048][0049]
其中,yk表示第k项整体关键性能指标,表示第i个it设备的第k项关键性能指标数值,n为it设备总数,k取1、2、3、4。
[0050]
以各项整体关键性能指标时间序列为列进行横向拼接,即可得到整体关键性能指标矩阵。
[0051]
s2:将整体关键性能指标矩阵输入基于cnn网络的趋势特征提取子网络,得到一维趋势特征向量。
[0052]
此处,采用基于卷积神经网络构建趋势特征提取子网络来提取运维数据中的趋势特征,此卷积神经网络主要包括卷积层、最大池化层,具体结构如图2所示,其任务是过滤输入运维数据并提取运维数据中的趋势特征,这些特征被用作基于lstm网络的关键性能指标预测子网络的输入。
[0053]
具体流程如下,构建多个行长度为关键性能指标总数,列长度为p的卷积核,其中p的取值根据实际需要可选择包括但不限于2、3、4、5等,本实施例中以p取3为例进行说明;将整体关键性能指标矩阵和卷积核之间应用卷积运算,产生新的特征值。具体计算是在整体关键性能指标矩阵中从上往下依次读取与卷积核同样大小的矩阵,并与卷积核进行卷积运算,卷积之后的结构便是多个相同长度的一维矩阵,具体计算公式如下:
[0054][0055]
其中,xq表示以第q行为起点从输入整体关键性能指标矩阵中提取的与卷积核同样大小的矩阵,m为卷积核的索引,bm表示第m个特征图的偏差,wm表示第m个卷积核对应的矩阵,i,j分别表示矩阵中的行号与列号,σ是类似relu的激活函数,lq表示一维矩阵中第q个元素的值。之后将得到的多个相同长度的一维矩阵横向拼接成一个二维矩阵,这就是军妓之后提取的特征值,这些特征通常比输入数据的原始初始特征更有用,能够有效提高模型的性能。
[0056]
卷积层之后便是最大池化层,最大池化层进行最大池化处理的目的是获取卷积层提取的趋势特征最大的特征,最大池化层减小了特征数量和网络计算成本,同时还能调整过拟合的效果。最后在最大池化层后添加一个flatten层将最大池化层的输出转换成一维向量,即得到一维趋势特征向量。
[0057]
s3:将一维趋势特征向量输入基于lstm网络的关键性能指标预测子网络,并将预测结果分别输入多个独立的全连接层,分别得到各项整体关键性能指标的预测结果。
[0058]
关键性能指标预测子网络基于lstm网络构建,lstm网络是一种特殊类型的循环神经网络(rnn),它具有通过利用反馈连接来学习长期依赖关系的能力。lstm网络通过整合可
以更新先前隐藏状态的记忆单元来保留长期记忆,实现轻松理解长期序列上的时间关系。一个lstm单元包括三个门,分别称为遗忘门f
(t)
、输入门i
(t)
、输出门o
(t)
。通过这种结构,lstm通过决定哪些信息必须“忘记”以及哪些信息必须“记住”来设法创建受控信息流,从而设法学习长期依赖关系,lstm网络是由一系列lstm单元(lstm unit)组成,lstm单元结构图如图3所示,每个单元的输入包含单元状态节点c
(t-1)
、隐节点h
(t-1)
和输入节点x
(t)
三部分,基于cnn网络的趋势特征提取子网络的输出值被传递到输入节点,并进行门计算,首先是遗忘门f
(t)
,遗忘门输出一个向量,其元素值介于0和1之间,控制在时间t-1必须消失或必须保留在存储单元上的过去信息,由输入数据x
(t)
和隐节点h
(t-1)
经过一个sigmoid函数得到,具体计算公司如下:
[0059]f(t)
=σ(wf·
[h
(t-1)
,x
(t)
]+bf)
[0060]
其中,wf表示与输入数据x
(t)
、隐节点h
(t-1)
相乘的权重矩阵,bf表示对应的偏差,σ表示sigmoid函数。
[0061]
表示单元状态更新值,由输入数据x
(t)
和隐节点h
(t-1)
乘以权重矩阵wc,加上对应的偏置矩阵bc,经过一个tanh函数得到,计算公式如下:
[0062][0063]i(t)
为输入门,与遗忘门一样也是一个0和1之间的值,用于控制的哪些特征用于更新输入输出c
(t)
,同样由输入数据x
(t)
和隐节点h
(t-1)
乘以权重矩阵wi,加上对应的偏置矩阵bi,经过一个sigmoid函数得到,计算公式如下:
[0064]i(t)
=σ(wi·
[h
(t-1)
,x
(t)
]+bi)。
[0065]
每个lstm单元状态节点更新由遗忘门f
(t)
与前一个lstm单元状态乘积,加上输入门i
(t)
与的乘积,计算公式如下:
[0066][0067]
输出门o
(t)
由输入数据x
(t)
和隐节点h
(t-1)
乘以权重矩阵wo,加上对应的偏置矩阵bo,经过一个sigmoid函数得到,计算公式如下:
[0068]o(t)
=σ(wo·
[h
(t-1)
,x
(t)
]+bo)。
[0069]
lstm对于铁路数据中心的关键性能指标预测结果便是h
(t)
,由单元状态c
(t)
经过tanh函数再乘以输出门得到,计算公式如下:
[0070]h(t)
=o
(t)
×
tanh(c
(t)
)。
[0071]
输入节点c
(t)
和隐节点h
(t)
会传递到下一个节点进行预测。对于基于lstm网络的关键性能指标预测子网络预测结果,采用四个独立的全连接层分别对于cpu占用率、内存使用率、网络以及磁盘io进行独立预测,得到运维数据最终预测结果。每个独立的全连接层对应一个关键性能指标预测子网络预测结果与一项整体关键性能指标的关系函数,用于根据关键性能指标预测子网络预测结果转换得到对应整体关键性能指标的预测结果,其中关键性能指标预测子网络预测结果与整体关键性能指标的关系函数通过模型训练得到。
[0072]
本实施例提供的铁路数据中心关键性能指标预测方法,首先基于铁路数据中心的多项整体关键性能指标的时间序列构建整体关键性能指标矩阵,然后利用基于cnn网络的趋势特征提取子网络提取出包括运维数据趋势特征的一维趋势特征向量,然后采用基于
lstm网络的关键性能指标预测子网络对具有长时间依赖关系的运维数据进行预测,最后通过多个独立的全连接层分别对关键性能指标预测子网络的预测结果进行处理,得到各项整体关键性能指标的预测结果。综合利用了cnn网络和lstm网络的优点,能够对铁路数据中心运维数据进行高准确率预测,降低预测误差。另外,需要说明的是,具体实施时,利用铁路数据中心历史运维数据构建训练集,基于训练集同时对基于cnn网络的趋势特征提取子网络、基于lstm网络的关键性能指标预测子网络及多个全连接层进行训练,然后即可用于铁路数据中心关键性能指标的预测。
[0073]
实施例2
[0074]
如图4所示,本实施例提供了一种铁路数据中心异常识别方法,包括:
[0075]
s01:基于铁路数据中心历史故障发生时的各项整体关键性能指标数值及对应的故障类型构建历史故障数据集,其中,铁路数据中心的各项整体关键性能指标数值计算方法参见实施例1,在此不再赘述。
[0076]
s02:基于历史故障数据集构建cart决策树故障分类模型。
[0077]
cart决策树故障分类模型是用基尼系数来选择运维数据参数与故障类型之间的对应关系,基尼指数gini(d)反映的是从运维数据历史故障数据集中随机抽取两个样本,而他们故障类型不一致的概率,基尼系数计算公式如下:
[0078][0079]
其中,p(xi)是故障xi出现的概率,n是故障的数目,根据基尼指数能够构建cart决策树故障分类模型,构建过程如下:
[0080]
a:从根节点开始,对于当前节点的历史故障数据集的各项整体关键性能指标,将其数值进行排序,依次取相邻两样本数值的中位数为切分点,分别计算各切分点对应基尼系数,选择基尼系数最小的点对应的基尼系数作为该整体关键性能指标这一特征的基尼系数;
[0081]
b:在计算出的各项整体关键性能指标的各个划分点对应的基尼系数中,选择基尼系数最小的整体关键性能指标及其对应的切分点作为最优特征和最优切分点;然后根据最优特征和最优切分点,将当前节点的历史故障数据集划分为两个数据集d1和d2,同时生成当前节点的两个子节点,左节点的数据集为d1,右节点的数据集为d2;
[0082]
c:对左右两个子节点递归调用步骤a~b,直至达到终止条件,生成cart决策树故障分类模型。
[0083]
其中,终止条件包括:
[0084]
对于当前节点的数据集,若样本个数小于最低样本个数阈值或所有故障类型已经得到划分,则当前节点停止递归;
[0085]
计算当前节点的数据集的基尼系数,如果基尼系数小于基尼系数阈值,则当前节点停止递归。
[0086]
s03:将采用如上述实施例所述的铁路数据中心关键性能指标预测方法预测的各项整体关键性能指标的预测结果输入cart决策树故障分类模型;
[0087]
s04:cart决策树故障分类模型将各项整体关键性能指标的预测结果划分到对应叶子节点,该叶子节点对应的故障类型即为预测故障类型。由此,运维人员可及时获取异常故障风险及类型并进行排除,减少数据中心故障风险可能性,提高铁路数据中心可靠性,大
大较少运维人员的运维难度,提高整个运维体系的自动化、智能化。
[0088]
实施例3
[0089]
本实施例提供了一种铁路数据中心关键性能指标预测系统,包括:
[0090]
存储器,其存储有计算机程序;
[0091]
处理器,用于执行所述计算机程序时实现如实施例1所述的铁路数据中心关键性能指标预测方法的步骤。
[0092]
实施例4
[0093]
本实施例提供了一种铁路数据中心异常识别系统,包括:
[0094]
存储器,其存储有计算机程序;
[0095]
处理器,用于执行所述计算机程序时实现如实施例2所述的铁路数据中心异常识别方法的步骤。
[0096]
上述实施例提供的系统中,还包括:通信接口,用于与外界设备进行通信,进行数据交互传输。
[0097]
其中,存储器可能包含高速ram存储器,也可能还包括非易失性除颤器,例如至少一个磁盘存储器。
[0098]
如果存储器、处理器和通信接口独立实现,则存储器、处理器和通信接口可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构总线,外部设备互联总线或扩展工业标准体系结构总线等。所述总线可以分为地址总线、数据总线、控制总线等。
[0099]
可选的,在具体实现上,如果存储器、处理器和通信接口集成在一块芯片上,则存储器、处理器即通信接口可以通过内部接口完成相互之间的通信。
[0100]
各个步骤的具体实现过程请参照前述方法的阐述。
[0101]
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
[0102]
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0103]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。