一种基于数据中心数据采集平台的多指标异动分析方法与流程

文档序号:14504842阅读:326来源:国知局

本发明涉及一种分析方法,具体是一种基于数据中心数据采集平台的多指标异动分析方法。



背景技术:

目前数据中心的指标数据主要是基于大数据平台进行采集,根据运维人员的历史经验对于不同的指标设定不同的阈值,对指标进行监控预警,数据利用率较低,对数据的监控分析较弱,不能基于历史的指标数据进行智能分析与预测和自动故障定位,告警时往往系统性能已经严重恶化,或者已经影响对外服务,不能快速定位问题主机,在故障出现之前预先发现故障趋势,及时有效的避免故障的发生。

目前传统的监控告警方法主要具有以下缺点:反应不迅速,监控阈值固定,无变化;时效性差,告警时往往系统性能已经严重恶化,或者已经影响到对外服务;辨识率差,系统发生告警时,往往会产生消息风暴,而传统的ITOM工具很难实现告警事件关联;没有价值,传统的数据中心运维仅仅着眼于ITOM收集的主机性能数据,对于主机性能数据与业务系统性能之间的数据关联,传统ITOM无法实现数据价值挖掘;缺乏技术支持,告警产生以后,在运维专家到达现场之前,往往无法正常开始抢修工作,缺少运维专家知识库的指引;无法对问题主机快速定位,传统监控只是单一的监控各个指标变化,无法确定主因指标,定位问题主机。在数据中心的指标监控中,迫切地需要能够补足短时预测及长时趋势分析的短板,掌握运维的主动权,提前于监控系统发现潜在的风险,快速定位问题主机,从而为排除系统故障赢得更多的时间。



技术实现要素:

本发明的目的在于提供一种基于数据中心数据采集平台的多指标异动分析方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种基于数据中心数据采集平台的多指标异动分析方法,包括:

一、模型预测:包括模型训练、模型使用和实时处理;

模型训练包括以下步骤:1)从hdfs获取历史数据,做数据预处理发送给模型训练模块;2)将训练后的模型持久化到mysql或文本,保存在模型库;

模型使用包括以下步骤:1)将持久化的模型反持久化给指标预测模块,供预测使用;2)从hdfs中获取指标预测时间点前段时间的历史数据,做数据清洗后传给指标预测模块;3)执行指标预测,得到预测值并存储到结果库;

实时处理包括以下步骤:1)使用spark streaming实时获取中间件Kafka中的数据,一边传给kafka,另一边存储在结果库中;2)CEP从kafka获取实时数据,根据实时数据从结果库获取上、下边界值;3)CEP根据设定好的规则得到告警的时间,生成告警记录存储在结果库;4)结果库中数据在展示层中显示;

二、单指标模型训练;

三、多指标分析:1)找出多个KPI指标之间存在的潜在关系,如果隐含关系被打破,即被认定为异常;2)结合多指标异常分析结果,对这多个指标进行根因分析,寻找主因指标,对导致异常的原因进行定位;

四、多指标异动分析:1、基于ITOA运维大数据平台在数据中心采集的KPI指标数据,首先对指标数据进行清洗,然后在目标指标集进行指标筛选,在这里采用Granger(格兰杰)因果关系检验对指标集中的指标进行过滤筛选,提取因果关系明显的指标进行下一步的异动分析;2、采用张量LSTM模型对多指标在待分析的时间段的面板矩阵数据进行预测;3、提取当前时间段的指标值与LSTM模型预测值,基于异动指数对数据进行处理,得到一条可以描绘指标间潜在关系的异动指数误差曲线;4、运用根因分析模型,分析每个指标间的异动影响程度,找出影响因素较大指标,确定主因指标;

五、多指标预警:如果多个指标的潜在关系保持稳定,使用LSTM预测的误差应一直保持在合理的区间内,当预测误差发生突变时,多个KPI之间的关系被打破,即认为发生异常,当指标间异动程度偏离正常区间的阈值时,认为kpi指标间的关系被打破,发生了异动的趋势,那么在这段时间内就存在异常,需要进行告警。

作为本发明进一步的方案:通过定义异常指数o_t,来刻画异常程度:

其中

(其中为t时刻指标i的真实值,为t时刻指标i的预测值,为t时刻指标i的相对误差值,为t时刻以前指标i的相对误差均值)。

作为本发明进一步的方案:单指标模型使用机器学习或者统计预测的方法对于运维指标的内部规律进行抓取;其中机器学习方法包括循环神经网络(RNN);统计预测方法包括ARIMA/Holt-Winters预测方法。

作为本发明进一步的方案:当多KPI分析模块有异常报警时,使用逐步回归的方法来对选取的指标的异常数据进行根因分析,最终确定每个指标间的异动影响程度,影响程度最大的指标即为主因指标。

与现有技术相比,本发明的有益效果是:

本发明基于历史的指标数据进行智能分析,可以使更加方便地把控指标数据的发展趋势,及时有效地避免生产系统的进一步恶化,使生产系统的潜在风险早于传统运维得到快速高效的处理。在实际的运维场景中,通过对多指标进行异动分析和异常根因分析,可以快速定位问题主因指标,从而大大节省问题定位时间,并有效提升IT运维管理人员的问题解决能力。Granger(格兰杰)因果关系检验对指标集中的指标进行过滤筛选,可以有针对性地找出关联性较强的指标进行分析,节省指标选取的时间。针对异动分析的异常数据,进行根因分析,可以帮助运维人员快速定位问题指标,从而找出问题主机。

附图说明

图1为KPI异常分析流程图。

图2为模型预测流程图。

图3为模型训练流程图。

图4为模型使用流程图。

图5为实时处理流程图。

图6为单指标模型训练原理图之一。

图7为单指标模型训练原理图之二。

图8为多指标异动分析流程图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

请参阅图1-8,一种基于数据中心数据采集平台的多指标异动分析方法,包括:

KPI异常分析方法,包括以下步骤:请求JDBC服务从hive获取数据;对数据进行清洗;对数据进行HP滤波;调用单指标算法和多指标算法对指标数据进行训练;将训练结果持久化到mysql;Spring-boot在web端将计算结果展示。其具体包括以下步骤:

一、模型预测:包括模型训练、模型使用和实时处理;

模型训练包括以下步骤:1)从hdfs获取历史数据,做数据预处理发送给模型训练模块;2)将训练后的模型持久化到mysql或文本,保存在模型库;

模型使用包括以下步骤:1)将持久化的模型反持久化给指标预测模块,供预测使用;2)从hdfs中获取指标预测时间点前段(一个月)时间的历史数据,做数据清洗后传给指标预测模块;3)执行指标预测,得到预测值(未来一天的预测值、上边界、下边界)并存储到结果库;

实时处理包括以下步骤:1)使用spark streaming实时获取中间件Kafka中的数据,一边传给kafka,另一边存储在结果库中;2)CEP从kafka获取实时数据,根据实时数据从结果库获取上、下边界值;3)CEP根据设定好的规则得到告警的时间,生成告警记录存储在结果库;4)结果库中数据(告警、预测值、真实值)在展示层中显示;

二、单指标模型训练

对于海量的运维指标,单指标模型尝试使用机器学习或者统计预测的方法对于运维指标的内部规律进行抓取;其中机器学习方法包括循环神经网络(RNN);统计预测方法包括ARIMA/Holt-Winters等时间序列的预测方法;

1)循环神经网络(RNN):循环神经网络的目的使用来处理序列数据;在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的;但是这种普通的神经网络对于很多问题却无能无力;循环神经网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出;理论上,RNNs能够对任何长度的序列数据进行处理;但是在实践中,为了降低复杂性往往假设当前的状态只与前面的几个状态相关,图6-7是典型的RNNs;

2)统计预测方法:单指标训练模型包括ARIMA和Holt-Winters;ARIMA模型全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出一著名时间序列预测方法;其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数;所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型;ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列;这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值;Holt-Winters也名三次指数平滑算法;三次指数平滑算法可以对同时含有趋势和季节性的时间序列进行预测,该算法是基于一次指数平滑和二次指数平滑算法的;三次指数平滑算法可以很好的保存时间序列数据的趋势和季节性信息;

三、多指标分析:1)找出多个KPI指标之间存在的潜在关系,如果隐含关系被打破,即被认定为异常;2)结合多指标异常分析结果,对这多个指标进行根因分析,寻找主因指标,对导致异常的原因进行定位;选择张量LSTM递归神经网络模型,当递归神经网络需要考虑到各个输入变量之间的相关关系时,即需要张量LSTM,张量LSTM的训练数据是历史时刻各个变量的值,即面板数据矩阵,张量LSTM的输出数据为预测时刻多个变量的预测值,这些预测值考虑到了历史上各变量间的相互联系;

四、多指标异动分析:1、基于ITOA运维大数据平台在数据中心采集的KPI指标数据,首先对指标数据进行清洗,然后在目标指标集进行指标筛选,在这里采用Granger(格兰杰)因果关系检验对指标集中的指标进行过滤筛选,提取因果关系明显的指标进行下一步的异动分析。2、采用张量LSTM模型/ARIMA模型对多指标在待分析的时间段的面板矩阵数据进行预测。3、提取当前时间段的指标值与LSTM模型/ARIMA模型预测值,基于异动指数对数据进行处理,得到一条可以描绘指标间潜在关系的异动指数误差曲线。4、提取和计算告警时间区间内的各个指标数据的真实值,误差线的预测值和相对误差等,首先运用HP滤波将预测值进行平滑化处理,结合历史相对误差,计算得出误差线的上下界。5、对于在一段时间窗口m下,n次超过阈值的上下界,则对该时间窗口下的此时间段进行告警。6、运用根因分析模型,分析每个指标间的异动影响程度,采用逐步回归,增量学习得到一个最优解,找出影响因素较大指标,从而确定主因指标,报告根因分析的标签。

五、多指标预警

如果多个指标的潜在关系保持稳定,使用LSTM预测的误差应一直保持在合理的区间内,当预测误差发生突变时,多个KPI之间的关系被打破,即认为发生异常,在这里,通过定义异常指数o_t,来刻画异常程度:

其中

(其中为t时刻指标i的真实值,为t时刻指标i的预测值,为t时刻指标i的相对误差值,为t时刻以前指标i的相对误差均值);

当指标间异动程度偏离正常区间的阈值时,就认为kpi指标间的关系被打破,发生了异动的趋势,那么在这段时间内就存在异常,需要进行告警。当多KPI分析模块有异常报警时,使用逐步回归的方法来对选取的指标的异常数据进行根因分析,最终确定每个指标间的异动影响程度,影响程度最大的指标即为主因指标。

本发明的工作原理是:基于历史的指标数据进行智能分析,可以使更加方便地把控指标数据的发展趋势,及时有效地避免生产系统的进一步恶化,使生产系统的潜在风险早于传统运维得到快速高效的处理。在实际的运维场景中,通过对多指标进行异动分析和异常根因分析,可以快速定位问题主因指标,从而大大节省问题定位时间,并有效提升IT运维管理人员的问题解决能力。Granger(格兰杰)因果关系检验对指标集中的指标进行过滤筛选,可以有针对性地找出关联性较强的指标进行分析,节省指标选取的时间。针对异动分析的异常数据,进行根因分析,可以帮助运维人员快速定位问题指标,从而找出问题主机。

上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各种变化。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1