一种大数据平台的性能检测方法及装置的制造方法
【专利摘要】本发明实施例公开了一种大数据平台的性能检测方法及装置,涉及网络技术领域,包括步骤:采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);判断所述P(O|λ1)是否小于预设阈值;若为是,确定所述大数据平台处于异常状态;若为否,确定所述大数据平台处于正常状态。应用本发明实施例,利用隐式马尔科夫模型对大数据平台进行性能检测,提高了检测准确率。
【专利说明】
一种大数据平台的性能检测方法及装置
技术领域
[0001] 本发明涉及网络技术领域,特别涉及一种大数据平台的性能检测方法及装置。
【背景技术】
[0002] 近半个世纪以来,"大数据"这个概念已经应用到各领域中,成为一种可以改变世 界的新的动力。为了更有效的利用数据,研究者们开发了大数据平台,用来计算社会所产生 的越来越多的数据信息。但是在大数据平台运行中,很多性能问题,如CPU(Central Processing Unit,中央处理器)异常、内存异常等,会影响我们得到精准的数据。
[0003] 为了解决大数据平台运行中存在的性能问题,建立了大数据平台性能检测方法。 大数据平台性能检测方法的基本流程如下:
[0004] 通过导入的性能指标数据,如CPU利用率、内存利用率、磁盘读写率以及网络带宽 等,建立正常状态下的性能模型;
[0005] 采集大数据平台当前运行状态下的性能指标数据;
[0006] 根据已建立好的性能模型和采集到的性能指标数据,判断是否存在异常,如果采 集到的性能指标数据符合性能模型,则说明无异常;如果采集到的性能指标数据不符合性 能模型,则说明存在异常;
[0007]如果存在异常,则根据采集到的性能指标数据,计算每两个性能指标的第一MIC (Maximal Information Coefficient,最大信息系数)值;
[0008] 根据第一MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;其中,第二 MIC值为大数据平台在正常运行状态下的每两个性能指标的MIC值;第一特征值由二进制数 组构成;
[0009] 根据第一特征值和特征库中存储的第二特征值,在特征库中查找异常原因;其中, 特征库由异常原因和第二特征值组成;第二特征值由二进制数组构成,第二特征值是根据 第二MIC值、第三MIC值和预先设定的MIC阈值得到的;第三MIC值为大数据平台在给定的异 常运行状态下的每两个性能指标的MIC值;
[0010] 如果特征库中没有与第一特征值匹配的第二特征值,则通过人工判断异常原因, 并将该第一特征值和对应的异常原因添加到特征库中。
[0011] 下面针对两个性能指标X和Y,简单介绍一下MIC值的计算步骤:
[0012]步骤一:网格划分
[0013] 将X的所有数据排成序列X',将Y的所有数据排成序列Y',X'和Y'组成集合D,集合D 是一个有序对的有限集合,给定一个格子G,根据D中的序列对划分G的单元格,允许出现空 格子,划分后格子G在X方向总共有η列,在y方向总共有m行。其中,集合D的样本容量为b,n〈 13〇.6且111〈13〇.6。
[0014] 步骤二:计算互信息
[0015] 根据如下公式计算X和Y的互信息:
[0016]
[0017] 其中,1^1<11,1^^<111,?(灿)表示落在第11列的序列对的个数占所有序列对个数 的比例,P(yk)表示落在第k行的序列对的个数占所有序列对个数的比例,p( Xh,yk)表示落在 第h列第k行的序列对的个数占所有序列对个数的比例。
[0018] 步骤三:获得最大互信息
[0019] 因为单元格的列宽、行距都不是固定的,所以当n、m固定时,格子G仍有很多种不同 的划分方法。不同的划分方法会导致计算所得的I(X;Y)不同。对于一组n、m来说,所有I(X; ¥)中的最大值称为最大互信息,记为11^1{1(乂 ;¥)}。
[0020] 步骤四:计算特征矩阵
[0021 ]根据如下公式计算特征矩阵M(D)n,m:
[0022]
[0023] 步骤五:获得MIC值
[0024] 由于η和m在取值范围内可以有多个取值,所以不同的n、m会导致计算得到的特征 矩阵M(D)n,m不同,所有的特征矩阵M(D) n,m中的最大值即为MIC值,计算公式如下:
[0025] MIC(D) =max{M(D)n,m}
[0026] 以上是MIC值的计算过程。
[0027] 在现有的大数据平台性能检测方法中,建立正常情况下的性能模型所利用的是 ARIMA(Autoregressive Integrated Moving Average Model,自回归积分滑动平均模型), 因为ARIMA模型是一种时间序列预测模型,时间序列预测模型是根据时间序列的过去值及 现在值来预测未来值,所以当性能指标为线性关系时,利用AR頂A模型建立的大数据平台性 能检测方法的检测准确率较高;但是当性能指标为非线性关系时,利用ARIM模型建立的大 数据平台性能检测方法的检测准确率较低。
【发明内容】
[0028] 本发明实施例公开了一种大数据平台的性能检测方法及装置,用于提高检测准确 率。技术方案如下:
[0029] 本发明实施例公开了一种大数据平台的性能检测方法,所述方法包括步骤:
[0030] 采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指 标数据序列〇;所述第一类性能指标数据序列〇是所述第一类性能指标数据按照时间顺序排 列而成的序列;
[0031 ]根据所述第一类性能指标数据序列0和隐式马尔科夫模型的最优值λ?,计算P(〇 I λ 1);其中,Ρ(〇|λ1)为基于所述最优值λ?得到所述第一类性能指标数据序列〇的概率,所述最 优值λ?是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫 模型根据第二类性能指标数据序列〇'得到的;所述第二类性能指标数据序列〇'是采集的所 述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列;
[0032]判断所述P(0 I λ?)是否小于预设阈值;若为是,确定所述大数据平台处于异常状 态;若为否,确定所述大数据平台处于正常状态;其中,所述预设阈值为Ρ(〇'|λ?)和ρ(0' |λ 2)的差值,Ρ(〇'|λ?)为基于所述最优值λ?得到所述第二类性能指标数据序列0'的概率,P (0 ' I λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列0 '的概率。
[0033] 优选的,所述计算P(0 I λ?)所利用的公式为:
[0034]
[0035]其中,I < i <Ν,Ν表示所述大数据平台的运行状态个数;T表示采集所述第一类性 能指标数据的时间段;aT(i)表示在隐式马尔科夫模型为最优值λ?时,T时刻满足状态i,且T 时刻及T时刻之前满足所述第一类性能指标数据序列0的概率。
[0036] 优选的,计算所述Ρ(0' |λ1)和所述Ρ(〇' |λ2)所利用的公式为:
[0037]
[0038] 其中,计算所述Ρ(0' |λ?)时,上式中的λ = λ1;计算所述ρ(0' |λ2)时,上式中的λ = λ 2;
[0039] I < i < Ν,Ν表示所述大数据平台的运行状态个数;I < t < Τ',Τ'表示采集所述第二 类性能指标数据的时间段;〇'= (Cr1OY^crr);
[0040] at(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满 足第一观察值序列(〇' 1〇'2-〇\)的概率;仏(1)表示在隐式马尔科夫模型为1时4时刻满足 状态i,且t时刻以后满足第二观察值序列(0 ' t+1〇 ' ?+2···0 ' r)的概率。
[0041] 优选的,所述最优值λ?为:基于前向后向算法,由隐式马尔科夫模型的初始值λ2训 练得到的。
[0042] 优选的,所述初始值λ2为:基于Baum-Welch算法,利用隐式马尔科夫模型根据所述 第二类性能指标数据序列〇'得到的。
[0043] 优选的,所述方法还包括:
[0044] 在确定所述大数据平台处于异常状态之后,根据所述第一类性能指标数据序列0 计算性能指标数据所对应性能指标中每两个性能指标的第一最大信息系数MIC值;
[0045]根据所述第一 MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;所述第 二MIC值是根据所述第二类性能指标数据序列0'得到的性能指标数据所对应性能指标中每 两个性能指标的MIC值;
[0046]根据所述第一特征值和第二特征值,判断异常原因;所述第二特征值是根据所述 第二MIC值、第三MIC值和所述预先设定的MIC阈值得到的,所述第三MIC值是根据第三类性 能指标数据序列得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;所述第 三类性能指标数据序列是采集的所述大数据平台在预先设定的异常运行状态下的第三类 性能指标数据按照时间顺序排列而成的序列。
[0047]优选的,所述大数据平台为Hadoop集群。
[0048] 本发明实施例还公开了一种大数据平台的性能检测装置,所述装置包括:
[0049] 采集模块,用于采集所述大数据平台当前运行状态下的第一类性能指标数据,获 得第一类性能指标数据序列〇;所述第一类性能指标数据序列〇是所述第一类性能指标数据 按照时间顺序排列而成的序列;
[0050] 第一计算模块,用于根据所述第一类性能指标数据序列0和隐式马尔科夫模型的 最优值λ?,计算P(0 I λ?);其中,p(〇 I λ?)为基于所述最优值λ?得到所述第一类性能指标数据 序列0的概率,所述最优值λ?是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2 是利用隐式马尔科夫模型根据第二类性能指标数据序列〇'得到的;所述第二类性能指标数 据序列〇'是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列 而成的序列;
[0051] 第一判断模块,用于判断所述p(01 λ?)是否小于预设阈值;其中,所述预设阈值为P (〇' Ιλ?)和ρ(〇' |λ2)的差值,Ρ(0' |λ?)为基于所述最优值λ?得到所述第二类性能指标数据 序列0'的概率,p(0' I λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列0'的概 率;
[0052] 确定模块,用于在所述第一判断模块判断为是的情况下,确定所述大数据平台处 于异常状态;在所述第一判断模块判断为否的情况下,确定所述大数据平台处于正常状态。 [0053]由上述的技术方案可见,本发明实施例提供一种大数据平台的性能检测方法及装 置,采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数 据序列0;根据所述第一类性能指标数据序列0和隐式马尔科夫模型的最优值λ?,计算ρ(ο|λ 1);判断所述ρ(〇|λ?)是否小于预设阈值;若为是,确定所述大数据平台处于异常状态;若为 否,确定所述大数据平台处于正常状态。
[0054] 可见,本发明实施例中,利用隐式马尔科夫模型对大数据平台进行性能检测。隐式 马尔科夫模型是一个统计模型,是基于概率分布的模型,相对于ARIMA时间序列预测模型来 说,准确率较高。因此,应用本发明实施例,提高了大数据平台性能检测的准确率。
【附图说明】
[0055] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0056] 图1为本发明实施例提供的一种大数据平台的性能检测方法的流程示意图;
[0057] 图2为本发明实施例提供的另一种大数据平台的性能检测方法的流程示意图;
[0058] 图3为本发明实施例提供的一种大数据平台的性能检测装置的结构示意图;
[0059] 图4为本发明实施例提供的另一种大数据平台的性能检测装置的结构示意图。
【具体实施方式】
[0060] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0061] 为了提高检测准确率,本发明实施例提供了一种大数据平台的性能检测方法及装 置。
[0062] 下面首先对本发明实施例所提供的一种大数据平台的性能检测方法进行介绍。
[0063] 需要说明的是,本发明实施例所提供的一种大数据平台的性能检测方法的执行主 体可以为一种大数据平台的性能检测装置。
[0064] 图1为本发明实施例提供的一种大数据平台的性能检测方法的流程示意图,该方 法可以包括如下步骤:
[0065] S101:采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类 性能指标数据序列〇;
[0066] 其中,所述第一类性能指标数据序列0是所述第一类性能指标数据按照时间顺序 排列而成的序列。
[0067] 本领域技术人员可以理解的是,性能指标数据是指CPU利用率、内存利用率、磁盘 读写率以及网络带宽等可以表示大数据平台性能状态的数据。在所述大数据平台当前运行 状态下,在不同时刻采集所述大数据平台的性能指标数据,将这些数据按照时间顺序排列, 即可获得第一类性能指标数据序列〇。其中,该第一类性能指标数据序列〇所针对的性能指 标数据可以根据实际情况设定。
[0068]在本发明的一个较佳实施例中,所述大数据平台为Hadoop集群。Hadoop集群是一 个开发和运行处理大规模数据的软件平台,是目前使用较广的一种大数据平台。
[0069] S102:根据所述第一类性能指标数据序列0和隐式马尔科夫模型的最优值λ?,计算 Ρ(〇|λ1);
[0070] 其中,P(0 I λ?)为基于所述最优值λ?得到所述第一类性能指标数据序列〇的概率, 所述最优值λ?是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马 尔科夫模型根据第二类性能指标数据序列〇'得到的;所述第二类性能指标数据序列〇'是采 集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列。
[0071] 隐式马尔科夫模型是一个统计模型,用来描述一个含有隐含未知参数的马尔可夫 过程。马尔可夫模型是马尔可夫过程的模型化,它把一个总随机过程看成一系列状态的不 断转移。马尔可夫模型的特性主要用"转移概率"来表示,后一状态出现的概率决定于其前 出现过的状态次序。隐式马尔可夫模型就是将上述的马尔可夫模型的概念扩展到一个双重 随机过程,即一个随机过程包含一个不可见从属随机过程,它只能通过另一套可以产生观 察序列的随机过程才能观察到。
[0072] 在所述大数据平台正常状态下,在不同时刻采集所述大数据平台的性能指标数 据,将这些数据按照时间顺序排列,即可获得第二类性能指标数据序列0'。利用隐式马尔科 夫模型根据第二类性能指标数据序列〇'可以得到隐式马尔科夫模型的初始值入2。
[0073] 在本发明的一个具体实施例中,所述初始值λ2可以为:基于Baum-Welch算法,利用 隐式马尔科夫模型根据所述第二类性能指标数据序列0'得到的。其中,Baum-Welch算法目 前已多有报道,本领域技术人员可以根据已有的报道知晓Baum-Welch算法的具体内容,该 算法对于本领域技术人员来说是公知的,本发明在此不进行赘述。
[0074] 当获得了初始值λ2后,即可根据隐式马尔科夫模型训练得到最优值λ?。
[0075] 在本发明的一个具体实现方式中,所述最优值λ?可以为:基于前向后向算法,由隐 式马尔科夫模型的初始值λ2训练得到的。所述前向后向算法是一种已知模型和序列求概率 的算法。具体的训练过程如下所示:
[0076] 设at(i)为向前变量,它表示t时刻满足状态i,且t时刻及t时刻之前满足第一观察 值序列(〇'1〇'2~〇\)的概率,初始值为_1(〇'1),然后通过归纳法计算^ +1(儿计算公式如 下所示:
[0077]
[0078] 其中,31康示状态i下取所有观察值的概率分布,W(T1)表示状态i下出现0'啲概 率,aij表示从状态i转移到状态j的概率。bj (0 ' t+1)表示观察值0 ' t+1在状态j中出现的概率,N 表示所述大数据平台的运行状态个数。
[0079]设0t(i)为向后变量,它表示t时刻满足状态i,且t时刻以后满足第二观察值序列 (0'*+10'*+2-_0、,)的概率,初始值枷,(1)为1,然后通过归纳法计算^(1),计算公式如下所 示:
[0080;
[0081 ]其中,Τ'表示采集所述第二类性能指标数据的时间段。
[0084] 定义变量γ t(i)表示t时刻呈现状态i的概率,使用向前变量和向后变量表示该变 量如下-
[0082] 定义变量^(1,」)为t时刻处于状态i,t+l时刻处于状态j的概率,使用向前变量和 向后变看妄τττ彳女看'f/Π下.
[0083]
[0085]
[0086] 通过上述变量,可以得到从其他所有状态转移到状态i的次数的期望值: 产(〇,从状态i转移出去的次数的期望值:Σ:1 MO,以及从状态i转移到状态j的次数
的期望1
[0087]
[0088]
[0089]
[0090] 其中,M表示每个状态的观察事件数,k'表示当前时刻的观察结果。
[0091] 通过不断迭代计算上式,直到两次计算得到的参数差值小于10-5,则停止迭代,说 明训练完成,最后一次计算得到的5、石以及&^'),即组成了隐式马尔科夫模型的最优值 入1〇
[0092] 根据SlOl获得的所述第一类性能指标数据序列0和训练得到的隐式马尔科夫模型 的最优值λ?,计算ρ(ο|λ?)。
[0093] 具体的,所沭计筧P(〇 I λ?)所利用的公式可以为:
[0094]
[0095]其中,I < i <N,N表示所述大数据平台的运行状态个数;T表示采集所述第一类性 能指标数据的时间段;aT(i)表示在隐式马尔科夫模型为最优值λ?时,T时刻满足状态i,且T 时刻及T时刻之前满足所述第一类性能指标数据序列0的概率。
[0096] S103:判断所述Ρ(0|λ1)是否小于预设阈值,如果是,触发S104,否则,触发S105;
[0097] 其中,所述预设阈值为Ρ(0' |λ1)和Ρ(〇' |λ2)的差值,Ρ(0' |λ1)为基于所述最优值λ 1得到所述第二类性能指标数据序列〇'的概率,Ρ(〇'|λ2)为基于所述初始值λ2得到所述第 二类性能指标数据序列〇'的概率。
[0098] 具体的,计算所述Ρ(0' |λ1)和所述Ρ(〇' |λ2)所利用的公式可以为:
[0099]
[0100] 其中,计算所述Ρ(0' |λ?)时,上式中的λ = λ1;计算所述ρ(0' |λ2)时,上式中的λ = λ 2;
[0101 ] I < i < Ν,Ν表示所述大数据平台的运行状态个数;I < t < Τ',Τ'表示采集所述第二 类性能指标数据的时间段;〇'= (Cr1OY^crr);
[0102] at(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满 足第一观察值序列(〇' 1〇'2-〇\)的概率;仏(1)表示在隐式马尔科夫模型为1时4时刻满足 状态i,且t时刻以后满足第二观察值序列(0 ' t+1〇 ' ?+2···0 ' r)的概率。
[0103] S104:确定所述大数据平台处于异常状态;
[0104] S105:确定所述大数据平台处于正常状态。
[0105] 由以上可见,本发明实施例中,利用隐式马尔科夫模型对大数据平台进行性能检 测。隐式马尔科夫模型是一个统计模型,是基于概率分布的模型,相对于ARIMA时间序列预 测模型来说,准确率较高。因此,应用本发明图1所示实施例,提高了大数据平台性能检测的 准确率。
[0106] 图2为本发明实施例提供的另一种大数据平台的性能检测方法的流程示意图,与 前述实施例相比,本实施例中,在确定所述大数据平台处于异常状态之后,还包括:
[0107] S106:根据所述第一类性能指标数据序列0计算性能指标数据所对应性能指标中 每两个性能指标的第一最大信息系数MIC值;
[0108] 例如,大数据平台有三个性能指标:CPU利用率、内存利用率和I0(Input/0utput, 输入输出)读写率。根据所述第一类性能指标数据序列〇分别计算CPU利用率与内存利用率 的MIC值、内存利用率和IO读写率的MIC值,以及CPU利用率和IO读写率的MIC值。
[0109] MIC值的计算方法对于本领域技术人员来说是公知的,本发明在此不进行赘述。
[0110] S107:根据所述第一 MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;
[0111] 其中,所述第二MIC值是根据所述第二类性能指标数据序列0'得到的性能指标数 据所对应性能指标中每两个性能指标的MIC值。
[0112] 在实际应用中,所述第一特征值可以由二进制数组构成,具体的,可以通过如下方 式获得:
[0113] 针对每两个性能指标,获得所述第一 MIC值和所述第二MIC值的差值;
[0114] 当上述差值大于预先设定的MIC阈值时,标记值为1;反之,标记值为0;
[0115] 将所有的标记值按照预定顺序组成一个二进制数组,该数组即为第一特征值。
[0116] 例如,大数据平台有三个性能指标:CPU利用率,内存利用率和IO读写率,设正常状 态下的第二MIC值如下:CPU利用率与内存利用率的第二MIC值为0.821,CPU利用率和IO读写 率的第二MIC值为0.834,内存利用率和IO读写率的第二MIC值为0.745;当前状态下的第一 MIC值如下:CPU利用率与内存利用率的第一MIC值为0.521,CPU利用率和IO读写率的第一 MIC值为0.655,内存利用率和IO读写率的第一MIC值为0.733,预先设定的MIC阈值为0.15, 则第一特征值为(1,1,〇)。
[0117] S108:根据所述第一特征值和第二特征值,判断异常原因;
[0118] 其中,所述第二特征值是根据所述第二MIC值、第三MIC值和所述预先设定的MIC阈 值得到的,所述第三MIC值是根据第三类性能指标数据序列得到的性能指标数据所对应性 能指标中每两个性能指标的MIC值;所述第三类性能指标数据序列是采集的所述大数据平 台在预先设定的异常运行状态下的第三类性能指标数据按照时间顺序排列而成的序列。
[0119] 在实际应用中,与所述第一特征值相对应,所述第二特征值也可以由二进制数组 构成,具体的,可以通过如下方式获得:
[0120]针对每两个性能指标,获得所述第二MIC值和所述第三MIC值的差值;
[0121] 当上述差值大于预先设定的MIC阈值时,标记值为1;反之,标记值为0;
[0122] 将所有的标记值按照预定顺序组成一个二进制数组,该数组即为第二特征值。
[0123] 例如,大数据平台有三个性能指标:CPU利用率,内存利用率和IO读写率,设正常状 态下的第二MIC值如下:CPU利用率与内存利用率的第二MIC值为0.821,CPU利用率和IO读写 率的第二MIC值为0.834,内存利用率和IO读写率的第二MIC值为0.745;在预先设定的CPU异 常状态下,采集第三类性能指标数据,按照时间顺序排列而成,得到第三类性能指标数据序 列,然后计算得到第三MIC值如下:CPU利用率与内存利用率的第三MIC值为0.515,CPU利用 率和IO读写率的第三MIC值为0.623,内存利用率和IO读写率的第三MIC值为0.721,预先设 定的MIC阈值为0.15,则第二特征值为(1,1,0),对应的异常原因为CPU异常。
[0124] 本领域技术人员可以理解的是,在预先设定不同的异常运行状态下,可以得到不 同的第二特征值,每个第二特征值对应一个异常原因。
[0125] 根据S106获得的第一特征值,在所有的第二特征值中进行查找,查找到与第一特 征值匹配的第二特征值后,该第二特征值对应的异常原因即为所述大数据平台的异常原 因。
[0126] 例如,上述S106获得的第一特征值为(I,1,0),第二特征值(I,1,0)对应的异常原 因是CHJ异常,那么由此可以判断大数据平台的异常原因是CPU异常。
[0127] 由以上可见,应用图2所示实施例,不仅提高了大数据平台的性能检测准确率,而 且在确定所述大数据平台处于异常状态之后,还可以判断出具体的异常原因,以便解决大 数据平台的性能问题。
[0128] 相应于上述方法实施例,本发明实施例还提供了一种大数据平台的性能检测装 置。图3为本发明实施例提供的一种大数据平台的性能检测装置的结构示意图,与图1所示 的流程相对应,包括采集模块301、第一计算模块302、第一判断模块303、确定模块304;
[0129]其中,所述采集模块301,用于采集所述大数据平台当前运行状态下的第一类性能 指标数据,获得第一类性能指标数据序列〇;所述第一类性能指标数据序列〇是所述第一类 性能指标数据按照时间顺序排列而成的序列;
[0130]所述第一计算模块302,用于根据所述第一类性能指标数据序列0和隐式马尔科夫 模型的最优值λ?,计算P(0 I λ?);其中,p(〇 I λ?)为基于所述最优值λ?得到所述第一类性能指 标数据序列0的概率,所述最优值λ?是由隐式马尔科夫模型的初始值λ2训练得到的,所述初 始值λ2是利用隐式马尔科夫模型根据第二类性能指标数据序列0'得到的;所述第二类性能 指标数据序列〇'是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺 序排列而成的序列;
[0131]所述第一判断模块303,用于判断所述Ρ(0|λ1)是否小于预设阈值;其中,所述预设 阈值为ρ(0' |λ?)和ρ(0' |λ2)的差值,Ρ(0' Ιλ?)为基于所述最优值λ?得到所述第二类性能指 标数据序列0'的概率,Ρ(〇' |λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列0' 的概率;
[0132] 所述确定模块304,用于在所述第一判断模块303判断为是的情况下,确定所述大 数据平台处于异常状态;在所述第一判断模块303判断为否的情况下,确定所述大数据平台 处于正常状态。
[0133] 由以上可见,本发明实施例中,利用隐式马尔科夫模型对大数据平台进行性能检 测。隐式马尔科夫模型是一个统计模型,是基于概率分布的模型,相对于ARIMA时间序列预 测模型来说,准确率较高。因此,应用本发明图3所示实施例,提高了大数据平台性能检测的 准确率。
[0134] 具体的,所述第一计算模块302计算Ρ(0|λ1)所利用的公式为:
[0135]
[0136] 其中,I < i <Ν,Ν表示所述大数据平台的运行状态个数;T表示采集所述第一类性 能指标数据的时间段;aT(i)表示在隐式马尔科夫模型为最优值λ?时,T时刻满足状态i,且T 时刻及T时刻之前满足所述第一类性能指标数据序列0的概率。
[0137] 具体的,计算所述Ρ(0' |λ1)和所述Ρ(〇' |λ2)所利用的公式为:
[0138]
[0139] 其中,计算所述Ρ(0' |λ1)时,上式中的λ = λ1;计算所述Ρ(〇' |λ2)时,上式中的λ = λ 2;
[0140] I < i < Ν,Ν表示所述大数据平台的运行状态个数;I < t < Τ',Τ'表示采集所述第二 类性能指标数据的时间段;〇'= (Cr1OY^crr);
[0141] at(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满 足第一观察值序列(〇' 1〇'2-〇\)的概率;仏(1)表示在隐式马尔科夫模型为1时4时刻满足 状态i,且t时刻以后满足第二观察值序列(0 ' t+1〇 ' ?+2···0 ' r)的概率。
[0142] 具体的,所述最优值λ?为:基于前向后向算法,由隐式马尔科夫模型的初始值λ2训 练得到的。
[0143] 具体的,所述初始值λ2为:基于Baum-Welch算法,利用隐式马尔科夫模型根据所述 第二类性能指标数据序列〇'得到的。
[0144] 更进一步的,基于图3所述的装置实施例,如图4所示,本发明实施例所提供的一种 大数据平台的性能检测装置,还可以包括:第二计算模块305、获得模块306、第二判断模块 307;
[0145] 其中,所述第二计算模块305,用于在确定模块304确定所述大数据平台处于异常 状态之后,根据所述第一类性能指标数据序列0计算性能指标数据所对应性能指标中每两 个性能指标的第一最大信息系数MIC值;
[0146] 所述获得模块306,用于根据所述第一 MIC值、第二MIC值和预先设定的MIC阈值,得 到第一特征值;所述第二MIC值是根据所述第二类性能指标数据序列0 '得到的性能指标数 据所对应性能指标中每两个性能指标的MIC值;
[0147] 所述第二判断模块307,用于根据所述第一特征值和第二特征值,判断异常原因; 所述第二特征值是根据所述第二MIC值、第三MIC值和所述预先设定的MIC阈值得到的,所述 第三MIC值是根据第三类性能指标数据序列得到的性能指标数据所对应性能指标中每两个 性能指标的MIC值;所述第三类性能指标数据序列是采集的所述大数据平台在预先设定的 异常运行状态下的第三类性能指标数据按照时间顺序排列而成的序列。
[0148] 具体的,在实际应用中,所述大数据平台可以为Hadoop集群。
[0149] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0150] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实 施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例 的部分说明即可。
[0151] 本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中, 这里所称得的存储介质,如:R0M/RAM、磁碟、光盘等。
[0152] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围 内。
【主权项】
1. 一种大数据平台的性能检测方法,其特征在于,所述方法包括步骤: 采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数 据序列0;所述第一类性能指标数据序列0是所述第一类性能指标数据按照时间顺序排列而 成的序列; 根据所述第一类性能指标数据序列0和隐式马尔科夫模型的最优值λ?,计算p(01 λ?); 其中,Ρ(0|λ?)为基于所述最优值λ?得到所述第一类性能指标数据序列ο的概率,所述最优 值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫模 型根据第二类性能指标数据序列0'得到的;所述第二类性能指标数据序列0'是采集的所述 大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列; 判断所述Ρ(〇|λ1)是否小于预设阔值;若为是,确定所述大数据平台处于异常状态;若 为否,确定所述大数据平台处于正常状态;其中,所述预设阔值为Ρ(〇' |λ1)和Ρ(0' |λ2)的差 值,Ρ(0'|λ?)为基于所述最优值λ?得到所述第二类性能指标数据序列0'的概率,ρ(〇' |λ2) 为基于所述初始值λ2得到所述第二类性能指标数据序列0'的概率。2. 根据权利要求1所述的方法,其特征在于,所述计算Ρ(01 λ1)所利用的公式为:其中,1含i含Ν,Ν表示所述大数据平台的运行状态个数;Τ表示采集所述第一类性能指 标数据的时间段;ατ(υ表示在隐式马尔科夫模型为最优值λ1时,Τ时刻满足状态i,且Τ时刻 及T时刻之前满足所述第一类性能指标数据序列0的概率。3. 根据权利要求1所述的方法,其特征在于,计算所述P(0' |λ1)和所述P(〇' |λ2)所利用 的公式为:其中,计算所述P(〇'|M)时,上式中的λ = λ1;计算所述Ρ(〇' |λ2)时,上式中的λ = λ2; 1. i含Ν,Ν表示所述大数据平台的运行状态个数;1含t含Τ',Τ'表示采集所述第二类性 能指标数据的时间段;〇'=(〇'ι〇'2···0'τ,); at(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满足第一 观察值序列(0'l0'2…0't)的概率;βt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i, 且t时刻W后满足第二观察值序列(0' t+iO'*+2···0'τ')的概率。4. 根据权利要求1所述的方法,其特征在于,所述最优值λ1为:基于前向后向算法,由隐 式马尔科夫模型的初始值λ2训练得到的。5. 根据权利要求1所述的方法,其特征在于,所述初始值λ2为:基于Baum-Welch算法,利 用隐式马尔科夫模型根据所述第二类性能指标数据序列0'得到的。6. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 在确定所述大数据平台处于异常状态之后,根据所述第一类性能指标数据序列的十算 性能指标数据所对应性能指标中每两个性能指标的第一最大信息系数MIC值; 根据所述第一 MIC值、第二MIC值和预先设定的MIC阔值,得到第一特征值;所述第二MIC 值是根据所述第二类性能指标数据序列0'得到的性能指标数据所对应性能指标中每两个 性能指标的MIC值; 根据所述第一特征值和第二特征值,判断异常原因;所述第二特征值是根据所述第二 MIC值、第ΞΜΚ值和所述预先设定的MIC阔值得到的,所述第ΞΜΚ值是根据第Ξ类性能指 标数据序列得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;所述第Ξ类 性能指标数据序列是采集的所述大数据平台在预先设定的异常运行状态下的第Ξ类性能 指标数据按照时间顺序排列而成的序列。7. 根据权利要求1所述的方法,其特征在于,所述大数据平台为化doop集群。8. -种大数据平台的性能检测装置,其特征在于,所述装置包括: 采集模块,用于采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第 一类性能指标数据序列0;所述第一类性能指标数据序列0是所述第一类性能指标数据按照 时间顺序排列而成的序列; 第一计算模块,用于根据所述第一类性能指标数据序列0和隐式马尔科夫模型的最优 值λ1,计算P(0 I λ?);其中,p(〇 I λ?)为基于所述最优值λ?得到所述第一类性能指标数据序列 0的概率,所述最优值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利 用隐式马尔科夫模型根据第二类性能指标数据序列0'得到的;所述第二类性能指标数据序 列0'是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成 的序列; 第一判断模块,用于判断所述Ρ(〇|λ?)是否小于预设阔值;其中,所述预设阔值为ρ(0' 入1)和Ρ(0' |λ2)的差值,Ρ(0' |λ?)为基于所述最优值λ1得到所述第二类性能指标数据序列 0'的概率,ρ(0'|λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列0'的概率; 确定模块,用于在所述第一判断模块判断为是的情况下,确定所述大数据平台处于异 常状态;在所述第一判断模块判断为否的情况下,确定所述大数据平台处于正常状态。
【文档编号】G06F11/34GK105843733SQ201610154556
【公开日】2016年8月10日
【申请日】2016年3月17日
【发明人】王颖, 邱雪松, 李佳聪, 郭少勇
【申请人】北京邮电大学