专利名称:一种网络设备性能监控方法及网络管理系统的制作方法
技术领域:
本发明涉及通信领域的网络管理技术,尤其涉及一种网络设备性能监控方法及网络管理系统。
背景技术:
在电信业蓬勃发展的历程中,业务支撑系统在客户服务、业务开通、服务保障、计费与账务、预测与规划等方面发挥了越来越重要的作用,随着市场发展的需要,新业务的不断推出,业务支撑系统伴随着公司的成长也在不断进行自我超越,而支撑着系统正常运行的基本节点就是主机,主机的安全问题也日益严峻。传统的主机性能监控方式都是采用监控主机运行的KPI (KPI全称为KeyPerformance Indicator,即关键性能指标,如CPU使用率、内存使用率、IO吞吐量、硬盘使用率、数据库等的使用情况的指标)设定门限值,当系统监控到KPI指标超过门限值时,发出主动预警,该方法的优点在于简便易行。从长期的运维实践中看,现有技术有其明显的局限性,主要体现在以下几个方面:(I)传统的基于门限值的监控方式没有考虑到系统KPI指标的变化趋势,在系统运行过程当中,如果发生KPI指标突变,但还没有达到设定门限值的时候,不会产生告警,而此时实际上已经需要引起系统维护人员的关注,需要采取主动式的干预措施防止系统KPI指标进一步上涨。(2)传统的基于门限值的监控方式都是采用的被动式监控,在发生了状况后才进行报警,这个时候可能已经影响到系统的正常运行,不能起到主动式预防性监控的目的。总之,传统的主机性能监控方式采用的是基于门限值的监控方式,一旦在系统KPI指标超过门限值时,往往已经是系统超负荷运转状态。此时告警,对于客户来说,处理起来难度大,系统运行风险也比较高。
发明内容
本发明实施例提供了一种网络设备性能监控方法及网络管理系统,用以实现根据KPI性能指标历史数据进行预警。本发明实施例提供的网络设备性能监控方法,包括:网络管理系统周期采集网络设备的KPI性能指标数据;所述网络管理系统将采集到的KPI性能指标数据按照设定的时间窗口进行汇总,得到各时间窗口的KPI性能指标数据汇总值;所述网络管理系统利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据;所述网络管理系统判断所述未来N个时间窗口的KPI性能指标数据是否超过设定告警阈值,并在判断为是时发出告警。本发明实施例提供的网络设备性能监控装置,包括:采集模块,用于周期采集网络设备的KPI性能指标数据;汇总模块,用于将采集到的KPI性能指标数据按照设定的时间窗口进行汇总,得到各时间窗口的KPI性能指标数据汇总值;预测模块,用于利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据;告警模块,用于判断预所述未来N个时间窗口的KPI性能指标数据是否超过设定告警阈值,并在判断为是时发出告警。本发明的上述实施例,通过将采集到的KPI性能指标数据按照设定的时间窗口进行汇总,并利用线性回归算法模型,根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据,从而利用历史KPI性能指标数据对未来KPI性能指标数据进行预测,并根据预测情况进行告警,从而在实际发生问题之前发出预警,以便实现对系统进行预分析处理。
图1为本发明实施例提供的网络设备性能监控流程示意图;图2和图3分别为本发明实施例中的中长期KPI性能指标数据预测示意图;图4和图5分别为本发明实施例中的长期KPI性能指标数据预测示意图;图6为本发明实施例提供的网络管理系统的结构示意图。
具体实施例方式针对现有技术存在的问题,本发明实施例根据监控到的KPI性能指标数据,预测未来一段时间内系统资源的使用情况,并根据预测情况进行主动式监控和告警,从而在实际发生问题之前发出预警,以便实现对系统进行预分析处理。这里所说的KPI性能指标数据可包括CPU使用率、内存使用率、网络吞吐量等能够表征网络设备或业务系统性能的各种参数之一或任意组合。下面结合附图对本发明实施例进行详细描述。参见图1,为本发明实施例提供的网络设备性能监控流程示意图,该流程可由网络管理系统实现,该流程可包括:步骤101,周期采集网络设备的KPI性能指标数据。具体实施时,可从传统监控系统中采集各种KPI性能指标数据。步骤102,将采集到的KPI性能指标数据按照设定的时间窗口进行汇总,得到各时间窗口的KPI性能指标数据汇总值。具体实施时,可将一个时间窗口内采集到的KPI性能指标数据峰值作为该时间窗口的KPI性能指标数据汇总值。在一个时间窗口内包含有多个数据统计周期的情况下,将一个时间窗口内各个数据统计周期内所采集到的KPI性能指标数据峰值进行平均,再将各个数据采集周期的KPI性能指标数据峰值的平均值,作为该时间窗口的KPI性能指标数据汇总值。步骤103,利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据。这里的N个时间窗口是指连续的N个时间窗口。步骤104,输出预测出的未来N个时间窗口的KPI性能指标数据。进一步的,上述流程还包括:步骤105,判断未来N个时间窗口的KPI性能指标数据是否满足告警条件,并在判断为是时发出告警。该步骤与步骤104没有严格的时序要求。具体实施时,如果步骤101中采集到的KPI性能指标数据包括多种类型,如包括CPU使用率和内存使用率,则此步骤中,需要根据CPU使用率的告警条件对未来N个时间窗口的CPU使用率是否需要告警进行判断,根据内存使用率的告警条件对未来N个时间窗口的内存使用率是否需要告警进行判断,并根据判断结果进行告警。其中,根据告警条件决定是否告警,可以有以下几种实现方式:方式1:如果未来N个时间窗口的KPI性能指标数据中有数据超过该KPI性能指标的阈值(该阈值为预设的固定值),则发出告警;方式2:判断方法同方式1,但其中的KPI性能指标的阈值是根据未来N个时间窗口的KPI性能指标数据,以及当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率,在预先设定的阈值基础上动态调整得到的;方式3:如果未来N个时间窗口的KPI性能指标数据中有数据超过该KPI性能指标阈值(该阈值可以预先设置的,也可以是如方式2动态调整得到的),并且线性回归算法模型斜率满足设定条件,则发出告警。方式4:将上述方式结合使用。根据时间窗口设置的长短,本发明实施例可实现近实时预前监控告警、中长期预前监控告警以及长期预前监控告警。近实况预前监控告警的预测周期较短,可以及时预测网络设备的性能情况,以便尽早发现问题。其时间窗口长度可以设置在10至20分钟之间,例如10分钟、15分钟或20分钟,最佳为15分钟,也可根据不同类型的KPI设置对应的时间窗口长度。该10至20分钟的时间窗口长度是从长期运维工作中得到的经验值,并且反复测试得出的对预测结果效果最好的时间窗口值。近实况预前监控流程中,在统计当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值时,可将其中每个时间窗口内采集到的KPI性能指标数据峰值作为相应时间窗口的KPI性能指标数据汇总值。在预测未来N个时间窗口的KPI性能指标数据时,可根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,将时间窗口序号作为自变量,将KPI性能指标数据汇总值作为因变量,得到一元线性回归方程;然后再根据该方程预测未来N个时间窗口的KPI性能指标数据。在判断未来N个时间窗口的KPI性能指标数据是否满足相应KPI性能指标的告警条件时,所依据的KPI性能指标阈值可以根据未来N个时间窗口的KPI性能指标数据,以及当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率,对预先设置的KPI性能指标阈值进行调整得到。KPI预警的判定通常需要考虑阈值和斜率,比如可设置如下告警规则:(VALUE > 90) OR (VALUE > 80AND SLOPE > 0.5)这个规则的意思是:预测值超过90% (阈值I),或者预测值超过80% (阈值2)且趋势斜率大于0.5,就会发出告警。进一步的,这几个值的取值可以在使用过程中不断调整和优化,主要根据以下几点原则:(I)如果在原有监控系统中产生了监控告警,而在本预警系统中没有提前产生预警,则需要分析在产生告警前的KPI数据情况,适当降低绝对阈值,或降低斜率阈值。(2)如果产生了大量的预警,而大部分都属于误报,则需要调高绝对阈值或调高斜率阈值。(3)比较理想的情况是,原有监控系统80%的监控告警在产生之前的1-2个小时内,本系统会有预警,同时预警的准确率应达到70%以上。中长期预前监控告警的预测周期适中,可以及时预测网络设备的性能情况且又不至于象近实况预前监控那样过于频繁的进行预测和告警。其时间窗口长度可以设置在I天或几天,例如I天、2天或5天,最佳为I天,也可根据不同类型的KPI设置对应的时间窗口长度。该I天的时间窗口长度是从长期运维工作中得到的经验值,并且反复测试得出的对预测结果效果最好的时间窗口值。中长期预前监控流程中,在统计当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值时,可将一个时间窗口内各个数据统计周期内所采集到的KPI性能指标数据峰值进行平均,再将各个数据采集周期的KPI性能指标数据峰值的平均值,作为该时间窗口的KPI性能指标数据汇总值。在预测未来N个时间窗口的KPI性能指标数据时,可在当前时间窗口之前的N个时间窗口中,用每个时间窗口的KPI性能指标数据汇总值减去其前一个时间窗口的KPI性能指标数据汇总值,得到包含有N-1个增量值的数组;利用线性回归算法模型,并根据该数组,计算得到该N-1个增量值的线性回归算法模型斜率(即以数组中的元素序号作为因变量,将对应的元素值作为自变量,得到一元线性回归方程中的);利用该线性回归算法模型,并根据该斜率分别计算得到包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据与前一个时间窗口相比的增量值;根据未来N个时间窗口中的每一个时间窗口的KPI性能指标数据的增量值,及其前一个时间窗口的KPI性能指标数据预测值,得到未来N个时间窗口中的每个时间窗口的KPI性能指标数据预测值;其中,该未来N个时间窗口中的第一个时间窗口的KPI性能指标数据预测值为对应的增量值与其前一个时间窗口的KPI性能指标数据汇总值之和。在判断未来N个时间窗口的KPI性能指标数据是否满足相应KPI性能指标的告警条件时,如果增量斜率大于O (表明上升趋势很陡峭),则会产生告警或者以标记方式对预测数据进行标注,以期引起网络管理员的注意。长期预前监控告警的预测周期较长,可以预测未来较长一段时间的网络设备的性能情况,以便根据KPI变化趋势采用相应的处理策略。其时间窗口长度可以设置为一个月或几个月,最佳为I个月,当然可根据不同类型的KPI设置对应的时间窗口长度。该I个月的时间窗口长度是从长期运维工作中得到的经验值,并且反复测试得出的对预测结果效果最好的时间窗口值。长期预前监控流程中,在统计当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值时,可将一个时间窗口内各个数据统计周期内所采集到的KPI性能指标数据峰值进行平均,再将各个数据采集周期的KPI性能指标数据峰值的平均值,作为该时间窗口的KPI性能指标数据汇总值。在预测未来N个时间窗口的KPI性能指标数据时,可根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,将时间窗口序号作为自变量,将KPI性能指标数据汇总值作为因变量,得到一元线性回归方程;然后再根据该方程预测未来N个时间窗口的KPI性能指标数据。对于长期预前监控,可以不设置告警机制。因为长期预前监控主要是用于查看长期性能走势,可作为容量分析的参考,比如=CPU长期处于高位,且有缓慢上升趋势,是否考虑硬件扩容。下面分别结合具体实例,说明近实况近实时预前监控告警、中长期预前监控告警以及长期预前监控告警的实现流程。实例一:近实时预前监控告警
以监控网络设备的CPU使用率、时间窗口长度为15分钟为例,其近实况预前监控告警流程可包括:每5至15分钟从传统监控系统中采集一次数据,例如每5分钟、10分钟或15分钟采集一次。每个时间窗口为15分钟,这样每个时间窗口内可以采集到一个网络设备的一个或多个CPU使用率,将每个时间窗口内所采集到的CPU使用率的最大值作为该时间窗口的CPU使用率汇总值。然后从当前时间窗口开始向前取8个时间窗口,即取前2个小时的CPU使用率,该8个时间窗口的CPU使用率汇总值可如表I所示。表I
权利要求
1.一种网络设备性能监控方法,其特征在于,包括: 网络管理系统周期采集网络设备的KPI性能指标数据; 所述网络管理系统将采集到的KPI性能指标数据按照设定的时间窗口进行汇总,得到各时间窗口的KPI性能指标数据汇总值; 所述网络管理系统利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据; 所述网络管理系统判断所述未来N个时间窗口的KPI性能指标数据是否超过设定告警阈值,并在判断为是时发出告警。
2.如权利要求1所述的方法,其特征在于,所述各时间窗口的KPI性能指标数据汇总值,为各时间窗口内采集到的KPI性能指标数据峰值;或者 所述各时间窗口的KPI性能指标数据汇总值,为各时间窗口内的各采集周期采集到的KPI性能指标数据峰值的平均值,所述采集周期的长度小于所述时间窗口的长度。
3.如权利要求1所述的方法,其特征在于,所述利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据,包括: 利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,计算得到该N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率; 利用所述线性回归算法模型,并根据该斜率分别计算得到包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据的预测值。
4.如权利要求1所述的方法,其特征在于,所述利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据,包括: 在当前时间窗口之前的N个时间窗口中,用每个时间窗口的KPI性能指标数据汇总值减去其前一个时间窗口的KPI性能指标数据汇总值,得到包含有N-1个增量值的数组; 利用线性回归算法模型,并根据该数组,计算得到该N-1个增量值的线性回归算法模型斜率; 利用所述线性回归算法模型,并根据该斜率分别计算得到包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据与前一个时间窗口相比的增量值; 根据所述未来N个时间窗口中的每一个时间窗口的KPI性能指标数据的增量值,及其前一个时间窗口的KPI性能指标数据预测值,得到所述未来N个时间窗口中的每个时间窗口的KPI性能指标数据预测值;其中,该未来N个时间窗口中的第一个时间窗口的KPI性能指标数据预测值为对应的增量值与其前一个时间窗口的KPI性能指标数据汇总值之和。
5.如权利要求1所述的方法,其特征在于,在以下情况之一时,所述网络管理系统判断未来N个时间窗口的KPI性能指标数据超过设定告警阈值: 所述未来N个时间窗口的KPI性能指标数据超过该KPI性能指标阈值; 所述当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率大于设定阈值;所述当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率大于设定阈值,且所述未来N个时间窗口的KPI性能指标数据超过该KPI性能指标阈值。
6.如权利要求5所述的方法,其特征在于,所述KPI性能指标阈值是根据所述未来N个时间窗口的KPI性能指标数据,以及当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率,在预先设置的KPI性能指标阈值基础上调整得到的。
7.如权利要求1-6之一所述的方法,其特征在于,所述时间窗口的长度以分钟为单位;或者 所述时间窗口的长度以天为单位;或者 所述时间窗口的长度以月为单位。
8.如权利要求 1-6之一所述的方法,其特征在于,所述KPI性能指标数据包括以下之一或任意组合=CPU使用率、内存使用率和网络吞吐量。
9.一种网络管理系统,其特征在于,包括: 采集模块,用于周期采集网络设备的KPI性能指标数据; 汇总模块,用于将采集到的KPI性能指标数据按照设定的时间窗口进行汇总,得到各时间窗口的KPI性能指标数据汇总值; 预测模块,用于利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据; 告警模块,用于判断预所述未来N个时间窗口的KPI性能指标数据是否超过设定告警阈值,并在判断为是时发出告警。
10.如权利要求9所述的网络管理系统,其特征在于,所述汇总模块汇总得到的所述各时间窗口的KPI性能指标数据汇总值,为各时间窗口内采集到的KPI性能指标数据峰值,或者为各时间窗口内的各采集周期采集到的KPI性能指标数据峰值的平均值,所述采集周期的长度小于所述时间窗口的长度。
11.如权利要求9所述的网络管理系统,其特征在于,所述预测模块具体用于,利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,计算得到该N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率;利用所述线性回归算法模型,并根据该斜率分别计算得到包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据的预测值。
12.如权利要求9所述的网络管理系统,其特征在于,所述预测模块具体用于,在当前时间窗口之前的N个时间窗口中,用每个时间窗口的KPI性能指标数据汇总值减去其前一个时间窗口的KPI性能指标数据汇总值,得到包含有N-1个增量值的数组;利用线性回归算法模型,并根据该数组,计算得到该N-1个增量值的线性回归算法模型斜率;利用所述线性回归算法模型,并根据该斜率分别计算得到包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据与前一个时间窗口相比的增量值;根据所述未来N个时间窗口中的每一个时间窗口的KPI性能指标数据的增量值,及其前一个时间窗口的KPI性能指标数据预测值,得到所述未来N个时间窗口中的每个时间窗口的KPI性能指标数据预测值;其中,该未来N个时间窗口中的第一个时间窗口的KPI性能指标数据预测值为对应的增量值与其前一个时间窗口的KPI性能指标数据汇总值之和。
13.如权利要求12所述的网络管理系统,其特征在于,所述告警模块具体用于,若所述未来N个时间窗口的KPI性能指标数据超过该KPI性能指标阈值,则发出告警;若所述当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率大于设定阈值,则发出告警;若所述当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率大于设定阈值,且所述未来N个时间窗口的KPI性能指标数据超过该KPI性能指标阈值,则发出告警。
14.如权利要求13所述的网络管理系统,其特征在于,所述KPI性能指标阈值是根据所述未来N个时间窗口的KPI性能指标数据,以及当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值的线性回归算法模型斜率,在预先设置的KPI性能指标阈值基础上调整得到的。
15.如权利要求9-14之一所述的网络管理系统,其特征在于,所述时间窗口的长度以分钟为单位;或者 所述时间窗口的长度以天为单位;或者 所述时间窗口的长度以月为单位。
16.如权利要求9-14之一所述的网络管理系统,其特征在于,所述KPI性能指标数据包括以下之一或任意组 合:CPU使用率、内存使用率和网络吞吐量。
全文摘要
本发明公开了一种网络设备性能监控方法及网络管理系统,该方法包括网络管理系统周期采集网络设备的KPI性能指标数据;将采集到的KPI性能指标数据按照设定的时间窗口进行汇总,得到各时间窗口的KPI性能指标数据汇总值;利用线性回归算法模型,并根据当前时间窗口之前的N个时间窗口的KPI性能指标数据汇总值,预测包括当前时间窗口在内的未来N个时间窗口的KPI性能指标数据;判断所述未来N个时间窗口的KPI性能指标数据是否超过设定告警阈值,并在判断为是时发出告警。本发明可实现根据KPI性能指标历史数据进行预警。
文档编号H04L12/24GK103178990SQ201110430349
公开日2013年6月26日 申请日期2011年12月20日 优先权日2011年12月20日
发明者单建业, 刘武升, 王明昭, 石国章, 刘涛, 赵浩然, 邓小红 申请人:中国移动通信集团青海有限公司, 中国移动通信集团公司