网管系统中告警风暴的抑制方法和装置的制作方法

文档序号:7916171阅读:307来源:国知局
专利名称:网管系统中告警风暴的抑制方法和装置的制作方法
技术领域
本发明涉及通信领域,具体而言,涉及一种网管系统中告警风 暴的抑制方法和装置。
背景技术
现场环境中,可能由于设备故障或者其他异常原因,导致短时 间内大量告警上报。由于告警上报的频率过快,导致网管系统除了 告警处理,不能正常提供其他的操作维护功能,以至于影响到网管 系统的可用性,陷于瘫痪,这就是告警风暴。告警风暴抑制就是为 了检测出这种异常情况,并且对告警风暴情况下的告警进行丟弃或 者其他处理,从而保证网管系统的可用性。
由于告警风暴可能因为各种故障或者异常原因而发生,现有技 术中的网管系统为了抑制告警风暴,针对各种原因的告警风暴开发 了专门的处理程序。这种告警风暴抑制处理不统一的情况导致代码 的复用性和可维护性大大降低。

发明内容
本发明旨在提供一种网管系统中告警风暴的抑制方法和装置, 以解决上述告警风暴抑制处理不统一导致的问题。
在本发明的实施例中,提供了 一种网管系统中告警风暴的抑制
方法,包括以下步骤确定告警风暴的判断标的;判断告警是否为同一标的;如果不是,则对标的执行计数判断策略;如果是,则对 标的执行对数判断策略;依据判断结果通知是否发生告警风暴。
优选的,确定监控告警风暴的标的具体包括确定关于特定的 设备或特定类型的设备的告警为标的。
优选的,确定关于特定的设备或特定类型的设备的告警为标的 具体包括设置标的包括发生告警的设备的标识、告警在设备中所 发生的位置和报警的告警码。
优选的,判断告警是否为同一标的具体包括告警具有相同的 设备标识、位置和告警码,则是同一标的。
优选的,计数判断策略是判断预定时间间隔内发生的告警的次 数达到预定值时,确认发生告警风暴。
优选的,对标的执行计数判断策略具体包括判断告警是否是 标的的第一条告警;如果是,启动定时器,开始计数;如果不是, 则取出存储的标的的信息,检查是否已经在告警风暴状态;如果是, 则确认告警为告警风暴;否则对告警计数递增,并且判断是否超过 了预定值;如果超过了,则存储标的的信息为进入了告警风暴状态。
优选的,对数判断策略是判断预定时间间隔内发生的同 一告警 及其恢复的对数达到预定值时,确认发生告警风暴。
优选的,对标的执行对数判断策略具体包括判断告警是否是 标的的第一条告警;如果是,启动定时器,开始计数;如果不是, 则取出存储的标的的信息,检查是否已经在告警风暴状态;如果是, 则确认告警为告警风暴;否则取出存储的标的的前次的告警类型, 如果前次的告警类型是告警,此次告警的告警类型是告警恢复,则 修改存储的前次告警类型;如果前次的告警类型是告警恢复,此次告警的告警类型是告警,则对告警的对数递增,修改存储的前次告
警类型,并且判断是否超过了预定值;如果超过了,则存储标的的 信息为进入了告警风暴状态。
优选的,依据判断结果通知是否发生告警风暴具体包括如果 确认进入了告警风暴状态,则通知进入告警风暴状态;当定时器超 时后,对进入了告警风暴状态的的通知退出告警风暴状态,并且清 除标的的存储信息;对判断为告警风暴的告警进行确认通知。
在本发明的实施例中,还提供了 一种网管系统中告警风暴的抑 制装置,包括标的模块,用于确定告警风暴的判断标的;判断模 块,用于判断告警是否为同一标的;执行模块,用于如果不是,则 对标的执行计数判断策略;如果是,则对标的执行对数判断策略; 通知模块,用于依据判断结果通知是否发生告警风暴。
上述实施例的抑制方法和装置因为对所有可能的告警情况进行 了统一地分类标识处理,所以克H了解决上述告警风暴抑制处理不 统一导致的问题,进而提高了告警风暴抑制处理程序代码的复用性 和可维护性。


此处所说明的附图用来4是供对本发明的进一步理解,构成本申 请的一部分,本发明的示意性实施例及其说明用于解释本发明,并 不构成对本发明的不当限定。在附图中
图1示出了根据本发明实施例的告警风暴抑制方法的流程图2示出了根据本发明优选实施例的计数判断策略判断告警风 暴的流程图;图3示出了根据本发明优选实施例的对数判断策略判断告警风 暴的流程图4示出了才艮据本发明优选实施例的告警风暴超时处理的流程
图5示出了根据本发明实施例的告警风暴抑制装置的方框图。
具体实施例方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的告警风暴抑制方法的流程图, 包4舌以下步艰纟
步骤SIO,确定告警风暴的判断标的;
步骤S20,判断告警是否为同一标的,以选择告警风暴判断策
略;
步骤S30,如果不是,则对标的执行计数判断策略;步骤S40, 如果是,则对标的4丸行对数判断策略;
步骤S50,依据判断结果通知是否发生告警风暴。
该抑制方法因为对所有可能的告警情况进行了统一地分类标识 处理,所以克力良了解决上述告警风暴抑制处理不统一导致的问题, 进而提高了告警风暴抑制处理程序代码的复用性和可维护性。
上述实施例将各种各样的告警风暴分为两种情况1. 某个网元,短时间内频繁上报和恢复同一条告警,也即我们
通常说的告警振荡(执行步骤S40进行抑制)。
2. 设备故障或者某种原因的异常情况下, 一段时间内不正常数 量的告警产生冲击网管系统,导致网管系统的不可用(执行 步骤S30进4亍抑制)。
优选的,步骤S20具体包括告警具有相同的i殳备标识、位置 和告警码,则是同一标的。
在告警来临时,确定设备告警风暴的判断标的。判断任何告警 是否为告警风暴都需要在一个标的物上判断,这个标的物可以看作 是分类,判断告警风暴是否发生,需要对属于这个分类的告警进行 定时和计数管理等。这个标的物可以是一个特定的现场设备, 一种 特定的设备类型等任何可以对告警进行归类的分类,针对某个特定 告警的告警振荡的告警风暴标的就是特定设备加上特定位置再加上 特定告警码。
优选的,计数判断策略是判断预定时间间隔内发生的告警的次 数达到预定值时,确认发生告警风暴。
优选的,对数判断策略是判断预定时间间隔内发生的同 一告警 及其恢复的对数达到预定值时,确认发生告警风暴。
确定告警风暴判断策略, 一共有两种, 一种是时间间隔内告警 计数判断,需要两个参数,告警风暴产生判断时间间隔(简称SI), 和这个时间间隔内在不影响网管系统可用性的前提下能够处理的告 警数目上限(简称CL),超过该上限的告警将被抛弃,这种判断策略 简称计数判断策略; 一种是时间间隔内告警对数判断,也称为告警 振荡判断,需要两个参数,告警振荡判断时间间隔(简称JI),同一 条告警(可以看作同一个设备同一个告警码同一个位置作为告警风暴标的)在这个时间内允许上报网管系统的对数上限(简称PL), 一 条告警和一条告警恢复算作一对,超过该上限的告警将被抛弃,这 种判断策略简称对数判断策略。
优选的,步骤S50具体包括如果确认进入了告警风暴状态, 则通知进入告警风暴状态;当定时器超时后,对进入了告警风暴状 态的的通知退出告警风暴状态,并且清除标的的存储信息;对判断 为告警风暴的告警进行确认通知。
确定告警风暴发生通知接口操作,该接口中有方法
enterAlarmStorm ,通杀口进入告警风暴习犬态,
exiteAlarmStorm方法,通头口退出告警风暴4犬态,
isAlarmStorm方法,当判断出 一条告警是告警风暴时,调用该 方法通知。
优选的,步骤S30具体包括判断告警是否是标的的第一条告 警;如果是,启动定时器,开始计数;如果不是,则取出存储的标 的的信息,检查是否已经在告警风暴状态;如果是,则确认告警为 告警风暴;否则对告警计数递增,并且判断是否超过了预定值;如 果超过了,则存储标的的信息为进入了告警风暴状态。
使用计数判断策略判断是否是告警风暴,对进行告警风暴判断 的告警根据它的告警风暴标的判断是否是该标的上的第 一条告警, 如果是,启动定时器,定时的时间间隔为该判断策略中的一个参fc 即SI;存储该告警风暴标的信息;计数为1,开始计数,该告警不 是告警风暴。如果不是,则取出存储的该告警风暴标的的相关信息, 检查是否已经在告警风暴状态,如果已在,则该告警为告警风暴; 如果还未进入,对取出的告警风暴标的信息中的告警计数递增 一存储,并且判断是否超过了 CL,如果超过了,则存储该告警风暴标的 进入了告警风暴状态,通过告警风暴发生通知接口操作中的 enterAlarmStorm方法进4亍通知,并且该告警为告警风暴,否则,该 告警不是告警风暴。当SI超时后,对进入了告警风暴状态的告警风 暴标的调用通知4妄口才喿作中的exitAlarmStorm方法通知退出,并且 清除该告警风暴标的的相关存储信息。对判断为告警风暴的告警调 用isAlarmStorm通知。
优选的,步骤S40具体包括判断告警是否是标的的第一条告 警;如果是,启动定时器,开始计数;如果不是,则取出存储的标 的的信息,检查是否已经在告警风暴状态;如果是,则确认告警为 告警风暴;否则取出存储的标的的前次的告警类型,如果前次的告 警类型是告警,此次告警的告警类型是告警恢复,则修改存储的前 次告警类型;如果前次的告警类型是告警恢复,此次告警的告警类 型是告警,则对告警的对数递增,修改存储的前次告警类型,并且 判断是否超过了预定值;如果超过了,则存储标的的信息为进入了 告警风暴状态。
使用对数判断策略判断是否是告警风暴,对进行告警风暴判断 的告警根据它的告警风暴标的判断是否是该标的上的第一条告警, 如果是,启动定时器,定时的时间间隔为该判断策略中的一个参凄丈, 即JI;存储该告警风暴标的信息;计数为1,开始计数,存储此次 告警的告警类型,且此次告警不是告警风暴。如果不是,则取出存 储的告警风暴标的信息,检查是否已经进入告警风暴状态了,如果 进入了,则该告警为告警风暴;如果没有,取出该告警风暴标的上 前次的告警类型,如果前次是告警,此次是告警恢复,修改存储的 前次告警类型;如果前次是告警恢复,此次是告警,对取出的告警 风暴标的信息中的告警对数加一存储,修改存储的前次告警类型, 并且判断是否超过了 PL,如果超过了 ,则存储该告警风暴标的进入 了告警风暴状态,通过告警风暴发生通知接口操作中的enterAlarmStorm方法进4于通知,并且此次告警为告警风暴,否则, 此次告警不是告警风暴。对其余两种情况(前次告警,此次仍然告 警,前次告警恢复,此次仍然告警恢复)为异常情况,不〗故任何处 理,此次告警也不认定为告警风暴。当JI超时后,对进入了告警风 暴状态的告警风暴标的调用通知接口操作中的exitAlarmStorm方法 通知退出,并且清除该告警风暴标的的相关存储信息。对判断为告 警风暴的告警调用isAlarmStorm通知。
上述抑制方法与现有4支术相比,通用的判断逻辑抽取了出来, 大大提高了代码的复用性和可维护性,对告警风暴标的的抽取,以 及告警风暴两种判断策略的抽取使得应用范围更广,使用方法更一致。
图2示出了根据本发明优选实施例的计数判断策略判断告警风 暴的流禾呈图,包括如下几个步骤
步骤S302,判断是否第一条告警,对进行告警风暴判断的告警 根据它的告警风暴标的判断是否是该标的上的第 一条告警;
步骤S304,若步骤S302判断为真,信息存储及定时器启动; 启动定时器,定时的时间间隔为计凄t判断策略中的一个参凄t,即SI; 存储该告警风暴标的信息;计数为1,开始计数,而该告警不是告 警风暴;
步骤S306,若步骤S302判断为假,判断是否在告警风暴状态; 取出存储的该告警风暴标的的相关信息,检查是否在告警风暴状态; 若判断为真,则该告警为告警风暴;
步骤S308,若步骤S306判断为,i,递增计数并〗故是否进入告 警风暴的判断;对取出的告警风暴标的信息中的告警计数加一存储, 并且判断是否超过了 CL;若判断为假,该告警不是告警风暴;步艰《S310,若步骤S308判断为真,则执4亍enterAlarmStorm通 知;存储该告警风暴标的进入了告警风暴状态,通过告警风暴发生 通4口4lr 口才喿作中的enter Alarm Storm方法进4亍通杀口 ,并且该告警为告 警风暴,
步骤S312,对步骤S306和S308告警风暴判断为真的告警调用 isAlarmStorm通知。
图3示出了根据本发明优选实施例的对数判断策略判断告警风 暴的流程图,包含以下几个步艰朵
步骤S402,判断是否第一条告警,使用对数判断策略判断是否 是告警风暴,对进行告警风暴判断的告警根据它的告警风暴标的判 断是否是该标的上的第一条告警,
步骤S404,若步骤S402判断为真,信息存储及定时器启动; 启动定时器,定时的时间间隔为该判断策略中的一个参凄t,即JI; 存储该告警风暴标的信息;计数为1,开始计数,存储此次告警的 告警类型,且此次告警不是告警风暴;
步骤S406,若步骤S402判断为假,判断是否进入告警风暴; 取出存储的告警风暴标的信息,检查是否进入告警风暴状态了;若 判断为真,则该告警为告警风暴;
步骤S407,若步骤S406判断为布i,比4交前次告警类型和此次 告警类型,以及相关信息的更新存储;取出该告警风暴标的上前次 的告警类型;如果前次是告警,此次是告警恢复,修改存储的前次 告警类型;如果前次是告警恢复,此次是告警,对取出的告警风暴 标的信息中的告警对数加一存储,修改存储的前次告警类型;对其 余两种情况(前次告警,此次仍然告警,前次告警恢复,此次仍然
13告警恢复)为异常情况,不做任何处理,此次告警也不认定为告警
风暴;
步骤S408,对告警对数做是否超过了 PL的判断;若判断为假, 该告警不是告警风暴;
步骤S410,若步骤S408判断为真,enterAlarmStorm通知;存 储该告警风暴标的进入了告警风暴状态,通过告警风暴发生通知接 口操:作中的enterAlarmStorm方法进4亍通知,并且此次告警为告警风
步骤S410,对步骤S406和步骤S408告警风暴判断为真的告警 调用isAlarmStorm通知。
图4示出了根据本发明优选实施例的告警风暴超时处理的流程 图,当SI/PI超时后,包括以下步骤
步骤S502,判断告警风暴标的是否进入告警风暴状态;
步骤S504,若是,调用通知接口操作中的exitAlarmStorm方法 通知退出;
步骤S506,清除该告警风暴标的的相关存4诸信息。
图5示出了根据本发明实施例的告警风暴抑制装置的方框图, 包括
标的模块IO,用于确定告警风暴的判断标的; 判断模块20,用于判断告警是否为同一标的;执行模块30,用于如果不是,则对标的执行计数判断策略;如 果是,则对标的执行对数判断策略;
通知模块40,用于依据判断结果通知是否发生告警风暴。
上述实施例的抑制方法和装置因为对所有可能的告警情况进行 了统一地分类标识处理,所以克服了解决上述告警风暴抑制处理不 统一导致的问题,进而提高了告警风暴抑制处理程序代码的复用性 和可维护性。
从以上的描述中,可以看出,本发明可以使得对设备告警风暴 的检测快捷, 一致且可扩展。例如,在电信设备管理中EMS网管 软件中发生设备告警风暴的异常情况时,但仍可保证服务降级可用。 服务降级就是丢失一些异常告警,避免让网管陷入瘫痪的境地。
显然,本领域的技术人员应该明白,上述的本发明的各模块或 各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算 装置上,或者分布在多个计算装置所组成的网络上,可选地,它们 可以用计算装置可执行的程序代码来实现,从而,可以将它们存储
在存储装置中由计算装置来执行,或者将它们分别制作成各个集成 电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模 块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述^f义为本发明的优选实施例而已,并不用于限制本发明, 对于本领域的^支术人员来i兌,本发明可以有各种更改和变化。凡在 本发明的精神和原则之内,所作的任何修改、等同替换、改进等, 均应包含在本发明的保护范围之内。
权利要求
1.一种网管系统中告警风暴的抑制方法,其特征在于,包括以下步骤确定告警风暴的判断标的;判断告警是否为同一所述标的;如果不是,则对所述标的执行计数判断策略;如果是,则对所述标的执行对数判断策略;依据判断结果通知是否发生告警风暴。
2. 根据权利要求1所述的抑制方法,其特征在于,确定监控告警 风暴的标的具体包括确定关于特定的设备或特定类型的设备的告警为所述标的。
3. 根据权利要求1所述的抑制方法,其特征在于,确定关于特定 的设备或特定类型的设备的告警为所述标的具体包括设置所述标的包括发生所述告警的设备的标识、所述告警 在所述设备中所发生的位置和所述报警的告警码。
4. 根据权利要求3所述的抑制方法,其特征在于,判断告警是否 为同一所述标的具体包括所述告警具有相同的设备标识、位置和告警码,则是同一 所述标的。
5. 根据权利要求1所述的抑制方法,其特征在于,所述计数判断 策略是判断预定时间间隔内发生的告警的次数达到预定值时, 确认发生告警风暴。
6. 根据权利要求5所述的抑制方法,其特征在于,对所述标的执 行计数判断策略具体包括判断告警是否是所述标的的第 一条告警;如果是,启动定时器,开始计数;如果不是,则取出存储的所述标的的信息,才企查是否已经 在告警风暴状态;如果是,则确认所述告警为告警风暴;否则对所述 告警计数递增,并且判断是否超过了所述预定值;如果 超过了 ,则存储所述标的的信息为进入了告警风暴状态。
7. 根据权利要求1所述的抑制方法,其特征在于,所述对数判断 策略是判断预定时间间隔内发生的同 一告警及其恢复的对数 达到预定值时,确认发生告警风暴。
8. 才艮据;^又利要求7所述的抑制方法,其特;f正在于,对所述标的才丸 行对数判断策略具体包括判断告警是否是所述标的的第 一条告警;如果是,启动定时器,开始计数;如果不是,则取出存储的所述标的的信息,检查是否已经 在告警风暴状态;如果是,则确认所述告警为告警风暴;否则取出存储的所述标的的前次的告警类型,如果 前次的告警类型是告警,此次告警的告警类型是告警恢 复,则修改存储的前次告警类型;如果前次的告警类型是告警恢复,此次告警的告警类型是告警,则对所述告 警的对数递增,修改存储的前次告警类型,并且判断是否超过了所述预定值;如果超过了,则存储所述标的的 信息为进入了告警风暴状态。
9. 才艮据权利要求6或8所述的抑制方法,其特征在于,依据判断 结果通知是否发生告警风暴具体包括如果确认进入了告警风暴状态,则通知进入告警风暴状态;当所述定时器超时后,对进入了告警风暴状态的的通知退 出告警风暴状态,并且清除所述标的的存储信息;对判断为告警风暴的告警进行确认通知。
10. —种网管系统中告警风暴的抑制装置,其特征在于,包括-.标的模块,用于确定告警风暴的判断标的;判断模块,用于判断告警是否为同一所述标的;执行模块,用于如果不是,则对所述标的执行计数判断策 略;如果是,则对所述标的执4于对凄t判断策略;通知模块,用于依据判断结果通知是否发生告警风暴。
全文摘要
本发明提供了一种网管系统中告警风暴的抑制方法和装置,方法包括以下步骤确定告警风暴的判断标的;判断告警是否为同一标的;如果不是,则对标的执行计数判断策略;如果是,则对标的执行对数判断策略;依据判断结果通知是否发生告警风暴。本发明克服了解决上述告警风暴抑制处理不统一导致的问题,进而提高了告警风暴抑制处理程序代码的复用性和可维护性。
文档编号H04L12/24GK101610168SQ20081012712
公开日2009年12月23日 申请日期2008年6月19日 优先权日2008年6月19日
发明者鸣 孙 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1