告警处理方法和系统的制作方法

文档序号:7720930阅读:101来源:国知局
专利名称:告警处理方法和系统的制作方法
技术领域
本发明涉及告警处理方法和系统。
背景技术
告警通常分为两类故障类告警和事件类告警,其中,故障类告警是重点关注的对 象,准确性高且更直接,而事件类告警是故障类告警的辅助,数量比故障类告警多得多,二 者的比例一般为10 I0告警是运营商正常运营情况下重点关注的模块,主要用于派单和问题定位,目前 采用以故障类告警为基准,事件类告警做辅助参考的方式。图1是示出基站子系统操作维护中心系统体系结构的示图。参照图1描述现有 的告警流程基站或无线网络控制器(radio network controller,简称为RNC)等网元产 生一条告警,然后基站通过SNMP trap上报给协议网关,RNC通过TCP/IP上报给协议网关; 协议网关将消息转换为统一的告警消息并上报给公共平台服务器;公共平台服务器转发告 警消息给告警模块;告警模块应用规则(例如相关性规则、延迟规则等)处理告警;以及 告警模块发送消息给上级网管代理和图形用户接口(graphical userinterface,简称为 GUI)。从图1中可以看出,与告警处理相关的部分主要是协议网关、服务层、公共服务平台。告警规则是对告警的一些处理,能够加快告警的处理速度。例如,相关性规则是抑 制衍生告警的一种有效方法,可以减少处理的告警数目,从而提高告警处理速度。现有的告警处理流程在完整性和正确性方面没有问题,但是却不能满足运营商对 告警处理的速度要求,尤其是在告警风暴条件下。具体缺点表现为如下几个方面事件类告警处理缺陷事件类告警的特点是数目多,基本上是故障类告警的10 倍,但反映设备故障方面又比故障类告警差,这些特点就会导致公共平台服务器转发消息 的负荷较大,加重了网络的负荷,服务器处理告警过于频繁;应对告警风暴能力有欠缺告警风暴是在短时间内有大量的告警上报,在告警风 暴的情况下,告警模块占用的系统内存就会疯长,消息队列严重堆积,从而导致告警处理时 间被严重延迟,远远超过中移动规范要求的处理时间;以及告警规则处理告警的速度慢告警规则是在服务器层应用的,服务器层缓存的是 所有网元的告警,而相关性规则等规则是针对具体网元的,这就造成告警规则相对于比较 告警次数的浪费,即比较告警的条数比真正有用的比较多了很多倍,例如,如果网元个数是 10,那就是10倍。因此,需要一种能够提高处理速度的告警处理方法和系统。

发明内容
考虑到上述问题而做出本发明。根据本发明的一个方面,提供了一种告警处理方法,包括以下步骤步骤S202,判 断上报的告警是事件类告警还是故障类告警;以及步骤S204,根据判断结果设置缓存队列。一方面,如果在步骤S202中判断出上报的告警是事件类告警,则在步骤S204中, 针对所有网元的告警设置一个缓存队列。在这种情况下,在步骤S204之后,还包括以下处理监控缓存队列的状态;如果缓 存队列的长度大于预定长度或者缓存队列的缓存时间超过预定时间,则在一条消息中将缓 存队列中的所有告警发送给服务器;以及服务器在接收到消息后将所有告警存入数据库。优选地,根据网络规模和设备故障状态来确定预定长度和预定时间。另一方面,如果在步骤S202中判断出上报的告警是故障类告警,则在步骤S204 中,针对每一个网元的告警分别设置一个缓存队列。在这种情况下,在步骤S204之后,还包括以下处理在每一个缓存队列上设置告 警相关性规则,并且在每当收到一条新告警后都将该新告警与该缓存队列中的所有告警进 行比较。此外,该方法还包括以下处理配置感兴趣的网元,并对所述感兴趣的网元的缓存 队列设置一个绿色通道线程池;以及对除感兴趣的网元的缓存队列之外的其他缓存队列设 置一个常规线程池。优选地,对绿色通道线程池提供2个线程。优选地,常规线程池中的线程的数量少于网元的数量。此外,如果特定网元的缓存队列发生告警风暴,则该方法还包括以下处理如果该 缓存队列中在预定时间内积累的告警的数量小于第一阈值,则以告警消息的形式上报给服 务器;如果该缓存队列中在预定时间内积累的告警的数量大于第一阈值且小于第二阈值, 则将缓存队列中的告警打包成文件,并以文件传输协议消息发送给服务器;以及如果该缓 存队列中在预定时间内积累的告警的数量大于第二阈值,则向所述服务器上报特定网元存 在告警风暴,同时监控该缓存队列的状态直到告警风暴结束,然后清空该缓存队列中的告 警并向服务器上报风暴解除告警,服务器同步该特定网元的故障类活跃告警。根据本发明的另一方面,提供了一种告警处理系统,包括判断装置,判断上报的 告警是事件类告警还是故障类告警;以及缓存队列设置装置,根据判断结果设置缓存队列。一方面,如果在判断装置中判断出上报的告警是事件类告警,则缓存队列设置装 置针对所有网元的告警设置一个缓存队列。在这种情况下,该系统还包括监控装置,监控缓存队列的状态;发送装置,如果 缓存队列的长度大于预定长度或者缓存队列的缓存时间超过预定时间,则在一条消息中将 缓存队列中的所有告警发送给服务器;以及服务器,在接收到所述消息后将所有告警存入 数据库。优选地,根据网络规模和设备故障状态来确定预定长度和预定时间。另一方面,如果在判断装置中判断出上报的告警是故障类告警,则缓存队列设置 装置针对每一个网元分别设置一个缓存队列。在这种情况下,该系统还包括比较装置,在每一个缓存队列上设置告警相关性规 则,并且在每当收到一条新告警后都将该新告警与该缓存队列中的所有告警进行比较。此外,该系统还包括绿色通道线程池设置装置,配置感兴趣的网元,并对感兴趣 的网元的缓存队列设置一个绿色通道线程池;以及常规线程池设置装置,对除感兴趣的网元的缓存队列之外的其他缓存队列设置一个常规线程池。优选地,对绿色通道线程池提供2个线程。优选地,常规线程池中的线程的数量少于网元的数量。此外,该系统还包括告警风暴处理装置,用于在特定网元的缓存队列发生告警风 暴的情况下如果该缓存队列中在预定时间内积累的告警的数量小于第一阈值,则以告警 消息的形式上报给服务器;如果该缓存队列中在预定时间内积累的告警的数量大于第一阈 值且小于第二阈值,则将缓存队列中的告警打包成文件,并以文件传输协议消息发送给服 务器;以及如果该缓存队列中在预定时间内积累的告警的数量大于第二阈值,则向服务器 上报特定网元存在告警风暴,同时监控该缓存队列的状态直到告警风暴结束,然后清空该 缓存队列中的告警并向服务器上报风暴解除告警,告警服务器同步该特定网元的故障类活 跃告警。通过本发明的技术方案,首先区分是故障类告警还是事件类告警,然后根据判断 结果分别进行不同的处理,从而针对故障类告警提高了相关性规则的处理速度,提供了灵 活的处理策略,提供了告警处理的速度和效率。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明 书、权利要求书、以及附图中所特别指出的结构来实现和获得。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1是示出基站子系统操作维护中心系统体系结构的示图;图2是示出根据本发明的告警处理方法的流程图;图3是示出根据本发明的告警处理系统的框图;以及图4是示出根据本发明实施例的告警队列和线程池的设置的示图。
具体实施例方式下面将结合附图来详细说明本发明的实施例。图2是示出根据本发明的告警处理方法的流程图。参照图2,根据本发明的告警处理方法包括以下步骤步骤S202,判断上报的告警 是事件类告警还是故障类告警;以及步骤S204,根据判断结果设置缓存队列。图3是示出根据本发明的告警处理系统的框图。参照图3,根据本发明的告警处理系统30包括判断装置302,判断上报的告警是 事件类告警还是故障类告警;以及缓存队列设置装置304,根据判断装置302的判断结果来 设置缓存队列。以下详细描述本发明的实施例。如上所述,本发明首先要判断告警是故障类告警还是事件类告警,然后根据判断 结果分别进行不同处理,下面分别进行描述。—方面,如果是事件类告警,则需要进行以下特殊处理。
一般来说,事件类告警在定位问题、反映设备实际运行情况、实时性要求等方面来 说都不及故障类告警重要,其在业务上更明显的特点是事件类告警没有清除告警,不存在 告警变更的问题。因此,可以基于这些特点来进行有别于故障类告警的处理。因为事件类告警的数量较多,所以为了减轻GUI的压力,直接让事件类告警在服 务器层(即,图1中的告警模块)入数据库,如果用户需要某个网元的事件类告警辅助定 位,就直接从数据库进行查询。针对事件类告警数目较多的情况,本发明采用批处理的方式。具体来说,协议网关 设置缓存队列,发送消息线程监控缓存队列的状态;如果队列长度超过给定的长度L或者 队列缓存时间超过了给定时间T,那么就在一条消息中发送队列中的所有告警;以及告警 模块在收到该消息后,将告警批量入数据库。如此,提供了很好的前向兼容性,并提供了修改长度参数L和时间参数T的接口, 从而以便有足够的灵活性。如果需要每次上报一条告警,只要调用接口,设置L= 1就可以 了。注意,队列长度L和队列时间T根据网络的规模和设备故障状况做配置,从而提供 了足够的灵活性。采用这种方式之后,在处理事件类告警时,大大减缓了⑶I的压力,减轻了网络的 消息负荷,减轻了数据库的频繁操作压力。另一方面,如果是故障类告警,则需要采取以下特殊的处理。本发明的故障类告警采用网元多线程的策略,对缓存队列应用告警规则。具体地,协议网关将收到的故障类告警分缓存队列保存,对一个基站的告警设置一 个队列,并且为了保证告警的时序性,一个缓存队列的告警同一时间只能被一个线程处理。从现有技术可以看出,服务器上的告警相关性规则会比较所有的告警,但只有和 该告警属于同一个网元的告警是有效比较,大部分比较都是无用功。与此相对,在本发明的 实施例中,在缓存队列上设置相关性规则,只需在缓存队列上比较告警就可以了,使得比较 的告警数目大大减少,所以能提高比较速度,从而JDBC提高相关性规则的处理告警速度。 对于需要入数据库的告警,直接调用JDBC接口操作数据库即可。以下对告警的比较进行描述。告警具有多个属性,典型的有告警上报时间、告警对 象唯一标识dn(distinguish name)、告警原因号、相关性规则定义属性之间的约束关系等。在一个网元队列中存在多条告警,在收到一条告警后,相关性规则就比较该告警 与队列中已有告警之间的关系,如果满足属性之间的约束关系(例如,告警上报时间相差 在设定时间内,两条告警的dn存在父子从属关系等),则表明这两条告警就是相关告警。此外,对于故障类告警的情况,还设置了常规线程池和绿色通道线程池。图4是示 出根据本发明实施例的告警队列和线程池的设置的示图。在本发明的实施例中,还提供了一个绿色通道,这可以加速感兴趣网元告警的上 报速度。参照图4,提供两个线程池来处理告警缓存队列,一个是常规线程池,一个是绿色 通道线程池。绿色通道线程池是事件驱动的,一般处于等待状态,给绿色通道线程池分配置 缓存队列后,绿色通道线程池才会处理线程。常规线程池的设置规则一般是线程数少于网元数,例如,线程个数是20,网元个数是1000,常规线程池的告警消息可能会出现等待。相反,绿色通道池一般提供2个线程处于 待命状态。需要注意,在图4中,常规线程池分配了两个队列,绿色通道线程池分配了一个队 列,但本领域的技术人员应该理解,这两个线程池所分配的队列不限于图中所示,而是可以 分别处理多个队列,但是为了保证绿色通道的有效性,不能配置过多感兴趣网元,原则就是 要保证绿色线程池不能出现告警堵塞情况。此外,在本发明的实施例中,还在故障类告警的情况下提出了针对告警风暴的处 理策略。具体来说,如果某个网元队列的消息在很短的时间T内,堆积到了 L条(例如, 50ms, 100条),就可以认为该网元发生了告警风暴。针对发生告警风暴的网元,采用智能队列处理策略,提供了以下几种不同的处理。根据本领域中对告警风暴的经验认识,预先设置两个阈值,S卩,假设在一定的时间 T (例如,50ms)内发生的告警数量的两个阈值。如果缓存队列中在预定时间内积累的告警的数量小于第一阈值,则采取传统策 略,走正常的上报流程,即,以告警消息的形式上报给服务器。如果缓存队列中在预定时间内积累的告警的数量大于第一阈值而小于第二阈 值,则以文件方式传送消息,即,将缓存队列的消息打包写成文件,然后发送文件传输协议 (FTP)信息给服务器,从而减轻大消息给网络造成的负担。此外,如果缓存队列中在预定时间内积累的告警的数量大于第二阈值,则会采取 以下处理上报一条该网元存在风暴的告警给服务器,同时监控该缓存队列的状态;在风 暴消失之后,清空该队列的告警;上报一条风暴解除的清除告警给服务器,告警服务器收到 清除风暴的告警之后清除告警,并同步该网元的故障类活跃告警。上面所说的同步是指告警服务器发送同步某个网元告警的消息;网元收到该消 息之后,将所有故障类活跃告警打包发送给告警服务器;然后告警服务器以网元的告警为 准,增加、删除、修改告警服务器已有的属于该网元的告警。注意,在故障类告警的情况下,可以调整各个缓存队列的时间T和长度L,存在以 下两种方式接口方式,提供用户界面,用户可以在该界面上输入长度和时间参数;以及配 置文件方式,长度和时间参数被写在一个配置文件中,当服务器程序启动时读取配置文件。如上所述,在本发明的实施例中,引入缓存队列的方式来处理事件类告警和故障 类告警;协议网关在告警接收处应用相关性规则,大大提高规则处理告警的速度;引入绿 色通道,加快了感兴趣网元告警的处理速度;以及提供智能队列处理策略,减轻大消息和频 繁消息给网络的压力。根据本发明的技术方案,提高了相关性等规则的处理速度;提供缓存队列方式,从 而可以批量处理告警;分辨出告警风暴网元和非告警风暴网元,并采用了多种策略处理风 暴网元,完全做到了把告警风暴挡在协议网关层,服务器无告警风暴平稳运行,大大提高了 服务器的可靠性。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种告警处理方法,其特征在于,所述方法包括以下步骤 步骤S202,判断上报的告警是事件类告警还是故障类告警;以及 步骤S204,根据判断结果设置缓存队列。
2.根据权利要求1所述的方法,其特征在于,如果在所述步骤S202中判断出上报的告 警是事件类告警,则在所述步骤S204中,针对所有网元的告警设置一个缓存队列。
3.根据权利要求2所述的方法,其特征在于,在所述步骤S204之后,还包括以下处理 监控所述缓存队列的状态;如果所述缓存队列的长度大于预定长度或者所述缓存队列的缓存时间超过预定时间, 则在一条消息中将所述缓存队列中的所有告警发送给服务器;以及 所述服务器在接收到所述消息后将所有告警存入数据库。
4.根据权利要求3所述的方法,其特征在于,根据网络规模和设备故障状态来确定所 述预定长度和所述预定时间。
5.根据权利要求1所述的方法,如果在所述步骤S202中判断出上报的告警是故障类告 警,则在所述步骤S204中,针对每一个网元的告警分别设置一个缓存队列。
6.根据权利要求5所述的方法,其特征在于,在所述步骤S204之后,还包括以下处理 在每一个缓存队列上设置告警相关性规则,并且在每当收到一条新告警后都将该新告警与该缓存队列中的所有告警进行比较。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括以下处理配置感兴趣的网元,并对所述感兴趣的网元的缓存队列设置一个绿色通道线程池;以及对除所述感兴趣的网元的缓存队列之外的其他缓存队列设置一个常规线程池。
8.根据权利要求7所述的方法,其特征在于,对所述绿色通道线程池提供2个线程。
9.根据权利要求7所述的方法,其特征在于,所述常规线程池中的线程的数量少于网 元的数量。
10.根据权利要求5所述的方法,其特征在于,如果特定网元的缓存队列发生告警风 暴,则所述方法还包括以下处理如果该缓存队列中在预定时间内积累的告警的数量小于第一阈值,则以告警消息的形 式上报给服务器;如果该缓存队列中在预定时间内积累的告警的数量大于所述第一阈值且小于第二阈 值,则将该缓存队列中的告警打包成文件,并以文件传输协议消息发送给所述服务器;以及 如果该缓存队列中在预定时间内积累的告警的数量大于所述第二阈值,则向所述服务 器上报所述特定网元存在告警风暴,同时监控该缓存队列的状态直到告警风暴结束,然后 清空该缓存队列中的告警并向所述服务器上报风暴解除告警,所述服务器同步所述特定网 元的故障类活跃告警。
11.一种告警处理系统,其特征在于,所述系统包括判断装置,判断上报的告警是事件类告警还是故障类告警;以及 缓存队列设置装置,根据判断结果设置缓存队列。
12.根据权利要求11所述的系统,其特征在于,如果在所述判断装置中判断出上报的 告警是事件类告警,则所述缓存队列设置装置针对所有网元的告警设置一个缓存队列。
13.根据权利要求12所述的系统,其特征在于,所述系统还包括监控装置,监控所述缓存队列的状态;发送装置,如果所述缓存队列的长度大于预定长度或者所述缓存队列的缓存时间超过 预定时间,则在一条消息中将所述缓存队列中的所有告警发送给服务器;以及所述服务器,在接收到所述消息后将所有告警存入数据库。
14.根据权利要求13所述的系统,其特征在于,根据网络规模和设备故障状态来确定 所述预定长度和所述预定时间。
15.根据权利要求11所述的系统,如果在所述判断装置中判断出上报的告警是故障类 告警,则所述缓存队列设置装置针对每一个网元分别设置一个缓存队列。
16.根据权利要求15所述的系统,其特征在于,所述系统还包括比较装置,在每一个缓存队列上设置告警相关性规则,并且在每当收到一条新告警后 都将该新告警与该缓存队列中的所有告警进行比较。
17.根据权利要求15所述的系统,其特征在于,所述系统还包括绿色通道线程池设置装置,配置感兴趣的网元,并对所述感兴趣的网元的缓存队列设 置一个绿色通道线程池;以及常规线程池设置装置,对除所述感兴趣的网元的缓存队列之外的其他缓存队列设置一 个常规线程池。
18.根据权利要求17所述的系统,其特征在于,对所述绿色通道线程池提供2个线程。
19.根据权利要求17所述的系统,其特征在于,所述常规线程池中的线程的数量少于 网元的数量。
20.根据权利要求15所述的系统,其特征在于,所述系统还包括告警风暴处理装置,用 于在特定网元的缓存队列发生告警风暴的情况下如果该缓存队列中在预定时间内积累的告警的数量小于第一阈值,则以告警消息的形 式上报给服务器;如果该缓存队列中在预定时间内积累的告警的数量大于所述第一阈值且小于第二阈 值,则将该缓存队列中的告警打包成文件,并以文件传输协议消息发送给所述服务器;以及如果该缓存队列中在预定时间内积累的告警的数量大于所述第二阈值,则向所述服务 器上报所述特定网元存在告警风暴,同时监控该缓存队列的状态直到告警风暴结束,然后 清空该缓存队列中的告警并向所述服务器上报风暴解除告警,所述服务器同步所述特定网 元的故障类活跃告警。
全文摘要
本发明公开了告警处理方法和系统,其中,该方法包括以下步骤步骤S202,判断上报的告警是事件类告警还是故障类告警;以及步骤S204,根据判断结果设置缓存队列。通过本发明,首先区分是故障类告警还是事件类告警,然后根据判断结果分别进行不同的处理,从而针对故障类告警提高了相关性规则的处理速度,提供了灵活的处理策略,提供了告警处理的速度和效率。
文档编号H04L12/56GK102088363SQ20091024225
公开日2011年6月8日 申请日期2009年12月8日 优先权日2009年12月8日
发明者宋振宇, 幸勇, 庞然, 赵世杰 申请人:上海大唐移动通信设备有限公司, 大唐移动通信设备有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1