告警风暴处理方法以及告警风暴处理系统的制作方法
【技术领域】
[0001]本发明涉及网络管理技术,特别是涉及一种对告警信息进行过滤、处理的网络管理技术。
【背景技术】
[0002]对网络产生的告警信息进行采集、处理是网络中的网络管理系统的一项重要工作。在正常情况下,网络单位时间内产生的告警信息数量不会很多,但是,当网络的规模较大且发生了某些特定的故障时,网络有可能在短时间内产生大量的告警信息并上报给网络中的网管系统,这种短时间内大量告警信息的上报被称为告警风暴。
[0003]告警风暴会带来许多负面的影响。例如,受到网管系统处理速度的限值,上报给网管系统的告警信息可能无法被及时接收和处理,从而导致告警信息的丢失。或者,告警风暴往往意味着网络存在严重的故障,这时需要通过网管系统对网络下发相关指令用于故障检测、修复或隔离,此时的网管系统正忙于处理上报的告警信息,往往不能及时下发相关指令或影响网络发送的操作请求,而这些相关指令和操作请求得不到执行的后果是告警风暴持续的时间会更长,从而形成恶性循环。
[0004]因此,如何抵御告警风暴带来的负面影响也是网管系统中的一项重要技术。作为抵御告警风暴的方法,现有技术中大多数系统都会对告警信息进行集中收集及展现,通过收集应用的告警信息,可以及时监控应用的运行状态,当应用系统发生异常时,做出及时的应对措施。
[0005]目前大多数系统的告警收集端对非预期性告警都是采用黑名单的方式,这种方式属于事后处理方式,即收到非预期性告警信息后,再将该告警信息加入数据库的黑名单表中。这种黑名单式的处理方式,随着系统的运行,黑名单的记录个数也会逐渐增加,对黑名单表的搜索也会越来越慢。另外,当某些应用出现异常,发生告警风暴的时候,对告警收集端的性能压力极大,可能导致告警收集端丢弃其他正常应用的告警信息,系统运维人员也无法在海量的告警信息中找到需要关注的信息。
[0006]
【发明内容】
[0007]鉴于上述问题,本发明旨在提供一种能够避免对报错收集端造成较大压力且能够使得运维人员的注意力更加集中到关键告警信息上的告警风暴的处理系统以及告警风暴的处理方法。
[0008]本发明的告警风暴处理系统,其特征在于,具备:
告警接收模块,用于接收应用系统发送来的告警信息;
告警过滤模块,接收来自上述告警接收模块的告警信息,对每个应用系统分别设置告警缓冲区,根据告警信息判断是否转发给下述的告警展示模块;
告警转发模块,每隔规定期间检查上述告警过滤模块的告警缓冲区将符合规定条件的告警信息转发给下述告警展示模块;
告警展示模块,用于将来自上述告警过滤模块和告警转发模块的告警信息以可读的方式展示在终端上。
[0009]优选地,所述告警过滤模块针对每个应用系统分别设置告警缓冲区以使得各告警缓冲区包括告警计数、展现标志、告警时间、HASH值。
[0010]优选地,所述告警过滤模块对于收到的每条告警信息,根据收到的告警信息中的关键域生成对应的HASH值,并根据HASH值检查告警缓冲区中是否存在该告警信息。
[0011]优选地,所述告警过滤模块在判断收到的告警信息未存在于告警缓冲区的情况下,将该告警信息插入告警缓冲区并且将该告警信息转发给上述告警展现模块;所述告警过滤模块在判断收到的告警信息存在于告警缓冲区的情况下,对应的告警计数加I并且修改告警时间为当前时间,并且,当该告警信息对应的告警计数小于等于规定阈值的情况下则将该告警信息转发给上述告警展现模块而当该告警信息对应的告警计数大于该规定阈值的情况下则不将该告警信息转发给上述告警展现模块且将上述展现标志修改为“否”,其中,上述展现标志默认“是”。
[0012]优选地,所述告警转发模块每隔规定期间检查上述告警过滤模块的告警缓冲区,将上述展现标志为“否”的告警信息转发给上述告警展示模块并且将该展现标志重新设置为“是”且将告警计数重置为O。
[0013]优选地,所述告警过滤模块在某个应用系统的告警缓冲区全部占用的情况下将最早被插入告警信息且该告警信息对应的计数最小的告警缓冲区作为替换告警缓冲区并且将新收到的告警信息写入该替换告警缓冲区。
[0014]本发明的告警风暴处理方法,其特征在于,包括下述步骤:
告警接收步骤,接收应用系统发送来的告警信息;
告警过滤步骤,按照每个应用系统分别设置告警缓冲区,对接收到的上述告警信息,根据告警信息判断是否进行告警信息的展示;
告警展示步骤,根据告警过滤步骤的判断结果,将需要进行展示的告警信息以可读的方式展示在终端上。
[0015]优选地,告警转发步骤,每隔规定期间检查上述告警缓冲区中是否存在符合规定条件的告警信息需要进行告警信息的展示。
[0016]优选地,在上述告警展示步骤中,根据告警过滤步骤以及/或者告警转发步骤的判断结果,将需要进行展示的告警信息以可读的方式展示在终端上。
[0017]优选地,在上述告警过滤步骤中,针对每个应用系统分别设置告警缓冲区以使得各告警缓冲区包括告警计数、展现标志、告警时间、HASH值。
[0018]优选地,在所述告警过滤步骤中,对于收到的每条告警信息,根据收到的告警信息中的关键域生成对应的HASH值,并根据HASH值检查告警缓冲区中是否存在该告警信息。
[0019]优选地,在所述告警过滤步骤中,在判断收到的告警信息未存在于告警缓冲区的情况下,将该告警信息插入告警缓冲区并且判断需要展现该告警信息;在所述告警过滤步骤中,在判断收到的告警信息存在于告警缓冲区的情况下,对应的告警计数加I并且修改告警时间为当前时间,并且,当该告警信息对应的告警计数小于等于规定阈值的情况下则判断需要展现该告警信息而当该告警信息对应的告警计数大于该规定阈值的情况下则判断不需要展现该告警信息且将上述展现标志修改为“否”,其中,上述展现标志默认“是”。
[0020]优选地,在告警转发步骤中,每隔规定期间检查上述告警缓冲区,将上述展现标志为“否”的告警信息转发给上述告警展示模块并且将该展现标志重新设置为“是”且将告警计数重置为O。
[0021]在本发明的告警风暴处理系统中,借助于告警过滤模块和告警转发模块,能够对应用系统的告警信息按照告警次数进行合并分类,当一条或者若干条告警信息在短时间内重复报错时,告警展现模块也只会每隔规定时间收到一条合并后的告警信息,这样既能够保证告警收集端不会因为短时间内告警信息过多而丢弃告警信息,也能够使得运维人员的注意力更加集中于关键的告警信息上。
[0022]因此,本发明的告警风暴处理系统以及告警风暴处理方法具有如下优点:相比于黑名单的方式,本发明的处理方法属于事前和事中处理方式,可以避免对报错收集端造成较大的性能压力,另外也可以使运维监控人员的注意力集中于关键的告警信息上;使用本发明的处理方法不依赖于数据库,随着系统的运行,报错收集端的性能也不会下降。
[0023]
【附图说明】
[0024]图1是本发明的告警风暴处理系统的结构框图。
[0025]图2是本发明的告警风暴处理系统中告警过滤模块中设置的告警信息缓冲区的示意图。
[0026]图3是表示本发明的告警风暴处理方法的流程图。
【具体实施方式】
[0027]下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
[0028]图1是本发明的告警风暴处理系统的结构框图。
[0029]下面参照图1对于本发明的告警风暴处理系统进行说明。如图1所示,本发明的告警风暴处理系统包括告警接收模块100、告警过滤模块200、告警信息转发模块300、告警信息展现模块400。
[0030]具体地,告警接收模块100通过网络从各个应用系统(图1中例如为应用系统I?应用系统3)接收告警信息。
[0031]告警过滤模块200接收来自告警接收模块100的告警信息,对每个应用系统I?3分别设置告警缓冲区I?3,通过对告警信息进行判断来确定是否将告警信息转发到告警信息展现模块400。
[0032]图2是本发明的告警风暴处理系统中告警过滤模块中设置的告警信息缓冲区的示意图。在图2中表示了设置了 N个告警缓冲区的情况。如图2所示,对于每个告警缓冲区,至少设置下述项目:告警计数、展现标志、告警时间、HASH值。
[0033]其中,告警计数是累计的告警信息收到的次数。
[0034]展现标志是用于表示是否需要发送到告警展现模块400对告警信息进行展现。即,若展现标志设置为“是”(例如可以设置为“I”)的情况下,则需要发送到告警展现模块400由其在终端上对告警信息进行展现,若展现标志设置为“否”(例如可以设置为“O”)的情况下,则不需要发送到告警展现模块400由其在终端上对告警信息进行展现。在本发明中,展现标志默认设置为“是”。
[0035]告警时间是指收到告警信息的时间。HASH值是根据告警信息中的关键域生成的HASH值,这里利用HASH值来分辨是哪种类型的告警信息。
[0036]具体地,告警过滤模块200首先判断接收到的告警信息是否存在图2所示的告警缓冲区中,在判断收到的告警信息未存在于告警缓冲区的情况下,将该告警信息插入告警缓冲区并且将该告警信息转发给告警展现模块300 ;告警过滤模块200在判断收到的告警信息已存在于告警缓冲区的情况下,对应的告警计数加I并且修改告警时间为当前时间,并且,当该告警信息对应的告警计数小于等于规定阈值的情况下则将该告警信息转发给告警展现模块400而当该告警信息对应的告警计数大于该规定阈值的情况下则不将该告警信息转发给告警展现模块400且