专利名称:一种网络设备联合分析告警系统的制作方法
技术领域:
本发明涉及一种网络设备联合分析告警系统。
背景技术:
随着运营商网络规模的逐渐扩大,管理的网络设备数量急剧增加,监控的性能指标的告警数量也是越来越大,而这些性能指标单独告警呈现的故障信息有局限性、不全面、准确性差,不能给用户定位故障所需的全面信息。而这同时也消耗了运维人员的检查、定位
故障的工作量。 预警管理,是指除明确的故障告警以及性能告警以外,以历史数据为参考,引入简单的分析方法,通过对性能数据进行二次计算,分析处理,发现潜在的问题,提前产生预警,预警可能是告警及故障的准确预判,也可能是正常运营状态下对非合理的运营数据的提示,目的是为运维人员及监控人员获得提前的问题感知能力,得到相对多的处理时间,提供防范问题发生的手段。实际的移动业务中,常常会针对多个监控指标作为一个组合状态进行监控,将原始采集的性能指标与二次计算后的性能指标综合在一起分析,对于定位故障的全面性和准确性都有很大提升。
发明内容
本发明所要解决的技术问题是,针对现有技术的不足,提供一种能增强对网络设备性能指标的故障定位能力的网络设备联合分析告警系统。11.本发明解决上述技术问题的技术方案如下一种网络设备联合分析告警系统,包括规则弓I擎模块、消息中间件模块和内存数据库;所述规则引擎模块用于分析用户输入的自定义规则,并将用户输入的自定义规则转换成系统可识别的规则,并将所述规则进行匹配分析,生成性能数据和告警数据,进一步,将所述性能数据和告警数据发送至消息中间件模块;所述消息中间件模块从规则引擎模块接收性能数据和告警数据,并将告警发送至内存数据库;所述内存数据库用于存储配置数据。本发明的有益效果是本发明可提高故障定位的准确性和全面性,多个性能指标联合分析告警,能根据运维人员的经验,对个性能指标进行二次计算处理,再进行综合分析,从而帮助运维人员更准确、更全面的定位故障,排除单性能指标故障不准确的干扰;能大幅降低运维人员对每个指标的分析判断的工作量。在上述技术方案的基础上,本发明还可以做如下改进。进一步,还包括引擎监控模块、预警分析服务模块和规则管理组件模块;所述引擎监控模块与规则引擎模块相连接,用于负责引擎的正常运行维护;所述预警分析服务模块用于性能指标的二次计算,包括性能指标趋势计算和性能指标异动分析计算;
所述规则管理组件模块与规则弓I擎模块相连接,用于分析处理规则。进一步,所述规则引擎模块包括性能告警分析引擎模块、告警关联分析引擎模块和预警分析引擎模块,所述性能告警分析引擎模块、告警关联分析引擎模块和预警分析引擎模块分别引擎监控模块和规则管理组件模块的控制指令;
所述性能告警分析引擎模块用于对多性能指标根据规则进行匹配,并生成告警;例如对一台路由器的性能的分析,需要考虑cpu利用率,内存利用率,磁盘IO利用率等多个指标的综合分析,该模块负责将同一时刻的这些指标的采集值加载到规则分析引擎中,智能的利用相关的分析规则进行分析判断,符合条件的自动生成一条告警,说明该路由器资源消耗过大的告警,直观的提示给用户判断;所述告警关联分析引擎模块用于对多条告警进行关联分析,找出所述告警之间的关系,比如衍生生关系,关联关系等,使用户能够找出告警的根本原因;所述预警分析引擎模块用于对性能指标进行预警分析,包括单指标趋势预警,多指标联合分析趋势预警,异动预警的生成。进一步,还包括oracle分布式数据库,所述oracle分布式数据库用于定时存储页面的规则配置的配置数据。进一步,还包括配置数据同步模块、消息组件模块和性能数据接收模块;所述性能数据接收模块用于接收数据,并将所述数据发送至消息组件模块;所述消息组件模块用于接收和发送性能数据至中间件模块;所述配置数据同步模块接收oracle分布式数据库发送的数据,并发送至内存数据库,用于定时把页面的规则配置的oracle分布式数据库的配置数据同步到内存数据库中。进一步,还包括告警处理模块,所述告警处理模块接收中间件模块发送至的数据并发送至消息接收组件模块,所述告警处理模块接收消息发送组件模块发送的告警并发送至中间件模块,用于告警的字段丰富,告警的清除、过滤和升级等功能。进一步,所述消息组件模块包括消息接收组件模块和消息发送组件模块;所述消息接收组件模块接收从性能数据接收模块和中间件通过告警处理模块发送至的数据,并将所述数据发送至性能告警分析引擎模块、告警关联分析引擎模块和预警分析服务模块;所述消息发送组件模块用于接收性能告警分析引擎模块、告警关联分析引擎模块、预警分析引擎模块和预警分析服务模块发送至的数据,并发送对应数据至告警处理模块。进一步,所述性能告警分析引擎模块接收规则管理组件模块、引擎监控模块和消息接收组件模块发送至的数据,并生成告警,并将告警发送至消息发送组件模块;所述告警关联分析引擎模块接收消息接收组件模块、引擎监控模块和规则管理组件模块发送至的数据,找出所述数据之间的关系,并将关系数据发送至消息发送组件模块和oracle分布式数据库;所述预警分析引擎模块接收规则管理组件模块、引擎监控模块和预警分析服务模块发送至的数据,进行预警分析,并将所述预警数据发送至消息发送组件模块。进一步,所述预警分析服务模块与oracle分布式数据库双向数据连接,并接收规则管理组件模块、消息接收组件模块和内存数据库发送的数据并进行计算,并将计算结果发送至消息发送组件模块和预警分析引擎模块。进一步,所述内存数据库接收配置数据同步模块同步的oracle分布式数据库的数据,并发送数据至规则管理组件模块和预警分析服务模块。一个网络设备通常有性能指标25个,需要每个都设置阀值,进行告警,通过采用本专利能将有关联分析要求的性能指标放在一起联合告警,最终只需配置12个联合的指标进行告警即可。例如内存使用率和页面缓存增量两个指标的组合告警。需求要点如下 a.当内存使用率在98%以下时不产生任何告警信息;b.当内存使用率达到98% (包括98%)时不直接产生告警,要判断页面缓冲区的使用情况(paging space或者swap),当页面缓冲区使用率每15分钟增加不足5% (包括5%)时产生黄色告警,当页面缓冲区使用率第15分钟增加5%以上时产生红色告警。应用本专利能很好的解决上面的问题,实现内存使用率和页面缓存增量两个指标的组合告警的产生。
图I为本发明具体实施例I所述的一种网络设备联合分析告警系统结构框图。附图中,各标号所代表的部件列表如下 I、性能数据接收模块,2、消息接收组件模块,3、预警分析服务模块,4、orac I e分布式数据库,5、配置数据同步模块,6、内存数据库,7、规则管理组件模块,81、性能告警分析引擎模块,82、告警关联分析引擎模块,882、预警分析引擎模块,9、消息发送组件模块,10、告警处理模块,11、引擎监控模块。
具体实施例方式以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。如图I所示,本发明具体实施例I所述的一种网络设备联合分析告警系统,包括规贝IJ引擎模块、消息中间件和内存数据库6 ;所述规则引擎模块用于分析用户输入的自定义规则,并将用户输入的自定义规则转换成系统可识别的规则,并将所述规则进行匹配分析,生成性能数据和告警数据,进一步,将所述性能数据和告警数据发送至消息中间件模块;所述消息中间件模块从规则引擎模块接收性能数据和告警数据,并将告警发送至内存数据库;所述内存数据库6用于存储配置数据。还包括引擎监控模块11、预警分析服务模块3和规则管理组件模块7 ;所述引擎监控模块11与规则引擎模块相连接,用于负责引擎的正常运行维护;所述预警分析服务模块3用于性能指标的二次计算,包括性能指标趋势计算和性能指标异动分析计算;所述规则管理组件模块7与规则引擎模块相连接,用于分析处理规则。所述规则引擎模块包括性能告警分析引擎模块I、告警关联分析引擎模块82和预警分析引擎模块882,所述性能告警分析引擎模块I、告警关联分析引擎模块82和预警分析引擎模块882分别接收引擎监控模块11和规则管理组件模块7的控制指令;所述性能告警分析引擎模块I用于对多性能指标根据规则进行匹配,并生成告警;例如对一台路由器的性能的分析,需要考虑cpu利用率,内存利用率,磁盘IO利用率等多个指标的综合分析,该模块负责将同一时刻的这些指标的采集值加载到规则分析引擎中,智能的利用相关的分析规则进行分析判断,符合条件的自动生成一条告警,说明该路由器资源消耗过大的告警,直观的提示给用户判断;所述告警关联分析引擎模块82用于对多条告警进行关联分析,找出所述告警之 间的关系,比如衍生生关系,关联关系等,使用户能够找出告警的根本原因;所述预警分析引擎模块882用于对性能指标进行预警分析,包括单指标趋势预警,多指标联合分析趋势预警,异动预警的生成。还包括oracle分布式数据库4,所述oracle分布式数据库4用于定时存储页面的规则配置的配置数据。还包括配置数据同步模块5、消息组件模块和性能数据接收模块I ;所述性能数据接收模块I用于接收数据,并将所述数据发送至消息组件模块;所述消息组件模块用于接收和发送性能数据至中间件模块;所述配置数据同步模块5接收oracle分布式数据库4发送的数据,并发送至内存数据库6,用于定时把页面的规则配置的oracle分布式数据库4的配置数据同步到内存数据库6中。还包括告警处理模块10,所述告警处理模块10接收中间件模块发送至的数据并发送至消息组件模块,所述告警处理模块10接收消息发送组件模块发送的告警并发送至中间件模块,用于告警的字段丰富,告警的清除、过滤和升级等功能。所述消息组件模块包括消息接收组件模块2和消息发送组件模块9 ;所述消息接收组件模块2接收从性能数据接收模块I和中间件通过告警处理模块发送至的数据,并将所述数据发送至性能告警分析引擎模块81、告警关联分析引擎模块82和预警分析服务模块3 ;所述消息发送组件模块9用于接收性能告警分析引擎模块81、告警关联分析引擎模块82、预警分析弓I擎模块882和预警分析服务模块3发送至的数据,并发送对应数据至告警处理模块10。所述性能告警分析引擎模块81接收规则管理组件模块7、引擎监控模块11和消息接收组件模块2发送至的数据,并生成告警,并将告警发送至消息发送组件模块9 ;所述告警关联分析引擎模块82接收消息接收组件模块2、引擎监控模块11和规则管理组件模块7发送至的数据,找出所述数据之间的关系,并将关系数据发送至消息发送组件模块9和oracle分布式数据库4 ;所述预警分析引擎模块882接收规则管理组件模块7、引擎监控模块11和预警分析服务模块3发送至的数据,进行预警分析,并将所述预警数据发送至消息发送组件模块90所述预警分析服务模块3与oracle分布式数据库4双向数据连接,并接收规则管理组件模块7、消息接收组件模块2和内存数据库6发送的数据并进行计算,并将计算结果发送至消息发送组件模块9和预警分析引擎模块882。所述内存数据库6接收配置数据同步模块5同步的oracle分布式数据库4的数据,并发送数据至规则管理组件模块7和预警分析服务模块3。具体实施时规则引擎初始化,规则管理组件读取用户配置的分析规则,分析处理后转换成规则文件加载到规则引擎中,做为分析的基础。性能告警分析引擎模块接收从MQ转发过来的设备性能指标数据(如内存使用率, 页面缓冲区使用率),数据格式转换后送到规则分析引擎中,利用规则引擎进行规则文件和性能数据的智能分析计算,得出符合条件的结果,如果有生成告警信息数据,将告警数据通过MQ转发给workstation模块,最终在前台页面展现或短信方式通知用户。PmAlarmAdapter多指标性能告警分析适配器类,将性能数据对象处理后,放到规则引擎中。
权利要求
1.一种网络设备联合分析告警系统,其特征在于,包括规则引擎模块、消息中间件模块和内存数据库; 所述规则引擎模块用于分析用户输入的自定义规则,并将用户输入的自定义规则转换成系统可识别的规则,并将所述规则进行匹配分析,生成性能数据和告警数据,进一步,将所述性能数据和告警数据发送至消息中间件模块; 所述消息中间件模块从规则引擎模块接收性能数据和告警数据,并将告警发送至内存数据库; 所述内存数据库用于存储配置数据。
2.根据权利要求I所述一种网络设备联合分析告警系统,其特征在于,还包括引擎监控模块、预警分析服务模块和规则管理组件模块;所述引擎监控模块与规则引擎模块相连接,用于负责引擎的正常运行维护; 所述预警分析服务模块用于性能指标的二次计算,包括性能指标趋势计算和性能指标异动分析计算; 所述规则管理组件模块与规则弓I擎模块相连接,用于分析处理规则。
3.根据权利要求2所述一种网络设备联合分析告警系统,其特征在于,所述规则引擎模块包括性能告警分析引擎模块、告警关联分析引擎模块和预警分析引擎模块,所述性能告警分析引擎模块、告警关联分析引擎模块和预警分析引擎模块分别引擎监控模块和规则管理组件模块的控制指令; 所述性能告警分析引擎模块用于对多性能指标根据规则进行匹配,并生成告警; 所述告警关联分析引擎模块用于对多条告警进行关联分析,找出所述告警之间的关系,使用户能够找出告警的根本原因; 所述预警分析引擎模块用于对性能指标进行预警分析,包括单指标趋势预警,多指标联合分析趋势预警,异动预警的生成。
4.根据权利要求3所述一种网络设备联合分析告警系统,其特征在于,还包括oracle分布式数据库,所述oracle分布式数据库用于定时存储页面的规则配置的配置数据。
5.根据权利要求4所述一种网络设备联合分析告警系统,其特征在于,还包括配置数据同步模块、消息组件模块和性能数据接收模块; 所述性能数据接收模块用于接收数据,并将所述数据发送至消息组件模块; 所述消息组件模块用于接收和发送性能数据至中间件模块; 所述配置数据同步模块接收oracle分布式数据库发送的数据,并发送至内存数据库,用于定时把页面的规则配置的oracle分布式数据库的配置数据同步到内存数据库中。
6.根据权利要求5所述一种网络设备联合分析告警系统,其特征在于,还包括告警处理模块,所述告警处理模块接收中间件模块发送至的数据并发送至消息接收组件模块,所述告警处理模块接收消息发送组件模块发送的告警并发送至中间件模块,用于告警的字段丰富,告警的清除、过滤和升级功能。
7.根据权利要求6所述一种网络设备联合分析告警系统,其特征在于,所述消息组件模块包括消息接收组件模块和消息发送组件模块; 所述消息接收组件模块接收从性能数据接收模块和中间件通过告警处理模块发送至的数据,并将所述数据发送至性能告警分析引擎模块、告警关联分析引擎模块和预警分析服务模块; 所述消息发送组件模块用于接收性能告警分析引擎模块、告警关联分析引擎模块、预警分析引擎模块和预警分析服务模块发送至的数据,并发送对应数据至告警处理模块。
8.根据权利要求7所述一种网络设备联合分析告警系统,其特征在于,所述性能告警分析引擎模块接收规则管理组件模块、引擎监控模块和消息接收组件模块发送至的数据,并生成告警,并将告警发送至消息发送组件模块; 所述告警关联分析引擎模块接收消息接收组件模块、引擎监控模块和规则管理组件模块发送至的数据,找出所述数据之间的关系,并将关系数据发送至消息发送组件模块和oracle分布式数据库; 所述预警分析引擎模块接收规则管理组件模块、引擎监控模块和预警分析服务模块发 送至的数据,进行预警分析,并将所述预警数据发送至消息发送组件模块。
9.根据权利要求1-8任一项所述一种网络设备联合分析告警系统,其特征在于,所述预警分析服务模块与oracle分布式数据库双向数据连接,并接收规则管理组件模块、消息接收组件模块和内存数据库发送的数据并进行计算,并将计算结果发送至消息发送组件模块和预警分析引擎模块。
10.根据权利要求9所述一种网络设备联合分析告警系统,其特征在于,所述内存数据库接收配置数据同步模块同步的oracle分布式数据库的数据,并发送数据至规则管理组件模块和预警分析服务模块。
全文摘要
本发明涉及一种网络设备联合分析告警系统,包括规则引擎、消息中间件和内存数据库;所述规则引擎用于分析用户输入的自定义规则,并将用户输入的自定义规则转换成可识别的规则;所述消息中间件负责性能数据的接收及告警的发送,底层采集代理(agent)采集到的网络设备性能数据如cpu利用,内存利用率;所述内存数据库负责配置数据的缓存。本发明可提高故障定位的准确性和全面性,多个性能指标联合分析告警,能根据运维人员的经验,对个性能指标进行二次计算处理,再进行综合分析,从而帮助运维人员更准确、更全面的定位故障,排除单性能指标故障不准确的干扰;能大幅降低运维人员对每个指标的分析判断的工作量。
文档编号H04L12/24GK102970165SQ20121047294
公开日2013年3月13日 申请日期2012年11月20日 优先权日2012年11月20日
发明者刘健 申请人:北京思特奇信息技术股份有限公司