基于告警信息的故障定位方法

文档序号:7819276阅读:433来源:国知局
基于告警信息的故障定位方法
【专利摘要】本发明公开了一种基于告警信息的故障定位方法,包括如下步骤:a)先将属于同一业务系统的关联对象划分为一个告警域;b)然后统一收集所有的原始初级告警信息并归入不同的告警域;c)最后对同一告警域内的所有原始初级告警信息进行过滤组合形成用于故障定位的高级告警信息;所述同一业务系统的关联对象包括该业务系统用到的应用程序、中间件、数据库、主机设备、存储设备以及网络设备。本发明提供的基于告警信息的故障定位方法,通过对相关联的告警进行整理、分析,对故障信息进行精确的定位,通过告警分析直指故障根源,方便维护人员快速解决问题,同时可以解决告警量大,告警信息繁杂等问题,并可以过滤掉很多误告警。
【专利说明】基于告警信息的故障定位方法

【技术领域】
[0001]本发明涉及一种故障信息定位方法,尤其涉及一种基于告警信息的故障定位方法。

【背景技术】
[0002]业务系统规模的日益扩大和应用水平的不断提高,使得系统维护水平和提高告警的准确性、有效性成为网络维护的主要问题。这主要体现在单位时间内需要处理的数据大大增加,出现的告警数目也大大增加。从各个部件上传到管理模块的告警,往往不是最终的告警,而只是简单告警。管理模块需要对这些告警进行处理,对单个告警的真实性进行判断。同时要对相似的报警进行融合,从而减少告警的数量,提高告警的准确率。目前技术方案存在的问题如下:
[0003]I)海量的报警事件的处理
[0004]由于目前技术中并没有对告警进行融合,导致直接呈现给维护人员的是非常多的告警信息,直接把运维人员淹没在告警的海洋里。
[0005]2)严重的误报和漏报
[0006]由于告警信息没有进行关联、分析,由一个对象出现故障,往往在表现上是有很多告警信息的,比如某个网络设备出现问题,应用的拨测都是出现故障信息,主机、数据库也会有很多告警信息,其实真正的故障只有一个,其他的都可以算是误告警。
[0007]3)难于根据报警信息诊断故障根源
[0008]由于告警没有做分析,告警信息都展示的是表层的问题,无法通过告警信息诊断故障的根源,还需要运维人员依靠经验进行解决。


【发明内容】

[0009]本发明所要解决的技术问题是提供一种基于告警信息的故障定位方法,能够对故障信息进行精确的定位,通过告警分析直指故障根源,方便运维人员快速解决问题,同时可以解决告警量大,告警信息繁杂以及误告警的问题。
[0010]本发明为解决上述技术问题而采用的技术方案是提供一种基于告警信息的故障定位方法,包括如下步骤:a)先将属于同一业务系统的关联对象划分为一个告警域;b)然后统一收集所有的原始初级告警信息并归入不同的告警域;c)最后对同一告警域内的所有原始初级告警信息进行过滤组合形成用于故障定位的高级告警信息。
[0011]上述的基于告警信息的故障定位方法,其中,所述步骤a)中同一业务系统的关联对象包括该业务系统用到的应用程序、中间件、数据库、主机设备、存储设备以及网络设备。
[0012]上述的基于告警信息的故障定位方法,其中,所述步骤b)通过综合网管统一收集原始初级告警信息,及时清除无效告警信息,控制告警信息传递时延在预设范围内,并对收集到的原始初级告警信息进行符合国际标准告警模型的标准化处理。
[0013]上述的基于告警信息的故障定位方法,其中,所述原始初级告警信息的标准化处理程如下:将原始初级告警信息处理成统一的告警格式,处理后的告警信息包括告警时间、告警对象名称、告警描述、告警时间、告警等级和告警域。
[0014]上述的基于告警信息的故障定位方法,其中,所述步骤c)的过程如下:cl)对同一告警域内的每一条原始初级告警信息,在该告警域对应的关联对象按照概率大小查找最相关的故障源对象;c2)对具有相同故障源对象的多条原始初级告警信息进行过滤组合。
[0015]上述的基于告警信息的故障定位方法,其中,所述步骤Cl)包括如下过程:cll)将该告警域对应的关联对象两两分组;cl2)对同一告警域内的每一条原始初级告警信息,按照概率大小查找每组中最相关的故障源对象;cl3)将查找到的最相关的故障源对象继续两两分组,重复步骤cl2)和cl3)直至找到最终唯一的故障源对象。
[0016]上述的基于告警信息的故障定位方法,其中,还包括通过一次或多次比较查找到的最相关的故障源对象与实际产生告警的故障源对象是否相符,并将查找到的相符的最相关的故障源对象及其相对应的原始初级告警信息存入经验库;当两个故障源对象引起某条原始初级告警信息的概率大致相同时,根据与所述经验库告警吻合的程度选择最相关的故障源对象。
[0017]本发明对比现有技术有如下的有益效果:本发明提供的基于告警信息的故障定位方法,通过对相关联的告警进行整理、分析,对故障信息进行精确的定位,通过告警分析直指故障根源,方便维护人员快速解决问题,同时通过对故障的分析可以解决告警量大,告警信息繁杂等问题,并可以过滤掉很多误告警。

【专利附图】

【附图说明】
[0018]图1为本发明基于告警信息的故障定位流程示意图;
[0019]图2为本发明根据业务系统的关联对象划分告警域示意图;
[0020]图3为本发明根据业务系统的对原始初级告警信息处理流程示意图。

【具体实施方式】
[0021]下面结合附图和实施例对本发明作进一步的描述。
[0022]图1为本发明基于告警信息的故障定位流程示意图。
[0023]请参见图1,本发明提供的基于告警信息的故障定位方法包括如下步骤:
[0024]步骤S1:先将属于同一业务系统的关联对象划分为一个告警域;同一业务系统的关联对象大致包括该业务系统用到的应用程序、中间件、数据库、主机设备、存储设备以及网络设备,如图2所示。
[0025]步骤S2:然后统一收集所有的原始初级告警信息并归入不同的告警域;具体可通过综合网管统一收集原始初级告警信息,及时清除无效告警信息,控制告警信息传递时延在预设范围内,并对收集到的原始初级告警信息进行符合国际标准告警模型的标准化处理;即将原始初级告警信息处理成统一的告警格式,处理后的告警信息包括告警时间、告警对象名称、告警描述、告警时间、告警等级和告警域,如图3所示。
[0026]步骤S3:最后对同一告警域内的所有原始初级告警信息进行过滤组合形成用于故障定位的高级告警信息;具体过程如下:
[0027]Cl)对同一告警域内的每一条原始初级告警信息,在该告警域对应的关联对象按照概率大小查找最相关的故障源对象;
[0028]c2)对具有相同故障源对象的多条原始初级告警信息进行过滤组合。
[0029]由于网络拓扑、设备环境的不同,致使告警产生的环境不同,即同样的告警可能是由不同的系统故障产生的,这就需要进一步测试后才能判断。在“发现告警一告警分析一网络测试一故障定位”过程中,告警分析只是其中最重要的环节之一。告警分析可以在一定程度上为故障判断提供参考。告警分析的主要功能有:缩小维护人员告警观察范围,减少维护人员告警分析工作量,提高故障定位的效率;为维护人员提供更多关于告警的相关信息,为进一步操作提供参考。
[0030]事实上系统中对象(应用系统、中间件、数据库、主机、存储、网络设备)是通过业务系统进行关联的,同属于一个业务系统的对象可以称为一个告警域。告警域内的任何一个对象都可能是该告警的解释。如果两个或两个以上的告警属于同一告警域,这些告警应该放在一起解释,因为它们很可能由同一故障集解释。如果接收到的告警产生不止一个告警域,那么本发明就为每个域找到其最佳解释的故障集。所有告警域的故障集的并集给出所接收告警的最佳解释。本发明使用的告警域有如下两个特点:1)所选子集中的实体能解释告警域中所有的告警;2)所选子集中至少有一个对象发生故障的概率最大。
[0031]本发明算法的基本思想如下:
[0032]I)从集合S中与告警域相关联的对象开始;
[0033]2)将S分割为两个不相交的集合,且每个集合中的对象有最大相互依赖;
[0034]3)从这两个集合中选择能解释所有接收到的告警,并且集合中至少有一个实体发生故障的概率为最大的集合。如果没有这样一种集合,那么找出每个集合解释的告警子集,两个都选。
[0035]对所选的集合迭代应用以上两步;,直到结果集的当前划分为单元素集合。本算法的主要目的是将集合S缩小为能解释所有接收到的告警且集合中至少有一个对象发生故障的概率为最大的最小可能子集。算法的每个阶段的目标在于减少集合S中不可能发生故障的元素。通过用最大相互依赖约束进行分割,把彼此高度依赖的对象组合在一起。这意味着每个分割后的集合中仅有一小部分对象代表故障源。
[0036]输入:1)在时间间隔T内所收到告警的一个告警域A ;2)与接收到的告警相关联的包含N个实体的集合S。
[0037]输出:能解释告警簇且集合中至少有一个实体发生故障的概率为最大的集合,该集合是S的子集。
[0038]本发明算法详细说明如下,主要分为2个阶段实现。
[0039]阶段1:将集合S分割为两个集合,每个集合中的实体有最大相互依赖。本发明优选用一种计算复杂度较低的由底向上的分割算法实现。分割算法如下:
[0040]I)首先把集合S中的每个实体看作只有一个成员的集合,因此算法的第一步有m=N个单元素集合,这里N是集合S的实体数,m、N均为整数。
[0041]2)把m个集合中的任意两个作为一对,检查m中所有的对,找到两个集合满足集合中的实体有最大相互依赖。将这两个集合合并为一个新集合作为原来集合的上一级。计算新集合中至少有一个实体是故障源的概率,计算新集合与其他集合的依赖度。
[0042]3)重复步骤 2,m = N_l, N-2,…,2。
[0043]阶段2:算法找出集合S中能解释所有告警且有至少一个故障源的概率为最大的最小子集SI。开始,解集SI为空,输入(S,A)应用下面的详细SL步骤,这里S是与接收到的告警域相关的实体集,A是告警域中的所有告警的集合。
[0044]在该步骤中输入(St,At),这里St是集合S的子集,At是告警集A的子集且由St解释。
[0045]SL步骤动作如下:
[0046]I)若集合St为单元素集合,将St中的实体加入解集SI后结束;
[0047]2)若St不是单元素集合且其左右孩子集合都能解释At中的所有告警,选择集合中至少有一个实体是故障源的概率较高的那个孩子集合,对所选的集合重复进行SL步骤;
[0048]3)若St不是单元素集合且其中一个孩子集合能解释所有告警并且至少有一个实体是故障源的概率较高,那么选择该孩子集合,对其重复进行SL步骤;
[0049]4)若St不是单元素集合且仅有一个孩子集合能解释所有告警,但是另外一个孩子集合至少有一个实体是故障源的概率较高,或者两个孩子集合都不能解释所有告警,那么找到两个孩子集合中至少有一个实体是故障源的概率较高的那个孩子集合;WAt中找到该孩子解释的At子集,输入告警集At对该孩子重复进行SL步骤,对另外一个孩子集合重复进行SL步骤。
[0050]此外,本发明还可以通过一次或多次比较查找到的最相关的故障源对象与实际产生告警的故障源对象是否相符,并将查找到的相符的最相关的故障源对象及其相对应的原始初级告警信息存入经验库;当两个故障源对象引起某条原始初级告警信息的概率大致相同时,比如两个故障源对象引起某条原始初级告警信息的概率大小的差值在预设阀值内,则根据与所述经验库告警吻合的程度选择最相关的故障源对象。
[0051]综上所述,本发明提供的基于告警信息的故障定位方法,通过对相关联的告警进行整理、分析,对故障信息进行精确的定位,通过告警分析直指故障根源,方便维护人员快速解决问题,同时通过对故障的分析可以解决告警量大,告警信息繁杂等问题,并可以过滤掉很多误告警。具体优点如下:1)通过关联告警找到故障根源。应用不能访问了,直接表现是网站无法访问,会有一个告警把这个故障信息表现出来,那么通过本发明的技术,可以直接定位故障的根源,是中间件出问题了、还是数据库出问题了、或者是主机出问题了,为运维人员解决故障提供帮助。2)解决告警系统的误告警问题。通过故障之间关联、组合,定位故障问题,把一些由于临时峰值导致的一些误告警屏蔽掉,不会让运维人员接受到一些误告警信息。3)解决告警数据太大的问题。通过把统一告警域的告警通过分析,把很多初级告警信息通过分析、组合成高级告警,高级告警往往直接指出告警以及告警的根源,不会直接展示给运维人员非常多并繁杂的初级告警信息,把有效信息推到运维人员面前。4)对人的依赖度大幅降低。本发明中,告警的分析、整理,全部依赖实际数据从技术角度提出建议,不需要维护人员对业务知识的了解。不需要运维人员向以往一样要对业务系统各个部分都非常熟悉,查完一个对象接着查另一个对象解决问题,对维护人员的技术水平依赖也很大下降。
[0052]虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
【权利要求】
1.一种基于告警信息的故障定位方法,其特征在于,包括如下步骤: a)先将属于同一业务系统的关联对象划分为一个告警域; b)然后统一收集所有的原始初级告警信息并归入不同的告警域; c)最后对同一告警域内的所有原始初级告警信息进行过滤组合形成用于故障定位的高级告警信息。
2.如权利要求1所述的基于告警信息的故障定位方法,其特征在于,所述步骤a)中同一业务系统的关联对象包括该业务系统用到的应用程序、中间件、数据库、主机设备、存储设备以及网络设备。
3.如权利要求1所述的基于告警信息的故障定位方法,其特征在于,所述步骤b)通过综合网管统一收集原始初级告警信息,及时清除无效告警信息,控制告警信息传递时延在预设范围内,并对收集到的原始初级告警信息进行符合国际标准告警模型的标准化处理。
4.如权利要求1所述的基于告警信息的故障定位方法,其特征在于,所述原始初级告警信息的标准化处理程如下:将原始初级告警信息处理成统一的告警格式,处理后的告警信息包括告警时间、告警对象名称、告警描述、告警时间、告警等级和告警域。
5.如权利要求1所述的基于告警信息的故障定位方法,其特征在于,所述步骤c)的过程如下: Cl)对同一告警域内的每一条原始初级告警信息,在该告警域对应的关联对象按照概率大小查找最相关的故障源对象; c2)对具有相同故障源对象的多条原始初级告警信息进行过滤组合。
6.如权利要求5所述的基于告警信息的故障定位方法,其特征在于,所述步骤Cl)包括如下过程: ell)将该告警域对应的关联对象两两分组; cl2)对同一告警域内的每一条原始初级告警信息,按照概率大小查找每组中最相关的故障源对象; cl3)将查找到的最相关的故障源对象继续两两分组,重复步骤cl2)和cl3)直至找到最终唯一的故障源对象。
7.如权利要求5或6所述的基于告警信息的故障定位方法,其特征在于,还包括通过一次或多次比较查找到的最相关的故障源对象与实际产生告警的故障源对象是否相符,并将查找到的相符的最相关的故障源对象及其相对应的原始初级告警信息存入经验库;当两个故障源对象引起某条原始初级告警信息的概率大致相同时,根据与所述经验库告警吻合的程度选择最相关的故障源对象。
【文档编号】H04L12/24GK104348667SQ201410632772
【公开日】2015年2月11日 申请日期:2014年11月11日 优先权日:2014年11月11日
【发明者】程永新, 谢涛, 韦剑涛 申请人:上海新炬网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1