本发明涉及故障定位,尤其涉及一种基于多维度故障根因的定位方法及系统。
背景技术:
1、系统故障指的是信息技术行业承载业务系统的软硬件出现影响业务正常使用的问题,造成事务执行过程中以非正常方式终止,而根因定位指的是需要确认导致上述软硬件问题的原因。随着银行业务系统逐渐增多,业务逻辑调用关系越来越复杂,定位系统故障根因也越来越困难。
2、目前银行内的业务系统繁多,各系统之间的调用关系复杂,某个系统出现故障,常常伴有多个的上下游系统出现异常表现,而无法快速定位故障根因。人工分析故障往往消耗大量的人力,故障根因难以确定。现有的系统故障根因定位方法对应用的开发标准有较高的要求,需要改造的内容比较多,不能在不改变已有应用现状的前提下解决如何定位故障根因的问题。
技术实现思路
1、为解决现有技术的不足,本发明提出一种基于多维度故障根因的定位方法及系统,通过提供一种故障根因的定位方法,展示业务系统之间的逻辑关系,获取共性因子和链路信息,归集多维度故障根因,对不同属性的故障因子进行加权计分,实现自动分析定位系统故障根因,根据历史定位记录对故障根因定位方法进行自我优化,使得故障根因定位方法更加快速、准确。
2、为实现以上目的,本发明所采用的技术方案包括:
3、一种基于多维度故障根因的定位方法,其特征在于,包括:
4、s1.启动应急流程,自动调度故障定位分析平台,获取指定时间内所有告警数据,匹配配置管理数据库;
5、s2.以图形化展示应用系统和基础设施之间的关联关系,得到引发故障的共性因子,对所述共性因子指向的基础设施按关联告警数量进行积分累加并排序;
6、s3.定期获取实际交易的网络通讯对信息并导入图数据库,通过获取所述图数据库内的访问关系得到交易链路信息,关联交易链路信息与配置管理数据库数据形成链路调用关系图,将所述告警数据信息与链路访问基础信息进行检索适配,确定故障的交易访问链路信息;
7、s4.判断是否存在系统变更或巡检异常,对不同属性的故障因子进行加权计分并排序;
8、s5.根据历史定位记录自我优化,将准确命中故障根因的告警信息记录在知识库,若再次遇到相同的告警,则直接读取该加权分值。
9、进一步地,所述启动应急流程的时间点,即应急处置发起时间为t,所述获取指定时间内所有告警数据为t-10到t+5之间共计15分钟内的所有监控到的告警数据。
10、进一步地,所述步骤s2还包括:每关联到一个应用告警则积1分,积分越高对应占有的权重比例越大。
11、进一步地,所述步骤s3还包括:当系统故障,其链路节点位置在链路关系调用图中越靠后占有的权重比例越大。
12、进一步地,所述步骤s4包括:判断发出告警的系统是否存在变更,若存在变更,则计10分,若不存在系统变更则不计分;判断是否巡检出现异常,若巡检报异常,则计10分,若巡检没有异常则不计分。
13、进一步地,所述步骤s4还包括:
14、对4个不同属性的故障因子设置默认分数:链路信息50分、共性因子30分、变更数据10分、巡检情况10分;
15、设置权重比例分别为:40%、30%、20%、10%;
16、分别给链路信息和共性因子配置权重,判断是否存在变更数据或巡检是否异常;
17、将4个故障因子所对应的分数累加,得分最高的即为故障根因系统。
18、本发明还涉及一种基于多维度故障根因的定位系统,其特征在于,包括:
19、关联匹配模块,用于匹配配置管理数据库,获取访问关系;
20、图形展示模块,用于展示应用系统和基础设施之间的关联关系,展示链路调用关系图;
21、得分累计模块,用于累加不同属性的故障因子加权得分,并对其进行排序;
22、优化模块,用于根据历史定位记录自我优化。
23、本发明还涉及一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
24、本发明还涉及一种电子设备,其特征在于,包括处理器和存储器;
25、所述存储器,用于存储告警信息、关联关系、加权得分和历史定位记录;
26、所述处理器,用于通过调用存储告警信息、关联关系、加权得分和历史定位记录,执行上述的方法。
27、本发明还涉及一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现上述方法的步骤。
28、本发明的有益效果为:
29、采用本发明所述基于多维度故障根因的定位方法及系统,保证应用系统和基础设施间关联关系逻辑清晰,通过提供一种多维度故障根因的定位模型,完成系统故障分析定位过程全流程自动化,根据历史定位记录实现模型的强可训练性和高扩展性,解决了过去人工分析定位故障点易混乱、效率低的问题。
1.一种基于多维度故障根因的定位方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述启动应急流程的时间点,即应急处置发起时间为t,所述获取指定时间内所有告警数据为t-10到t+5之间共计15分钟内的所有监控到的告警数据。
3.如权利要求1所述的方法,其特征在于,所述步骤s2还包括:每关联到一个应用告警则积1分,积分越高对应占有的权重比例越大。
4.如权利要求1所述的方法,其特征在于,所述步骤s3还包括:当系统故障,其链路节点位置在链路关系调用图中越靠后占有的权重比例越大。
5.如权利要求1所述的方法,其特征在于,所述步骤s4包括:判断发出告警的系统是否存在变更,若存在变更,则计10分,若不存在系统变更则不计分;判断是否巡检出现异常,若巡检报异常,则计10分,若巡检没有异常则不计分。
6.如权利要求1所述的方法,其特征在于,所述步骤s4还包括:
7.一种基于多维度故障根因的定位系统,其特征在于,包括:
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
9.一种电子设备,其特征在于,包括处理器和存储器;
10.一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。