
1.本发明实施例涉及计算机技术领域,尤其涉及一种故障处理系统、方法、设备和存储介质。
背景技术:2.随着计算机技术的发展,金融领域的业务模式快速生长,应用系统的数量和技术栈类型也越来越多。同时,由于金融行业的稳定性、实时性特点,监管部门对于7*24小时故障处置的时限要求也越来越高。
3.目前,大部分故障处置及排查仍基于运维人员的经验,导致故障处置的主观性大、故障处理效率低。此外,高强度的运维压力、低时限的故障处置恢复要求、琳琅满目的it技术栈(网络、操作系统、数据库、中间件、应用等),对于运维人员的心理、体力、脑力,都带来了巨大的考验。
技术实现要素:4.本发明实施例提供一种故障处理系统、方法、设备和存储介质,以提高故障定位速度、灵活确定自愈策略、提高故障处理效率。
5.第一方面,本发明实施例提供了一种故障处理系统,包括:告警子系统、匹配子系统、决策子系统、以及执行子系统;其中:
6.所述告警子系统,用于接收告警平台发送的故障告警信息;
7.所述匹配子系统,用于将接收的故障告警信息与预先存储的各策略信息进行匹配;其中,各所述策略信息包含告警描述信息与自愈任务标识的对应关系;
8.所述决策子系统,用于在所述匹配子系统匹配成功时,获取预先针对当前应用系统设置的自愈参数,根据所述自愈参数确定自愈策略,根据所述自愈策略确定是否向所述执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;
9.所述执行子系统,用于在接收到所述自愈任务执行指令时执行所述自愈任务标识对应的自愈任务。
10.第二方面,本发明实施例提供了一种故障处理方法,包括:
11.经由告警子系统接收告警平台发送的故障告警信息;
12.经由匹配子系统将接收的故障告警信息与预先存储的各策略信息进行匹配;其中,各所述策略信息包含告警描述信息与自愈任务标识的对应关系;
13.经由决策子系统在所述匹配子系统匹配成功时,获取预先针对当前应用系统设置的自愈参数,根据所述自愈参数确定自愈策略,根据所述自愈策略确定是否向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;
14.经由所述执行子系统在接收到所述自愈任务执行指令时执行所述自愈任务标识对应的自愈任务。
15.第三方面,本发明实施例提供了一种电子设备,包括
16.一个或多个处理器;
17.存储装置,用于存储一个或多个程序;
18.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的故障处理方法。
19.第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述的故障处理方法。
20.上述发明中的实施例具有如下优点或有益效果:
21.本发明实施例提供的方案中,预先存储包含告警描述信息与自愈任务标识的对应关系的各策略信息,在接收告警平台发送的故障告警信息时,将接收的故障告警信息与各策略信息进行匹配,若匹配成功则获取预先针对当前应用系统设置的自愈参数并根据自愈参数确定自愈策略,根据自愈策略确定是否向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;执行子系统在接收到自愈任务执行指令时执行自愈任务标识对应的自愈任务。本方案将故障告警信息与各策略信息进行匹配可以避免人工排查故障,提高故障定位速度及故障处理效率,根据自愈参数确定自愈策略可以提高自愈策略的准确性和灵活性。
附图说明
22.图1是本发明实施例一中的一种故障处理系统的结构示意图;
23.图2是本发明实施例二中的一种故障处理系统的结构示意图;
24.图3是本发明实施例三中的一种故障处理方法的流程图;
25.图4是本发明实施例四中的一种故障处理装置的结构示意图;
26.图5是本发明实施例五中的一种电子设备的结构示意图;
具体实施方式
27.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
28.另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。
29.实施例一
30.图1是本发明实施例一中的一种故障处理系统的结构示意图,本发明实施例可以适用于金融等领域的应用系统故障定位等场景,如图1所示,本发明实施例提供的一种故障处理系统包括告警子系统110、匹配子系统120、决策子系统130、以及执行子系统140。
31.其中,告警子系统110,用于接收告警平台发送的故障告警信息;匹配子系统120,用于将接收的故障告警信息与预先存储的各策略信息进行匹配;决策子系统130,用于在匹配子系统120匹配成功时,获取预先针对当前应用系统设置的自愈参数,根据自愈参数确定
自愈策略,根据自愈策略确定是否向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;执行子系统140,用于在接收到自愈任务执行指令时执行自愈任务标识对应的自愈任务。
32.具体的,故障告警信息可以理解为应用系统可能发生的任意一种和/或任意多种类型的故障事件,在实际应用中多种故障源均可以导致故障事件。具体的故障告警信息对应的故障源的类型可以包括以下任意一种:网络类型、主机类型、数据库类型、中间件类型以及应用类型。其中,网络类型的故障告警信息可以包括网络中断、网络丢包等;主机类型的故障告警信息可以包括服务器磁盘空间不足、cluster集群功能故障等;数据库类型的故障告警信息可以为数据库严重关键字错误;中间件类型的故障告警信息可以包括内存溢出故障、服务器状态未知(server status unknown)等;应用类型的故障告警信息可以包括应用进程down、应用程序hang、应用交易量突增/突降、应用交易耗时高、应用交易成功率低、应用日志错误等。
33.在实际应用中,通过设置告警源监控各应用系统以便各应用系统出现故障事件时可以及时获取相应的故障告警信息。针对不同的告警源,可以建立统一的告警平台并根据预设间隔时间定时采集告警源发送的故障告警信息,继而将所有故障告警信息集合至告警平台以便后续处理。具体的告警源例如可以为蓝鲸监控,通过蓝鲸监控可以实现作业脚本执行、日志检索、监控告警等功能。具体的预设间隔时间可以根据实际需求设定,例如可以为每间隔2分钟采集一次故障告警信息。预设人员可以设置多种告警源以提高针对各应用系统的故障告警能力。对于具体的告警源,在此不做具体限定。
34.具体的,告警平台从各告警源定时采集到故障告警信息之后,本实施例中的告警子系统110可以接收告警平台发送的故障告警信息并通过数据字典结构化存储故障告警信息,故障告警信息可以包含告警源、监控对象类型、标签、标签名、监控值、时间戳等信息,在此不做具体限定。具体的故障告警信息存储格式例如可以为:告警源(例如:蓝鲸监控)+监控对象类型(例如:应用类型)+标签(例如:应用质量标签)+指标名(例如:应用交易成功率)+监控值(例如:50)+时间戳(例如:2021
‑
04
‑
30 17:00:00)。
35.具体的,策略信息可以包含单策略信息和组合类策略信息。其中,单策略信息可以为单条告警描述信息的策略信息;组合类策略信息可以包含多条告警描述信息的策略信息,多条告警描述信息之间可以包含“与”和/或“或”的组合关系。其中,各策略信息包含告警描述信息与自愈任务标识的对应关系。预设人员可以根据实际情况预先设置各策略信息。
36.具体的,告警描述信息可以包含告警源、监控对象类型、标签、指标名等信息,自愈任务可以理解为通过故障告警信息对应的故障处理脚本自动修复当前应用系统的故障问题。自愈任务标识可以理解为解决该告警描述信息的故障处理脚本所对应的标识,自愈任务标识可以为数字和/或字符的组合,用来区分各故障处理脚本。由于不同告警描述信息表示的故障不同,即解决每种故障所使用的故障处理脚本也有所不同,可以将告警描述信息与自愈任务标识建立对应关系,因此策略信息中可以包含告警描述信息以及告警描述信息对应的自愈任务标识。其中,告警描述信息与自愈任务标识可能为一对一的对应关系,也可能为多对一的对应关系。
37.具体的,匹配子系统120可以将接收的故障告警信息与预先存储的各策略信息进
行匹配,具体的匹配方式可以包含关键字完全匹配、关键字模糊匹配、星号(*)匹配等。本发明实施例可以采用字符串模式匹配kmp算法将接收的故障告警信息与预先存储的各策略信息中的告警描述信息进行匹配以提高字符串的匹配效率,字符串模式匹配kmp算法利用匹配失败后的信息,通过减少模式串与主串的匹配次数达到快速匹配。
38.具体的,预设人员可以预先针对各应用系统设置个性化的自愈参数,自愈参数可以包含全自动执行策略、半自动执行策略、半自动单人确认后执行策略、半自动多人确认后执行策略、组合告警冷却时间段、自愈任务保护时间段、预设人员反馈时间段。可以根据当前应用系统预先设置的自愈参数确定自愈策略,预设人员可以为运维人员。其中,组合告警冷却时间段可以理解为:在该时间段内,接收到与组合类策略信息中各个告警描述信息分别匹配的故障告警信息;自愈任务保护时间段可以理解为:在该时间段内,不允许重复执行相同的自愈任务;预设人员反馈时间段可以理解为:在该时间段内,允许预设人员反馈是否执行自愈任务,预设人员反馈时间段可以根据实际情况预先设置。
39.示例性的,若应用系统a为7*24小时的对外服务的实时在线应用系统,故障告警应急要求级别较高,匹配子系统需同时匹配“应用交易成功率低”和“应用日志错误关键字xxx”,且需预设人员反馈信息确认是否执行自愈任务,则自愈参数可以设置为:半自动单人确认后执行策略,预设人员反馈时间段:5分钟,组合告警冷却时间段:5分钟,自愈任务保护时间段:5分钟。
40.示例性的,若应用系统b为5*9小时的对内报表应用系统,故障告警应急要求级别较低,匹配子系统仅匹配成功“应用日志错误关键字yyy”条件时即可触发自愈策略,无需预设人员反馈信息确认是否执行自愈任务,则自愈参数可以设置为:全自动执行策略,预设人员反馈时间段:0分钟,组合告警冷却时间段:1分钟,自愈任务保护时间段:10分钟。
41.具体的,在将接收的故障告警信息与任一策略信息进行匹配时,若该任一策略为单策略信息,当故障告警信息与该单策略信息中的告警描述信息匹配时则表明匹配成功;若该任一策略信息为组合类策略信息,则判断是否在预设的组合告警冷却时间段内接收到与该任一策略信息中各个告警描述信息分别匹配的故障告警信息,若是,则匹配成功,否则匹配失败。
42.需要说明的是,在将接收的故障告警信息与任一策略信息进行匹配时,可以选取故障告警信息中的告警源、监控对象类型、标签、指标名等多维度信息分别与任一策略信息中告警描述信息中的告警源、监控对象类型、标签、指标名等多维度信息进行匹配,当匹配子系统120匹配成功时,表示接收的故障告警信息与某一策略信息中的告警描述信息匹配,可以根据自愈策略确定是否向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。执行子系统140在接收到自愈任务执行指令时可以执行自愈任务标识对应的自愈任务,即根据故障处理脚本标识执行对应的故障处理脚本处理当前应用系统对应的故障。当匹配子系统120匹配失败时,则表示接收的故障告警信息与任一策略信息中的告警描述信息均无法匹配,因而不执行自愈任务。
43.具体的,执行子系统140根据接收到的自愈任务执行指令执行自愈任务标识对应的自愈任务后,可以将自愈任务执行结果通知至预设人员,并将自愈任务执行结果保存至报表并上传故障处理系统中。
44.本发明实施例提供的方案中,预先存储包含告警描述信息与自愈任务标识的对应
关系的各策略信息,在接收告警平台发送的故障告警信息时,将接收的故障告警信息与各策略信息进行匹配,若匹配成功则获取预先针对当前应用系统设置的自愈参数并根据自愈参数确定自愈策略,根据自愈策略确定是否向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;执行子系统在接收到自愈任务执行指令时执行自愈任务标识对应的自愈任务。本方案将故障告警信息与各策略信息进行匹配可以避免人工排查故障,提高故障定位速度及故障处理效率,个性化的自愈参数设置可以提高确定自愈策略的灵活性。
45.实施例二
46.图2为本发明实施例二提供的一种故障处理系统的结构示意图,本发明实施例是上述实施例的进一步细化,具体介绍了决策子系统如何确定自愈策略,如图2所示,本发明实施例提供的一种故障处理系统包括告警子系统110、匹配子系统120、决策子系统130、以及执行子系统140。
47.其中,告警子系统110接收告警平台发送的故障告警信息;匹配子系统120将接收的故障告警信息与预先存储的各策略信息进行匹配;在匹配子系统120匹配成功时,决策子系统130根据自愈参数确定自愈策略进而根据自愈策略确定是否向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;在接收到自愈任务执行指令时执行子系统140执行自愈任务标识对应的自愈任务。
48.具体的,决策子系统130根据自愈参数确定的自愈策略可以为全自动执行策略、半自动执行策略。若当前系统预先设定的自愈参数为全自动执行策略,则自愈策略可以为全自动执行策略,向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令,执行子系统140可以根据自愈任务执行指令调用自愈任务标识对应的故障处理脚本自动执行自愈任务,解决故障问题。
49.若当前系统预先设定的自愈参数为半自动执行策略,则自愈策略可以为半自动执行策略。决策子系统130可以向预设人员的通信账号发送通知消息,以使预设人员对是否执行自愈任务进行反馈;并根据预设人员的反馈信息确定是否向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。
50.其中,预设人员可以为运维人员,可以根据配置管理数据库(configuration management database:cmdb)的应用系统管理员列表实时筛选预设人员信息。通信账号可以包括邮件、短信、移动端等。反馈信息可以为是否执行自愈任务。
51.在实际应用中,当确定自愈策略为半自动执行策略之后,决策子系统130可以根据历史知识库确定匹配成功的策略信息对应的最近m次的历史任务执行信息。其中,历史知识库可以包含各策略信息对应的最近m次的历史任务执行信息,历史任务执行信息可以为各策略信息对应的历史自愈任务是否执行。其中,m为不小于1的整数,m可以根据实际情况设定,例如可以为3。具体的历史知识库例如可以包含:策略信息1:最近3次历史任务均执行自愈任务;策略信息2:最近3次历史任务均未执行自愈任务;策略信息3:最近3次历史任务,2次执行自愈任务,1次未执行自愈任务。
52.具体的,若根据最近m次的历史任务执行信息确定最近m次均执行了自愈任务,则表明与故障告警信息匹配成功的策略信息中的自愈任务最近m次历史任务中均执行,因而即使自愈策略为半自动执行策略也无需预设人员反馈是否执行自愈任务,可以直接向执行
子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;否则,表明与故障告警信息匹配成功的策略信息中的自愈任务最近m次历史任务中存在未执行情况,需要触发执行向至少一个预设人员的通信账号发送通知消息的操作,以便预设人员对是否执行自愈任务进行反馈。
53.示例性的,若自愈策略不为全自动执行策略时,可以根据历史知识库确定匹配成功的策略信息对应的最近3次的历史任务执行信息,若均为“是”,则无需预设人员反馈是否执行自愈任务,直接调用该策略信息中自愈任务标识对应的故障处理脚本进行自动化处理;若最近3次的历史任务执行信息中至少存在一次为“否”,则需要根据预设人员反馈信息确定是否执行自愈任务。
54.具体的,若半自动执行策略为半自动单人确认后执行策略,决策子系统140可以向至少一个预设人员的通信账号发送通知消息,以使预设人员对是否执行自愈任务进行反馈,当至少一个预设人员的反馈信息包括确认执行信息并且反馈时间在预设的人员反馈时间段内时,可以确定向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。即反馈信息包括确认执行信息以及反馈时间在预设的人员反馈时间段内为两个自愈任务执行条件,当至少一个预设人员反馈信息时同时满足上述两个自愈任务执行条件,可以确定向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。若所有预设人员的反馈信息不包括确认执行信息时则不满足自愈任务执行条件;若所有预设人员未在预设人员反馈时间内反馈信息也不满足自愈任务执行条件;若仅有一位预设人员的反馈信息包括确认执行信息,但该预设人员反馈信息时间不在预设的人员反馈时间段内时,同样不满足自愈任务执行条件。
55.具体的,若半自动执行策略为半自动多人确认后执行策略,决策子系统140可以向多个预设人员的通信账号发送通知消息,以使多个预设人员对是否执行自愈任务进行反馈,当每个预设人员的反馈信息均包括确认执行信息并且反馈时间在预设的人员反馈时间段内时,可以确定向执行子系统140发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。其中,多个预设人员的具体人数可以为不小于1的整数,例如可以为2。即每个预设人员反馈信息时需同时满足上述两个自愈任务执行条件才可以确定执行该自愈任务。若至少一个预设人员的反馈信息不包括确认执行信息时,则本次自愈任务不满足自愈任务执行条件;若至少一个预设人员未在预设人员反馈时间段内反馈信息时,则本次自愈任务不满足自愈任务执行条件。
56.具体的,在向至少一个预设人员的通信账号发送通知消息时,可以向通信账号发送匹配成功的策略信息对应的最近n次的历史自愈决策信息,以使各预设人员基于接收到的历史自愈决策信息,对是否执行自愈任务进行反馈,历史自愈决策信息有助于预设人员反馈更加合理的当前自愈决策信息。其中,历史自愈决策信息是指预设人员历史发送的是否执行自愈任务的反馈信息,历史自愈决策信息可以为执行自愈任务也可以为不执行自愈任务;其中,n为不小于1的整数,可以根据实际情况设置。
57.在上述实施例中,执行子系统140开始执行自愈任务后,若在预设的自愈任务保护时间段内再次接收到包含自愈任务标识的自愈任务执行指令,则忽略再次接收的自愈任务执行指令,以禁止执行相同的自愈任务。
58.具体的,执行子系统140在预设的自愈任务保护时间段内,可以缓存重复接收到的
自愈任务执行指令,但不会执行对应的自愈任务,以免多次执行自愈任务触发风险。
59.当执行子系统140执行自愈任务后,可以根据当前自愈任务的反馈信息“是否执行”对最近m次的历史任务执行信息重新计数,并及时更新历史知识库数据作为下次执行自愈任务时的参考依据。
60.本发明实施例提供的方案中,预先存储包含告警描述信息与自愈任务标识的对应关系的各策略信息,在接收告警平台发送的故障告警信息时,将接收的故障告警信息与各策略信息进行匹配,若匹配成功则决策子系统可以根据预先针对当前应用系统设置的自愈参数确定自愈策略,当自愈策略为全自动执行策略时则向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令,当自愈策略为半自动执行策略时,若历史知识库确定匹配成功的策略信息对应的最近m次的历史任务执行信息均执行自愈任务,则向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令,否则,触发执行向至少一个预设人员的通信账号发送通知消息的操作,预设人员的反馈信息确定执行自愈任务时则向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;执行子系统在接收到自愈任务执行指令时执行自愈任务标识对应的自愈任务。本方案将故障告警信息与各策略信息进行匹配可以避免人工排查故障,提高故障定位速度及故障处理效率;针对各应用系统设置个性化的自愈参数,并且参考历史任务执行信息和预设人员反馈信息确定自愈策略,提高了自愈策略的准确性和灵活性。
61.实施例三
62.图3是本发明实施例三中的一种故障处理方法的流程示意图,该方法可以由本发明实施例提供的故障处理装置来执行,该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中,该装置可以集成在电子设备中,电子设备比如可以是服务器。以下实施例将以该装置集成在电子设备中为例进行说明,参考图3,本发明实施例的方法具体包括如下步骤:
63.步骤210、经由告警子系统接收告警平台发送的故障告警信息。
64.步骤220、经由匹配子系统将接收的故障告警信息与预先存储的各策略信息进行匹配,各策略信息包含告警描述信息与自愈任务标识的对应关系。
65.步骤230、经由决策子系统在匹配子系统匹配成功时,获取预先针对当前应用系统设置的自愈参数,根据自愈参数确定自愈策略,根据自愈策略确定是否向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。
66.步骤240、经由执行子系统在接收到自愈任务执行指令时执行自愈任务标识对应的自愈任务。
67.可选的,若根据自愈参数确定的自愈策略为全自动执行策略,经由决策子系统向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;若根据自愈参数确定的自愈策略为半自动执行策略,则经由决策子系统向预设人员的通信账号发送通知消息,以使预设人员对是否执行自愈任务进行反馈;根据预设人员的反馈信息确定是否向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。
68.可选的,半自动执行策略可以为半自动单人确认后执行策略或半自动多人确认后执行策略。
69.若半自动执行策略为半自动单人确认后执行策略,则在至少一个预设人员的反馈
信息包括确认执行信息并且反馈时间在预设的人员反馈时间段内时,确定向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;
70.若半自动执行策略为半自动多人确认后执行策略,则在每个预设人员的反馈信息均包括确认执行信息并且反馈时间均在人员反馈时间段内时,确定向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。
71.可选的,经由决策子系统确定自愈策略为半自动执行策略之后、并且向至少一个预设人员的通信账号发送通知消息之前,根据历史知识库确定匹配成功的策略信息对应的最近m次的历史任务执行信息;其中,m为不小于1的整数;
72.若根据最近m次的历史任务执行信息确定最近m次均执行了自愈任务,则向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令,否则,触发执行向至少一个预设人员的通信账号发送通知消息的操作。
73.可选的,经由决策子系统向至少一个预设人员的通信账号发送通知消息时,向通信账号发送匹配成功的策略信息对应的最近n次的历史自愈决策信息,以使各预设人员基于接收到的历史自愈决策信息,对是否执行自愈任务进行反馈;其中,历史自愈决策信息是指预设人员历史发送的是否执行自愈任务的反馈信息;n为不小于1的整数。
74.可选的,在经由匹配子系统将接收的故障告警信息与任一策略信息进行匹配时,若该任一策略信息为组合类策略信息,则判断是否在预设的组合告警冷却时间段内接收到与该任一策略信息中各个告警描述信息分别匹配的故障告警信息,若是,则匹配成功;其中,组合类策略信息是指其中包含多条告警描述信息的策略信息。
75.可选的,在经由执行子系统开始执行自愈任务后,若在预设的自愈任务保护时间段内再次接收到包含自愈任务标识的自愈任务执行指令,则忽略再次接收的自愈任务执行指令,以禁止执行相同的自愈任务。
76.可选的,经由匹配子系统,可以采用字符串模式匹配kmp算法将接收的故障告警信息与预先存储的各策略信息进行匹配,其中,故障告警信息对应的故障源的类型包括以下任意一种:网络类型、主机类型、数据库类型、中间件类型以及应用类型。
77.上述步骤的具体实现方法可以参考上述发明实施例的具体内容,在此不再赘述。
78.本发明实施例提供了一种故障处理方法,经由告警子系统接收告警平台发送的故障告警信息;经由匹配子系统将接收的故障告警信息与预先存储的各策略信息进行匹配;其中,各策略信息包含告警描述信息与自愈任务标识的对应关系;经由决策子系统在匹配子系统匹配成功时,获取预先针对当前应用系统设置的自愈参数,根据自愈参数确定自愈策略,根据自愈策略确定是否向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;经由执行子系统在接收到自愈任务执行指令时执行自愈任务标识对应的自愈任务。本发明实施例中将故障告警信息与各策略信息进行匹配可以避免人工排查故障,提高故障定位速度及故障处理效率。进一步的,针对各应用系统设置个性化的自愈参数,并且参考历史任务执行信息和预设人员反馈信息,提高了自愈策略的准确性和灵活性。
79.实施例四
80.图4为本发明实施例四提供的一种故障处理装置的结构示意图。如图4所示,本发明实施例提供的故障处理装置可以包括告警模块310、匹配模块320、决策模块330和执行模
块340,其中:
81.告警模块310,用于接收告警平台发送的故障告警信息;
82.匹配模块320,用于将接收的故障告警信息与预先存储的各策略信息进行匹配;其中,各所述策略信息包含告警描述信息与自愈任务标识的对应关系;
83.决策模块330,用于在所述匹配子系统匹配成功时,获取预先针对当前应用系统设置的自愈参数,根据所述自愈参数确定自愈策略,根据所述自愈策略确定是否向所述执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;
84.执行模块340,用于在接收到所述自愈任务执行指令时执行所述自愈任务标识对应的自愈任务。
85.进一步的,所述决策模块330具体用于:
86.若根据所述自愈参数确定的自愈策略为全自动执行策略,则向所述执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;
87.若根据所述自愈参数确定的自愈策略为半自动执行策略,则向预设人员的通信账号发送通知消息,以使所述预设人员对是否执行自愈任务进行反馈;根据所述预设人员的反馈信息确定是否向所述执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。
88.进一步的,所述半自动执行策略为半自动单人确认后执行策略或半自动多人确认后执行策略;
89.所述决策模块330具体用于:
90.若所述半自动执行策略为半自动单人确认后执行策略,则在至少一个所述预设人员的反馈信息包括确认执行信息并且反馈时间在预设的人员反馈时间段内时时,确定向所述执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;
91.若所述半自动执行策略为半自动多人确认后执行策略,则在每个所述预设人员的反馈信息均包括确认执行信息并且反馈时间均在所述人员反馈时间段内时,确定向所述执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令。
92.进一步的,所述决策模块330还用于:
93.在确定所述自愈策略为半自动执行策略之后、并且向至少一个预设人员的通信账号发送通知消息之前,根据历史知识库确定匹配成功的策略信息对应的最近m次的历史任务执行信息;其中,m为不小于1的整数;
94.若根据所述最近m次的历史任务执行信息确定最近m次均执行了所述自愈任务,则向所述执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令,否则,触发执行向至少一个预设人员的通信账号发送通知消息的操作。
95.进一步的,所述决策模块330还用于:
96.在向至少一个预设人员的通信账号发送通知消息时,向所述通信账号发送匹配成功的策略信息对应的最近n次的历史自愈决策信息,以使各所述预设人员基于接收到的所述历史自愈决策信息,对是否执行自愈任务进行反馈;其中,所述历史自愈决策信息是指所述预设人员历史发送的是否执行所述自愈任务的反馈信息;n为不小于1的整数。
97.进一步的,所述匹配模块320具体用于:
98.在将接收的故障告警信息与任一策略信息进行匹配时,若该任一策略信息为组合
类策略信息,则判断是否在预设的组合告警冷却时间段内接收到与该任一策略信息中各个告警描述信息分别匹配的故障告警信息,若是,则匹配成功;其中,所述组合类策略信息是指其中包含多条告警描述信息的策略信息。
99.进一步的,所述执行模块340还用于:
100.在开始执行所述自愈任务后,若在预设的自愈任务保护时间段内再次接收到包含所述自愈任务标识的自愈任务执行指令,则忽略再次接收的所述自愈任务执行指令,以禁止执行相同的自愈任务。
101.进一步的,所述匹配模块320具体用于:
102.采用字符串模式匹配kmp算法,将接收的故障告警信息与预先存储的各策略信息进行匹配,其中,所述故障告警信息对应的故障源的类型包括以下任意一种:网络类型、主机类型、数据库类型、中间件类型以及应用类型。
103.本发明实施例所提供的故障处理装置可执行本发明任意实施例所提供的故障处理方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。
104.实施例五
105.图5为本实施例提供的一种电子设备的结构示意图。如图5所示,该电子设备包括处理器410、存储器420、输入装置430和输出装置440;该电子设备中处理器410的数量可以是一个或多个,图5中以一个处理器410为例;该电子设备的处理器410和存储器420可以通过总线或其他方式连接,图5中以通过总线连接为例。
106.存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的故障处理方法对应的程序指令以及模块(例如,故障处理装置中的告警模块310、匹配模块320、决策模块330和执行模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的故障处理方法。
107.存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实施例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
108.输入装置430可用于接收输入的数字或字符信息,以及产生与电子设备用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
109.实施例六
110.本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种故障处理方法,该方法包括:
111.经由告警子系统接收告警平台发送的故障告警信息;
112.经由匹配子系统将接收的故障告警信息与预先存储的各策略信息进行匹配;其中,各所述策略信息包含告警描述信息与自愈任务标识的对应关系;
113.经由决策子系统在所述匹配子系统匹配成功时,获取预先针对当前应用系统设置的自愈参数,根据所述自愈参数确定自愈策略,根据所述自愈策略确定是否向执行子系统发送包含匹配成功的策略信息中的自愈任务标识的自愈任务执行指令;
114.经由所述执行子系统在接收到所述自愈任务执行指令时执行所述自愈任务标识对应的自愈任务。
115.当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的故障处理方法中的相关操作.
116.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的故障处理方法。
117.值得注意的是,上述故障处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
118.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。