本技术涉及计算机,尤其涉及一种故障处理方法、案例库构建方法及相关设备。
背景技术:
1、随着计算机技术的发展,当今社会对计算能力的要求越来越高,算力的基础设备提供者—服务器也进入了需求大爆发的时代。低故障率、故障后快速定位恢复业务是服务器使用者的关键诉求。然而,目前在服务器出现故障的时候,主要依靠相关人员收集与服务器相关的信息,并将所收集到的信息发送给运维人员进行故障分析,并基于故障分析给出服务器故障的解决方案;但这种方式导致故障处理效率低下。
技术实现思路
1、本技术实施例提供了一种故障处理方法、案例库构建方法及相关设备,可以提升故障解决案例的获取效率以及准确率,进而提高故障处理效率。
2、第一方面,本技术实施例提供了一种故障处理方法,该方法包括:对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;输出所述服务器故障对应的目标故障解决案例。
3、在该技术方案中,通过对服务器故障的日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性。另外,根据与故障原因信息匹配的参考故障标签可从故障解决案例库中较为准确地获取用于解决该服务器故障的故障解决案例,提高了故障解决案例获取的准确性,进而提高了故障处理效率。
4、在一个实施例中,所述对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息,包括:对服务器故障的日志进行解压处理,得到解压日志;从所述解压日志中提取多个事件,并从所述多个事件中确定事件集合,所述事件集合与所述服务器故障关联;根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息。
5、在该技术方案中,通过提取多个事件可获取有效的事件,去除无效事件,这有利于后续确定故障原因信息;此外,从多个事件中确定与服务器故障有关的事件集合,也有利于准确确定服务器故障的故障原因信息。
6、在一个实施例中,从所述多个事件中确定事件集合,包括:根据事件发生时间,对所述多个事件进行排序,得到排序后的所述多个事件;从排序后的所述多个事件中确定事件集合,所述事件集合中的每个事件的事件发生时间与排序后的所述多个事件中最后一个事件的事件发生时间之间的差值在预设范围内。
7、在该技术方案中,通过事件发生时间可对多个事件排序,可快速从排序后的多个事件中确定某个时间段的事件。
8、在一个实施例中,所述解压日志中包括多个文件,所述从所述多个事件中确定事件集合,包括:确定各个事件所在的文件类型;按照各个事件所在的文件类型,对所述多个事件进行排序,得到排序后的所述多个事件;从排序后的所述多个事件中确定事件集合,所述事件集合中的事件所在的文件类型为目标文件类型。
9、在该技术方案中,通过文件类型可对多个事件排序,可快速确定每个文件中包含的事件从而快速确定目标文件类型下的事件,提升了故障原因信息的确定的效率。
10、在一个实施例中,该方法还包括:获取服务器故障的相关信息;对所述相关信息进行实体词提取,得到多个实体词,每个实体词为服务器故障的事件或者故障原因信息;确定所述多个实体词之间的关联关系;根据所述多个实体词以及所述多个实体词之间的关联关系构建故障诊断知识图谱。在该技术方案中,通过构建故障诊断知识图谱,可实现自动化根据事件集合确定故障原因信息。
11、在一个实施例中,所述事件集合包括多个标志事件以及每个标志事件的关联事件;所述根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息,包括:根据所述多个标志事件将所述事件集合分为多个事件子集合,一个事件子集合包括一个标志事件以及所述一个标志事件的关联事件;根据每个事件子集合从所述故障诊断知识图谱中,确定所述每个事件子集合对应的故障原因信息。
12、在该技术方案中,通过标志事件可将事件集合划分为多个事件子集合,可有效地确定每个标志事件对应的故障原因信息。
13、在一个实施例中,所述目标故障解决案例的数量为多个,所述输出所述服务器故障对应的目标故障解决案例,包括:确定与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重;根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序;输出排序后的多个目标故障解决案例。
14、在该技术方案中,通过与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重对各个目标故障解决案例进行排序,从而可直观确定各个目标故障解决案例与服务器故障之间的相关性。
15、在一个实施例中,根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序,包括:获取各个目标故障解决案例的历史使用次数;所述与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及所述各个目标故障解决案例的历史使用次数,对所述各个目标故障解决案例进行排序。
16、在该技术方案中,通过与故障原因信息匹配的参考故障标签所占比重以及历史使用次数可实现对各个目标故障解决案例进行精准排序。
17、在一个实施例中,根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序,包括:获取各个目标故障解决案例的成功率;根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及各个目标故障解决案例的成功率,对所述各个目标故障解决案例进行排序。
18、在该技术方案中,通过与故障原因信息匹配的参考故障标签所占比重以及成功率可实现对各个目标故障解决案例进行精准排序,从而可直观确定各个目标故障解决案例与服务器故障之间的相关性。
19、第二方面,本技术实施例提供了一种案例库构建方法,该方法包括:获取服务器故障的历史故障日志以及所述历史故障日志对应的历史故障解决案例;对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息;基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签;基于所述历史故障解决案例与对应的参考故障标签构建故障解决案例库。
20、在该技术方案中,通过对服务器故障的故障日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性。同时,基于历史故障原因信息可生成历史故障解决案例对应的参考故障标签,并将历史故障解决案例与该参考故障标签构建故障解决案例库,有利于后续根据参考故障标签从故障解决案例库快速获取相应的故障解决案例。
21、在一个实施例中,对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息,包括:对所述历史故障日志进行解压处理,得到解压故障日志;从所述解压故障日志中提取多个历史事件,并从所述多个历史事件中确定故障事件集合,所述故障事件集合与所述服务器故障关联;根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息。
22、在该技术方案中,通过提取多个历史事件可获取有效的事件,去除无效事件,这有利于后续快速准确地确定历史故障原因信息;此外,从多个历史事件中确定与服务器故障有关的事件集合,也有利于准确确定服务器故障的历史故障原因信息。
23、在一个实施例中,故障事件集合包括多个标志故障事件以及每个标志故障事件的关联故障事件;根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息,包括:根据所述多个标志故障事件将所述故障事件集合分为多个故障事件子集合,一个故障事件子集合包括一个标志故障事件以及所述一个标志故障事件的关联故障事件;根据每个故障事件子集合从故障诊断知识图谱中,确定所述每个故障事件子集合对应的历史故障原因信息。
24、在一个实施例中,当所述服务器故障的历史故障原因信息的数量为一个或多个时,所述基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签,包括:将各个历史故障原因信息直接作为所述历史故障解决案例对应的参考故障标签;或者,将所述各个历史故障原因信息进行整合处理,得到所述历史故障解决案例对应的参考故障标签;或者,按照参考故障标签生成规则,分别对每个历史故障原因信息进行转换,得到历史故障解决案例的一个或多个参考故障标签。
25、在该技术方案中,将各个历史故障原因信息直接作为参考故障标签,可得到更加多样化地参考故障标签。而通过对各个历史故障原因信息进行整合处理,可得到更加准确地参考故障标签。
26、在一个实施例中,该方法还包括:获取服务器的产品设计文档,所述产品设计文档中包含所述服务器故障的故障原因信息,以及所述故障原因信息对应的故障解决案例;根据所述产品设计文档中的故障原因信息,生成所述故障解决案例对应参考故障标签;将所述故障解决案例以及对应的参考故障标签关联存储至所述故障解决案例库。
27、在该技术方案中,通过产品设计文档中的故障原因信息和对应的故障解决案例可以丰富故障解决案例库,从而提升故障解决案例库的丰富性,进而可以提升从故障解决案例库中查找服务器故障的故障解决案例的准确性。
28、在一个实施例中,从所述多个历史事件中确定故障事件集合,包括:根据事件发生时间,对所述多个历史事件进行排序,得到排序后的所述多个历史事件;从排序后的所述多个历史事件中确定故障事件集合,所述故障事件集合中的每个历史事件的事件发生时间与排序后的所述多个历史事件中最后一个历史事件的事件发生时间之间的差值在预设范围内。
29、在该技术方案中,通过事件发生时间可对多个历史事件排序,可快速从排序后的多个历史事件中确定某个时间段的历史事件。
30、在一个实施例中,所述解压故障日志中包括多个文件,所述从所述多个历史事件中确定故障事件集合,包括:确定各个历史事件所在的文件类型;按照各个历史事件所在的文件类型,对所述多个历史事件进行排序,得到排序后的所述多个历史事件;从排序后的所述多个历史事件中确定故障事件集合,所述故障事件集合中的历史事件所在的文件类型为目标文件类型。
31、在该技术方案中,通过文件类型可对多个历史事件排序,可快速确定每个文件中包含的历史事件,从而快速确定目标文件类型下的历史事件,提升了故障原因信息的确定的效率。
32、第三方面,本技术实施例提供一种故障处理装置,该装置包括:
33、解析单元,用于对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;
34、确定单元,用于基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;
35、所述确定单元,还用于基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;
36、输出单元,用于输出所述服务器故障对应的目标故障解决案例。
37、第四方面,本技术实施例提供一种故障处理装置,该装置包括:
38、获取单元,用于获取服务器故障的历史故障日志以及所述历史故障日志对应的历史故障解决案例;
39、处理单元,用于对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息;
40、处理单元,还用于基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签;
41、处理单元,还用于基于所述历史故障解决案例与对应的参考故障标签构建故障解决案例库。
42、第五方面,本技术实施例提供一种故障处理设备,该故障处理设备包括:
43、处理器,适用于执行计算机程序;
44、计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时,实现如上述第一方面的方法或者上述第二方面的方法。
45、第六方面,本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器加载并执行上述第一方面的方法或者上述第二方面的方法。
46、第七方面,本技术实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。该故障处理设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该故障处理设备执行上述第一方面的方法或者上述第二方面的方法。