本申请涉及智能运维,具体而言,本申请涉及一种网络设备故障处理方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、随着各类高可用集群,各类安全、网络、服务器等设备层出不穷,技术组件也越来越多,当设备中的组件出现故障时,面向海量的告警信息单纯依靠人力将无法快速响应排障需求。
2、目前实现故障自愈的方法主要是依赖人工提前梳理好的固化知识库,即包含了故障类型和对应处理方案的知识库,故障发生且定位出故障的类型后,通过预设脚本直接启动固化知识库中的对应处理方案,实现故障的自动处理修复。
3、但是人工梳理的故障处理方案不一定完全合理,即方案执行后未必能完成该故障的自动修复,因此现有技术在实现设备故障的自动处理修复时缺乏一定的检测机制。
技术实现思路
1、本申请实施例提供了一种网络设备故障处理的方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决故障处理缺乏检测机制的问题。所述技术方案如下:
2、根据本申请实施例的第一方面,提供了一种网络设备故障处理的方法,该方法包括:
3、获取运维数据集,所述运维数据集包括至少一个网络设备的运维数据;
4、对所述运维数据集进行异常检测,确定所述运维数据集中的异常运维数据,基于所述异常运维数据确定设备故障;
5、对所述设备故障进行根因定位,确定故障根因;
6、基于预先确定的知识图谱确定所述故障根因的至少一个候选处置策略;
7、使用数字孪生技术对所述至少一个候选处置策略进行测试,根据各个候选处置策略的测试结果,从所述至少一个候选处置策略中确定目标处置策略;
8、执行所述目标处置策略。
9、可选的,所述运维数据包括日志数据和性能指标数据中的至少一者;
10、所述对所述运维数据集进行异常检测,确定所述运维数据集中的异常运维数据,基于所述异常运维数据确定设备故障,包括以下至少一者:
11、对于任意一种性能指标数据,根据所述性能指标数据的类型确定相应的异常检测算法,根据所述异常检测算法、静态阈值策略和异常聚合策略,对所述性能指标数据进行异常检测;
12、对于任意一种日志数据,根据所述日志数据的数量变化程度、关键词以及日志模式中的至少一者,对所述日志数据进行异常检测;
13、对于任意一种性能指标数据,通过机器学习算法对所述性能指标数据的变化趋势进行预测,并结合预警策略对性能指标数据进行预警。
14、可选的,所述对所述运维数据集进行异常检测,确定所述运维数据集中的异常运维数据,基于所述异常运维数据确定设备故障,还包括:
15、确定设备故障的严重程度等级。
16、可选的,基于预先确定的知识图谱确定所述故障根因的至少一个候选处置策略之前,还包括:
17、确定故障根因与处置策略的对应关系;
18、根据所述故障根因与处置策略的对应关系,构建知识图谱,所述知识图谱包括至少一个故障根因、与所述故障根因具有对应关系的处置策略以及相应处置策略的权重;
19、可选的,使用数字孪生技术对所述至少一个候选处置策略进行测试,根据各个候选处置策略的测试结果,从所述至少一个候选处置策略中确定目标处置策略,包括:
20、使用数字孪生技术创建故障设备的数字孪生模型;
21、根据故障根因的各个候选策略的权重从大到小的顺序,对所述至少一个候选处置策略在所述故障设备的数字孪生模型中进行动态模拟仿真和分析;
22、将各个候选处置策略的动态模拟仿真和分析结果作为测试结果,根据各个候选处置策略的测试结果,从所述至少一个候选处置策略中确定目标处置策略。
23、可选的,所述从所述至少一个候选处置策略中确定目标处置策略,之后还包括:
24、若所述目标处置策略的权重不为最高的权重,则增加所述目标处置策略在知识图谱中的权重。
25、可选的,所述对所述运维数据集进行异常检测,之前还包括:
26、对所述运维数据进行数据处理;
27、其中,所述数据处理的方式包括以下至少一者:
28、数据解析;
29、数据清洗;
30、数据过滤;
31、数据衍生;
32、数据聚合;
33、数据转换;以及
34、数据特征分析。
35、根据本申请实施例的第二方面,提供了一种网络设备故障处理的装置,该装置包括:
36、获取模块,用于获取运维数据集,所述运维数据集包括至少一个网络设备的运维数据;
37、检测模块,用于对所述运维数据集进行异常检测,确定所述运维数据集中的异常运维数据,基于所述异常运维数据确定设备故障;
38、定位模块,用于对所述设备故障进行根因定位,确定故障根因;
39、匹配模块,用于基于预先确定的知识图谱确定所述故障根因的至少一个候选处置策略;
40、预处置模块,用于使用数字孪生技术对所述至少一个候选处置策略进行测试,根据各个候选处置策略的测试结果,从所述至少一个候选处置策略中确定目标处置策略;
41、执行模块,用于执行所述目标处置策略。
42、根据本申请实施例的第三方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行程序时实现如第一方面所提供的方法的步骤。
43、根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
44、本申请实施例提供的技术方案带来的有益效果是:
45、通过采用数字孪生技术对故障处理增加检测机制,因此克服了现有技术在使用固定策略进行故障处理时因缺乏检测机制,导致的无法解决设备故障反而可能产生更严重的设备故障的问题,进而达到了提高了设备故障处理的准确率。
1.一种网络设备故障处理的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述运维数据包括日志数据和性能指标数据中的至少一者;
3.根据权利要求2所述的方法,其特征在于,所述对所述运维数据集进行异常检测,确定所述运维数据集中的异常运维数据,基于所述异常运维数据确定设备故障,还包括:
4.根据权利要求1所述的方法,其特征在于,基于预先确定的知识图谱确定所述故障根因的至少一个候选处置策略之前,还包括:
5.根据权利要求1所述的方法,其特征在于,使用数字孪生技术对所述至少一个候选处置策略进行测试,根据各个候选处置策略的测试结果,从所述至少一个候选处置策略中确定目标处置策略,包括:
6.根据权利要求5所述的方法,所述从所述至少一个候选处置策略中确定目标处置策略,之后还包括:
7.根据权利要求1所述的方法,其特征在于,所述对所述运维数据集进行异常检测,之前还包括:
8.一种网络设备故障处理装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。