本发明涉及服务器,具体涉及故障类别预测模型的训练方法、装置、设备及介质。
背景技术:
1、在服务器技术领域中,服务器在运行过程中可能出现各类故障,包括硬件故障、软件故障、网络故障等等。例如,硬件故障可能是硬盘故障、内存故障、处理器故障、电源故障等等。软件故障可以是操作系统故障、应用程序故障等等。网络故障可能是网络连接故障、网络堵塞等等。
2、当前,对于上述各类故障,往往需要技术人员通过故障日志等信息进行分析,确定出错误原因。但是,随着集群中服务器数量的增加,以及服务器技术的更新速度加快,故障类别也越来越多,通过人工分析故障原因,效率较低,且很容易出现错误。
技术实现思路
1、有鉴于此,本发明提供了一种故障类别预测模型的训练方法、装置、设备、介质及产品,以解决人工分析故障原因效率低且容易出现错误的问题。
2、第一方面,本发明提供了一种故障类别预测模型的训练方法,所述方法应用于故障预测服务平台,所述方法包括:
3、获取故障数据训练集,其中,所述故障数据训练集中包括多条故障数据,以及与每一条所述故障数据对应的真实故障类别;
4、将每一条所述故障数据,以及与所述故障数据对应的真实故障类别,输入到待训练的故障类别预测模型中,得到与每一条所述故障数据对应的预测结果,其中,所述预测结果中包括所述故障数据属于所述待训练的故障类别预测模型能够预测的多种故障类别中每一种故障类别的概率;
5、根据与每一条所述故障数据对应的预测结果和真实故障类别,确定目标损失值;
6、当所述目标损失值小于预设损失值阈值时,确定满足停止训练条件,并将完成训练的故障类别预测模型确定为目标故障类别预测模型。
7、本发明提供的一种故障类别预测模型的训练方法,具有如下优点:
8、本实施例提供的故障类别预测模型的训练方法,通过上述方案得到的目标故障类别预测模型,可以自动完成对故障数据的分类操作,也即可以完成对故障数据的分析操作,无需人工进行分析,可以在提高故障分析效率的同时避免人工分析带来的误差。
9、在一种可选的实施方式中,所述根据与每一条所述故障数据对应的预测结果和真实故障类别,确定目标损失值,包括:
10、根据目标故障数据对应的预测结果,确定所述目标故障数据属于每一种所述故障类别的概率,其中,所述目标故障数据为多条所述故障数据中的任一条故障数据;
11、根据所述目标故障数据属于每一种所述故障类别的概率,确定所述目标故障数据对应的预测故障类别;
12、确定所述目标故障数据的预测故障类别和真实故障类别是否一致;
13、当确定所述目标故障数据的预测故障类别和真实故障类别不一致时,确定所述目标概率是否处于预设概率区间,其中,所述目标概率为与所述预测故障类别对应的概率;
14、当确定所述目标概率处于所述预设概率区间时,将预设损失值确定为所述目标故障数据的损失值。
15、具体地,通过目标概率和预设阈值区间的对比,以及预测故障类别和真实故障类别的对比,可以对误标注样本进行筛选,从而降低该类样本对目标损失值的影响程度。这样,可以使得最终训练得到的目标故障类别预测模型更加准确。
16、在一种可选的实施方式中,当确定所述目标故障数据的预测故障类别和真实故障类别一致,或者,所述目标故障数据的预测故障类别和真实故障类别不一致且所述目标概率不处于所述预设概率区间时,所述方法还包括:
17、在每一次循环中,分别以多种故障类别中的一种故障类别作为目标故障类别;
18、在当前循环中,确定所述目标故障数据的预测故障类别与目标故障类别是否一致;
19、当确定所述预测故障类别与所述目标故障类别一致时,将所述目标故障数据属于所述目标故障类别的概率输入到预获取的第一目标损失函数中,得到所述目标故障数据与所述目标故障类别之间的子损失值;
20、或者,
21、当确定所述预测故障类别与所述目标故障类别不一致时,将所述目标故障数据属于所述目标故障类别的概率输入到预获取的第二目标损失函数中,得到所述目标故障数据与所述目标故障类别之间的子损失值,直至确定出所述目标故障数据与多种故障类别中每一种所述故障类别之间的子损失值后,根据所述目标故障数据与每一种所述故障类别之间的子损失值,确定所述目标故障数据对应的损失值;
22、当确定出每一条所述故障数据对应的损失值后,根据每一条所述故障数据对应的损失值,确定所述目标损失值。
23、具体地,对于每一条故障数据,模型会与所有故障类别进行对比计算损失,这使得模型能够全面地学习和理解不同故障类别的区别,提高分类的全面性和准确性。
24、在一种可选的实施方式中,所述第一目标损失函数采用如下表达式:
25、l1=-α(1-yp)γlnyp(1)
26、其中,l1为所述子损失值,α为所述目标故障类别的预设权重值,γ为预设调制因子,yp为所述目标故障数据属于所述目标故障类别的概率。
27、具体地,通过对不同故障类别设置不同的预设权重值,可以平衡正负样本的重要性,并且设置预设调制因子,可以调节难易分类样本的重要性。这样,可以使得最终训练得到的目标故障类别预测模型更加准确。
28、在一种可选的实施方式中,所述第二目标损失函数采用如下表达式:
29、l2=-(1-α)ypγln(1-yp)(2)
30、其中,l2为所述子损失值,α为所述目标故障类别的预设权重值,γ为预设调制因子,yp为所述目标故障数据属于所述目标故障类别的概率。
31、具体地,通过对不同故障类别设置不同的预设权重值,可以平衡正负样本的重要性,并且设置预设调制因子,可以调节难易分类样本的重要性。这样,可以使得最终训练得到的目标故障类别预测模型更加准确。
32、第二方面,本发明提供了一种故障预警方法,所述方法应用于故障预测系统,所述故障预测系统包括本地集群和故障预测服务平台,所述本地集群包括多个节点,所述方法由目标对象执行,所述目标对象为第一节点,或者为所述故障预测服务平台,其中,所述第一节点为多个所述节点中的任一节点,所述方法包括:
33、获取目标故障预测任务,其中,所述目标故障预测任务包括所述第一节点在运行过程中产生的至少一条运行数据;
34、确定自身存储的数据分类模型和目标故障类别预测模型是否均为最新版本;
35、当确定所述数据分类模型和所述目标故障类别预测模型均为最新版本时,确定所述目标对象正在执行的故障预测任务对应的运行数据数量是否小于预设数量阈值;
36、当确定所述目标对象正在执行的故障预测任务对应的运行数据数量小于所述预设数量阈值时,将每一条所述运行数据输入到所述数据分类模型中,得到与每一条所述运行数据对应的第一分类结果,其中,所述第一分类结果为故障数据或正常数据;
37、当存在至少一条所述运行数据为故障数据时,将每一条所述故障数据输入到所述目标故障类别预测模型中,得到与每一条所述故障数据对应的第二分类结果,其中,所述第二分类结果为故障类别;
38、根据每一条所述故障数据,以及与每一条所述故障数据对应的故障类别,生成第一故障预警信息,并发送至客户端。
39、本发明提供的一种故障预警方法,具有如下优点:
40、第一,可以自动监测并获取节点的运行数据,实时执行故障预测任务,无需人工干预,可以提高故障分析的效率,便于用户根据故障分析结果采取措施,及时排除故障,保证本地集群的正常运行。第二,通过确认使用的数据分类模型和目标故障类别预测模型均为最新版本,可以确保采用最准确、高效的模型进行预测。第三,通过两级分类过程实现故障预测,首先使用数据分类模型区分正常数据与故障数据,然后将识别出的故障数据进一步输入目标故障类别预测模型,精确预测故障类别,可以增强了预测的准确性。第四,一旦发现故障数据,立即生成包含具体故障数据及其对应故障类别的预警信息,并迅速发送至客户端,使得技术人员能够及时掌握故障详情并采取相应措施,显著缩短了故障排查和修复的时间窗口。
41、在一种可选的实施方式中,当所述目标对象为所述第一节点时,且确定所述目标对象正在执行的故障预测任务对应的运行数据数量大于或等于所述预设数量阈值时,所述方法还包括:
42、广播目标报文,其中,所述目标报文中包括所述第一节点的通信信息,所述本地集群中的除所述第一节点之外的其他节点在接收到所述目标报文后,确定自身正在执行的故障预测任务对应的运行数据数量是否小于所述预设数量阈值,并在确定自身正在执行的故障预测任务对应的运行数据数量是否小于所述预设数量阈值时,根据所述第一节点的通信信息,向所述第一节点发送回复消息;
43、当在预设时长内接收到至少一条所述回复消息时,从至少一条所述回复消息对应的节点中选取第二节点;
44、将所述目标故障预测任务发送至所述第二节点,其中,所述第二节点在接收到所述目标故障预测任务后,执行所述目标故障预测任务,得到与所述目标故障预测任务中包括的每一条所述运行数据对应的第一分类结果,以及所述运行数据为故障数据时对应的第二分类结果;
45、接收所述执行结果,并对所述执行结果进行解析;
46、当根据解析结果确定存在至少一条所述运行数据为故障数据时,将每一条所述故障数据,以及与所述故障数据对应的第二分类结果,生成第二故障预警信息,并发送至所述客户端。
47、具体地,当第一节点的运行数据量超过预设阈值时,能通过广播方式调动本地集群中其他节点参与故障预测任务,充分利用本地集群的计算资源,可以提高故障分析速度和整体系统的负载均衡能力。
48、第三方面,本发明提供了一种故障类别预测模型的训练装置,所述装置应用于故障预测服务平台,所述装置包括:
49、获取模块,用于获取故障数据训练集,其中,所述故障数据训练集中包括多条故障数据,以及与每一条所述故障数据对应的真实故障类别;
50、预测模块,用于将每一条所述故障数据,以及与所述故障数据对应的真实故障类别,输入到待训练的故障类别预测模型中,得到与每一条所述故障数据对应的预测结果,其中,所述预测结果中包括所述故障数据属于所述待训练的故障类别预测模型能够预测的多种故障类别中每一种故障类别的概率;
51、确定模块,用于根据与每一条所述故障数据对应的预测结果和真实故障类别,确定目标损失值;当所述目标损失值小于预设损失值阈值时,确定满足停止训练条件,并将完成训练的故障类别预测模型确定为目标故障类别预测模型。
52、第四方面,本发明提供了一种故障预警装置,所述装置应用于故障预测系统,所述故障预测系统包括本地集群和故障预测服务平台,所述本地集群包括多个节点,所述装置包括:
53、获取模块,用于获取目标故障预测任务,其中,所述目标故障预测任务包括所述第一节点在运行过程中产生的至少一条运行数据;
54、确定模块,用于确定自身存储的数据分类模型和目标故障类别预测模型是否均为最新版本;当确定所述数据分类模型和所述目标故障类别预测模型均为最新版本时,确定所述目标对象正在执行的故障预测任务对应的运行数据数量是否小于预设数量阈值;当确定所述目标对象正在执行的故障预测任务对应的运行数据数量小于所述预设数量阈值时,将每一条所述运行数据输入到所述数据分类模型中,得到与每一条所述运行数据对应的第一分类结果,其中,所述第一分类结果为故障数据或正常数据;当存在至少一条所述运行数据为故障数据时,将每一条所述故障数据输入到所述目标故障类别预测模型中,得到与每一条所述故障数据对应的第二分类结果,其中,所述第二分类结果为故障类别;
55、发送模块,用于根据每一条所述故障数据,以及与每一条所述故障数据对应的故障类别,生成第一故障预警信息,并发送至客户端。
56、第五方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的故障类别预测模型的训练方法,或者,执行上述第二方面或其对应的任一实施方式的故障预警方法。
57、第六方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的故障类别预测模型的训练方法,或者,执行上述第二方面或其对应的任一实施方式的故障预警方法。
58、第七方面,本发明提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的故障类别预测模型的训练方法,或者,执行上述第二方面或其对应的任一实施方式的故障预警方法。