本申请涉及故障预测,特别地涉及一种故障的预测方法、装置、设备及存储介质。
背景技术:
1、在大数据领域中,cdh(cloudera distribution of hadoop)集群已成为一种被广泛采用的大数据处理平台,能够为各类企业和组织提供高效的数据处理和存储能力。然而,集群节点可能会遭遇内存故障等问题,这些问题可能源于硬件缺陷、软件错误、资源竞争或内存泄漏等原因。当集群内存突发故障会对集群的稳定性和服务质量造成重大影响,导致数据丢失、作业失败或服务中断等问题,从而对企业的运营产生负面影响。因此,预测集群不同节点下一次内存故障的时间变得尤为重要。
技术实现思路
1、针对上述问题,本申请提供一种故障的预测方法、装置、设备及存储介质,能够实现对内存故障进行预测。
2、本申请实施例提供一种故障的预测方法,包括:
3、获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;
4、将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;
5、将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间。
6、在一些实施例中,所述方法还包括:
7、获取集群中节点的初始样本数据,所述初始样本数据包括:节点的样本节点信息、节点的样本硬件信息、节点的硬件的样本位置信息、节点的内存的样本故障时间;
8、对所述初始样本数据进行标准化处理,得到样本数据集;
9、将所述样本数据集划分为训练集和测试集;
10、基于所述训练集训练多个机器学习模型,得到各个机器学习模型对应的初始模型;
11、基于所述测试集从所述初始模型中确定所述目标模型。
12、在一些实施例中,所述机器学习模型包括:对抗网络模型和预测模型,所述基于所述训练集训练多个机器学习模型,得到各个机器学习模型对应的初始模型,包括:
13、将所述训练集中的样本数据输入至对各个抗网络模型的生成器中生成假样本数据;
14、将所述训练集中的样本数据和所述假样本数据输入至对各个抗网络模型的判别器中对数据的真实性进行分类,得到分类数据;
15、基于所述分类数据训练各个预测模型,得到各个机器学习模型对应的初始模型。
16、在一些实施例中,所述基于所述测试集从所述初始模型中确定所述目标模型,包括:
17、将所述测试集中的样本数据输入至各个初始模型中得到各个预测结果;
18、基于各个预测结果及对应的样本数据的样本故障时间从所述初始模型中确定目标模型。
19、在一些实施例中,所述基于各个预测结果及对应的样本数据的样本故障时间从所述初始模型中确定目标模型,包括:
20、求取各个预测结果与对应的样本故障时间之间的均方根误差,得到各个预测结果对应的计算结果;
21、将计算结果最小对应的初始模型确定为目标模型。
22、在一些实施例中,样本节点信息包括:时间戳、内存使用率、cpu使用率、磁盘使用率、系统进程数和节点服务器的温度,所述样本硬件信息包括:硬件型号、硬件的出厂日期,所述对所述初始样本数据进行标准化处理,包括:
23、对时间戳、内存使用率、cpu使用率和磁盘使用率进行z-score标准化;
24、将系统进程数进行log函数转换;
25、对节点服务器的温度进行离散化处理;
26、将所述硬件型号、硬件的出厂日期和样本位置信息进行独热编码处理。
27、在一些实施例中,所述方法还包括:
28、确定所述目标模型的预测准确率是否小于准确率阈值或所述集群的节点的新样本数据与所述初始样本数据的比例是否达到预设比例阈值;
29、在所述目标模型的预测准确率小于准确率阈值或所述集群的节点的新样本数据与述初始样本数据的比例达到预设比例阈值的情况下,重新训练模型。
30、本申请实施例提供一种故障的预测装置,包括:
31、获取模块,用于获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;
32、标准化处理模块,用于将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;
33、预测模块,用于将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间。
34、本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行上述任意一项所述故障的预测方法。
35、本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述所述故障的预测方法。
36、本申请提供的一种故障的预测方法、装置、设备及存储介质,通过获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间,能够实现对内存故障进行预测,从而可以提前预防故障,优化维护计划。
1.一种故障的预测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述机器学习模型包括:对抗网络模型和预测模型,所述基于所述训练集训练多个机器学习模型,得到各个机器学习模型对应的初始模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述测试集从所述初始模型中确定所述目标模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于各个预测结果及对应的样本数据的样本故障时间从所述初始模型中确定目标模型,包括:
6.根据权利要求2所述的方法,其特征在于,样本节点信息包括:时间戳、内存使用率、cpu使用率、磁盘使用率、系统进程数和节点服务器的温度,所述样本硬件信息包括:硬件型号、硬件的出厂日期,所述对所述初始样本数据进行标准化处理,包括:
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
8.一种故障的预测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1至7任意一项所述故障的预测方法。
10.一种存储介质,其特征在于,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现如权利要求1至7任意一项所述故障的预测方法。