本发明涉及计算机,特别是涉及一种服务器散热异常检测方法、装置、设备及介质。
背景技术:
1、在服务器运行过程中,中央处理器(central processing unit,cpu)、电源等模块运行会进行大量散热,过高的温度容易导致服务器内部元器件受损。为促进散热,服务器一般安装有风扇模块,并在特定位置安装温度传感器,以采集服务器进风口和出风口的温度信息。同时,基板管理控制器(baseboard management controller,bmc)作为服务器部件监控的主要模块,通过读取温度传感器采集的数据,对服务器内部温度进行监控和上报。
2、当前,bmc的温度监控逻辑主要为阈值型监控,即:通过设置不同级别的阈值,当检测到温度超出某一阈值或低于另一阈值时,进行对应级别的告警。虽然上述温度监控逻辑的可靠性高,但是不能识别出温度值变化出现异常趋势,而温度值未超阈值的场景。因此,基于上述方式,bmc只能实现温度超限的事中告警甚至事后告警,无法检测温度变化的异常趋势并进行告警。
3、鉴于上述问题,如何解决对服务器的温度监控仅能实现事后告警,不能对温度变化的异常趋势进行告警,是本领域技术人员亟待解决的问题。
技术实现思路
1、本发明的目的是提供一种服务器散热异常检测方法、装置、设备及介质,以解决对服务器的温度监控仅能实现事后告警,不能对温度变化的异常趋势进行告警的问题。
2、为解决上述技术问题,本发明提供一种服务器散热异常检测方法,应用于基板管理控制器;所述方法包括:
3、根据预设周期采集服务器进风口和出风口的实际温度差值,并确定各实际温度差值对应的时刻;
4、获取第一时间段内各时刻对应的实际温度差值,并获取第二时间段内各时刻对应的实际温度差值;其中,所述第二时间段包含所述第一时间段,且所述第二时间段的开始时刻在所述第一时间段的开始时刻之前;
5、将所述第二时间段内各时刻对应的实际温度差值输入至温度差值预测模型中,以得与所述第一时间段内各时刻对应的预测温度差值;其中,所述温度差值预测模型是预先生成的基于预设时间段内的实际温度差值预测预设时间段结束时刻的预测温度差值的长短期记忆递归神经网络模型;
6、获取所述第一时间段内各时刻对应的实际温度差值与对应的预设温度差值的残差值,以得到预测残差序列;
7、根据所述预测残差序列和孤立森林算法确定所述第一时间段的温度变化评估结果,以根据所述温度变化评估结果确定所述服务器的散热情况。
8、一方面,所述温度差值预测模型的生成过程,包括:
9、基于数据采集周期,在预设时间段内采集所述服务器进风口和出风口的实际温度差值,并确定各实际温度差值对应的时刻,以生成样本数据;
10、对所述样本数据进行预处理,并根据预设比例将预处理后的所述样本数据分配为训练集数据和测试集数据;
11、在所述训练集数据中确定目标实际温度差值及其对应的目标时刻,并获取所述目标时刻的上一时刻的预测值和上一时刻的细胞状态;
12、基于第一权重和第一偏置量,根据所述目标实际温度差值和所述预测值确定遗忘门输出信号;
13、基于第二权重和第二偏置量,根据所述目标实际温度差值和所述预测值确定记忆门第一输出信号;
14、基于第三权重和第三偏置量,根据所述目标实际温度差值和所述预测值确定记忆门第二输出信号;
15、获取上一时刻的所述细胞状态与所述遗忘门输出信号的第一乘积,并获取所述记忆门第一输出信号与所述记忆门第二输出信号的第二乘积;
16、将所述第一乘积与所述第二乘积加和,以得到所述目标时刻的所述细胞状态;
17、基于第四权重和第四偏置量,根据所述目标实际温度差值和所述预测值确定输出门中间变量;
18、根据所述输出门中间变量和所述目标时刻的所述细胞状态确定所述目标时刻的目标预测值,以得到初始模型;
19、根据所述测试集数据判断所述初始模型的准确率是否大于阈值;
20、若否,则将所述目标时刻的下一时刻作为新的所述目标时刻,返回至所述在所述训练集数据中确定目标实际温度差值及其对应的目标时刻的步骤;
21、若是,则输出所述初始模型,以得到所述温度差值预测模型。
22、另一方面,所述对所述样本数据进行预处理,包括:
23、对所述样本数据中各实际温度差值进行线性插值重采样处理;
24、根据卡尔曼滤波公式对线性插值重采样处理后的所述样本数据进行降噪处理;其中,所述卡尔曼滤波公式具体包括:
25、
26、
27、
28、
29、
30、其中,k为不小于1的整数,为k时刻的预测温度差值,为k-1时刻的温度差最优估计值,为k时刻实际温度差值与预测温度差值之间的协方差,pk-1为k-1时刻实际温度差值与温度差最优估计值的协方差,q为过程噪声协方差,kk为卡尔曼增益矩阵,r为测量噪声协方差,为k时刻的温度差最优估计值,zk为状态矩阵观测量,pk为k时刻实际温度差值与温度差最优估计值的协方差,i为单位矩阵。
31、另一方面,所述根据所述预测残差序列和孤立森林算法确定所述第一时间段的温度变化评估结果,包括:
32、将所述预测残差序列输入至机器学习库中的孤立森林算法训练接口中,以对所述预测残差序列中的数据进行训练;
33、当训练完成时,接收孤立森林算法预测接口输出的所述第一时间段的所述温度变化评估结果。
34、另一方面,在所述接收孤立森林算法预测接口输出的所述第一时间段的所述温度变化评估结果之后,还包括:
35、对所述预测残差序列中各所述残差值及其对应的时刻进行二维数组可视化处理,以得到所述第一时间段内的预测残差变化趋势图;
36、根据所述温度变化评估结果标注所述预测残差变化趋势图中的各所述残差值的异常情况。
37、另一方面,所述根据所述温度变化评估结果确定所述服务器的散热情况,包括:
38、根据所述温度变化评估结果判断所述第一时间段内的温度差值变化是否出现异常;
39、若确认所述第一时间段内的温度差值变化出现异常,则输出所述服务器的散热异常的告警信息;
40、生成包含所述第一时间段内的温度差值变化情况的日志。
41、另一方面,在生成所述温度差值预测模型之后,还包括:
42、监测所述温度差值预测模型的运行时间;
43、判断所述温度差值预测模型的运行时间是否大于上限值;
44、若确认温度差值预测模型的运行时间大于所述上限值,则重新采集样本数据进行所述温度差值预测模型的训练。
45、为解决上述技术问题,本发明还提供一种服务器散热异常检测装置,应用于基板管理控制器;所述装置包括:
46、采集模块,用于根据预设周期采集服务器进风口和出风口的实际温度差值,并确定各实际温度差值对应的时刻;
47、第一获取模块,用于获取第一时间段内各时刻对应的实际温度差值,并获取第二时间段内各时刻对应的实际温度差值;其中,所述第二时间段包含所述第一时间段,且所述第二时间段的开始时刻在所述第一时间段的开始时刻之前;
48、预测模块,用于将所述第二时间段内各时刻对应的实际温度差值输入至温度差值预测模型中,以得与所述第一时间段内各时刻对应的预测温度差值;其中,所述温度差值预测模型是预先生成的基于预设时间段内的实际温度差值预测预设时间段结束时刻的预测温度差值的长短期记忆递归神经网络模型;
49、第二获取模块,用于获取所述第一时间段内各时刻对应的实际温度差值与对应的预设温度差值的残差值,以得到预测残差序列;
50、确定模块,用于根据所述预测残差序列和孤立森林算法确定所述第一时间段的温度变化评估结果,以根据所述温度变化评估结果确定所述服务器的散热情况。
51、为解决上述技术问题,本发明还提供一种服务器散热异常检测设备,包括:
52、存储器,用于存储计算机程序;
53、处理器,用于执行所述计算机程序时实现上述的服务器散热异常检测方法的步骤。
54、为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述服务器散热异常检测方法的步骤。
55、本发明所提供的服务器散热异常检测方法,应用于基板管理控制器;具体根据预设周期采集服务器进风口和出风口的实际温度差值,并确定各实际温度差值对应的时刻;获取第一时间段内各时刻对应的实际温度差值,并获取第二时间段内各时刻对应的实际温度差值;其中,第二时间段包含第一时间段,且第二时间段的开始时刻在第一时间段的开始时刻之前;将第二时间段内各时刻对应的实际温度差值输入至温度差值预测模型中,以得与第一时间段内各时刻对应的预测温度差值;其中,温度差值预测模型是预先生成的基于预设时间段内的实际温度差值预测预设时间段结束时刻的预测温度差值的长短期记忆递归神经网络模型;获取第一时间段内各时刻对应的实际温度差值与对应的预设温度差值的残差值,以得到预测残差序列;根据预测残差序列和孤立森林算法确定第一时间段的温度变化评估结果,以根据温度变化评估结果确定服务器的散热情况。本发明的有益效果在于,通过获取服务器进风口和出风口在第一时间段内的实际温度差值,以及在第二时间段内的实际温度差值,利用温度差值预测模型和第二时间段内的实际温度差值得到第一时间段内的预测温度差值,进而得到第一时间段内的服务器温度变化残差序列。最后采用孤立森林算法检测残差序列中的异常点,能够在服务器温度有异常趋势但未超阈值时实现异常检测,达到预警前移的目的,提高了服务器运行的可靠性。
56、此外,本发明还提供了一种服务器散热异常检测装置、设备及介质,效果同上。