本发明涉及电路检测,特别是涉及一种服务器的检测链路的纠错方法、装置、设备及介质。
背景技术:
1、图形处理器(gpu,graphics processing unit)和gpu模组的更新换代带来了更高的浮点运行速度和显存带宽,gpu部件所带来的发热量也跟着水涨船高。gpu服务器通过检测链路实时获取gpu等高散热需求的元器件的温度,并根据温度执行对应的散热策略,以保证服务器能正常散热。当gpu服务器的检测链路异常时,就会失去对gpu实时温度状态的有效监测。
2、然而,现有的gpu管理方法,缺少对检测链路异常情况的纠错机制。若检测链路的异常没有被及时修复,则服务器无法根据实时温度状态执行对应的散热策略,可能会使gpu的温度长时间过热。在高温环境下,gpu的稳定性和使用寿命会大大降低,当gpu温度超过设计规格后,不仅会出现降频降速,甚至会出现超温掉卡、算力应用报错等故障,给gpu模组造成不必要的损耗,也降低了服务器的稳定性和计算效率。
技术实现思路
1、为了解决上述问题,本发明实施例公开了一种服务器的检测链路的纠错方法、装置、设备及介质。
2、第一方面,本发明实施例提供了一种服务器的检测链路的纠错方法,所述服务器包括图形处理器模组,所述检测链路用于检测所述图形处理器模组中的图形处理器的温度值,所述检测链路包括基板管理控制器的管理接口、所述基板管理控制器与主管理控制器之间的第一链路和所述主管理控制器的管理接口,所述方法包括:
3、获取所述检测链路检测的所述图形处理器模组中的图形处理器的温度值;
4、根据所述图形处理器模组中的图形处理器的温度值,判断是否满足温度异常条件;
5、当满足所述温度异常条件时,增大风扇的转速对所述图形处理器模组进行散热,并依次对所述基板管理控制器的管理接口、所述基板管理控制器与所述主管理控制器之间的第一链路和所述主管理控制器的管理接口进行纠错。
6、可选地,所述依次对所述基板管理控制器的管理接口、所述基板管理控制器与所述主管理控制器之间的第一链路和所述主管理控制器的管理接口进行纠错,包括:
7、检测所述基板管理控制器的管理接口的工作状态;
8、若所述基板管理控制器的管理接口的工作状态异常,则对所述基板管理控制器的管理接口进行纠错;
9、若所述基板管理控制器的管理接口的工作状态正常,则检测所述基板管理控制器与所述主管理控制器之间的第一链路的工作状态;
10、若所述第一链路的工作状态异常,则对所述第一链路进行纠错;
11、若所述第一链路的工作状态正常,则检测所述主管理控制器的管理接口的工作状态;
12、若所述主管理控制器的管理接口的工作状态异常,则对所述主管理控制器的管理接口进行纠错;
13、在所述基板管理控制器的管理接口的工作状态,所述第一链路的工作状态,所述主管理控制器的管理接口的工作状态均正常后,获取所述图形处理器的温度值;
14、若所有图形处理器的温度值均正常,则恢复所述风扇的转速。
15、可选地,所述若所述基板管理控制器的管理接口的工作状态异常,则对所述基板管理控制器的管理接口进行纠错,包括:
16、若所述基板管理控制器的管理接口未激活或被占用,则确定所述基板管理控制器的管理接口的工作状态异常;
17、重新启用所述基板管理控制器的管理接口的权限,以对所述基板管理控制器的管理接口进行纠错。
18、可选地,所述若所述第一链路的工作状态异常,则对所述第一链路进行纠错,包括:
19、若所述第一链路的网络连接状态异常,则确定所述第一链路的工作状态异常;
20、重新建立所述第一链路的网络连接,以对所述第一链路进行纠错。
21、可选地,所述主管理控制器的管理接口包括第一主管理控制器接口,所述若所述主管理控制器的管理接口的工作状态异常,则对所述主管理控制器的管理接口进行纠错,包括:
22、若所述第一主管理控制器接口未激活或被占用,则确定所述第一主管理控制器接口的工作状态异常;
23、对所述主管理控制器对应的管理功能进行重置,以对所述主管理控制器的管理接口进行纠错。
24、可选地,所述主管理控制器的管理接口还包括第二主管理控制器接口,所述对所述主管理控制器的管理接口进行纠错,还包括:
25、若对所述主管理控制器对应的管理功能进行重置后,所述主管理控制器的管理接口的工作状态还存在异常,则通过i2c命令对所述主管理控制器进行重置,以对所述主管理控制器的管理接口进行纠错。
26、可选地,所述方法还包括:
27、将依次对所述基板管理控制器的管理接口、所述基板管理控制器与所述主管理控制器之间的第一链路和所述主管理控制器的管理接口进行纠错的事件,记录到日志。
28、第二方面,本发明实施例提供了一种服务器的检测链路的纠错装置,所述服务器包括图形处理器模组,所述检测链路用于检测所述图形处理器模组中的图形处理器的温度值,所述检测链路包括基板管理控制器的管理接口、所述基板管理控制器与主管理控制器之间的第一链路和所述主管理控制器的管理接口,所述装置包括:
29、模组检测温度获取模块,用于获取所述检测链路检测的所述图形处理器模组中的图形处理器的温度值;
30、温度异常条件判断模块,用于根据所述图形处理器模组中的图形处理器的温度值,判断是否满足温度异常条件;
31、异常检测链路纠错模块,用于当满足所述温度异常条件时,增大风扇的转速对所述图形处理器模组进行散热,并依次对所述基板管理控制器的管理接口、所述基板管理控制器与所述主管理控制器之间的第一链路和所述主管理控制器的管理接口进行纠错。
32、可选地,所述异常检测链路纠错模块,包括:
33、第一检测子模块,用于检测所述基板管理控制器的管理接口的工作状态;
34、第一纠错子模块,用于若所述基板管理控制器的管理接口的工作状态异常,则对所述基板管理控制器的管理接口进行纠错;
35、第二检测子模块,用于若所述基板管理控制器的管理接口的工作状态正常,则检测所述基板管理控制器与所述主管理控制器之间的第一链路的工作状态;
36、第二纠错子模块,用于若所述第一链路的工作状态异常,则对所述第一链路进行纠错;
37、第三检测子模块,用于若所述第一链路的工作状态正常,则检测所述主管理控制器的管理接口的工作状态;
38、第三纠错子模块,用于若所述主管理控制器的管理接口的工作状态异常,则对所述主管理控制器的管理接口进行纠错;
39、温度获取子模块,用于在所述基板管理控制器的管理接口的工作状态,所述第一链路的工作状态,所述主管理控制器的管理接口的工作状态均正常后,获取所述图形处理器的温度值;
40、风扇调整子模块,用于若所有图形处理器的温度值均正常,则恢复所述风扇的转速。
41、可选地,所述第一纠错子模块,包括:
42、第一异常确定单元,用于若所述基板管理控制器的管理接口未激活或被占用,则确定所述基板管理控制器的管理接口的工作状态异常;
43、第一纠错单元,用于重新启用所述基板管理控制器的管理接口的权限,以对所述基板管理控制器的管理接口进行纠错。
44、可选地,所述第二纠错子模块,包括:
45、第二异常确定单元,用于若所述第一链路的网络连接状态异常,则确定所述第一链路的工作状态异常;
46、第二纠错单元,用于重新建立所述第一链路的网络连接,以对所述第一链路进行纠错。
47、可选地,所述主管理控制器的管理接口包括第一主管理控制器接口,所述第三纠错子模块,包括:
48、第三异常确定单元,用于若所述第一主管理控制器接口未激活或被占用,则确定所述第一主管理控制器接口的工作状态异常;
49、第三纠错单元,用于对所述主管理控制器对应的管理功能进行重置,以对所述主管理控制器的管理接口进行纠错。
50、可选地,所述主管理控制器的管理接口还包括第二主管理控制器接口,所述第三纠错子模块,还包括:
51、第四纠错单元,用于若对所述主管理控制器对应的管理功能进行重置后,所述主管理控制器的管理接口的工作状态还存在异常,则通过i2c命令对所述主管理控制器进行重置,以对所述主管理控制器的管理接口进行纠错。
52、可选地,所述装置还包括:
53、纠错事件记录日志模块,用于将依次对所述基板管理控制器的管理接口、所述基板管理控制器与所述主管理控制器之间的第一链路和所述主管理控制器的管理接口进行纠错的事件,记录到日志。
54、第三方面,本发明示出了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种服务器的检测链路的纠错方法的步骤。
55、第四方面,本发明示出了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的一种服务器的检测链路的纠错方法的步骤。
56、本发明实施例包括以下优点:
57、本发明实施例可以通过获取检测链路检测的图形处理器模组中的图形处理器的温度值,以实时监测图形处理器的温度值;根据图形处理器模组中的图形处理器的温度值,判断是否满足温度异常条件,以便根据图形处理器的温度值即时判断检测链路的工作状态;当满足温度异常条件时,增大风扇的转速对图形处理器模组进行散热,并依次对基板管理控制器的管理接口、基板管理控制器与主管理控制器之间的第一链路和主管理控制器的管理接口进行纠错,从而可以在服务器的检测链路异常时,及时修复异常,避免失去对gpu实时温度状态的检测而导致gpu的温度长时间过热,提高了gpu模组服务器大规模计算的稳定性和计算效率。