本发明涉及服务器,特别涉及一种测试upi降带宽的方法、装置、设备及存储介质。
背景技术:
1、upi(ultrapathinterconnect,超路径互联)是服务器cpu之间互连的高速总线,具有高效率、低功耗的功能特性,当upi的带宽充足时,cpu之间能够保持高速稳定的数据协同处理,因此,upi带宽链路影响cpu的性能,对维护服务器稳定极其重要。
2、现有对服务器cpu进行维护的方案是,当cpu的端口松动或其他原因导致cpu性能受影响时,需根据cpu相关性能信息分析故障的是哪个cpu,从而及时更换故障的cpu,实现对服务器的维护。
3、然而,服务器cpu实际发生upi降带宽故障时,运维人员根据cpu相关性能信息分析出可能故障的cpu,只能在更换cpu后,通过查看更换后的cpu相关性能信息,判断更换的cpu是否确为故障的cpu,如此,先更换cpu,判断是否为故障cpu的方式,耗费运维时间,并且判断的故障cpu可能不准确,加大运维成本,从而影响维护服务器效率。
技术实现思路
1、本发明实施例的目的在于提供一种测试upi降带宽的方法、装置、设备及存储介质,解决现有服务器cpu出现问题时运维效率低的问题,以实现准确高效的维护服务器,具体技术方案如下:
2、在本发明实施的第一方面,首先提供了一种测试upi降带宽的方法,应用于连接服务器的注错设备,所述服务器支持多个cpu,所述方法包括:
3、根据第一指令获取upi拓扑信息,其中,所述upi拓扑信息包括cpu间的互连状态;
4、基于所述cpu间的互连状态,确定待测cpu,根据第二指令获取所述待测cpu的upi第一带宽链路状态;
5、对所述待测cpu执行注错测试,控制待测cpu的upi带宽链路中至少一个带宽通道禁用;
6、查看是否触发提示日志,其中,所述提示日志用于报出所述待测cpu出现upi降带宽。
7、可选的,所述注错设备通过xdp接口连接服务器,所述根据第一指令获取upi拓扑信息之前,还包括:
8、检测所述服务器发送的连接信号;
9、根据所述连接信号,获取与所述服务器的连接状态;
10、若与所述服务器连接成功,显示连接成功的提示消息。
11、可选的,所述基于所述cpu间的互连状态,确定待测cpu,根据第二指令获取所述待测cpu的upi第一带宽链路状态,包括:
12、发送所述第二指令至所述服务器;
13、对所述待测cpu执行所述第二指令,所述第二指令用于查看所述待测cpu的upi带宽链路状态;
14、记录所述待测cpu的upi第一带宽链路状态;
15、根据所述upi第一带宽链路状态,确定所述待测cpu为全带宽运行状态。
16、可选的,所述对所述待测cpu执行注错测试,控制待测cpu的upi带宽链路中至少一个带宽通道禁用,包括:
17、发送所述注错测试指令至所述服务器;
18、根据所述注错测试指令,控制所述upi带宽链路中至少一个带宽通道禁用;其中,控制所述至少一个带宽通道禁用包括调整所述带宽通道值为预设断开值。
19、可选的,所述对所述待测cpu执行注错测试,控制待测cpu的upi带宽链路中至少一个带宽通道禁用之后,所述查看是否触发提示日志之前,还包括:
20、根据所述第二指令,获取待测cpu的upi第二带宽链路状态,其中,所述upi第二带宽链路状态是所述upi带宽链路中至少一个带宽通道禁用后的状态;
21、记录所述待测cpu的upi第二带宽链路状态;
22、根据所述upi第二带宽链路状态,确定所述待测cpu为非全带宽运行状态。
23、可选的,所述查看是否触发提示日志,包括:
24、接收所述服务器的基板管理控制器bmc发送的监测信息;
25、查看所述监测信息中是否出现所述待测cpu的upi降带宽提示日志;其中,所述监测信息用于反映服务器多个cpu的性能状态;
26、当确认所述监测信息中出现upi降带宽的提示日志时,发送所述提示日志至运维人员。
27、可选的,所述查看是否触发提示日志之后,还包括:
28、将记录的所述待测cpu的upi第二带宽链路状态与所述待测cpu的upi降带宽提示日志进行匹配,得到匹配结果;
29、根据所述匹配结果,判断测试upi降带宽是否成功。
30、在本发明实施的第二方面,还提供了一种测试upi降带宽的装置,应用于连接服务器的注错设备,所述服务器支持多个cpu,所述装置包括:
31、第一获取模块,用于根据第一指令获取upi拓扑信息,其中,所述upi拓扑信息包括cpu间的互连状态;
32、第二获取模块,用于基于所述cpu间的互连状态,确定待测cpu,根据第二指令获取所述待测cpu的upi第一带宽链路状态;
33、注错测试模块,用于对所述待测cpu执行注错测试,控制待测cpu的upi带宽链路中至少一个带宽通道禁用;
34、提示日志模块,用于查看是否触发提示日志,其中,所述提示日志用于报出所述待测cpu出现upi降带宽。
35、可选的,所述装置还包括:
36、检测模块,用于检测所述服务器发送的连接信号,根据所述连接信号,获取与所述服务器的连接状态,若与所述服务器连接成功,显示连接成功的提示消息。
37、可选的,所述第二获取模块具体用于:
38、发送所述第二指令至所述服务器;
39、对所述待测cpu执行所述第二指令,所述第二指令用于查看所述待测cpu的upi带宽链路状态;
40、记录所述待测cpu的upi第一带宽链路状态;
41、根据所述upi第一带宽链路状态,确定所述待测cpu为全带宽运行状态。
42、可选的,所述注错测试模块,具体用于
43、发送所述注错测试指令至所述服务器;
44、根据所述注错测试指令,控制所述upi带宽链路中至少一个带宽通道禁用;其中,控制所述至少一个带宽通道禁用包括调整所述带宽通道值为预设断开值。
45、可选的,所述装置还包括第三获取模块,所述第三获取模块具体用于:
46、根据所述第二指令,获取待测cpu的upi第二带宽链路状态,其中,所述upi第二带宽链路状态是所述upi带宽链路中至少一个带宽通道禁用后的状态;
47、记录所述待测cpu的upi第二带宽链路状态;
48、根据所述upi第二带宽链路状态,确定所述待测cpu为非全带宽运行状态。
49、可选的,所述提示日志模块包括:
50、接收子模块,接收所述服务器的基板管理控制器bmc发送的监测信息;
51、提示日志子模块,用于查看所述监测信息中是否出现所述待测cpu的upi降带宽提示日志;其中,所述监测信息用于反映服务器多个cpu的性能状态;
52、发送子模块,用于当确认所述监测信息中出现upi降带宽的提示日志时,发送所述提示日志至运维人员。
53、可选的,所述装置还包括:
54、匹配模块,用于将记录的所述待测cpu的upi第二带宽链路状态与所述待测cpu的upi降带宽提示日志进行匹配,得到匹配结果;
55、判断模块,用于根据所述匹配结果,判断测试upi降带宽是否成功。
56、在本发明实施的又一方面,还提供了一种通信设备,应用于连接服务器的注错设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;
57、所述处理器,用于读取存储器中的程序实现上述任一所述测试upi降带宽方法。
58、在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的测试upi降带宽方法。
59、本发明实施例提供的测试upi降带宽方法,通过第一指令获取upi拓扑信息,基于cpu间的互连状态,确定待测cpu,根据第二指令获取待测cpu的upi第一带宽链路状态,对待测cpu执行注错测试,控制待测cpu的upi带宽链路中至少一个带宽通道禁用,查看是否触发提示日志,以便于运维人员根据提示日志及时维护cpu。本发明实施例中,通过测试cpu出现upi降带宽时是否触发提示日志,实现针对于cpu出现upi降带宽的运维处理,即运维人员能够根据报出的upi降带宽提示日志,直接锁定出现upi降带宽问题的cpu,及时更换维护cpu,避免了无法准确检测出存在upi降带宽的cpu,从而影响服务器稳定性的问题,进一步节省运维时间,降低运维成本,提高了维护服务器的准确度和效率。