故障PCIe设备定位方法、服务器及电子设备与流程

文档序号:39344241发布日期:2024-09-10 12:06阅读:11来源:国知局
故障PCIe设备定位方法、服务器及电子设备与流程

本申请涉及通信,尤其涉及故障pcie设备定位方法、服务器及电子设备。


背景技术:

1、当前随着服务器所配置的高速串行计算机扩展总线标准(peripheral componentinterconnect express,pcie)设备数量的逐渐增加,对这些pcie设备的管理和维护也越来越重要。

2、目前在实际应用中,通常是通过记录这些pcie设备的相关故障日志(如pcie设备的高级错误报告(advanced error reporting,aer)寄存器信息)以用于故障定位和管理。所谓aer寄存器是pcie标注协议中定义的一个寄存器,该寄存器为系统提供了高级的错误控制和报告能力。但是在上述过程中,当pcie设备发生故障或报错时,可能会出现pcie相关故障日志的缺失情况,从而影响故障pcie设备的精准定位。


技术实现思路

1、有鉴于此,本申请提供了故障pcie设备定位方法、服务器及电子设备,以提高故障pcie设备定位的准确性。

2、本申请实施例提供一种故障pcie设备定位方法,该方法应用于服务器中的基板管理控制器(baseboard management controller,bmc),服务器通过pcie接口连接有n个pcie设备,n大于1;服务器还被部署了中央处理器(central processing unit,cpu);该方法包括:

3、bmc在检测到cpu挂起事件时,获得至少一个pcie设备的aer寄存器信息;任一pcie设备的aer寄存器信息是指该pcie设备的aer寄存器记录的信息;以基于所获得的aer寄存器信息定位故障pcie设备;

4、bmc在检测到pcie设备故障事件时,获得该pcie设备故障事件所指示的pcie设备所处的pcie链路上的至少一个pcie设备的aer寄存器信息,以基于所获得的aer寄存器信息定位故障pcie设备。

5、本申请实施例还提供一种服务器,该服务器包括:bmc和cpu,服务器通过pcie接口连接有n个pcie设备,n大于1;

6、bmc用于,在检测到cpu挂起事件时,获得至少一个pcie设备的aer寄存器信息;任一pcie设备的aer寄存器信息是指该pcie设备的aer寄存器记录的信息;以基于所获得的aer寄存器信息定位故障pcie设备;

7、在检测到pcie设备故障事件时,获得该pcie设备故障事件所指示的pcie设备所处的pcie链路上的至少一个pcie设备的aer寄存器信息,以基于所获得的aer寄存器信息定位故障pcie设备。

8、本申请实施例还提供一种电子设备,该电子设备包括:

9、处理器;以及

10、存储器,在该存储器中存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行如上方法的步骤。

11、本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令在被处理器运行时使得处理器执行如上方法中的步骤。

12、由以上技术方案可以看出,本申请实施例中通过bmc在检测到cpu挂起事件时,获得至少一个pcie设备的aer寄存器信息;bmc在检测到pcie设备故障事件时,获得该pcie设备故障事件所指示的pcie设备所处的pcie链路上的至少一个pcie设备的aer寄存器信息;这样通过在不同情况下采用不同的aer寄存器信息收集方案能够有效提高aer寄存器信息收集的全面性,避免现有pcie设备故障相关日志的缺失的情况,提高了故障pcie设备定位的准确性。



技术特征:

1.一种故障pcie设备定位方法,其特征在于,所述方法应用于服务器中的基板管理控制器bmc,所述服务器通过高速串行计算机扩展总线标准pcie接口连接有n个pcie设备,n大于1;所述服务器还被部署了中央处理器cpu;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述服务器还被部署了复杂可编程逻辑器件cpld;

3.根据权利要求1所述的方法,其特征在于,获得至少一个pcie设备的aer寄存器信息,包括:

4.根据权利要求3所述的方法,其特征在于,该pcie设备支持aer,包括:

5.根据权利要求1或4所述的方法,其特征在于,

6.根据权利要求1所述的方法,其特征在于,所述服务器还被部署了基本输入输出系统bios;

7.根据权利要求6所述的方法,其特征在于,该pcie设备故障事件所指示的pcie设备为所述参考pcie设备;

8.根据权利要求7所述的方法,其特征在于,所述pcie设备层级结构为树状结构;

9.一种服务器,其特征在于,所述服务器包括:基板管理控制器bmc和中央处理器cpu,所述服务器通过高速串行计算机扩展总线标准pcie接口连接有n个pcie设备,n大于1;

10.根据权利要求9所述的服务器,其特征在于,

11.一种电子设备,其特征在于,包括:


技术总结
本申请实施例提供故障PCIe设备定位方法、服务器及电子设备。本申请实施例通过BMC在检测到CPU挂起事件时,获得至少一个PCIe设备的AER寄存器信息;BMC在检测到PCIe设备故障事件时,获得该PCIe设备故障事件所指示的PCIe设备所处的PCIe链路上的至少一个PCIe设备的AER寄存器信息;这样通过在不同情况下采用不同的AER寄存器信息收集方案能够有效提高AER寄存器信息收集的全面性,避免现有PCIe设备故障相关日志的缺失的情况,提高了故障PCIe设备定位的准确性。

技术研发人员:陈昊,叶明建
受保护的技术使用者:新华三信息技术有限公司
技术研发日:
技术公布日:2024/9/9
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1