一种故障原因确定方法、装置、设备及介质与流程

文档序号:35651497发布日期:2023-10-06 11:48阅读:29来源:国知局
一种故障原因确定方法、装置、设备及介质与流程

本发明涉及服务器,特别是涉及一种故障原因确定方法、装置、设备及介质。


背景技术:

1、目前,服务器中一般包含中央处理器(central processing unit,cpu)、内存(memory)、硬盘(hard disk drive)以及高速串行计算机扩展总线标准(peripheralcomponent interconnect express,pcie)卡等部件。在服务器使用过程中,服务器内部的部件可能会出现故障,导致服务器上电开机时系统无法识别故障部件,服务器无法正常工作。因此,为了保证服务器正常运行,对故障部件的定位是服务器运维的重点之一。

2、当前对服务器中故障部件的定位是通过部件的在位信号实现:当系统未识别到某一部件,但该部件的在位信号显示部件在位时,认为该部件为故障部件。然而,这种方式仅能用于定位故障部件,不能确定故障部件的故障原因,例如供电故障、信号故障等,需要运维人员人工分析故障原因,效率低下。

3、鉴于上述问题,如何确定服务器内故障部件的故障原因,提高服务器运维效率,是该领域技术人员亟待解决的问题。


技术实现思路

1、本发明的目的是提供一种故障原因确定方法、装置、设备及介质,以确定服务器内故障部件的故障原因,提高服务器运维效率。

2、为解决上述技术问题,本发明提供一种故障原因确定方法,应用于基板管理控制器;所述方法包括:

3、获取服务器内各部件的电流值和功耗值;

4、判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值;

5、若所述部件的所述电流值不大于对应的所述电流阈值,且所述功耗值不大于对应的所述功耗阈值,则确认所述部件为故障部件,并判断所述故障部件的所述功耗值是否大于所述故障部件对应控制器的工作功耗值;

6、若所述功耗值大于所述工作功耗值,则确认所述故障部件的故障原因为总线数据传输故障;

7、若所述功耗值不大于所述工作功耗值,则确认所述故障部件的故障原因为部件供电硬件故障。

8、一方面,所述获取服务器内各部件的电流值和功耗值包括:

9、通过电流功耗监控芯片获取各所述部件的供电线路上的精密电阻两端的电压值;

10、分别根据各所述电压值和对应所述精密电阻的电阻值获取对应的所述部件的所述电流值和所述功耗值。

11、另一方面,在所述判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值之前,还包括:

12、获取预先存储于带电可擦可编程只读存储器中的各所述部件对应的所述电流阈值和所述功耗阈值。

13、另一方面,在所述确认所述故障部件的故障原因为总线数据传输故障之后,还包括:

14、生成所述故障部件的故障日志;

15、读取所述故障部件对应的所述控制器记录的故障数据,以查看所述故障原因。

16、另一方面,在所述确认所述故障部件的故障原因为部件供电硬件故障之后,还包括:

17、生成所述故障部件的故障日志;

18、输出表征部件供电硬件故障的告警信息。

19、另一方面,在所述确认所述部件为故障部件之后,还包括:

20、判断所述故障部件是否为所述服务器的必要部件;

21、若是,则禁止所述服务器上电开机,输出表征更换所述故障部件的告警信息;

22、若否,则控制所述服务器上电开机,设置所述故障部件不运行。

23、另一方面,当确定各所述部件的所述电流值大于对应的所述电流阈值,且所述功耗值大于对应的所述功耗阈值时,还包括:

24、输出所述服务器可以正常上电开机的提示信息。

25、为解决上述技术问题,本发明还提供一种故障原因确定装置,应用于基板管理控制器;所述装置包括:

26、获取模块,用于获取服务器内各部件的电流值和功耗值;

27、第一判断模块,用于判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值;若所述部件的所述电流值不大于对应的所述电流阈值,且所述功耗值不大于对应的所述功耗阈值,则触发第一确认模块;

28、所述第一确认模块,用于确认所述部件为故障部件,并触发第二判断模块;

29、所述第二判断模块,用于判断所述故障部件的所述功耗值是否大于所述故障部件对应控制器的工作功耗值;若所述功耗值大于所述工作功耗值,则触发第二确认模块,若所述功耗值不大于所述工作功耗值,则触发第三确认模块;

30、所述第二确认模块,用于确认所述故障部件的故障原因为总线数据传输故障;

31、所述第三确认模块,用于确认所述故障部件的故障原因为部件供电硬件故障。

32、为解决上述技术问题,本发明还提供一种故障原因确定设备,包括:

33、存储器,用于存储计算机程序;

34、处理器,用于执行所述计算机程序时实现上述的故障原因确定方法的步骤。

35、为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的故障原因确定方法的步骤。

36、本发明所提供的故障原因确定方法,应用于基板管理控制器;通过获取服务器内各部件的电流值和功耗值;判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则确认部件为故障部件,并判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则确认故障部件的故障原因为总线数据传输故障;若功耗值不大于工作功耗值,则确认故障部件的故障原因为部件供电硬件故障。由此可知,上述方案首先将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。

37、此外,本发明还提供了一种故障原因确定装置、设备及介质,效果同上。



技术特征:

1.一种故障原因确定方法,其特征在于,应用于基板管理控制器;所述方法包括:

2.根据权利要求1所述的故障原因确定方法,其特征在于,所述获取服务器内各部件的电流值和功耗值包括:

3.根据权利要求1所述的故障原因确定方法,其特征在于,在所述判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值之前,还包括:

4.根据权利要求1所述的故障原因确定方法,其特征在于,在所述确认所述故障部件的故障原因为总线数据传输故障之后,还包括:

5.根据权利要求1所述的故障原因确定方法,其特征在于,在所述确认所述故障部件的故障原因为部件供电硬件故障之后,还包括:

6.根据权利要求1至5任意一项所述的故障原因确定方法,其特征在于,在所述确认所述部件为故障部件之后,还包括:

7.根据权利要求6所述的故障原因确定方法,其特征在于,当确定各所述部件的所述电流值大于对应的所述电流阈值,且所述功耗值大于对应的所述功耗阈值时,还包括:

8.一种故障原因确定装置,其特征在于,应用于基板管理控制器;所述装置包括:

9.一种故障原因确定设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的故障原因确定方法的步骤。


技术总结
本发明公开了一种故障原因确定方法、装置、设备及介质,涉及服务器技术领域。方案通过获取服务器内各部件的电流值和功耗值,将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。

技术研发人员:王培培
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1