一种内存故障类型确定方法和服务器与流程

文档序号:37300804发布日期:2024-03-13 20:48阅读:11来源:国知局
一种内存故障类型确定方法和服务器与流程

本申请涉及计算设备,尤其涉及一种内存故障类型确定方法和服务器。


背景技术:

1、中央处理器(central processing unit,cpu)可以利用错误检查和纠正(errorchecking and correcting,ecc)机制纠正内存中的轻微故障。然而,随着内存中轻微故障的逐步积累,轻微故障具备极大的概率演变为严重故障,使得ecc机制不能对该故障执行相应的纠正,从而会导致服务器系统宕机,影响服务器系统业务的进行。

2、因此,如何识别内存潜在的故障类型成为当前亟待解决的技术问题。


技术实现思路

1、本申请实施例提供了一种内存故障类型确定方法和服务器,可以尽早识别出内存的故障类型,从而有利于确保服务器系统业务的稳定性。

2、第一方面,本申请实施例提供了一种内存故障类型确定方法,所述方法包括:获取内存颗粒的纠错信息,纠错信息包括内存颗粒的纠错巡检模式、第一计数值对应的第一上报值和第二计数值对应的第二上报值;第一计数值和第二计数值用于指示内存颗粒发生错误的次数;基于该纠错信息,确定该内存颗粒的故障类型。

3、在该技术方案中,基于内存颗粒的纠错信息,可以尽早识别内存颗粒的故障类型,这样一方面可以尽早对内存故障进行处理,从而有利于确保服务器系统业务的稳定性。另一方面,可以解决cpu无法感知内存故障也就不能识别内存故障类型的问题,还能解决bmc和os本身无法获取内存故障信息也就不能识别内存故障类型的问题。

4、在一种可能的实现方式中,获取内存颗粒的纠错信息的具体实施方式为:从内存颗粒的内存寄存器中获取该内存颗粒的纠错信息。

5、在一种可能的实现方式中,纠错巡检模式为行模式或码字模式;其中,该内存颗粒的纠错巡检模式为行模式的情况下,第一计数值为该内存颗粒中发生单比特错误的行的总数,该内存颗粒的纠错巡检模式为码字模式的情况下,第一计数值为该内存颗粒中发生单比特错误的总数;第一计数值小于第一上报阈值的情况下,第一上报值为预设值,第一计数值大于或等于第一上报阈值的情况下,第一上报值为第一计数值;第二计数值为该内存颗粒中发生单比特错误最多的行的单比特错误总数;第二计数值小于第二上报阈值的情况下,第二上报值为预设值,第二计数值大于或等于第二上报阈值的情况下,第二上报值为第二计数值;其中,预设值小于第一上报阈值和第二上报阈值。

6、在一种可能的实现方式中,内存颗粒的纠错巡检模式为行模式;基于纠错信息,确定内存颗粒的故障类型的具体实施方式为:在第一上报值和第二上报值均为预设值的情况下,确定内存颗粒的故障类型为存储单元故障;或者,在第一上报值为预设值以外的其他值,且第二上报值为预设值的情况下,确定内存颗粒的故障类型为列故障;或者,在第一上报值和第二上报值均为预设值以外的其他值的情况下,确定内存颗粒的故障类型为存储阵列故障;或者,在第一上报值为预设值,且第二上报值为预设值以外的其他值的情况下,确定内存颗粒的故障类型为行故障。

7、在一种可能的实现方式中,内存颗粒的纠错巡检模式为码字模式;基于纠错信息,确定内存颗粒的故障类型的具体实施方式为:在第一上报值和第二上报值均为预设值的情况下,确定内存颗粒的故障类型为存储单元故障;或者,在第一上报值为预设值以外的其他值,且第二上报值为预设值的情况下,确定内存颗粒的故障类型为列故障;或者,在第一上报值和第二上报值均为预设值以外的其他值,且第一上报值大于第二上报值的情况下,确定内存颗粒的故障类型为存储阵列故障;或者,在第一上报值和第二上报值均为预设值以外的其他值,且第一上报值与第二上报值相同的情况下,确定内存颗粒的故障类型为行故障。

8、在一种可能的实现方式中,所述方法还包括:在内存颗粒的故障类型为存储阵列故障或行故障或列故障的情况下,输出第一告警信息。

9、在该技术方案中,在内存颗粒的故障类型为存储阵列故障或行故障或列故障的情况下,该内存颗粒中发生单比特错误的次数较多,通过输出第一告警信息,可以提示技术人员尽早处理内存颗粒的故障,有利于提高服务器系统业务的稳定性。

10、在一种可能的实现方式中,内存颗粒所属的内存条包括至少一个内存颗粒,所述方法还包括:基于至少一个内存颗粒的故障类型,以及各个故障类型的风险权重,确定内存条的风险值;在内存条的风险值大于风险阈值的情况下,输出第二告警信息。

11、在该技术方案中,第二告警信息可以指示内存条处于亚健康状态,进一步的,bmc或cpu或技术人员可以对内存条进行故障修复,以使得内存条从亚健康状态恢复至健康状态,这样有利于提高服务器系统业务的稳定性。

12、在一种可能的实现方式中,内存颗粒为ddr5内存条中的内存颗粒。

13、第二方面,本申请实施例提供了一种内存故障类型确定装置,内存故障类型确定装置包括用于实现第一方面所述的方法的单元。内存故障类型确定装置可以包括管理控制器和/或处理器。

14、第三方面,本申请实施例提供一种管理控制器,管理控制器用于执行如第一方面的方法。

15、第四方面,本申请实施例提供一种处理器,处理器包括存储器,存储器用于存储程序指令,所述处理器用于执行所述程序指令,以使得所述处理器执行如第一方面的方法。

16、第五方面,本申请实施例提供一种服务器,该服务器包括如第三方面所述的管理控制器和/或如第四方面所述的处理器,该服务器还包括内存条,内存条包括至少一个内存颗粒,管理控制器、处理器和内存条电连接。

17、第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时使得第一方面所述的方法被实现。

18、第七方面,本申请实施例提供一种包括计算机程序或指令的计算机程序产品,当计算机程序或指令在计算机上运行时,使得计算机执行如第一方面的方法。



技术特征:

1.一种内存故障类型确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取内存颗粒的纠错信息,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述纠错巡检模式为行模式或码字模式;

4.根据权利要求3所述的方法,其特征在于,所述内存颗粒的纠错巡检模式为所述行模式;

5.根据权利要求3所述的方法,其特征在于,所述内存颗粒的纠错巡检模式为所述码字模式;

6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求4-6任一项所述的方法,其特征在于,所述内存颗粒所属的内存条包括至少一个内存颗粒,所述方法还包括:

8.根据权利要求1-7任一项所述的方法,其特征在于,所述内存颗粒为ddr5内存条中的内存颗粒。

9.一种服务器,其特征在于,所述服务器包括管理控制器和/或处理器,所述服务器还包括内存条,所述内存条包括至少一个内存颗粒,所述管理控制器、所述处理器和所述内存条电连接;

10.根据权利要求9所述的服务器,其特征在于,所述至少一个内存颗粒包括内存寄存器,所述内存寄存器用于存储所属内存颗粒的纠错信息,并向所述管理控制器或所述处理器上报所述纠错信息。


技术总结
本申请实施例公开一种内存故障类型确定方法和服务器,所述方法包括:获取内存颗粒的纠错信息,纠错信息包括内存颗粒的纠错巡检模式、第一计数值对应的第一上报值和第二计数值对应的第二上报值;第一计数值和第二计数值用于指示内存颗粒发生错误的次数;基于该纠错信息,可以尽早确定该内存颗粒的故障类型,这样可以尽早对内存故障进行处理,从而有利于确保服务器系统业务的稳定性。

技术研发人员:张光彪,甘延,梁永贵
受保护的技术使用者:超聚变数字技术有限公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1