一种硬件故障上报的处理方法及其相关设备与流程

文档序号:37512883发布日期:2024-04-01 14:20阅读:20来源:国知局
本技术实施例涉及硬件领域,尤其涉及一种硬件故障上报的处理方法及其相关设备。
背景技术
::1、当前计算设备的硬件部件出现可纠正故障(correctable error,ce)时,硬件自身会修复故障并向基本输入输出系统(basic input output system,bios)发送中断,用于通知bios有ce故障发生。2、而当一定时间内发生的ce故障较多时,过多的中断会影响操作系统(operatingsystem,os)业务的正常运行。技术实现思路1、本技术提供了一种硬件故障上报的处理方法及其相关设备,应用于硬件领域中。该硬件故障上报的方法能尽可能的降低ce故障过多时,故障中断的上报对正常业务的影响,且能适用于不同能力的故障诊断系统,适用于多种应用场景。2、第一方面,提供了一种硬件故障上报的处理方法,包括:3、计算设备通过独立处理单元的算法至少获取第一阈值以及第二阈值,第一阈值以及第二阈值存储于独立处理单元;4、计算设备基于第一阈值确定发生连续的可纠正错误ce;5、计算设备累计连续的ce的次数;6、计算设备基于连续的ce的次数以及第二阈值停止ce中断上报,ce中断用于通告发生ce。7、在本技术的实施方式中,计算设备通过独立处理单元的算法获取第一阈值以及第二阈值能支持实时修改各个阈值数据,且基于各个阈值数据停止ce中断的持续上报,能尽可能的降低ce故障过多时,故障中断的上报对正常业务的影响,保证正常业务的运行,同时能适用更多的应用环境,增加本方案的适用范围。8、在第一方面的一种可能实现方式中,计算设备通过独立处理单元的算法获取第三阈值,第三阈值存储于独立处理单元。9、且在计算设备基于连续的ce的次数以及第二阈值停止ce中断上报之后,计算设备基于停止ce中断上报的时长以及第三阈值继续上报ce中断。10、在本技术的实施方式中,独立处理单元还获取第三阈值,且基于第三阈值能继续上报ce中断,可以持续提供故障数据,能持续管理计算设备的硬件结构的故障状态。11、在第一方面的一种可能实现方式中,计算设备通过独立处理单元的算法基于中央处理器(central processing unit,cpu)的占用率实时确定第一阈值以及第二阈值,以及计算设备通过独立处理单元的算法基于故障诊断系统的能力需求确定第三阈值。12、在本技术的实施方式中,独立处理单元获取基于cpu占用率得到的第一阈值以及第二阈值,并基于故障诊断系统的能力需求确定第三阈值,能实时适应应用场景,可以适应不能能力的故障诊断系统的需求,提升方案的灵活性。13、在第一方面的一种可能的实现方式中,计算设备通过独立处理单元的算法从接口获取由用户自定义的第一阈值、第二阈值以及第三阈值,其算法支持从独立处理单元的接口获取数据。14、在本技术的实施方式中,计算设备通过独立处理单元的算法从接口获取由用户自定义的第一阈值、第二阈值以及第三阈值,用户根据当前应用场景从接口实时修改第一阈值、第二阈值以及第三阈值,能根据应用场景策略获取对应的各个阈值数据,能适应较多的应用场景。15、在第一方面的一种可能实现方式中,计算设备通过独立处理单元的算法获取第四阈值,第四阈值存储于独立处理单元。16、在计算设备基于停止ce中断上报的时长以及第三阈值继续上报ce中断之后,计算设备累计目标次数,其目标次数为停止ce中断的上报后继续上报ce中断的次数,然后计算设备基于目标次数以及第四阈值永久禁止ce中断的上报。17、在本技术的实施方式中,通过执行永久禁止ce中断的上报,可以有效的避免高概率发生ce故障的硬件结构经常上报ce中断,且ce故障可以进行自愈,进而避免了ce中断的不断上报影响正常业务的运行,且避免一直执行ce风暴抑制以及解除,减少计算设备的工作负担。18、在第一方面的一种可能实现方式中,计算设备通过bios基于第一阈值确定发生连续的ce。然后计算设备通过bios基于连续的ce的次数以及第二阈值停止ce中断上报。19、在本技术的实施方式中,举例说明了bios执行停止中断上报的操作,体现了方案的可靠性。20、在第一方面的一种可能实现方式中,计算设备通过基板管理控制器(baseboardmanagement controller,bmc)或os基于第一阈值确定发生连续的ce。21、以及计算设备通过bmc或os基于连续的ce的次数以及第二阈值停止ce中断上报。22、在本技术的实施方式中,还可以通过bmc或os实现停止ce中断的上报,体现了方案的灵活性。23、在第一方面的一种可能实现方式中,独立处理单元为以下任意一种:24、智能管理单元(inertial measurement unit,imu)或管理引擎(managementengine,me)、bmc或os,具体此处不做限定。25、在本技术的实施方式中,例举了独立处理单元的多种可能实现方式,体现了方案的多样性以及灵活性。26、第二方面,提供一种计算设备,包括cpu以及独立处理单元,该cpu用于存储bios;27、独立处理单元用于通过算法至少获取第一阈值以及第二阈值,第一阈值以及第二阈值存储于独立处理单元;28、bios用于基于第一阈值确定发生连续的可纠正错误ce;29、bios还用于累计连续的ce的次数;30、bios还用于基于连续的ce的次数以及第二阈值停止ce中断上报,ce中断用于通告发生ce。31、在本技术的实施方式中,独立处理单元通过算法获取第一阈值以及第二阈值能支持实时修改各个阈值数据,bios基于第一阈值以及第二阈值停止ce中断的持续上报能尽可能的降低ce故障过多时,故障中断的上报对正常业务的影响,同时能适用更多的应用环境,增加本方案的适用范围。32、在第二方面的一种可能的实现方式中,独立处理单元,还用于通过算法获取第三阈值,第三阈值存储于独立处理单元;33、独立处理单元还用于基于停止ce中断上报的时长以及第三阈值继续上报ce中断。34、在本技术的实施方式中,独立处理单元还获取第三阈值,且基于第三阈值能继续上报ce中断,可以持续提供故障数据,能持续管理计算设备的硬件结构的故障状态。35、在第二方面的一种可能的实现方式中,独立处理单元,具体用于通过算法基于cpu的占用率实时确定第一阈值以及第二阈值,且具体用于通过算法基于故障诊断系统的能力需求确定第三阈值。36、在本技术的实施方式中,独立处理单元获取基于cpu占用率得到的第一阈值以及第二阈值,并基于故障诊断系统的能力需求确定第三阈值,能实时适应应用场景,可以适应不能能力的故障诊断系统的需求,提升方案的灵活性。37、在第二方面的一种可能的实现方式中,独立处理单元,还用于通过算法获取第四阈值,第四阈值存储于独立处理单元,并且独立处理单元还用于累计目标次数,目标次数为停止ce中断的上报后继续上报ce中断的次数,然后独立处理单元还用于基于目标次数以及第四阈值永久禁止ce中断的上报。38、在本技术的实施方式中,通过执行永久禁止ce中断的上报,可以有效的避免高概率发生ce故障的硬件结构经常上报ce中断,且ce故障可以进行自愈,进而避免了ce中断的不断上报影响正常业务的运行,且避免一直执行ce风暴抑制以及解除,减少计算设备的工作负担。39、第三方面,提供另一种计算设备,包括cpu、独立处理单元以及存储芯片,存储芯片用于存储bios,cpu用于运行bios;40、独立处理单元用于通过算法至少获取第一阈值以及第二阈值,第一阈值以及第二阈值存储于独立处理单元;41、bios用于基于第一阈值确定发生连续的可纠正错误ce;42、bios还用于累计连续的ce的次数;43、bios还用于基于连续的ce的次数以及第二阈值停止ce中断上报,ce中断用于通告发生ce。44、在本技术的实施方式中,独立处理单元通过算法获取第一阈值以及第二阈值能支持实时修改各个阈值数据,bios基于第一阈值以及第二阈值停止ce中断的持续上报能尽可能的降低ce故障过多时,故障中断的上报对正常业务的影响,同时能适用更多的应用环境,增加本方案的适用范围。且bios存储于存储芯片,增加了方案的多样性。45、第四方面,提供另一种计算设备,包括cpu、独立处理单元以及bmc芯片;46、独立处理单元用于通过算法至少获取第一阈值以及第二阈值,第一阈值以及第二阈值存储于独立处理单元;47、bmc芯片用于基于第一阈值确定发生连续的可纠正错误ce;48、bmc芯片还用于累计连续的ce的次数;49、bmc还用于基于连续的ce的次数以及第二阈值停止ce中断上报,ce中断用于通告发生ce。50、在本技术的实施方式中,独立处理单元通过算法获取第一阈值以及第二阈值能支持实时修改各个阈值数据,bmc基于第一阈值以及第二阈值停止ce中断的持续上报能尽可能的降低ce故障过多时,故障中断的上报对正常业务的影响,同时能适用更多的应用环境,增加本方案的适用范围,且体现了方案的灵活性。51、第五方面,提供另一种计算设备,可以包括处理器,该处理器与存储器耦合,其中存储器用于存储指令,处理器用于执行存储器中的指令使得该计算设备执行本技术第一方面或第一方面任意一种可能实现方式所描述的方法。52、第六方面,提供另一种计算设备,包括处理器,用于执行存储器中存储的计算机程序(或计算机可执行指令),当计算机程序(或计算机可执行指令)被执行时,使得执行如第一方面及第一方面各个可能的实现方式中的方法。53、在一种可能的实现中,处理器和存储器集成在一起;54、在另一种可能的实现中,上述存储器位于该计算设备之外。55、该计算设备还包括通信接口,该通信接口用于该计算设备与其他设备进行通信,例如数据和/或信号的发送或接收。示例性的,通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。56、第七方面提供一种计算机可读存储介质,包括计算机可读指令,当计算机可读指令在计算机上运行时,使得本技术第一方面或第一方面任一种可能实现方式。57、第八方面,提供一种计算机程序产品,包括计算机可读指令,当计算机可读指令在计算机上运行时,使得本技术第一方面或第一方面任一种可能实现方式。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1