一种故障定位方法、装置、设备及计算机可读存储介质与流程

文档序号:20682003发布日期:2020-05-08 18:29阅读:102来源:国知局
一种故障定位方法、装置、设备及计算机可读存储介质与流程

本发明涉及服务器领域,特别是涉及一种故障定位方法,本发明还涉及一种故障定位装置、设备及计算机可读存储介质。



背景技术:

服务器在开机启动的时候bios(basicinputoutputsystem,基本输入输出系统)需要进行自检,在这个过程中,若服务器中的某些器件(例如cpu以及pcie(peripheralcomponentinterconnectexpress,高速串行计算机扩展总线标准)卡)发生故障,很可能导致服务器hang机(死机),在这种情况下工作人员需要打开bios中的debugmode(查错模式),并重启服务器使死机问题复现,如此一来,bios在自检阶段对服务器中各个器件进行自检的同时,还能够生成对服务器中各个器件的查错数据并输出,工作人员通过对查错数据的分析便可以确定出故障的器件,但是此种情况下由于器件较多,因此查错数据的总量较大,查错数据的输出过程较长,工作人员定位故障的速度也就受到影响,工作效率较低。

因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。



技术实现要素:

本发明的目的是提供一种故障定位方法,能够使得工作人员更快地定位故障,工作效率较高;本发明的另一目的是提供一种故障定位装置、设备及计算机可读存储介质,能够使得工作人员更快地定位故障,工作效率较高。

为解决上述技术问题,本发明提供了一种故障定位方法,包括:

获取服务器在基本输入输出系统bios自检阶段死机时自检指示灯组的指示状态;

根据所述指示状态以及预设的指示状态与自检阶段的对应关系确定出所述服务器死机时对应的问题自检阶段;

开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能;

控制所述服务器复现死机问题并接收所述问题自检阶段的查错数据,以便工作人员进行故障定位。

优选地,所述根据所述指示状态以及预设的指示状态与自检阶段的对应关系确定出所述服务器死机时对应的问题自检阶段之后,所述开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能之前,该故障定位方法还包括:

接收用户对所述问题自检阶段的确认指令或者修改指令;

若接收到所述确认指令,则执行步骤:开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能;

若接收到所述修改指令,则将修改指令中的自检阶段作为所述问题自检阶段,并执行步骤:开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能。

优选地,所述控制所述服务器复现死机问题并接收所述问题自检阶段的查错数据之后,该故障定位方法还包括:

控制提示器提示接收到的所述问题自检阶段的查错数据。

优选地,所述开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能具体为:

通过服务器中的基板管理控制器bmc开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能。

优选地,所述通过服务器中的bmc开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能具体为:

通过在bmc上使用智能平台管理接口ipmi工具开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能。

为解决上述技术问题,本发明还提供了一种故障定位装置,包括:

获取模块,用于获取服务器在基本输入输出系统bios自检阶段死机时自检指示灯组的指示状态;

确定模块,用于根据所述指示状态以及预设的指示状态与自检阶段的对应关系确定出所述服务器死机时对应的问题自检阶段;

开启模块,用于开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能;

控制模块,用于控制所述服务器复现死机问题并接收所述问题自检阶段的查错数据,以便工作人员进行故障定位。

优选地,该故障定位装置还包括:

提示模块,用于控制提示器提示接收到的所述问题自检阶段的查错数据。

优选地,所述开启模块具体用于:

通过在bmc上使用ipmi工具开启所述bios的查错模式中的所述问题自检阶段的查错数据输出功能。

为解决上述技术问题,本发明还提供了一种故障定位设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上任一项所述故障定位方法的步骤。

为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述故障定位方法的步骤。

本发明提供了一种故障定位方法,由于本申请中可以确定出服务器死机时对应的问题自检阶段,并打开bios查错模式中问题自检阶段的查错数据输出功能,相比于现有技术中的输出所有自检阶段的查错数据来说,本申请中bios需要输出的查错数据的数据量较少,查错数据的输出时间较短,能够使得工作人员更快地定位故障,工作效率较高。

本发明还提供了一种故障定位装置及设备,具有如上故障定位方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种故障定位方法的流程示意图;

图2为本发明提供的一种故障定位装置的结构示意图;

图3为本发明提供的一种故障定位设备的结构示意图。

具体实施方式

本发明的核心是提供一种故障定位方法,能够使得工作人员更快地定位故障,工作效率较高;本发明的另一核心是提供一种故障定位装置、设备及计算机可读存储介质,能够使得工作人员更快地定位故障,工作效率较高。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1为本发明提供的一种故障定位方法的流程示意图,包括:

步骤s1:获取服务器在基本输入输出系统bios自检阶段死机时自检指示灯组的指示状态;

具体的,自检指示灯组通常可以为port80,其包括8个指示灯,8个指示灯的不同亮灭组合可以表示不同的自检阶段,当然,除了port80外,自检指示灯组还可以为其他类型,本发明实施例在此不做限定。

具体的,获取指示状态的具体方式可以为多种,例如可以为用户直接观察出指示灯组的指示状态(此种情况下执行主体是工作人员),也可以为用户观察到指示状态后,将指示状态直接通过人机交互方式发送至处理器,也可以为处理器通过摄像机等传感装置主动获取的指示状态(此种情况下执行主体是处理器),本发明实施例在此不做限定。

具体的,bios自检时,若服务器发生死机的情况,那么自检指示灯组也会停留在某个状态,而自检指示灯组的亮灭状态是会随着自检进行的变化而对应变化的,因此本发明实施例中可以首先获取指示状态,以便作为后续进行故障定位的数据基础。

步骤s2:根据指示状态以及预设的指示状态与自检阶段的对应关系确定出服务器死机时对应的问题自检阶段;

具体的,本步骤的执行主体同样可以为工作人员或者处理器,本发明实施例在此不做限定。

具体的,上述对应关系可以为工作人员根据经验得到的,也可以为服务器出厂自带的自检指示灯组的指示状态与自检阶段的对应关系,本发明实施例在此不做限定。

其中,服务器死机时,由于自检指示灯组同时会停滞在当前状态,因此指示状态所对应的自检阶段便可以被确定为问题自检阶段,也就是说,在问题自检阶段内,bios的自检过程出现了问题,而每个自检阶段都对应的有具体的自检器件,例如a阶段对应cpu,b阶段对应存储器等,本发明实施例在此不做限定。

步骤s3:开启bios的查错模式中的问题自检阶段的查错数据输出功能;

考虑到上述背景技术中,需要开启bios的查错模式,然后在复现自检失败的问题时,bios会输出所有自检阶段的查错数据,而在本发明实施例中,由于之前确认出了问题自检阶段,因此可以仅仅开启查错模式中问题自检阶段的查错数据输出功能,以便后续步骤中对问题自检阶段的查错数据进行分析进行故障定位。

步骤s4:控制服务器复现死机问题并接收问题自检阶段的查错数据,以便工作人员进行故障定位。

具体的,当服务器在复现司机问题的过程中,其会经历问题自检阶段的自检,同时在问题自检阶段还可以输出查错数据,而工作人员根据接收到的查错数据便可以对该问题自检阶段所对应器件可能存在的故障进行分析,由于bios不需要输出所有自检阶段的查错数据,节省了大量时间,且工作人员仅仅需要对问题自检阶段的查错数据进行分析,进一步地节省了时间,提高了工作效率。

其中,控制服务器复现死机问题的具体方式可以为多种,例如可以为反复开机,直至服务器出现死机问题为止等,本发明实施例在此不做限定。

本发明提供了一种故障定位方法,由于本申请中可以确定出服务器死机时对应的问题自检阶段,并打开bios查错模式中问题自检阶段的查错数据输出功能,相比于现有技术中的输出所有自检阶段的查错数据来说,本申请中bios需要输出的查错数据的数据量较少,查错数据的输出时间较短,能够使得工作人员更快地定位故障,工作效率较高。

在上述实施例的基础上:

作为一种优选的实施例,根据指示状态以及预设的指示状态与自检阶段的对应关系确定出服务器死机时对应的问题自检阶段之后,开启bios的查错模式中的问题自检阶段的查错数据输出功能之前,该故障定位方法还包括:

接收用户对问题自检阶段的确认指令或者修改指令;

若接收到确认指令,则执行步骤:开启bios的查错模式中的问题自检阶段的查错数据输出功能;

若接收到修改指令,则将修改指令中的自检阶段作为问题自检阶段,并执行步骤:开启bios的查错模式中的问题自检阶段的查错数据输出功能。

具体的,考虑到单一地通过自检指示灯组的指示状态确定出问题自检阶段的方法并不是完全的可靠,因此本发明实施例中还可以由工作人员对确定出的问题自检阶段进行人工确认或者修改,在对问题自检阶段进行确认或者修改时,工作人员可以根据从服务器开始开机到司机的时间长度,并结合自身经验对问题自检阶段进行预估,若发现预估得到的问题自检阶段与根据指示状态确认出的问题自检阶段相差较大时,便可以将根据指示状态确认出的问题自检阶段修改为自己预估的问题自检阶段,若两者相差较小,则可以直接确认。

其中,由于本发明实施例中进行了二次确认或修改,能够提高确认出的问题自检阶段的准确性,如此一来,工作人员根据服务器在后续步骤中输出的查错数据很可能就分析出了故障器件,无需再反复进行问题自检阶段的确认并反复进行故障分析,进一步地提高了工作效率。

当然,除了上述的工作人员对问题自检阶段的确认以及修改原则外,还可以通过其他的方式来确定是否需要对问题自检阶段进行确认以及修改,本发明实施例在此不做限定。

作为一种优选的实施例,控制服务器复现死机问题并接收问题自检阶段的查错数据之后,该故障定位方法还包括:

控制提示器提示接收到的问题自检阶段的查错数据。

具体的,将查错数据提示出来可以方便工作人员直接观测到查错数据并进行故障分析,可以进一步地提高工作效率。

当然,查错数据也可由工作人员主动导出后进行查看,本发明实施例在此不做限定。

作为一种优选的实施例,开启bios的查错模式中的问题自检阶段的查错数据输出功能具体为:

通过服务器中的基板管理控制器bmc开启bios的查错模式中的问题自检阶段的查错数据输出功能。

具体的,考虑到现有技术中若某次出现的死机情况为稳定死机,即每次再次开机都会发生死机现象,那么工作人员便无法通过bios的设置页面来打开查错模式,因此可能还需要重新编译bios的程序并将其中的查错模式打开,然后再将编译好的新的bios程序烧录到服务器中去,此种情况下不但工作量具体,而且还需要打开服务器机壳,操作起来相当繁琐,而本发明实施例中,即使发生了稳定死机的情况无法进行bios的设置页面,也可以通过bmc(baseboardmanagementcontroller,基板管理控制器)通过发送指令的方式轻松开启bios的问题自检阶段的查错模式,不但不需要重新编译bios程序,也不需要打开服务器机壳,减轻了工作量,进一步地提高了工作效率。

其中,bmc可以为服务器自带的bmc,本发明实施例在此不做限定。

作为一种优选的实施例,通过服务器中的bmc开启bios的查错模式中的问题自检阶段的查错数据输出功能具体为:

通过在bmc上使用智能平台管理接口ipmi工具开启bios的查错模式中的问题自检阶段的查错数据输出功能。

具体的,通过ipmi(intelligentplatformmanagementinterface,智能平台管理接口)工具开启bios的查错模式中的问题自检阶段的查错数据输出功能,其实就是打开问题自检阶段的bios串口,使其可以输出该阶段的查错数据,具体的控制方式可以为通过ipmi向bios发送8位的数据指令,而其中最后两位数据可以控制打开指定的问题自检阶段,例如当最后两位数据为00时,那么便会打开所有自检阶段的查错数据输出功能,当最后位数据为01时,那么便会打开pei{pre-efiinitializationenvironment,预efi(extensiblefirmwareinterface,可扩展固件接口)初始化环境}自检阶段的查错数据输出功能,当最后位数据为10时,那么便会打开dxe(driverexecutionenvironment,驱动执行环境)自检阶段的查错数据输出功能,当最后位数据为11时,那么便会打开mrc(manualreferencecounting,手动管理内存)自检阶段的查错数据输出功能,而8位的数据指令的倒数第三位可以控制查错数据输出功能的使能。

当然,除了以上方式外,通过ipmi工具开启bios的查错模式中的问题自检阶段的查错数据输出功能的具体方式还可以为其他多种类型,本发明实施例在此不做限定。

请参考图2,图2为本发明提供的一种故障定位装置的结构示意图,包括:

获取模块1,用于获取服务器在基本输入输出系统bios自检阶段死机时自检指示灯组的指示状态;

确定模块2,用于根据指示状态以及预设的指示状态与自检阶段的对应关系确定出服务器死机时对应的问题自检阶段;

开启模块3,用于开启bios的查错模式中的问题自检阶段的查错数据输出功能;

控制模块4,用于控制服务器复现死机问题并接收问题自检阶段的查错数据,以便工作人员进行故障定位。

作为一种优选的实施例,该故障定位装置还包括:

提示模块,用于控制提示器提示接收到的问题自检阶段的查错数据。

作为一种优选的实施例,开启模块具体用于:

通过在bmc上使用ipmi工具开启bios的查错模式中的问题自检阶段的查错数据输出功能。

对于本发明实施例提供的故障定位装置的介绍请参照前述的故障定位方法的实施例,本发明实施例在此不做限定。

请参考图3,图3为本发明提供的一种故障定位设备的结构示意图,包括:

存储器5,用于存储计算机程序;

处理器6,用于执行计算机程序时实现如上任一项故障定位方法的步骤。

对于本发明实施例提供的故障定位设备的介绍请参照前述的故障定位方法的实施例,本发明实施例在此不做限定。

本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述实施例中故障定位方法的步骤。

对于本发明实施例提供的计算机可读存储介质的介绍请参照前述的故障定位方法的实施例,本发明实施例在此不做限定。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。还需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1