1.本技术实施例涉及服务器领域,具体而言,涉及一种服务器故障维护系统及方法。
背景技术:2.为了实现对服务器进行调试,相关技术中通常采用服务器的主板中的调试接口对服务器进行调试,调试接口通过外接调试工具,通过jtag(joint test action group,联合测试工作组)和control signals(控制信号)去控制和访问中央处理器的寄存器,抓取日志信息,并进行调试。
技术实现要素:3.本技术实施例提供了一种服务器故障维护系统及方法,以至少解决相关技术中在外部线缆接口取消后无法对服务器进行调试的问题。
4.根据本技术的一个实施例,提供了一种服务器故障维护系统,包括:基板管理控制器、监控模块和终端设备,监控模块分别与基板管理控制器和终端设备连接,基板管理控制器与服务器连接;基板管理控制器用于获取服务器的告警信息,并将告警信息发送至监控模块中;监控模块用于基于告警信息确定服务器的故障信息,并将故障信息发送至终端设备,以及接收终端设备发送的调试指令,将调试指令转发至基板管理控制器;终端设备用于展示故障信息,并接收故障信息对应的调试指令,以及将调试指令传输到监控模块中,其中,调试指令用于对服务器进行调试,以完成服务器维护。
5.在一个示例性实施例中,监控模块,包括:测量设备和监控板,其中,测量设备分别与基板管理控制器和监控板连接,监控板与终端设备连接;监控板用于控制测量设备获取告警信息对应的服务器状态参数,并基于服务器状态参数确定故障信息。
6.在一个示例性实施例中,监控板,包括:复杂可编程逻辑器件和近场通信设备,复杂可编程逻辑器件与近场通信设备连接,复杂可编程逻辑器件与基板管理控制器连接,近场通信设备与终端设备连接;复杂可编程逻辑器件用于接收告警信息,并控制测量设备获取告警信息对应的服务器状态参数,以及基于服务器状态参数确定故障信息;近场通信设备用于将故障信息发送给终端设备,以及接收调试指令,并将调试指令发送给基板管理控制器。
7.在一个示例性实施例中,监控板中还包括:多个接口,多个接口用于复杂可编程逻辑器件与基板管理控制器和测量设备连接。
8.在一个示例性实施例中,基板管理控制器还用于向服务器发送调试指令,以控制服务器按照调试指令进行调试。
9.在一个示例性实施例中,基板管理控制器中设置有联合测试工作组和通用输入输出端口;联合测试工作组用于通过通用输入输出端口向服务器输出调试指令。
10.在一个示例性实施例中,测量设备至少包括:示波器。
11.根据本技术的另一个实施例,提供了一种服务器故障维护方法,包括:
12.获取服务器的告警信息;接收终端设备发送的调试指令,并按照调试指令对服务器进行调试,完成服务器维护,其中调试指令与服务器的故障信息相对应,服务器的故障信息是基于告警信息确定的。
13.在一个示例性实施例中,基于告警信息确定服务器的故障信息,包括:确定告警信息对应的服务器状态参数;获取故障信息,故障信息是监控模块基于服务器状态参数确定的。
14.在一个示例性实施例中,接收终端设备发送的调试指令,并按照调试指令对服务器进行调试,包括:通过近场通信设备接收终端设备发送的调试指令;将调试指令通过通用输入输出端口发送给服务器,以控制服务器按照调试指令完成调试。
15.根据本技术的又一个实施例,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
16.根据本技术的又一个实施例,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
17.通过本技术,由于引入了监控模块,利用监控模块对基板管理控制器传输的告警信息进行识别,得到服务器的故障信息,并将故障信息传输至外部的终端设备,并通过监控模块获取终端设备发送的调试指令对服务器进行调试,替代了通过调试接口对服务器进行调试的方法,因此,可以解决在调试接口取消后无法对服务器进行调试的问题,进而达到随时对服务器进行调试的效果问题,达到随时对服务器进行调试的效果。
附图说明
18.图1是根据本技术实施例的一种服务器故障维护系统的结构框图;
19.图2是根据本技术实施例的另一种服务器故障维护系统的结构框图;
20.图3是根据本技术实施例的一种服务器故障维护方法的计算机终端的硬件结构框图;
21.图4是根据本技术实施例的一种服务器故障维护方法流程图;
22.图5是根据本技术实施例的另一种服务器故障维护方法流程图;
23.图6是根据本技术实施例的一种服务器故障维护装置的结构示意图。
具体实施方式
24.下文中将参考附图并结合实施例来详细说明本技术的实施例。
25.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
26.在相关技术中,通过服务器的主板中的调试接口对服务器进行调试,调试接口通过外接调试工具,通过联合测试工作组和控制信号去控制和访问cpu中的寄存器,抓取日志信息,并进行调试;此外,在取消调试接口之后,相关技术中可以利用基板管理控制器使用搜索信号打开交换板,然后通过基板管理控制器的联合测试工作组和通用输入输出接口去模拟调试工具,访问和控制cpu的寄存器,进行服务器的调试,但是上述方法,存在以下问
题,一是使用调试接口的方式,依赖特定的线缆连接,并且调试接口取消后,再对服务器进行调试的流程复杂;二是对于在测试过程中的问题出现时效性较强的故障显现,需要重复测试才能确定,并不能故障发生的情况下,及时获取故障信息。
27.针对相关技术中的问题,本技术实施例提供了一种服务器故障维护系统,如图1所示,包括:基板管理控制器10、监控模块20和终端设备30,监控模块20分别与基板管理控制器10和终端设备30连接,基板管理控制器10与服务器连接;基板管理控制器10用于获取服务器的告警信息,并将告警信息发送至监控模块20中;监控模块20用于基于告警信息确定服务器的故障信息,并将故障信息发送至终端设备30,以及接收终端设备30发送的调试指令,将调试指令转发至基板管理控制器10;终端设备30用于展示故障信息,并接收故障信息对应的调试指令,以及将调试指令传输到监控模块20中,其中,调试指令用于对服务器进行调试,以完成服务器维护。
28.本技术实施例中提供的服务器故障维护系统,由于引入了监控模块20,利用监控模块20对基板管理控制器10传输的告警信息进行识别,得到服务器的故障信息,并将故障信息传输至外部的终端设备30,并通过监控模块20获取终端设备30发送的调试指令对服务器进行调试,替代了通过调试接口对服务器进行调试的方法,因此,可以解决在调试接口取消后无法对服务器进行调试的问题,进而达到随时对服务器进行调试的效果。
29.需要进行说明的是,告警信息由服务器中的基板管理控制器10对服务器的运行状态进行监控得到,例如:服务器返回的状态码报错、服务器中各部件的电压报警等,故障信息是由监控模块20在服务器发出告警信息后,对服务器的各项参数进行参数测量后确定的,例如:部件运行电压高于预设阈值,服务器的负载超过负载阈值等。终端设备30包括但不限于具备通信模块的交互设备,例如:计算机、手机和平板电脑。
30.针对服务器返回的状态码报错,可以通过以下方法确定服务器的故障信息,基于接收到的查询请求,确定服务器的故障信息,例如:返回代码为200表示请求已成功,请求所希望的响应头或数据体将随此响应返回。返回代码:301表示被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个uri之一;返回代码:302表示请求的资源现在临时从不同的uri响应请求;返回代码:404表示请求失败,请求所希望得到的资源未被在服务器上发现等。
31.下面具体说明上述服务器故障维护系统。
32.在一种可选的方式中,如图2所示,监控模块20,包括:测量设备201和监控板202,其中,测量设备201分别与基板管理控制器10和监控板202连接,监控板202与终端设备30连接;监控板202用于控制测量设备201获取告警信息对应的服务器状态参数,并基于服务器状态参数确定故障信息。
33.可以理解的是,测量设备201中至少包括示波器和万用电表,示波器用于将服务器输出的电信号转化为图像信号,例如:波形图。判断服务器输出对应的波形图与正常状态下的波形图是否一致,从而确定服务器的故障信息,万用电表用于测量服务器当前时刻的工作电压是否正常。
34.示波器可以将被测电信号转换成图像信号,便于观测信号的变化过程,通常分为模拟示波器和数字示波器,模拟示波器是通过模拟电路电子枪向屏幕发射电子,发射的电子经聚焦形成电子束,并打到屏幕上,屏幕的内表面涂有荧光物质,这样电子束打中的点就
会发出光来;数字示波器则是通过模拟转换器把被测电压转换为数字信息,并进行存储和重构波形,存储限度是判断累计的样值是否能描绘出波形为止。当服务器出现硬件故障时,通过示波器对服务器的多种信号进行多次测量,并根据测量的结果判断其波形是否为正常波形,从而确定出故障信号的位置。
35.监控板202中可以设置复杂可编程逻辑器件203和近场通信设备204,复杂可编程逻辑器件203与近场通信设备204连接,复杂可编程逻辑器件203与基板管理控制器10连接,近场通信设备204与终端设备30连接;复杂可编程逻辑器件203用于接收告警信息,并控制测量设备201获取告警信息对应的服务器状态参数,以及基于服务器状态参数确定故障信息;近场通信设备204用于将故障信息发送给终端设备30,以及接收调试指令,并将调试指令发送给基板管理控制器10。
36.需要进行说明的是,近场通信是一种短距高频的无线电技术,近场通信的通信距离为10厘米以内,运行频率13.56mhz,传输速度有106kbit/s、212kbit/s或者424kbit/s三种。近场通信设备的工作模式分为被动模式和主动模式。被动模式中近场通信设备的发起设备(主设备)利用供电设备的能量来提供射频场,并将数据发送到近场通信设备,传输速率需在106kbps、212kbps或424kbps中选择其中一种。利用主设备产生的射频场转换为电能,为从设备的电路供电,接收主设备发送的数据,并且以相同的速度将从设备数据传回主设备,在此模式下,近场通信设备的主设备可以检测非接触式卡或近场通信目标设备,与之建立连接。
37.在主动模式中,发起设备和目标设备在向对方发送数据时,都必须主动产生射频场,所以称为主动模式,它们都需要供电设备来提供产生射频场的能量。这种通信模式是对等网络通信的标准模式,可以获得非常快速的连接速率。
38.近场通信设备,具体分为三种工作模式:点对点通信模式、读写器模式和近场通信卡模拟模式。在点对点模式下两个近场通信设备可以交换数据。例如多个具有近场通信功能的设备之间可以利用近场通信技术进行无线互联,实现虚拟名片或数字相片等数据交换。
39.需要进一步说明的是,基板管理控制器中包括16位元或32位元微控制器以及用于数据储存的随机存取存储器、用于非挥发性数据储存的快闪记忆体和韧体。通过基板管理控制器可以用于系统状态监视;重启、重新供电、断电等底板控制等。
40.可以理解的是,需要在监控板202中设置多个接口,用于复杂可编程逻辑器件203与基板管理控制器10和测量设备201连接。
41.基板管理控制器10在接收到近场通信设备204转发的调试指令后,通过自身的联合测试工作组和通用输入输出端口向服务器发送所述调试指令,以控制所述服务器按照所述调试指令进行调试。
42.需要说明的是,通常所说的联合测试工作组大致分两类,一类用于测试芯片的电气特性,检测芯片是否有问题;一类用于调试;一般支持联合测试工作组的中央处理器内都包含了这两个模块。
43.含有联合测试工作组调试接口模块的中央处理器,就可以通过联合测试工作组接口访问中央处理器的内部寄存器和挂在中央处理器总线上的设备。
44.要使用上述联合测试工作组的功能,还需要软件的配合,具体实现的功能则由具
体的软件决定。例如:下载程序到随机存取存储器。通过联合测试工作组下载程序前应关闭所有中断,由于在使用联合测试工作组接口的时候,各中断的使能未知,尤其是闪存中有可执行码的情况,可能会有一些中断被使能。使用联合测试工作组下载完代码,要执行时,有可能因为未完成初始化就产生了中断,导致程序异常。所以,需要先关闭中断,一般通过设置系统级芯片的中断控制寄存器完成。通过联合测试工作组可以访问中央处理器总线上的所有设备。联合测试工作组有四个引脚:tdi,tdo,tms,tck,其中,tdi:用于测试数据输入;tdo:用于测试数据输出;tms:用于测试模式选择;tck:用于测试时钟输入。
45.本技术实施例还提供了一种服务器故障维护方法,需要说明的是,本技术实施例中所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端终端上为例,图3是本技术实施例的一种服务器故障维护方法的计算机终端的硬件结构框图。如图3所示,移动终端可以包括一个或多个(图3中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。
46.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本技术实施例中的服务器故障维护方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
47.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
48.在本实施例中提供了一种运行于上述计算机终端方法,图4是根据本技术实施例的的流程图,如图4所示,该流程包括如下步骤:
49.步骤s402,获取服务器的告警信息;
50.步骤s404,接收终端设备发送的调试指令,并按照调试指令对所述服务器进行调试,完成服务器维护,其中所述调试指令与所述服务器的故障信息相对应,所述服务器的故障信息是监控模块基于所述告警信息确定的。
51.通过上述步骤,利用监控模块对基板管理控制器传输的告警信息进行识别,得到服务器的故障信息,并将故障信息传输至外部的终端设备,并通过监控模块获取终端设备发送的调试指令对服务器进行调试,替代了通过调试接口对服务器进行调试的方法,因此,可以解决在调试接口取消后无法对服务器进行调试的问题,进而达到随时对服务器进行调试的效果问题,达到随时对服务器进行调试的效果。
52.其中,上述步骤的执行主体为基板管理控制器,也可以为监控模块和终端设备等,但不限于此。
53.需要进行说明的是,上述方法中的告警信息,可以是报错指令,基板管理控制器在获取服务器的告警信息以后,也可以通过近场通信设备转发至终端设备中,由终端设备进行展示,展示的方式有多种,例如:在终端设备上展示警示信息,或者终端设备发出响声等方式用于警示。
54.基板管理控制器在获取服务器的告警信息以后,需要确定告警信息对应的服务器状态参数;并获取故障信息,故障信息是监控模块基于服务器状态参数确定的。
55.其中,故障信息可以通过列表的方式在终端设备中展示,例如:服务器的工作电压高于设定电压阈值、服务器中的数据传输中断等。
56.在本技术的一些实施例中,故障信息可以通过监控模块中的近场通信设备转发到终端设备中,进行展示。
57.基板管理控制器通过近场通信设备接收终端设备发送的调试指令;并将调试指令通过通用输入输出端口发送给服务器,以控制服务器按照调试指令完成调试。
58.在实际的应用场景中,需要先确定基板管理控制器通过联合测试工作组到服务器的中央处理器之间的链路可通。然后,基板管理控制器接收调试指令,根据调试指令确定对应的主板,例如:基于主板编号确定对应的主板。基板管理控制器通过多路链路将调试指令通过主板的端口发送至调试处理单元,例如:中央处理器。
59.以监控模块作为执行主体的情况下,上述服务器故障维护方法,如图5所示,包括:
60.步骤s502,获取服务器的告警信息;
61.步骤s504,测量与告警信息对应的服务器状态参数,以确定服务器的故障信息;
62.步骤s506,将故障信息通过近场通信设备发送给终端设备;
63.步骤s508,接收基板管理控制器发送的指示信息,指示信息用于表征服务器已通过近场通信设备转发的调试指令,调试完毕。
64.通过上述步骤,利用监控模块对基板管理控制器传输的告警信息进行识别,得到服务器的故障信息,并将故障信息传输至外部的终端设备,并通过监控模块获取终端设备发送的调试指令对服务器进行调试,替代了通过调试接口对服务器进行调试的方法,因此,可以解决在调试接口取消后无法对服务器进行调试的问题,进而达到随时对服务器进行调试的效果问题,达到随时对服务器进行调试的效果。
65.在实际的应用场景中,基板管理控制器检测到服务器的告警信息,告警信息用于表征服务器出现故障,基板管理控制器将告警信息发送至监控板,监控板控制测量设备测量服务器的状态参数,并基于服务器的状态参数确定服务器的故障信息,以及将故障信息通过近场通信设备转发至终端设备,最后基板管理控制器通过近场通信设备获取由终端设备转发的调试指令,对服务器进行调试。
66.维护或者研发人员在出现问题后可以在现场快速定位到问题服务器,使用包含近场通信功能的设备进行连接,可以通过此方式抓取故障发生时储存的信息,同时,此连接可以连接到基板管理控制器,可以在此基础上进行相关的处理操作或是更改设置,在使用这种连接方式下,只要使用支持近场通信功能的终端设备,如手机或是笔记本电脑等即可在不具备网络连接条件下也可以连接到基板管理控制器,提高了故障维护的便利性。
67.同时,使用测试监控板进行实时监控,可以及时抓取故障信息,可以使用管理设备直接无线连接,提高连接服务器管理系统的便捷性。在设计支持的情况下,测试阶段可以进行灵活搭配测试监控板,通用性高。可有效解决:测试进行过程中故障出现后无法及时获取故障出现时状况的问题研发人员在测试出现问题进行现场维护时连接目标服务器不变的问题。
68.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
69.在本实施例中还提供了一种装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
70.图6是根据本技术实施例的服务器故障维护装置的结构框图,如图6所示,该装置包括:
71.获取模块90,用于获取服务器的告警信息;
72.调试模块92,用于接收终端设备发送的调试指令,并按照调试指令对所述服务器进行调试,完成服务器维护,其中所述调试指令与所述服务器的故障信息相对应,所述服务器的故障信息是监控模块基于所述告警信息确定的。
73.其中,获取模块90,包括:获取子模块,获取子模块用于确定所述告警信息对应的服务器状态参数;获取所述故障信息,所述故障信息是基于所述服务器状态参数确定的。
74.调试模块92,包括:调试子模块,调试子模块用于通过所述近场通信设备接收所述终端设备发送的调试指令;将所述调试指令通过通用输入输出端口发送给所述服务器,以控制所述服务器按照所述调试指令完成调试。
75.上述装置利用监控模块对基板管理控制器传输的告警信息进行识别,得到服务器的故障信息,并将故障信息传输至外部的终端设备,并通过监控模块获取终端设备发送的调试指令对服务器进行调试,替代了通过调试接口对服务器进行调试的方法,因此,可以解决在调试接口取消后无法对服务器进行调试的问题,进而达到随时对服务器进行调试的效果问题,达到随时对服务器进行调试的效果。
76.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
77.本技术的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
78.在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为
ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
79.本技术的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
80.在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
81.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
82.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
83.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。