BMC模块、服务器主板、BMC模块的热维护方法及系统与流程

文档序号:28320906发布日期:2022-01-04 22:44阅读:962来源:国知局
BMC模块、服务器主板、BMC模块的热维护方法及系统与流程
bmc模块、服务器主板、bmc模块的热维护方法及系统
技术领域
1.本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种底板管理控制器bmc模块,一种服务器主板,一种服务器管理系统,一种底板管理控制器bmc模块的热维护方法及系统。


背景技术:

2.bmc(baseboard management controller,底板管理控制器)在服务器系统中用于对服务器风扇、电源、设备在位情况进行监控及管理,bmc与cpu有数据交互。
3.目前,若bmc发生故障,则需要停止业务并对整台服务器下线进行维护,导致维护周期长,成本高。基于此,本说明书实施例开拓性地提出一种不影响业务的bmc在线热维护方案。


技术实现要素:

4.本说明书一个或多个实施例描述了底板管理控制器bmc模块、服务器主板、服务器管理系统、bmc模块的在线热维护方法及系统,通过对bmc模块化,使其与服务器主板独立设置,可热插拔的连接,从而实现针对bmc模块的不影响业务的在线热维护。
5.根据第一方面,提供一种bmc模块,与服务器主板独立设置,所述bmc模块包括:第一接口,用于与服务器主板可插拔地连接;电源缓启动电路,用于支持所述bmc模块相对所述服务器主板热插拔时的电源保护。
6.根据第二方面,提供一种服务器主板,包括:第二接口,用于与独立设置的bmc模块可插拔地连接;信号隔离电路,用于支持所述bmc模块相对所述服务器主板热插拔时的信号隔离。
7.根据第三方面,提供一种服务器管理系统,包括:服务器主板和与所述服务器主板独立设置的bmc模块;所述bmc模块和所述服务器主板,分别通过其第一接口和第二接口,二者可插拔地连接;所述bmc模块设置有电源缓启动电路,用于支持所述bmc模块相对所述服务器主板热插拔时的电源保护;所述服务器主板设置有信号隔离电路,用于支持所述bmc模块相对所述服务器主板热插拔时的信号隔离。
8.在一个实施例中,所述系统还包括:板间连接器,用于通过分别连接所述第一接口和第二接口,连接所述bmc模块和所述服务器主板。
9.根据第四方面,提供一种bmc模块的在线热维护方法,所述bmc模块与服务器主板可插拔地连接;所述方法包括:复杂可编程逻辑器件cpld在监测到bmc模块运行异常后,向基本输入输出系统bios发送第一通知;所述bios系统根据所述第一通知,记录bmc模块异常事件,并在针对bmc模块进行故障隔离和/或告警屏蔽后,向所述cpld器件发送隔离完成标志;所述cpld器件根据所述隔离完成标志,提示维护人员所述bmc模块可拔除。
10.在一个实施例中,复杂可编程逻辑器件cpld在监测到bmc模块运行异常后,向基本输入输出系统bios发送第一通知,包括:所述cpld器件监测到bmc模块运行异常后,复位所
述bmc模块;所述cpld器件在监测到所述bmc模块运行仍然异常的情况下,向所述bios系统发送所述第一通知。
11.在一个实施例中,所述服务器主板中设置信号隔离电路;其中,针对bmc模块进行故障隔离和/或告警屏蔽,包括:通过控制所述信号隔离电路,断开所述服务器主板中信号电路与所述bmc模块中信号电路之间的连接。
12.在一个实施例中,所述bios系统还根据所述第一通知,将所述bmc模块在带内管理系统中的状态更新为故障,和/或可拔除。
13.在一个实施例中,所述cpld器件根据所述隔离完成标志,提示维护人员所述bmc模块可拔除,包括:所述cpld器件根据所述隔离完成标志,通过点亮指示灯进行所述提示。
14.在一个实施例中,在所述cpld器件根据所述隔离完成标志,提示维护人员所述bmc模块可拔除之后,所述方法还包括:所述cpld器件在监测到bmc模块恢复正常运行后,向所述bios系统发送第二通知;所述bios系统根据所述第二通知,解除所述故障隔离和/或告警屏蔽。
15.在一个具体的实施例中,所述服务器主板中设置信号隔离电路;其中,解除所述故障隔离和/或告警屏蔽,包括:通过控制所述信号隔离电路,恢复所述服务器主板中信号电路与所述bmc模块中信号电路之间的连接。
16.在一个实施例中,所述cpld器件通过监测所述bmc模块的心跳信号,判断所述bmc模块是否正常运行。
17.根据第五方面,提供一种bmc模块的热维护系统,所述bmc模块与服务器主板可插拔地连接,所述系统包括:复杂可编程逻辑器件cpld,用于在监测到bmc模块运行异常后,向基本输入输出系统bios发送第一通知;所述bios系统,用于根据所述第一通知,记录bmc模块异常事件,并在针对bmc模块进行故障隔离和/或告警屏蔽后,向所述cpld器件发送隔离完成标志;所述cpld器件,还用于根据所述隔离完成标志,提示维护人员所述bmc模块可拔除。
18.根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序在计算机中执行时,令计算机执行上述第四方面提供的方法。
19.根据第七方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第四方面提供的方法。
20.综上,对于单纯复位bmc无法解决的硬件故障,通过采用本说明书实施例披露的软硬件结合实现bmc模块热插拔的一系列流程,做到故障隔离,无需对服务器进行下电即可快速进行bmc模块的更换操作,更换后自动恢复bmc模块的正常运行,对业务运行无影响。
附图说明
21.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
22.图1示出根据一个实施例的bmc模块的结构示意图;
23.图2示出根据一个实施例的服务器主板的结构示意图;
24.图3示出根据一个实施例的服务器管理系统的结构示意图;
25.图4示出根据一个实施例的实现bmc模块在线热维护的多方交互示意图;
26.图5示出根据一个实施例的bmc模块的热维护系统的结构示意图。
具体实施方式
27.下面结合附图,对本说明书提供的方案进行描述。
28.目前,bmc被集成在服务器主板中,在bmc小系统故障后,可以通过长按uid(unit identification light)按钮对bmc进行复位,但是,若故障为硬件故障,则复位bmc无法解除故障,仍需要对业务进行迁移,并对服务器整机下电后进行维护,这种维护方式周期长,成本高。
29.基于此,本说明书实施例开拓性地提出一种不影响业务的bmc在线热维护方案。此方案包括硬件实现部分和软件实现部分。在硬件实现部分,对bmc模块化,使其与服务器主板独立设置,可热插拔的连接。具体,下面从bmc模块、服务器主板和包括二者的服务器管理系统,三个角度,介绍硬件实现部分的方案。
30.图1示出根据一个实施例的bmc模块的结构示意图,该bmc模块与服务器主板独立设置。需说明,本说明书实施例披露的bmc模块可以指代各种对服务器进行带外管理的管理单元,其名称包括但不限于服务器管理板、服务器管理模块、服务器管理单元。
31.如图1所示,bmc模块100包括第一接口110,用于与服务器主板可插拔地连接;需理解,此连接可以是直接连接,也可以是经由连接器的间接连接;并且,第一接口110的数量可以是一个或多个;可插拔意味着bmc模块与服务器主板之间可拆卸式连接,bmc模块可以插入服务器主板也可以从中拔出。
32.bmc模块100还包括电源缓启动电路120,用于支持bmc模块100相对服务器主板热插拔时的电源保护。具体,当bmc模块100相对服务器主板进行插入或拔除时,其上设置的电源缓启动电路120可以将服务器电源母线上的瞬态浪涌电流限制在一个较低的水平,同时也不会造成整个服务器电压下降,避免了插拔过程给服务器电源带来的危害,从而实现电源热插拔。
33.在一个实施例中,电源缓启动电路120被实现为电压斜率型。在另一个实施例中,电源缓启动电路120被实现为电流斜率型。需说明,电压斜率型缓启动电路结构简单,但是其输出电流的变化受负载阻抗的影响较大,电流斜率型缓启动电路的输出电流变化不受负载影响,但是电路结构复杂,由此,可以按照实际需求将电源缓启动电路120实现为电压斜率型或电流斜率型。另一方面,可以使用mos管来设计缓启动电路,mos管有导通阻抗rds低和驱动简单的特点,在周围加上少量元器件就可以构成缓慢启动电路;通常情况下,在正电源中用pmos,在负电源中使用nmos。
34.需理解,电源缓启动电路120连接到bmc模块供电电路,并且,bmc模块还包括信号电路等其他常规电路。
35.以上,对独立模块化的bmc进行介绍。
36.图2示出根据一个实施例的服务器主板的结构示意图,如图2所示,服务器主板200包括第二接口210,用于与上述独立设置的bmc模块100可插拔地连接;需说明,此连接可以是直接连接,也可以是经由连接器的间接连接;并且,第二接口210的数量可以是一个或多
个。
37.服务器主板200还包括信号隔离电路220,用于支持bmc模块100相对服务器主板200热插拔时的信号隔离。具体,当bmc模块100插入服务器主板200或从服务器主板200中拔除时,信号隔离电路220的设置实现将主板信号电路的信号线上的瞬变电压限制在合理水平,从而维持服务器的正常通信。需说明,信号隔离电路220,需要根据服务器主板200的主板信号电路中传输的信号种类(如高速信号或低速信号)等进行适应性设计;此外,示例性地,信号隔离电路220可以通过在服务器主板200的信号电路中串联缓冲器(buffer)来实现。
38.需理解,服务器主板还包括主板供电电路等其他常规电路。
39.并且,bmc模块还包括信号电路等其他常规电路。
40.以上,对可以与独立设置的bmc模块进行可插拔连接的服务器主板进行介绍。
41.图3示出根据一个实施例的服务器管理系统的结构示意图,如图3所示,服务器管理系统300包括上述bmc模块100和服务器主板200。
42.bmc模块100与服务器主板200,分别通过其第一接口110和第二接口210(图3中未示出第一接口和第二接口,可参见图1和图2),进行可插拔地连接。在一个实施例中,服务器管理系统300中还包括板间连接器310,用于通过分别连接第一接口和第二接口,连接bmc模块100和服务器主板200。在一个具体的实施例中,板间连接器310包括第三接口和第四接口(图3中未示出),板间连接器310和bmc模块100通过第一接口100和第三接口可插拔连接,板间连接器310和服务器主板200通过第二接口210和第四接口可插拔连接。如此,利用板件连接器310可以实现bmc模块100和服务器主板200之间的可插拔连接。
43.bmc模块100设置有电源缓启动电路120,缓启动电路120可以导通bmc模块供电电路和主板供电电路,用于实现bmc模块100相对服务器主板200进行热插拔时的电源保护。
44.服务器主板200设置有信号隔离电路220,信号隔离电路220可以控制服务器主板200和bmc模块100之间信号的导通和关断,从而实现bmc模块100相对服务器主板200热插拔时的信号隔离。
45.需说明,对于电源缓启动电路120和信号隔离电路220的描述,还可以参见前述实施例中的相关介绍,在此不作赘述。
46.以上,对上述方案的硬件实现部分进行介绍。通过对bmc进行独立模块化,将负责带外管理的硬件电路集中到一块单板上模块化设计,并且,对服务器主板进行适应性设计,从而在bmc故障后,可以免拆箱、免下电进行更换。此外需理解,图1、图2和图3仅对服务器主板、bmc模块以及包括二者的服务器管理系统进行示意性呈现,对其在实际应用中的形状、样式不作限制。
47.基于硬件部分的设计,可以实现方案的软件部分。图4示出根据一个实施例的实现bmc模块在线热维护的多方交互示意图,其中多方包括与服务器主板独立设置的bmc模块,固化在服务器主板中芯片(通常为rom芯片)上的bios(basic input output system,基本输入输出系统),以及cpld(complex programmable logic device,复杂可编程逻辑器件)。需说明,上述cpld器件包括集成在bmc模块和服务器主板中的相关器件。
48.如图4所示,所述多方交互包括以下步骤:
49.步骤s410,cpld器件监测到bmc模块运行异常。在一个实施例中,cpld器件可以通
过监控bmc模块的心跳信号,判断bmc模块是否异常。进一步,在持续监测到bmc模块按照预先约定的时间间隔(例如1s)发送的心跳信号的情况下,判定bmc模块正常运行;否则,在超出预定时间间隔仍未接收到bmc模块发送的心跳信号的情况下,判定bmc模块运行异常。
50.步骤s420,cpld器件向基本输入输出系统bios发送第一通知。
51.需说明,在一个实施例中,在步骤s410之后和步骤s420之前,上述交互过程还可以包括步骤s412,cpld器件复位上述bmc模块,进一步,在复位bmc模块后,若在步骤s414,cpld器件监测到bmc模块运行仍然异常,则执行上述步骤s420,否则,继续检测bmc模块的心跳信号。
52.上述第一通知指示bmc模块运行异常。基于此,在步骤s430,bios系统根据该第一通知,记录bmc模块异常事件。需理解,可以将bmc异常事件归入异常记录,保存在bios系统的日志文件中,以便后续的调用和分析。
53.本步骤中,bios系统还根据第一通知,针对bmc模块进行故障隔离和告警屏蔽。在一个实施例中,bios系统可以停止针对bmc模块的信号采集,过滤针对bmc模块的故障信号和告警信号,从而实现故障隔离和告警屏蔽。在一个实施例中,服务器主板中设置有上述信号隔离电路,基于此,bios系统通过控制此信号隔离电路,断开服务器主板中信号电路与bmc信号电路之间的连接,防止后续bmc模块被拔除造成信号电路中产生瞬变电压,影响系统正常通信。
54.另一方面,在一个实施例中,本步骤中还可以包括:bios系统将bmc模块在带内管理系统中的状态更新为故障,和/或,可拔除。需理解,服务器带内管理是指在业务层面os(operating system)下对服务器设备进行管理,通过对bmc模块状态进行更新,以供相关业务进行查询。
55.进一步,在一种实施方式中,bios系统在针对bmc模块进行故障隔离和/或告警屏蔽后,在步骤s440,向cpld器件发送隔离完成标志。并且,在步骤s450,cpld器件根据该隔离完成标志,提示维护人员bmc模块可拔除。在一个实施例中,cpld器件通过点亮指示灯的方式,提示维护人员bmc模块可拔除。需理解,该指示灯可以帮助定位到对应的bmc模块。在另一个实施例中,cpld器件还可以通过语音进行提示。如此,使得维护人员可以根据提示,更换故障的bmc模块。
56.在另一种实施方式中,bios系统将bmc模块在带内管理系统中的状态更新为可拔除,相应,cpld器件通过带内查询到bmc模块状态为可拔除后,提示维护人员bmc模块可拔除。
57.根据另一方面的实施例,在步骤s450之后,上述交互过程还可以包括:步骤s460,cpld器件监测到bmc模块正常运行。在一个实施例中,cpld根据bmc在位状态对其心跳信号进行检测,检测到心跳信号恢复正常,从而判定bmc模块正常运行。
58.进一步,cpld器件在步骤s470,向bios系统发送第二通知,指示bmc模块恢复正常运行,从而bios系统在步骤s480,解除故障隔离和/或告警屏蔽。在一个实施例中,bios系统可以恢复针对bmc模块的信号采集,从而解除故障隔离和告警屏蔽。在一个实施例中,服务器主板中设置有上述信号隔离电路,基于此,bios系统通过控制此信号隔离电路,恢复服务器主板中信号电路与bmc信号电路之间的连接,从而恢复与bmc模块相关的正常通信。
59.以上,对方案的软件实现部分进行介绍。通过cpld监控bmc模块的运行状态,bmc模
块异常时,cpld可以通知bios进行故障隔离,并在隔离完成后通知维护人员进行bmc模块的更换操作,更换后系统自动恢复运行。
60.综上,对于单纯复位bmc无法解决的硬件故障,通过采用本说明书实施例披露的软硬件结合实现bmc模块热插拔的一系列流程,做到故障隔离,无需对服务器进行下电即可快速进行bmc模块的更换操作,更换后自动恢复bmc模块的正常运行,对业务运行无影响。
61.与上述在线热维护的多方交互相对应的,本说明书实施例还披露一种在线热维护系统。图5示出根据一个实施例的bmc模块的热维护系统的结构示意图,其中bmc模块与服务器主板可插拔地连接。如图5所示,所述系统500包括:
62.复杂可编程逻辑器件cpld,用于在监测到bmc模块运行异常后,向基本输入输出系统bios发送第一通知;所述bios系统,用于根据所述第一通知,记录bmc模块异常事件,并在针对bmc模块进行故障隔离和/或告警屏蔽后,向所述cpld器件发送隔离完成标志;所述cpld器件,还用于根据所述隔离完成标志,提示维护人员所述bmc模块可拔除。
63.在一个实施例中,所述cpld器件具体用于:在监测到bmc模块运行异常后,复位所述bmc模块;在监测到所述bmc模块运行仍然异常的情况下,向所述bios系统发送所述第一通知。
64.在一个实施例中,服务器主板中设置信号隔离电路,所述bios系统用于针对bmc模块进行故障隔离和/或告警屏蔽,具体包括:通过控制所述信号隔离电路,断开所述服务器主板中信号电路与所述bmc模块中信号电路之间的连接。
65.在一个实施例中,所述bios系统还用于:根据所述第一通知,将所述bmc模块在带内管理系统中的状态更新为故障,和/或可拔除。
66.在一个实施例中,所述cpld器件具体用于:根据所述隔离完成标志,通过点亮指示灯提示维护人员所述bmc模块可拔除。
67.在一个实施例中,所述cpld器件还用于:在监测到bmc模块恢复正常运行后,向所述bios系统发送第二通知;所述bios系统还用于:根据所述第二通知,解除所述故障隔离和/或告警屏蔽。
68.进一步,在一个具体的实施例中,所述服务器主板中设置信号隔离电路;其中,所述bios系统用于解除所述故障隔离和/或告警屏蔽,具体包括:通过控制所述信号隔离电路,恢复所述服务器主板中信号电路与所述bmc模块中信号电路之间的连接。
69.在一个实施例中,所述cpld器件具体用于:通过监测所述bmc模块的心跳信号,判断所述bmc模块是否正常运行。
70.根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图4所描述的方法。
71.根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,该存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图4所描述的方法。
72.本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
73.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1