一种机柜电源BMC冗余管理系统及方法与流程

文档序号:23052329发布日期:2020-11-25 17:28阅读:261来源:国知局
一种机柜电源BMC冗余管理系统及方法与流程

本发明属于整机柜管理技术领域,具体涉及一种机柜电源bmc冗余管理系统及方法。



背景技术:

随着大数据及云网络等行业的快速发展,服务器需求不断增多,机柜服务器由于其电源利用效率高,空间利用率高等优势,应用市场越来越多。机柜中的电源部件负责整个机柜的计算,存储,交换机等节点进行直流电源供应,有高功耗,散热要求高,大负载等特点,这就对电源系统监控的稳定性,可靠性提出了较高的需求。

现有的机柜电源监控系统中由bmc的iic连接对应的电源和风扇控制等芯片及psu等部件,进行系统温度,电压,电流,关键器件的状态实时监控,以及输出电源控制和故障诊断。

由于电源监控系统中,只有一个bmc通过iic总线进行控制和状态监控,当bmc的iic总线出现问题,或者在电源监控系统运行时bmc出现故障时,电源监控系统就无法及时处理相关问题,会导致整个机柜供电问题导致功能问题。常用机柜电源监控管理方法中,bmc在启动中出现问题时,需要重启系统后才可以从备用flash进行启动,会造成开机速度慢问题。在电源系统正常运行时,若bmciic或者系统问题时,系统需要通过rj45将相关问题数据上传后进行系统重启,甚至手动掉电重启才能解决类似问题,这样会导致整机柜掉电,系统稳定性不足。



技术实现要素:

针对现有技术的上述不足,本发明提供一种机柜电源bmc冗余管理系统及方法,以解决上述技术问题。

本发明提供一种机柜电源bmc冗余管理系统,包括:

第一bmc和第二bmc,所述第一bmc和第二bmc均连接复杂可编程逻辑器件;所述复杂可编程逻辑器件连接通信总线控制器的输出端;所述通信总线控制器的输入端分别连接第一bmc和第二bmc;所述通信总线控制器连接从设备。

进一步的,所述系统还包括:

所述复杂可编程逻辑器件的输入输出接口分别连接第一bmc和第二bmc;

所述复杂可编程逻辑器件通过两个i2c通信总线端口分别连接第一bmc和第二bmc。

进一步的,所述系统还包括:

第一通信总线控制器、第二通信总线控制器、第三通信总线控制器、第四通信总线控制器和第五通信总线控制器;第一通信总线控制器和第二通信总线控制器均通过i2c通信总线连接传感器处理单元;第三通信总线控制器和第四通信总线控制器均通过i2c通信总线连接电源模块;第五通信总线控制器连接风扇管理模块。

本发明还提供一种机柜电源bmc冗余管理方法,包括:

通信总线控制器监控到与第一bmc连通的通信总线异常则将输入端切换至第二bmc;

复杂可编程逻辑器件监控到所述通信总线控制器的输入端切换动作,则向所有通信总线控制器下发将输入端切换至第二bmc的指令,并向第一bmc下发重启指令。

进一步的,所述方法还包括:

所述复杂可编程逻辑器件监控第一bmc和第二bmc的状态;

在所述复杂可编程逻辑器件设置第一bmc为默认应用bmc;

若所述复杂可编程逻辑器件监控到当前应用的第一bmc故障,则向所有通信总线控制器下发将输入端切换指令,将所有通信总线控制器的输入端均切换至处于开机状态的第二bmc。

进一步的,所述复杂可编程逻辑器件监控第一bmc和第二bmc的状态的方法,包括:

所述复杂可编程逻辑器件通过向第一bmc和第二bmc发送看门狗信号获取第一bmc和第二bmc的运行状态。

进一步的,所述复杂可编程逻辑器件监控到所述通信总线控制器的输入端切换动作的方法,包括:

若所述复杂可编程逻辑器件接收到通信总线控制器的电平转换信号,则判定所述通信总线控制器执行了输入端切换动作。

进一步的,所述方法还包括:

若所述复杂可编程逻辑器件监控到第一bmc重启成功,则向所有通信总线控制器下发将输入端切换指令,将所有通信总线控制器的输入端均由第二bmc切换至第一bmc。

本发明的有益效果在于,

本发明提供的机柜电源bmc冗余管理系统及方法,通过增加一个bmc监控模块和iic转换线路,可以解决在bmc启动过程出现问题时,重启加载镜像文件慢的问题。同时电源系统运行过程中,在不需要重启bmc和断电等操作的前提下,解决bmc系统宕机和iic问题。本发明可有效解决机柜电源系统在bmc启动和运行过程中,出现宕机和iic异常的问题时,不需要重启和掉电,减少bmc启动异常时的开机时间,极大的提高了电源系统的稳定性和可靠性。

此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的机柜电源bmc冗余管理系统的结构示意图;

图2是本申请一个实施例的机柜电源bmc冗余管理方法的一种示例性流程图。

图3是本申请一个实施例的机柜电源bmc冗余管理方法的一种示例性流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

实施例1

本实施例提供一种机柜电源bmc冗余管理系统,如图1所示,包括以下结构:

第一bmc(bmc0)和第二bmc(bmc1),bmc0和bmc1均通过i2c总线连接复杂可编程逻辑器件(cpld),且bmc0和bmc1的wdt接口和reset接口均连接cpld的gpio接口。系统还包括:第一通信总线控制器(芯片1)、第二通信总线控制器(芯片2)、第三通信总线控制器(芯片3)、第四通信总线控制器(芯片4)和第五通信总线控制器(芯片5);芯片1和芯片2均通过i2c通信总线连接传感器处理单元(管理各种传感器信号);芯片3和芯片4均通过i2c通信总线连接电源模块;芯片5连接风扇管理模块。芯片1-5均为iic多主选择器芯片。

其中,芯片1-5均连接cpld的gpio接口(输入输出接口),以芯片1为例,芯片1的输入端分别连接bmc0的接口(i2c1)和bmc1的i2c接口(i2c2)。其他芯片与芯片1的输入端相同,均分别连接bmc0的i2c接口和bmc1的i2c接口。

上电后先由bmc0的iic链路连接后端的iic从设备,当bmc0的一路iic不能正常工作或移出了系统时,那一路的iic多主选择器芯片将输入端切换至bmc1的iic链路,同时通过gpio电平变化向cpld反馈iic切换信息。

实施例2

本实施例提供一种机柜电源bmc冗余管理方法,如图2所示,包括以下步骤:

s1、系统开机时两个bmc系统都将加载并运行,增加的cpld芯片通过监控bmc0和bmc1输出的看门狗信号,收集两个bmc系统的开机状态。

s2、开机过程中系统首先由bmc0系统进行系统控制。当bmc0开机异常或超时后,cpld将读取bmc1的系统开机状态,通过iic读取bmc1开机状态,在bmc1正常开机时系统将由bmc1进行控制。cpld控制bmc0将通过备份的flash重新启动,bmc0重启时5个iic多主选择器芯片将iic的输入端切换至bmc1的iic对应链路进行管理和控制。

s3、在bmc0重启完成后,cpld通过gpio向iic多主选择器芯片发送置位信号,将5组iic的输入端由bmc1切换回bmc0。这样就可以节省由于bmc0重启时间,减少因系统启动异常带来的开机慢问题。

实施例3

本实施例提供一种机柜电源bmc冗余管理方法,如图3所示,包括以下步骤:

s1、在电源监控系统运行时,cpld芯片监控5个iic多主选择器芯片的状态,若接收到其中一路的gpio转换电平,说明bmc0的一路iic出现了异常。

s2、cpld将通过连接到bmc0的iic接口读取对应iic寄存器和bmc状态寄存器值并记录,记录完成后cpld将通过gpio向bmc0发送信号进行重启。此时由于bmc0重启,5个iic多主选择器芯片将iic的输入端切换至bmc1的iic对应链路进行管理和控制。

s3、当bmc0重启完成后,cpld通过gpio向iic多主选择器芯片发送信号,将5组iic的输入端由bmc1切换回bmc0。由此可以解决机柜电源系统在iic异常时,系统需要重启导致无法正常供电的问题,提高了系统的稳定性。

s4、在电源监控系统运行时,cpld芯片监控bmc0看门狗的状态,若监测到bmc0的状态异常,说明系统出现宕机等问题,需要进行重启,cpld通过gpio向bmc0发送信号进行重启,重启流程与上述iic异常流程相同。这样可以解决在bmc0出现宕机等问题时,系统可以在不重启和不下电的状态下解决类似问题。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1