一种自动恢复集群中意外宕机节点的方法
【专利摘要】本发明提供一种自动恢复集群中意外宕机节点的方法,方法如下:在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。
【专利说明】一种自动恢复集群中意外宕机节点的方法
【技术领域】
[0001]本发明涉及计算机【技术领域】,具体地说是一种自动恢复集群中意外宕机节点的方法。
【背景技术】
[0002]目前在高性能计算集群中,在实际使用过程中,计算节点可能由于某种原因会意外宕机,由于集群一般由成百上千计算节点组成,意外宕机的节点不需要第一时间恢复,也不会影响整个集群的使用,我们可以利用ipmi工具,监控集群节点状态,当发现有节点宕机后,通过ipmi的电源重启功能,自动对岩机节点发送重启命令,以达到自动恢复岩机节点的目的。
【发明内容】
[0003]本发明的目的是克服现有技术中存在的不足,提供一种自动恢复集群中意外宕机节点的方法。
[0004]本发明的技术方案是按以下方式实现的,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点岩机后,把监测结果写到log里,以备管理员查看宕机记录;
确认岩机后,管理节点通过ipmi对岩机节点发送reset命令,强制重启岩机节点。
[0005]本发明的优点是:
本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。
【具体实施方式】
[0006]下面对本发明的一种自动恢复集群中意外宕机节点的方法作以下详细说明。
[0007]本发明的一种自动恢复集群中意外宕机节点的方法,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点岩机后,把监测结果写到log里,以备管理员查看宕机记录;
确认岩机后,管理节点通过ipmi对岩机节点发送reset命令,强制重启岩机节点。
[0008]节点资源监控:通过作业调度PBS来提取计算节点状态,监控到的节点状态down后,在通过ping命令,对岩掉节点进一步确认是否岩机。
[0009]岩机节点重启:确认节点岩机后,通过IPMI协议命令对岩机节点发送reset命令,强制重启宕机节点。
[0010]本发明的一种自动恢复集群中意外宕机节点的方法其加工制作非常简单方便,按照说明书所示即可加工。
[00.Μ]除说明书所述的技术特征外,均为本专业技术人员的已知技术。
【权利要求】
1.一种自动恢复集群中意外宕机节点的方法,其特征在于方法如下: 在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔; 在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点岩机后,把监测结果写到log里,以备管理员查看宕机记录; 确认岩机后,管理节点通过ipmi对岩机节点发送reset命令,强制重启岩机节点。
【文档编号】H04L29/08GK104461823SQ201410717147
【公开日】2015年3月25日 申请日期:2014年12月3日 优先权日:2014年12月3日
【发明者】孙玉超 申请人:浪潮集团有限公司