一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法

文档序号:6517410阅读:521来源:国知局
一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法
【专利摘要】一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法,网络环境包括:计算网络、管理网络、IPMI网络和管理节点资源监控机,管理节点资源监控机通过监控计算网络、管理网络、IPMI网络监控管理网络内的计算节点,通过作业调度PBS来提取计算节点使用情况,内容包括:1)监控到的节点使用情况Free空闲或者job-exclusive作业;2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监控机通过IPMI协议命令对计算节点开机;通过监控整个资源的使用情况,设定开关机条件,在节点空闲时通过系统命令关机,在节点资源不足时,通过IPMI实现节点开机,达到动态开关机,节省功耗的目的。
【专利说明】一种根据计算机集群资源使用情况动态开关机达到节约功 耗的方法
【技术领域】
[0001]本发明涉及计算机应用【技术领域】,具体地说是一种根据计算机集群资源使用情 况动态开关机达到节约功耗的方法。
【背景技术】
[0002]在高性能计算集群中,特别是大型集群中,往往有几百台计算节点组成计算资源, 以每台节点400W功耗计算,一台服务器每天的耗电量就接近10度电,在集群实际运行过程 中,可能某段时间,集群的使用率并不高,大部分或者一部分计算节点都是空闲状态,没有 作业在运算,但节点还处于开机状态,这部分空闲节点浪费了大量电力,针对这种情况,我 们可以监控起整个集群的使用情况,设定在空闲节点达到一定数量,连续空闲超过多少时 间后,管理节点发送命令关闭一部分空闲计算节点,当监控到空闲节点不足时,再通过ipmi 启动一部分节点,达到动态节约功耗的目的。

【发明内容】

[0003]本发明的目的是提供一种根据计算机集群资源使用情况动态开关机达到节约功 耗的方法。
[0004]本发明的目的是按以下方式实现的,网络环境包括:计算网络、管理网络、IPMI网 络和管理节点资源监控机,管理节点资源监控机通过监控计算网络、管理网络、IPMI网络监 控管理网络内的计算节点,通过作业调度PBS来提取计算节点使用情况,内容包括:
1)监控到的节点使用情况Free空闲或者job-exclusive作业;
2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监 控机通过IPMI协议命令对计算节点开机;
具体步骤如下:
1)根据集群的规模和使用频率,规划好集群需要预留的空闲节点资源数量,即保证整 个集群系统有一定数量的空闲节点资源来使用户在提交作业后能立马分配到节点上,包括 设定预留m个空闲计算节点;
2)为了避免计算节点频繁开机关,设定时间周期n个小时,当集群空闲节点资源数超 过m后,持续n个小时,此时监控节点才发送关机命令,关闭多余的空闲计算节点,保证整个 系统有m个空闲计算节点即可;
3)在pbssever服务器上监控pbs提取到的节点状态free空闲或者job-exclusive 作业,当free空闲节点超过m时开始计时,当计时时间大于时间n时,发送关机请求命令, 关闭部分空闲节点,使集群系统保持m个空闲节点;
4)当监控脚本监测到集群空闲节点少于m个时,通过ipmi网络先判断出关机的节点, 然后通过ipmi网络发送开机命令,开启一部分计算节点,使集群空闲计算节点保持在m个。
[0005]本发明的有益效果是:在高性能计算集群中,特别是大型集群中,往往有几百台计算节点组成计算资源,以每台节点400W功耗计算,一台服务器每天的耗电量就接近10度 电,在集群实际运行过程中,可能某段时间,集群的使用率并不高,大部分或者一部分计算 节点都是空闲状态,没有作业在运算,但节点还处于开机状态,这部分空闲节点浪费了大量 电力,针对这种情况,我们可以监控起整个集群的使用情况,设定在空闲节点达到一定数 量,连续空闲超过多少时间后,管理节点发送命令关闭一部分空闲计算节点,当监控到空闲 节点不足时,再通过ipmi启动一部分节点,达到动态节约功耗的目的。
【专利附图】

【附图说明】
[0006]图1是网络环境示意图;
图2是节约功耗流程图。
【具体实施方式】
[0007]参照说明书附图对本发明的方法作以下详细地说明。
[0008]I)网络环境包括:计算网络、管理网络、IPMI网络和管理节点资源监控机,管理 节点资源监控机通过监控计算网络、管理网络、IPMI网络监控管理网络内的计算节点,通 过作业调度PBS来提取计算节点使用情况,I)监控到的节点使用情况Free (空闲)或者 job-exclusive (作业);
2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监 控机通过IPMI协议命令对计算节点开机。
[0009]具体步骤如下:
1)根据集群的规模和使用频率,规划好集群需要预留的空闲节点资源数量,即保证整 个集群系统有一定数量的空闲节点资源来使用户在提交作业后能立马分配到节点上,比如 设定预留m个空闲计算节点;
2)为了避免计算节点频繁开机关,设定时间周期n个小时,当集群空闲节点资源数超 过m后,持续n个小时,此时监控节点才发送关机命令,关闭多余的空闲计算节点,保证整个 系统有m个空闲计算节点即可;
3)在pbssever服务器上监控pbs提取到的节点状态free或者job-exclusive,当 free节点超过m时开始计时,当计时时间大于时间n时,发送关机请求命令,关闭部分空闲 节点,使集群系统保持m个空闲节点;
4)当监控脚本监测到集群空闲节点少于m个时,通过ipmi先判断出关机的节点,然后 通过ipmi发送开机命令,开启一部分计算节点,使集群空闲计算节点保持在m个。
实施例
[0010]由浪潮承担建设的我国高校首套百万亿次超算系统一“清华大学百万亿次项 目”获得清华大学高度认可,并成功应用于中国首个地球模拟器,承担了联合国政府间气候 变化专门委员会第五次评估报告(I P C C-AR 5)气候模拟、预测、评估试验的计算任务。
[0011]该系统由720个计算刀片组成计算节点,共8640个cpu计算核心。在系统投入前 期,集群资源使用情况并不饱和,为了节省功耗,规划空闲节点资源维持在30个,当空闲节点超过30个15个小时后,系统会自动去关闭部分计算节点,当空闲资源不足30或者提交 的作业核数超过360核后,系统会通过ipmi启动部分计算节点。
[0012]具体流程:
在管理节点上,监控pbsnodes -1 free列出free节点,通过wc -1计数为a ;
1)当a>30时,开始计时,在计时过程中若a〈=30计时停止并清0,当计时超过15小时 后,对节点发送关机命令,关机数为a-30 ;
2)当a<30时,通过ipmi发送开机命令,开机数为30_a。
[0013]除说明书所述的技术特征外,均为本专业技术人员的已知技术。
【权利要求】
1.一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法,其特征在 于,网络环境包括:计算网络、管理网络、IPMI网络和管理节点资源监控机,管理节点资源 监控机通过监控计算网络、管理网络、IPMI网络监控管理网络内的计算节点,通过作业调度 PBS来提取计算节点使用情况,内容包括:1)监控到的节点使用情况Free空闲或者job-exclusive作业;2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监 控机通过IPMI协议命令对计算节点开机;具体步骤如下:1)根据集群的规模和使用频率,规划好集群需要预留的空闲节点资源数量,即保证整 个集群系统有一定数量的空闲节点资源来使用户在提交作业后能立马分配到节点上,包括 设定预留m个空闲计算节点;2)为了避免计算节点频繁开机关,设定时间周期n个小时,当集群空闲节点资源数超 过m后,持续n个小时,此时监控节点才发送关机命令,关闭多余的空闲计算节点,保证整个 系统有m个空闲计算节点即可;3)在pbssever服务器上监控pbs提取到的节点状态free空闲或者job-exclusive 作业,当free空闲节点超过m时开始计时,当计时时间大于时间n时,发送关机请求命令, 关闭部分空闲节点,使集群系统保持m个空闲节点;4)当监控脚本监测到集群空闲节点少于m个时,通过ipmi网络先判断出关机的节点, 然后通过ipmi网络发送开机命令,开启一部分计算节点,使集群空闲计算节点保持在m个。
【文档编号】G06F1/32GK103593274SQ201310530405
【公开日】2014年2月19日 申请日期:2013年11月1日 优先权日:2013年11月1日
【发明者】陈良华, 孙玉超 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1