一种基于作业调度的刀片服务器的散热系统和方法

文档序号:6635898阅读:289来源:国知局
一种基于作业调度的刀片服务器的散热系统和方法
【专利摘要】本发明提供一种基于作业调度的刀片服务器的散热系统和方法,散热系统包括电源模块、风扇模块、能耗采集模块、能耗管理模块和作业调度模块,所述能耗采集模块定时采集每台刀片服务器的功耗信息、电源功率信息和风扇转速信息,能耗管理模块获得刀片服务器CPU占用率信息,对当前运行的作业进行监控,计算更加平衡的散热方法,更改作业模式,降低整体功耗。
【专利说明】—种基于作业调度的刀片服务器的散热系统和方法

【技术领域】
[0001]本发明涉及一种服务器的散热方法,具体涉及一种基于作业调度的刀片服务器的散热系统和方法。

【背景技术】
[0002]具有高计算密度、优化部署、方便管理、资源共享、高性价比等明显优势的刀片服务器系统,是其发展的主要方向。刀片服务器获得广泛应用的主要原因在于其较高的性价t匕,但其高密度的特点也不可避免的带来电力消耗的较大增长,巨大的耗能引来了各方的关注。虽然节点密度快速增长,但使用效率却在低水平徘徊不前,例如最普遍的X86服务器集群,普遍认为其利用率低于30%。
[0003]龙芯3号系列CPU的出现代表着以国产处理器为核心的高端芯片在现有的处理器的基础上将IT计算行业提升到了一个新的高度。龙芯3号CPU采用MIPS架构,单颗CPU功耗低于15W,远低于X86架构的CPU,但大量处理器搭建的集群系统,与处理器相配套的内存、硬盘、电源以及整个机房的制冷系统都会指数型提升能耗。
[0004]因此需要提供一种针对龙芯处理器为核心的服务器的功耗进行监控的技术方案,并以此调度管理系统。


【发明内容】

[0005]为了克服上述现有技术的不足,本发明提供一种基于作业调度的刀片服务器的散热系统和方法,基于龙芯刀片服务器进行功耗的监控和管理,并对当前运行作业进行监控,计算更加平衡的散热方法。
[0006]为了实现上述发明目的,本发明采取如下技术方案:
[0007]—种基于作业调度的刀片服务器的散热系统,所述系统包括电源模块、风扇模块、能耗采集模块、能耗管理模块和作业调度模块。
[0008]本发明提供的优选技术方案中,与刀片服务器的功耗传感器连接的所述能耗采集模块定时采集刀片服务器的功耗信息。
[0009]本发明提供的第二优选技术方案中,分别与电源模块和风扇模块连接的所述能耗采集模块实时采集电源模块的功率信息和风扇模块的转速信息。
[0010]本发明提供的第三优选技术方案中,所述能耗管理模块通过千兆网络与刀片服务器连接,获得刀片服务器CPU占用率信息。
[0011]本发明提供的第四优选技术方案中,一种基于作业调度的刀片服务器的散热方法,所述方法包括如下步骤:
[0012](I)采集刀片服务器功耗信息、电源的功耗信息和风扇的转速信息;
[0013](2)获得刀片服务器的CPU占用率信息,与刀片服务器功耗信息相对应;
[0014](3)分析风扇转速信息及刀片服务器的CPU占用率和功耗信息,计算出作业调度方法,并对作业进行修改。
[0015]本发明提供的第五优选技术方案中,所述步骤(3)中作业调度方法包括如下步骤:
[0016]A、判断风扇转速是否超过基准值20%,若超过则对当前的作业进行调整;
[0017]B-1、若当前所有作业占用全部刀片服务器CPU数量的半数以下,则将CPU占用率大于50%的刀片服务器的一半作业转移到空闲服务器的CPU上,使所有的刀片服务器CPU占用率都小于50% ;
[0018]B-2、若当前所有作业占用全部刀片服务器CPU数量的半数以上,则预先判断采用相邻作业互换是否能将当作业占用服务器CPU数量降到半数以下,若是则进行相邻作业互换,互换后再进行步骤B-1,否则不做处理。
[0019]与现有技术相比,本发明的有益效果在于:
[0020]本发明对龙芯刀片服务器进行功耗的监控和管理,以及对当前运行作业的监控,将作业在不同服务器上的进行调度,可有效降低刀片服务器散热所需的功耗,从而降低整体功耗。

【专利附图】

【附图说明】
[0021]图1是龙芯刀片服务器功耗管理及散热框架图
[0022]图2是龙芯刀片服务器CPU使用率曲线图
[0023]图3是CPU占用率低于50%的初始状态的作业分布图
[0024]图4是CPU占用率高于50%的初始状态的作业分布图
[0025]图5是进行作业互换后的作业分布图

【具体实施方式】
[0026]下面结合附图对本发明作进一步详细说明。
[0027]本发明以曙光公司最新的TC4600L刀片系统为例。曙光TC4600L系统采用5U14片设计,即在5U的高度空间集成14台刀片服务器,每台刀片服器主板上有2颗龙芯3号处理器芯片,整个刀片系统共28颗处理器芯片,该14台刀片服务器采用相同配置。刀片系统采用统一的供电和散热系统,配备4颗2000kw电源和4颗最大转速2000RPM的风扇系统,可提供最大8000kw功率和最大8000RPM转速的散热性能。
[0028]如图1所示,能耗采集模块连接每台刀片服务器的功耗传感器以及电源模块和风扇模块,采集服务器实时功耗及电源功率和风扇转速,并将信息发送给能耗管理模块。
[0029]建立该刀片系统的散热模型,即测量在相同配置的刀片服务器中,采用相同的负载如图2所示,分为11档,即CPU使用率为0,10%,20%,30%,40%,50%,60%,70%,80%,90%,100%时服务器的总功耗及当前风扇转速。该结果是在标准室温25摄氏度,CPU温度低于60摄氏度,湿度20%的情况下测量。
[0030]若风扇转速超过基准值20%以上,则有必要对当前的作业调度系统进行调整。假设当前刀片服务器的平均CPU使用率为50%,但风扇转速达到7000转。其转速大于基准值55.6% [计算方法为:(7000-4500)/4500*100% ],则可以判断超过基准值20%,需要对当前的作业分配进行调整。
[0031](I)如图3所示,X轴为时间(单位:小时),Y轴为CPU数,在O时刻,当前28个CPU中有14个被占用,理论上风扇转速为4500转,但在局部服务器上,CPU是全部使用的(如CPU1,2在同一服务器上,均被占用),因此在这台服务器上是高于50%的负载运行。散热系统也会根据功耗最高的服务器进行散热,因此会大大提高风扇转速。针对于此现象,本发明设计将该作业的一部分分配至空闲的服务器的单个CPU,即作业I使用1,3,5,7,9,11号CPU,既可以完成作业,又能平衡整个刀片系统的功耗。同理,将作业3和作业4所需的CPU也根据服务器划分,使整个刀片系统的单台服务器CPU使用率都降至50%,可有效降低散热系统的转速,降至基准值20%范围以内。
[0032](2)如图4所示,若当前作业所占用的CPU核数大于14颗,即所有CPU的1/2,则无法将所有作业所需的CPU均放在服务器的单颗CPU上,本发明提出作业互换的方法。本发明提出的作业互换均采用相邻作业的互换,一套作业调度系统只允许一次作业互换。如图5所示,互换后,在O时刻,使用CPU数低于总服务器CPU数量的一半,再进行(I)的操作。
[0033]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的【具体实施方式】进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
【权利要求】
1.一种基于作业调度的刀片服务器的散热系统,其特征在于,所述系统包括电源模块、风扇模块、能耗采集模块、能耗管理模块和作业调度模块。
2.根据权利要求1所述刀片服务器的散热系统,其特征在于,与刀片服务器的功耗传感器连接的所述能耗采集模块定时采集刀片服务器的功耗信息。
3.根据权利要求1所述刀片服务器的散热系统,其特征在于,分别与电源模块和风扇模块连接的所述能耗采集模块实时采集电源模块的功率信息和风扇模块的转速信息。
4.根据权利要求1所述刀片服务器的散热系统,其特征在于,所述能耗管理模块通过千兆网络与刀片服务器连接,获得刀片服务器CPU占用率信息。
5.一种基于作业调度的刀片服务器的散热方法,其特征在于,所述方法包括如下步骤: (1)采集刀片服务器功耗信息、电源的功耗信息和风扇的转速信息; (2)获得刀片服务器的CPU占用率信息,与刀片服务器功耗信息相对应; (3)分析风扇转速信息及刀片服务器的CPU占用率和功耗信息,计算出作业调度方法,并对作业进行修改。
6.根据权利要求5所述刀片服务器的散热方法,其特征在于,所述步骤(3)中作业调度方法包括如下步骤: A、判断风扇转速是否超过基准值20%,若超过则对当前的作业进行调整; B-1、若当前所有作业占用全部刀片服务器CPU数量的半数以下,则将CPU占用率大于50%的刀片服务器的一半作业转移到空闲服务器的CPU上,使所有的刀片服务器CPU占用率都小于50% ; B-2、若当前所有作业占用全部刀片服务器CPU数量的半数以上,则预先判断采用相邻作业互换是否能将当作业占用服务器CPU数量降到半数以下,若是则进行相邻作业互换,互换后再进行步骤B-1,否则不做处理。
【文档编号】G06F1/32GK104360724SQ201410692786
【公开日】2015年2月18日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】李麟, 王松宇, 张玲 申请人:曙光信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1