专利名称::机柜系统及机柜系统的监控方法
技术领域:
:本发明涉及一种服务器监控技术,尤其涉及一种收集与监控多台服务器的温度信息的机柜系统以及机柜系统的监控方法。
背景技术:
:为了应付在云端科技及网络应用领域中庞大的运算效能,厂商便将多台服务器整合成可集中管理的机柜(RACK)设备,并且将这些机柜设备整合成机柜系统。此处的机柜系统也可以称为是货柜式计算机(containercomputer)。机柜系统将可统一监控这些服务器的散热、供电...等环境因素,节省营运成本。每台服务器的主机板通常会在重要组件及特定区域设置温度感测器。温度感测器可侦测这些组件的表面温度或是服务器中的环境温度,从而产生相对应的温度信息,使得服务器本身可藉以判断中央处理器(CPU)、芯片组...等组件或是环境温度是否过热。详言之,机柜系统会先通过特定服务器或特定计算机进行温度数据的收集与判断,在此可将特定服务器或特定计算机称为主控伺服端(servernode),此主控伺服端则可控制相对应的控制器来集中统一管控散热装置(例如,风扇装置、水冷系统)。因此,如何有效收集与监控散落于机柜系统中的服务器及其温度数据,进而即时调整机柜系统的散热装置,便是许多厂商所欲解决的问题。
发明内容本发明提供一种机柜系统及机柜系统的监控方法,此机柜系统利用阶层式服务器结构来收集与监控每个区域中的最高温度信息,并通过阶层式服务器的替代机制,以解决当主要节点无法连线时,无法持续汇报此区域的温度信息的缺点。本发明提出一种机柜系统,此机柜系统包括多个服务器与一主控伺服端。服务器配置于N个区域中,N为正整数。主控伺服端耦接至所述服务器,主控伺服端选择第i个区域中多个服务器的其中之一作为第i个区域的主要节点,i为正整数且I<i<N。此主要节点用以收集第i个区域中这些服务器的温度信息,并且统整这些温度信息,以传递最高温度信息至主控伺服端。当主控伺服端无法连线至所述的主要节点时,主控伺服端在第i个区域中选择与主控伺服端连线的其它服务器的其中之一作为替代节点,并且将此替代节点调整为第i个区域的主要节点,以持续收集第i个区域中的温度信息。在本发明的一实施例中,上述的机柜系统还包括N个散热装置以及一散热控制器。N个散热装置分别相对应的配置于N个区域。散热控制器耦接至所述主控伺服端与所述散热装置。主控伺服端依据N个区域各自配置的最高温度信息来传送一散热控制请求至散热控制器,以调整对应于N个区域的N个散热装置的散热效率。在本发明的一实施例中,上述的主控伺服端读取一服务器地址映像表(mappingtable)以解析第i个区域所配置的服务器,并依序发送一测试请求至第i个区域中的服务器,以寻找可作为主要节点的服务器。并且,主控伺服端将可作为主要节点的服务器记录于所述服务器地址映像表。在本发明的一实施例中,当主控伺服端无法连线至主要节点时,主控伺服端将会读取所述服务器地址映像表,藉以依序对可作为主要节点的服务器发送此测试请求。并且,主控伺服端将回传一测试回应的服务器的其中之一设定为替代节点。从另一角度来看,本发明提出一种机柜系统的监控方法。此机柜系统包括配置于N个区域的多个服务器,N为正整数。此监控方法包括下列步骤:解析并选择第i个区域中多个服务器的其中之一,藉以作为第i个区域的主要节点。依序对每个区域的主要节点发出一汇报请求,使得主要节点收集第i个区域中各个服务器的多个温度信息,统整这些温度信息,并传递一最高温度信息。当无法连线至所述主要节点时,在第i个区域中选择连线的其它服务器的其中之一作为一替代节点,并将此替代节点调整为第i个区域的主要节点,以持续收集第i个区域中的温度信息。机柜系统的监控方法的其余实施细节请参照上述说明,在此不加赘述。基于上述,本发明实施例所述的机柜系统的主控伺服端在每个区域的服务器中选定一主要节点,藉以利用阶层式服务器结构来收集与监控此区域的最高温度信息。并且,在主要节点无法与主控伺服端进行连线时,利用阶层式服务器的替代机制,也就是说,主控伺服端在此区域中便可选择其它与主控伺服端连线的服务器作为替代节点,并将此替代节点调整为主要节点。藉此,便可在主要节点无法连线时,通过替代节点来持续汇报温度信息。为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。图1是根据本发明一实施例说明机柜系统的示意图。图2为符合本发明一实施例所述的机柜系统的监控方法的流程图。主要组件符号说明:100:机柜系统110:机柜装置120:服务器130:风扇装置140:水冷装置150:交换机160:主控伺服端170:风扇控制器ZlZN:区域S210S240:步骤具体实施例方式现将详细参考本发明的示范性实施例,在附图中说明所述示范性实施例的实例。另外,凡可能之处,在图式及实施方式中使用相同标号的组件/构件/符号代表相同或类似部分。图1是根据本发明一实施例说明机柜系统100的示意图。机柜系统100可以包括多个机柜装置110与主控伺服端160,主控伺服端160例如是独立设置于众多机柜装置110外的计算机或是位于机柜装置HO中的其中一个服务器。每个机柜装置110具有多个服务器120、符合以太网络规格的交换机150以及散热装置。服务器120配置于N个区域ZlZN,N为正整数。于本实施例中,每个服务器120中包括一基板管理控制器(boardmanagementcontroller;简称BMC)。本实施例中所揭示的监控方法主要是藉由主控伺服端160利用软体执行的伺服引擎(serviceengine)以及各个服务器120的基板管理控制器加以执行,然而本发明并不受限于此。于其它实施例中,亦可以通过主控伺服端160及服务器120中的其它组件来实现本发明,例如,以主控伺服端160与各个服务器120的中央处理器、配合执行本发明实施例中所述功能的应用程序来加以实现。机柜系统100还包括散热控制器,例如是风扇控制器170。风扇控制器170耦接至主控伺服端160与各个机柜装置110中的散热装置。每个机柜装置110中的散热装置则包括N个风扇装置130以及水冷装置140。每个风扇装置130以及水冷装置140分别配置于相对应的区域ZlZN。此外,本实施例的主控伺服端160通过以太网络以及交换机150,以有线网络的型态耦接至位在各个区域ZlZN中的服务器120。因此,为了维持机柜系统100中各个服务器120能够在适合的环境温度下正常运作,又能达到节省能源的功效,主控伺服端160需要持续不断地对每台服务器120的基板管理控制器进行轮询,以收集每个服务器120的温度信息,才能即时调整散热装置,从而增强/减弱环境散热的效果。例如,即时地增加/减少风扇装置130的转速来调节对应区域的环境温度。然而,由于每个风扇装置130可以吹拂对应的整个区域,例如,在此以第i个区域Zi作为举例,i为正整数且I<i<N,因此应只需要得知第i个区域Zi中服务器120内的基板管理控制器所侦测得到的最高温度信息即可,不需要对每个服务器120的基板管理控制器进行轮询。藉此,本发明实施例的主控伺服端160在每个区域的众多服务器120中选择其中一个服务器120,并使其作为主要节点,藉以形成阶层式的服务器结构。其功能在于,此主要节点的基板管理控制器可用来收集位于第i个区域Zi中所有服务器120的温度信息,并且统整这些温度信息,以取得这个区域Zi中最高的温度信息,并将此最高温度信息传递至主控伺服端160。主控伺服端160将会分别依据每个区域各自的最高温度信息来产生一散热控制请求,并将此散热控制请求传送至风扇控制器170,以调整对应于N个区域的N个散热装置的散热效率,例如,调整各个风扇装置130的转速,水冷装置140的进水温度、进水压力、水阀开关...等。由于主控伺服端160仅需对每个区域中的主要节点进行轮询,便可取得各个区域的最高温度信息,因此可大幅降低主控伺服端160的运算效能需求。并且,主控伺服端160可通过风扇控制器170来准确地控制各个机柜装置110的散热装置。需要特别说明的是,当主要节点因某些原因而造成无法跟主控伺服端160汇报区域Zi的温度信息时,举例来说,主要节点的基板管理控制器芯片或电路毁损的网络IP被更改,而无法与网络连线或是主要节点的基板管理控制器芯片与主控伺服端160的伺服引擎之间的连线中断时,主控伺服端160无法得知区域Zi的温度信息,仅能使区域Zi所对应的风扇装置130全速运转。如此一来,不仅造成常态性噪音、电源供应的泛滥以及风扇的持续性耗损以外,上述阶层式服务器结构的相关机制也会成为鸡肋,甚至可能会让主控伺服端160的伺服引擎成为拖累系统效能的无用程序。于此,本发明实施例的精神在于,以上述阶层式服务器结构作为基础,藉此来收集与监控每个区域中的最高温度信息,并在各个区域中服务器120之间进行替代机制,利用可以进行连线的服务器取代无法连线的主要节点。藉此,便可以解决当主要节点无法连线时,无法将此区域的温度信息进行汇报的缺点。换句话说,当主控伺服端160无法连线至第i个区域Zi的主要节点时,主控伺服端160便会在第i个区域Zi中侦测选择目前可以与主控伺服端160连线的其它服务器,并在这些服务器中选择其中之一作为替代节点。并且,主控伺服端160将此替代节点调整为第i个区域Zi的主要节点,以让此替代节点可以持续收集第i个区域Zi中的温度信息,因此主控伺服端160便不需要对旧的主要节点进行轮询。图2为符合本发明一实施例所述的机柜系统100的监控方法的流程图。本监控方法适用于如图1所示的机柜系统100,因此部份关于机柜系统100的实施方式请参照上述说明,在此不再赘述。请同时参考图1与图2,于步骤S210中,主控伺服端160解析并选择区域Zi中其中一个服务器120,藉以使其作为区域Zi的主要节点。在此详细说明步骤S210。在本实施例中,主控伺服端会读取一服务器地址映像表(mappingtable)以解析每个区域所配置的服务器。此服务器地址映像表中包含每个机柜装置110、区域ZlZN的标号及对应的网络协定(IP)地址。因此,主控伺服端160可通过服务器地址映像表来解析出每个区域中各个服务器的网络地址、位在机柜系统100中的实际位置、以及每个区域对应的散热装置。此外,服务器地址映像表也应包含有一主要节点栏位,藉以记录每个区域中哪个服务器为主要节点。并且,服务器地址映像表将会依序发送一测试请求至区域Zi中的服务器,以寻找可作为主要节点的服务器120。由于不是每个服务器120皆可支持符合本发明实施例中所述的监控方法,有部份运算量大的服务器120可以不用、也不需要作为本发明实施例中所述的主要节点。因此,主控伺服端160利用发送测试请求的方式,将会回传一测试回应的服务器120视为可作为主要节点的服务器,并将这些服务器记录于服务器地址映像表中,以待后续使用。然后,本实施例的主控伺服端160依据服务器地址映像表中区域Zi所列的服务器的顺序,选择在表中此区域Zi上第一个可以回传上述测试回应的服务器120,以作为区域Zi中的主要节点。接着,于步骤S220中,主控伺服端160依序对每个区域的主要节点发出汇报请求(reportrequest),使得主要节点得以被唤醒,并开始收集第i个区域Zi中各个服务器120的温度信息,然后统整这些温度信息以得出最高的温度信息,并将此最高的温度信息传递至主控伺服端160。于本实施例中,步骤S230可在步骤S220当中进行。换句话说,在主控伺服端160对每个区域的主要节点进行轮询并发出汇报请求,藉以取得各个区域的最高的温度信息时,主控伺服端160还会同时判断区域Zi中的主要节点是否无法连线。如果在步骤S220中并没有发现主要节点无法连线的情形,则会持续不断地执行步骤S220,藉以维持每个服务器120的环境温度。特别说明的是,本实施例的步骤S230中,主控伺服端160判断是否可以与主要节点进行连线的步骤,将如下所述。当主控伺服端160在轮询动作中对区域Zi的主要节点发出汇报请求,但并未接收到主要节点回传的最高温度信息的次数超过一断线预设值时,主控伺服端160便会将此主要节点判断为无法连线。换句话说,若是主控伺服端160遇到主要节点并未收到回传的最高温度信息时(本实施例将此情况称为回传错误),主控伺服端160便会针对此区域从“O”计数为“1”,表示此区域发生回传错误一次。由于主要节点可能因为正在忙碌而没有回传最高温度信息至主控伺服端160而造成超时(timeout),因此在限定的次数内发生回传错误应该可以容许。因此,如果上述的回传错误次数累积到断线预设值之前,例如,回传错误次数累积一次与两次的时候,主控伺服端160还是有接收到主要节点所回传的最高温度信息,表示此主要节点还是可以与主控伺服端160进行连线。然而,若是上述的回传错误次数累积到断线预设值的时候(例如,回传错误次数累积三次),表示此主要节点的基板管理控制器可能因为网络断线、IP设定错误、服务器过载...等原因而失去联系。因此,主控伺服端160便将区域Zi中的主要节点判断为无法连线,而由步骤S230进入步骤S240。当经由步骤S230的判断,得知主控伺服端160无法连线至所述主要节点时,便进入步骤S240,主控伺服端160在区域Zi中侦测可以与主控伺服端160进行连线的其它服务器,并在这些服务器中选择其中之一作为一替代节点。然后,主控伺服端160将此替代节点调整为区域Zi的主要节点,以持续收集区域Zi中的温度信息,并舍弃对就主要节点的轮询。在此详细说明步骤S240。于本实施例中,当主控伺服端160无法连线至主要节点时,主控伺服端160将会读取上述步骤S210的服务器地址映像表,并且依序对可作为主要节点的服务器120发送此测试请求。然后,主控伺服端160依据服务器地址映像表中区域Zi所列的服务器的顺序,选择在表中此区域Zi上第二个可以回传上述测试回应、并且可与主控伺服端160连线的服务器120,并将此服务器120设定为替代节点。接着,主控伺服端160修改服务器地址映像表中的主要节点栏位,将旧的主要节点栏位移除,并将替代节点所对应的主要节点栏位进行标记,以将此替代节点调整为区域Zi的主要节点。藉此,回到步骤S220,主控伺服端160便可依据服务器地址映像表中所记录的主要节点来进行机柜系统100中各个服务器120的环境温度收集、监控与调整。综上所述,本发明实施例所述的机柜系统100的主控伺服端160在每个区域的服务器中选定一主要节点,藉以利用阶层式服务器结构来收集与监控此区域的最高温度信息。并且,在主要节点无法与主控伺服端160进行连线时,利用阶层式服务器的替代机制,也就是说,主控伺服端160在此区域中便选择其它可与主控伺服端160连线的服务器作为替代节点,并将此替代节点调整为主要节点。藉此,便可在主要节点无法连线时,主控伺服端160通过替代节点来持续汇报此区域的温度信息。虽然本发明已以实施例揭示如上,但其并非用以限定本发明,任何所属
技术领域:
的技术人员,在不脱离本发明的精神和范围内,当可作适当的改动和同等替换,故本发明的保护范围应当以本申请权利要求所界定的范围为准。权利要求1.一种机柜系统,其特征在于,包括:多个服务器,配置于N个区域,N为正整数;以及一主控伺服端,耦接至该些服务器,该主控伺服端选择第i个区域的该些服务器其中之一作为第i个区域的一主要节点,该主要节点收集第i个区域中该些服务器的多个温度信息,并传递一最高温度信息至该主控伺服端,i为正整数且I<i<N,其中,当该主控伺服端无法连线至该主要节点时,该主控伺服端在第i个区域中选择与该主控伺服端连线的其它服务器其中之一作为一替代节点,并将该替代节点调整为第i个区域的该主要节点,以持续收集第i个区域中的该些温度信息。2.根据权利要求1所述的机柜系统,其中该主控伺服端通过一以太网络与多个交换机以耦接至该些服务器。3.根据权利要求1所述的机柜系统,还包括:N个散热装置,分别相对应的配置于N个区域;以及一散热控制器,耦接至该主控伺服端与该些散热装置,其中该主控伺服端依据N个区域各自的该最高温度信息传送一散热控制请求至该散热控制器,以调整对应于N个区域的N个散热装置的散热效率。4.根据权利要求1所述的机柜系统,其中该主控伺服端读取一服务器地址映像表以解析第i个区域所配置的该些服务器,依序发送一测试请求至第i个区域中的该些服务器,以寻找可作为该主要节点的该些服务器,并将可作为该主要节点的该些服务器记录于该服务器地址映像表。5.根据权利要求4所述的机柜系统,当该主控伺服端无法连线至该主要节点时,该主控伺服端读取该服务器地址映像表,依序对可作为该主要节点的该些服务器发送该测试请求,并将回传一测试回应的该些服务器其中之一设定为该替代节点。6.—种机柜系统的监控方法,该机柜系统包括配置于N个区域的多个服务器,N为正整数,其特征在于,该监控方法包括:解析并选择第i个区域的该些服务器其中之一作为第i个区域的一主要节点;依序对每个区域的该主要节点发出一汇报请求,使该主要节点收集第i个区域中该些服务器的多个温度信息,并传递一最高温度信息;以及当无法连线至该主要节点时,在第i个区域中选择连线的其它服务器其中之一作为一替代节点,并将该替代节点调整为第i个区域的该主要节点以持续收集第i个区域中的该些温度信息。7.根据权利要求6所述的监控方法,解析并选择第i个区域的该些服务器其中之一作为第i个区域的该主要节点包括下列步骤:读取一服务器地址映像表,以解析第i个区域所配置的该些服务器;以及依序发送一测试请求至第i个区域中的该些服务器,以寻找可作为该主要节点的该些服务器,并将可作为该主要节点的该些服务器记录于该服务器地址映像表。8.根据权利要求6所述的监控方法,解析并选择第i个区域的该些服务器其中之一作为第i个区域的该主要节点还包括下列步骤:将回传一测试回应的该些服务器其中之一设定为该主要节点。9.根据权利要求7所述的监控方法,在第i个区域中选择连线的其它服务器其中之一作为该替代节点包括下列步骤:读取该服务器地址映像表,并依序对可作为该主要节点的该些服务器发送该测试请求;以及将回传一测试回应的该些服务器其中之一设定为该替代节点。10.根据权利要求6所述的监控方法,判断无法连线至该主要节点包括下列步骤:对该主要节点发出该汇报请求,但并未接收到该主要节点回传该最高温度信息的次数超过一断线预设值时,将该主要节点判断为无法连线。全文摘要本发明涉及一种机柜系统及机柜系统的监控方法。机柜系统包括多个服务器与一主控伺服端。服务器配置于N个区域中。主控伺服端耦接至所述服务器,主控伺服端选择第i个区域中多个服务器的其中之一作为第i个区域的主要节点。此主要节点收集第i个区域中这些服务器的温度信息,以传递最高温度信息至主控伺服端。当主控伺服端无法连线至所述的主要节点时,主控伺服端在第i个区域中选择与主控伺服端连线的其它服务器的其中之一作为替代节点,并且将此替代节点调整为第i个区域的主要节点,以持续收集第i个区域中的温度信息。文档编号G06F11/30GK103176516SQ20111043762公开日2013年6月26日申请日期2011年12月23日优先权日2011年12月23日发明者邱国书,陈建州,李思贤,陈星邑申请人:英业达股份有限公司