机架系统的制作方法

文档序号:7991061阅读:323来源:国知局
专利名称:机架系统的制作方法
技术领域
本发明是有关于一种服务器的机架系统,且特别是有关于一种多个机架系统的监控方法。
背景技术
许多企业依据其所提供的云端服务或是业务需求而设置许多服务器,并将这些服务器整合成可集中管理的机架系统,藉以节省服务器的管理成本。图1说明机架装置的方块示意图。机架装置100内部放置一网络交换机120和多台服务器110_1 110_η,η为正整数。服务器110_1 110』各自具有丨个网络端口,这些网络端口均连接至网络交换机120。服务器110_1 110_η通过网络交换机120连接至因特网(internet) 10,因特网10也可以称作服务网络。每台服务器都是一个独立的电脑系统。举例而言,每台服务器110_1 110_n各自包含电源供应器、基板管理控制器(BMC)、以及用于散热的多个风扇。在传统的机架系统100中,各个服务器110_1 110_11通过基板管理控制器以各自管理自身的电源供应器与风扇,藉以管控其内部的功耗与温度。由于需要对整个机架系统100中的相关设备进行管理,因此机架系统100还设有管理模块。由于整合管理模块对于机架系统而言十分重要,因此若其出现故障时,需要及时得知故障讯息。

发明内容
本发明提供一种机架系统,在此机架系统中,每两个机架装置内的整合管理模块会通过网络以相互进行同步备份,并在发生异常时相互备援,藉以维持机架系统中服务器的运作,利于集中管理服务器。本发明提出一种机架系统,此机架系统包括第一机架装置以及第二机架装置。第一机架装置包括多个第一机架内部设备与第一整合管理模块。此第一整合管理模块通过网络管理所述第一机架内部设备。第二机架装置包括多个第二机架内部设备与第二整合管理模块。此第二整合管理模块通过网络管理所述第二机架内部设备。并且,第一整合管理模块与第二整合管理模块通过网络相互连结并进行一同步配置程序。其中,当第二整合管理模块发生异常时,第一整合管理模块通过网络同时管理所述第一机架内部设备与所述第二机架内部设备。在本发明的一实施例中,在进行同步配置程序时,第一整合管理模块将第一机架装置的一第一配置信息备份至第二机架装置,且第二整合管理模块将第二机架装置的一第二配置信息备份至第一机架装置,以进行相互备份。

在本发明的一实施例中,上述的第一整合管理模块以及第二整合管理模块相互监测以相互判断是否异常。当第一整合管理模块判断第二整合管理模块发生异常,且第一整合管理模块已经通过网络同时管理第一机架内部设备与第二机架内部设备之后,第一整合管理模块检测第二机架装置以产生一检测结果,并发送包含此第二机架装置的至少一个特征值与所述检测结果的一警示讯息。于另一观点而言,本发明提出一种机架系统。此机架系统包括多个机架装置,这些机架装置经分配后成为多组机架装置组。每组机架装置组则包括第一机架装置与第二机架装置。第一机架装置包括多个第一机架内部设备与一第一整合管理模块,此第一整合管理模块通过网络来管理所述第一机架内部设备。第二机架装置则包括多个第二机架内部设备与第二整合管理模块,此第二整合管理模块通过网络来管理这些第二机架内部设备,且第一整合管理模块与第二整合管理模块通过网络相互连结并进行一同步配置程序。其中,当第二整合管理模块发生异常时,第一整合管理模块将会通过网络来同时管理第一机架内部设备与第二机架内部设备。基于上述,本发明实施例的机架系统会将两个机架装置分配成为同一组的机架装置组,在同一机架装置组内,两个机架装置内的整合管理模块会通过网络相互进行同步备份,同时相互监控以判断是否发生异常。并且,当某个整合管理模块发生异常或故障时,同组中另一个整合管理模块可主动承担起对应机架中内部设备的管理工作,并立即向管理人员进行汇报。如此一 来,在不增加硬件成本下,机架中的整合管理模块也可以具备有相互备援的功能,利于服务器的集中管理。为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。


图1说明机架装置的方块示意图。图2是依照本发明实施例说明机架系统的示意图。图3是依照本发明实施例说明机架装置组的功能模块示意图。主要元件符号说明10:因特网/服务网络20:管理网络100、210_1 210_M:机架装置110_1 110_n、240_l 240_2:服务器120:网络交换机220_1 220_M:机架内部设备230_1 230_M:整合管理模块250_1 250_M:电力供应单元260_1 260_2:风扇单元270_1 270_2:服务网络交换机280_1 280_2:管理网络交换机290_1 290_P:机架装置组
具体实施例方式由于以往每一个机架系统当中仅具备单一个整合管理模块,或是仅能在每个机架系统中配置多个整合管理模块相互备援,藉以避免整合管理模块发生故障或损坏时,机架系统无法运作的情形。于此,本发明实施例的精神在于,机架系统将多个机架装置进行分组,使同组中机架装置的各个整合管理模块通过网络相互进行同步备份。当某个整合管理模块发生异常或故障时,同组中另一个整合管理模块可藉由备份的配置资料以主动承担故障所对应的机架装置以及其管理工作,藉以维持组内机架装置的正常运作。图2是依照本发明实施例说明机架系统200的示意图。机架系统200包括多个机架装置210_1 210_M,M为正整数。由于许多厂商会将众多的机架装置210_1 210_M放置于同一区域中,例如放置于货柜内,以易于集中管理,并可统一移动机架装置210_1 210_M。因此,机架系统200也可称为是货柜式电脑(container computer)。为方便说明,本实施例可将机架装置210_1 210_M分别称为是机架I至机架M。各个机架装置210_1 210_M中分别包括多个机架内部设备220_1 220_M以及整合管理模块(Integrated Management Module ;IMM) 230_1 230_M。各个整合管理模块230_1 230_M皆会通过网络来各自管理对应的机架内部设备220_1 220_M。于本实施例中,机架内部设备220_1 220_M可以是装设于各个机架装置或是机箱当中的多个风扇单兀、多个电源供应器、各个服务器的基板管理控制器(baseboard management controller ;BMC)、和/或其结合。机架装置210_1 210_M的内部结构将会于下列描述中详细说明。机架装置210_1 210_M经两两分配后成为多组机架装置组290_1 290_P,P为正整数。在此特别说明的是,本实施例可以利用整合管理模块230_1 230_M的分散式结构来自动进行分组。换句话说,本实施例可通过整合管理模块230_1 230_M的相互通讯,并依据这些整合管理模块230_1 230_M的特征值,藉以自动匹配对应的整合管理模块230_1 230_M,以使每两个机架装置分配为同一组机架装置组组290_1 290_P。上述的特征值可以是整合管理模块230_1 230_M各自的名称、网络协议地址和/或媒体访问控制地址。举例而言,每个整合管理模块230_1 230_M可以自行建立一机架信息表单,并且将整合管理模块230_1 230_M本身的相关特征值(例如,整合管理模块各自的名称、编号、网络协议地址和/或媒体访问控制地址)写入此机架信息表单,也将本身的特征值通过管理网络传送到附近的整合管理模块,藉以完善每个整合管理模块230_1 230_M中的机架信息表单。然后,各个整合管理模块230_1 230_M便可依据自身的分组判断程序来自动匹配对应的整合管理模块230_1 230_M,以使每两个机架系统能够分配到同一组机架系统组中。于本实施例中,每组机架装置组290_1 290_P包括两个机架装置,例如,机架装置组290_1包括机架I与机架2,机架装置组290_2包括机架3与机架4...机架装置组290_P包括机架(M-1)与机架M。在此以图3绘示的机架装置组290_1作为举例藉以说明本发明实施例,图3是依照本发明实施例说明机架装置组290_1的功能模块示意图。机架装置组290_1具有机架系统210_1(机架I)以及机架系统210_2 (机架2)。于图3中,机架I及机架2各自包括整合管理模块230_1 230_2、多个服务器240_1 240_2、至少一个电力供应单元250_1 250_2、多个风扇单元260_1 260_2、服务网络交换机270_1 270_2以及管理网络交换机280_1 280_2。由于机架I与机架2的结构相同,因此以下以机架I作为举例。此外,机架2至机架M则可由机架I类推而得知。在机架I中,服务器240_1各自具有服务网络端口,以与服务网络交换机270_1的多个网络连接端口分别连接。服务网络交换机270_1、270_2则分别连接至服务网络10 (例如,因特网(internet))。因此,这些服务器240_1可经由服务网络交换机270_1提供服务至服务网络10。服务器240_1各自具有基板管理控制器(baseboard management controller ;BMC),这些基板管理控制器则各自具有管理网络端口。这些基板管理控制器的管理网络端口各自连接至管理网络交换机280_1的多个网络连接端口其中之一。管理网络交换机280_1连接管理网络20。特别说明的是,同样位于机架装置组290_1中的管理网络交换机280_1 280_2可利用各自的网络连接端口相互连接,或是连接至公共网络交换机,藉以与管理网络20连接。远端整合管理中心则可通过公共网络交换机以连接到管理网络20,管理人员可利用远端整合管理中心来接收警示讯息,藉以即时对发出警示讯息的设备进行故障排除。藉此,此管理网络20可以是区域网络(local areanetwork ;LAN),例如以太网络(Ethernet)等区域网络。因此,管理网络交换机280_1 280_2可以是以太网络交换机或是其他区域网络交换机。整合管理模块230_1的管理网络端口连接至管理网络交换机280_1。在机架I中,整合管理模块230_1经由管理网络交换机280_1与这些服务器240_1的基板管理控制器通信,藉以进行服务器管理程序。也就是说,整合管理模块230_1与这些服务器240_1的基板管理控制器通信以获取这些服务器240_1的运行状态(例如服务器内部温度等运行状态),及/或控制这些服务器240_1的运行(例如控制服务器的开机与关机、轫体更新等运行)。机架I配置至少一个电力供应单元250_1,电力供应单元250_1提供电能给机架I中的各个装置。例如,电力供应单元250_1供电给机架I中的管理网络交换机280_1、服务网络交换机270_1、服务器240_1、风扇单元260_1以及整合管理模块230_1。电力供应单元250_1具有管理网络端口,此管理网络端口连接至管理网络交换机280_1。多个风扇单元260_1也具有管理网络端口。风扇单元260_1的管理网络端口也同样连接至管理网络交换机 280_1。藉此,整合管理模块230_1可以通过电源管理程序和/或散热管理程序,经由管理网络交换机280_1与电力供应单元250_1以及风扇单元260_1通信,以获取电力供应单元250_1、风扇单元260_1的运行状态,及/或控制电力供应单元250_1、风扇单元260_1的运行。举例而言,整合管理模块230_1可以经由管理网络交换机280_1获取机架1、各个服务器240_1、风扇单元260_1的相关功耗信息以及风扇运行信息,例如获取所有服务器240_1的功耗量、风扇单元260_1的风扇转速。根据此功耗信息或是风扇运行信息,整合管理模块230_1经由管理网络交换机280_1下达控制命令至电力供应单元250_1、风扇单元260_1,以控制/调整电力供应单元250_1的电力输出,或是控制/调整风扇单元260_1的风扇转速。机架设备210_2 (机架2)亦包括整合管理模块230_2、多个服务器240_2、电力供应单元250_2、风扇单元260_2、服务网络交换机270_2以及管理网络交换机280_2,这些设备的功能皆与机架I中的对应设备相同,在此不再赘述。换句话说,本实施例在图2所绘示的机架内部设备220_1,便是图3中机架I的多个风扇单元260_1、电力供应单元250_1以及各个服务器240_1的基板管理控制器。上述这些机架I中的内部设备皆连接至第一交换机(例如,管理网络交换机230_1)。藉此,机架I的整合管理模块230_1便可利用以太网络协议,并通过第一交换机(管理网络交换机230_1)、第二交换机(管理网络交换机230_2)来连线至机架2的整合管理模块280。特别说明的是,在同一组(例如,机架装置组280_1)当中的两个整合管理模块(例如,整合管理模块230_1与230_2)会通过网络相互连结并进行同步配置程序,藉以相互进行配置信息的备份。详言之,在进行上述的同步配置程序时,整合管理模块230_1会将机架I中的配置信息备份至机架2的整合管理模块230_2中。相对地,整合管理模块230_2也会将机架2的配置信息备份至机架I的整合管理模块230_1中,以进行相互备份。所谓的『配置信息』,便是整合管理模块在管控对应机架装置中的机架内部设备时所必须要得知的相关信息。上述的配置信息也包括整合管理模块已经对每个机架内部设备进行设定的相关参数。以机架I中的整合管理模块230_1作为举例,整合管理模块230_1所产生的配置信息包括整合管理模块230_1本身的网络协议地址、每个机架内部设备220_1 (例如,图3中机架I内各个风扇单元260_1、电力供应单元250_1以及各个服务器240_1的基板管理控制器)的网络协议地址,以及整合管理模块230_1分别针对每个机架内部设备220_1进行设定的配置设定信息,换句话说,配置设定信息可以是每个机架内部设备220_1已设定的相关参数。例如,请参照图3,机架内部设备220_1依据不同区域的服务器240的温度信息来分别调整风扇单元260_1的风扇转速、针对不同服务器240_1来调整电力供应单元250_1的电源供应参数、依据每个服务器240_1中的机板管理控制器而产生的对应表单...等配
置信息。此外,在同一组当中的两个整合管理模块也会相互监测以相互判断是否发生异常。当某一个整合管理模块发生异常时,同组的另一个整合管理模块便可依据备份的配置信息来即时进行备援。例如,机架I中的整合管理模块230_1会定时向机架2的整合管理模块230_2发送一确认请求 ,并且接收由整合管理模块230_2回传的确认回应,藉以确认整合管理模块230_1到整合管理模块230_2之间的网络链结是否通畅,并可同时确认整合管理模块230_2没有发生异常。如果整合管理模块230_1偶尔没有收到整合管理模块230_2所回传的确认回应时,例如整合管理模块230_1并未接收到确认回应的连续次数小于一门槛值的时候,可能当时的整合管理模块230_2已经满载、网络链结过于壅塞而暂时无法收到此确认回应,上述情况应可以允许偶尔发生。但是,当整合管理模块230_1并未接收到该确认回应的连续次数大于上述门槛值时,则整合管理模块230_1便需判断已发生异常。于类似实施例中,整合管理模块230_1也可以通过监听整合管理模块230_2的通讯连线情况,以判断是否发生异常。换句话说,由于整合管理模块230_2会定时对机架2的服务器240_2进行通讯连线,因此整合管理模块230_1便可藉由监听整合管理模块230_2接收/发送网络封包的情况来判断整合管理模块230_2、或是整合管理模块230_1到整合管理模块230_2之间的网络链路是否发生异常。当整合管理模块230_1判断整合管理模块230_2已经发生异常时,整合管理模块230_1便可通过管理网络交换机280_1以及管理网络20,依据整合管理模块230_2备份在整合管理模块230_1当中的机架2的配置信息,来同时管理机架内部设备220_1与机架内部设备220_2,以维持机架2的正常运作。整合管理模块230_1可以藉由执行上述的服务器管理程序、散热管理程序和/或电源管理程序,以同时管理机架I的机架内部设备220_1和机架2的机架内部设备220_2。然后,当整合管理模块230_2发生异常,且整合管理模块230_1已经通过管理网络来同时管理机架内部设备220_1与机架内部设备220_2之后,整合管理模块220_1还会检测机架2中的各个设备以产生关于机架2的检测结果,并发送包含机架2的至少一个特征值与上述检测结果的警示讯息到管理网络20上的远端整合管理中心,让管理人员能够及时得知异常讯息,利于即刻排除整合管理模块230_2的异常情况。所谓的『特征值』可以是整合管理模块230_2所对应的名称、编号、网络协议地址和/或媒体访问控制地址。在警告讯息中放入整合管理模块230_2的特征值理由是,让远端整合管理中心可知晓整合管理模块230_2已发生异常。此外,上述的警示讯息可以包括电子邮件讯息、系统日志和/或简单网络管理协议陷阱(SNMP Trap)讯息...等,本发明实施例并不限制警示讯息的类型。综上所述,本发明本发明实施例的机架系统会将两个机架装置210_1 210_2分配成为同一组的机架装置组290_1。在同一机架装置组290_1内,两个机架装置内的整合管理模块会通过网络相互进行同步备份,同时相互监控以判断是否发生异常。并且,当某个整合管理模块(例如,整合管理模块230_2)发生异常或故障时,同组中另一个整合管理模块(例如,整合管理模块230_1)可主动承担起机架2中内部设备的管理工作,并立即向管理人员进行汇报。如此一来,在不增加硬件成本下,机架中的整合管理模块也可以具备有相互备援的功能,利于服务器的集中管理。虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在 不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当以权利要求所界定的为准。
权利要求
1.一种机架系统,包括: 一第一机架装置,包括多个第一机架内部设备与一第一整合管理模块,该第一整合管理模块通过网络管理所述这些第一机架内部设备;以及 一第二机架装置,包括多个第二机架内部设备与一第二整合管理模块,该第二整合管理模块通过网络管理所述这些第二机架内部设备,且该第一整合管理模块与该第二整合管理模块通过网络相互连结并进行一同步配置程序, 其中,当该第二整合管理模块发生异常时,该第一整合管理模块通过网络同时管理所述这些第一机架内部设备与所述这些第二机架内部设备。
2.如权利要求1所述的机架系统,其特征在于,在进行该同步配置程序时,该第一整合管理模块将该第一机架装置的一第一配置信息备份至该第二机架装置,且该第二整合管理模块将该第二机架装置的一第二配置信息备份至该第一机架装置。
3.如权利要求2所述的机架系统,其特征在于,该第一配置信息包括该第一整合管理模块的一网络协议地址以及所述这些第一机架内部设备的多个设备地址及多个配置设定信息。
4.如权利要求1所述的机架系统,其特征在于,该第一整合管理模块以及该第二整合管理模块相互监测以相互判断是否异常,当该第一整合管理模块判断该第二整合管理模块发生异常,且该第一整合管理模块通过网络同时管理所述这些第一机架内部设备与所述这些第二机架内部设备之后,该第一整合管理模块检测该第二机架装置以产生一检测结果,并发送包含该第二机架装置的至少一特征值与该检测结果的一警示讯息。
5.如权利要求4所述的机架系统,其特征在于,该至少一特征值为该第二整合管理模块对应的一名称、一网络协议地址和/或一媒体访问控制地址。
6.如权利要求4所述的机架系统,其特征在于,该第一整合管理模块定时发送一确认请求至该第二整合管理模块,并接收由该第二整合管理模块传送的一确认回应,当该第一整合管理模块并未接收到该回应讯号的次数大于一门槛值时,该第一整合管理模块判断已发生异常。
7.如权利要求4所述的机架系统,其特征在于,该第一整合管理模块监听该第二整合管理模块的网络连线情况,以判断是否发生异常。
8.如权利要求1所述的机架系统,其特征在于,所述这些第一机架内部设备与所述这些第二机架内部设备分别为设于该第一机架装置与该第二机架装置内的多个基板管理控制器、多个风扇单元、多个电源供应器和/或其结合。
9.如权利要求1所述的机架系统,其特征在于,该第一整合管理模块执行一服务器管理程序、一散热管理程序和/或一电源管理程序以管理所述这些第一机架内部设备和/或所述这些第二机架内部设备。
10.如权利要求1所述的机架系统,其特征在于,该第一机架装置更包括一第一交换机,该第二机架装置更包括一第二交换机,且该第一整合管理模块以一以太网络协议通过该第一交换机、该第二交换机连线至该第二整合管理模块,所述这些第一机架内部设备与所述这些第二机架内部设备分别连接至该第一交换机与该第二交换机,其中 当该第二整合管理模块发生异常时,该第一整合管理模块通过该第一交换机、该第二交换机管控所述这些第二机架内部设备。
11.一种机架系统,包括: 多个机架装置,所述这些机架装置经分配后成为多组机架装置组,每组机架装置组包括: 一第一机架装置,包括多个第一机架内部设备与一第一整合管理模块,该第一整合管理模块通过网络管理所述这些第一机架内部设备;以及 一第二机架装置,包括多个第二机架内部设备与一第二整合管理模块,该第二整合管理模块通过网络管理所述这些第二机架内部设备,且该第一整合管理模块与该第二整合管理模块通过网络相互连结并进行一同步配置程序, 其中,当该第二整合管理模块发生异常时,该第一整合管理模块通过网络同时管理所述这些第一机架内部设备与所述这些第二机架内部设备。
12.如权利要求11所述的机架系统,其特征在于,所述这些机架装置分别配置有多个整合管理模块,且所述这些整合管理模块依据所述这些整合管理模块的至少一特征值,自动匹配对应的所述这些整合管理模块,以使每两个机架装置分配为同一组机架装置组。
13.如权利要求12所述的机架系统, 其特征在于,该特征值为所述这些整合管理模块各自的一名称、一网络协议地址和/或一媒体访问控制地址。
全文摘要
一种机架系统。此机架系统包括第一机架装置以及第二机架装置。第一机架装置包括多个第一机架内部设备与第一整合管理模块,第一整合管理模块通过网络以管理所述第一机架内部设备。第二机架装置包括多个第二机架内部设备与第二整合管理模块,第二整合管理模块通过网络以管理所述第二机架内部设备。并且,第一整合管理模块与第二整合管理模块通过网络相互连结并进行一同步配置程序。其中,当第二整合管理模块发生异常时,第一整合管理模块通过网络同时管理所述第一机架内部设备与所述第二机架内部设备。
文档编号H04L29/08GK103139248SQ20111038572
公开日2013年6月5日 申请日期2011年11月28日 优先权日2011年11月28日
发明者王浩皓 申请人:英业达科技有限公司, 英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1