用于数据中心电子机架的液体冷却的泄漏检测和响应系统的制作方法

文档序号:19384750发布日期:2019-12-11 00:48阅读:155来源:国知局
用于数据中心电子机架的液体冷却的泄漏检测和响应系统的制作方法

本发明的实施方式总体上涉及数据中心。更具体地,本发明的实施方式涉及用于数据中心中的电子机架的液体冷却的液体分配单元设计。



背景技术:

散热是计算机系统和数据中心设计的重要因素。高性能电子组件(诸如,封装在服务器内部的高性能处理器)的数目稳步增加,从而使服务器的常规操作期间产生和消散的热量增加。如果允许服务器运行的环境随着时间而升高温度,则数据中心内使用的服务器的可靠性降低。保持合适的热环境对于数据中心中的这些服务器的正常运行以及服务器性能和寿命来说是至关重要的。这需要更有效和高效的散热解决方案,特别是在冷却这些高性能服务器的情况下尤其如此。

功率密集型处理器能够实现诸如深度学习的密集计算方案。具有这种处理器(即,高功率中央处理单元(cpu)和/或通用或图形处理单元(gpu))的电子服务器具有每体积空间的非常高的功率密度。液体冷却是针对高功率密度的合适的热管理解决方案。

在液体冷却中,歧管被用于经由主入口端口/主出口端口和流体子端口分配和调节流体。主入口端口和主出口端口连接至外部冷却源,并且子端口与服务器回路或冷却设备回路连接。流体分配歧管是一项成熟技术;然而,大部分传统歧管设计在一些应用场景中效率不高。

在液体冷却可以作为成熟的方案应用并在数据中心中规模采用之前,主要挑战之一是可靠性。可靠性问题为流体泄漏。存在用于改善液体冷却系统可靠性的多种方法,诸如改善产品质量、开发组件测试程序和标准(软管连接器、歧管等)、流体选择标准、材料选择标准等。然而,仍然经常可能发生泄漏,并且缺乏有效的机构来降低液体泄漏的风险。



技术实现要素:

根据本申请的一方面,提供了一种电子机架,其包括:

机架歧管,所述机架歧管具有机架液体供应线和机架液体返回线,所述机架液体供应线从冷却液体源接收冷却液体,所述机架液体返回线使较暖液体返回到所述冷却液体源;

多个服务器刀片,所述多个服务器刀片堆叠布置,其中,所述服务器刀片中的每个包括一个或多个冷板和服务器液体分配回路,所述一个或多个冷板与一个或多个信息技术(it)组件相关联,所述服务器液体分配回路从所述机架歧管接收所述冷却液体并将所述冷却液体分配至所述冷板以交换由所述it组件产生的热,从而将所述冷却液体转变成所述较暖液体,其中,所述服务器刀片中的每个还包括泄漏检测器,所述泄漏检测器配置成检测分配至所述服务器刀片的所述冷却液体的泄漏;

多对服务器液体供应线和服务器液体返回线,每对与所述服务器刀片中的一个对应,其中,所述服务器液体供应线和所述服务器液体返回线联接在所述机架歧管与所述服务器刀片的所述服务器液体分配回路之间;

多个服务器流控制设备(fcd),每个服务器流控制设备与多对所述服务器液体供应线和所述服务器液体返回线中的一个对应,所述多个服务器流控制设备包括联接至第一服务器刀片的、成对的第一服务器液体供应线和第一服务器液体返回线的第一服务器fcd;

机架管理控制器(rmc)单元,所述机架管理控制器单元联接至所述服务器fcd和所述服务器刀片的泄漏检测器,其中,所述rmc配置成响应于从所述第一服务器刀片的第一泄漏检测器接收的指示所述第一服务器刀片内存在液体泄漏的信号,向所述第一服务器fcd发送控制信号以减少分配至所述第一服务器刀片的所述冷却液体的量。

根据本申请的另一方面,提供了一种数据中心的电子机架,其包括:

机架歧管,所述机架歧管具有机架液体供应线和机架液体返回线,所述机架液体供应线从冷却液体源接收冷却液体,所述机架液体返回线使较暖液体返回到所述冷却液体源;

多个服务器刀片,所述多个服务器刀片堆叠布置,其中,所述服务器刀片中的每个包括一个或多个冷板和服务器液体分配回路,所述一个或多个冷板与一个或多个信息技术(it)组件相关联,所述服务器液体分配回路从所述机架歧管接收所述冷却液体并将所述冷却液体分配至所述冷板以交换由所述it组件产生的热,从而将所述冷却液体转变成所述较暖液体,其中,所述服务器刀片中的至少一个还包括泄漏检测器,所述泄漏检测器配置成检测分配至所述服务器刀片的所述冷却液体的泄漏;

机架流控制设备(fcd),所述机架流控制设备联接至所述机架液体供应线和所述机架液体返回线;以及

机架管理控制器(rmc)单元,所述机架管理控制器单元联接至所述机架fcd和所述服务器刀片中的每个服务器刀片的所述泄漏检测器,其中,所述rmc配置成响应于从任何所述服务器刀片中的泄漏检测器接收的指示存在液体泄漏的信号,向所述机架fcd发送控制信号以减少到达所述服务器刀片的所述冷却液体的量。

附图说明

本发明的实施方式在附图的各图中以举例而非限制的方式示出,附图中的相同的参考数字指代相似的元件。

图1是示出根据一个实施方式的数据中心设施的示例的框图。

图2是示出根据一个实施方式的电子机架的示例的框图。

图3是示出根据一个实施方式的冷板配置的示例的框图。

图4a至图4b是示出根据某些实施方式的电子机架的示例的框图。

图5是示出根据一个实施方式的可以实现为服务器刀片的一部分的冷却模块的示例的框图。

具体实施方式

将参考以下所讨论的细节来描述本发明的各种实施方式和方面,并且附图将示出所述各种实施方式。下列描述和附图是对本发明的说明,而不应当解释为限制本发明。描述了许多特定细节以提供对本发明的各种实施方式的全面理解。然而,在某些情况下,并未描述众所周知的或常规的细节以提供对本发明的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可以包括在本发明的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。

本发明的实施方式集中在用于服务器液体冷却的泄漏响应设计。它提供了液体泄漏响应的基本构思,包括机械和热设计、控制设计以及信息技术(it)响应设计。基本上,该概念是通过使用旁路回路来切断或转移供应至已经泄漏的冷却回路或冷却模块的流体。旁路回路的功能是绕过冷却回路/冷却模块。可以在机架级和/或服务器级实现旁路机构。

根据本发明的一个方面,电子机架包括具有机架液体供应线和机架液体返回线的机架歧管。机架液体供应线配置成从冷却液体源接收冷却液体。机架液体返回线配置成使携带从电子机架的服务器交换的热量的较暖液体返回到冷却液体源。电子机架还包括以堆叠布置的多个服务器刀片。服务器刀片中的每个包括一个或多个冷板和服务器液体分配回路,一个或多个冷板与一个或多个it组件(例如,处理器、存储器和/或存储储设备)相关联,服务器液体分配回路从机架歧管接收冷却液体并将冷却液体分配至冷板以交换由it组件产生的热量。每个服务器刀片还包括配置成检测分配至服务器刀片的冷却液体的泄漏的泄漏检测器。

电子机架还包括多对服务器液体供应线和服务器液体返回线。每对服务器液体供应线和服务器液体返回线与服务器刀片中的一个对应。服务器液体供应线和服务器液体返回线联接在机架歧管与服务器刀片的服务器液体分配回路之间。电子机架还包括与服务器刀片对应的多个服务器流控制设备(fcd)。每个服务器fcd联接至多对的服务器液体供应线和服务器液体返回线中的一对,包括与第一服务器刀片的第一对服务器液体供应线和服务器液体返回线联接的第一服务器fcd。电子机架还包括联接至服务器fcd和服务器刀片的泄漏检测器的机架管理控制器(rmc)单元。在一个实施方式,rmc单元配置成响应于从第一服务器刀片的第一泄漏检测器接收的指示第一服务器刀片内存在泄漏的信号,向第一服务器fcd发送控制信号以减少待分配至第一服务器刀片的冷却液体的量。在一个实施方式中,当检测到液体泄漏时,fcd可完全切断到服务器刀片的供应线。

根据一个实施方式,第一服务器fcd配置成阻挡基本上全部的冷却液体被分配至第一服务器刀片的第一液体分配回路。在特定实施方式中,第一服务器fcd配置成经由旁路路径或路线将冷却液体从第一服务器刀片的服务器供应线转移或改道至服务器返回线,从而绕过第一服务器刀片的液体分配回路。

根据另一实施方式,每个服务器刀片还至少包括设置在服务器液体供应线、服务器液体返回线之一上或者设置在两者上的液体压力传感器以感测在服务器刀片内流动的液体压力。如果液体压力降低至预定阈值以下,则意味着服务器刀片内可能存在液体泄漏。rmc单元配置成响应于从压力传感器接收的信号,激活服务器fcd以阻挡至少大量或大量的冷却液体被分配至服务器刀片或使用旁路机构转移至少大量或大量的冷却液体。

根据另一实施方式,机架fcd联接至机架液体供应线。机架fcd配置成控制待分配至服务器刀片的冷却液体的量。响应于从rmc单元接收的、指示服务器刀片中的至少一个内存在液体泄漏的信号,机架fcd被激活以阻挡或者转移至少大量的冷却液体,这减少了大量的冷却液体进入服务器刀片。根据又一实施方式,液体压力传感器可联接至机架液体供应线和/或机架液体返回线以在机架级感测液体压力。如果机架液体压力下降至预定阈值以下,则意味着服务器刀片中的至少一个内可能存在液体泄漏。作为响应,rmc单元可以激活机架fcd以减少至少大量或大量的冷却液体被分配至服务器刀片。

根据本发明的另一方面,电子机架包括具有机架液体供应线和机架液体返回线的机架歧管。机架液体供应线从冷却液体源接收冷却液体,并且机架液体返回线使携带被交换的热量的较暖液体返回到冷却液体源。电子机架包括堆叠布置的多个服务器刀片。每个服务器刀片包括一个或多个冷板和服务器液体分配回路,一个或多个冷板与一个或多个it组件相关联,服务器液体分配回路接收冷却液体并将冷却液体分配至冷板以交换由it组件产生的热量,进而将冷却液体转变成较暖液体。服务器刀片中的至少一个包括泄漏检测器以检测可能的液体泄漏。电子机架还包括至少联接至机架液体供应线的机架fcd、以及联接至机架fcd和服务器刀片的泄漏检测器的rmc单元。响应于从液体泄漏检测器接收的信号,rmc单元向机架fcd发送命令以减少流入到服务器刀片中的冷却液体的量,或完全切断流体。

根据一个实施方式,机架fcd配置成基本上阻挡全部冷却液体进入服务器刀片的液体分配回路。替代地,机架fcd配置成将至少大量或大量的冷却液体从机架液体供应线转移至机架液体返回线,从而绕过服务器刀片。根据另一实施方式,电子机架还包括设置在机架液体供应线或机架液体返回线上的机架液体压力传感器,以感测在机架液体供应线或机架液体返回线内流动的液体压力。rmc单元配置成响应于从机架液体压力传感器接收的指示液体压力降低至预定阈值以下的信号,激活机架fcd以减少进入服务器刀片的冷却液体的量。

根据又一实施方式,每个服务器刀片包括至少联接至服务器液体供应线的服务器fcd,当服务器fcd激活时,服务器fcd配置成减少进入相应的服务器刀片的冷却液体的量。服务器fcd可以仅为用于基本上关闭或阻挡液体进入服务器刀片的阀。替代地,当服务器fcd激活时,服务器fcd可以将大多数或全部冷却液体从服务器液体供应线转移至服务器液体返回线,从而绕过服务器刀片的液体分配回路。

图1是示出根据一个实施方式的数据中心或数据中心单元的示例的框图。在本示例中,图1示出了数据中心的至少一部分的俯视图。参考图1,根据一个实施方式,数据中心系统100包括信息技术(it)组件、设备或仪器的多行电子机架101-102,例如,通过网络(例如,互联网)向各种客户端提供数据服务的计算机服务器或计算节点。在本实施方式中,每行包括电子机架,诸如,电子机架110a-110n的阵列。然而,可实施更多行或更少行的电子机架。通常,行101-102平行对准,其中,前端彼此面对并且后端彼此背离,从而在行101-102中间形成通道103以允许管理人员在通道103中行走。然而,还可应用其它配置或布置。

在一个实施方式中,电子机架(例如,电子机架110a-110n)中的每个包括壳体以容纳在其中运行的it组件的多个电子机架。电子机架可以包括散热液体歧管、多个服务器插槽以及能够插入服务器插槽中和从服务器插槽移除的多个服务器刀片。每个服务器刀片表示具有一个或多个处理器、存储器和/或永久性存储设备(例如,硬盘)的计算节点。至少一个处理器附接至液体冷板(还被称为冷板组件)以接收冷却液体。此外,一个或多个可选的冷却风扇与服务器刀片相关联,以向包含在服务器刀片中的计算节点提供空气冷却。应注意,散热系统120可联接到诸如数据中心系统100的多个数据中心系统。散热系统将数据中心内产生的大量热移出至大气。

在一个实施方式中,散热系统120包括连接到建筑物/容纳容器外部的冷却塔或干燥冷却器的外部液体回路。散热系统120可以包括但不限于蒸发冷却、自由空气、以及抛弃较大热质量和废热回收设计。散热系统120可包括提供冷却液体的冷却液体源或可联接至提供冷却液体的冷却液体源。

在一个实施方式中,每个服务器刀片模块化地联接到散热液体歧管,使得可以从电子机架移除服务器刀片,而不影响电子机架上的剩余服务器刀片和散热液体歧管的运行。在另一实施方式中,每个服务器刀片通过快速释放联接组件联接到散热液体歧管(还被称为冷却液体歧管),快速释放联接组件具有联接到柔性软管的第一液体入口连接器和第一液体出口连接器以将散热液体分配至处理器。第一液体入口连接器经由第二液体入口连接器从安装在电子机架的后端上的散热液体歧管接收散热液体。第一液体出口连接器经由第二液体出口连接器将携带有从处理器交换的热量的较暖或较热液体排出到散热液体歧管,然后回到电子机架内的冷却剂分配单元(cdu)。

在一个实施方式中,设置在每个电子机架的后端上的散热液体歧管联接到液体供应线132以从散热系统120接收散热液体(还被称为冷却液体)。散热液体通过附接到其上安装有处理器的冷板组件的液体分配回路来分配,以将热从处理器移除。冷板配置成与散热器类似,其中,液体分配管附接到冷板或嵌入到冷板中。携带有从处理器交换的热量而产生的较暖或较热液体经由液体返回线131输送回到散热系统120。液体供应线132和液体返回线131被称为数据中心或房间液体供应/返回线(例如,全局液体供应/返回线),其向电子机架行101-102中的所有供应散热液体。液体供应线132和液体返回线131联接到位于每个电子机架内的cdu的热交换器,从而形成主回路。热交换器的次级回路联接到电子机架中的每个服务器刀片,以将冷却液体输送至处理器的冷板。

在一个实施方式中,数据中心系统100还包括可选的气流供应系统135,以产生气流使得气流行进通过电子机架的服务器刀片的空气间隔,从而交换由于计算节点(例如,服务器)的运行而由计算节点产生的热,并将气流交换的热排出到房屋/房间/建筑物外部的外部环境108。例如,空气供应系统135产生凉的/冷的空气气流以从通道103循环通过电子机架110a-110n,从而带走交换的热量。冷气流通过电子机架的前端进入电子机架,并且暖/热气流从电子机架的后端离开电子机架。带有交换的热量的暖/热空气从房间/建筑物排出。因此,冷却系统是混合液体-空气冷却系统,其中由处理器产生的一部分热量经由相应冷板通过冷却液体移除,而由处理器(或其他电子器件或处理设备)产生的热量的剩余部分通过冷却气流移除。空气供应系统135可以连接至散热系统120以将热量引出到大气。

图2是示出根据一个实施方式的电子机架的框图。电子机架200可表示图1中示出的任意电子机架,例如,电子机架110a-110n。参考图2,根据一个实施方式,电子机架200包括但不限于可选的cdu201、rmu202以及一个或多个服务器刀片203a-203e(统称为服务器刀片203)。服务器刀片203可以分别从电子机架200的前端204或后端205插入到服务器插槽的阵列中。应注意,虽然这里示出了五个服务器刀片203a-203e,但是可在电子机架200内保持更多或更少的服务器刀片。还应注意,cdu201、rmu202和服务器刀片203的具体位置仅出于说明的目的而示出;还可实施cdu201、rmu202和服务器刀片203的其它布置或配置。在一个实施方式中,只要冷却风扇可以产生从前端到后端的气流,电子机架200就可以对环境开放或由机架容纳装置部分地包含。

此外,对于服务器刀片203中的至少一些,可选的风扇模块(未示出)与服务器刀片相关联。风扇模块中的每个包括一个或多个冷却风扇。风扇模块可安装在服务器刀片203的后端上或电子机架上,以产生从前端204流动、行进通过服务器刀片203的空气间隔并存在于电子机架200的后端205处的气流。

在一个实施方式中,cdu201主要包括热交换器211、液体泵212和泵控制器(未示出)以及一些其它组件,诸如贮液器、电源、监控传感器等。热交换器211可为液体-液体热交换器。热交换器211包括具有入口端口和出口端口的第一回路以形成主回路,入口端口和出口端口具有联接到外部液体供应线132/返回线131的第一对液体连接器。联接到外部液体供应线132/返回线131的连接器可设置或安装在电子机架200的后端205上。液体供应线132/返回线131(还被称为房间液体供应线/返回线)联接至如上所述的散热系统120。此外,热交换器211还包括具有两个端口的第二回路以形成次级回路,两个端口具有联接到液体歧管225的第二对液体连接器,次级回路可包括用于向服务器刀片203供应冷却液体的供应歧管(还被称为机架液体供应线)和用于使较暖液体返回到cdu201的返回歧管(也被称为机架液体返回线)。应注意,cdu201可以是市售的任何种类的cdu或定制的cdu。因此,将不在本文中描述cdu201的细节。

服务器刀片203中的每个可包括一个或多个it组件(例如,中央处理单元或cpu、图形处理单元(gpu)、存储器和/或存储设备)。每个it组件可执行数据处理任务,其中,it组件可包括安装在存储设备中、载入存储器中并且由一个或多个处理器执行的软件以执行数据处理任务。服务器刀片203可包括联接到一个或多个计算服务器(还称为计算节点,诸如cpu服务器和gpu服务器)的主机服务器(称为主机节点)。主机服务器(具有一个或多个cpu)通常通过网络(例如,互联网)与客户端对接,以接收诸如存储服务(例如,基于云的存储服务,诸如,备份和/或恢复)的特定服务的请求,执行应用以执行某些操作(例如,作为软件即服务或saas平台的一部分的图像处理、深度数据学习算法或建模等)。响应于请求,主机服务器将任务分配给由主机服务器管理的一个或多个性能计算节点或计算服务器(具有一个或多个gpu)。性能计算服务器执行实际任务,这可能在运行期间产生热量。

电子机架200还包括rmu202,rmu202配置成提供和管理供应至服务器203和cdu201的电力。rmu202可联接到电源单元(未示出)以管理电源单元的功率消耗。电源单元可包括必要的电路(例如,交流电(ac)到直流电(dc)电源转换器或直流到直流电源转换器、电池、变压器或调节器等)以向电子机架200的剩余组件提供电力。

在一个实施方式中,rmu202包括优化模块221和机架管理控制器(rmc)222。rmc222可包括监控器以监控电子机架200内的多种组件(例如,计算节点203、cdu201和风扇模块)的运行状态。具体地,监控器从多种传感器接收表示电子机架200的运行环境的运行数据。例如,监控器可接收表示处理器、冷却液体和空气的温度的运行数据,其可经由多种温度传感器捕获和收集。监控器还可接收表示由风扇模块和液体泵212产生的风扇功率和泵功率的数据,风扇功率和泵功率可与风扇和泵的各自速度成比例。这些运行数据被称为实时运行数据。此外,监控器还可例如从泄漏检测器和/或传感器(例如,液体传感器,温度传感器)接收表示是否在任何服务器刀片中发生液体泄漏的信号。应注意,监控器可实施为rmu202内的单独模块。

基于运行数据,优化模块221使用预定优化函数或优化模型执行优化,以获得用于风扇模块的一组最优风扇速度和用于液体泵212的最优泵速度,使得液体泵212和风扇模块的总功率消耗达到最小值,同时与液体泵212以及风扇模块的冷却风扇相关联的运行数据处于它们各自的设计规格内。一旦已经确定最优泵速度和最优风扇速度,rmc222基于最优泵速度和最优风扇速度配置液体泵212以及风扇模块的冷却风扇。

作为示例,基于最优泵速度,rmc222与cdu201的泵控制器通信以控制液体泵212的速度,进而控制待分配给至少一些服务器刀片203的、供应至液体歧管225的冷却液体的液体流动速率。类似地,基于最优风扇速度,rmc222与风扇模块中的每个通信以控制风扇模块中的每个冷却风扇的速度,进而控制风扇模块的气流速度。应注意,风扇模块中的每个可利用其特定的最优风扇速度单独进行控制,并且不同的风扇模块和/或相同的风扇模块内的不同冷却风扇可具有不同的最优风扇速度。

图3是示出根据一个实施方式的处理器冷板配置的框图。处理器/冷板结构300可以代表如图2中所示的服务器刀片203中的任何处理器/冷板结构。参考图3,处理器301插塞在安装在印刷电路板(pcb)或母板302上的处理器插座上,印刷电路板(pcb)或母板302联接至数据处理系统或服务器的其他电子组件或电路。处理器301还包括附接至其的冷板303,冷板303联接至液体供应线132和液体返回线131。由处理器301产生的热量中的一部分经由冷板303通过冷却液体移除。热量的剩余部分进入下方的空气间隔305,可通过冷却风扇304产生的气流移除热量的剩余部分。

返回参考图2,根据一个实施方式,电子机架200包括联接至rmu202以及至少机架液体供应线和/或机架液体返回线的机架fcd230,以控制流向服务器刀片203的冷却液体的量。服务器刀片203中的每个还包括泄漏检测器(未示出)以检测服务器刀片内的液体泄漏。泄漏检测器可以是任何液体泄漏检测器。在一个实施方式中,响应于从服务器刀片的泄漏检测器接收的信号,rmc222配置成向机架fcd230发送命令以减少到达服务器刀片203的冷却液体的量。机架fcd230可以仅仅为阀或开关,机架fcd230配置到第一位置,冷却液体被允许流过机架歧管225以到达服务器刀片203。当机架fcd230配置到第二位置时,冷却液体基本被阻挡。根据另一实施方式,响应于指示在服务器刀片203中的至少一个内存在液体泄漏的信号,rmc222激活机架fcd230以将冷却液体从机架液体供应线(联接至房间供应线132)转移至机架液体返回线(联接至房间返回线131),从而绕过服务器刀片203。

根据另一实施方式,服务器刀片203中的每个包括位于机架歧管225与服务器刀片203之间的诸如服务器fcd250a-250e(被统称为服务器fcd250)的服务器fcd,或与其相关联。服务器fcd250中的每个配置成控制流入到服务器刀片203中的冷却液体的流量。如上所述,每个服务器刀片包括联接至机架供应线的服务器液体供应线和联接至机架返回线的服务器液体返回线。服务器液体供应线联接至服务器液体分配回路的一端,并且服务器液体返回线联接至服务器液体分配回路的另一端,使得冷却液体循环通过分配回路循环以进行热交换。服务器fcd中的每个联接至rmc222,并且可以由rmc222控制。

在一个实施方式,响应于从特定服务器刀片的泄漏检测器接收的、指示服务器刀片内存在液体泄漏的信号,rmc222控制相应的服务器fcd以减少待分配给服务器刀片203的冷却液体的量。在一个实施方式中,服务器fcd配置成基本上或完全切断供应至服务器刀片的液体。替代地,服务器fcd将冷却液体从服务器供应线转移至服务器返回线,绕过服务器刀片的液体分配回路。

根据另一实施方式,除了泄漏检测器之外或代替泄漏检测器,可以使用液体压力传感器来检测是否存在液体泄漏。当存在液体泄漏时,泄漏很可能导致液体压力下降。液体压力传感器(被称为机架压力传感器)可以放置在机架歧管225上以检测机架歧管上的液体压力。替代地,液体压力传感器(被称为服务器压力传感器)可以放置在服务器供应线和/或服务器返回线上以感测流入到服务器刀片的液体分配线中的液体压力。机架压力传感器可以在机架级检测机架内的液体泄漏,而服务器压力传感器可以在服务器级检测特定服务器刀片内的液体泄漏。替代地,还可在多个位置处放置温度传感器(例如,附接至冷板)以检测是否存在液体泄漏。当温度上升而高于预定阈值或呈现非正常读数时,可发生可能的液体泄漏。

图4a是示出根据一个实施方式的电子机架的框图。电子机架400可表示图2的电子机架200。参考图4a,电子机架400包括以堆叠布置的服务器刀片410a-410b(被统称为服务器刀片410)的阵列。电子机架400还包括具有机架液体供应线225a和机架液体返回线225b的机架歧管。机架液体供应线225a配置成从外部冷却液态源接收冷却液体并将冷却液体分配至服务器刀片410中的每个。机架液体返回线225b配置成使携带从服务器刀片410的it组件交换的热量的较暖液体返回到冷却液体源。

根据一个实施方式,服务器刀片410中的每个包括附接至一个或多个冷板(诸如冷板411a-411b(被统称为冷板411))的一个或多个it组件。每个冷板附接至冷却液体在其中流动的服务器液体分配回路(未示出)。冷板的配置与散热器类似,其中,液体分配管附接至冷板或嵌入到冷板中。产生的较暖或较热液体携带从it组件(例如,处理器)交换的热量。在一个实施方式中,服务器液体分配回路的第一端联接至服务器液体供应线(例如,服务器液体供应线401a-401b),然后服务器液体供应线联接至机架液体供应线225a。服务器液体分配回路的第二端联接至服务器液体返回线(例如,服务器液体返回线402a-402b),然后服务器液体返回线联接至机架液体返回线225b。每个服务器刀片经由其相应的服务器液体供应线从机架液体供应线225a接收冷却液体。每个服务器刀片经由其服务器液体返回线使携带交换热量的较暖液体返回到机架液体返回线225b。

根据一个实施方式,每个服务器刀片还包括诸如泄漏检测器413a-413b(被统称为泄漏检测器413)的液体泄漏检测器。泄漏检测器可以是任何种类的泄漏检测器,诸如配置成检测来自液体分配线的任何液体泄漏的传感器和/或机械结构。每个泄漏检测器通信地联接至rmc222,其中rmc222经由泄漏检测器413监控任何服务器刀片410内的任何可能的液体泄漏。

根据一个实施方式,电子机架400还包括至少联接至服务器刀片410中的至少一个的服务器供应线的服务器fcd。在本示例中,服务器fcd403a附接至服务器刀片410a的服务器供应线401a,并且服务器fcd403b附接至服务器刀片410b的服务器供应线401b。在本实施方式中,服务器fcd位于机架歧管225与服务器刀片410之间。服务器fcd403中的每个还通信地联接至rmc222。

根据一个实施方式,响应于从特定服务器刀片的泄漏检测器接收的、指示该服务器刀片内可能存在液体泄漏的信号,rmc222配置成向与该特定服务器刀片对应的服务器fcd发送命令或信号以减少流入到服务器刀片中的冷却液体的量。服务器刀片可基本上阻挡冷却液体进入服务器刀片。替代地,服务器fcd可将冷却液体从服务器刀片的服务器供应线转移至服务器返回线,绕过服务器刀片的液体分配回路。

例如,响应于从泄漏检测器413a接收到指示服务器刀片410a内可能存在液体泄漏的信号,rmc222向服务器fcd403a发送命令以激活或启用服务器fcd403a来减少流入到服务器刀片410a中的冷却液体的量。服务器fcd403a可为双向阀或双向开关,以简单地阻止至少大部分冷却液体经由服务器供应线401a进入服务器刀片410a。替代地,服务器fcd403a可放置在服务器供应线401a与服务器返回线402a之间(例如,双向阀或双向开关)以形成旁路路径420a。当服务器fcd403a由rmc222激活时,使得至少大部分冷却液体从服务器供应线401a转移至服务器返回线402a。旁路路径420a允许冷却液体绕过服务器刀片410a的液体分配回路而不进入服务器刀片410a。

此外,服务器fcd403a可为三向阀,其可以配置在第一位置和第二位置中。当服务器fcd403a在正常操作期间配置在第一位置中时,服务器供应线401a打开以允许冷却液体进入服务器刀片410a。当服务器fcd403a配置在第二位置中时,至服务器刀片410a的服务器供应线关闭,但是旁路路径420a打开以允许冷却液体从服务器供应线401a转移至服务器返回线402a,绕过服务器刀片410a。类似的操作可以适用于诸如服务器刀片410b的其他服务器刀片。

根据另一实施方式,除了泄漏检测器413之外或代替泄漏检测器413,可使用一个或多个液体压力传感器来检测液体泄漏。例如,压力传感器422可设置在服务器液体供应线401a上或附接至服务器液体供应线401a,以感测在服务器液体供应线401a中流动的液体压力。当液体分配回路内存在泄漏时,供应线401a或返回线402a上的液体压力将可能下降。通过检测液体压力变化,rmc222可以确定并做出适当的响应。

在一个实施方式中,响应于从压力传感器接收的指示服务器刀片的液体分配回路的液体压力降低到预定阈值以下的信号,rmc222向与特定服务器刀片相关联的服务器fcd发送命令或信号。服务器fcd被激活以减少待分配至服务器刀片的液体分配回路的冷却液体的量。例如,响应于从压力传感器422接收的指示服务器液体供应线401a的液体压力降低到预定阈值以下的信号,rmc222配置成激活服务器fcd403a。作为响应,在一个实施方式中,服务器fcd403a配置成基本上阻挡冷却液体进入服务器刀片410a的液体分配回路。替代地,服务器fcd403a配置成经由旁路路径420a将至少大部分冷却液体从服务器液体供应线401a转移至服务器液体返回线402a,绕过服务器刀片410a的液体分配回路。此外,还可在多个位置处放置温度传感器(例如,附接至冷板)以检测是否存在液体泄漏。当温度上升而高于预定阈值或显示非正常读数时,可发生可能的液体泄漏。

在一个实施方式中,rmc222同时监控液体压力传感器的运行状态和服务器刀片的泄漏检测器。对于服务器刀片中的每个,如果相关联的泄漏检测器和液体压力传感器中的一个指示服务器刀片内可能存在泄漏,则rmc222可以激活相应的服务器fcd以减少进入服务器刀片的冷却液体的量。替代地,只有当液体压力传感器和泄漏检测器两者均指示存在液体泄漏时,rmc222才激活服务器fcd,其中,一个设备用作对另一设备的确认。

注意到,液体压力传感器还可以放置在诸如液体返回线402a-402b的服务器液体返回线上。替代地,液体压力传感器可放置在服务器刀片410中的任何一个的服务器液体供应线和服务器液体返回线两者上。通过单独地检测和控制冷却液体分配,可以独立地控制每个服务器刀片,同时其余的服务器刀片仍可以正常运行。

根据另一方面,机架fcd用于在机架级或全局级控制冷却液体流,而服务器fcd在服务器级或局部级运行。在本示例中,机架fcd415放置或附接至机架液体供应线225a。机架fcd415配置成以与服务器fcd403类似的方式运行。根据一个实施方式,响应于检测到服务器刀片410中的一个或多个中的液体泄漏,rmc222可激活机架fcd415以减少流过下游的机架液体供应线225a的冷却液体的量,进而减少到达服务器刀片410的冷却液体的量。与服务器fcd403类似,机架fcd415可阻挡机架液体供应线225a内的向下游流动的至少大量或大量的冷却液体。替代地,机架fcd415可经由旁路路径430绕过服务器刀片410,将至少大量或大量的冷却液体从机架液体供应线225a转移至机架液体返回线225b。

在一个实施方式中,除了激活服务器fcd403中的至少一些之外,rmc222可激活机架fcd415。替代地,当具有液体泄漏的服务器刀片的数目大于预定阈值时,rmc222可激活机架fcd415。即,最初,当检测到单个服务器刀片内存在液体泄漏时,rmc222可仅激活该特定服务器刀片的服务器fcd。当检测到具有液体泄漏的服务器刀片的数目超过预定阈值时,除了激活服务器fcd之外,rmc222可激活机架fcd415。

根据另一实施方式,诸如压力传感器421的液体压力传感器可放置在机架液体供应线225a和/或机架液体返回线225b上、或附接至机架液体供应线225a和/或机架液体返回线225b。机架液体压力传感器可用于检测或测量机架液体供应线225a和/或机架液体返回线225b内流动的液体的液体压力,作为指示任何服务器刀片410中是否存在任何液体泄漏的指示符。机架压力传感器的操作可与如上所述的服务器液体压力传感器类似。

根据一个实施方式,除了切断分配给具有液体泄漏的服务器刀片的冷却液体之外,rmc222还可减少工作负荷或关闭服务器刀片的电源以防止it组件过热。可以在服务器刀片级或机架级执行工作负荷调整或电源控制。即,如果特定服务器刀片遇到液体泄漏,则可减少该服务器刀片的工作负荷以降低过热的可能性,或者替代地,可使该服务器刀片断电,同时其他服务器刀片仍可正常运行。

在如图4a中所示的实施方式中,服务器fcd放置在机架歧管225与服务器刀片410之间。替代地,如图4b中所示,服务器fcd可放置在单独的服务器刀片内,靠近服务器刀片的液体分配回路的终端或位于在服务器刀片的液体分配回路的终端之前。根据又一实施方式,服务器fcd可与位于机架歧管225与服务器液体供应线401和服务器液体返回线402之间的连接器集成。服务器液体供应线可以使用第一对快速释放连接器联接至机架液体供应线225a,并且服务器液体返回线可以使用第二对快速释放连接器联接至机架液体返回线225b。服务器fcd可在服务器刀片侧上或机架歧管侧上集成为快速释放连接器的一部分或位于快速释放连接器之间。

图5是示出根据一个实施方式的服务器刀片的冷却模块的俯视图的框图。参考图5,冷却模块500可实现为图4a-图4b中的任何服务器刀片410的一部分。在本实施方式中,冷却模块500包括冷板501-508的阵列。诸如处理器的it组件可以安装在任何冷板501-508上。在本示例中,冷板中的至少一些级联或串联链接。然而,示出的冷板501-508的配置或布置仅用于说明。可存在其他配置。

根据一个实施方式,由于存在多条冷板链,因此形成多个液体分配回路,每条链具有一个液体分配回路。在本示例中,存在四条链:冷板501-502、冷板503-504、冷板505-506和冷板507-508。对于每条链,形成液体分配回路,即,液体分配回路531-534,这些液体分配回路共享公共返回线535。液体分配回路531-534联接至具有服务器供应歧管511和服务器返回歧管512的服务器歧管。此外,一个或多个泄漏检测器和/或传感器(例如,温度传感器)可放置在冷却模块500内的多个位置处以检测液体泄漏。

在一个实施方式中,服务器fcd520联接在服务器供应歧管511与服务器返回歧管512之间。如上所述,当服务器fcd520激活时,服务器fcd520可以将大部分冷却液体从服务器供应歧管511转移至服务器返回歧管512,而绕过液体分配回路531-534和冷板501-508。根据另一实施方式,另外的fcd可附接至液体分配回路531-534中的一个或多个以控制各个液体分配回路的冷却液体流。此外,根据又一实施方式,一个或多个液体压力传感器还可以联接至服务器供应歧管511、服务器返回歧管512和/或各个液体分配回路531-534。如上所述,液体压力传感器可以用于检测冷却液体的液体压力,作为是否存在液体泄漏的指示符。替代地,还可在多个位置处(例如,附接至冷板)放置温度传感器(未示出)以检测是否存在液体泄漏。当温度上升而高于预定阈值时,可发生可能的液体泄漏。

在上述说明书中,已经参考本发明的特定示例性实施方式描述了本发明的实施方式。将显而易见的是,可在不背离如所附权利要求中阐述的本发明的更宽泛的精神和范围的情况下对本发明作出多种修改。因此,说明书和附图应被视为说明性意义而非限制性意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1