一种服务器和数据中心的制作方法

文档序号:33466072发布日期:2023-03-15 06:39阅读:39来源:国知局
一种服务器和数据中心的制作方法

1.本技术涉及云计算技术领域,尤其涉及一种服务器和数据中心。


背景技术:

2.基于芯片工艺制程和三维(3-dimension,3d)封装技术的不断演进,服务器的核心组件中央处理器(central processing unit,cpu)往超多核、高功耗、高输入输出(input output,io)带宽持续迭代。在云计算的应用场景下,单个cpu的核数增加会一定程度降低算力的总拥有成本(total cost of ownership,tco),但也会面对另一个问题,就是cpu故障产生的宕机影响面,cpu核数越多,在cpu故障后影响的用户就越多。


技术实现要素:

3.本技术实施例提供了一种服务器和数据中心,以提升服务器的性能。
4.第一方面,本技术实施例提供一种服务器,包括:数据处理节点,包括多个数据处理器dpu模组;数据处理节点的多个dpu模组之间通讯连接;至少一个计算节点,计算节点包括中央处理器cpu模组,cpu模组与各dpu模组均通讯连接。
5.第二方面,本技术实施例提供一种数据中心,包括本技术任一实施例的服务器。
6.根据本技术实施例的技术方案,服务器的单路服务传输路径包括以cpu模组为主的计算节点和以dpu模组为主的数据处理节点,其中,数据处理节点包括多个dpu模组,以在单路服务传输路径上配置多个dpu模组。服务器通过多个dpu模组管理cpu服务资源,多个dpu模组对cpu服务资源的资源管理互为备份,从而可以降低dpu模组故障对数据处理节点所在的单路服务传输路径的影响。
7.上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本技术进一步的方面、实施方式和特征将会是容易明白的。
附图说明
8.在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本技术公开的一些实施方式,而不应将其视为是对本技术范围的限制。
9.图1示出根据本技术实施例的服务器100的架构示意图。
10.图2示出根据本技术实施例的服务器100一种实施方式的通讯连接示意图。
11.图3示出根据本技术实施例的服务器100一种实施方式的整机实现示意图。
12.图4示出根据本技术实施例的服务器100一种实施方式的供电系统示意图。
13.图5示出根据本技术实施例的数据中心200的架构示意图。
具体实施方式
14.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它形式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
15.服务器是指具有高计算能力,能够通过网络提供给多个用户(包括企业、组织、个人)使用的计算机。服务器在硬件上由处理器、硬盘、内存、系统总线等构成,与通用的计算机架构类似。在数据中心中,服务器是面向最终用户提供计算资源、存储资源和网络转发资源,且在整个数据中心的总拥有成本(total cost of ownership,tco)中占据至关重要的角色。
16.数据中心包括金融数据中心、企业数据中心和互联网云数据中心。随着云计算、大数据、人工智能(artificial intelligence,ai)、视频点播等业务的快速增长,互联网云数据中心规模統越来越大,用户数量激增,互联网数据中心对服务器的稳定、高效、灵活、安全提出了更好要求。另一方面,基于芯片工艺制程和3d封装技术的不断演进,服务器单机性能得到提升。服务器的核心组件cpu能力从2路32核到4路192核,单机救障产生的影响也因此呈倍数放大。
17.数据处理器(data processing unit,dpu)是以数据为中心构造的处理器,也可以叫做专用数据处理器。dpu要解决的核心问题是基础设施的“降本增效”,即将cpu处理效率低下、gpu处理不了的负载卸载到dpu,由dpu接管,进而提升整个计算系统的效率、降低整体系统的总体拥有成本(tco)。
18.在互联网云数据中心的应用场景中,dpu最直接的作用是作为cpu的卸载引擎,接管网络虚拟化、硬件资源池化、存储管理等基础设施层服务,释放cpu的算力到上层应用,即服务器通过dpu对网络、服务管控、存储等做资源管理。随着dpu技术的发展,dpu不仅可以作为运算的加速引擎,还具备控制平面的功能,能够运行独立的操作系统,更高效地完成网络虚拟化、io虚拟化、存储虚拟化等任务,彻底将cpu的算力释放给上层应用。但是,dpu在服务器的整个硬件链路中是一个独立单点路径,dpu的故障直接影响对接的cpu资源无法对外服务。
19.图1示出根据本技术实施例的服务器100的架构示意图。该服务器100包括计算节点101和数据处理节点102,其中,计算节点101可以是一个,也可以是多个。计算节点101包括cpu模组,数据处理节点102包括多个dpu模组,例如为2个dpu模组、4个dpu模组、8个dpu模组等。多个dpu模组之间通讯连接,以及cpu模组与多个dpu模组均分别通讯连接。其中,dpu模组的数量可以根据对接的cpu模组可支持的数量以及dpu模组的管理能力进行设置。
20.示例性地,cpu模组可以包括cpu和内存,可以运行独立的操作系统,为用户提供计算服务。dpu模组可以包括dpu和内存,可以运行独立的操作系统,如hypervisor操作系统,dpu模组对接cpu模组,接管网络、服务管控、存储等方面的数据处理功能,以释放cpu算力到上层应用。
21.本实施例中,cpu可以是多核处理器,每个cpu作为一个独立的主机(host)系统,与其他cpu在供电和管理上都是独立,相互之间任何耦合。dpu可通过现场可编程门阵列(field programmable gate array,fpga)或集成电路(application specific integrated circuit,asic)实现。
22.需要说明的是,以上仅是dpu模组和dpu功能的示例性介绍,随着异构计算发展,dpu架构和形态也在不断发展,dpu可支持的资源管理功能类型也在扩展,本实施例对此不作限定。
23.其中,服务器的单路服务传输路径包括以cpu模组为主的计算节点和以dpu模组为主的数据处理节点。示例性地,服务器的单路服务传输路径可以包括一个计算节点和一个数据处理节点。其中,数据处理节点包括多个dpu模组,以在单路服务传输路径上配置多个dpu模组。即在单路服务传输路径上,通过一个cpu模组和多个dpu模组对外提供服务,各单路服务传输路径之间在对外服务功能上相同独立。
24.因此,本实施例中,多个dpu模组对cpu模组的资源管理互为备份,从而在服务器的单路服务传输路径上形成了dpu冗余架构形态,可以支持多个dpu模块之间的动态切换,降低dpu模组故障对数据处理节点所在的单路服务传输路径的影响,维护服务器持续在线,使服务器可以向外提供稳定服务,从而提高服务器的稳定性。
25.示例性地,计算节点可以是多个,即cpu模组可以是多个。dpu模组支持多主机(multihost),即同一dpu模组可以对接多个cpu模组。
26.示例性地,各cpu模组和各dpu模组均分别设置有外设部件快速互连标准(peripheral component interconnect express,pcie)接口。dpu模组的pcie接口之间通讯连接,从而实现同一数据处理节点的各dpu模组之间的通讯连接。同一cpu模组外设多个pcie接口,以分别与各dpu模组上的pcie接口通讯连接,从而实现同一单路服务传输路径上的cpu模组与各dpu模组的分别通讯连接。
27.需要说明的是,以上通讯连接方式仅为示例,通讯接口的类型、设置数量和连接方式随着计算机技术的发展可以随着变化,本实施例对此不作限定。另外,“通讯连接”可以是直接通讯连接,也可以通过中间媒介间接通讯连接。
28.图2示出服务器100一种实施方式的通讯连接示意图。如图2所示,以数据处理节点102包括两个dpu模组,cpu模组为n+1个(即计算节点101为n+1个)为例。两个dpu模组示例为第一dpu模组和第二dpu模组,n+1个cpu模组示例为cpu模组0、cpu模组1
……
cpu模组n,其中,n为大于等于零的整数。
29.其中,dpu模组包括网络交换(lan switch)模块。例如:第一dpu模组集成了dpu0和网络交换模块,第二dpu模组集成了dpu1和网络交换模块。各dpu模组的网络交换模块之间通过以太网连接,例如通过ge千兆以太网连接,即第一dpu模组的网络交换模块和第二dpu模组的网络交换模块之间连接有ge千兆以太网,从而实现dpu0和dpu1之间的数据交互,如下述的资源管理信息的同步。
30.cpu模组包括主板管理控制模块(base board management controller,bmc)。例如:cpu模组0集成了cpu0和bmc,cpu模组1集成了cpu1和bmc
……
cpu模组n集成了cpun和bmc。
31.其中,bmc是cpu模组的管理控制系统,可以独立于cpu主业务程序单独运行,可用于cpu远程管理,包括远程重启、健康控制等。每个cpu模组的bmc外接多组ge千兆以太网,分别对接到不同dpu模组的网络交换模块,从而实现dpu0对cpu0、cpu1
……
cpun的资源管理,以及dpu1对cpu0、cpu1
……
cpun的资源管理,提供服务器100的对外服务。
32.示例性地,如图3所示,在硬件层面上,cpu模组和dpu模组均可以采用1u半宽的模
组实现。其中,“u”是一种表示服务器或服务器组件外部尺寸的单位,是unit的缩略语,1u=44.45mm。通过服务器100的整机系统集成各cpu模组和各dpu模组,即本实施例中的服务器100为单机服务器。
33.根据本技术实施例提供的服务器,服务器的单路服务传输路径包括以cpu模组为主的计算节点和以dpu模组为主的数据处理节点,通过在单路服务传输路径上配置多个dpu,多个dpu对cpu资源管理可以互为备份,从而降低dpu故障对数据处理节点所在的单路服务传输路径的影响,进而降低cpu宕机的影响面。
34.下面对服务器100的供电系统进行示例性介绍。
35.在一种实施方式中,如图4所示,本实施例的服务器100还包括供电系统103,各cpu模组和各dpu模组均配置有独立的电源输入端,各电源输入端均与供电系统103通讯连接,从而使供电系统103为各cpu模组和各dpu模组供电。
36.示例性地,供电系统103包括多个供电单元(power supply unit,psu),通过多个pus对各cpu模组和各dpu模组供电。其中,每个dpu模组和cpu模组的电源输入端均设置有电源防护隔离组件,从而在各dpu模组和各cpu模组的电源入口处分别做防护隔离。
37.示例性地,电源防护隔离组件包括但不限于短路保护组件、过压保护组件、欠压保护组件、隔离组件等,避免在电源输入端出现局部短路或过流。
38.如此,可以在单个模组电源异常时,不影响供电系统103对其他模组的供电,从而提高电源供电可靠性。
39.下面对服务器100的管理系统进行示例性介绍。
40.如图2所示,在服务器100正常工作状态下,第一dpu模组和所述第二dpu模组同时工作,通过通讯接口对接到一个或多个cpu模组,接管所对接的cpu模组的服务管控、网络、存储等功能,即对cpu资源进行资源管理,包括对管控、网络、存储等作资源管理,并生成了相应的资源管理信息。
41.示例性地,cpu模组上有操作系统,dpu模组上也有操作系统,两个操作系统通过之间的通讯接口做数据传输,实现对cpu模组的cpu资源的管控调度。
42.其中,第一dpu模组用于对cpu模组的第一cpu资源进行资源管理,第二dpu模组用于对cpu模组的第二cpu资源进行资源管理。以cpu模组0为例,第一dpu模组对cpu模组0的一部分资源(第一cpu资源)进行资源管理,生成相应的资源管理信息;第二dpu模组对cpu模组0的另一部分资源(第二cpu资源)进行资源管理,生成相应的资源管理信息。
43.在一种实施方式中,第一dpu模组和第二dpu模组之间通过ge接口同步对方的资源管理信息同步,即将对方的资源管理信息进行备份。
44.示例性地,第一dpu模组同步第二dpu模组的资源管理信息,在第二dpu模组故障的情况下,第一dpu模组基于从第二dpu模组中同步的资源管理信息,对第二cpu资源进行资源管理。从而,在第二dpu模组故障的情况下,由第一dpu模组接管对接的cpu模组的全部cpu资源,对该cpu模组进行全部资源管理。
45.在一种实施方式中,在第二dpu模组恢复工作的情况下,第一dpu模组将针对第二cpu资源的资源管理信息同步给第二dpu模组,第二dpu模组基于从第一dpu模组中同步的资源管理信息,对第二cpu资源进行资源管理。从而,在第二dpu模组恢复工作的情况下,由第一dpu模组释放之前由第二dpu模组管理的cpu资源,转换为正常工作状态,即由第一dpu模
可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“上”、“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征,或标识第二特征具有第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。
57.上文的公开提供了许多不同的实施方式或例子用来实现本技术的不同结构。为了简化本技术的公开,上文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本技术。此外,本技术可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
58.上述方法中,用于实现特定逻辑功能或过程的步骤,可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
59.应理解的是,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。并且,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
60.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1