一种中央处理器cpu热移除、热添加方法及装置的制造方法
【技术领域】
[0001]本发明涉及多CPU互联技术,尤其涉及一种中央处理器CPU热移除、热添加方法及
目.0
【背景技术】
[0002]随着IT(Internet Technology,互联网技术)技术的迅猛发展,各类IT系统中的数据量越来越大,例如现在一些应用于企业关键业务的服务器,由于这些业务处于企业应用中的核心地位,这就决定了它处理的数据和信息都是用户核心的商业数据和信息,而且通常都是海量的。从目前一些关键业务领域最常见的三大类应用:在线交易、商业分析和数据库来看,即使应用于一家普通企业,其所处理的数据量可能也十分惊人,就更不用说它们在银行、电信、证券等行业运行时,动辄就要面对TB或PB级的数据量了。如此规模的数据量,又关系到商业用户的生产、运营和决策效率,势必要求其承载平台要有非常出色的高性能处理能力,而且随着HANA(High_Performance Analytic Appliance,分析软件)等大规模内存数据库应用的兴起,对单台服务器系统的内存容量也提出了很高的要求,因此需要在单台服务器中集成更多的CPU(Central Processing Unit,中央处理器),更多的内存以达到业务运行所需的高性能,大容量的要求。
[0003]由此,衍生出了多CPU互联技术,即通过CPU之间高速互联通道(如QPKQuickPathInterconnect,快速通道互联)快速互联通道等)将多个CPU相互连接,使得多颗物理CPU可以通过这些高速互联通道相互连接形成一个资源共享的服务器系统,但多CPU的互联在增强单台服务器处理性能的同时,也带来了一些额外的风险,因为这种多CHJ互联的系统中只要有任意一个CPU发生故障,都可能会导致整个系统挂死,如需修复CPU故障则必须对整个服务器系统下电,然后更换CPU,而这种下电更换的操作必然会造成系统业务中断,严重影响系统的连续服务时间。
【发明内容】
[0004]本发明实施例提供了一种中央处理器CPU热移除、热添加方法及装置,可以实现在不下电的情况下实现对(PU的更换,且系统能够正常的工作,提升了用户体验。
[0005]—方面,本申请的实施例提供了一种中央处理器CPU热移除方法。该方法适用于具有非全互联的第一CPU拓扑的服务器,该服务器包括控制器,其中,当前运行的第一CPU拓扑包括多个CPU,该方法可以包括:控制器确定多个CPU中的第一 CPU,其中,该第一 CPU为有故障或根据第一指示信息需要移除的CPU,该第一指示信息来自所述第一 CHJ拓扑或用户接口。控制器确定多个CPU中与第一CPU符合预设条件的至少一个第二CPU。控制器向第一CPU拓扑发送第二指示信息,第一CPU拓扑接收到第二指示信息后,移除第一CPU以及至少一个第二CPU,得到第二CPU拓扑,并运行所述第二CPU拓扑。通过本发明实施例可以实现CPU的在线移除,且在CPU移除过程中以及移除后,系统能够正常的工作,提升了用户体验。
[0006]在一个可能的设计中,上述第一CHJ拓扑的多个CPU之间可以通过中间节点的连接,其中,该中间节点包括CHJ和/或外部节点控制器XNC。通过本发明实施例可以实现对通过中间节点连接的CPU拓扑中的CPU进行在线移除,且系统能够正常的工作,提升了用户体验。
[0007]在一个可能的设计中,上述控制器确定多个CPU中与第一CPU符合预设条件的至少一个第二 CPU,可以包括:服务器中每个CPU可以有至少一个备份CPU,控制器可以确定第一CPU的至少一个备份第二CPU。其中,至少一个备份第二CPU在第一CPU拓扑中,通过本发明可以实现,在CHJ移除时,可以将需要移除的CPU以及备份的CPU—起移除,使得移除后的CPU依然是一个稳定的拓扑,保证了在系统能够正常的运行的情况下,对CPU进行移除操作,提高了用户体验。
[0008]在一个可能的设计中,上述控制器确定多个CPU中与第一CPU符合预设条件的至少一个第二 CPU,可以包括:控制器确定第一 CPU在第一 CPU拓扑上的位置,以及在第一 CPU拓扑中,与第一 CPU处于至少一个对称位置(例如,可以是中心对称或者轴对称等等)上的第二CPU,或者与第一 CPU处于至少一个对称位置上,且直接连接的任意一个第二 CPU。通过本发明实施例可以实现,移除CPU和处于对称位置的全部或者任意一个CPU后,能够得到一个稳定的拓扑结构,保证系统能够正常工作,提升了用户体验。
[0009]在一个可能的设计中,每个CPU都可以具有多个端口,上述多个CPU之间通过端口连接,其中,上述控制器确定多个CPU中与第一CPU符合预设条件的至少一个第二CPU,具体可以包括,控制器确定与第一CPU通过相同的端口号的端口相互连接的至少一个第二CPU(例如,一个CPU有三个端口,端口号分别为,0,1,2ο如果两个CPU都通过端口 2相连,那么在其中一个CPU需要移除时,另一个CPU也需要一并移除)。通过本发明实施例可以实现,通过端口的方式确定需要同时移除的CPU,得到一个稳定的CPU拓扑,保证系统能够正常工作,提升了用户体验。
[0010]在一个可能的设计中,上述第一CPU拓扑包括多个CPU组,其中,该多个CPU组的信息可以预存在服务器中,上述控制器确定多个(PU中与第一 CPU符合预设条件的至少一个第二CPU,可以包括:控制器确定与第一 CPU属于同一 CPU组的至少一个第二 CPU。通过本发明实施例可以实现,通过以组的形式,对CPU进行移除,可以得到一个稳定的CPU拓扑,保证系统能够正常工作,提升了用户体验。
[0011]在一个可能的设计中,上述第一CTU拓扑在接收到上述第二指示信息后,将第一CPU以及至少一个第二 CPU中的资源回收,断开第一 CPU和至少一个第二 CPU与第二 CPU拓扑中的CPU的连接,还可以调整第二 CPU拓扑中的CPU的设置,使得移除第一 CPU以及至少一个第二 CPU后,能够以稳定的第四CPU拓扑的形式进行工作。通过本发明实施例可以实现,移除(PU后的CPU拓扑能够正常的工作,提高了用户体验。
[0012]另一方面,本申请的实施例提供了一种中央处理器CPU热添加方法。该方法适用于具有非全互联的第三CPU拓扑的服务器,该服务器包括控制器,该方法可以包括,控制器确定第一指示信息,其中,第一指示信息用于指示添加第三CPU,另外,第三CPU不在当前运行的第三CPU拓扑中。控制器确定与第三CPU符合预设条件的至少一个第四CPU是否已经安装,若是,控制器向第三CPU拓扑发送第二指示信息。第三CPU拓扑在接收到第二指示信息后,添加第三CPU以及所述第四CPU,得到第四CPU拓扑,并运行第四CPU拓扑。通过本发明实施例可以实现CPU的在线添加,且在添加过程中,系统能够正常的工作,提升了用户体验。
[0013]在一个可能的设计中,可以通过用户接口接收第一指示信息,该指示信息中可以携带需要添加的CPU的标识;或者,在第三CPU安装后,感应器触发特定的指令,控制器根据该指令,获取第三CHJ的标识。通过本发明实施例可以实现对通过特定的指令或者用户接口触发CPU的添加,且系统能够正常的工作,提升了用户体验。
[0014]在一个可能的设计中,上述控制器确定与第三CPU符合预设条件的至少一个第四CPU是否已经安装,包括:控制器确定第四CPU拓扑中与第三CPU处于至少一个对称位置(中心对称或者轴对称)上的第二 CPU是否已经安装。通过本发明实施例可以实现,再添加CPU时,保证与该CPU处于对称位置的CPU也添加,这样在CPU添加后得到一个稳定的拓扑,系统在添加过程中能够正常工作,提升了用户体验。
[0015]在一个可能的设计中,上述控制器确定与第三CPU符合预设条件的至少一个第四CPU是否已经安装,包括:处理器确定第一 CPU的至少一个备份CPU是否安装。通过本发明实施例可以实现,对CPU以及该CPU的备份同时安装,使得在操作系统能够正常工作的情况下,对CPU拓扑进行扩容,提高了用户体验。
[0016]在一个可能的设计中,上述第四CPU拓扑包括多个CPU组,其中,该多个CPU组的信息可以预存在所述服务器中,上述控制器确定与第三(PU符合预设条件的至少一个第四CPU是否已经安装,可以包括,控制器确定与第三CPU属于同一 CPU组的至少一个第四CPU是否已经安装。通过本发明实施例可以实现,再添加CPU时,以组为单位进行添加,这样保证添加(PU后的拓扑依然为稳定的拓扑,保证系统能够正常的运行,提高了用户体验。
[0017]在一个可能的设计中,第三CPU拓扑在接收到第二指示信息后,为第三CPU以及至少一个第四CHJ分配资源,建立第三CPU和至少一个第四CPU与第三CPU拓扑中的CPU的连接,还可以调整第三CPU拓扑中的CPU的设置,得到第四CPU拓扑,并运行所述第四CPU拓扑。通过本发明实施例可以实现,添加后的CPU拓扑为稳定的拓扑,保证了系统的正常运行,提高了用户体验。
[0018]又一方面,本申请的实施例提供了11、一种中央处理器CPU热移除装置,其特征在于,所述装置适用于具有非全互联的第一 CPU拓扑的服务器,当前运行的第一 CPU拓扑包括多个CPU,所述装置包括:处理单元,用于确定所述多个CPU中的第一 CPU,所述第一 CPU为有故障或根据第一指示信息需要移除的CPU,所述第一指示信息来自所述第一 CPU拓