集群管理方法、装置、设备、存储介质及程序与流程

文档序号:31062991发布日期:2022-08-09 19:57阅读:59来源:国知局
1.本技术涉及云计算
技术领域
:,尤其涉及一种集群管理方法、装置、设备、存储介质及程序。
背景技术
::2.高性能计算(highperformancecomputing,hpc)集群是指计算机集群系统,它通过各种互联技术将多个计算机连接在一起,利用该连接系统的综合计算能力来处理大型计算问题。3.hpc集群包括:管理节点和多个计算节点。在一些场景中,hpc集群可以采用混合部署的方式。例如,已有hpc集群包括设置在本地的管理节点和至少一个第一计算节点,将云端的至少一个第二计算节点纳管至已有hpc集群,形成混合云hpc集群。又例如,已有hpc集群包括设置在第一云端的管理节点和至少一个第二计算节点,将第二云端的至少一个第二计算节点纳管至已有hpc集群,形成混合云hpc集群。针对上述混合云hpc集群,通常由管理节点负责对整个集群进行管理。4.然而,在混合部署场景下,管理节点对hpc集群的管理能力有限,例如通常仅支持作业调度等基本管理功能。如何更好的对hpc集群进行管理,以充分发挥hpc集群的使用效能,是需要研究的技术问题。技术实现要素:5.本技术实施例提供一种集群管理方法、装置、设备、存储介质及程序,用以提高对集群的管理能力。6.第一方面,本技术实施例提供一种集群管理方法,待管理的第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点,所述方法应用于设置在所述第二云端的云管控服务器,所述方法包括:7.向所述代理节点发送请求消息,所述请求消息用于指示所述代理节点从所述管理节点获取管理所述第一集群所需的目标信息;8.从所述代理节点接收所述目标信息;9.根据所述目标信息以及所述第二云端提供的云服务,对所述第一集群进行管理。10.一种可能的实现方式中,所述根据所述目标信息以及所述第二云端提供的云服务,对所述第一集群进行管理,包括:11.确定待对所述第一集群进行管理的管理类型;12.从所述第二云端提供的云服务中确定所述管理类型对应的云服务接口;13.通过调用所述管理类型对应的云服务接口,对所述目标信息进行处理,以对所述第一集群进行管理。14.一种可能的实现方式中,所述管理类型为自动扩缩容管理;所述通过调用所述管理类型对应的云服务接口,对所述目标信息进行处理,以对所述第一集群进行管理,包括:15.调用所述自动扩缩容管理对应的云服务接口,对所述目标信息进行处理,得到自动扩缩容方案;16.根据所述自动扩缩容方案,对所述第一集群中设置在所述第二云端的计算节点进行扩缩容处理,并生成计算资源更新信息;17.向所述代理节点发送所述计算资源更新信息,以使所述代理节点将所述计算资源更新信息同步至所述管理节点。18.一种可能的实现方式中,所述向所述代理节点发送请求消息,包括:19.按照预设时间间隔向所述代理节点发送第一请求消息,所述第一请求消息用于指示所述代理节点从所述管理节点获取所述自动扩缩容管理所需的目标信息。20.一种可能的实现方式中,所述管理类型为作业报表管理;所述通过调用所述管理类型对应的云服务接口,对所述目标信息进行处理,以对所述第一集群进行管理,包括:21.调用所述作业报表管理对应的云服务接口,对所述目标信息进行处理,以生成目标作业报表;22.显示所述目标作业报表。23.一种可能的实现方式中,所述向所述代理节点发送请求消息,包括:24.获取用户输入的报表查询指令;25.根据所述报表查询指令,向所述代理节点发送第二请求消息,所述第二请求消息用于指示所述代理节点从所述管理节点获取所述作业报表管理所需的目标信息。26.一种可能的实现方式中,所述向所述代理节点发送请求消息之前,还包括:27.获取第二集群对应的规模扩充指令,所述第二集群包括:所述管理节点和所述至少一个第一计算节点;28.根据所述规模扩充指令,在所述第二云端分别创建所述代理节点和所述至少一个第二计算节点;29.建立所述代理节点与所述管理节点之间的通信连接、以及建立各第二计算节点与所述管理节点之间的通信连接,以将所述第二集群更新为所述第一集群。30.一种可能的实现方式中,所述代理节点由其中一个第二计算节点兼任。31.第二方面,本技术实施例提供一种集群管理方法,待管理的第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点;所述方法应用于所述代理节点;所述方法包括:32.接收云管控服务器发送的请求消息,所述云管控服务器设置在所述第二云端;33.根据所述请求消息,从所述管理节点获取管理所述第一集群所需的目标信息;34.向所述云管控服务器发送所述目标信息,以使所述云管控服务器根据所述目标信息和所述第二云端提供的云服务,对所述第一集群进行管理。35.一种可能的实现方式中,所述代理节点由其中一个第二计算节点兼任。36.第三方面,本技术实施例提供一种集群管理装置,待管理的第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点;所述集群管理装置应用于设置在所述第二云端的云管控服务器,所述集群管理装置包括:37.发送模块,用于向所述代理节点发送请求消息,所述请求消息用于指示所述代理节点从所述管理节点获取管理所述第一集群所需的目标信息;38.接收模块,用于从所述代理节点接收所述目标信息;39.管理模块,用于根据所述目标信息以及所述第二云端提供的云服务,对所述第一集群进行管理。40.第四方面,本技术实施例提供一种集群管理装置,待管理的第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点;所述集群管理装置应用于所述代理节点;所述集群管理装置包括:41.接收模块,用于接收云管控服务器发送的请求消息,所述云管控服务器设置在所述第二云端;42.获取模块,用于根据所述请求消息,从所述管理节点获取管理所述第一集群所需的目标信息;43.发送模块,用于向所述云管控服务器发送所述目标信息,以使所述云管控服务器根据所述目标信息和所述第二云端提供的云服务,对所述第一集群进行管理。44.第五方面,本技术实施例提供一种集群管理系统,包括:第一集群和云管控服务器,所述第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点;所述云管控服务器设置在所述第二云端;其中,45.所述云管控服务器用于向所述代理节点发送请求消息;46.所述代理节点用于根据所述请求消息,从所述管理节点获取管理所述第一集群所需的目标信息,并向所述云管控服务器发送所述目标信息;47.所述云管控服务器还用于根据所述目标信息以及所述第二云端提供的云服务,对所述第一集群进行管理。48.第六方面,本技术实施例提供一种电子设备,包括:存储器、处理器以及计算机程序;所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法,或者实现如第二方面任一项所述的方法。49.第七方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法,或者实现如第二方面任一项所述的方法。50.第八方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法,或者实现如第二方面任一项所述的方法。51.本技术实施例提供的集群管理方法、装置、设备、存储介质及程序,第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点;在需要对第一集群进行管理时,云管控服务器向代理节点发送请求消息,请求消息用于指示代理节点从管理节点获取管理第一集群所需的目标信息,进而,云管控服务器从代理节点接收目标信息,并根据目标信息以及所述第二云端提供的云服务,对第一集群进行管理。通过上述过程,实现了云管控服务器利用云服务对第一集群进行管理,由于云服务具有完备性和高效性,因此,能够提高对第一集群的管理能力,从而充分发挥第一集群的使用效能。附图说明52.图1为本技术实施例提供的一种hpc集群的架构示意图;53.图2为本技术实施例提供的一种应用场景的示意图;54.图3为本技术实施例提供的另一种应用场景的示意图;55.图4为本技术实施例提供的一种集群管理方法的流程示意图;56.图5为本技术实施例提供的另一种集群管理方法的流程示意图;57.图6为本技术实施例提供的又一种集群管理方法的流程示意图;58.图7为本技术实施例提供的又一种集群管理方法的流程示意图;59.图8a为本技术实施例提供的一种集群规模扩充的示意图;60.图8b为本技术实施例提供的另一种集群规模扩充的示意图;61.图9为本技术实施例提供的一种集群管理装置的结构示意图;62.图10为本技术实施例提供的另一种集群管理装置的结构示意图;63.图11为本技术实施例提供的电子设备的结构示意图。具体实施方式64.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。65.本技术实施例的说明书、权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述之外的顺序实施。66.应当理解,本文中使用的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。67.在本技术实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。68.为了便于理解本技术的技术方案,首先结合图1对本技术实施例涉及的hpc集群的相关概念和术语进行解释。69.hpc集群是一个计算机集群系统,它通过各种互联技术将多个计算机连接在一起,利用该连接系统的综合计算能力来处理大型计算问题。图1为本技术实施例提供的一种hpc集群的架构示意图。如图1所示,一个hpc集群通常包括:登录节点、管理节点、计算节点、存储节点等。70.其中,登录节点相当于用户访问hpc集群的网关,用户可以通过登录节点向hpc集群提交作业。作业是指待hpc集群执行的计算任务。登录节点的数量可以为一个或者多个。71.管理节点也可以称为头节点或者调度节点。管理节点在hpc集群中唯一,负责对hpc集群进行管理。示例性的,管理节点可以对hpc集群进行作业调度,例如,用户通过登录节点向hpc集群提交作业后,管理节点根据预设调度策略,将该作业调度给某个计算节点,由该计算节点执行该作业对应的计算任务。72.一个hpc集群可以包括多个计算节点,这些计算节点用于提供计算资源。计算资源包括:中央处理器(centralprocessingunit,cpu)资源、图形处理器(graphicsprocessingunit,gpu)资源、现场可编程门阵列(fieldprogrammablegatearray,fpga)资源等。73.另外,一个hpc集群还可以包括一个或者多个存储节点(图1中未示出),这些存储节点用于提供存储资源。示例性的,存储资源可用于存储hpc集群执行作业所产生的数据,或者存储hpc集群执行作业所需的数据。74.实际应用中,hpc集群存在多种部署方式。下面给出几种可能的示例。75.一个示例中,hpc集群的资源可以部署在本地的数据中心或者超算中心。示例性的,登录节点、管理节点、计算节点、存储节点都部署在本地。该情况下,hpc集群也可以称为本地(on-premise)集群。76.另一个示例中,随着云计算的普及,hpc集群的资源也可以部署在云端。应理解,上述的云端可以为公有云或者私有云。示例性的,登录节点、管理节点、计算节点和存储节点均部署在云端。该情况下,hpc集群也可以称为云上(on-cloud)集群。77.又一个示例中,hpc集群的资源可以一部分部署在本地,另一部分部署在云端。或者,hpc集群的资源可以一部分部署在第一云端,另一部分部署在第二云端。该情况下,hpc集群可以称为混合云hpc集群。78.例如,已有hpc集群包括设置在本地的管理节点和至少一个第一计算节点,将云端的至少一个第二计算节点纳管至已有hpc集群,形成混合云hpc集群。79.又例如,已有hpc集群包括设置在第一云端的管理节点和至少一个第二计算节点,将第二云端的至少一个第二计算节点纳管至已有hpc集群,形成混合云hpc集群。80.针对上述混合云hpc集群,目前,主要通过hpc集群中的管理节点对整个集群进行管理。具体而言,根据hpc集群的管理需求以及用户管理习惯,在管理节点上开发部署管理软件,以实现对hpc集群的管理。然而,在混合部署场景下,受到多种因素影响,管理节点通常仅实现对hpc集群的基本管理功能,例如,作业调度管理等。这样,管理节点对hpc集群的管理能力有限,使得无法充分发挥hpc集群的使用效能。81.在一些可能的方案中,可以通过对已有hpc集群的管理节点的配置进行升级或者替换,来提升管理节点对hpc集群的管理能力。然而,该方式中,由于需要变更已有hpc集群的配置,使得用户必须变更已有hpc集群的管理习惯。82.为了解决上述技术问题,本技术提供一种对hpc集群进行管理的方案,可以在云端部署云管控服务器,云管控服务器可以结合云服务对hpc集群进行管理,从而,在不需要对管理节点的配置进行变更的情况下,提升对hpc集群的管理能力。下面结合图2和图3对本技术实施例可能的应用场景进行说明。83.图2为本技术实施例提供的一种应用场景的示意图。图2示例的是hpc集群混合部署在第一云端和第二云端的场景。如图2所示,该hpc集群在第一云端设置有登录节点、管理节点以及多个第一计算节点,在第二云端设置有代理节点和多个第二计算节点。应理解,上述的第一云端可以为公有云也可以为私有云,第二云端可以为公有云也可以为私有云,本实施例对此不做限定。84.图3为本技术实施例提供的另一种应用场景的示意图。图3示例的是hpc集群混合部署在本地和第二云端的场景。如图3所示,该hpc集群在本地设置有登录节点、管理节点以及多个第一计算节点,在第二云端设置有代理节点和多个第二计算节点。应理解,上述第二云端可以为公有云也可以为私有云,本实施例对此不做限定。85.需要说明的是,本技术实施例中,混合云hpc集群是指基于两个或者多个网络中的资源所形成的hpc集群。图2和图3示例的是基于两个网络中的资源所形成的hpc集群。实际应用中,还可以基于更多个不同的网络中的资源形成混合云hpc集群,本实施例对此不做限定。86.在本技术技术方案中,代理节点用于在第二云端代理本地/第一云端中的管理节点的相关功能。代理节点与管理节点通信连接,代理节点可以从管理节点获取管理集群所需的目标信息,代理节点还可以向管理节点发送集群管理相关的配置信息。87.继续参见图2和图3,本技术技术方案中,可以在第二云端部署云管控服务器。云管控服务器是指在云端实现hpc集群的管理功能的电子设备。当云管控服务器需要对hpc集群进行管理时,可以通过代理节点从管理节点获取管理集群所需的目标信息,还可以通过代理节点向管理节点下发集群管理相关的配置信息。88.由此可见,本技术技术方案中,通过在云端部署云管控服务器和代理节点,云管控服务器可以通过代理节点从管理节点获取管理集群所需的目标信息。进而,云管控服务器根据目标信息和云端提供的云服务,对集群进行管理。由于云端提供的云服务具有完备性和高效性,因此,通过利用云服务对hpc集群进行管理,能够提高对hpc集群的管理能力,从而充分发挥hpc集群的使用效能。89.另外,本技术技术方案中,由于是通过云端的云管控服务器对hpc集群进行管理,因此,不需要对管理节点的管理方案进行更改,也不需要改变用户对hpc集群的管理习惯,能够适用于新增hpc集群、对已有集群进行规模扩充等各种场景,应用范围广泛。90.下面通过具体实施例对本技术实施例提供的技术方案进行详细说明。需要说明的是,本技术实施例提供的技术方案可以包括以下内容中的部分或全部,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。91.图4为本技术实施例提供的一种集群管理方法的流程示意图。本实施例的方法可以应用于对第一集群进行管理。其中,第一集群可以为如图2或图3所示的hpc集群。92.第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点。其中,上述第一云端可以为公有云也可以为私有云,第二云端可以为公有云也可以为私有云。本实施例对此不做限定。93.本技术实施例中,第一集群可以为基于任意调度器的hpc集群,例如,基于便携式批处理系统专业版(protablebatchsystemprofessional,pbspro)调度器的hpc集群,或者基于用于资源管理的简单linux实用程序(simplelinuxutilityforresourcemanagement,slurm)调度器的hpc集群,或者基于太阳栅格发动机(sungridengine,sge)调度器的hpc集群,还可以为基于其他调度器的hpc级群,本实施例对此不做限定。94.本实施例的执行主体可以为设置在第二云端的云管控服务器。如图4所示,本实例的方法包括:95.s401:云管控服务器向代理节点发送请求消息。96.其中,所述请求消息用于指示代理节点从管理节点获取管理第一集群所需的目标信息。相应的,代理节点从云管控服务器接收请求消息。97.s402:代理节点根据请求消息,从管理节点获取管理第一集群所需的目标信息。98.示例性的,代理节点与管理节点通信连接。代理节点向管理节点转发请求消息。管理节点接收到请求消息后,根据请求消息,将管理第一集群所需的目标信息发送至代理节点。99.s403:代理节点向云管控服务器发送目标信息。100.需要说明的是,本技术实施例对于代理节点与云管控服务器之间的通信方式不做限定。示例性的,可以在云管控服务器中部署第一通信服务端,在代理节点中部署第一通信客户端。基于第一通信服务器端与第一通信客户端之间的通信协议,实现代理节点与集群管理节点之间的通信。101.另外,本技术实施例对于代理节点与管理节点之间的通信方式不做具体限定。示例性的,可以在管理节点中部署第二通信服务端,在代理节点中部署第二通信客户端,基于第二通信服务端与第二通信客户端之间通信协议,实现代理节点与管理节点之间的通信。102.s404:云管控服务器根据目标信息以及第二云端提供的云服务,对第一集群进行管理。103.本技术实施例中,可以利用第二云端提供的云服务,对目标信息进行处理,以实现对第一集群进行管理。104.示例性的,云管控服务器可以结合不同云端提供的云服务,抽象出统一的云服务调用接口和消息类型,这样,使得云管控服务器可以适配不同云端提供的云服务,提高应用场景的灵活性。105.应理解,由于云端提供的云服务具有完备性和高效性,因此,通过在云端利用云服务对第一集群进行管理,能够提高对第一集群的管理能力,从而,能够充分发挥第一集群的使用效能。并且,由于是通过云管控服务器对第一集群进行管理,无需对管理节点的管理方案进行变更,也不需要改变用户的管理习惯,从而可以方便的应用于多种场景。106.在本技术实施例中,云管控服务器可以结合第二云端提供的云服务,对第一集群实现多种类型的管理。应理解,只要是第二云端提供有相应的云服务,那么云管控服务器就可以利用该云服务实现对第一集群进行管理。可选的,对第一集群进行管理的类型可以为但不限于下述管理类型:作业管理、资源管理、用户管理、自动扩缩容管理、数据管理、作业报表管理等。107.作业管理是指对hpc集群的作业进行管理。例如,将用户提交的作业加入到某个作业队列,以便该作业队列对应的计算节点执行该作业。资源管理是指对hpc集群的资源(例如计算资源、存储资源、网络资源等)进行管理。用户管理是指对hpc集群的用户进行管理,例如,配置不同用户的操作权限等。数据管理是指对hpc集群涉及的数据进行管理,例如,定期对数据进行备份等。作业报表管理是指对hpc集群的作业报表进行管理,例如,根据一定时间段内的作业执行情况生成作业报表等。自动扩缩容(autoscaling)管理,也可以称为弹性伸缩管理,是根据业务需求和策略自动调整计算能力的服务。在业务需求增长时,自动增加计算节点来保证计算能力;在业务需求下降时,自动减少计算节点以节约成本。108.应理解,针对不同的管理类型,云管控服务器向代理节点发送的请求消息可以不同。例如,针对自动扩缩容管理,云管控服务器向代理节点发送第一请求消息,第一请求消息用于请求代理节点从管理节点获取自动扩缩容管理所需的目标信息。针对作业报表管理,云管控服务器向代理节点发送第二请求消息,第二请求消息用于请求代理节点从管理节点获取作业报表管理所需的目标信息。109.类似的,针对不同的管理类型,云管控服务器从代理节点接收到的目标信息的内容也不相同。示例性的,针对自动扩缩容管理,云管控服务器从代理节点接收到的目标信息中包括:各作业队列的排队信息、以及各作业队列对应的计算资源配置信息。针对作业报表管理,云管控服务器从代理节点接收到的目标信息中包括:待查询的作业的执行信息。110.在一些可能的实现方式种,云管控服务器对第一集群进行管理的实现方式可以如下:云管控服务器确定待对第一集群进行管理的管理类型,从第二云端提供的云服务中确定与上述管理类型对应的云服务接口,通过调用上述云服务接口对目标信息进行处理,以实现对第一集群进行管理。111.也就是说,针对不同的管理类型,云端提供有对应的云服务接口。云管控服务器在获取到目标信息之后,通过调用管理类型对应的云服务接口对目标信息进行处理,即可实现对第一集群的管理。由此可见,云管控服务器实现简单,易于部署。112.在本技术实施例中,结合图2和图3所示,代理节点可以为独立于第二计算节点的节点,即代理节点具有对管理节点的相关功能进行代理的功能,而不具有执行计算作业的功能。该情况下,代理节点可以由第二云端的某个低配节点来担任。113.在一些可能的实现方式中,代理节点也可以由其中一个第二计算节点担任。也就是说,某个第二计算节点既具有计算节点的功能,也具有对管理节点的相关功能进行代理的功能。示例性的,可以在多个第二计算节点中随机选择一个第二计算节点兼任代理节点。这样,无需额外部署代理节点,节省云端资源。114.本实施例提供的集群管理方法中,待管理的第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点;需要对第一集群进行管理时,云管控服务器向代理节点发送请求消息,请求消息用于指示代理节点从管理节点获取管理第一集群所需的目标信息;云管控服务器从代理节点接收目标信息,并根据目标信息以及第二云端提供的云服务,对第一集群进行管理。通过上述过程,实现了云管控服务器利用云服务对第一集群进行管理,由于云服务具有完备性和高效性,因此,能够提高对第一集群的管理能力,从而充分发挥第一集群的使用效能。115.在上述实施例的基础上,下面结合两个具体的实施例,以自动扩缩容管理、作业报表管理两种管理类型为例,对本技术提供的集群管理方法进行举例说明。应理解,针对其他管理类型,其实现原理和方式是类似的,本技术实施例不做一一举例说明。116.图5为本技术实施例提供的另一种集群管理方法的流程示意图。本实施例以自动扩缩容管理为例进行举例说明。为了便于理解,下面先对作业调度原理进行说明。117.管理节点将第一集群中的多个计算节点进行分组管理。例如,将多个计算节点分成n个组,每个组中包括一个或者多个计算节点。针对每一组计算节点,维护一个作业队列,这样共有n个作业队列。第1组计算节点负责执行第1个作业队列中的作业,第2组计算节点负责执行第2个作业队列中的作业,第n组计算节点负责执行第n个作业队列中的作业。118.当用户通过登录节点向第一集群提交作业之后,管理节点根据负载均衡策略,将该作业加入到某个作业队列中。若该作业队列对应的计算节点满足所需计算资源,则执行该作业。若该作业队列对应的计算节点不满足所需计算资源,则该作业保留在作业队列中,等待资源满足后再执行。进一步的,计算节点向管理节点返回该作业的执行状态,执行状态为“已完成”或者为“在等待”。119.通过上述过程,实现了对一个作业的调度过程。应理解,若某个作业队列中处于“在等待”状态的作业数量较多,说明该作业队列对应的计算资源较为紧缺。若某个作业队列中处于“在等待”状态的作业数量较少,说明该作业队列对应的计算资源较为空闲。120.本技术实施例中,云管控服务器可以监控各作业队列的状态,并根据需要对第一集群进行自动扩缩容管理。例如,在计算资源较为紧缺时,对计算资源进行扩充以保证计算能力;在计算资源较为空闲时,可以相应减少计算资源以节省成本。121.如图5所示,本实施例的方法包括:122.s501:云管控服务器按照预设时间间隔向代理节点发送第一请求消息。123.其中,第一请求消息用于指示代理节点从管理节点获取自动扩缩容管理所需的目标信息。相应的,代理节点从云管控服务器接收第一请求消息。124.s502:代理节点根据第一请求消息,从管理节点获取自动扩缩容管理所需的目标信息。125.示例性的,代理节点向管理节点发送第一请求消息,管理节点根据第一请求消息,向代理节点发送自动扩缩容管理所需的目标信息。126.s503:代理节点向云管控服务器发送目标信息。127.其中,目标信息中包括:各作业队列的排队信息、以及各作业队列对应的计算资源配置信息。128.s504:云管控服务器调用自动扩缩容管理对应的云服务接口,对目标信息进行处理,得到自动扩缩容方案。129.s505:云管控服务器根据自动扩缩容方案,对第一集群中设置在第二云端的计算节点进行扩缩容处理,并生成计算资源更新信息。130.示例性的,云管控服务器调用自动扩缩容管理对应的云服务接口,确定各作业队列的排队信息与计算资源配置信息是否适配,若不适配,则确定自动扩缩容方案。例如,对某个作业队列增加一个或者多个计算节点,或者,对某个作业队列减少一个或者多个计算节点。进而,云管控服务器按照自动扩缩容方案,对第一集群中云端计算节点进行扩缩容处理,例如增加云端计算节点的数量或者减少云端计算节点的数量。131.s506:云管控服务器向代理节点发送计算资源更新信息。132.s507:代理节点向管理节点发送计算资源更新信息。133.s508:管理节点根据计算资源更新信息,对第一集群的计算资源信息进行更新。134.本实施例中,云管控服务器对第一集群的云端计算资源进行扩缩容处理之后,生成计算资源更新信息。计算资源更新信息用于指示第一集群的云端计算资源的变更情况。云管控服务器向代理节点发送计算资源更新信息,进而代理节点将计算资源更新信息同步至管理节点,以便管理节点对自身维护的计算资源信息进行更新。135.s509:管理节点向代理节点发送计算资源更新结果。136.s510:代理节点向云管控服务器发送计算资源更新结果。137.通过上述s501至s510的交互过程,使得云管控服务器完成了对第一集群的自动扩缩容管理。应理解的是,本实施例的方案可以周期性执行,也就是说,云端管理设备对第一集群的运行状态进行监控,并在需要时进行扩缩容处理。138.本实施例中,云管控服务器可以通过代理节点从管理节点获取自动扩缩容管理所需的目标信息,并利用云端提供的自动扩缩容管理对应的云服务接口对目标信息进行处理,实现对第一集群的计算资源进行扩缩容处理。在不需要对管理节点的管理方案进行变更的情况下,充分利用云服务的完备性和高效性的优势,提高了对第一集群的管理能力,从而充分发挥第一集群的使用效能。139.图6为本技术实施例提供的又一种集群管理方法的流程示意图。本实施例以作业报表管理为例进行举例说明。如图6所示,本实施例的方法包括:140.s601:云管控服务器获取用户输入的报表查询指令。141.示例性的,当用户想要查询某一时间段内的作业执行情况时,可以向云管控服务器输入报表查询指令,在该报表查询指令中指定用户希望查询的时间段、作业类型等信息。142.s602:云管控服务器根据报表查询指令,向代理节点发送第二请求消息。143.其中,所述第二请求消息用于指示代理节点从管理节点获取作业报表管理所需的目标信息。相应的,代理节点从云管控服务器接收第二请求消息。144.s603:代理节点根据第二请求消息,从管理节点获取作业报表管理所需的目标信息。145.示例性的,代理节点向管理节点发送第二请求消息,管理节点根据第二请求消息,向代理节点发送作业报表管理所需的目标信息。其中,目标信息中包括用户查询的各作业的执行信息。一个作业的执行信息包括但不限于:作业执行时长、作业等待时长、作业执行结果等。146.s604:代理节点向云管控服务器发送目标信息。147.s605:云管控服务器调用作业报表管理对应的云服务接口,对目标信息进行处理,以生成目标作业报表。148.s606:云管控服务器显示目标作业报表。149.本实施例中,云管控服务器可以通过代理节点从管理节点获取作业报表管理所需的目标信息,并利用云端提供的作业报表管理对应的云服务接口对目标信息进行处理,生成并显示目标作业报表。在不需要对管理节点的管理方案进行变更的情况下,充分利用云服务的完备性和高效性的优势,提高了对第一集群的管理能力,从而充分发挥第一集群的使用效能。150.本技术实施例中,当第一集群为混合云hpc集群时,第一集群可以是云管控服务器利用云端资源对已有的第二集群进行规模扩充得到的。下面结合图7、图8a和图8b进行说明。151.图7为本技术实施例提供的又一种集群管理方法的流程示意图。本实施例的执行主体为云管控服务器。如图7所示,本实施例的方法包括:152.s701:获取第二集群对应的规模扩充指令,所述第二集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点。153.规模扩充指令用于指示对第二集群进行规模扩充。规模扩充指令可以包括待扩充的计算资源的数量。154.s702:根据所述规模扩充指令,在第二云端创建所述代理节点和至少一个第二计算节点。155.s703:建立所述代理节点与所述管理节点之间的通信连接、以及建立各第二计算节点与所述管理节点之间的通信连接,以将所述第二集群更新为所述第一集群。156.下面举例说明。假设第二集群包括:设置在本地的登录节点、管理节点、以及至少一个第一计算节点。可以采用图8a和图8b所示的两种方式将第二集群更新为第一集群。157.图8a为本技术实施例提供的一种集群规模扩充的示意图。如图8a所示,云管控服务器可以在第二云端创建一个低配节点作为代理节点,根据待扩充的计算资源的数量,在第二云端创建至少一个第二计算节点。该方式中,代理节点与各第二计算节点相互独立,责任分明。158.图8b为本技术实施例提供的另一种集群规模扩充的示意图。如图8b所示,云管控服务器可以根据待扩充的计算资源的数量,在第二云端创建至少一个第二计算节点,并在这些第二计算节点中选择其中一个第二计算节点作为代理节点。该方式中,代理节点可以由其中一个第二计算节点兼任,这样无需额外设置代理节点,能够节省云端资源。159.本实施例中,在创建得到代理节点、各第二计算节点之后,云管控服务器分别启动代理节点、各第二计算节点的相关服务,从而建立代理节点、各第二计算节点与管理节点之间的通信连接。160.应理解,经过上述规模扩充处理之后的第二集群,即为第一集群。进一步的,云管控服务器可以对第一集群进行管理,管理实现方式可以参见图4至图6所示实施例的详细描述。161.本技术实施例中,可以通过设置在云端的云管控服务器对hpc集群进行管理,这样,无需对管理节点的管理方案进行变更,也不需要改变用户对hpc集群的管理习惯,能够适用于新增hpc集群、对已有集群进行规模扩充等各种场景,应用范围广泛。进一步的,云管控服务器对hpc集群进行管理时,可以通过代理节点从管理节点获取管理集群所需的目标信息,并结合云端提供的云服务,对hpc集群进行管理,提高了hpc集群的管理能力,从而能够充分发挥hpc集群的使用效能。162.上文描述了本技术实施例提供的集群管理方法,下面将描述本技术实施例提供的集群管理装置。163.本技术实施例可以根据上述方法实施例对集群管理装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现,也可以使用软件功能模块的形式实现。164.需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。165.图9为本技术实施例提供的一种集群管理装置的结构示意图。该集群管理装置可用于对第一集群进行管理,第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点。166.本实施例提供的集群管理装置应用于设置在第二云端的云管控服务器。如图9所示,本实施例提供的集群管理装置900,包括:发送模块901、接收模块902和管理模块903。其中,167.发送模块901,用于向所述代理节点发送请求消息,所述请求消息用于指示所述代理节点从所述管理节点获取管理所述第一集群所需的目标信息;168.接收模块902,用于从所述代理节点接收所述目标信息;169.管理模块903,用于根据所述目标信息以及所述第二云端提供的云服务,对所述第一集群进行管理。170.一种可能的实现方式中,所述管理模块903具体用于:171.确定待对所述第一集群进行管理的管理类型;172.从所述第二云端提供的云服务中确定所述管理类型对应的云服务接口;173.通过调用所述管理类型对应的云服务接口,对所述目标信息进行处理,以对所述第一集群进行管理。174.一种可能的实现方式中,所述管理类型为自动扩缩容管理;所述管理模块903具体用于:175.调用所述自动扩缩容管理对应的云服务接口,对所述目标信息进行处理,得到自动扩缩容方案;176.根据所述自动扩缩容方案,对所述第一集群中设置在所述第二云端的计算节点进行扩缩容处理,并生成计算资源更新信息;177.向所述代理节点发送所述计算资源更新信息,以使所述代理节点将所述计算资源更新信息同步至所述管理节点。178.一种可能的实现方式中,所述发送模块901具体用于:179.按照预设时间间隔向所述代理节点发送第一请求消息,所述第一请求消息用于指示所述代理节点从所述管理节点获取所述自动扩缩容管理所需的目标信息。180.一种可能的实现方式中,所述管理类型为作业报表管理;所述管理模块903具体用于:181.调用所述作业报表管理对应的云服务接口,对所述目标信息进行处理,以生成目标作业报表;182.显示所述目标作业报表。183.一种可能的实现方式中,所述发送模块901具体用于:184.获取用户输入的报表查询指令;185.根据所述报表查询指令,向所述代理节点发送第二请求消息,所述第二请求消息用于指示所述代理节点从所述管理节点获取所述作业报表管理所需的目标信息。186.一种可能的实现方式中,所述管理模块903还用于:187.获取第二集群对应的规模扩充指令,所述第二集群包括:所述管理节点和所述至少一个第一计算节点;188.根据所述规模扩充指令,在所述第二云端分别创建所述代理节点和所述至少一个第二计算节点;189.建立所述代理节点与所述管理节点之间的通信连接、以及建立各第二计算节点与所述管理节点之间的通信连接,以将所述第二集群更新为所述第一集群。190.一种可能的实现方式中,所述代理节点由其中一个第二计算节点兼任。191.本实施例提供的集群管理装置,可以执行上述任一方法实施例中由云管控服务器实现的技术方案,其实现原理和技术效果类似,此处不再赘述。192.图10为本技术实施例提供的另一种集群管理装置的结构示意图。该集群管理装置可用于对第一集群进行管理,第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点。193.本实施例提供的集群管理装置应用于所述代理节点。如图10所示,本实施例提供的集群管理装置1000,包括:接收模块1001、获取模块1002和发送模块1003。其中,194.接收模块1001,用于接收所述云管控服务器发送的请求消息,所述云管控服务器设置在所述第二云端;195.获取模块1002,用于根据所述请求消息,从所述管理节点获取管理所述第一集群所需的目标信息;196.发送模块1003,用于向所述云管控服务器发送所述目标信息,以使所述云管控服务器根据所述目标信息和所述第二云端提供的云服务,对所述第一集群进行管理。197.本实施例提供的集群管理装置可用于执行上述任意方法实施例中由代理节点执行的技术方案,其实现原理和技术效果类似,此处不做赘述。198.图11为本技术实施例提供的电子设备的结构示意图。如图11所示,本实施例提供的电子设备1100,包括:存储器1101,处理器1102以及计算机程序;所述计算机程序存储在所述存储器1101中,并被配置为由所述处理器1102执行以实现上述任一方法实施例中云管控服务器执行的技术方案,或者代理节点执行的技术方案,其实现原理和技术效果类似,此处不再赘述。199.可选的,存储器1101既可以是独立的,也可以跟处理器1102集成在一起。当存储器1101是独立于处理器1102之外的器件时,电子设备1100还包括:总线1103,用于连接存储器1101和处理器1102。200.本技术实施例还提供一种集群管理系统,包括:第一集群和云管控服务器,所述第一集群包括:设置在本地或第一云端的管理节点和至少一个第一计算节点,以及设置在第二云端的代理节点和至少一个第二计算节点;所述云管控服务器设置在所述第二云端;其中,所述云管控服务器用于向所述代理节点发送请求消息;所述代理节点用于根据所述请求消息,从所述管理节点获取管理所述第一集群所需的目标信息,并向所述云管控服务器发送所述目标信息;所述云管控服务器还用于根据所述目标信息以及所述第二云端提供的云服务,对所述第一集群进行管理。201.本实施例提供的集群管理系统可用于实现上述任意方法实施例提供的集群管理方法,其实现原理和技术效果类似,此处不做赘述。202.本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现如前述任一方法实施例中由云管控服务器实现的集群管理方法,或者由代理节点实现的集群管理方法,其实现原理和技术效果类似,此处不做赘述。203.本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述任一方法实施例中由云管控服务器实现的集群管理方法,或者由代理节点实现的集群管理方法,其实现原理和技术效果类似,此处不做赘述。204.本技术实施例还提供了一种芯片,包括:存储器和处理器,所述存储器中存储有计算机程序,所述处理器运行所述计算机程序,以实现上述任一方法实施例中云管控服务器执行的技术方案,或者代理节点执行的技术方案,其实现原理和技术效果类似,此处不再赘述。205.应理解,上述处理器可以是中央处理单元(英文:centralprocessingunit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digitalsignalprocessor,简称:dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。206.存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。207.总线可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互连(peripheralcomponent,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。208.上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。209.一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(applicationspecificintegratedcircuits,简称:asic)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备中。210.本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。211.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例的技术方案的范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1