本申请涉及计算机,具体涉及计算节点编排方法、装置、电子设备和存储介质。
背景技术:
1、目前,为了处理大规模的高性能计算任务,可以通过网络连接将多个计算节点进行组合,得到算力网络,并将计算任务发送至算力网络进行处理。
2、为了充分利用多个计算节点的计算资源,相关技术中通过将计算任务拆分成多个子计算任务,并将多个子计算任务优先分配给算力值大且计算能力强的计算节点,并基于分配的各个计算节点和路由至各个计算节点的拓扑路径,生成编排结果,由于各个计算节点的计算任务的耦合性较强,一旦按照编排结果执行计算任务,在整个执行过程中将不会发生变化,缺少算力节点热插拔的能力。
3、如果编排结果中的任一计算节点宕机,会导致整个执行过程失败,容错率低,且当计算能力强的计算节点加入值该算力网络的情况下,无法利用该计算节点,导致计算资源的浪费。
技术实现思路
1、本申请实施例提供一种计算节点编排方法、装置、电子设备、存储介质以及计算机程序产品,用以解决相关技术中算力网络缺少算力节点热插拔的能力。
2、第一方面,本申请实施例中提供了一种计算节点编排方法,包括:
3、在接收到目标计算任务的情况下,根据第一算力网络的第一拓扑信息确定计算多个计算事务的第一目标计算节点,其中,所述目标计算任务包括所述多个计算事务,所述第一算力网络是接收所述目标计算事务时的算力网络,所述第一算力网络包括所述第一目标计算节点,所述第一拓扑信息包括所述第一算力网络的带宽信息和算力信息;
4、向多个计算事务分别对应的第一目标计算节点发送对应的计算事务,以用于第一目标计算节点对计算事务进行计算,并返回剩余计算事务的信息;
5、响应于重编排指令,根据第二算力网络的第二拓扑信息确定计算剩余计算事务的第二目标计算节点,其中,第二算力网络是接收到重编排指令时的算力网络,所述第二算力网络包括所述第二目标计算节点,所述第二拓扑信息包括所述第二算力网络的带宽信息和算力信息;
6、向剩余计算事务对应的第二目标计算节点发送对应的剩余计算事务,以用于第二目标计算节点对剩余计算事务进行计算。
7、第二方面,本申请实施例提供了一种计算节点编排装置,包括:
8、确定模块,用于在接收到目标计算任务的情况下,根据第一算力网络的第一拓扑信息确定计算多个计算事务的第一目标计算节点,其中,所述目标计算任务包括所述多个计算事务,所述第一算力网络是接收所述目标计算事务时的算力网络,所述第一算力网络包括所述第一目标计算节点,所述第一拓扑信息包括所述第一算力网络的带宽信息和算力信息;
9、发送模块,用于向多个计算事务分别对应的第一目标计算节点发送对应的计算事务,以用于第一目标计算节点对计算事务进行计算,并返回剩余计算事务的信息;
10、所述确定模块,还用于响应于重编排指令,根据第二算力网络的第二拓扑信息确定计算剩余计算事务的第二目标计算节点,其中,第二算力网络是接收到重编排指令时的算力网络,所述第二算力网络包括所述第二目标计算节点,所述第二拓扑信息包括所述第二算力网络的带宽信息和算力信息;
11、所述发送模块,还用于向剩余计算事务对应的第二目标计算节点发送对应的剩余计算事务,以用于第二目标计算节点对剩余计算事务进行计算。
12、第三方面,本申请实施例提供了一种电子设备,包括处理组件、存储组件以及显示组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令用以被所述处理组件调用执行以实现第一方面所述的计算节点编排方法。
13、第四方面,本申请实施例提供了一种计算机存储介质,存储有计算机程序,所述计算程序被计算机执行时,实现如第一方面所述的计算节点编排方法。
14、本申请实施例提供一种计算节点编排方法、装置、电子设备和存储介质,本申请实施例在接收到目标计算任务的情况下,根据第一算力网络的第一拓扑信息确定计算多个计算事务的第一目标计算节点,其中,所述目标计算任务包括所述多个计算事务,所述第一算力网络是接收所述目标计算事务时的算力网络,所述第一算力网络包括所述第一目标计算节点,所述第一拓扑信息包括所述第一算力网络的带宽信息和算力信息;向多个计算事务分别对应的第一目标计算节点发送对应的计算事务,以用于第一目标计算节点对计算事务进行计算,并返回剩余计算事务的信息;响应于重编排指令,根据第二算力网络的第二拓扑信息确定计算剩余计算事务的第二目标计算节点,其中,第二算力网络是接收到重编排指令时的算力网络,所述第二算力网络包括所述第二目标计算节点,所述第二拓扑信息包括所述第二算力网络的带宽信息和算力信息;向剩余计算事务对应的第二目标计算节点发送对应的剩余计算事务,以用于第二目标计算节点对剩余计算事务进行计算。本申请实施例可以向多个计算事务分别对应的第一目标计算节点发送对应的计算事务之后,能够响应于重新编排指令,能够重新生成编排结果,实现了对编排结果的动态调整,提高了计算的容错率,以及计算效率。
1.一种计算节点编排方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述在接收到目标计算任务的情况下,根据第一算力网络的第一拓扑信息确定计算多个计算事务的第一目标计算节点,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于多个所述拓扑路径的剩余带宽和多个所述剩余算力,确定所述计算事务对应的第一目标计算节点,包括:
4.根据权利要求3所述的方法,其特征在于,所述第一拓扑信息还包括多条拓扑路径的网络时延,以及拓扑路径中计算节点的计算时延,所述将第一计算节点中剩余算力大于计算事务算力的第一计算节点确定为所述第一目标计算节点之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述向多个计算事务分别对应的第一目标计算节点发送对应的计算事务之后,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述向多个计算事务分别对应的第一目标计算节点发送对应的计算事务之后,所述方法还包括:
8.一种计算节点编排装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器以及存储有计算机程序指令的存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任一项所述的计算节点编排方法。