一种节点管理方法、装置、设备及存储介质与流程

文档序号:38224274发布日期:2024-06-06 18:59阅读:8来源:国知局
一种节点管理方法、装置、设备及存储介质与流程

本发明涉及节点管理领域,特别涉及一种节点管理方法、装置、设备及存储介质。


背景技术:

1、一个云服务器可以包含一个或多个gpu(graphics processing unit,图形处理器),一个图形处理器对应一块显存,也即对应一个工作节点,而部署单个大语言模型所使用的显存较大,因此一般一个工作节点只能部署一个模型。并且,单个工作节点在运行单个模型的时候,同时推理两个任务的总耗时通常是大于两个任务串行执行的总耗时的,因此,一般情况下,一个工作节点同时只进行一个工作任务的推理。而对于固定数量的云服务器,也即固定数量的工作节点,在面对瞬时的高并发工作任务时,任务推理所消耗的时间较长;面对较少的工作任务时,又容易造成资源浪费。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种节点管理方法、装置、设备及存储介质,能够基于节点使用率在无需人工干预的情况下,实现对工作节点的动态扩容和缩配,保证工作任务的时效性,实现对资源的合理利用。其具体方案如下:

2、第一方面,本技术提供了一种节点管理方法,应用于预设调度组中的调度中心,所述预设调度组中还包括若干工作节点;其中,所述方法包括:

3、获取当前所有工作节点的运行状态,并基于各所述工作节点的运行状态确定当前节点使用率;

4、基于所述当前节点使用率确定节点管理策略;

5、若所述节点管理策略表征需要对所述预设调度组中的工作节点进行扩容或缩配,则发送节点管理请求至云供应商抽象层,以便所述云供应商抽象层基于所述节点管理请求对所述预设调度组中的工作节点进行管理;

6、其中,所述云供应商抽象层与多个云供应商连接,并通过统一接口与所述调度中心连接。

7、可选的,所述获取当前所有工作节点的运行状态,并基于各所述工作节点的运行状态确定当前节点使用率,包括:

8、获取当前所有工作节点的运行状态,并从所述所有工作节点中确定出运行状态为繁忙状态的目标工作节点;

9、基于所述目标工作节点的数量与所述所有工作节点的总数量确定当前节点使用率。

10、可选的,所述获取当前所有工作节点的运行状态,并从所述所有工作节点中确定出运行状态为繁忙状态的目标工作节点,包括:

11、获取当前所有工作节点基于预设心跳速率发送的自身的运行状态,并基于所述所有工作节点的运行状态对预设缓存中的节点索引表进行更新;所述节点索引表为预先基于各所述工作节点以及对应的运行状态构建的索引表;

12、对更新后的所述节点索引表进行索引遍历,以从所述所有工作节点中确定出运行状态为繁忙状态的目标工作节点。

13、可选的,所述基于所述当前节点使用率确定节点管理策略,包括:

14、判断所述当前节点使用率是否在预设使用率范围内;

15、若所述当前节点使用率大于所述预设使用率范围的上限值,则将节点扩容策略确定为节点管理策略;

16、若所述当前节点使用率小于所述预设使用率范围的下限值,则将节点缩配策略确定为节点管理策略。

17、可选的,所述基于所述当前节点使用率确定节点管理策略,包括:

18、获取与当前时刻相邻的并且包含当前时刻的第一预设历史时间段内的任意两个不同时刻的节点使用率;

19、基于所述任意两个不同时刻的节点使用率确定节点使用率趋势值,并判断所述节点使用率趋势值是否在预设趋势值范围内;

20、若所述节点使用率趋势值大于所述预设趋势值范围的上限值,则将节点扩容策略确定为节点管理策略;

21、若所述节点使用率趋势值小于所述预设趋势值范围的下限值,则将节点缩配策略确定为节点管理策略;

22、其中,所述任意两个不同时刻的节点使用率包括与当前时刻对应的所述当前节点使用率。

23、可选的,所述基于所述当前节点使用率确定节点管理策略,包括:

24、获取与当前时刻相邻的并且不包含当前时刻的第二预设历史时间段内的至少两个不同时刻的历史节点使用率;

25、基于各所述历史节点使用率分别与所述当前节点使用率确定节点使用率趋势值;

26、若所有所述节点使用率趋势值中大于预设趋势值上限的趋势值的数量大于预设数量,则将节点扩容策略确定为节点管理策略;

27、若所有所述节点使用率趋势值中小于预设趋势值下限的趋势值的数量大于所述预设数量,则将节点缩配策略确定为节点管理策略。

28、可选的,所述若所述节点管理策略表征需要对所述预设调度组中的工作节点进行扩容或缩配,则发送节点管理请求至云供应商抽象层,以便所述云供应商抽象层基于所述节点管理请求对所述预设调度组中的工作节点进行管理,包括:

29、若所述节点管理策略表征需要对所述预设调度组中的工作节点进行扩容,则发送节点新增请求至云供应商抽象层,并在所述云供应商抽象层调用与所述节点新增请求对应的云供应商通过所述统一接口在所述预设调度组中创建相应的新增云服务器,且基于包含调度代理程序的预设启动镜像对所述新增云服务器启动之后,所述新增云服务器中的调度代理程序基于本地的各图形处理器确定各新增工作节点,并将基于各所述新增工作节点确定的节点注册请求发送所述调度中心,以便所述调度中心基于所述节点注册请求在本地注册各所述新增工作节点的信息;

30、若所述节点管理策略表征需要对所述预设调度组中的工作节点进行缩配,则发送服务器下线请求至相应的目标云服务器,并在所述目标云服务器中的调度代理程序基于所述服务器下线请求对所述目标云服务器中的各工作节点进行关闭之后,发送服务器销毁指令至所述云供应商抽象层,以便所述云供应商抽象层对所述预设调度组中的所述目标云服务器进行销毁。

31、第二方面,本技术提供了一种节点管理装置,应用于预设调度组中的调度中心,所述预设调度组中还包括若干工作节点;其中,所述装置包括:

32、使用率确定模块,用于获取当前所有工作节点的运行状态,并基于各所述工作节点的运行状态确定当前节点使用率;

33、策略确定模块,用于基于所述当前节点使用率确定节点管理策略;

34、节点管理模块,用于若所述节点管理策略表征需要对所述预设调度组中的工作节点进行扩容或缩配,则发送节点管理请求至云供应商抽象层,以便所述云供应商抽象层基于所述节点管理请求对所述预设调度组中的工作节点进行管理;

35、其中,所述云供应商抽象层与多个云供应商连接,并通过统一接口与所述调度中心连接。

36、第三方面,本技术提供了一种电子设备,包括:

37、存储器,用于保存计算机程序;

38、处理器,用于执行所述计算机程序以实现前述的节点管理方法。

39、第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的节点管理方法。

40、本技术中,预设调度组中的调度中心获取当前所有工作节点的运行状态,并基于各所述工作节点的运行状态确定当前节点使用率;基于所述当前节点使用率确定节点管理策略;若所述节点管理策略表征需要对所述预设调度组中的工作节点进行扩容或缩配,则发送节点管理请求至云供应商抽象层,以便所述云供应商抽象层基于所述节点管理请求对所述预设调度组中的工作节点进行管理;其中,所述云供应商抽象层与多个云供应商连接,并通过统一接口与所述调度中心连接。由此可见,本技术通过云供应商抽象层连接多个云供应商,从而支持多个不同的云供应商,并且云供应商抽象层通过统一接口与调度中心连接,屏蔽了各大云供应商之间的差异,提高了节点管理的兼容性和适配性;进一步的,本技术基于节点使用率在无需人工干预的情况下,实现对工作节点的动态扩容和缩配,从而不仅可以应对瞬时的高并发工作任务,保证工作任务的时效性,而且可以在保证节点工作效率的同时,实现对资源的合理利用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1