深度学习作业资源放置方法、系统、设备和存储介质与流程

文档序号:34249872发布日期:2023-05-25 02:17阅读:26来源:国知局
深度学习作业资源放置方法、系统、设备和存储介质与流程

本申请涉及计算机资源调度,特别是涉及一种深度学习作业资源放置方法、系统、设备和存储介质。


背景技术:

1、近年来,深度学习在许多数据驱动的应用领域得到了普遍采用,从自动驾驶到医疗设备等各种行业,其中包括了对象检测、语言模型以及语音识别等训练任务。处理资源gpu(graphics processing unit,图形处理器)在处理深度学习作业时非常高效,但目前单个节点的gpu通常无法应对海量的训练数据,因此深度学习任务普遍采取分布式架构。在大多数集群调度器中,对gpu进行分配的最小粒度始终是一个完整的gpu,这样粗粒度的资源分配最终会导致集群的资源利用率低下。

2、目前大多数集群中都尝试将深度学习的训练作业完整整合到集群中具有足够数量的处理资源的服务器上,以减少网络通信来间接提高资源的利用率,但是这样统一的作业放置策略可能会产生资源空闲,不能有效地利用集群资源,而导致资源利用率低下。

3、针对相关技术中统一的训练作业资源放置导致资源利用率低下的问题,目前还没有提出有效的解决方案。


技术实现思路

1、在本实施例中提供了一种深度学习作业资源放置方法、系统、设备和存储介质,以解决相关技术中统一的训练作业资源放置导致资源利用率低下的问题。

2、第一个方面,在本实施例中提供了一种深度学习作业资源放置方法,包括:

3、获取待放置的训练作业以及相应的优先级;

4、基于所述优先级的顺序,依次根据所述训练作业的需求资源量,选择作业放置的网络结构;所述网络结构包括服务器、顶端交换机、容器组集合podset以及主干层交换机;

5、基于选择的所述网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案。

6、在其中的一些实施例中,所述获取待放置的训练作业以及相应的优先级,包括:

7、对进入集群的所述训练作业进行分类和资源调整;

8、根据所述训练作业的分类情况,确定每个所述训练作业的优先级,并放入训练作业队列中。

9、在其中的一些实施例中,所述基于所述优先级的顺序,依次根据所述训练作业的需求资源量,选择作业放置的网络结构,包括:

10、根据网络跳数对集群资源进行划分,得到多层所述网络结构;

11、从所述训练作业队列中,按照所述优先级提取待放置的所述训练作业;

12、根据每层所述网络结构的资源量,逐层选择与所述训练作业的需求资源量适配的所述网络结构。

13、在其中的一些实施例中,所述基于选择的所述网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案,包括:

14、根据每个所述训练作业的参数服务器、工作节点以及参数量,共同指示训练过程中的网络数据传输量,得到所述优化目标;

15、基于所述优化目标,以集群中处理资源的容量作为优化约束条件,建立网络数据传输量优化模型;

16、基于所述网络数据传输量优化模型的优化结果,在所述网络结构中为每个所述训练作业分配参数服务器和工作节点的数量和处理资源,得到所述作业放置方案。

17、在其中的一些实施例中,在所述得到相应的作业放置方案之后,还包括:

18、当多个所述训练作业共享同一处理资源时,通过拟合得到所述训练作业的原始时间,并归一化处理得到整个所述处理资源的训练时间。

19、在其中的一些实施例中,所述通过拟合得到所述训练作业的原始时间,包括:

20、通过测量所述训练作业的一次前向传播时间和一次反向传播时间,结合梯度聚合时间对所述训练作业的前向传播时间和反向传播时间进行拟合,得到所述原始时间。

21、在其中的一些实施例中,所述方法还包括:

22、基于所述训练作业所需的剩余服务数,以集群中处理资源的容量作为优化约束条件,建立训练作业整体调度算法;

23、基于所述训练作业整体调度算法,定期遍历所述训练作业的处理资源,获得最少剩余服务数的优化结果。

24、第二个方面,在本实施例中提供了一种深度学习作业资源放置系统,包括:训练作业获取模块、优先级顺序放置模块以及作业放置优化模块;

25、所述训练作业获取模块,用于获取待放置的训练作业以及相应的优先级;

26、所述优先级顺序放置模块,用于基于所述优先级的顺序,依次根据所述训练作业的需求资源量,选择作业放置的网络结构;所述网络结构包括服务器、顶端交换机、容器组集合podset以及主干层交换机;

27、所述作业放置优化模块,用于基于选择的所述网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案。

28、第三个方面,在本实施例中提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的深度学习作业资源放置方法。

29、第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的深度学习作业资源放置方法。

30、与相关技术相比,在本实施例中提供的一种深度学习作业资源放置方法、系统、设备和存储介质,通过获取待放置的训练作业以及相应的优先级;基于所述优先级的顺序,依次根据所述训练作业的需求资源量,选择作业放置的网络结构;所述网络结构包括服务器、顶端交换机、容器组集合podset以及主干层交换机;基于选择的所述网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案,能够以训练过程中网络数据传输量作为优化目标,针对训练作业选择放置的不同网络结构,得到相应的作业放置方案,通过有效减少网络中数据传输来提高集群中资源利用率,解决了统一的训练作业资源放置导致资源利用率低下的问题。

31、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。



技术特征:

1.一种深度学习作业资源放置方法,其特征在于,包括:

2.根据权利要求1所述的深度学习作业资源放置方法,其特征在于,所述获取待放置的训练作业以及相应的优先级,包括:

3.根据权利要求1所述的深度学习作业资源放置方法,其特征在于,所述基于所述优先级的顺序,依次根据所述训练作业的需求资源量,选择作业放置的网络结构,包括:

4.根据权利要求1所述的深度学习作业资源放置方法,其特征在于,所述基于选择的所述网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案,包括:

5.根据权利要求1所述的深度学习作业资源放置方法,其特征在于,在所述得到相应的作业放置方案之后,还包括:

6.根据权利要求5所述的深度学习作业资源放置方法,其特征在于,所述通过拟合得到所述训练作业的原始时间,包括:

7.根据权利要求1所述的深度学习作业资源放置方法,其特征在于,还包括:

8.一种深度学习作业资源放置系统,其特征在于,包括:训练作业获取模块、优先级顺序放置模块以及作业放置优化模块;

9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求7中任一项所述的深度学习作业资源放置方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的深度学习作业资源放置方法的步骤。


技术总结
本申请涉及一种深度学习作业资源放置方法、系统、设备和存储介质,其中,该方法包括:获取待放置的训练作业以及相应的优先级;基于优先级的顺序,依次根据训练作业的需求资源量,选择作业放置的网络结构;网络结构包括服务器、顶端交换机、容器组集合Podset以及主干层交换机;基于选择的网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案。通过本申请,能够以训练过程中网络数据传输量作为优化目标,针对训练作业选择放置的不同网络结构,得到相应的作业放置方案,有效减少网络中数据传输来提高集群中资源利用率,解决了统一的训练作业资源放置导致资源利用率低下的问题。

技术研发人员:李勇,赵来平,毛泽政,程稳,陈光,曾令仿
受保护的技术使用者:之江实验室
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1