本公开涉及算力调度,特别涉及一种任务调度方法和装置。
背景技术:
1、相关技术中,算力平台的调度系统大多基于预先设定的算法规则进行任务调度。并且,相关技术在进行任务调度时,往往假设工作节点的运行时环境是暂时稳定的。例如,假设工作集群中的工作节点在运行时的性能保持不变。另外,相关技术中,算力平台上的工作节点多为异构节点,这为任务的高效调度增加了难度。
技术实现思路
1、本公开提出了一种任务调度方法和装置。
2、根据本公开的第一方面,提出了一种任务调度方法,包括:获取待调度任务的任务信息、以及多个工作节点中每个工作节点的历史性能指标值;根据所述每个工作节点的历史性能指标值,利用与所述每个工作节点的类型对应的性能预测模型,确定所述每个工作节点在将来指定时间段的性能指标预测值,所述将来指定时间段包含所述待调度任务的计划执行时间段;根据每个工作节点在所述将来指定时间段的性能指标预测值、以及所述待调度任务的任务信息,利用调度模型,对所述待调度任务在所述多个工作节点之间进行调度。
3、在一些实施例中,所述利用调度模型,对所述待调度任务在所述多个工作节点之间进行调度包括:根据所述每个工作节点在将来指定时间段的性能指标预测值,判断所述每个工作节点是否存在性能瓶颈;将所述多个工作节点中的不存在性能瓶颈的工作节点,作为调度候选节点;利用调度模型,对所述待调度任务在所述调度候选节点之间进行调度。
4、在一些实施例中,任务调度方法还包括:在对所述待调度任务在所述多个工作节点之间进行调度之后,获取所述多个工作节点在将来指定时间段的性能指标测量值;根据所述多个工作节点在将来指定时间段的性能指标测量值和所述性能指标预测值,确定与所述每个工作节点的类型对应的性能预测模型的预测准确率;在所述预测准确率小于准确率阈值的情况下,对与所述每个工作节点的类型对应的性能预测模型进行调整。
5、在一些实施例中,任务调度方法还包括:基于多个类型中每个类型的工作节点的性能指标样本数据,对第一神经网络模型进行训练,以得到与所述每个类型对应的性能预测模型。
6、在一些实施例中,所述工作节点的类型包括中央处理器、图形处理器、现场可编程门阵列中的至少一种。
7、在一些实施例中,任务调度方法还包括:基于工作节点的性能指标样本数据、以及任务样本数据,对第二神经网络模型进行训练,以得到所述调度模型。
8、在一些实施例中,所述第二神经网络模型为基于多智能体的强化学习模型,所述基于工作节点的性能指标样本数据、以及任务样本数据,对第二神经网络模型进行训练包括:基于工作节点的性能指标样本数据、以及任务样本数据,以联合奖励函数最大为目标,对所述基于多智能体的强化学习模型进行训练。
9、在一些实施例中,所述联合奖励函数包括:根据任务的完成时间确定的奖励项、根据工作节点之间的性能差异确定的奖励项、根据任务完成所需的能耗确定的奖励项、以及根据任务的优先级确定的奖励项。
10、在一些实施例中,任务调度方法还包括:在对所述待调度任务在所述多个工作节点之间进行调度之后,根据所述待调度任务的执行情况确定调度效率指标;在所述调度效率指标小于效率阈值的情况下,对所述调度模型进行调整。
11、根据本公开的第二方面,提出了一种任务调度装置,包括:获取模块,被配置为获取待调度任务的任务信息、以及多个工作节点中每个工作节点的历史性能指标值;确定模块,被配置为根据所述每个工作节点的历史性能指标值,利用与所述每个工作节点的类型对应的性能预测模型,确定所述每个工作节点在将来指定时间段的性能指标预测值,所述将来指定时间段包含所述待调度任务的计划执行时间段;调度模块,被配置为根据每个工作节点在所述将来指定时间段的性能指标预测值、以及所述待调度任务的任务信息,利用调度模型,对所述待调度任务在所述多个工作节点之间进行调度。
12、根据本公开的第三方面,提出一种任务调度装置,包括:存储器;以及,耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如上述的任务调度方法。
13、根据本公开的第四方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如上述的任务调度方法。
14、通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
1.一种任务调度方法,包括:
2.根据权利要求1所述的任务调度方法,其中,所述利用调度模型,对所述待调度任务在所述多个工作节点之间进行调度包括:
3.根据权利要求1所述的任务调度方法,还包括:
4.根据权利要求1所述的任务调度方法,还包括:
5.根据权利要求1所述的任务调度方法,其中,所述工作节点的类型包括中央处理器、图形处理器、现场可编程门阵列中的至少一种。
6.根据权利要求1所述的任务调度方法,还包括:
7.根据权利要求6所述的任务调度方法,其中,所述第二神经网络模型为基于多智能体的强化学习模型,所述基于工作节点的性能指标样本数据、以及任务样本数据,对第二神经网络模型进行训练包括:
8.根据权利要求7所述的任务调度方法,其中,所述联合奖励函数包括:
9.根据权利要求1至8任一所述的任务调度方法,还包括:
10.一种任务调度装置,包括:
11.一种任务调度装置,包括:
12.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至9任一所述的任务调度方法。