本发明涉及算力资源调度,特别是涉及基于网络性能综合权值决策的算网调度服务方法及系统。
背景技术:
1、本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
2、在当前数字化时代,各行各业对于计算和数据处理的需求不断增长,对算力和存储能力的要求日益提高。随着科学研究、工业生产、社会民生等领域数据量的剧增,大规模数值计算、大数据分析、人工智能数据挖掘等任务的数量也大幅增加。计算场景的多样性对算力、存储和网络资源提出了多样化的需求,对算力能力和数量的需求也日益增长。然而,传统的单一类型算力平台往往难以满足复杂应用需求,迫切需要构建一个算力网络,实现各地算力平台的汇聚和统筹利用。特别是针对大模型训练和科学计算等大规模任务,更需要大数据、强算法、高算力的支持,面对上万亿规模的训练参数,多算力平台的协同计算势在必行。
3、然而,现有的广域资源协同调度方法在面对复杂多变的网络环境和任务需求时存在一些限制。这些方法通常采用静态的策略或简单的规则来进行任务分配,忽略了网络路径的差异性和资源的异构性,因此无法充分适应实际情况。这种简单的任务分配策略可能导致任务被分配到性能较差的网络路径或资源上,从而降低了系统的效率和性能。例如,如果某个算力平台位于网络拓扑的边缘位置或网络瓶颈节点上,那么通过简单规则进行的任务分配可能会导致任务在网络传输过程中遭遇较高的延迟或带宽瓶颈,影响任务的完成时间和质量。
技术实现思路
1、为了解决现有技术的不足,本发明提供了基于网络性能综合权值决策的算网调度服务方法及系统,提高了计算资源利用率和任务调度效率。
2、一方面,提供了基于网络性能综合权值决策的算网调度服务方法;
3、基于网络性能综合权值决策的算网调度服务方法,所述方法包括:
4、算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
5、算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
6、算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
7、算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合;算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。
8、另一方面,提供了基于网络性能综合权值决策的算网调度服务系统;
9、基于网络性能综合权值决策的算网调度服务系统,包括:算网服务平台,所述算网服务平台与用户客户端连接,所述算网服务平台还与若干个数据中心连接,每个数据中心均包括算力平台和存储平台;
10、算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
11、算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
12、算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
13、算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合;算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。
14、上述技术方案中的一个技术方案具有如下优点或有益效果:
15、1.提高任务完成效率:通过综合考虑网络性能指标和任务需求,系统能够动态地将任务分配给性能较好的算力平台和网络路径,避免了任务被分配到性能较差的资源上的情况。这样可以有效减少任务执行时间,提高任务完成效率。
16、2.优化资源利用率:该系统能够全面考虑广域范围内算力资源的异构性和性能差异,合理分配任务到不同的资源上。这样可以充分利用各个算力平台的计算能力、存储能力和网络带宽,提高资源的利用效率,避免资源浪费。
17、3.提供灵活的资源调度策略:基于综合权重决策模型,用户可以设定不同性能指标的权重参数,根据任务需求和优先级,灵活选择调度场景。这使得用户能够根据具体需求实现个性化的资源调度,满足不同场景下的多样化需求。
18、4.增强系统的可扩展性和适应性:该系统构建了算力网络和算力服务平台,将分布在广域范围内的算力资源进行统一管理和协同利用。这样可以提供高度可扩展的系统架构,适应不断增长的计算需求和不同规模的任务执行。
1.基于网络性能综合权值决策的算网调度服务方法,其特征是,包括:
2.如权利要求1所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合,具体包括:
3.如权利要求1所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,所述算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台之前还包括:
4.如权利要求3所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台判断用户客户端是否具有足够的配额,具体包括:
5.如权利要求1所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,包括:
6.如权利要求2所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,其中,不同网络性能指标,包括:存储平台与算力平台之间的网络带宽、网络时延、网络抖动和网络丢包率;
7.如权利要求2所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值、不同网络性能指标的主观权重向量、不同网络性能指标的客观权重向量以及用户客户端的资源需求,构建存算分离场景或数据流转场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,其中,判断进入存算分离场景或数据流转场景的判断依据是:
8.如权利要求2所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,构建存算分离场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,具体包括:
9.如权利要求2所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,所述构建存算数据流转场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,具体包括:
10.基于网络性能综合权值决策的算网调度服务系统,其特征是,包括:算网服务平台,所述算网服务平台与用户客户端连接,所述算网服务平台还与若干个数据中心连接,每个数据中心均包括算力平台和存储平台;