一种基于全局规划的异构算力统一调度方法和系统与流程

文档序号：39655328发布日期：2024-10-15 12:56阅读：40来源：国知局

本发明涉及算力管理和智能调度领域，具体涉及一种基于全局规划的异构算力统一调度方法和系统。

背景技术：

1、随着aigc和数字智能的不断发展，计算需求和算力规模日益增加，传统的cpu算力已不能适配和满足大多算力应用场景。此时，各大硬件厂商纷纷推出各种异构算力设备，如gpu、npu、fpga等，以满足不同场景的用户使用。各种异构算力被逐渐用于普通模型和大模型的训练、微调、推理等多样化场景，根据对资源的使用方式不同，又可将算力资源分为资源隔离和资源共享两种使用方式，其中资源隔离包括整卡隔离和部分隔离，资源共享指整卡共享。

2、现有技术中，异构算力设备的管理和调度面临诸多挑战。首先，异构算力设备种类繁多，性能参数各异，导致对其进行统一管理和调度变得极为复杂。其次，多租户环境中，差异化的算力需求需要确保每个租户都能获得所需的算力资源，同时还要保证系统的整体稳定性和资源的高效利用。然而，现有的调度方法往往不能兼顾不同类型算力设备的高效利用，导致资源利用率低下，甚至出现资源浪费的情况。此外，现有技术在处理算力需求的实时变化和资源分配时，缺乏灵活性和智能化手段，容易导致系统性能瓶颈和算力分配不均。

3、这些问题的后果是显而易见的。首先，资源利用率低下和资源浪费直接增加了计算成本，降低了系统的经济效益。其次，算力分配不均和系统性能瓶颈会导致算力应用的运行不稳定，影响用户体验，甚至可能导致关键任务的失败。最后，复杂的管理和高昂的管理成本给运维人员带来了巨大压力，降低了系统的可维护性和可扩展性。

4、因此，亟需提出一种有效的异构算力统一调度方法，以解决现有技术中存在的问题，提高异构算力资源的利用率和生产力，保障各种算力应用的平稳运行。

技术实现思路

1、为克服现有技术的不足，本发明提出一种基于全局规划的异构算力统一调度方法和系统，通过简单定义全局算力规划，即可划分出隔离资源、共享资源和算力池，构建逻辑严密的统一调度过程，加之多维度的异构算力资源监控能力，实现异构算力的统筹有序和合理分配，极大提高异构算力资源的利用率和生产力。

2、为实现上述目的，本发明提供一种基于全局规划的异构算力统一调度方法，包括：

3、步骤1：获取异构算力设备信息，所述设备信息包括设备类型、性能参数和当前状态；

4、步骤2：建立全局算力规划模型，利用优化算法对算力池进行规划，定义设备列表及其调度权重；

5、步骤3：动态监控和识别设备状态，通过机器学习算法对集群节点的硬件进行标签化处理，实现对异构算力资源的实时监控和发现；

6、步骤4：应用状态跟踪和资源调度，实时获取和分析应用请求的资源类型、数量、拓扑结构和设备选择范围；

7、步骤5：优化节点和设备选择，综合考虑节点的资源利用率、网络延迟和能效等因素，筛选出最优计算节点和设备；

8、步骤6：挂载设备文件和驱动目录，将选定设备的文件和驱动目录挂载到应用容器中；

9、步骤7：多维度算力使用监控，采用多维度监控工具实时获取节点、容器、算力设备和应用进程等多个层面的使用情况；

10、步骤8：算力使用合理性评估和异常处理，利用深度学习算法评估异构算力资源的使用合理性，并在出现异常时记录并分析异常数据，发送提示信息，制定修复方案。

11、进一步地，步骤1包括：

12、获取多个集群节点的隔离设备和共享设备信息，所述设备信息包括设备类型、性能参数和当前状态；

13、利用机器学习算法对节点硬件进行标签化处理，以识别不同类型的异构算力设备。

14、步骤2包括：

15、利用优化算法对算力池进行规划；

16、定义设备列表及其调度权重，确保资源的合理分配；

17、基于全局规划模型和实时采集的设备数据，应用资源序列补缺算法，生成详细的资源图谱，包括设备数量、类型和容量等信息。

18、进一步地，步骤3包括：

19、通过机器学习算法对集群节点的硬件进行标签化处理；

20、自动部署和更新设备感知插件，实现对异构算力资源的实时监控和发现；

21、利用状态循环控制机制，实时监控算力应用的部署状态。

22、步骤4包括：

23、获取并分析应用请求的资源类型、数量、拓扑结构和设备选择范围；

24、实时更新调度策略，确保资源需求和分配的精准匹配。

25、进一步地，步骤5包括：

26、基于多维优化策略，综合考虑节点的资源利用率、网络延迟和能效等因素；

27、筛选出最优计算节点和设备，确保设备满足应用的资源和拓扑需求，优化整体系统性能。

28、步骤6包括：

29、将选定设备的文件和驱动目录挂载到应用容器中；

30、确保应用能够高效访问和利用异构算力资源。

31、进一步地，步骤7包括：

32、采用多维度监控工具，实时获取和分析节点、容器、算力设备和应用进程等多个层面的使用情况；

33、动态调整监控策略，提高资源利用效率，防止资源浪费。

34、步骤8包括：

35、利用深度学习算法评估异构算力资源的使用合理性，提供数据支持；

36、在算力资源使用出现异常的情况下，记录并分析异常数据，发送提示信息；

37、采用决策树算法分析异常原因，制定修复方案；

38、实时计算和更新异常处理的移动平均值，确保修复方案的有效性。

39、一种基于全局规划的异构算力统一调度系统，适用于所述的一种基于全局规划的异构算力统一调度方法，包括全局算力规划模块、异构算力智能感知模块、异构算力统一调度模块、设备使用管理模块和异构算力多维监控模块；

40、全局算力规划模块：用于规划整个集群的全局算力，包括默认资源使用方式、默认最大共享次数、节点隔离设备列表、节点共享设备列表、算力池的设备列表、算力池的设备权重，支持规划的创建和更新；

41、异构算力智能感知模块：用于及时感知发现异构算力设备，并将算力资源即时同步给集群管理控制器，能够感知的异构算力设备包括英伟达全系列gpu、华为昇腾系列npu、天数智芯系列gpu等；

42、异构算力统一调度模块：用于发现和调度算力应用，包括根据设备选用范围筛选节点设备、根据算力类型和数量筛选可用节点设备、根据优选策略选出最佳节点设备；

43、设备使用管理模块：用于挂载设备文件和驱动目录到应用容器，为应用提供异构算力资源；

44、异构算力多维监控模块：用于监控节点、容器、算力设备、应用进程等多个层面的异构算力使用情况，分析异构算力使用是否合理，为及时调整全局规划和算力应用提供参考依据。

45、进一步地，所述全局算力规划模块包括：

46、规划默认资源使用方式和默认最大共享次数；

47、创建和更新节点隔离设备列表和节点共享设备列表；

48、定义算力池的设备列表及设备权重；

49、异构算力智能感知模块包括：

50、感知并发现异构算力设备，将算力资源即时同步至集群管理控制器。

51、进一步地，所述异构算力统一调度模块包括：

52、根据设备选用范围筛选节点设备；

53、根据算力类型和数量筛选可用节点设备；

54、根据优选策略选出最佳节点设备。

55、进一步地，所述设备使用管理模块包括：

56、挂载设备文件和驱动目录到应用容器；

57、为应用提供异构算力资源。

58、进一步地，所述异构算力多维监控模块包括：

59、监控节点、容器、算力设备和应用进程等多个层面的异构算力使用情况；

60、分析异构算力使用的合理性；

61、提供调整全局规划和算力应用的参考依据。

62、与现有技术相比，本发明的有益效果是：

63、1、本发明提供了一种基于全局规划的异构算力统一调度方法和系统，采用的全局算力规划模型，完美兼容各种异构算力的资源差异，能够以很小的代价来定义资源类别和资源池，极大降低了异构算力的管理难度和管理成本。

64、2、本发明提供了一种基于全局规划的异构算力统一调度方法和系统，采用的资源序列补缺算法，能够快速把握集群资源全貌，有利于及时调整规划配置和调度策略优化算力分配，进而保证系统的整体稳定性和资源的整体利用率。

65、3、本发明提供了一种基于全局规划的异构算力统一调度方法和系统，采用的应用状态循环控制机制，能够准确获取应用的异构算力需求和约束要求，实时跟踪应用部署状态，确保应用的当前状态与期望状态保持一致，保障算力应用的平稳正常运行。

66、4、本发明提供了一种基于全局规划的异构算力统一调度方法和系统，采用的异构算力统一调度过程，综合考虑指定约束条件、资源负载均衡、动态调整策略、任务特性和节点能力匹配等多种因素，保证异构算力的选用合理性。

67、5、本发明提供了一种基于全局规划的异构算力统一调度方法和系统，采用的算力使用合理性评估方法，通过监控节点、容器、算力设备、应用进程等多个维度的异构算力使用情况，能够准确分析得到异构算力的资源使用率、算力峰谷、算力性能等重要指标，评估算力使用的合理性，为算力资源优化、算力应用调优、设备成本控制提供有力的参考依据。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲍钟峻,王玉木,窦鹏伟,姜志华
技术所有人：浩鲸云计算科技股份有限公司
我是此专利的发明人

上一篇：一种含氟弹性体组合物成型体及其制备方法与流程
上一篇：基于4D毫米波雷达的输电线路外破危险源预警方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。