一种计算机集群的NPU容错调度系统的制作方法

文档序号：37221805发布日期：2024-03-05 15:19阅读：18来源：国知局

本发明属于深度学习和集群计算领域，尤其涉及一种计算机集群的npu容错调度系统。

背景技术：

1、随着计算需求的不断增长，npu（neural processing unit，神经处理单元）等特定用途的计算设备在计算机集群中的使用日益普遍。npu因其在处理大规模并行计算任务，特别是深度学习任务方面的优越性能，正在被广泛应用于各种计算场景中。

2、然而，与此同时，由于npu设备的复杂性，设备故障也时有发生。例如，过度使用、高温等因素都可能导致npu的性能下降，甚至发生故障。一旦npu设备故障，可能会导致正在运行的计算任务中断，从而对整个系统的稳定性和效率产生严重影响。因此，如何有效地进行计算机集群中npu的容错调度，是当前亟待解决的问题。

3、当前的集群调度系统，例如kubernetes，在管理和调度集群中的计算资源方面主要依赖于预设的规则和策略。对于复杂的npu设备故障问题，这些系统的预测和处理能力是有限的。特别是在大规模的集群环境中，由于npu设备数量众多且设备状态复杂多变，传统的调度策略难以满足高效和稳定的运行需求。

4、现有技术存在的主要问题是：

5、1、有限的预测和处理能力：传统的集群调度系统依赖于预设规则和策略，这限制了它们在处理复杂的npu设备故障时的效率和准确性。

6、2、不适应大规模、动态变化的环境：在大规模集群环境中，npu设备的数量和状态的复杂性使得传统的调度策略难以适应，从而影响了整个系统的效率和稳定性。

7、这些问题表明，需要一种更为高效、灵活且能够适应大规模和复杂环境的npu容错调度系统来提高集群的稳定性和运行效率。

技术实现思路

1、针对现有技术存在的上述问题，本技术实施例的目的是提供一种计算机集群的npu容错调度系统。

2、根据本技术实施例的第一方面，提供一种计算机集群的npu容错调度系统，所述系统包括若干节点组成的多节点集群拓扑，其中一个所述节点为一个具有卡群拓扑的计算机设备，所述卡群拓扑由若干npu卡组成，所述npu卡支持健康度查询和运行状态查询，其中所述健康度为npu卡正常运行的能力，根据处理深度学习任务时的性能参数评估得到，运行状态是指npu卡的实时计算资源使用率、存储资源使用率和温度信息；

3、所述节点分为控制节点和工作节点；

4、所述工作节点上运行有节点状态收集单元，所述节点状态收集单元用于周期性收集npu卡的运行状态和健康度；

5、所述控制节点上运行有任务调度单元，所述任务调度单元用于在npu卡状态异常的条件下，根据所述节点状态收集单元收集的运行状态和健康度信息，结合自身存储的已分配<任务,节点>列表，对任务进行调度。

6、进一步地，所述任务调度单元中的任务分为深度学习推理任务和深度学习训练任务，并针对以下两种类型错误进行容错：在高辐射环境下单事件翻转带来的瞬时错误；由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启的宕机错误。

7、进一步地，对于所述深度学习推理任务在高辐射环境下单事件翻转带来的瞬时错误，所述任务调度单元的容错调度包括如下步骤：

8、对于接收到的一个新的深度学习推理任务，所述任务调度单元在任务队列中进行该深度学习推理任务的拷贝，以确保任务的三模冗余执行；

9、根据所述深度学习推理任务所对应的待部署模型的最小资源要求，筛选当前空闲资源大于等于所述最小资源要求的npu卡并根据当前的工作负载从低到高排序生成备选npu卡列表；

10、若所述备选npu卡列表的长度小于3，则结束容错调度，该深度学习推理任务在所述任务队列中继续等待；反之则基于npu卡的工作负载和npu卡之间的亲和度，使用贪心算法选择 npu 卡组合并将所述待部署模型部署到所述npu卡组合上；

11、若三张选定的 npu 卡分布在不同的工作节点上，则选择其中一个工作节点作为主控节点，如果都在相同的工作节点，则由该工作节点作为主控节点；所述主控节点接收所述深度学习推理任务的输入数据，并将所述输入数据分发到三张 npu 卡上的模型，每张npu 卡完成推理后将各自的结果返回给主控节点，所述主控节点收集三个推理结果，并通过多数投票机制来确定最终的推理结果。

12、进一步地，使用贪心算法选择 npu 卡组合，包括：

13、从所述备选 npu 卡列表中选择工作负载最低的npu卡作为第一个 npu；

14、从所述备选 npu 卡列表中的剩余备选 npu 卡中选择与第一个 npu 亲和度最高的 npu 卡作为第二个 npu；

15、从剩余备选 npu 卡中选择一个 npu 卡，使得其与前两个 npu 卡的平均亲和度最高，作为第三个 npu。

16、进一步地，npu卡之间的亲和度得分基于物理距离得分、数据传输速率得分或网络拓扑得分设置，npu 卡的工作负载状态，c为归一化的实时计算资源使用率，s为归一化的实时存储资源使用率，t为归一化的 npu 温度信息，是对应的权重因子。

17、进一步地，对于三模冗余执行的所述深度学习推理任务在推理过程中由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启产生的宕机错误，任务所在的三块npu其中一块发生故障，所述任务调度单元的容错调度包括：

18、根据所述深度学习推理任务对应的待部署模型的最小资源要求，筛选当前空闲资源大于等于所述最小资源要求的 npu 卡并根据当前的工作负载从低到高排序生成备选npu卡列表；

19、如果所述备选 npu 卡列表长度等于0或者目前冗余的任务副本数小于2，则结束正在运行的副本，该深度学习推理任务继续等待；反之基于npu卡的工作负载和npu卡之间的亲和度，使用贪心算法选择 npu 卡以形成三模冗余执行的npu卡组合；

20、将所述待部署模型部署到所选的npu卡上，并通知主控节点该任务副本部署的访问地址信息。

21、进一步地，对于所述深度学习训练任务在高辐射环境下单事件翻转带来的瞬时错误，所述任务调度单元的容错调度包括如下步骤：

22、s31：根据所述深度学习训练任务对应的待训练模型确定所需npu 卡数量；

23、s32：根据所述待训练模型的最小资源要求，筛选出当前空闲资源大于等于所述最小资源要求的 npu 卡，并根据当前的工作负载从低到高排序生成备选 npu 卡列表；

24、s33：如果所述备选 npu 卡列表长度小于所述所需npu 卡数量，结束并等待下次调度；反之，如果所述备选 npu 卡列表长度大于等于所述所需npu 卡数量，则基于npu卡的工作负载和npu卡之间的亲和度，使用贪心算法选择 npu 卡组合并将所述待训练模型部署到所选择的npu卡组合上；

25、s34：若选定的 npu 卡组合分布在不同的工作节点上，则选择其中一个工作节点作为主控节点，如果都在相同的工作节点，则由该工作节点作为主控节点；所述主控节点分配数据并行化的小批量训练集到所选 npu 卡上，并启动异步训练，其中每个 npu卡处理一个小批量训练集，计算所述小批量训练集的梯度并存储到局部梯度缓冲区中；

26、s35：所述主控节点使用异步方法从所有 npu 卡的局部梯度缓冲区中收集梯度，并进行平均化处理，根据平均化后的梯度值更新模型参数；

27、s36：在完成预定轮次的迭代后，检查模型的性能和收敛性，若不满足要求，则返回步骤s34继续训练；反之，则完成深度学习训练，保存最终的模型参数。

28、进一步地，对于n模冗余执行的所述深度学习训练任务在任务推理过程中由于电路内部微闩锁效应、过热、电源不稳定导致硬件强制关机或者重启产生的宕机错误，任务所在n张npu卡中的一张发生故障，所述任务调度单元的容错调度包括：

29、s41：根据所述深度学习训练任务对应的待部署模型的最小资源要求，筛选出那些当前空闲资源大于等于所述最小资源要求的 npu 卡，并根据负载从低到高排序生成备选npu 卡列表，如果备选列表长度等于1，则跳到s43开始执行；

30、s42：使用贪心算法选择 npu 卡组合：从剩余备选 npu 卡中选择一个 npu 卡，使得其与已有的n-1张 npu 卡的平均亲和度最高；

31、s43：主控节点为所述npu卡组合中的所有npu从外存加载时间最近的检查点数据，并为s42中选择的npu卡分配小批量训练集，所述npu卡组合中的所有npu从所述时间最近的检查点上继续开始训练。

32、根据本技术实施例的第二方面，提供一种电子设备，包括：

33、一个或多个处理器；

34、存储器，用于存储一个或多个程序；

35、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的系统。

36、根据本技术实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述的系统。

37、本技术的实施例提供的技术方案可以包括以下有益效果：

38、由上述实施例可知，本技术通过节点状态收集单元周期性收集npu卡的运行状态和健康度，任务调度单元根据节点状态收集单元收集的运行状态和健康度信息进行任务调度，相比固定规则的调度器，实现了面向复杂动态硬件状态的自适应调度，提高了资源利用效率，同时还具备实时性和自适应性,能够对应大规模集群中的动态复杂变化进行实时调度。本技术全面实现了面向大规模npu集群的智能故障预测与容错,显著提升了系统的可靠性、效率与智能化水平,具有重要的科学价值与应用前景。

39、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤昭荣,唐晓瑜,崔姝瑶,邱吉冰
技术所有人：之江实验室
我是此专利的发明人

上一篇：一种带有送料通道的隧道爆破钻孔设备及钻孔方法与流程
上一篇：预制装配式坡屋面系统及其施工方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。