针对AI计算集群的运行频率控制方法、系统及相关设备与流程

文档序号:34065399发布日期:2023-05-06 14:55阅读:78来源:国知局
针对AI计算集群的运行频率控制方法、系统及相关设备与流程

本发明涉及人工智能处理器控制,尤其涉及的是一种针对ai计算集群的运行频率控制方法、系统及相关设备。


背景技术:

1、随着科学技术的发展,尤其是人工智能(ai,artificial intelligence)技术的发展,人工智能计算集群(即ai计算集群)的应用越来越广泛。ai计算集群是指使用了ai处理器(即ai计算芯片)的具有强大ai算力的计算集群系统,能够满足日益增长的ai算力需求。

2、在ai计算集群的使用过程中,需要对其中的ai 处理器进行运行频率的控制。现有技术中,通常以性能优先为目标对ai计算集群进行运行频率控制,即将ai处理器的运行频率设置为设备支持的最高数值,这样可以最高程度释放系统的算力。现有技术的问题在于,以性能优先为目标进行控制时,牺牲了功耗和能效比,不利于降低ai计算集群的功耗和提高ai计算集群的能效比。

3、因此,现有技术还有待改进和发展。


技术实现思路

1、本发明的主要目的在于提供一种针对ai计算集群的运行频率控制方法、系统及相关设备,旨在解决现有技术中以性能优先为目标对ai计算集群进行运行频率控制时不利于降低ai计算集群的功耗和提高ai计算集群的能效比的问题。

2、为了实现上述目的,本发明第一方面提供一种针对ai计算集群的运行频率控制方法,其中,上述针对ai计算集群的运行频率控制方法包括:

3、采集获取ai计算集群中各ai处理器对应的处理器状态数据集合,其中,一个ai处理器对应的处理器状态数据集合中包括该ai处理器在不同运行频率下获得的多组硬件状态数据,一组上述硬件状态数据包括功耗和硬件指标数据;

4、根据各上述ai处理器对应的处理器状态数据集合分别构建各上述ai处理器对应的频率关系模型,其中,一个ai处理器对应的频率关系模型体现该ai处理器的运行频率、性能和功耗之间的关系;

5、根据各上述ai处理器对应的频率关系模型,分别获取各上述ai处理器对应的最优运行频率,其中,一个ai处理器对应的最优运行频率是该ai处理器对应的所有候选运行频率中能效比最高的一个候选运行频率,一个ai处理器对应的候选运行频率包括根据该ai处理器对应的频率关系模型获取的满足预设性能约束条件的运行频率,上述能效比是性能与功耗的比值;

6、根据各上述ai处理器对应的最优运行频率,分别对上述ai计算集群中的各上述ai处理器进行运行频率控制。

7、可选的,上述采集获取ai计算集群中各ai处理器对应的处理器状态数据集合,包括:

8、获取各上述ai处理器对应的采样间隔;

9、根据各上述ai处理器对应的采样间隔分别对各上述ai处理器的运行频率进行多次调整,在每一次调整上述ai处理器的运行频率后采集获取上述ai处理器对应的一组硬件状态数据;

10、根据各上述ai处理器对应的所有硬件状态数据获取各上述ai处理器对应的处理器状态数据集合。

11、可选的,上述采样间隔根据对应的ai处理器的硬件采样延迟确定。

12、可选的,上述ai计算集群中的ai处理器包括图形处理器、嵌入式神经网络处理器和张量处理器中的至少一种。

13、可选的,上述硬件指标数据包括计算单元利用率、内存利用率、内存带宽利用率、内存占用大小、算数单元利用率、指令通道占用比、内存读写带宽、缓存读写带宽和资源冲突占比中的至少一种。

14、可选的,上述频率关系模型包括频率性能子模型和频率功耗子模型。

15、可选的,一个ai处理器对应的频率功耗子模型根据如下步骤构建:

16、根据预设的第一数据拟合方式,对上述ai处理器的功耗以及各上述功耗对应的运行频率进行数据拟合获得上述频率功耗子模型;

17、其中,上述第一数据拟合方式是线性拟合或二次函数拟合。

18、可选的,一个ai处理器对应的频率性能子模型根据如下步骤构建:

19、获取预设的硬件指标性能关系,其中,上述硬件指标性能关系是上述ai处理器的硬件指标数据与性能之间的对应关系,上述性能是上述ai处理器中应用程序在上述ai计算集群中的运行速度;

20、根据预设的第二数据拟合方式,对上述ai处理器的硬件指标数据以及各上述硬件指标数据对应的运行频率进行数据拟合获得频率硬件指标关系,其中,上述频率硬件指标关系是上述ai处理器的运行频率与硬件指标数据之间的对应关系;

21、根据上述硬件指标性能关系和上述频率硬件指标关系获取上述频率性能子模型;

22、其中,上述第二数据拟合方式是线性拟合或分段线性拟合。

23、可选的,一个上述ai处理器对应的最优运行频率根据如下步骤计算:

24、根据上述ai处理器对应的频率关系模型获取上述ai处理器对应的频率能效比关系曲线;

25、获取上述ai处理器对应的预设性能约束条件,其中,上述预设性能约束条件包括上述ai处理器的性能与上述ai处理器的最大性能值相比降低的比例不超过预设性能延缓范围;

26、根据上述频率性能子模型和上述预设性能约束条件获取上述ai处理器对应的候选运行频率;

27、根据上述ai处理器对应的候选运行频率和频率能效比关系曲线,获取上述ai处理器对应的最优运行频率。

28、可选的,上述根据各上述ai处理器对应的最优运行频率,分别对上述ai计算集群中的各上述ai处理器进行运行频率控制,包括:

29、根据各上述ai处理器对应的最优运行频率,分别生成各上述ai处理器对应的频率控制代码;

30、根据各上述ai处理器对应的频率控制代码,控制上述ai计算集群中的各上述ai处理器在当前时段的运行频率为各上述ai处理器对应的最优运行频率。

31、本发明第二方面提供一种针对ai计算集群的运行频率控制系统,其中,上述针对ai计算集群的运行频率控制系统包括:

32、数据采集模块,用于采集获取ai计算集群中各ai处理器对应的处理器状态数据集合,其中,一个ai处理器对应的处理器状态数据集合中包括该ai处理器在不同运行频率下获得的多组硬件状态数据,一组上述硬件状态数据包括功耗和硬件指标数据;

33、模型获取模块,用于根据各上述ai处理器对应的处理器状态数据集合分别构建各上述ai处理器对应的频率关系模型,其中,一个ai处理器对应的频率关系模型体现该ai处理器的运行频率、性能和功耗之间的关系;

34、频率计算模块,用于根据各上述ai处理器对应的频率关系模型,分别获取各上述ai处理器对应的最优运行频率,其中,一个ai处理器对应的最优运行频率是该ai处理器对应的所有候选运行频率中能效比最高的一个候选运行频率,一个ai处理器对应的候选运行频率包括根据该ai处理器对应的频率关系模型获取的满足预设性能约束条件的运行频率,上述能效比是性能与功耗的比值;

35、控制模块,用于根据各上述ai处理器对应的最优运行频率,分别对上述ai计算集群中的各上述ai处理器进行运行频率控制。

36、本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的针对ai计算集群的运行频率控制程序,上述针对ai计算集群的运行频率控制程序被上述处理器执行时实现上述任意一种针对ai计算集群的运行频率控制方法的步骤。

37、本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有针对ai计算集群的运行频率控制程序,上述针对ai计算集群的运行频率控制程序被处理器执行时实现上述任意一种针对ai计算集群的运行频率控制方法的步骤。

38、由上可见,本发明方案中,采集获取ai计算集群中各ai处理器对应的处理器状态数据集合,其中,一个ai处理器对应的处理器状态数据集合中包括该ai处理器在不同运行频率下获得的多组硬件状态数据,一组上述硬件状态数据包括功耗和硬件指标数据;根据各上述ai处理器对应的处理器状态数据集合分别构建各上述ai处理器对应的频率关系模型,其中,一个ai处理器对应的频率关系模型体现该ai处理器的运行频率、性能和功耗之间的关系;根据各上述ai处理器对应的频率关系模型,分别获取各上述ai处理器对应的最优运行频率,其中,一个ai处理器对应的最优运行频率是该ai处理器对应的所有候选运行频率中能效比最高的一个候选运行频率,一个ai处理器对应的候选运行频率包括根据该ai处理器对应的频率关系模型获取的满足预设性能约束条件的运行频率,上述能效比是性能与功耗的比值;根据各上述ai处理器对应的最优运行频率,分别对上述ai计算集群中的各上述ai处理器进行运行频率控制。

39、与现有技术中相比,本发明方案并不直接以性能优先为目标进行运行频率控制,而是综合考虑性能和能效比,在满足性能约束条件前提下,将能效比最高的候选运行频率作为最优运行频率。本发明方案中的最优运行频率是根据ai计算集群的硬件状态数据确定的,符合ai计算集群的实时实际需求。具体的,最优运行频率满足性能约束条件,不会导致性能下降过于严重,同时最优运行频率并不是单纯的设定为性能最高时对应的频率(即并不是设备支持的最高数值),而是根据性能约束条件和能效比确定的频率,有利于降低ai计算集群的功耗和提高ai计算集群的能效比,且不会造成性能的过度降低,能够保证ai计算集群的性能(即程序运行速度),从而保证ai计算集群的服务质量不会过度下降,在提升能耗比的同时兼顾服务质量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1