一种基于强化学习的存储训练计算协同能耗优化方法

文档序号：40825390发布日期：2025-02-06 17:00阅读：8来源：国知局

本发明涉及云计算，尤其涉及一种基于强化学习的存储训练计算协同能耗优化方法。

背景技术：

1、现有技术中，云计算环境下的能耗优化主要依赖于存储模块、计算模块和训练模块的独立优化手段，通常通过对存储、计算和训练模块分别进行资源分配和能耗管理以减少系统整体的能耗，现有的技术方案中常见的做法是针对存储模块采用数据压缩技术和数据去重来减少存储空间需求，从而降低能耗，在计算模块中通过虚拟化技术和负载均衡来提升计算资源的利用率，以达到节能的效果，而在训练模块会通过优化模型参数、减少冗余计算手段降低能耗。

2、虽然现有技术在一定程度上优化了云计算环境中的能耗，但它们主要集中在单个模块的优化，无法在系统的全局层面上实现协同的能耗管理，在多任务并发执行的复杂计算环境中，不同任务往往具有不同的资源需求和负载情况，单独优化存储模块、计算模块或训练模块的能耗，无法有效应对多任务之间的资源竞争和动态变化，现有的优化策略缺乏全局视角，难以协调多个模块的资源分配，从而导致系统整体的能耗水平难以控制，此外，现有的技术手段大多采用静态的优化策略无法根据任务的实时负载变化自适应调整资源分配，在实际的云计算环境中，特别是负载动态变化较大的场景下极大地限制了能耗优化的效果。

3、现有技术存在的主要缺陷可以归纳为以下几点：首先，现有的能耗优化手段主要集中在单个模块，无法实现存储、计算和训练模块之间的协同优化，系统整体能耗管理不够有效；其次，现有的技术大多采用静态优化方法，缺乏对实时负载变化的自适应调节能力，导致在负载变化环境下，资源分配策略不能及时更新，影响了能效管理的灵活性和准确性；最后，现有技术对于多任务环境下的资源竞争问题处理不足，无法有效协调多个任务的资源需求，导致系统在并发任务多的情况下，能耗优化效果不佳，综上所述，现有技术在全局能耗管理和实时自适应调节方面存在较大的改进空间。

技术实现思路

1、本发明的一个目的在于提出一种基于强化学习的存储训练计算协同能耗优化方法，本发明能够自适应地在负载变化的环境中及时调整存储模块、计算模块和训练模块的资源分配，确保系统在不同负载下均能保持最优的能效配置。

2、根据本发明实施例的一种基于强化学习的存储训练计算协同能耗优化方法，包括如下步骤：

3、s1、初始化云计算环境，设定存储模块、计算模块和训练模块的能耗模型和资源消耗状态，获取系统中的多个并发任务，定义每个任务的资源需求与负载情况；

4、s2、引入无监督学习模型对系统中的任务进行聚类分析，基于任务的资源需求与负载情况自动分类任务类型，生成高计算密集型任务和低存储占用型任务模式；

5、s3、构建层次化强化学习模型，定义高层策略模型为全局能耗管理和资源分配，低层策略模型为各模块存储、计算和训练的具体资源使用优化；

6、s4、针对高计算密集型任务，在高层策略模型执行过程中，优先为计算模块分配更多计算资源，并降低存储模块的能耗预算，动态调整高层任务的能耗管理目标以满足计算资源的高需求并在全局能耗中实现最小化计算能耗；

7、s5、针对低存储占用型任务，通过无监督学习分类识别出的存储需求较低的任务调整高层策略模型为存储模块分配更少的资源，同时在低层策略模型中优先优化计算资源和训练资源的分配；

8、s6、针对不同任务类型，执行高层强化学习策略模型，基于全局能耗目标和无监督学习识别的任务模式，对多个并发任务进行全局资源分配优化，生成不同模块的能耗预算和资源分配策略模型；

9、s7、针对每个并发任务的低层资源分配，通过低层强化学习策略模型，动态调整存储、计算和训练模块的资源使用比例；

10、s8、引入多级能耗反馈机制，实时监控系统全局和存储模块、计算模块和训练模块的能耗信息，将能耗反馈数据传递至高层策略模型与低层策略模型：

11、高层策略模型根据实时的全局能耗数据、任务负载变化和资源使用情况动态调整高层的资源分配策模型，对高计算密集型任务和低存储占用型任务提供差异化的资源和能耗约束条件；

12、低层策略模型通过实时的任务能耗反馈数据，自适应调整存储模块、计算模块和训练模块的资源分配，使不同类型任务在动态负载下的能耗最优配置。

13、可选的，所述s1包括以下步骤：

14、s11、初始化云计算环境，云计算环境系统架构包括存储模块、计算模块和训练模块，设定存储模块的能耗模型为es(t)，计算模块的能耗模型为ec(t)，训练模块的能耗模型为et(t)，其中，t表示任务运行的时间片段；

15、s12、设定存储模块的资源消耗定义为rs(t)，计算模块的资源消耗定义为rc(t)，训练模块的资源消耗定义为rt(t)；

16、s13、系统通过监控多个并发任务的执行情况，获取每个任务ti的资源需求，定义任务ti的资源需求向量为：

17、ri＝[rs,i,rc,i,rt,i]；

18、其中，rs,i为任务ti在存储模块上的资源需求，rc,i为任务ti在计算模块上的资源需求，rt,i为任务ti在训练模块上的资源需求；

19、s14、根据系统的负载情况，定义任务负载向量：

20、li＝[ls,i,lc,i,lt,i]；

21、其中，ls,i表示任务ti对存储模块的负载，lc,i表示任务ti对计算模块的负载，lt,i表示任务ti对训练模块的负载；

22、s15、综合任务资源需求向量和任务负载向量，生成任务的全局资源需求与负载矩阵：

23、

24、其中，ri＝[rs,i,rc,i,rt,i]为第i个任务的资源需求向量，li＝[ls,i,lc,i,lt,i]为第i个任务的负载向量，n为并发任务的总数。

25、可选的，所述s2包括以下步骤：

26、s21、基于任务全局资源需求与负载矩阵引入无监督学习模型u，通过无监督学习模型u利用任务资源需求向量和任务负载向量计算任务之间的相似性矩阵dij：

27、

28、其中，dij表示任务ti和tj之间的距离，αm和αm分别表示任务资源需求和负载的重要性权重系数，rm,max和rm,min表示资源需求向量中的最大值和最小值，lm,max和lm,min表示负载向量中的最大值和最小值；

29、s23、利用任务相似性矩阵dij进行聚类分析，生成不同的任务类别c＝{c1,c2,...,ck}，任务ti的类别标签如下所示：

30、

31、其中，表示任务ti所归属的任务类别ck；|ck|为类别ck中任务的数量，dij表示任务ti与类别ck中任务tj的相似性；

32、s24、对分类后的任务，定义高计算密集型任务的资源需求向量：

33、

34、其中，表示任务ti的计算资源占比，rh和lh分别为高计算密集型任务的资源需求和负载平均向量

35、s25、根据无监督学习模型生成的聚类结果，确定低存储占用型任务的存储资源需求：

36、

37、其中，表示任务ti的存储资源占比，rl和ll分别为低存储占用型任务的资源需求和负载平均向量。

38、可选的，，所述s3包括以下步骤：

39、s31、构建层次化强化学习模型，层次化强化学习模型由高层策略模型ph和低层策略模型pl组成，高层策略模型和低层策略模型分别对应全局能耗管理和各模块的资源使用优化；

40、s32、定义高层策略模型ph的状态空间为系统全局状态sh＝[es,ec,et,rh,lh]，其中，es、ec、et分别为存储模块、计算模块和训练模块的当前能耗，rh和lh分别为高计算密集型任务的资源需求向量和负载向量；动作空间为高层的资源分配策略ah＝[as,ac,at]，as、ac、at分别表示为存储模块、计算模块和训练模块分配的资源比例；高层奖励函数rh基于全局能耗最小化和资源利用效率最大化的目标定义：

41、rh＝-(ws·es+wc·ec+wt·et)+λ·η；

42、其中，ws、wc、wt为存储模块、计算模块和训练模块的能耗权重系数，η表示全局资源利用率，λ为资源利用效率的加权系数；

43、s33、定义低层策略模型pl的状态空间为模块内部状态sl＝[rs,rc,rt,ls,lc,lt]，其中rs、rc、rt分别表示存储模块、计算模块和训练模块的资源需求，ls、lc、lt分别表示存储模块、计算模块和训练模块的负载情况；动作空间为各模块的资源使用调整策略al＝[as,l,ac,l,at,l]，低层奖励函数rl定义为各模块能耗最小化和资源分配优化：

44、rl＝-(αs·es+αc·ec+αt·et)；

45、其中，αs、αc、αt为低层存储模块、计算模块和训练模块的能耗权重系数；

46、s34、高层策略模型ph通过全局能耗反馈调整存储模块、计算模块和训练模块的资源分配策略ah，并为低层策略模型pl提供约束条件，低层策略模型pl在高层策略的约束下，对存储模块、计算模块和训练模块进行资源使用的具体优化调整，动态平衡存储模块、计算模块和训练模块的资源分配和能耗。

47、可选的，所述s4包括以下步骤：

48、s41、在高层策略模型ph的执行过程中，针对高计算密集型任务定义计算模块的资源需求权重γc，存储模块的能耗权重γs，其中γc>γs表示计算资源优先分配策略，使计算模块能够优先获得更多的资源；

49、s42、根据高计算密集型任务的资源需求向量rh和负载向量lh计算当前任务的计算资源需求和负载情况，动态调整高层策略中的资源分配策略ah，使计算模块的资源分配ac增大，存储模块的能耗预算es降低；

50、s43、调整后的高层能耗管理目标通过优化函数fopt表示为：

51、fopt＝min(ws·es+wc·ec+wt·et)；

52、其中，ws、wc、wt分别为存储模块、计算模块和训练模块的能耗权重系数；

53、s44、通过层次化强化学习模型根据当前任务的负载反馈实时调整计算模块的资源使用，使计算模块与任务的高计算需求相匹配，通过高层策略模型的持续反馈和调整，使得高计算密集型任务在全局能耗管理目标下达到计算资源分配的最优状态，同时在全局能耗中实现最小化计算模块的能耗。

54、可选的，所述s5包括以下步骤：

55、s51、针对通过无监督学习分类识别出的低存储占用型任务，定义存储模块的资源需求权重γ′s和计算模块的资源需求权重γ′c，其中γ′s<γ′c表示存储需求较低的任务优先分配更少的存储资源，计算资源优先分配更多；

56、s52、根据低存储占用型任务的资源需求向量rl和负载向量ll计算当前任务的存储资源需求和负载情况，动态调整高层策略模型ph中的资源分配策略a′h＝[a′s,a′c,a′t]，a′s表示存储模块的资源分配减少，a′c表示计算模块的资源分配增加；

57、s53、通过优化函数fopt,l调整高层能耗管理目标，在低存储占用型任务中减少存储模块能耗，优化函数定义为：

58、fopt,l＝min(w′s·e′s+w′c·e′c+w′t·e′t)；

59、其中，w′s、w′c、w′t分别为存储模块、计算模块和训练模块的能耗权重系数，e′s、e′c、e′t分别为调整后的存储模块、计算模块和训练模块的能耗消耗；

60、s54、在低层策略模型pl中优先优化计算资源和训练资源的分配，基于当前任务的负载反馈，动态调整计算和训练模块的资源使用策略a′l＝[a′c,l,a′t,l]，使计算资源和训练资源在低存储占用型任务中获得最佳分配比例。

61、可选的，所述s6包括以下步骤：

62、s61、针对不同类型的任务，基于无监督学习模型识别的任务模式将任务划分为高计算密集型任务和低存储占用型任务，对每类任务分别分配不同的资源权重，定义高计算密集型任务的计算资源权重γc,h和低存储占用型任务的存储资源权重γs,l，其中γc,h>γs,l，表示不同任务类型资源的优先分配策略；

63、s62、执行高层强化学习策略模型ph定义状态空间为系统全局状态sh＝[es,ec,et,rh,lh,rl,ll]，rh和lh分别为高计算密集型任务的资源需求和负载，rl和ll分别为低存储占用型任务的资源需求和负载，动作空间为资源分配策略ah＝[as,ac,at]，用于优化存储模块、计算模块和训练模块的资源分配和能耗预算；

64、s63、根据全局能耗目标etotal，构建能耗优化函数fopt,global：

65、

66、其中，wm表示存储模块、计算模块和训练模块的全局能耗权重em(t)表示存储模块、计算模块和训练模块在时间t上的能耗，表示模块资源需求rm(t)对负载lm(t)的变化率，κm表示资源需求对负载变化的敏感度，为负载lm(t)的二阶导数，表示负载随时间的加速度变化，是指数衰减项，用于处理资源需求和负载之间的关系，引入并发任务i的资源需求rm,i(t)和负载lm,i(t)的交互关系，表示并发任务之间的相互影响，ηi为并发任务对全局能耗优化的影响系数；

67、s64、利用高层强化学习策略模型ph结合无监督学习生成的任务模式，通过对多个并发任务的资源需求和负载情况进行全局评估，动态调整存储模块、计算模块和训练模块的资源使用，生成不同模块的能耗预算和资源分配策略模型；

68、s65、在任务执行过程中，持续监控任务的资源使用和能耗变化，根据全局能耗反馈实时调整高层策略模型ph的资源分配策略。

69、可选的，所述s7包括以下步骤：

70、s71、针对每个并发任务定义低层强化学习策略模型pl的状态空间为存储模块、计算模块和训练模块的资源使用状态sl；

71、s72、根据并发任务的资源需求和负载反馈，动态调整存储模块、计算模块和训练模块的资源分配比例，定义低层动作空间al；

72、s73、通过优化函数fopt,local对存储模块、计算模块和训练模块的资源使用进行动态调整：

73、

74、其中，αm表示存储模块、计算模块训练模块的能耗权重系数，em表示存储模块、计算模块训练模块的实际能耗，βm(t)表示存储模块、计算模块训练模块能耗的时间衰减因子，λm表示负载变化的敏感系数，表示任务执行过程中存储模块、计算模块训练模块负载lm(t)对时间的变化率，为指数函数，用于对资源需求rm(t)和负载lm(t)之间的比率进行调整，γm表示模块对资源利用率的灵敏度，∈是为了防止分母为零的小常数，γm表示资源利用率的控制系数；

75、s74、低层强化学习策略模型pl根据各任务的实时负载反馈，动态调整存储模块、计算模块和训练模块的资源使用比例，根据并发任务的实际执行情况低层强化学习策略模型pl持续优化存储模块、计算模块和训练模块的资源分配策略，使存储模块、计算模块和训练模块的资源利用率达到最优。

76、本发明的有益效果是：

77、(1)本发明通过构建高层和低层的强化学习策略模型，分别针对全局的能耗管理和存储模块、计算模块和训练模块的资源优化进行了层次化的处理，在高层强化学习策略模型中，通过动态调整存储、计算和训练模块的资源分配比例，结合全局的能耗反馈数据实现了存储模块、计算模块和训练模块间的协同优化，相比传统的单一模块优化策略，本发明能够根据系统的实时负载情况自适应调整存储模块、计算模块和训练模块的资源分配从而实现全局能效的最优配置，协同管理方式有效避免了因存储模块、计算模块和训练模块独立优化导致的资源浪费问题，显著提高了系统的整体能效。

78、(2)本发明通过无监督学习模型对任务进行聚类分析，能够自动识别高计算密集型任务和低存储占用型任务，根据任务的不同资源需求动态调整高层策略模型的资源分配策略，优先为高计算密集型任务分配更多的计算资源，并减少低存储占用型任务的存储资源使用，显著提高了资源分配的精确度，避免了资源的过度或不足分配问题，从而在复杂的多任务环境下实现了资源利用率和能耗管理的最大化。

79、(3)本发明通过多层次强化学习模型的动态反馈机制能够实时监控系统的能耗状态，并根据任务的负载变化对存储模块、计算模块和训练模块的资源使用比例进行动态调整，进而能够自适应地在负载变化的环境中及时调整存储模块、计算模块和训练模块的资源分配，确保系统在不同负载下均能保持最优的能效配置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄伟国,张彬,陈晚华
技术所有人：湖南科技学院
我是此专利的发明人

上一篇：一种用于隧道施工通风的伸缩式风仓结构
上一篇：一种旋转移动式窑炉电炉体的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。