面向分层联邦学习系统的资源优化方法

文档序号:35200630发布日期:2023-08-22 05:12阅读:12来源:国知局
面向分层联邦学习系统的资源优化方法

本发明涉及的是一种无线通信领域的技术,具体是一种面向分层联邦学习系统的资源优化方法。


背景技术:

1、5g将开启万物互联的时代,随着海量传感器、智能终端的大规模接入,必将在网络边缘设备端产生大量的数据。为了在保护数据隐私的前提下,充分利用敏感数据中包含的有用信息,联邦学习应运而生。传统联邦学习系统包括一个中央服务器和大量分散的终端。中央服务器可以放在边缘端或者云端,当将中央服务器放在边缘端,则由于中央服务器覆盖的终端数量有限,无法训练出一个高精度的大型机器学习模型;当将中央服务器放在云端,则频繁的远距离通信将会导致大量的通信时延和带宽开销。

2、为了提升传统联邦学习系统的性能,人们提出了搭建以边缘设备,边缘服务器,云服务器为主要元素的分层联邦学习系统。但分层联邦学习系统在实际部署中仍然面临着许多挑战,如何在系统资源有限的情况下,动态优化分层联邦学习系统中的资源分配,进一步提升分层联邦学习系统的性能是目前研究的一个难点。


技术实现思路

1、本发明针对现有分层联邦学习系统中的有限带宽和电池电量以及现有分层联邦学习系统在一次云聚合中的终端调度和边缘关联关系固定不变,导致现有的资源优化方案都是以一次云聚合为周期的,无法适应动态变化的系统环境的不足,提出一种面向分层联邦学习系统的资源优化方法,在线动态优化每次边缘聚合的终端调度、终端cpu频率、终端发送功率、边缘关联关系以及带宽分配决策,以更好地适应动态变化的系统环境,在相同的训练时间内调度更多的终端,达到一个更高的测试准确率。

2、本发明是通过以下技术方案实现的:

3、本发明涉及一种面向分层联邦学习系统的资源优化方法,包括:

4、步骤1、初始化:云服务器初始化全局机器学习模型ω,指定训练终止条件,并将ω分发到各边缘服务器。

5、步骤2、边缘聚合:云服务器收集系统状态信息,生成优化后的资源分配方案;根据生成的资源分配优化方案,边缘服务器k将所拥有的模型ωk分发给与之相关联的终端终端n基于接收到的模型ωk和本地数据集进行本地更新得到模型ωn,并将本地更新后的模型ωn上传到相关联的边缘服务器k发生边缘模型聚合,得到聚合后的模型ωk,其中:为在第t轮边缘聚合中与第k个边缘服务器相关联的终端集合。所有的边缘服务器都进行边缘模型聚合之后,一次边缘聚合结束。

6、步骤3、云聚合:经过q次边缘聚合后,所有边缘服务器将模型ωk上传到云服务器进行第m次云端模型聚合,获得全局模型当不满足终止条件时,云服务器广播全局模型ω到所有的边缘服务器,开始下一轮的云聚合;当满足终止条件,则终止训练,其中:q是一次云聚合期间边缘聚合的次数。

7、步骤4、为在相同训练时间内调度更多的终端数目,以达到一个更高的测试准确率,构建资源分配方案的优化目标为并基于深度确定性策略梯度(ddpg)和启发式算法联合优化第t轮边缘聚合中的所有决策变量at,其中:l为联邦学习任务的总边缘聚合次数,第t轮边缘聚合的优化目标ot=tt-λdt,tt为边缘聚合时延,λ为预设的终端数目权重系数,dt为被选择参加边缘聚合的终端总数,决策变量代表终端n是否被选中参加边缘聚合,代表终端n的cpu频率,代表终端n的发送功率,代表与边缘服务器k相关联的终端集合,代表边缘服务器k分配给终端n的带宽。

8、所述的联合优化,包括训练阶段和应用阶段:

9、所述的训练阶段包括:将ddpg智能体部署在云服务器后,通过ddpg智能体收集当前边缘聚合时的系统状态信息st,并利用ddpg的actor在线子网络生成决策在给定at的条件下,为最大化ddpg网络在电池电量不耗尽时的收益,利用启发式算法来求解at中剩余的决策变量然后将决策at作用于环境后得到下一个时刻的状态st+1与当前动作的收益rt,并将st,at,rt,st+1放入回放内存中。当内存已满,则开始更新ddpg网络,即从回放内存随机选取小批量的数据对actor在线子网络,actor目标子网络,critic在线子网络,critic目标子网络分别进行更新,直到ddpg网络最终趋于稳定,训练结束。

10、所述的应用阶段包括:将训练好的ddpg智能体部署在云服务器后,通过ddpg智能体收集当前边缘聚合时的系统状态信息st,并利用训练好的ddpg的actor在线子网络生成动作决策at,在给定at的条件下利用启发式算法来求解at中剩余的决策变量之后,将决策at作用于环境得到下一个时刻的状态st+1,该过程不断重复直到联邦学习任务训练结束。

11、本发明涉及一种实现上述方法的系统,包括:多个能量采集终端、多个边缘服务器和一个云服务器,其中:能量采集终端根据资源分配决策、本地数据集以及从关联的边缘服务器下载的模型进行本地更新,并将本地更新后的模型上传到边缘服务器;边缘服务器根据资源分配决策、收集到的终端模型进行边缘模型聚合,并将聚合后的模型下发到相关联的终端或者上传到云服务器;云服务器根据收集到的模型进行云端模型聚合生成全局模型,然后下发给所有边缘服务器,并且根据收集到的系统状态信息,生成资源分配决策。

12、技术效果

13、本发明将ddpg算法与启发式算法相结合,提升ddpg算法的收敛速度。本发明将能量收集技术与分层联邦学习系统相结合,解决终端电池电量有限的问题。本发明在动态变化的系统环境中联合优化每次边缘聚合时的终端调度、终端cpu频率、终端发送功率、边缘关联关系以及带宽分配决策,相较于基准方案可以在相同时间内调度更多的终端数目和达到更高的测试准确率,并且保证终端电池电量不会被耗尽。



技术特征:

1.一种面向分层联邦学习系统的资源优化方法,其特征在于,包括:

2.根据权利要求1所述的面向分层联邦学习系统的资源优化方法,其特征是,所述的联合优化,包括训练阶段和应用阶段:

3.根据权利要求1所述的面向分层联邦学习系统的资源优化方法,其特征是,步骤1中所述的初始化,具体包括:

4.根据权利要求1所述的面向分层联邦学习系统的资源优化方法,其特征是,步骤2中所述的状态空间其中:为终端n在完成本地计算和模型上传后,电池中剩余的电量;由于每次边缘聚合时延是由最慢的终端决定的,所以令代表终端n完成本地计算和模型上传后,在边缘聚合时延的剩余时间内收集到的能量,由于在这段时间中终端n只收集能量而不消耗能量,为第t+1轮开始时刻电池中剩余的电量;代表终端n与边缘服务器k的信道增益;

5.根据权利要求2所述的面向分层联邦学习系统的资源优化方法,其特征是,所述的actor在线子网络包括:6个隐藏层,其中:自第三个隐藏层开始,为结构相同的三个部分,分别用于决定终端调度决策cpu频率和发送功率其输出层采用sigmoid激活函数将动作映射到(0,1)。

6.根据权利要求2所述的面向分层联邦学习系统的资源优化方法,其特征是,所述的启发式算法包括:

7.根据权利要求6所述的面向分层联邦学习系统的资源优化方法,其特征是,所述的终端转移策略是指:与边缘服务器k相关联的终端n,改为与边缘服务器l相关联,并且l≠k;所述的终端交换策略是指:分别与边缘服务器k和边缘服务器l相关联的终端m和n,改为终端m与边缘服务器l相关联,终端n与边缘服务器k相关联。

8.根据权利要求2所述的面向分层联邦学习系统的资源优化方法,其特征是,所述的应用阶段,采用训练后的ddpg网络的actor在线子网络进行动作决策生成,包括以下步骤:

9.一种实现权利要求1~8中任一所述面向分层联邦学习系统的资源优化方法的系统,其特征在于,包括:多个能量采集终端、多个边缘服务器和一个云服务器,其中:能量采集终端根据资源分配决策、本地数据集以及从关联的边缘服务器下载的模型进行本地更新,并将本地更新后的模型上传到边缘服务器;边缘服务器根据资源分配决策、收集到的终端模型进行边缘模型聚合,并将聚合后的模型下发到相关联的终端或者上传到云服务器;云服务器根据收集到的模型进行云端模型聚合生成全局模型,然后下发给所有边缘服务器,并且根据收集到的系统状态信息,生成资源分配决策。


技术总结
一种面向分层联邦学习系统的资源优化方法,包括:初始化、边缘聚合、云聚合以及决策联合优化,本发明在线动态优化每次边缘聚合的终端调度、终端CPU频率、终端发送功率、边缘关联关系以及带宽分配决策,以更好地适应动态变化的系统环境,在相同的训练时间内调度更多的终端,达到一个更高的测试准确率。

技术研发人员:陈小静,李振源,张舜卿,徐树公
受保护的技术使用者:上海大学
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1