一种基于多智能体深度强化学习的边缘联盟资源预留策略

文档序号:37895158发布日期:2024-05-09 21:38阅读:19来源:国知局
本发明涉及边缘联盟领域,具体描述了一种基于多智能体深度强化学习的边缘联盟资源预留策略。
背景技术
::1、随着信息技术的进步,云计算已成为首选的数据存储和处理方式;然而,随着物联网和大数据的快速发展,对低延迟、高可靠性的需求不断增加,推动了边缘计算的兴起;边缘联盟作为边缘计算的一种协作形式,强调跨组织的资源整合和共享,以满足不同场景下的计算需求。这种联盟整合边缘设备、网络资源和服务,实现更高效的计算资源利用,为各参与方带来更多合作机会和经济效益。2、而在边缘计算中整合资源时,必须预留部分资源以减少无限制地共享资源所导致的不必要任务传输,避免增加任务平均计算时延。边缘联盟中的边缘资源提供商独立管理资源,只能基于本地信息预留资源,因此采用分布式资源预留策略更为适用,即联盟中的每一个边缘资源提供商基于各自的负载为本地任务预留计算资源,确保在需要时能够快速响应用户需求,并通过与其他边缘资源提供商的协同工作,优化整个联盟的资源分配。3、近年来,强化学习在资源分配方面取得显著成果,通过智能体与环境的交互学习不断优化决策策略。然而,传统强化学习算法无法有效处理分布式资源预留问题,不适用于边缘联盟环境,因此,引入多智能体深度强化学习算法。多智能体深度强化学习允许边缘资源提供商协作与通信,根据本地负载和信息预留资源,共同优化联盟的资源利用,提高系统性能,满足用户需求。4、本发明的基本思想是,建立边缘联盟任务计算模型,明确资源预留问题的目标,将资源预留问题转化为强化学习问题,使用多智能体深度强化学习算法对资源预留问题进行求解,使所有任务的平均时延最小化。技术实现思路1、本发明旨在构建一个边缘联盟模型,并提出一种基于多智能体深度强化学习的资源预留策略,该策略实现了分布式执行和集中式训练,使每个边缘资源提供商能够获得全局最优的资源预留率。此举不仅保证了边缘资源提供商之间的充分协作,提高了资源利用率,还降低了整个联盟的任务平均计算时延。该资源预留策略包括以下关键步骤:2、s1:建立基于资源预留的边缘联盟任务卸载场景,确定边缘联盟预留资源的目标;3、s2:定义多智能体强化学习动作空间,观测空间和奖励函数;4、s3:构建多智能体深度强化学习网络;5、s4:在边缘联盟环境中训练智能体。6、所述的s1中,构建基于资源预留的边缘联盟任务卸载场景,在边缘联盟中预留资源的目标是在满足约束条件下最小化所有任务的平均计算时延,目标函数如公式(1)所示:7、8、其中表示第i个边缘资源提供商处理的任务数量,m为边缘资源提供商数量,表示第i个边缘资源提供商的第j个任务的计算时延,约束可用公式(2)表示:9、10、其中,n为t时刻第i个边缘资源提供商接收到联盟中的任务数量,表示第i个边缘资源提供商接收到的联盟中第y个任务的计算资源需求,表示t时刻第i个边缘资源提供商的剩余计算资源,表示资源预留率。11、所述的s2中,设定观测空间,第i个智能体在t时刻的局部观察空间为{},其中为第i个边缘资源提供商的本地用户第t个时隙提交的任务计算需求之和;12、设定动作空间,设定第i个智能体动作空间为{};13、设定奖励函数,可用无资源预留的边缘联盟的任务平均计算时延与采取动作后的任务平均计算时延的差值来表示当前时隙的奖励,可由公式(5)计算:14、15、考虑未来奖励,强化学习奖励可由公式(6)计算:16、17、其中表示实际奖励折扣因子,强化学习目标为最大化奖励函数。18、s3中,构建智能体的actor网络,actor网络采用深度神经网络作为函数近似器,利用策略梯度上升的方式来更新网络,策略梯度的计算公式如公式(7)所示:19、<mtable><mtr><mtd><mrow><mi>∇</mi><mi>j</mi><mi>(ω)=</mi><msub><mi>e</mi><mrow><mi>τ~</mi><msub><mi>π</mi><mi>ω</mi></msub></mrow></msub><mi>[</mi><msub><mi>∇</mi><mi>ω</mi></msub><mrow><mi>log</mi><mrow><msub><mi>π</mi><mi>ω</mi></msub><mi>(</mi><msub><mi>a</mi><mi>t</mi></msub><mi>|</mi><msub><mi>s</mi><mi>t</mi></msub><mi>)*</mi></mrow></mrow><mi>q(</mi><msub><mi>s</mi><mi>t</mi></msub><mi>,</mi><msub><mi>a</mi><mi>t</mi></msub><mi>)]#</mi><mn>7</mn></mfenced></mrow></mtd></mtr></mtable>20、其中为动作网络参数,代表轨迹,代表策略。21、构建智能体的critic网络,通过从全局经验中提取少量数据,输入状态和动作,输出动作评估值q(s, a);critic网络根据奖励和q(s, a)计算损失函数,通过最小化损失函数来更新网络参数,损失函数可用公式(8)计算:22、23、其中为q值折扣因子。24、引入目标网络,目标actor网络接收经验中的下一个状态,并输出预测的下一时刻动作,传递给目标critic网络,目标critic网络计算;25、在s4中,每个智能体采集边缘资源提供商的剩余计算资源,用户提交的任务的计算需求之和,两个数据输入到actor网络中,得到每个状态下的资源预留率,智能体根据actor输出的动作与环境交互,将经验()存入经验缓冲池,根据全局经验每隔固定步数更新actor与critic网络参数,最后使用软更新更新两个目标网络,智能体与环境交互过程中动作加入随训练周期衰减的噪音。26、与现有技术相比,本发明具有以下的优点:27、本发明采用多智能体强化学习的分布式执行和集中式训练相结合的方式来解决资源预留问题。这种方法使得每个边缘资源提供商能够在本地执行,并通过集中式训练获取全局最优解。这种方法适用于边缘联盟环境,其中智能体通过与环境不断交互学习,以寻找全局最优的资源预留率,从而优化任务的平均计算时延。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1