基于多智能体强化学习的无人机调度方法

文档序号：36001401发布日期：2023-11-16 14:19阅读：61来源：国知局

本发明涉及移动边缘计算、多智能体强化学习、无人机调度领域，具体是一种基于多智能体强化学习的无人机调度方法。

背景技术：

1、随着无人机技术和移动边缘计算技术[1](mobile edge computing，简称mec)的发展，将无人机与移动边缘计算相结合的研究已逐渐成为新的焦点[2,3]。无人机具有快速部署、灵活调度等优点，可以在短时间内为移动物联网设备(mobile user equipments，简称ues)提供高效的计算服务，弥补了传统移动边缘计算需要依赖稳定且固定的基础设施例如微基站或者云数据中心不能灵活地移动或者重新配置的不足。然而，也带来了新的挑战，如何优化无人机的部署和调度，在满足服务需求的同时，尽可能提高无人机效能等问题仍需要进一步的研究和探讨。

2、多无人机系统可以通过无人机间的协同，增加计算和传输能力，但无人机之间的协同工作解决调度问题，需要进行更复杂的优化计算，集中式最优化算法是最常用的解决问题的方式之一[4,5]。然而，任务卸载和轨迹规划优化等问题往往具有高度的非凸性，这使得优化问题的复杂度很高，并且现实场景下全局信息一般又难以实时获取，传统的集中式优化方案并不完全适用。分布式方法可以允许无人机个体根据自身的局部信息做出决策，从而在一定程度上降低了对全局信息的依赖，更好地考虑和保障无人机个体的效益[6,7]。但是分布式方法往往忽视了无人机之间的协作，可能会降低整体的系统性能，并且需要大量的信息交换和计算资源，这在一些资源有限的场景下可能难以实现。并且相关研究缺乏对物联网设备移动性带来的资源需求改变情况的相关研究，导致多无人机协同为大规模移动ues提供计算卸载时系统效用低、能耗高的问题仍没有得到有效解决。

技术实现思路

1、本发明的目的是针对以下两方面问题：1.现有的集中式或分布式方法在实际场景中存在缺陷，需要从无人机个体和全局视角进行最优决策；2.缺乏对物联网设备移动性带来的资源需求改变情况的相关研究，而提出一种基于多智能体强化学习的无人机位置调度方法。这种方法以在多无人机随资源需求调度时确保整体性能的同时优化个体无人机的自主性与效率，提高系统效用和无人机能量效率。

2、实现本发明目的是技术方案是：

3、基于多智能体强化学习的无人机调度方法，包括设有若干架搭载边缘服务器的无人机、物联网设备和一个基站的系统，所述方法包括如下步骤：

4、首先从系统中获取环境信息，环境信息包括物联网设备位置信息、任务发布情况、无人机资源及位置信息；然后判断是否有物联网设备生成新的任务，若有：根据就近任务卸载原则为无人机分配任务并更新无人机资源信息进入无人机调度决策阶段，其中就近任务卸载原则为选择与生成任务的无人机距离最近的无人机进行卸载，若没有：直接进入无人机调度决策阶段；在无人机调度决策阶段，无人机根据获取的环境信息使用maddpg算法做出下一步运动状态决策；然后在下一个时隙中更新环境信息，重新执行基于新的环境信息判断是否有新的任务、为无人机分配任务、进行无人机调度决策，并使用maddpg算法决定无人机的下一步运动状态的步骤；

5、以上过程即将无人机作为多智能体强化学习中的智能体，不断地在现实或模拟环境中进行交互，在时隙t，这些无人机获取环境信息，然后根据独立的策略选择各自在强化学习中根据环境信息做出的动作，当这些动作被相应的无人机执行后，环境信息随之转变到时隙t+1的状态，并以奖励形式反馈，无人机通过对环境信息做出动作后得到奖励形式的过程即状态转化的持续观察和学习，共同努力去了解环境的规律并获得策略的最优解；

6、具体步骤如下：

7、1)为使用多智能体强化学习解决无人机调度的决策问题，需要将该问题建模为马尔科夫决策过程(markov decision process,简称mdp)，该过程用元组＜γ,s,a,r,γ>表示，γ为无人机集，s是所有无人机的状态空间，a为无人机的动作空间，r是无人机的奖励函数，γ为累计折扣奖励的衰减系数；

8、(1)状态空间

9、每个时隙t的状态空间st由k个物联网节点、j架无人机和环境共同决定，定义为：

10、st＝{lm(t),lu(t),r(t),o'(t)} (1)

11、其中，lu(t),r(t)分别代表t时隙的j架无人机的位置及其机载资源信息的集合，lm表示k个物联网节点位置信息集合，o'表示时隙t的所有任务请求信息；

12、(2)动作空间

13、时隙t每架无人机的动作空间a(t)均由无人机的飞行角度θ和飞行速度vu组成，表示为：

14、a(t)＝(θ(t),vu(t)) (2)

15、(3)奖励函数

16、通过设置奖励促进无人机进行策略的学习，旨在快速应对物联网设备对无人机机载资源需求的变化，降低任务执行能耗，并提高系统效用，同时需要满足无人机运动约束条件；

17、(3.1)无人机j在空中飞行产生的能耗及悬停产生的能耗分别为，其中j∈j，j为正整数：

18、

19、其中，pf为飞行功率，为飞行距离，ph为悬停功率，为悬停时间；

20、无人机j接收任务数据产生的通信能耗计算能耗分别为：

21、

22、其中，无人机的接收功率为pr，pc表示无人机在执行任务时的cpu功率，为任务与无人机之间的卸载关系，为0表示没有卸载到该无人机为1表示卸载到该无人机，任务的数据量为pz，为上行数据速率，为无人机cpu计算频率，当所有ues的计算任务完成后，无人机的总能耗为飞行能耗、悬停能耗、计算能耗和通信能耗之和，表示为：

23、

24、(3.2)为了快速响应资源需求的变化，构建了一个任务热点地区模型，该模型根据物联网设备和无人机的位置分布进行网格化分隔，以研究任务需求与无人机资源的关系；令网格总数为v，无人机通信半径为r，通过判断无人机与网格之间的位置关系可计算无人机覆盖个数，覆盖其中一个网格wυ的无人机个数为bυ，网格wυ在时隙t的任务及资源信息表述为wυ＝{aυ,iυ,lυ}，aυ为单位时间网格的任务请求量，通过判断物联网设备与网格之间的位置关系可知物联网设备所属网格，进一步通过物联网设备单位时间的任务请求量可得到单位时间网格的任务请求量；lυ为网格的位置，iυ为单位网格任务资源比，定义为：

25、

26、其中ω,ρ,χ是调节参数，且均为正数，将iυ作为无人机调度的影响因素之一，时隙t中网格任务资源比的平衡情况φhot，用标准差来表示为：

27、

28、(3.3)为了均衡任务卸载增加任务处理量，引入了负载均衡模型，这一模型在提高系统的能耗效率和增加任务处理量方面具有明显的增益，它可以防止无人机过载，并均衡任务卸载，从而使能源得到更高效的利用，令无人机j的待处理任务所需cpu周期数αj作为评估无人机节点的负载均衡情况的参数，将时隙t中无人机j的负载级别定义为lj(t)＝ωαj(t)，ω为折扣因子，时隙t中无人机系统的负载均衡等级ψslb，用标准差来表示为：

29、

30、为确保系统能高效地应对变化的资源需求、提高系统能量效率，构造以无人机总能耗ej、任务完成数据量和系统负载均衡ψslb、任务资源比φhot参数为主要指标的奖励函数，表示为：

31、

32、其中，η1、η2、η3均为折扣因子，rpc(t)＝σ1(t)+σ2(t)为无人机的运动约束惩罚，σ1是无人机在任务执行过程中不满足最小安全距离时得到一个相对较小的负反馈即惩罚，σ2是无人机在任务执行过程中超出运动范围时得到的惩罚；

33、2)步骤1)构建了基于多用户马尔可夫决策过程的模型，根据该模型输出无人机的运动决策，为求解基于多用户马尔可夫决策过程的模型并得到最优的飞行决策，根据设计的奖励机制，采用maddpg算法不断训练无人机做出最优动作；

34、以上不仅建模了无人机的资源负载和系统资源需求的变化，还将基于多用户马尔可夫决策过程的模型中的平衡参数和能耗智能地融入奖励机制中，这种整合方法为无人机的决策网络提供了快速更新到最优参数的路径；

35、马尔可夫决策过程为智能体提供了一个决策框架，使其可以在不同的状态中采取动作，并从环境中获得相应的奖励。当这一决策过程涉及到多个智能体时，智能体们的动作选择会相互影响，使得问题的复杂性显著增加。maddpg算法能够在集中式训练中考虑所有智能体的策略，但在分布式执行中，每个智能体只依赖自己的策略。因此，maddpg算法可以有效地求解涉及多智能体的mdp模型。

36、maddpg算法求解的详细过程如下：

37、1.初始化：为每个智能体初始化两个神经网络：一个actor网络πi和一个critic网络同时初始化对应的target网络，target网络初始权重与actor和critic网络函数相同。

38、2.策略执行：在给定的mdp状态s下，每个智能体使用mdp策略集合π＝{π1,...,πn}选择，动作策略参数为θ＝{θ11,...,θn}。

39、3.环境交互：智能体在环境中执行所选动作，接收环境反馈的下一个状态s'和奖励。

40、4.经验存储：将当前状态、动作、奖励和下一状态(s,a,r,s')存储在经验回放缓冲区中。

41、5.从缓冲区中采样：随机从经验回放缓冲区中抽取一批数据(si,ai,ri,si')进行学习。

42、6.更新critic网络：对于每个智能体，利用其他智能体的策略和它们的目标网络计算预期的q值。然后根据式计算实际的q值和预期的q值之间的误差，并按此误差更新评论家网络。

43、7.更新actor网络：使用q函数网络计算的q值梯度来更新每个智能体的策略网络，期望奖励梯度为其中d为经验池。

44、8.软更新目标网络：以0.01-0.001的速率更新每个无人机的目标网络参数：

45、θ′i←τθi+(1-τ)θ′i；μ′i←τμi+(1-τ)μ′i。

46、9.迭代优化：重复上述步骤2-8，直到达到预定的训练周期。

47、通过maddpg算法求解过程，maddpg算法在多智能体环境中有效地更新策略，寻找到在mdp模型中最优或接近最优的策略，这个策略即为最终的调度结果。

48、基于先前的创新模型与奖励机制，并利用maddpg算法的集中式训练与分布式执行特性，无人机在集中式训练环境中，通过最大化累积奖励函数并确保算法收敛，从而确定其最佳的飞行角度与速度。在实际飞行中，无人机按照分布式执行策略，与环境交互，实时更新其感知信息。受益于任务热点地区模型和负载均衡模型的引导，无人机能够根据任务需求及自身的实时状况，动态且灵活地调整飞行策略。每次输出的动作，都指导无人机朝特定的方向以特定的速度飞行。串联这些连续的飞行指令，便形成了无人机的飞行路径。这一策略巧妙地将复杂的多无人机多任务协同工作简化为高效的飞行策略调整。

49、本技术方案的优点或有益效果：

50、本技术方案提出了一个在多无人机边缘计算网络中的位置调度策略框架。为了快速应对资源需求变化，构建了任务热点地区模型，根据物联网设备和无人机的位置分布进行网格化分隔，更好地理解任务需求与无人机资源之间的关系。此外，为了提高任务处理量，还引入了负载均衡模型，其目的在于防止无人机过载，均衡任务卸载，从而使能源得以更有效地利用。

51、位置调度算法采用了多智能体深度确定性策略梯度方法，同时考虑了无人机能耗、任务完成数据量和系统负载均衡、任务资源比状态。maddpg算法以其集中式训练和分布式执行的特性，能够处理动态、非线性的环境，并在大规模状态和动作空间中进行高效的学习，寻找全局最优或接近全局最优的解，从而最大化系统效用和能量效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晓欢夏雪陈倩
技术所有人：桂林电子科技大学
我是此专利的发明人

上一篇：一种全景立体视觉虚拟现实头盔的制作方法
上一篇：一种用于压铸模具的滑块机构及压铸模具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。