本发明涉及基于无人机辅助的移动边缘计算辅助卸载方法,属于工业物联网的边缘计算领域。
背景技术:
1、近年来,为了解决偏远地区或稀缺的基础设施无法为智能设备提供服务的问题,远程物联网(iort)应运而生。在iort中,一些服务对智能设备的计算能力提出了很高的要求。如环境监测中的传感器信息融合、智能电网中的高清语音或视频处理、军事演习中大量多媒体数据的感知、应急救援部署中的目标识别等。然而,由于iort设备的计算能力较低,电池寿命有限,以及iort基础设施建设成本较高,处理这些计算密集型任务是一个巨大的挑战。
2、为解决这一问题,本文提出了无人机(uav)辅助边缘计算,可为iort设备提供高效、灵活的计算服务,以支持计算密集型任务[2]。同时,无人机可以部署在靠近iort设备的地方,提供计算资源,以减少设备的能耗和处理延迟,因为无人机可以灵活地以低成本和高概率获得视距(los)通道。目前,无人机辅助边缘计算已被广泛研究,包括系统架构、能量管理、资源分配、无人机轨迹和时延能耗优化。此外,多无人机的优化调度对于iort网络的管理具有重要意义,但仍缺乏足够的重视。无人机作为地面通信网络的补充和延伸,在iort网络中发挥着重要作用。无人机不仅可以为各种iort设备提供灵活的连接,还可以在智能电网、环境监测、应急通信等垂直任务中提供连续可靠的通信服务。面对iort中的计算卸载问题,传统的边缘计算和云计算由于iort设备联网困难难以上传数据且不能直接访问基站而存在一定的局限性。
3、因为存在上述问题,因此iort设备需要除地面通信以外的其他设备辅助计算卸载。由此空地一体化网络是一种非常有潜力的网络体系结构,空地一体化网络主要由两个网段组成,空中网络由无人机构成,地面网络主要是指传统的通信网络。无人机构成空中段具有灵活的机动性,可以和边远地区建立连接。
4、然而,大多数现有工作都只考虑了单个无人机用于计算卸载的场景。由于有限的计算和能量容量,单个无人机只能提供相当有限的任务卸载性能。对于计算密集型场景,多个无人机协作将更适合。对于多无人机协同场景,传统的优化方法或启发式方法由于其算法过慢的收敛性以及较差的即时性,无法处理这种复杂的多变环境。因此,需要对多个无人机辅助边缘计算卸载的场景进行任务卸载、资源分配的联合优化。
技术实现思路
1、针对现有技术的不足,本发明提供了基于无人机辅助的移动边缘计算辅助卸载方法。该方法将深度强化学习cosac算法(collaborative soft actor-critic)引入到基于无人机辅助的移动边缘计算场景下的计算卸载和任务规划问题中,解决了ddpg算法难以适应复杂多变的环境的问题,提高了学习效率。有效减少了移动边缘计算网络中所有终端产生的任务执行延迟和计算能耗,平衡边缘服务器的工作负载,提高计算和通信资源利用率。为达到上述目的,本发明的技术方案是这样实现的:
2、基于无人机辅助的移动边缘计算辅助卸载方法,其步骤如下:
3、s1:建立移动边缘网络模型;
4、s2:根据网络模型建立传输模型、计算模型以及能耗模型;
5、s3:采用cosac算法来联合设计无人机的轨迹、计算任务分配和通信资源管理,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法解决了ddpg算法难以适应复杂多变的环境的问题,提高了学习效率。
6、优选地,所述s1的具体步骤如下:
7、s1建立移动边缘计算网络模型:网络模型中网络分为三个层,分别为终端用户层、边缘层和云层,其中终端用户包括多种终端,每个终端用户(ue)用符号n表示,ue会随机生成计算密集型和延迟敏感型任务;每个ue需要周期性地处理计算密集型任务或延迟敏感型任务jn={dn,cn,λn},其中dn表示任务输入数据大小,cn是处理每个任务所需的cpu周期,λn是任务的到达率。每个ue都可以通过无线网络卸载到uav和云层。考虑到有限的计算能力,ue无法执行本地计算,但ue可以在本地根据任务和系统需求选择任务分配比例和表示将任务卸载到uav上的比例,表示将任务卸载到云服务器上的比例。边缘层包括m个uav,每个uav用符号m表示,计算能力为fm,负责为ue提供边缘计算资源;uav负责收集环境状态信息,通过核心骨干网连接到云层。
8、网络模型分为边缘服务器侧和云服务器侧。对于边缘服务器侧,每个无人机执行卸载决策,以通过调整资源参数(即传输功率、卸载比率、无人机水平飞行速度、无人机垂直飞行速度、无人机的水平转向角)来最小化能耗。边缘服务器侧,边缘服务器将从终端用户接收卸载的任务,优化部分包括任务执行时延、任务传输时延、任务执行能耗、任务传输能耗,以最大化系统效用。
9、将整个时间轴划分为t个长度相同的时隙,t∈t表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
10、优选地,所述s2中建立模型的具体步骤如下:
11、s2.1建立传输模型:定义在时隙t在uav m内产生计算任务的所有ue的集合为对应数量为采用协作式部分卸载,即假设每个任务都可以被分成多个子任务;首先,ue随机产生计算密集型任务或延迟敏感型任务终端jn。然后,ue将所有任务卸载到uav;uav在收到任务卸载后,会根据资源分配情况以及任务类型选择在本地计算或者将任务卸载到cs上;
12、定义时隙t在uav m内的ue n∈n的卸载决策为其中表示任务从ue n卸载到uav m的卸载比率,表示任务从ue n卸载到uav m再卸载到cs c的任务卸载比率,且满足
13、使用pn(t)=[xn(t),yn(t),0]t作为ue的坐标位置,其中xn(t)和yn(t)分别是ue的x和y坐标。用pm(t)=[xm(t),ym(t),zm(t)]t表示uav的坐标位置,其中xm(t)、ym(t)和zm(t)分别是ue的x、y、z坐标。因此uav m和ue n之间的距离可以表示为:
14、dmn(t)=||pn(t)-pm(t)|| (1)
15、为了避免uav之间出现碰撞,设定一个安全距离dsafe,dsafe可以用下式进行表示:
16、
17、θ为uav的转向角,为uav实际飞行方向与x轴的夹角;uav之间需要保持双反的安全距离之和以避免碰撞。
18、由于在时隙t内,uav的水平飞行速度以及垂直飞行速度都受到限制,假设水平飞行速度最大为vxy,垂直飞行速度最大为vz,因此,时隙t内uav的水平飞行距离:
19、
20、时隙t内uav的垂直飞行距离为:
21、dz(t)=tvz≤dz(t)=tvz (4)
22、假设地面ue可以通过正交频分多路接入与其服务uav通信。那么,在每个uav的覆盖范围内,不同ue之间的干扰可以忽略。由于uav的高海拔,los信道比其他信道损伤更占主导地位。uav的高迁移率引起的多普勒频移可以假定在ue处得到完美补偿。那么,ue m和uavn之间的地对空传输通道增益可以用自由空间路径损失模型表示,该模型由
23、
24、式中g0为参考距离为1米时uav m和ue n之间的信道增益的功率增益。
25、在任务卸载过程中,假设上行带宽为bm平均分配给所有ue,则ue n与uav m之间的传输速率为:
26、
27、其中pm是ue n的发射功率,是每个uav m下的加性高斯白噪声功率。mn(t)是在时隙t内,uav m服务的ue数量。
28、考虑到所有任务都通过地对空通道卸载给无人机,ue m到uav n之间的地对空传输时延定义为任务数据量dm除以对应的传输数据速率rmn(t),则对应的传输时延为:
29、
30、uav将任务卸载到云服务器时,uav m和基站云服务器之间的传输速率可以表示为tmc(t):
31、
32、其中bc是cs预先分给uav m的带宽,0≤pc≤pmax表示uav的发射功率,pmax是每个uav的最大发射功率,是uav的加性高斯白噪声功率。对应的总传输时延为:
33、
34、所以,总传输时延为
35、
36、s2.2建立计算模型:采用两种计算模型,即边缘计算模型和云计算模型,其中:
37、s2.2.1边缘计算模型:
38、假设ue不进行计算任务操作,ue n将全部任务卸载到uav m上,在接收到来自ue的全部输入数据后,每个uav决定在本地计算多少任务,并将剩余的任务卸载到云层。uav m处理ue n任务的计算时延为:
39、
40、其中,fmn(t)表示uav m分配给ue n的计算资源。为简单起见,cm为在uav上处理每个任务所需的cpu周期,uav n一个时间间隙只处理一个任务。如果ue m的所有任务都在云层处理,如果ue m的所有任务都在uav n计算。
41、s2.2.2云计算模型:当uav上的计算资源无法满足ue的计算需求时或任务属于非延迟敏感且计算密集型任务时,uav m需要将任务进一步卸载到cs c上执行,以充分利用cs的丰富的计算资源。定义在时隙t内uav m将部分任务卸载到cs c的传输时延为:
42、
43、其中fmc(t)表示cs c分配给ue n的计算资源。
44、由于任务计算结果的数据大小通常非常小,因此忽略了任务计算结果的下载延迟。定义在时隙t内任务的总计算时延为:
45、
46、设定uav节点上的计算可以在向cs节点传输任务的同时进行,那么任务总执行延迟可以表示为:
47、
48、s2.3建立能耗模型:当ue n将任务卸载到uav m上时,ue n的传输能耗为:
49、
50、其中为uav m的接收功率。uav m处理ue n任务的能耗为:
51、
52、其中k≥0为有效开关电容。
53、当uav m将剩余任务卸载到cs c上时,传输的能耗为:
54、
55、其中为uav m的发射功率。设定云计算中心具有无限能量,故云计算能耗忽略不计。因此,当所有ue的计算任务完成后,系统总能耗为:
56、
57、其中,λm表示任务到达率。
58、优选地,所述步骤s3中cosac算法的具体步骤如下:
59、s3.1将uav辅助ue任务卸载和资源分配问题描述为一个带约束的马尔科夫决策过程,优化目标是最大化系统的长期累积折扣奖励,智能体设置为uav;此过程用一个四元组<s,a,r,c>表示;
60、s表示状态空间:在时隙t内,uav负责收集状态st∈s,包括jn={dn,cn,λn}、卸载决策ue的位置信息pn(t)、uav的位置信息pm(t),uav的发射功率pc;
61、a表示动作空间:在接收到系统状态st之后,智能体将选择一个动作at∈a来做出任务卸载和资源分配决策,包括每个ue的卸载决策uav的水平飞行速度vxy、uav的垂直飞行速度vz、uav的水平转向角θ、uav的发射功率px;
62、r表示奖励:在当前状态st下执行动作at之后,智能体会收到一个即使奖励rt(st,at),且
63、rt(st,at)=-un(t)=-(ω1en(t)+ω2tn(t)) (19)
64、即系统总成本越大,奖励值越小,为了实现优化目标,智能体需要获得尽可能大的奖励值,采用协作式深度强化学习架构,以所有无人机的奖励总和来实现最大的期望奖励,最终把奖励定义为:
65、
66、c表示约束条件:智能体在每个时隙t所选择的动作at需要满足如下约束:
67、
68、
69、
70、0≤pc≤pmax
71、xm(t),ym(t),zm(t)≤xsize,ysize,zsize
72、xn(t),yn(t)≤xsize,ysize
73、
74、dz(t)=tvz≤dz(t)=tvz
75、s3.2采用cosac算法来为每个终端用户做出任务卸载和资源分配决策:
76、s3.2.1在算法的初始化阶段:初始化actor网络πμ、actor网络参数μ、critic q1网络qθ1、critic q1网络参数θ1、critic q2网络qθ2、critic q2网络参数θ2、critic v网络qv,critic v网络参数θv。目标critic v网络目标critic v网络参数episode的总数ne、每个episode所包含的时间步数ns、经验重放池的存储容量rs、经验重放周期rp、折扣因子γ、目标网络的平滑系数τ;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
77、s3.2.2:当ne∈{1,2,…,ne}时,执行s3.2.1;当t∈{1,2,…,ns}时,执行s3.2.3。
78、s3.2.3无人机收集当前的系统状态st并输入actor网络πμ中,输出满足约束的所有可能连续动作概率分布πμ(st),然后得到一个动作at~πμ(st)并执行;
79、s3.2.4在执行动作at之后,无人机之间会进行位置信息交换,如果无人机之间的距离小于双方的安全距离之和,则所有无人机都将重置为上一个位置坐标,并以重置后的坐标获得一个即时奖励rt(st,at),转移到下一个状态st+1,然后将经验样本et=(st,at,rt,st+1)存储到经验重放池中;同时,如果无人机的坐标超出场地限制,那么无人机的也会重置为上一个位置坐标,其余操作相同。
80、s3.2.5如果则令t←t+1,并返回s3.2.2;且;如果t%rp==0,则执行s3.2.6;s3.2.6采用经验重放技术来从经验重放池中采样数据et=(st,at,rt,st+1);
81、s3.2.7更新critic v网络。通过最小化贝尔曼误差来更新v值:
82、
83、其中d是先前采样状态和动作的分布。上式的梯度可以表示为:
84、
85、其中的动作是根据当前策略对动作进行预测,而不是从buffer中直接取得的。
86、s3.2.8更新critic q网络。通过最小化贝尔曼误差来更新q值:
87、
88、其中
89、梯度表达方式如下:
90、
91、更新使用了目标值网络其中是值网络权重的移动平均值。
92、s3.2.9更新策略网络。策略函数φ的参数更新为:
93、
94、梯度可以近似为:
95、
96、s3.2.10目标critic v网络进行软更新:
97、
98、在完成cosac算法的训练过程之后,获得了actor网络的最优策略然后将训练好的actor网络部署到无人机上。
99、s3.2.11当t∈{1,2,…,t}时,当终端用户向无人机请求卸载服务时,无人机收集当前的系统状态st,然后将st输入到训练好的actor网络中,然后基于来选择一个最优动作at并执行。执行动作at之后,无人机获得一个即时奖励rt(st,at),并且转移到下一个状态st+1。
100、有益效果:本发明提供了基于无人机辅助的移动边缘计算卸载方法,可有效减少移动边缘计算网络中所有终端产生的任务执行延迟和计算能耗,平衡边缘服务器的工作负载,提高计算和通信资源利用率。