一种城市场景下无人机辅助异构边缘计算网络时延优化方法及装置

文档序号:38364655发布日期:2024-06-19 12:18阅读:7来源:国知局
一种城市场景下无人机辅助异构边缘计算网络时延优化方法及装置

本发明涉及移动边缘计算和无人机异构网络领域,尤其涉及一种城市场景下无人机辅助异构边缘计算网络时延优化方法及装置。


背景技术:

1、随着网络技术的快速发展和移动设备的广泛普及,用户对于任务处理的要求变得更加复杂和严苛。然而,由于移动设备受限于电量、计算能力和内存等因素,往往无法完全满足用户的需求。同时,用户对于网络带宽和服务响应延迟的要求也日益提高。面对这些问题,移动边缘计算(mec,mobile edge computing)技术逐渐成为一种有效的解决方案。该技术可以在靠近用户设备或数据源头的一侧提供近端服务,从而实现更快的网络服务响应,并通过联合优化能耗和计算时延实现计算效率最大化。然而,由于边缘设备在计算和通信资源上的固定部署,在面应急场景等高度动态的场景中,mec系统的性能提升仍面临诸多挑战,如搭载平台选择和计算延迟不够理想等问题。

2、无人机作为新兴的空中平台,除了可以提供传统飞行器的巡航、运输等实用功能之外,还可以作为边缘服务器连接到地面基站和蜂窝网络辅助边缘计算,或作为中继提供可靠的通信链路,充分发挥其在通信辅助方面良好的可靠性、安全性和高效性。与传统mec架构相比,引入无人机可以充分发挥空地网络优势,提供干扰更小的视距(los,line ofsight)信道,相比于地对地中继节点传输效果提升明显。

3、对于复杂的城市建筑环境中不断动态变化的信道、无人机自由高度飞行可能导致的建筑碰撞以及无人机同时承担边缘服务器和通信链路中继角色等方面,本发明提出了一种多无人机与多用户和多基站交互的异构网模型,该模型由三类主体部分组成:产生任务计算需求的用户设备、起到补充作用的无人机以及提供主要计算处理能力的边缘基站。目标是在最小化用户计算任务处理和传输延迟的同时优化无人机的轨迹并保障无人机安全。然而,这是一个复杂的连续时间优化问题,涉及离散变量,连续变量和建筑遮挡,传统的凸优化算法和动态规划算法难以解决。因此,我们提出了一种基于多智能体深度强化学习的解决方法。


技术实现思路

1、本发明目的在于针对现有技术的不足,提出一种城市场景下无人机辅助异构边缘计算网络时延优化方法及装置,该方法可以对城市场景下多用户、多无人机和多地面基站的空地复杂异构边缘计算网络建模,并提出了一种基于gumbel-softmax重参数化和线性匹配机制的多智能体确定性深度策略梯度的方法求解最优时延和轨迹。

2、本发明的目的是通过以下技术方案来实现的:第一方面,本发明还提供了一种城市场景下无人机辅助异构边缘计算网络时延优化方法,该方法包括如下步骤:

3、(1)根据现实使用场景,对环境模型中的网络模型、计算模型、通信模型和移动模型进行建模;

4、(2)当训练回合开始对环境进行初始化,包括初始迭代步数step为0,全局时延t为0,初始化用户位置及任务量,初始化无人机位置及能量以及初始化基站位置。

5、(3)每个无人机与用户作为智能体在环境模型中获得他们当前时刻t的观测值;

6、(4)将步骤(3)中的观测值作为状态值输入mec-mautua-pg算法中,输出对应时刻t每个智能体所选择动作,具体为用户智能体选择任务边缘卸载执行的位置以及无人机智能体选择飞行动作;

7、(5)步骤(4)得到的算法每一条的输入输出保存入经验池作为训练算法的数据集,同时返回步骤(3),迭代步数step+1,直至无人机能量耗尽降落;

8、(6)本训练回合结束,计算全局平均时延,提取部分经验池数据对算法进行训练,返回步骤(2)进行下个训练回合。

9、(7)当全局平均时延若干个回合内上下波动不超过设定阈值,则认为算法已经收敛,输出若干回合内最优平均时延与神经网络参数,并停止训练。

10、进一步地,步骤(1)中所述环境模型中的网络模型为一种城市场景下多用户、多无人机和多地面基站的空地复杂异构边缘计算网络模型,用来研究时延优化问题。

11、进一步地,步骤(1)中所述计算模型将计算任务的时延优化问题转化为连续时间的混合整数非线性规划问题。

12、进一步地,步骤(1)中所述通信模型为信道路径损耗模型,是非概率模型,该路径损耗模型对los与nlos的信道分别进行建模,并根据实际情况选取信道;具体如下:

13、用户-基站链路:在用户设备和边缘基站之间存在建筑遮挡的现实场景下,考虑了非视距链路和随机阴影效应,基于log-distance模型,用户n到mec基站m的路径损耗公式如下:

14、

15、pld0=20log10(4πdo/λ)

16、其中,是路径损耗指数,dn,m是从用户n和mec基站m之间的欧几里德距离,do为参考距离,pld0是do处的路径损耗,单位db,χ是阴影效应,它是零均值高斯分布,标准偏差在5和16db之间,λ表示波长;

17、用户-无人机链路:建模用户和无人机之间的路径损耗如下:

18、

19、其中fl是频率,c是光速,dn,l是用户n和无人机l之间的欧几里德距离,μ'取值为μlos或μnlos,μlos表示没有建筑物出现在用户设备与无人机连线上位置时的额外路径损耗,μnlos表示在非视距情况下的额外路径损耗;

20、无人机-基站链路:假设基站部署位置较高,则los的概率等于1;无人机l到mec基站m的路径损耗如下:

21、

22、其中huav表示无人机飞行高度,在10m和300m之间,而dl,m表示无人机l和mec基站m之间的欧几里德距离,fm表示信号传递频率;

23、通过如下公式将路径损耗转换为信道增益:

24、

25、

26、其中表示t时刻子信道上智能体α和智能体β之间路径损耗且单位为watt,表示t时刻子信道上智能体α和智能体β之间路径损耗且单位为db;

27、通过香农公式来计算出传输速率,进而得到:用户n-mec基站m任务卸载所需的时间用户n-无人机l任务卸载所需的时间和无人机l-mec基站m任务卸载所需的时间

28、

29、

30、

31、其中rn,m,t,rn,l,t,rn,l,t分别代表香农公式计算出的用户n-mec基站m的任务传输速率、用户n-无人机l的任务传输速率与无人机l-mec基站m的任务传输速率,dn,t表示用户n在t时刻需要处理的数据量,表示用户集合,表示基站集合,表示无人机集合,表示连续的时隙集合;将卸载策略与对应的卸载计算时间相乘,得到t时刻用户n任务执行任务卸载总时间tn,t:

32、

33、其中,zn,t=1表示用户n决策本地执行,否则为zn,t=0;zn,l,t=1表示用户n决策将任务卸载到无人机l,否则为zn,l,t=0;zn,m,t=1表示用户n决策将任务直接卸载到基站m,否则为zn,m,t=0;zn,m,l,t=1表示用户n决策通过无人机l将任务卸载到基站m,否则为zn,m,l,t=0;则t时刻平均时延tt表示为:

34、

35、进一步地,步骤(3)中,获得他们当前时刻t的观测值过程具体如下:

36、on(t)={dn,t,fn,t}

37、

38、其中,on(t)表示用户n在t时刻的观测值,dn,t表示用户n在t时刻所产生的任务的数据量,fn,t表示执行此任务所需的cpu周期总数,ol(t)表示无人机l在t时刻的观测值,表示无人机l在t时刻的位置,el,t表示无人机l在t时刻的剩余能量。

39、进一步地,步骤(4)中使用的mec-mautua-pg算法是一种基于多智能体确定性深度策略梯度的方法,结合了gumbel-softmax重参数化和线性匹配机制的离散动作连续化机制解决神经网络输出离散连续变量的转换问题以及应对异构多智能体数量上灵活增减问题;具体如下:

40、无人机集群异构网边缘计算系统中的各个用户、无人机均为智能体,彼此之间需要进行协作;除用户与无人机之间的数据交互外,所述协作还包括各无人机在避免坠机与碰撞、降低相互干扰的前提下为实现更好的优化目标而协同规划得到合理飞行轨迹的过程;为了使智能体学习最优的策略网络和值网络参数,在协同决策中能够取得最大的收益,算法的目标是最大化每个智能体的未来奖励加权期望值,即:

41、

42、其中πi是智能体i的策略,ri是智能体i的未来奖励加权,定义为:

43、

44、其中γ是折扣因子,ri,t是智能体i在时刻t的即时奖励;

45、在算法中,使用经验回放和延迟更新技术来训练神经网络;其训练过程分为策略更新和价值更新两个阶段;智能体通过迭代探索与训练过程,从环境中获取新样本存储于经验回放池、从经验回放池中随机获取批量样本训练,使智能体学习到最优的动作输出策略;

46、由于卸载策略zn,m,l,t是离散变量服从categorical分步,假设依据当前卸载策略,神经网络输出每个动作的概率为则在某一特定时隙内,用户可执行的各动作的执行概率加起来为1;首先引入一个服从gumbel(0,1)分布的随机变量gi=-log(-log(ε)),其中ε为均匀分布即εu(0,1);将该gumbel(0,1)分布的随机变量gi作为噪声保证动作探索,与zn,m,l,t概率分布进行结合,再经过softmax函数的处理,得到一个one-hot编码离散变量的连续近似;具体地,假设用户每个动作的概率为则经过上述处理之后得到一组概率为的动作,原本离散的卸载策略动作用one-hot编码离散变量的连续近似形式进行输出;

47、对于用户的卸载策略zn,m,l,t,将其取值按照具体可选卸载策略个数i划分为i个类别,这i个类别中的每一个取值都对应于一种卸载策略;在算法的输出动作与系统环境交互时,环境根据输出动作的取值来判断对应用户ue所选择的对应卸载策略;对于用户来说,由于算法神经网络输出的动作为one-hot编码的连续近似,且该编码的位数为n位,因此直接用编码中最大的数所处的位数除以n,得到一个取值范围为[0,1]的变量,当其取值处于时,则说明用户所选择的卸载策略为i种卸载策略中的第k+1种,包含用户智能体选择任务边缘卸载执行的位置以及无人机智能体选择飞行动作。

48、进一步地,步骤(4)中所述用户智能体选择任务边缘卸载执行的位置,即需要决定卸载策略zn,m,l,t,因此用户动作an(t)表示为:

49、

50、其中,an(t)表示用户n在t时刻选择的动作,表示用户集合,表示基站集合,m表示基站,表示无人机集合,l表示无人机,zn,m,l,t表示t时刻用户n的设备计算任务的卸载策略。

51、进一步地,步骤(4)中所述无人机智能体选择飞行动作,即无人机uav收到用户ue的卸载策略后决定自身执行中继或计算任务,需要根据自身的观测决定飞行方向和飞行速度,因此无人机动作al(t)可以表示为:

52、

53、其中,al(t)表示无人机l在t时刻选择的动作,l表示无人机数量,vl,t,θl,t,为描述无人机l在自由空间中的t时刻飞行动作的三个连续参数,分别为速度、仰角和水平夹角。

54、第二方面,本发明还提供了一种城市场景下无人机辅助异构边缘计算网络时延优化装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种城市场景下无人机辅助异构边缘计算网络时延优化方法。

55、第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种城市场景下无人机辅助异构边缘计算网络时延优化方法。

56、第四方面,本发明还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时,实现所述的一种城市场景下无人机辅助异构边缘计算网络时延优化方法。

57、本发明的有益效果:本发明提出的空地复杂异构边缘计算网络模型能够有效的模拟无人机支持的任务卸载,同时提出的方案能够有效地降低用户任务计算时延,安全高效规划无人机的轨迹,并在性能、收敛速度和资源利用率方面优于传统方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1