终端直连卫星算力网络任务调度与路由优化方法

文档序号:37283070发布日期:2024-03-12 21:24阅读:34来源:国知局
终端直连卫星算力网络任务调度与路由优化方法

本发明涉及卫星通信,具体为一种终端直连卫星算力网络任务调度与路由优化方法。


背景技术:

1、6g网络有望为海量物联网终端提供无处不在的无线覆盖和高性能计算服务。在没有地面网络覆盖的偏远地区(如森林和海洋),一些计算能力有限的物联网设备本地处理任务面临着严格的时延挑战。而卫星和uav作为具有机载处理能力的边缘服务器,可以在远程物联网中部署以实现计算卸载。具备快速部署和成本效益特性的uav能够实现灵活的无线覆盖和数据传输,而卫星可以实现无缝和全球接入。为此,建设“卫星-uav-地面终端”的天空地一体化边缘计算网络,是解决偏远地区终端任务密集的潜在解决方案。

2、相比于传统的地面网络(光纤、光缆+铁塔、基站),天空地网络具有显著的广覆盖、低延时、低成本等优势。然而,物联网和天空地网络的简单共存并不能充分发挥其潜力,迫切需要解决以下挑战。首先,由于天空地网络的高动态特性,不同的uav轨迹将提供不同的通信质量,从而影响终端卸载决策。因此,联合设计飞行轨迹和任务卸载是一个棘手的混合整数非凸优化问题。其次,由于多维资源的强耦合,系统的整体性能受到多维资源分配的显著影响。现有的研究大多集中在通信或计算资源的优化上,并假设任务处理的计算程序是可用的,但在实践中仍然存在弊端,特别是对于资源受限的边缘服务器。为此,有必要通过在边缘端预先存储程序来进行通信-计算-缓存联合优化。值得注意的是,终端到uav有更好的通信链路,但资源有限,而卫星则相反。因此,如何开发高效的程序缓存方案,促进天空地网络内uav和卫星之间的协作是一个具有挑战性的问题。然后,考虑到存储容量有限,任务卸载到的uav可能没有相应的处理程序,因此应考虑通过多跳uav-uav链路传输任务。然而,路由计划在移动uav网络具有动态拓扑和不稳定连接的特点。此外,由于被卸载的任务需要从源uav转移到缓存所需程序的候选uav上,因此路由计划与任务卸载和程序缓存相耦合,形成了一个复杂的联合优化问题。

3、对此,本发明提出一种终端直连卫星算力网络任务调度与路由优化方法。我们提出一个天空地网络模型,以支持远程物联设备的计算任务卸载,其中卫星和多架uav作为边缘服务器,执行从地面终端卸载的任务。此外,由于每个卸载的任务都应该通过特定的程序进行处理,因此边缘服务器可以提前缓存一些程序,并通过多跳传输将与缓存程序不匹配的任务传输到其它更合适的服务器。然后,建立时延和能耗加权最小化问题,对卸载决策、uav轨迹、程序缓存和路由规划进行联合优化。最后,设计基于maddpg的卸载决策、资源分配和轨迹优化方法,结合路由规划子程序求解系统成本最小化问题。


技术实现思路

1、本发明公开了一种终端直连卫星算力网络任务调度与路由优化方法,面向远程物联网场景,边缘端通过预先存储程序实现通信-计算-缓存的联合优化,然后设计终端直连卫星算力网络任务调度与路由优化方法,所述方法的步骤如下:步骤一、提出一个由卫星、uav和任务密集型终端组成的支持缓存的天空地一体化边缘计算网络模型,其中,带有缓存的uav可以快速高效地部署,为地面用户提供服务,具有更大存储空间和计算能力的卫星能够补充地面网络,提供广泛覆盖。步骤二,描述终端任务卸载问题,考虑视距、非视距概率、路径损失对uav-地、卫星-地链路的信道进行建模,推导终端到卫星、uav的通信速率,根据终端任务类型、uav程序缓存类型设计多跳uav-uav路由传输模型;步骤三、考虑到终端储能受限,提出以终端能耗和时延加权最小化为目标的任务卸载问题;步骤四、设计基于maddpg的卸载决策、资源分配和轨迹优化方法,结合路由规划子程序求解系统成本最小化问题。

2、本发明可有效降低系统成本。具体过程如下:

3、本发明提出的天空地移动边缘计算模型包含一个卫星,个终端以及架uavs。设置uav的飞行时间为t,将其分为个时隙。每个时隙j,用户产生任务sd(j),可以通过d2u和d2s链路卸载至uav或卫星进行处理。设定uav在固定高度hu飞行,uav u在时隙j的坐标为qu(j)=(xu(j),yu(j),hu),用户d在时隙j的坐标为bd(j)=(rd(j),sd(j),0)。因此,第j个时隙,终端设备d到服务器u的距离为

4、

5、注意,u=0表示终端将任务卸载给卫星。然后,对任务卸载模型、终端与uav/卫星之间的通信模型、uav程序缓存模型、路由模型、飞行模型以及计算模型和系统能耗、时延展开介绍。

6、(1)任务卸载模型

7、我们利用二元变量ad,u(j)表示任务卸载决策,其中ad,u(j)=1,u∈{1,2,..,u}表示终端d将任务卸载到uavu上,当u=0时表示卸载给卫星。否则ad,u(j)=0。由于每个终端一次可以选择一个卸载候选者,我们可以得到

8、

9、(2)通信模型

10、在时隙j,从用户d到uavu的los和nlos损耗(db)由下式得出

11、

12、

13、其中,μlos和μnlos分别是los和nlos链路的大规模路径损耗指数。ψσlos和ψσnlos分别是los和nlos链路均值为零的高斯随机变量。lfs(g0)=20log(4πd0fc/c)是参考距离g0处的自由空间路径损耗,fc和c分别是载波频率和光速。

14、los概率可以建模为仰角的逻辑函数,即

15、

16、其中,x和y是环境相关参数,因此,d2u链路的平均路径损耗可以表示为

17、

18、考虑采用正交信道,因此,用户d到uavu的信噪比为

19、

20、其中pd表示终端d的发射功率,σ2表示加性高斯白噪声功率。此外,|kd,u(j)|2表示小尺度衰落增益,其遵循nakagami-m分布来表征广泛的衰落环境。

21、对于终端对卫星通信,终端d与卫星之间的路径损耗为

22、

23、其中h0表示卫星的高度,gd,0(j)表示用户d和卫星之间的水平距离。和分别表示los和nlos路径的附加自由空间损耗。是d2s链路的视距概率,即

24、

25、对于d2s链路,用户d到卫星的d2s链路的snr为:

26、

27、其中,|kd,0(j)|2表示小尺度衰落增益。

28、因此,终端到边缘服务器的信息传输速率为:

29、

30、(3)程序缓存模型

31、在任意时隙j,每个终端d生成一个计算任务dd(j)=(ωd(j),sd(j),ed(j)),其中ωd(j)表示该任务的cpu周期数,sd(j)表示数据大小,ed(j)表示处理该任务所需的程序。具体来说,每个计算任务都需要一个相应的程序来执行,故用表示所有程序的集合,ed(j)=r表示需要程序r来处理任务dd(j)。一般情况下,多个终端可能会要求同一个程序来处理各自生成的任务,uav和卫星上可以提前缓存一些程序,从而显著降低任务处理延迟。考虑到卫星存储空间大,可以认为能够提前缓存所有需要用到的程序。然而,uav由于存储容量有限,需要确定程序缓存策略。我们用二进制变量pu,r(j)表示uavu的程序缓存决策,pu,r(j)=1表示uavu上缓存了程序r,否则pu,r(j)=0。设cr表示程序r的大小,cu表示uavu的存储容量,则有如下约束:

32、

33、(4)路由模型

34、如果一个任务被卸载到一个没有缓存所需程序的uav上,则它应该通过多跳转发给另一个拥有该程序的uav。为此,我们将时隙j的多uav网络建模为节点和链路ε(j)的连接图假设任务dd(j)从终端d卸载到缓存所需的程序ed(j)的uavu,那么所有节点对(d,u)组成一个等待分组路由的集合w(j)。(d,u)对的多跳传输如下所示。

35、首先,uavu根据二元变量选择一个候选uav来执行任务dd(j),其中表示任务由uavl处理,显然,所选择的uav应缓存有所需的程序,即因此,存在约束

36、

37、其次,路由路径需要从uavu分配到选定的候选节点l。定义二进制变量表示任务从uavu到l的转发路径。表示选择链路(i,f)发送任务dd(j),否则由此,链路(i,f)上的任务的传播延迟计算为

38、

39、其中,vi,f(j)表示链路传输速率,可根据uavi和f的实时位置计算。同时,vi,f(j)是均匀分配的,用来转发该链路上的任务。

40、因此,任务dd(j)从uavu到候选uavl的多跳传输延迟为

41、

42、(5)uav飞行模型

43、所有uav以恒定速率v飞行,将飞行方向角设置为θu(j)∈(-π,π)。因此uavu的飞行轨迹坐标可以表示为

44、qu(j+1)=qu(j)+t[vcosθu(j),vsinθu(j)]t

45、(6)计算模型和系统成本

46、假设边缘服务器上的计算资源平均分配给选择它的全部终端,记为fu,d(j),那么计算处理时延为

47、

48、系统延迟包括三部分,分别为从终端向uav/卫星的卸载传输时延、uav之间的任务转移时延以及边缘计算时延,可以表示为

49、

50、终端能耗为卸载传输能耗,表示为

51、

52、因此,时隙j处的平均系统延迟可表示为

53、

54、时隙j处的平均终端能耗可表示为

55、

56、系统成本定义为所有终端的时延与能耗加权之和,目标是通过协同设计用户卸载决策、uav轨迹、缓存策略以及路由规划使得系统成本最小化。优化问题表示如下:

57、p0:

58、c1:ad,u(j)∈{0,1}

59、c2:

60、c3:

61、c4:pu,r(j)∈{0,1}

62、c5:

63、c6:

64、c7:

65、其中,c1-c2表示终端的卸载决策,最多只能卸载给一个边缘服务器。c3是表示任意两个uav的安全距离约束。c4-c5表示uav上程序缓存决策以及缓存容量约束。c6为辅助uav选择约束。c7为多跳分组路由的流守恒约束。

66、利用maddpg对p0进行求解。详细过程如下。

67、maddpg借助经验回放、固定目标网络和奖励规范化技术,设计用于连续控制动作。它使用两个神经网络,即actor和critic网络。作为一种策略梯度方法,maddpg的主要思想是获得一个最优策略,并学习其对应的状态-动作函数,通过调整actor和critic的评价网络和目标网络的参数直到收敛。对actor网络π(s|θπ)进行训练,以获得给定状态s的动作a。本发明为多智能体场景,对于具有d+u个智能体的博弈,设由θ={θ1,…,θd,…,θd+u}参数化的是所有因素的所有确定性策略的集合。每个智能体n期望收益的梯度为

68、

69、其中,qn(s,a1,…,ad…,ad+u)是一个集中的动作-价值函数,其输入为所有智能体的动作,a={a1,…,ad,…,ad+u}以及状态s。将critic网络的输出q(s,a)返回到actor网络,对actor执行的动作进行评价。actor n根据自己的策略执行动作,critic用qn(s,a)函数来评价actor的动作。

70、回放缓冲区d用于去除从环境中生成的样本间的相关性。d是一个容量有限的缓冲区,它存储所有智能体的经验,表示为元组(s,s′,a1,…ad,…,ad+u,r1,…,ru,…,rd+u)。当d满时,最老的样本将被丢弃。在训练过程中,当d未满时,每个智能体随机选择一个动作。当d为满时,所有智能体根据策略执行操作。

71、maddpg使用深度神经网络(dnn)来逼近确定性策略梯度方法中的π(s)和q(s,a)。然而,更新后的网络q(s,a|θq)不能直接用于计算目标值,这会导致更新后的q值发散。因此,maddpg方法使用的是“软”目标更新,而不是直接复制更新q的权值。π′(s)和q′(s,a)计算目标值,分别称为目标critic网络和actor网络。通过缓慢跟踪学习到的网络,来更新网络的权重:

72、θ′=ηθ+(1-η)θ′,η<<1

73、下面介绍了系统状态的表示以及与智能体行为相关的奖惩。

74、考虑非平稳马尔科夫决策模型,该模型是一个元组其中:

75、1.state:表示状态空间,由于智能体之间没有信息交互,本发明设置终端的局部观测为终端位置、计算任务属性以及uav网络拓扑信息即uav的观测空间为

76、2.action:是动作空间,由于卸载和缓存动作是离散的,而uav轨迹是连续动作。为了有效地处理包含混合动作空间的多智能体学习问题,将离散变量转换为概率分布,根据概率分布对实际动作进行抽样。具体来说,每个终端d选择一个uav来卸载任务,对应的动作空间表示为其中表示任务dd(j)卸载给uavu的概率。同样,将程序缓存决策转化为连续概率分布,得到每个uavu的动作空间为

77、3.reward:是在智能体n在状态下选择动作时立即奖励的集合。在本发明提出的多智能体场景中,对于终端d,奖励设置为时延与能耗加权和的负值,即对于uav,奖励包含三个部分:系统成本的负值、超出安全距离惩罚φs、缓存空间惩罚φc,令∈s,∈c为相应的安全距离惩罚因子、缓存空间惩罚因子,则ru(j)=-[λτ(j)+(1-λ)e(j)]-∈sφs-∈cφc。

78、在maddpg中,每个智能体n∈d∪u拥有一个独立的actor网络和critic网络旨在寻找最佳策略πn,使长期累积奖励最大化。actor网络根据局部观察和网络参数输出动作,而critic网络在训练过程中根据所有智能体的观察和动作评估actor网络的动作。每个智能体n计算的均方误差损失函数为:

79、

80、其中,为critic目标值,为折扣因子。u′n和π′n是目标网络,参数为和

81、每个智能体通过策略梯度更新actor网络参数:

82、

83、同时,目标网络权重按照如下方式更新:

84、

85、

86、其中,ρ为更新步长,并且满足ρ<<1。

87、确定终端卸载、程序缓存和uav轨迹之后,需要研究路由决策以转移uav无法处理的任务,优化问题转化如下:

88、

89、s.t.

90、c7:其中,c6为辅助uav选择约束。c7为多跳分组路由的流守恒约束。

91、具体操作流程为:首先按照所需cpu周期对任务进行排序,然后按顺序规划路由。其原理是服务器优先分配资源来执行计算时间较短的任务,从而避免在一些能力较强的服务器上同时处理大量任务。接着设计了以下效用函数,分别用于选择候选uav和链路:

92、

93、

94、其中表示候选uavl执行的任务数,表示链路(i,f)上的任务数。它们随着每个任务路由的确定而逐渐变化。然后使用dijkstra的最短路径方法计算任务传输路径,使路径上的链路的效用总和最小。

95、本发明的技术方法具有以下优点:

96、首先,提出一个天空地网络模型,其中卫星和多架uav作为边缘服务器支持远程物联终端的计算任务卸载。其次,边缘服务器可以提前缓存程序,并通过多跳传输将与缓存程序不匹配的任务传输至其它更合适的服务器,从而节省通信资源和传输时延。然后,考虑到用户储能受限,以及uav存储空间有限的现实困难,提出基于终端卸载决策、uav轨迹、程序缓存和路由规划的系统成本最小化问题。最后,设计基于maddpg的卸载决策、资源分配和轨迹优化方法,结合路由规划子程序求解系统成本最小化问题。本发明可有效降低系统成本。

97、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1