一种多无人机协作边缘计算网络的任务卸载方法

文档序号:37227190发布日期:2024-03-05 15:32阅读:19来源:国知局
一种多无人机协作边缘计算网络的任务卸载方法

本发明属于无线网络,涉及一种多无人机协作边缘计算网络的任务卸载方法。


背景技术:

1、近年来,无人机通信引起了人们的极大关注。有很多研究都集中在无人机通信与正交接入技术oma(orthogonal multiple access)的结合上。然而,考虑到未来6g网络中连接的指数增长,更有效地利用频谱资源具有重要意义。与传统的oma相比,由于非正交多址noma(non-orthogonal multiple access)允许多个终端设备联合访问指定的资源块,它可以显著提高频谱利用率和系统吞吐量。通常,noma会执行连续干扰消除sic(softinterference cancellation)来恢复接收端的信息。虽然noma可以实现更高的频谱效率,但sic带来的复杂度随着终端数量的增加呈线性增长,导致处理延迟显著增加。因此,集群noma在无人机为空中基站服务以覆盖多个终端的情况下是一种很有前途的方案。具体来说,终端被划分为多个集群,这样集群内的终端使用noma,而集群之间使用oma。这样不仅可以更有效地利用无人机的频谱资源,还可以降低接收端的复杂度,从而很好地实现频谱效率和复杂度之间的折衷。

2、高空平台hap(high altitude platform)作为一种提供超宽覆盖的移动无线通信服务的新平台,引起了人们的广泛关注。hap的高度低于卫星的高度,高于地面无线电基站。因此,它可以覆盖非常宽的区域,具有较小的传播损耗和低延迟。因此,它可以作为一个空中基站为计算压力大的空中无人机提供任务卸载能力,降低网络中任务完成的时间和能耗。

3、随着地面终端设备数量的与日俱增,对网络通信效率的需求也越来越大。目前的单无人机系统已无法满足大指数用户任务请求的环境,多无人机的大面积使用势在必行。在可预见的未来,对数据通信量以及连接用户数量需求将会激增。在通信和计算能力都有限的情况下,如何有效地调度网络资源的使用和计算单元合理的合作以实现整个网络的传输能耗效率最大化,是一个值得研究的问题。

4、鉴于以上考虑,本发明提供了一种多无人机协作边缘计算网络的任务卸载方法。


技术实现思路

1、本发明所要解决的技术问题是提供一种多无人机协作边缘计算网络的任务卸载方法。通过对任务卸载决策、资源分配以及无人机最优位置进行联合优化,目标是最小化能量消耗。

2、发明的技术解决方案如下:

3、一种多无人机协作边缘计算网络的任务卸载方法,首先构建一个包含hap的多无人机辅助的移动边缘计算系统,该系统由φ={1,…,k}个终端设备,ψ={1,…,u}架搭载边缘服务器的无人机,以及1个hap组成。所有的终端设备都配备了单天线,可向无人机传输任务;无人机可以同时接收多个任务且缓存足够大,同时配备了多核cpu,任务计算方式有四种,一种是本地计算,第二种是通过noma传输机制将任务上传到无人机进行计算,第三种是无人机之间进行协作计算,第四种是上传到hap进行计算。每一个终端设备在当前时隙只有1个任务,而且要保证每一个任务在一个时隙内任务能够完成计算。卸载决策变量表示终端设备使用noma机制进行传输时的信道分配决策,表示终端设备k的信道分配决策,λ={1,…,s,…,s}表示通信信道集合,ψ表示无人机集群,其中表示时隙t终端设备k的任务通过信道s卸载到无人机u执行,表示无人机到hap的卸载决策,表示时隙t终端设备k的任务通过无人机u卸载到hap进行计算。

4、本发明提出的一种多无人机协作边缘计算网络的任务卸载方法,具体步骤如下:

5、1、构建一种多无人机协作边缘计算网络的任务卸载方法的问题模型,步骤如下:

6、时隙t终端设备k∈φ的任务表示为一个二元组tk(t)={dk(t),ck(t)},其中dk(t)表示任务数据大小,单位为mbits。ck(t)表示完成任务计算需要的cpu周期数,单位为cycles/bits。

7、使用3d笛卡尔坐标系表示位置,其中高空平台hap位置在中心{x,y,h}无人机的位置为地面终端设备的位置表示为无人机为每个终端设备分配的cpu频率为其中fk,u(t)表示时隙t终端设备k在无人机u上计算时分配到的cpu计算频率,终端设备计算频率fk(t)均为定值,fk(t)表示时隙t终端设备k在本地计算时的计算频率,表示时隙t高空平台hap给通过给终端设备k的任务分配的计算资源。

8、s1-1.构建通信模型

9、时隙t终端设备k∈φ的任务卸载到覆盖该终端设备的无人机u的信道增益如(1)所示

10、

11、其中h0为单位距离的信道增益,h0=-40db,(dk,u)2表示从终端设备k∈φ到无人机u的上行链路距离。

12、终端设备k到覆盖该终端设备的无人机u的传输速率计算,因为终端设备到无人机的数据传输采用noma机制,所以会出现以下两种情况,分别是有noma干扰和没有noma干扰:

13、没有noma干扰三种情况包括:终端设备k∈φ独占一个信道;终端设备k1∈φ的信道增益比与他共用一个信道的终端设备k2∈φ要差;终端设备k1∈φ的信道增益比与他共用一个信道的终端设备k2∈φ要好,但是终端设备k2∈φ本地计算。没有noma干扰时,在时隙t终端设备k∈φ到无人机u的传输速率如(2)所示,

14、

15、其中pk表示终端设备k的发射功率,表示同一个无人机区间的信道之间的干扰,σ2表示加性高斯白噪声功率谱密度。

16、当有两个以上终端设备共用一个信道时,存在noma干扰(多个终端设备共用时计算一个终端设备的速率时只要考虑其他终端设备信道间的noma干扰即可):终端设备k1∈φ,终端设备k2∈φ共用一个信道,且此时终端设备k1的信道增益比终端设备k2大,存在noma干扰,在时隙t终端设备k1到无人机u的传输速率如(3)所示,

17、

18、其中b为该信道的带宽,表示终端设备k1∈φ的发射功率,σ2表示加性高斯白噪声功率谱密度,表示信道间的noma干扰。

19、终端设备用户k2的传输速率如(4)所示,

20、

21、无人机层协作时由无人机u1∈ψ传输到无人机u2∈ψ传输速率如(5)所示,

22、

23、其中σ2表示高斯噪声的功率谱密度,pu表示无人机的发射功率,无人机协作层空中链路采用自由空间路径损耗为:pla2a(du1,u2)=32.45+20logfc+20logdu1,u2,其中fc为载波频率du1,u2为无人机u1∈ψ到u2∈ψ的距离。

24、无人机u到hap的传输速率如(6)所示,

25、

26、其中表示自由空间损失,其中c为光速,fhap是hap的中心频率,kb是玻尔兹曼常数,ts表示系统噪声温度,由于无人机与hap位置较远,其距离du,hap视为垂直距离,即只考虑无人机与hap的高度差。

27、s1-2.时延分析

28、没有noma干扰时,终端设备k∈φ到无人机u的上传时间如(7)所示,

29、

30、存在noma干扰时,若终端设备k1∈φ上传任务完成时间早于终端设备k2∈φ,此时终端设备k1∈φ传输的全程都会受到终端设备k2∈φ的干扰,终端设备k1到无人机u的传输时间如(8)所示,终端设备k1完成传输之后,k2不再有noma干扰,所以终端设备k2到无人机u传输时间如(9)所示,

31、

32、

33、若终端设备k1∈φ完成时间比终端设备k2∈φ晚,此时终端设备k1经历了一段有干扰的时间和一段没有干扰的时间,此时终端设备k1的传输时间为如(10)所示,

34、

35、其中表示终端设备k2卸载完之后终端设备k1还没有卸载完的数据。

36、此时终端设备k2没有noma干扰,所以传输时间如(11)所示,

37、

38、时隙t时,终端设备k∈φ的任务在本地执行的时间如(12)所示,

39、

40、fk表示终端设备k的cpu频率,当(*)<0时,(*)+=0。

41、时隙t时,无人机u∈ψ计算终端设备k∈φ的任务时间如(13)所示,

42、

43、时隙t时,终端设备k∈φ的任务由无人机u1∈ψ到u2∈ψ传输时间如(14)所示,

44、

45、时隙t时,终端设备k∈φ的任务由无人机u∈ψ到hap传输时间如(15)所示,

46、

47、时隙t时,hap计算终端设备k∈φ的任务的时间如(16)所示,

48、

49、时隙t时,终端设备k∈φ的任务完成需要的总时间如(17)所示,

50、

51、s1-3.能耗分析

52、终端设备k∈φ的任务本地执行的能耗如(18)所示,

53、

54、γk为终端设备k的有效电容系数,dk(t)为时隙t时终端设备k的数据量大小,。

55、不存在noma干扰时终端设备k∈φ的任务的传输能耗如(19)所示,

56、

57、其中pk表示终端设备k的发射功率。

58、存在noma干扰时,若终端设备k1∈φ上传任务完成时间早于终端设备k2∈φ,此时终端设备k1∈φ传输的全程都会受到终端设备k2∈φ的干扰:

59、此时终端设备k1∈φ的任务的传输能耗如(20)所示,

60、

61、与此同时终端设备k2∈φ的传输能耗如(21)所示,

62、

63、若终端设备k1∈φ完成时间比终端设备k2∈φ晚,此时终端设备k1经历了一段有干扰的时间和一段没有干扰的时间:

64、此时终端设备k1∈φ的传输能耗如(22)所示,

65、

66、与此同时终端设备k2∈φ的传输能耗如(23)所示,

67、

68、时隙t时无人机u∈ψ计算终端设备k∈φ任务的能耗如(24)所示,

69、

70、γu为无人机u的有效的电容系数。

71、时隙t时无人机协作时的总传输能耗如(25)所示,

72、

73、时隙t时无人机协作时的总计算能耗如(26)所示,

74、

75、无人机u在时隙t时的终端设备本地计算能耗加上到无人机的传输能耗之和如(27)所示,

76、

77、其中η1表示传输能耗系数,η2表示计算能耗系数。

78、无人机u在时隙t时的无人机计算以及协作消耗的能耗之和如(28)所示,

79、

80、hap层计算消耗的总能之和耗如(29)所示,

81、

82、s1-4.问题描述

83、对任务卸载决策、任务调度、资源分配以及无人机最优位置进行联合优化,目标是最小化所有地面终端设备和无人机的总能耗,问题描述如下:

84、

85、

86、

87、

88、

89、

90、

91、

92、式(30a)是目标函数,其中表示优化变量。

93、式(30b)表示任务卸载到无人机计算的决策只能取0或1,其中0表示本地计算,1表示卸载到无人机计算。

94、式(30c)表示任务卸载到hap计算的决策只能取0或1,其中0表示不卸载到hap,1表示卸载到hap计算。

95、式(30d)表示每条信道最多连接两个终端设备。

96、式(30e)表示无人机分配给每个终端设备任务的计算频率不能必须大于等于0,终端设备本地计算时为0。

97、式(30f)表示每个终端设备任务分配到的计算频率不能大于无人机的最大计算能力。

98、式(30g)表示终端设备任务的计算时间和传输时间之和不能大于任务最大容忍时间。

99、式(30h)表示无人机在采取协作时计算任务不能双向卸载,其中aci,j=1表示协作矩阵中编号为i的无人机向编号为j的无人机卸载。

100、对求问题p1进行分解成为两个子问题:第一个子问题表述为:在给定无人机的noma信道分配决策,无人机协作决策,hap的卸载决策以及hap的cpu计算频率分配的情况下,求解无人机的cpu计算频率分配和无人机最佳位置分配,第二个子问题表述为:在给定无人机cpu计算频率分配和无人机最佳位置的情况下,求解noma信道分配决策,无人机协作决策,hap的卸载决策以及hap的cpu计算频率分配。

101、2、求解无人机的cpu计算频率分配和无人机的最佳位置分配,其步骤如下:

102、构造给定无人机的noma信道分配决策,无人机协作决策,hap的卸载决策以及hap的cpu计算频率分配的情况下,优化无人机的cpu计算频率分配和无人机最佳位置分配,用深度学习k-means算法和凸优化进行求解。问题模型可表示为p2:

103、

104、s.t.(30e),(30f)     (31b)

105、其中(31a)为目标函数,(31b)为约束条件,是优化变量,其中fk(t)表示noma信道计算频率分配,表示无人机最佳位置。

106、s2-1.求解无人机最优位置:

107、i)根据所有终端设备的初始位置生成初始样本即包含三位向量的数组,其中z表示用户个数,选取u个聚类点作为无人机位置。

108、ii)算法随机选取u个位置作为初始无人机位置

109、iii)对于每一个样本都将其放入离它最近的聚类中心,即:

110、

111、iv)重新计算聚类中心:

112、

113、v)其计算期间损失函数(簇内误差平方和)可表示为:

114、

115、其中rku∈{0,1},表示是否属于聚类u,由于sse是一个非凸的函数,所以只能确保局部最优解,重复迭代以上计算直到聚类中心位置不再改变。所以可以加入整个迭代来优化结果最后通过优化得到无人机的最优位置。

116、s2-2.求解无人机的cpu计算频率分配:

117、i)因为约束(30e),(30f)都是凸的,所以对(31a)进行求二阶导得出的结果是非负的,即:

118、

119、ii)又因为(31a)所表示的海森矩阵是全正的对角矩阵,所以他是正定的,因此优化fk(t)的子问题是一个凸问题,所以设它的拉格朗日对偶函数为:

120、

121、其中λ和为拉格朗日乘子且他们均大于等于0,dk(t)为处理任务tk(t)单位数据量,ck(t)为处理任务tk(t)单位bit数据所需cpu周期。

122、iii)再对拉格朗日函数进行求导可得:

123、

124、iv)根据kkt条件可以求得最优解:

125、

126、

127、

128、根据以上求解将λmin,带入原式再结合已给定的无人机noma信道分配决策,无人机协作决策,hap的卸载决策以及hap的cpu计算频率分配求得目标值e。

129、3、求解无人机的noma信道分配决策,无人机之间的协作决策,hap的卸载决策以及hap的cpu计算频率分配,其步骤如下:

130、s3.1.构造在给定无人机cpu计算频率分配和无人机最佳位置的情况下,优化noma信道分配决策,无人机协作决策,hap的卸载决策以及hap的cpu计算频率分配,采用ddpg算法进行求解。问题模型可表示为p3:

131、

132、s.t.(30a),(30b),(30c),(30d),(30g),(30h) (34b)其中其中(34a)为目标函数,是优化变量,分别代表noma信道分配决策,无人机到hap的卸载决策,无人机协作决策,hap对无人机的计算频率分配。

133、s3-2.对于p3问题的求解,采用深度强化学习ddpg算法,对于强化学习算法,第一步是确定需要进行计算的三要素:状态,动作,以及奖励:

134、系统状态s:用sk表示第k轮的系统状态,表示环境的状态空间,

135、系统动作a:用ak表示第k轮的系统动作,更新的系统动作中的第k个动作。

136、r表示系统单步奖励,表示为:

137、

138、每一次的单步奖励都是有这一次的系统动作加上系统状态带入rk(sk,ak)得到。

139、算法结构actor包含两个神经网络,一个是输入当前状态sk,输出训练策略μ的actor网络,输出的μ将和critic网络输出的q一起用来更新actor神经网络的参数网络,其中θμ表示为actor网络的参数,actor网络的更新表达式为:

140、

141、其中表示critic网络对动作的梯度,表示actor网络的梯度。使用actor-target网络,输入下一个状态sk+1,以此输出下一次预测的策略μ′。

142、算法结构critic包含两个神经网络,所用的误差取值为td-error(采用动作后的即时回报+采取动作后的状态值函数-当前时刻的状态值函数,即rk(sk,ak)+sk+1-sk),用γ表示q的期望,其中θq表示critic网络的参数,td-error式子表示为:

143、δθ=rk+γvθ(sk+1)-vθ(sk)  (37)

144、包含输出动作价值函数qμ的critic网络,其中的qμ值用贝尔曼等式表示为:

145、qμ(sk,ak)=e[rk(sk,ak)+γqμ(sk+1,μ(sk+1))]    (38)

146、critic网络的更新表达式为:

147、

148、其中n表示采样的数据量,表示critic网络的梯度。

149、critic-target网络,其输出的qμ’用于计算目标值,其中目标值yk的计算式为:

150、

151、s3-3.求解第二个子问题的算法流程:

152、初始化:随机初始化带参数θμ和θq的网络q(s,a|θq)和μ(s|θμ)同时更新对应的target函数q,(s,a|θq’)和μ’(s|θμ’),初始化episode=1,每轮训练步数t=1。设置训练最大轮数为episodemax=500。

153、数据采样:因为本文放入ddpg算法的动作存在多个,所以将多个变量作为一组数组来一轮输出,用ak表示第k轮的系统动作,更新的系统动作中的第k个动作。

154、在当前策略下,根据当前的状态sk以及actor网络预测的输出值(策略)μ,执行动作μ,将当前的状态、动作、奖励、下一状态和flag放入经验回放缓存器中,其中flag为计数,若flag大于episodemax=500则训练终止。

155、更新网络:从经验回放缓存器中随机采样一批数据,用于更新critic,actor,critic-target,actor-target四个子网络,使用critic网络计算下一状态的qμ(sk+1,ak+1)值,和当前状态的qμ(sk,ak)值。并计算td-error,用td-error更新critic网络的参数θq,再使用critic网络的梯度更新actor网络,使用软更新法更新critic-target,actor-target的参数θq’和θμ’。

156、循环:将状态更新到下一个状态在重复以上三个步骤,若达到终止条件,则跳出循环。最后返回学习到的critic和actor的网络参数,以及训练得出的优化变量,为了追求训练效果,在action的决策机制中引入随机噪声,由此将action决策变为一个随机过程,再从该过程中采样得到发放给环境的action,以此来得到用于训练的数据集,用来训练策略μ。

157、s3-4.将以上求解的noma信道分配决策,无人机协作决策,hap的卸载决策,hap的cpu计算频率分配以及无人机cpu计算频率分配和无人机最佳位置带入目标式(30a)中求解得到目标值e′。

158、4、计算目标值e和e′的差值,如果差值小于阈值ε,即|e-e′|<ε,则循环迭代结束,否则跳转至步骤2。

159、有益效果

160、发明设计了一种多无人机协作边缘计算网络的任务卸载方法。有效求得能源消耗的最优值,从而降低hap,无人机以及地面终端设备的能耗。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1