1.本发明属于无人机通信领域,具体涉及一种基于信息年龄的无人机轨迹自适应优化方法。
背景技术:2.随着6g技术的发展与部署,越来越多的新兴物联网应用出现在人们的日常生活中,如智能家居、智慧交通、智慧健康等。在面向实时应用的物联网系统中,设备需要实时感知周围物理环境并监测系统状态,从而为智能决策和控制提供及时、有效的信息。这些信息可能是车辆瞬时加速度和位置,也可能是环境温度、土壤湿度、网络控制或决策系统的状态。对于此类时间敏感信息,若接收终端获取的是过时信息,将会导致无效决策和错误控制。在这些场景及应用中,信息新鲜度对系统极其重要。信息年龄(age of information,aoi)的概念,来衡量无线传感网络中数据的新鲜度。特别地,信息年龄指的是接收端最新接收到的数据包从源设备产生以来所经过的时间。
3.为了满足未来无所不在的全覆盖网络需求,除了地面通信网络以外,6g网络还需要基于卫星和无人飞行器来满足覆盖和容量需求,从而形成空天地一体网络。由于无人机具有很好的灵活性和机动性,在源节点离目标节点较远的情况下,无人机可以作为中继节点从传感器节点收集数据,从而大幅度减小了数据的陈旧程度。因此,研究无人机网络中的aoi具有重要意义。在无线通信领域,之前多数的工作都致力于研究数据收集、物联网设备的aoi和蜂窝网络的改进。然而,在大规模陆地能源贫瘠的设备组成网络的场景,大部分都是基于一个集成的无人机系统(即使用单个无人机)。这样的网络往往会导致如过期信息的收集,能量收集的效率,以及无人机的能量限制等问题。无人机采集到信息再回传给控制中心需要很长的时间,并且无人机能量有限,续航能力差,很有可能因为电量不足而中断正在进行的任务,停止接收或更新传感器节点的数据。
技术实现要素:4.为解决以上现有技术存在的问题,本发明提出了一种基于信息年龄的无人机轨迹自适应优化方法,包括:
5.s1:构建无人机对地通信系统模型,采用无人机对地通信系统模型确定无人机轨迹;根据无人机轨迹确定aoi优化目标函数;
6.s2:获取当前环境状态信息,根据当前环境状态信息采用深度强化学习算法对优化目标函数求解最优解,根据最优解确定无人机当前的飞行状态;
7.s3:无人机在当前飞行状态下获取地面节点产生的数据包,若所有节点的数据收集完毕,则无人机飞行结束,否则返回步骤s2。
8.优选的,构建无人机对地通信系统模型包括:获取无人机飞行环境信息,采用栅格法将采集的环境信息划分为一系列大小相同的单元格,将部分单元格划分为禁飞区;获取地面传感器节点的位置信息,根据无人机飞行环境和地面传感器节点的位置信息构建无人
机对地通信系统模型。
9.优选的,确定aoi的优化目标函数的过程包括:将无人机执行任务的时间离散为多个等长的时间间隔;确定无人机的飞行高度和飞行速度;根据无人机的飞行高度、飞行速度以及任务时间构建无人机速度约束条件;无人机采集地面信息,当无人机采集到地面节点存储的最新数据时,则对该地面节点的aoi信息进行更新,否则该地面节点的aoi信息进行线性增长;如果地面节点的缓冲区内并没有存储数据或已经被采集完毕,则aoi设为1;将无人机n与地面节点m完成采集的时间记为ts,根据时间ts对无人机的飞行轨迹和连接策略进行规划。
10.进一步的,优化目标函数为:
11.(p1):min
q,k
∑
m∈mam
(ts)
12.s.t.||qn(t)-qn(t-1)||≤v
max
,
[0013][0014][0015]
其中,q表示无人机的位置形成的轨迹序列,k表示对无人机与地面节点之间的连接关系,m表示地面节点数量,am表示地面节点m的aoi,ts表示无人机n与地面节点m完成采集的时间,qn(t)表示第n个无人机在t时刻的位置,v
max
表示无人机飞行的最大速度,表示表示在t∈[0,t]时刻无人机n∈n和节点m∈m之间的连接关系,n表示无人机数量。
[0016]
优选的,连接策略为马尔可夫决策过程,马尔可夫决策包含四元组《s,a,p,r》,其中s、a分别为状态空间和动作空间,表示无人机的状态与动作;p为状态转移函数,表示无人机在当前状态下,执行动作时转移到下一状态的概率;r为奖励函数,表示无人机处于当前状态时可获得的奖励。
[0017]
进一步的,奖励函数包括根据目标问题设计奖励函数,轨迹规划的目标是最小化所采集的信息的aoi,其中奖励函数是关于aoi的函数,当找到目标点时,奖励为r1;当飞出有效区域时,奖励为负的r2;回合步数一定,单个回合结束时,判断是否采集所有地面节点的数据包,若采集完毕则奖励为r3,否则为-r4;其他情况为-am(t);其中,r1,r2,r3,r4为正数。
[0018]
优选的,采用改进的ppo算法对aoi优化目标函数进行深度学习的过程包括:
[0019]
s21:将状态信息(s1,s2…
sn)输入到actor网络得到所有动作的概率,根据所有动作的概率输出联合动作(a1,a2…an
);其中,所有智能体共用一个actor网络,每个智能体i的输入为全局观测的环境信息,输出为智能体i的联合动作;
[0020]
s22:将联合动作(a1,a2…an
)输入到环境中得到全局的奖励r和下一步的状态s_,根据下一步的状态得到轨迹并将其存储在经验池中;
[0021]
s23:将轨迹τ中的所有状态s输入至critic网络,得到无人机在一个轨迹中所有状态所对应的状态价值v(s
t
);
[0022]
s24:无人机执行联合动作a
t
并到达状态s
t+1
后,计算采用不同的动作所得期望的累计奖励平均值g
t
=r
t
+γv(s
t+1
),根据累计奖励平均值计算优势函数a(s
t
,a
t
)=g
t-v(s
t
),对优势函数采用泛化优势估计以平衡值函数估计的方差与偏差;
[0023]
s25:计算critic网络的损失,其中critic的损失函数是优势函数的平方均值;
[0024]
s26:将得到的优势函数a(s
t
,a
t
)作为critic网络对动作策略的评价,从而对actor网络的输出策略进行改进,得到新策略π
θ
。
[0025]
s27:将存储的所有状态s组合分别输入到新旧策略π
θ
和π
θ
′
下的动作actor网络中,得到不同策略下的无人机动作概率分布prob1和prob2;根据prob1和prob2计算重要性权重;根据重要性权重获取修正不同策略θ和θ
′
的两个动作分布之间的差异,根据两个动作分布之间的差异计算更新后的策略期望回报值;
[0026]
s28:设置更新后策略的约束条件,根据约束条件和策略期望回报值计算actor网络的损失函数;
[0027]
s29:根据损失函数使用梯度下降算法更新actor网络和critic网络的参数,更新至奖励收敛不变,输出无人机当前的最优飞行策略。
[0028]
本发明的有益效果:
[0029]
本发明利用了低复杂度算法规划无人机最优轨迹,算法收敛速度快,训练结果稳定,最终可以显著降低地面节点的aoi,能够有效地确保传输数据的信息新鲜度,以免出现数据交付不及时导致的错误决策。
附图说明
[0030]
图1为本发明的基于深度强化学习的无人机轨迹优化方法的流程图;
[0031]
图2为本发明的无人机对地通信系统模型图;
[0032]
图3为本发明ppo算法流程图。
具体实施方式
[0033]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034]
一种基于信息年龄的无人机轨迹自适应优化方法,如图1所示,该方法包括:
[0035]
s1:构建无人机对地通信系统模型,采用无人机对地通信系统模型确定无人机轨迹;根据无人机轨迹确定aoi优化目标函数;
[0036]
s2:获取当前环境状态信息,根据当前环境状态信息采用深度学习算法对优化目标函数求解最优解,根据最优解确定无人机当前的飞行状态;
[0037]
s3:无人机在当前飞行状态下获取地面节点产生的数据包,若所有节点的数据收集完毕,则无人机飞行结束,否则返回步骤s2。
[0038]
具体的,一种基于信息年龄的无人机轨迹自适应优化方法的具体实施方式,包括:
[0039]
s1:建立无人机对地通信系统模型,由无人机的轨迹确定aoi优化目标函数。
[0040]
s11:确定确定aoi优化目标函数的过程包括:将无人机执行任务的时间离散为多个等长的时间间隔;确定无人机的飞行高度和飞行速度;根据无人机的飞行高度、飞行速度以及任务时间构建无人机的机动性约束条件;无人机采集地面信息,当无人机成功采集到来自某地面节点存储的最新数据时,则该地面节点的aoi信息进行更新,否则该节点的aoi
线性增长;如果地面节点的缓冲区内没有存储的数据或已经被采集完毕,则aoi设为1,否则为0;将无人机n与地面节点m完成采集的时间记为ts,根据时间ts对无人机的飞行轨迹和连接策略进行规划。
[0041]
对无人机的飞行轨迹和连接策略进行规划包括:对于无人机和节点的通信连接,每一架无人机在任意时间只与一个节点进行通信;同时,为了实现更好的无人机间的协作,当地面节点已被一架无人机占用,则其它无人机不会再对其进行访问,任意节点m同一时间最多只能被一架无人机服务。无人机与地面节点之间的连接关系与轨迹相关,在飞行周期内无人机始终选择离其最近的未被占用的节点进行通信。
[0042]
具体的,如附图2所示,考虑多架无人机对多个地面节点通信,其中无人机作为移动中继采集来自地面节点的数据信息,地面节点的位置固定且被无人机已知。将任务时间分成相同大小的时隙。在给定的t个时隙内,无人机需要从起点位置起飞,采集m个传感器的数据。将无人机待执行任务的区域分割成尺寸均匀的小格子。将区域用格子进行均匀分割后,假设无人机在每个时隙是沿着格子的中心处飞行,并且以一固定高度h飞行。将格子i的中心位置表示为ci=(xi,yi)∈c,其中c代表在区域中所有格子中心位置的集合,两个相邻的格子的中心位置的距离用d表示。在每一个时隙中,无人机以固定的速度v飞到相邻格子的中心处,因此无人机的飞行轨迹可以用一组有序的格子中心位置进行表示。建立三维笛卡尔坐标系,地面节点的位置表示为g(t)=(x(t),y(t),0),t∈[1,t];在通信时间t内,无人机以固定的高度h飞行,其时变位置表示为q(t)=[x(t),y(t),h],0≤t≤t。其与地面节点的距离当离散时间间隔足够小时,无人机的速度和位置可表示为:
[0043]
‖qn(t)-qn(t-1)‖≤v
max
[0044]
以最小化aoi为目标,设u(t)为上传给无人机的最新数据的生成时间,则aoi为a(t)=t-u(t)。当无人机成功采集到来自地面节点最新更新的数据,对于该节点其aoi变为最新信息的aoi,否则该节点的aoi线性增长。
[0045]
地面节点m的缓冲区内有数据时的aoi为:
[0046][0047]
在没有传统地面基础通信设施的情况下,调度多架无人机进行飞行,收集地面节点的数据。基站位于区域中心,bs的覆盖区域是半径为r的圆形区域;在区域覆盖范围内,有m个随机分布的地面节点m={1,2,
…
,m},任意地面节点都有一个用于存储关于周围环境信息的数据包,如温度、空气污染状况等,数据包大小为1m。在该区域内包含n架无人机n={1,2,
…
,n},基站控制台通过卫星链路向无人机发送控制指令。对于每个地面节点,存在半径为r的球形传输范围,在传输范围内无人机与地面节点之间具有良好视距信道,由于无人机能够以较高的高度飞行,因此无人机与地面的传感器之间建立的是视距通信链路(linkof sight,los)。同理无人机与基站之间也是los链路,据此可以得到在t时隙,它们两两之间的信道增益,具体表示为:h=β0[d]-2
,d表示为两者之间的距离,β0是参考距离为1米时的信道增益。
[0048]
传感器的有效覆盖范围的具体表示公式为:
[0049][0050]
其中p表示传感器的发射功率,b表示无人机与传感器之间的信道带宽,σ2表示在无人机处的噪声功率,s表示传感器产生的数据状态更新包的大小。
[0051]
本发明的目标是在满足地面多个无人机与多个传感器节点通信需求基础上,提出了一种aoi最小化的无人机轨迹规划方法。该方法采用联合优化方法对无人机轨迹{q[t]}和传输包调度{k[t]}中的数据进行优化。其优化问题可以由公式(p1)表示。
[0052]
(p1):min
q,k
∑
m∈mam
(ts)
[0053]
s.t.‖qn(t)-qn(t-1)‖≤v
max
,
[0054][0055][0056]
其中,q表示无人机的位置形成的轨迹序列,k表示对无人机与地面节点之间的连接关系,m表示地面节点数量,am表示地面节点m的aoi,ts表示无人机n与地面节点m完成采集的时间,qn(t)表示第n个无人机在t时刻的位置,v
max
表示无人机飞行的最大速度,表示表示在t∈[0,t]时刻无人机n∈n和节点m∈m之间的连接关系,n表示无人机数量。
[0057]
对无人机-节点之间的连接关系进行建模,使用二进制变量k(t)表示在t∈[0,t]时刻无人机n∈n和节点m∈m之间的连接关系。当时,表示无人机n正在访问节点m;反之,当时表示两者不处于互相通信连接的状态。对于无人机和节点的通信连接,有约束表示对于每一架无人机,在任意时间只与一个节点进行通信;同时,为了实现更好的无人机间的协作,当地面节点已被一架无人机占用,则其它无人机不会再对其进行访问,因此有约束艺表示对于任意节点m同一时间最多只能被一架无人机服务。无人机与地面节点之间的连接关系与轨迹相关,在飞行周期内无人机始终选择离其最近的未被占用的节点进行通信。
[0058]
优化问题可建模为马尔可夫决策过程,并运用深度强化学习算法对决策过程进行训练,马尔可夫决策过程包含四元组,为《s,a,p,r》;其中,s、a分别为状态空间和动作空间,表示了无人机的状态与动作;p为状态转移函数,表示无人机在当前状态下执行动作时转移到下一状态的概率;r为奖励函数,表示无人机处于当前状态时可获得的奖励。马尔可夫决策过程的目的是寻找最优策略进行决策。具体包括:
[0059]
(1)状态空间
[0060]
状态空间由所有无人机的位置,地面节点的aoi和无人机连接地面节点的情况组成。无人机n在t时刻的位置为地面节点的aoi为在t时刻无人机n连接的地面节点,即选择的子任务为c
t,n
∈[1,m]。因此,状态空间的定义为x
t,n
={s
t,1
,
…
,s
t,n
}。
[0061]
(2)动作空间
[0062]
针对多智能体场景,动作空间被定义为在时隙k时所有无人机的联合动作,包括每一架无人机的飞行方向即a
t,n
={n,s,w,e}。由此联合动作空间a
t,n
={a
t,1
,
…
,a
t,n
}。
[0063]
(3)奖励函数
[0064]
根据目标问题设计奖励函数,轨迹规划的目标是最小化所采集的信息的aoi,所以奖励函数是关于aoi的函数。当找到目标点时,奖励为r1;当飞出有效区域时,奖励为负的r2;回合步数一定,单个回合结束时,判断是否采集所有地面节点的数据包,若采集完毕则奖励为r3,否则为-r4;其他情况为-am(t)。(其中r1,r2,r3,r4为正数)。
[0065]
(4)状态转移
[0066]
在t时隙,如果无人机选择传感器m发送数据状态更新包,并且无人机此时位于传感器m的有效覆盖范围之内,则传感器m的aol会下降到1;否则其aoi会增加1。每个传感器aoi的更新公式为:
[0067]
无人机的位置更新方程可以表示为:
[0068][0069]
aoi的状态更新方程为:
[0070][0071]
其中,q(t)表示无人机水平位置的坐标,d表示两个相邻的格子的中心位置的距离,v
t
表示无人机的飞行方向,north表示北方向,south表示南方向,east表示东方向,west表示西方向,am(t)表示在t时刻地面传感器m的aoi,表示在t∈[0,t]时刻无人机n∈n和节点m∈m之间的连接关系。
[0072]
s2:基于当前环境状态信息,利用深度强化学习算法,根据所得到的策略选择当前状态下的动作。
[0073]
s21:对于多智能体任务,目标是通过确定最优策略来最大化j(π
θ
)。考虑一个完全集中的学习框架,其中所有无人机都被视为单个超级agent。
[0074]
具体的,在完全集中学习框架中,假设uav可以知道全局状态x
t,n
和联合动作a
t,n
,并使用rl算法学习集中策略π
θ
。因此,在训练和执行阶段都始终需要包括x
t,n
和a
t,n
在内的全局信息。集中式critic基于全局信息估计联合值函数,actor基于全局的状态做出决策。
[0075]
s22:无人机在飞行过程中不断地接收来自地面基站广播的飞行的位置数据,通过与环境进行交互得到的奖励回报更新策略,解决优化问题p(1)算法的伪代码如下:
[0076][0077]
如图3所示,采用改进的ppo算法对aoi优化目标函数进行深度学习的过程包括的具体过程包括:设置所有超参数,包括critic价值网络q
ω
的超参数ω、actor策略网络π的超参数θ参数;对actor策略网络π的超参数θ进行初始化,得到θ',对critic价值网络q
ω
的超参数ω进行初始化,得到ω'。设置最大迭代回合数l。使用旧的actor网络收集轨迹数据。在数据收集期间,每个uav使用策略π
old
与环境交互。在每一轮迭代中,每个uav收集一个t个时隙的轨迹τ。计算优势函数和目标v值。然后将轨迹、优势函数和目标v值存储在一个批量中,以便之后进行采样。将全部的批量循环k轮,从批量中抽取大小为mini-batch的小批量,利用adam优化器来计算策略损失和值损失。最后使用策略损失的梯度更新actor网络,使用值损失的梯度更新critic网络。
[0078]
具体的,采用策略梯度算法训练智能体时,面临的一个挑战是这种算法容易受到性能突然下降(performance collapse)的影响,此时,智能体突然开始表现不佳。这种情况可能很难恢复,因为智能体将开始生成表现差的轨迹,然后将其用于进一步训练策略。此外,同策略算法由于无法重用数据而导致样本利用不充分。近端策略优化算法(proximal policy optimization,ppo)是解决以上两个问题的一类优化算法。近端策略优化背后的主要思想是引人一个替代目标函数(surrogate objective),该目标函数通过确保单调改进策略来避免性能突然下降,此外它还具有在训练过程中重用异策略数据的优点。
[0079]
在多智能体系统中,由于每个智能体奖励函数r
t
会受其他智能体动作的影响,智
能体要想学到最优的策略,需要考虑联合动作的值函数。所谓集中式训练,是指在训练中使用联合行为值函数对智能体进行训练。跟分散式训练,即使用局部行为值函数相比,集中式值函数能够对联合策略进行评估。
[0080]
具体方法为:一个集中的critic网络利用联合的动作信息,在训练过程中,n个智能体采用联合策略与环境进行交互,同时对每个智能体的联合行为值函数进行评估,根据联合行为值函数对策略参数的梯度进行更新。值函数只是知道全局的奖励,单个智能体不知道自己的实际贡献,因此ppo算法中critic采用优势函数来评估动作的好坏。首先,给定一个策略π,然后让它的下一个迭代(在参数更新之后)为π'。定义一个相关策略性能标识来度量两个策略之间的性能差异。智能体的目标是得到期望回报最大的策略π
θ
。θ为策略参数,回报指轨迹τ=(s0,a0,s1,a1,
…
)上的折扣奖励和最优策略为通过一阶近似,优化替代损失函数,在每一次迭代中计算新策略,确保每次策略迭代非负的改进。
[0081]
ppo算法中critic采用优势函数来评估动作的好坏:
[0082][0083]
由于ppo是一种同策略(on-policy)算法,为了提高样本利用率,引入重要性采样,用旧策略π
θ
′
来采样,得到:
[0084][0085]
该梯度对应的优化目标函数,即:
[0086][0087]
在实际应用中,基于采样估计期望,简化得到ppo的优化目标即替代损失函数,通过裁剪操作(clip)来限制策略更新幅度,保证训练稳定性。
[0088][0089]
上式被称为裁剪的替代目标函数,式中:为新旧策略之比,ε为裁剪幅度超参数。这个想法是将r(θ)限制在ε的邻域[1-ε,1+ε]。
[0090]
该目标函数假设样本式从旧策略中产生的,该目标函数除了重要性权重,不依赖于当前策略,因此可以多次重复使用采样的轨迹来执行参数更新。这种修改可以实现更稳定、样本利用更充分的训练。
[0091]
一种采用改进的ppo算法对aoi优化目标函数进行深度学习的具体实施方式,该方法包括:
[0092]
步骤1:将状态信息(s1,s2…
sn)输入到actor网络得到所有动作的概率,根据所有动作的概率输出联合动作(a1,a2…an
);其中,所有智能体共用一个actor网络,每个智能体i的输入为全局观测的环境信息,输出为智能体i的联合动作;
[0093]
步骤2:将联合动作(a1,a2…an
)输入到环境中得到全局的奖励r和下一步的状态s_,根据下一步的状态得到轨迹并将其存储在经验池中;
[0094]
步骤3:将轨迹τ中的所有状态s输入至critic网络,得到无人机在一个轨迹中所有
状态所对应的状态价值v(s
t
);
[0095]
步骤4:计算无人机执行动作行a
t
后达到状态s
t+1
时的奖励的平均值g
t
,其中g
t
=r
t
+γv(s
t+1
);根据平均值g
t
得到优势函数a(s
t
,a
t
)=g
t-v(s
t
);对优势函数进行泛化优势估计,通过泛化优势估计平衡价值函数估计的方程和偏差;其表达式为:
[0096][0097]
其中,表示采用gae计算的优势函数,γ表示奖励的折扣因子,λ表示可调整的超参数,l表示累加次数,r
t
表示t时刻下的奖励,v(s
t+1
)表示t+1时刻的状态值函数,v(s
t
)表示t+1时刻的状态值函数,s
t
表示在t时刻的状态。
[0098]
步骤5:计算critic网络的损失,critic的损失函数是优势函数的平方均值。
[0099]
步骤6:将得到的优势函数a(s
t
,a
t
)作为critic网络对动作策略的评价,从而对actor网络的输出策略进行改进,得到新策略π
θ
。
[0100]
步骤7:计算critic网络的损失,critic将进行泛化优势估计后的优势函数a(s
t
,a
t
)对critic的对动作策略π
θ
进行优化,得到新策略π
θ
;
[0101]
步骤8:将存储的所有状态s组合分别输入到新旧策略π
θ
和π
θ
′
下的动作actor网络中,得到不同策略下的无人机动作概率分布prob1和prob2;根据prob1和prob2计算重要性权重;根据重要性权重获取修正不同策略θ和θ
′
的两个动作分布之间的差异,根据两个动作分布之间的差异计算更新后的策略期望回报值;
[0102]
计算更新后的策略期望回报值包括:由于当策略还未更新时,无法计算新策略的期望回报值,引入重要性采样的方法,使用旧策略的分布来估算新策略的分布计算更新后的策略期望回报值为:
[0103][0104][0105]
其中,r(t)为新旧策略之比,表示更新后的策略期望回报值,表示旧策略期望回报值,π
θ
(a|s)表示新策略,π
θ
′
(a|s)表示旧策略,a表示动作,s表示状态信息。
[0106]
步骤9:设置更新后策略的约束条件,根据约束条件和策略期望回报值计算actor网络的损失函数;设置更新后策略的约束条件包括通过裁剪操作(clip)来限制策略更新幅度,将r(t)限制在ε的邻域[1-ε,1+ε],保证训练稳定性。actor网络的损失函数为:
[0107]jclip
(θ)=e[min(r(t)a
π
,clip(r(t),1-ε,1+ε)a
π
)]
[0108]
其中,j
clip
(θ)表示actor网络的目标函数,θ表示actor的网络权重,e表示求期望运算,r(t)为新旧策略之比,a
π
表示采取策略π的优势函数,clip的作用是括号中的三项,如果第一项小于第二项,则输出1-ε,如果第一项大于第三项,则输出1+ε,目的是将概率比限制在一个合理的范围内。ε表示裁剪幅度超参数。
[0109]
步骤10:根据损失函数使用梯度下降算法更新actor网络和critic网络的参数,更新至奖励收敛时,输出无人机当前的最优飞行策略。
[0110]
s3:若无人机将所有地面节点产生的数据包收集完毕,则结束飞行;否则继续执行s2。
[0111]
每个回合都是从初始状态出发,当无人机满足下列任一条件之一时,该回合结束,重新开始新一轮回合的学习:1)所有地面传感器数据包收集完毕;2)达到最大航程。在本实施例中,无人机在单个回合最大步数500步内未完成数据收集任务,认为无人机到达最大航程。当达到最大回合次数退出循环,结束训练。
[0112]
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。