本发明涉及无线通信技术领域,特别涉及基于深度强化学习的无人机轨迹优化方法、装置和无人机。
背景技术:
无人机通信技术被认为是第五代(5g)以及后续演进(5g+)移动通信网络中不可或缺的一个组成部分。但是无人机通信系统具有独特的空对地信道模型,高动态的三维飞行能力以及有限的飞行能源,使得无人机通信系统相较于传统通信系统更加复杂。
目前用于无人机轨迹优化的方法主要有传统凸优化算法和强化学习算法。如有一篇申请号为“201811144956.3”的中国专利申请,公开了一种基于蜂窝网联的无人机移动边缘计算系统能耗优化方法。该方法根据无人机数据处理、通信、飞行带来的约束条件,用凸优化算法优化所有时刻无人机的位置、速度和加速度。如一篇申请号为“201811564184.9”的中国专利,公开了一种基于改进q学习算法的无人机群路径规划方法。该方法将强化学习方法q学习算法与无人机轨迹优化结合,首先采用栅格法建立离散化的环境模型,其次输入有限的环境状态值,经过强化学习网络部分,查询状态-行为值矩阵输出动作,并从环境中获取回报更新矩阵,最终实现无人机在未知环境下的轨迹规划。
其中,利用凸优化算法在进行无人机轨迹优化时,由于实际场景下的目标方程的形式非常复杂,所以需要简化场景,建立场景假设,并且对无人机的飞行控制优化在离散域进行,才能得到简化的可解的目标问题,得到的结果通常偏离实际最优情况;另一方面,基于凸优化算法的无人机轨迹优化方法,也难以应对动态变化的环境信息。例如,当通信需求动态变化时,原目标方程便无法适用。而现有技术中采用强化学习算法优化无人机轨迹的方案,如q学习,需要首先建立一个环境状态与行动映射的表格,再通过当前状态值查表选择最大的状态-行动值(q值)对应的动作。因为状态-行动表格的限制,定义的状态与可采取的行动都是有限的。然而在实际中状态和行动通常是无限或连续的,在转化为有限个数时会有信息损失,而且会有维度爆炸的潜在危机。
可见,现有技术中关于优化无人机飞行轨迹的部分技术方案,适应的飞行场景和提供的飞行动作方案都比较有限,难以应对无人机飞行过程中动态变化的环境信息,偏离无人机的实际飞行需求。
技术实现要素:
本发明的目的是提出一种基于深度强化学习的无人机轨迹优化方法、装置和无人机,以解决上述技术问题。
为实现上述目的,本发明提供了如下方案:
本发明实施例的第一个方面,提供了一种基于深度强化学习的无人机轨迹优化方法,包括如下步骤:
预先构建基于ppo算法的深度强化学习网络;
在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;
以所述状态数据为输入、以所述动作决策数据为输出,以所述瞬时能量效率为奖励回报,利用ppo算法对所述深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
可选的,预先构建基于ppo算法的深度强化学习网络,包括:
构建包括行动网络和评价网络的深度学习网络结构;
行动网络利用ppo算法和深度神经网络来拟合策略函数,决策飞行动作;所述评价网络利用深度神经网络来拟合状态价值函数,优化策略函数中的策略参数。
可选的,产生状态数据、动作决策数据,包括:
计算无人机与物联网设备间的距离、传输速率和自身剩余能量,作为状态数据;
采集无人机的加速度、飞行方向,作为动作决策数据。
可选的,产生状态数据、动作决策数据,包括:
将状态数据量化表示为
将动作决策数据表示为at=[ωt,at]t;其中at表示在t时刻的动作;ωt∈[0,2π],ωt表示在t时刻无人机的飞行操纵角度;at表示在t时刻无人机的加速度大小,at为连续有界数据。
可选的,计算瞬时能量效率,包括按下式计算:
其中r(st,at)表示无人机在t时刻状态为st、动作为at时的瞬时能量效率;
可选的,利用ppo算法对深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略,包括:
采用ppo算法,将目标方程改写为:
其中θ为待优化的策略参数,ε为预设的用于控制策略更新幅度的常数,
其中πθ表示策略函数,πθ(at|st)表示t时刻状态为st、动作为at的新策略函数,
求取的优势函数方程为:
其中γ为衰减指数,λ为径迹参数;δt为t时刻的时间差分错误值,δt-1为t-1时刻的时间差分错误值;t为自主飞行总时长;
通过多次迭代更新,求取目标方程最大值,以优化策略函数中的策略参数,将目标方程最大值对应的策略参数作为最优策略输出。
可选的,计算瞬时能量效率,包括:
在无人机返回途中发生能源耗尽情况时,在计算瞬时能量效率的方程后添加预设数值的惩罚项。
本发明实施例的第二个方面,还提供一种基于深度强化学习的无人机轨迹优化装置,包括构建模块、训练数据收集模块和训练模块;
构建模块,用于构建基于ppo算法的深度强化学习网络;
训练数据收集模块,用于在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;
训练模块,用于以状态数据为输入、以动作决策数据为输出,以瞬时能量效率为奖励回报,利用ppo算法对深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
可选的,构建模块,用于:构建行动网络、评价网络;利用一深度神经网络拟合状态价值函数并传入评价网络,通过评价网络计算优势函数,并将优势函数传入行动网络;利用一深度神经网络通过行动网络拟合策略函数,并将策略函数传入行动网络;
和/或,训练数据收集模块,用于:计算无人机与物联网设备间的距离、传输速率以及自身剩余能量,作为状态数据;采集无人机的加速度、飞行方向,作为动作决策数据。
本发明实施例的第三个方面,还提供一种无人机,包括处理器,处理器用于执行上述基于深度强化学习的无人机轨迹优化方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了基于深度强化学习的无人机轨迹优化方法、装置和无人机,在无人机轨迹优化中引入了深度强化学习技术ppo算法,无人机在飞行过程中实时与环境交互,收集当前飞行轨迹下的状态数据和动作数据作为训练数据,以瞬时能量效率为回报函数,通过ppo算法实时自主学习,实现对决策飞行轨迹的策略参数的不断优化,即赋予无人机在环境中在线自主学习的能力,可以根据需求,适应动态环境的变化;此外,基于ppo算法的自主学习,还具有不受限于学习步长的选择的优点;
并且本发明提出的基于ppo算法的自主学习方法其处理的数据对象可以为三维连续有界数据,例如输入数据、输出数据等不限于离散域,实现了连续域下三维空间内的无人机的飞行控制优化,更贴近现实场景;相比于基于离散域数据或者表格中有限几种应对方案的控制方式,更符合实际飞行环境的需求;
进一步地,将回报函数赋值为无人机飞行瞬时能量效率的同时,在飞机无法顺利返航充电/加油时增加惩罚项,经过不断学习后使得无人机能够即时返航避免损失,提高无人机飞行工作的能量效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于深度强化学习的无人机轨迹优化方法的一个实施例的流程示意图;
图2为本发明基于深度强化学习的无人机轨迹优化方法的另一个实施例中整体结构及相关数据交互示意图;
图3为本发明基于深度强化学习的无人机轨迹优化方法的一个优选实施例的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
深度强化学习技术是一种结合强化学习和深度神经网络的机器学习技术。具体而言,强化学习个体通过与环境交互的方式,收集不同环境状态下采取不同动作的回报信息,并根据收集到的数据,归纳学习出最优的行为策略,从而获得适应未知动态环境的能力。深度神经网络可显著提升算法在高维状态空间和高维行动空间上的泛化能力,从而获得适应更加复杂环境的能力。
本发明实施例1提供了一种基于深度强化学习的无人机轨迹优化方法,如图1所示,该方法包括如下步骤:
s101,预先构建基于ppo算法(近端策略优化算法,proximalpolicyoptimization)的深度强化学习网络。
该深度强化学习网络模型可在无人机起飞前预先安装在无人机上,也可安装于物联网设备端,无人机在飞行过程中与物联网设备端实时交互数据,实现在线自主学习。
s102,在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据。
s103,计算瞬时能量效率。
s104,利用ppo算法对所述深度强化学习网络进行训练,优化策略参数。
循环执行步骤s102至步骤s104,利用收集到的数据不断迭代更新网络参数,最终达到最优。
s105,经多次迭代更新后得到训练出的最优策略,输出最优策略。
以状态数据为输入、以动作决策数据为输出,以瞬时能量效率为奖励回报,对深度强化学习网络进行训练,经多次迭代更新,实现对策略参数的优化。
策略参数即决定飞行轨迹的动作参数,最优策略即通过自主学习得到的使能量效率最大化的飞行策略。
实施例2
本发明实施例2提供一种基于深度强化学习的无人机轨迹优化方法的另一个实施例。
在本发明实施例2中,ppo算法采用演员评论家(actor-critic)框架的深度强化学习结构,由行动网络和评价网络两个网络构成:行动网络利用ppo算法和深度神经网络来拟合策略函数,决策行动;评价网络利用深度神经网络来拟合状态价值函数,优化策略参数。本发明实施例2提供的优化方法的整体结构及相关数据交互如图2所示。
在本实施例中,使用的无人机通信场景是单一无人机基站为多个固定的物联网设备提供服务,物联网设备被随机激活或周期性激活采集数据并传输至无人机基站。
作为一种可实施方式,无人机将其与物联网设备间的距离、传输速率以及自身剩余能量作为强化学习的状态输入行动网络,将无人机加速度、飞行方向(即飞行操纵角度)作为输出行为,将从环境中获得无人机的瞬时能量效率作为奖励回报。并通过不断与环境交互,产生状态输入、行动决策、奖励回报的数据,作为评价网络与行动网络的训练数据。评价网络利用深度神经网络拟合状态价值函数,为行动网络优化提供优势函数;行动网络利用ppo算法优化策略参数,利用深度神经网络拟合策略函数。经过多次迭代更新的过程,无人机适应环境并得到最优策略。
作为一种可实施方式,本发明实施例2提供的基于深度强化学习的无人机轨迹优化方法可包括如下步骤:
s201,初始化强化学习决策策略及相关参数,以及深度神经网络相关参数。
s202,在预设时长的一段时间内,无人机自主飞行完成任务并记录相关数据。无人机计算与物联网设备的距离、传输速率和自身剩余能量,基于当前策略决策飞行轨迹,接收物联网设备发送的数据,并计算该飞行轨迹下的瞬时能量效率。
s203,通过上述预设时长的一段时间内收集的数据,评价网络拟合状态价值函数,计算优势函数,传入行动网络。分别训练行动网络与评价网络的深度神经网络各参数,更新无人机飞行策略。
s204,重复步骤202、步骤203,直至无人机任务结束。
实施例3
本发明实施例3提供基于深度强化学习的无人机轨迹优化方法的一个优选实施例,通过该实施例对本发明使用的无人机通信建模方法以及基于深度强化学习的无人机高能效轨迹优化方法进行进一步详细的说明。
该实施例建立的无人机通信模型,考虑一个无人机为n个地面物联网设备提供时延容忍服务的场景,物联网设备随机分布且位置固定,周期性或随机性地采集数据并传送至无人机。目标是优化无人机飞行轨迹,在能量有限的条件下最大化累计能量效率。为了完成这个目标,无人机应可以检测自身剩余能量,并决策最优的返航充电/加油时间。
具体建模方法如下:
s301:计算平均路径损耗。
无人机与物联网设备间的通信信道,采用sub-6ghz频段的空对地的链接,视线传输(los)在该无线链路中占主导地位。无人机与地面物联网设备u在t时刻的平均路径损耗可以表示为:
fc代表中心频率,
302:计算信噪比。
无人机与物联网设备u在t时刻的信噪比(sinr)可以表示为:
pu代表设备u上传链路的传输功率,
b代表信道带宽,假定所有设备的带宽相同。
s303:计算自身剩余能量。
无人机的能量损耗包括推动力造成的飞行能量损耗和通信相关能量损耗。推动力造成的飞行能量消耗让无人机可以保持在空中飞行、改变飞行的轨迹,其功率大小与无人机飞行的速度和加速度相关,因此飞行能量消耗可以表示为飞行轨迹q(t)的方程,为:
其中,e(p(t))为自身能量损耗,
p(t)为瞬时能量损耗,
通信相关能量损耗包括辐射、信号处理以及其他电路消耗,其中信号处理造成的能量损耗占主导部分。信号处理造成的能量损耗与无人机飞行无关,是飞行时间的平方的反比例函数,可表示为:
其中,ecomp即到t时刻的通信相关能量损耗,g表示无人机节点的硬件计算常数,d代表无人机需要处理数据的比特数,t即t时刻。
本发明中,自身能量损耗=飞行能量损耗+通信相关能量损耗;自身剩余能量=初始总能量-自身能量损耗。
s304:从飞行环境中提取状态数据。
状态数据从环境中提取计算获得,可以特征化为如下三部分:i)无人机到每一个物联网设备的距离;ii)每个物联网设备向无人机传送信息的传输速率;iii)自身剩余能量。因此,状态数据可以表示为
s305:获取动作数据。
动作由无人机发出,用于控制飞行轨迹,包括如下两部分:i)t时刻无人机的飞行操纵角度ωt∈[0,2π];ii)t时刻无人机的加速度大小at。因此,动作可以综合表示为at=[ωt,at]t(此处“t”表示矩阵的转置)。
需要说明的是,无人机的瞬时飞行速度
s306,建立回报函数。
回报函数定义为瞬时的能量效率,即
由于考虑算法需要自动决策无人机的返航充电/加油时间,因此当无人机返回途中能源耗尽时应在回报函数后添加一个较大数值的惩罚项。无人机返回途中能源耗尽,造成无人机坠毁,将回报函数值直接置为较大的负数,例如-100。具体惩罚项的数值可由本领域技术人员根据实际场景具体灵活设置,并不唯一,并发明不逐一列举。
s307:建立策略函数。
基于策略梯度的强化学习方法是将策略参数化,建模形式为一个随机方程,即πθ:s→p(a),代表在状态集s(即状态s的集合)内的任何状态下,采用动作集a(即动作a的集合)中动作的概率,θ∈rn是需要被优化的策略参数。rn表示n维实数集合,n的大小等于θ的维数。
s308:建立目标方程。
在强化学习中,状态s在策略πθ下的状态价值函数被定义为长期累积的回报。当其时状态为s,策略为πθ时,状态价值函数如下形式:
γ为折扣因子,取值范围γ∈[0,1]。相似的,在策略πθ下,动作a的状态-动作价值函数可以定义为:
强化学习的目标方程定义为:
其中
因此,我们得到最终的基于强化学习的无人机轨迹优化问题为:
c1和c2分别为无人机飞行速度和加速度的限制条件。
策略梯度方法可以应用于优化策略πθ以使目标方程达到最大。目标方程关于自变量θ的梯度可以表示为:
bt是为了减小策略梯度方差而在回报函数中引入的常数基线,在回报函数中引入常数,策略梯度不变而方差减小。特别的,bt通常选择状态值方程vθ(st)的估计值,rt-bt则可被看作优势函数a(at,st)=q(at,st)-v(st)的估计值。
策略梯度算法在使用时策略梯度通常具有较大的方差,因此受参数影响变化较大。而且根据策略梯度算法,参数更新方程式为
信赖域系方法trpo算法(trustregionpolicyoptimization)通过限制每次迭代中策略的变化大小来提升算法的鲁棒性。深度强化学习算法ppo,继承了信赖域系方法算法中的优点,同时实现方法更简单,更加通用,并且根据经验具有更好的样本复杂度。
s309:采用ppo算法改写目标方程。
采用ppo算法,目标方程可以改写为:
其中θ为策略函数中的待优化参数,ε为预先设置的固定值,ε=0.1~0.3,目的是控制策略的更新幅度。
旧策略函数与新策略函数指在一次迭代更新中,更新后的策略函数即为新策略函数,更新前的策略函数即为旧策略函数。
其中,优势函数方程为:
δt=rt+γv(st+1)-v(st),
γ为衰减指数,是一预先设定的固定值;λ为径迹参数,也为一预先设定的固定值;γ的取值范围为(0,1),λ的取值范围也为(0,1)。δt为t时刻的时间差分错误值(temporaldifferenceerror),其具体数学表达式参见上式第二行;δt-1为t-1时刻的时间差分错误值,t为自主飞行总时长。
需要注意的是,优势函数需要从当前时刻直到时刻t一段时间内的全部数据。
因此,本发明在两个位置引入深度神经网络,分别用于表示状态-动作价值函数方程qω(s,a)≈qπ(s,a)并学习参数ω,以及表示策略函数πθ(s)=π(s)并学习参数θ。
具体地,参见图3所示,本发明实施例中深度强化学习ppo算法的具体流程如下:
初始化深度强化学习神经网络的各个参数,为参数ω和θ随机赋值,自主飞行时长设为t,两个深度神经网络迭代次数分别设为m次和b次,取ε=0.2,γ=0.99,总任务时间设定为l。
forepisode=1,ldo;执行从第1个时间片段到第l个时间片段的循环;基于当前策略πθ连续自主决策行动t次,同时与环境交互收集元组{st,at,rt}。通过收集到的元组{st,at,rt},并利用深度神经网络估计优势函数
计算目标函数
计算函数
endfor,结束循环。
本发明实施例提出了一种基于深度强化学习ppo算法的无人机高能效轨迹优化方案。该轨迹优化方案把无人机自身剩余能量考虑入状态值输入强化学习网络,并直接输出无人机飞行的速度、加速度、飞行方向和返航时间。该方案通过在线学习的方式,根据环境变化,动态调整学习到的策略,从而适应环境。同时本方案考虑的是连续域下的控制问题,与实际场景下连续域飞行控制机制相符。另一方面,ppo算法是鲁棒性最好,性能最为突出的连续域控制算法,消除了不易确定合适学习步长的缺点,降低了算法的复杂度。
实施例4
本发明实施例还提供一种基于深度强化学习的无人机轨迹优化装置,包括构建模块、训练数据收集模块和训练模块。
构建模块,用于构建基于ppo算法的深度强化学习网络;训练数据收集模块,用于在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;训练模块,用于以状态数据为输入、以动作决策数据为输出,以瞬时能量效率为奖励回报,利用ppo算法对深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
实施例5
本发明实施例还提供一种无人机,包括处理器,该处理器用于执行本发明的基于深度强化学习的无人机轨迹优化方法。
综上,本发明引入深度强化学习ppo算法,对环境信息进行自主探索学习,以提升无人机能量效率为目标,智能决策优化飞行轨迹及返航时间。
相比于现有技术,本发明达到了如下技术效果:
首先,本发明在适应场景及环境的能力强于现有技术中采用凸优化算法的方案。由于我们引入强化学习算法,在学习过程中优化策略参数,而不是基于固定的目标方程,因此具有更强的灵活性;而且本发明深度强化学习网络通过输入环境状态,以及获取回报奖励,强化了与外界环境的交互,对于场景和环境的变化能够更快速地应对。
其次,发明相比现有技术中基于q学习的方案,采用了连续域的无人机轨迹优化方案,强化学习输出的行动连续的速度与加速度,更贴近现实情况,容易进行飞行区域的扩展,在大区域轨迹优化时,不会出现维度爆炸的潜在问题。
现有技术中还有一种方案是采用ddpg算法对机器进行连续域上的控制,该方法存在不易确定合适学习步长的缺点,超参数的选择对优化结果影响大。
本发明融合了深度强化学习与无人机轨迹优化问题,并且首次采用ppo算法解决该问题,相比于采用深度确定策略梯度(ddpg)算法进行更新的优化方案,ppo算法受训练的步长影响更小,解决真实场景下的控制问题时适应性更强,解决了现有技术中采用ddpg算法不易确定学习步长的问题,效率更高。
此外,本发明还考虑了最优返航充电/加油时间,使无人机能在安全返航的情况下,灵活的调整飞行时间和轨迹,尽可能大的提升自身的能量利用效率。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。