1.一种基于深度强化学习的多无人机任务规划方法,其特征在于,包括以下步骤:
(1)根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;任务场景为多个无人机从起点出发,在最短的时间内对多个电力设施进行抵近侦察;所述分布式部分马尔科夫决策过程模型包含元组g=<s,u,p,r,o>,其中s表示环境状态,o表示观测状态,u表示无人机动作,p表示状态转移函数,r表示即时奖励,具体如下:
环境状态s:设定每一时刻的环境总体状态为st=(ynt,loct),其中ynt为任务区域中全部电力设施的巡检情况,ynt=(ynt,1,ynt,2,...,ynt,n),ynt,i∈{0,1},0表示未巡检或正在巡检,1表示巡检完毕,loct表示多无人机自身位置信息,loct=(loct,1,loct,2,...,loct,m),其中n表示目标电力设施个数,m表示无人机个数;
观测状态o:设定每个无人机的观测量为ot,j=(dynt,j,loct,j),其中dynt,j表示某无人机在t时刻自身距离x范围内的所有电力设施的当前巡检状态,loct,j为每个无人机自身当前时刻的位置状态;
无人机动作u:将单个无人机巡检的动作过程集合成一个抽象动作,将向电力设施飞行,对设施进行抵近巡视、信息采集集合为动作ut,tg,将多个无人机的动作集合为一个联合动作ut,作用于环境并引起状态转移,每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤,完成当前动作后进行下一步动作决策;
状态转移函数p:将多无人机看作多智能体,在任务过程中,每个无人机将从当前环境总体状态st中获取自身的状态观测ot,j,按照自身内部策略πt,j得到输出动作ut,j,多个智能体的动作结合形成联合动作ut,环境将根据状态转换函数p(st+1|st,ut)做出对应的环境状态转移,得到下一时刻状态st+1,并且以此循环往复,直至任务结束;
即时奖励r:t时刻的即时奖励rt包括探索奖惩、协作奖惩和路程奖惩,即时奖励为三种奖励之和;
(2)在步骤(1)建立的任务模型基础上,设计基于qmix的任务规划算法;为每个智能体建立一个drqn网络,该drqn网络包括输入全连接层、门控循环网络层和输出全连接层构成;drqn网络的输出是该智能体每个动作的概率,然后通过ε-greedy算法来选择动作,以ε的概率进行随机选择,以1-ε的概率使用贪心算法选择最大q值的动作,将多无人机组成的联合动作ut与环境进行交互,并将经验存于经验池d=<st,ut,rt,st+1>中;将每个智能体的drqn网络输出的送入mixing网络,该mixing网络将部分动作值函数混合为联合动作值函数,它代表每个智能体的独立值函数之和,根据联合动作值函数建立损失函数,通过最小化损失函数对drqn网络进行训练。
2.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,用tg={tg1,tg2,…tgn}表示目标电力设施,无人机群表示为drone={drone1,drone2,…dronem},n表示目标电力设施个数,m表示无人机个数,将多无人机任务归纳为一个受约束的优化问题:
其中,di表示目标tgi的复杂程度,xj,i,t表示无人机dronej在t时刻是否对目标tgi进行抵近侦察,xj,i,t∈{0,1},其中1表示正在巡检,0表示未巡检,t表示设定总体飞行时间为t个单位时间,τj表示无人机dronej对目标电力设施的巡查速率,θ是无人机的飞行策略。
3.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,探索奖惩
协作奖惩
其中cop为协作标志位,1表示出现协作状态,0表示未协作;
路程奖惩
对于单个无人机来说,即时奖励表示为三种奖励之和,即
全部无人机的奖励之和为
4.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,对于drqn网络,输入全连接层采用relu激活函数:
其中,w1,b1分别为输入全连接层的权重参数和偏置;
然后将x1输入门控循环网络层,包括更新门、重置门和遗忘门:
zt=σ(wz(ht-1,x1))
rt=σ(wr(ht-1,x1))
ht′=tanh(w[rtht-1,x1])
ht=(1-zt)ht-1+ztht′
其中,zt为更新门输出,ht为t时刻的输出,ht-1为上一时刻的输出,rt为重置门输出,ht′为遗忘门输出,wz为更新门的权重参数,wr为遗忘门的权重参数,w为遗忘门的权重参数,σ为sigmoid激活函数;
循环更新l次,输出hl,进入输出全连接层,采用softmx激活函数:
其中,w2,b2分别为输出全连接层的权重参数和偏置。
5.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,所述损失函数如下:
其中,b为训练中对经验回放的采样批次,qtot表示联合动作值函数,τ为动作-观测对的历史记录,θp为drqn网络的评估网络参数,
6.根据权利要求5所述基于深度强化学习的多无人机任务规划方法,其特征在于,评估网络参数θp的更新方法如下:
其中,θp′为更新后的评估网络参数,
7.根据权利要求5所述基于深度强化学习的多无人机任务规划方法,其特征在于,目标网络参数θt的更新方法如下:
θt′=βθt+(1-β)θp
其中,θt′为更新后的目标网络参数,β为网络替换更新速率,0≤β≤1。