一种基于深度强化学习的多无人机任务规划方法

文档序号:26394631发布日期:2021-08-24 16:04阅读:来源:国知局

技术特征:

1.一种基于深度强化学习的多无人机任务规划方法,其特征在于,包括以下步骤:

(1)根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;任务场景为多个无人机从起点出发,在最短的时间内对多个电力设施进行抵近侦察;所述分布式部分马尔科夫决策过程模型包含元组g=<s,u,p,r,o>,其中s表示环境状态,o表示观测状态,u表示无人机动作,p表示状态转移函数,r表示即时奖励,具体如下:

环境状态s:设定每一时刻的环境总体状态为st=(ynt,loct),其中ynt为任务区域中全部电力设施的巡检情况,ynt=(ynt,1,ynt,2,...,ynt,n),ynt,i∈{0,1},0表示未巡检或正在巡检,1表示巡检完毕,loct表示多无人机自身位置信息,loct=(loct,1,loct,2,...,loct,m),其中n表示目标电力设施个数,m表示无人机个数;

观测状态o:设定每个无人机的观测量为ot,j=(dynt,j,loct,j),其中dynt,j表示某无人机在t时刻自身距离x范围内的所有电力设施的当前巡检状态,loct,j为每个无人机自身当前时刻的位置状态;

无人机动作u:将单个无人机巡检的动作过程集合成一个抽象动作,将向电力设施飞行,对设施进行抵近巡视、信息采集集合为动作ut,tg,将多个无人机的动作集合为一个联合动作ut,作用于环境并引起状态转移,每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤,完成当前动作后进行下一步动作决策;

状态转移函数p:将多无人机看作多智能体,在任务过程中,每个无人机将从当前环境总体状态st中获取自身的状态观测ot,j,按照自身内部策略πt,j得到输出动作ut,j,多个智能体的动作结合形成联合动作ut,环境将根据状态转换函数p(st+1|st,ut)做出对应的环境状态转移,得到下一时刻状态st+1,并且以此循环往复,直至任务结束;

即时奖励r:t时刻的即时奖励rt包括探索奖惩、协作奖惩和路程奖惩,即时奖励为三种奖励之和;

(2)在步骤(1)建立的任务模型基础上,设计基于qmix的任务规划算法;为每个智能体建立一个drqn网络,该drqn网络包括输入全连接层、门控循环网络层和输出全连接层构成;drqn网络的输出是该智能体每个动作的概率,然后通过ε-greedy算法来选择动作,以ε的概率进行随机选择,以1-ε的概率使用贪心算法选择最大q值的动作,将多无人机组成的联合动作ut与环境进行交互,并将经验存于经验池d=<st,ut,rt,st+1>中;将每个智能体的drqn网络输出的送入mixing网络,该mixing网络将部分动作值函数混合为联合动作值函数,它代表每个智能体的独立值函数之和,根据联合动作值函数建立损失函数,通过最小化损失函数对drqn网络进行训练。

2.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,用tg={tg1,tg2,…tgn}表示目标电力设施,无人机群表示为drone={drone1,drone2,…dronem},n表示目标电力设施个数,m表示无人机个数,将多无人机任务归纳为一个受约束的优化问题:

其中,di表示目标tgi的复杂程度,xj,i,t表示无人机dronej在t时刻是否对目标tgi进行抵近侦察,xj,i,t∈{0,1},其中1表示正在巡检,0表示未巡检,t表示设定总体飞行时间为t个单位时间,τj表示无人机dronej对目标电力设施的巡查速率,θ是无人机的飞行策略。

3.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,探索奖惩指的是奖励无人机前去巡检未被检查的设施,即

协作奖惩指的是相邻无人机协作巡检同一电力设施的奖赏,即

其中cop为协作标志位,1表示出现协作状态,0表示未协作;

路程奖惩与无人机飞过的路程距离lpa成反比,以引导无人机用最短的路程、最少的时间来完成巡检任务,即

对于单个无人机来说,即时奖励表示为三种奖励之和,即

全部无人机的奖励之和为其中nex、nel和npa均为设定的常数。

4.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,对于drqn网络,输入全连接层采用relu激活函数:

其中,w1,b1分别为输入全连接层的权重参数和偏置;

然后将x1输入门控循环网络层,包括更新门、重置门和遗忘门:

zt=σ(wz(ht-1,x1))

rt=σ(wr(ht-1,x1))

ht′=tanh(w[rtht-1,x1])

ht=(1-zt)ht-1+ztht′

其中,zt为更新门输出,ht为t时刻的输出,ht-1为上一时刻的输出,rt为重置门输出,ht′为遗忘门输出,wz为更新门的权重参数,wr为遗忘门的权重参数,w为遗忘门的权重参数,σ为sigmoid激活函数;

循环更新l次,输出hl,进入输出全连接层,采用softmx激活函数:

其中,w2,b2分别为输出全连接层的权重参数和偏置。

5.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,所述损失函数如下:

其中,b为训练中对经验回放的采样批次,qtot表示联合动作值函数,τ为动作-观测对的历史记录,θp为drqn网络的评估网络参数,为第i批次的折扣累计回报,ri第i批次的即时奖励,γ为折扣率,θt为drqn网络的目标网络参数。

6.根据权利要求5所述基于深度强化学习的多无人机任务规划方法,其特征在于,评估网络参数θp的更新方法如下:

其中,θp′为更新后的评估网络参数,为学习率,为梯度算子。

7.根据权利要求5所述基于深度强化学习的多无人机任务规划方法,其特征在于,目标网络参数θt的更新方法如下:

θt′=βθt+(1-β)θp

其中,θt′为更新后的目标网络参数,β为网络替换更新速率,0≤β≤1。


技术总结
本发明公开了一种基于深度强化学习的多无人机任务规划方法。首先,根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;然后,在建立的任务模型基础上,设计基于QMIX的任务规划算法。本发明设计了多智能体强化学习算法与协作任务奖赏函数,使得多无人机在集中训练后,执行任务时可以在分布式框架下根据不同的环境状态与自身观测做出协作完成任务的动作,使任务完成时间减少,最大化任务收益。

技术研发人员:马瑞;欧阳权;吴兆香
受保护的技术使用者:南京航空航天大学
技术研发日:2021.05.14
技术公布日:2021.08.24
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1