本发明属于智能物流领域,尤其涉及基于深度强化学习的无人机物流路径规划方法。
背景技术:
随着近年来无人机技术的蓬勃发展,越来越多的物流企业开始尝试使用无人机作为城市主体物流的补充。相较于传统的地面物流配送方式,使用无人机进行物流配送更加灵活,减少人工劳力,提高配送覆盖范围等优势,因此无人机物流被认为是解决物流的最后一公里的合理途径。但是使用无人机进行物流运输不仅需要规划合理的配送路径,还需要考虑在配送过程中的无人机飞行的安全轨迹,因此在设计相应的无人机物流路径规划方法的时候需要同时兼顾物流配送过程的路径优化和无人机飞行过程中的空域管理两个,在无人机安全运行的情况下最大限度的减少配送成本将是无人机物流路径规划的一项重要目标。
无人机物流的路径规划过程相较于传统的车辆路径问题还包含了对无人机起落位置的规划,以及对无人机飞行过程中的实时路径规划。而国内外现有的物流路径规划的方法中,主要是基于启发式算法或者精确算法对车辆路径问题进行研究,未涉及路径问题和无人机飞行控制过程。因此,目前亟需一种可以同时考虑在使用无人机进行物流配送时同时考虑物流和飞行两方面路径规划的方法。
技术实现要素:
本发明提供一种基于深度强化学习的两阶段无人机物流路径规划方法。该方法将基于无人机的物流路径规划问题划分为两个过程:预处理及模型训练;两阶段无人机路径规划,具体的,两阶段无人机路径规划包括:无人机物流路径规划阶段以及无人机飞行路径规划阶段。
预处理及模型训练过程收集训练深度强化学习模型的数据,并结合离线数据对模型进行训练,其特征在于,包含以下步骤:
1)首先将物流服务区域内空域进行空间格栅化操作,结合空域内障碍物分布设置初始化格栅状态,标记禁止进入的格栅,并基于实际空域构建仿真环境。结合空间格栅划分结果对现有无人机人工操纵轨迹数据,构建离线训练数据集;
2)确定深度强化学习的状态空间s及动作空间a,并根据配送任务设置深度强化学习回报值r,回报值r由两部分组成,具体的r=rl+rs,其中rl表示无人机当前位置与目标位置的距离回报,rs表示无人机动作安全回报值,
3)在训练过程中构建训练经验池存储经验数据(s,a,r,s′),从经验池中按批训练方式分批次进行数据采样,结合梯度下降算法训练提供q值的神经网络参数。
4)在仿真环境下,随机生成物流路径,基于训练后的深度强化学习模型模拟无人机飞行路径规划阶段,对模型进行在线训练。同时,将仿真模拟作为基于深度强化学习的两阶段无人机物流路径规划方法第一阶段的估计无人机飞行费用的方式。
无人机物流路径规划阶段确定物流配送过程中待顾客的访问顺序及无人机启停位置,结合无人机飞行路径确定在保证配送安全情况下的最优配送策略,其特征在于:包含以下步骤,
1)收集服务区域内部的待服务顾客点i的位置li,配送需求qi,服务时间si和可以对其进行服务的时间窗[ai,bi],构造顾客数据集;
2)基于无人机启停点m的无人机数量nm以及最大可容纳无人机数量
3)使用基于邻域搜索的算法对初始物流配送路径方案进行优化,其特征在于:主要以下步骤:(1)对现有物流配送路径方案进行顾客点删除操作,即基于给定的删除策略删除一部分现有物流配送路径方案中的顾客节点,放入待插入顾客集合中;(2)从待插入顾客集合中基于给定的插入策略选择未被安排的顾客插入物流配送路径方案,直到所有顾客均被分配完毕;(3)对删除和插入得到的新的物流配送路径方案进行局部邻域搜索,找到费用较少的物流配送路径;4)判断邻域搜索过程是否收敛,若未收敛则返回步骤(1)继续循环,若收敛则采用当前得到的配送费用最少的物流配送路径方案。
无人机飞行路径规划阶段基于深度强化学习对无人机飞行路径进行实时规划和调整,保证无人机在配送过程中的安全飞行,其特征在于:包含以下步骤,
1)构建无人机飞行路径任务集,其特征在于,基于无人机物流路径规划阶段得到的无人机物流配送路径方案生成无人机飞行任务序列qni={m,…,i,…,m′},其中m和m′分别表示无人机ni起飞和降落的无人机停靠点;
2)基于深度强化学习模型,实时选择所有被安排物流配送路径的无人的飞行动作,并更新其状态空间和周围空间格栅可进入状态。当无人机ni所处位置已经与目的地位置重合并且完成所有配送任务,对无人机ni的飞行路径规划过程终止;
3)重复步骤2)直到所有无人机均已到达预设目的地并完成配送任务。
本发明具有以下优点:
1.本发明在无人机物流配送的路径规划方法中结合了基于深度强化学习的无人机飞行路径规划过程。同时优化无人机的物流中两个维度的路径规划问题,设计了相应的两阶段无人机路径规划方法。使用本发明采用的两阶段的无人机路径规划方法可以有效保证优化得到的无人机物流路径的安全性和高效性。
2.本发明采用的第一阶段无人机配送路径规划阶段中对于无人机配送过程中的配送成本,配送时间以及路径的安全性使用基于深度强化学习的无人机飞行路径规划模型在仿真环境中运行得到的模拟结果,使得第一阶段的物流路径规划结果更加契合无人机的飞行过程,减少两阶段模型费用估计上的差异,提高本发明实际使用过程中的精确度。
3.本发明采用已有的无人机飞行轨迹数据的静态训练以及仿真环境下的动态训练过程相结合的方式构建基于深度强化学习的无人机飞行路径规划方法。在实际使用中,采用训练完成的深度强化学习模型对无人机配送过程进行控制,相较于传统的路径规划算法,节省了实际使用过程中实时计算无人机最优策略的时间,并且保证了与实际配送环境的匹配,保障了配送过程的安全。
附图说明
图1为基于深度强化学习的两阶段无人机路径规划方法的基本流程图;
图2为无人机飞行路径规划阶段可选择动作示意图;
图3为无人机物流配送路径规划阶段的示意图。
具体实施方式
以下将结合附图,对本发明的具体实施方案做详细说明:
本发明采用一种基于深度强化学习的两阶段无人机物流路径规划方法,其具体步骤如图1所示,具体包括:
1)预处理及模型训练阶段:
(1)首先将配送区域内进行空间格栅化操作,并构建仿真环境,根据配送空域内部的障碍物分布设置不可进入的空域,为每个空间格栅网格设置初值,其中1表示可以被无人机进入,0表示不可被无人机进入。收集现有无人机人工操纵轨迹数据,构建离线训练数据集;
(2)确定深度强化学习的状态空间s及动作空间a。其中状态空间主要体现无人机所处的空间位置,载重状态和剩余续航,具体为:
(3)根据配送任务设置深度强化学习回报值r,回报值r由两部分组成,具体的r=rl+rs,其中rl表示无人机当前位置与目标位置的距离回报,具体的rl计算方式可由下式给出:
rs表示无人机动作安全回报值,具体的计算方式可由下式给出:
(4)在训练过程中构建训练经验池存储经验数据(s,a,r,s′),从经验池中按批训练方式分批次进行数据采样,训练提供q值得神经网络参数,训练过程采用梯度下降算法更新参数,具体得损失函数可以表示为:(yt-qt(s,a;θ))2,其中yt由下式计算:
其中参数γ表示回报值的折减系数,在具体实例中取用0.95,式中所述终止条件包括完成配送任务回到无人机停靠点,驶入标记为0的区域,驶入标记为0但是可能有其他无人机进入的区域以及达到无人机续航上限。训练过程中的动作选择遵循ε-greedy策略,即在概率ε下选择可以获得最大回报值的动作,而在概率1-ε下随机选择动作空间a一个动作。
(5)在仿真环境下,随机生成物流路径数据得到在线训练数据集,具体的,包括路径的开始位置
2)无人机物流配送路径规划阶段:
(1)构造物流数据集合,收集物流配送区域内的待服务顾客点i的位置li,配送需求qi,服务时间si和可以对其进行服务的时间窗[ai,bi],构造顾客数据集,顾客节点以序号i表示。确定各无人机启停点(以序号m表示)的无人机数量nm以及最大可容纳无人机数量
(2)采用贪婪插入法构造初始物流配送路径方案,具体包扩无人机ni的起降位置m和m′及无人机ni服务的顾客序列{…i…},如图3所示m和m′分别表示无人机物流路径的起点和终点,在无人机配送过程中依此服务三名顾客i,j和k。具体的贪婪插入法可归纳为:依此从待服务顾客集合中顺序选择一名顾客将其插入当前已经得到的无人机物流配送路径集合中,插入的规则为选择插入后使得新的配送路径相较插入前的配送路径的配送费用增长最小。依此重复以上插入操作,直到所有顾客都被分配到路径之中。特别的,无人机配送费用采用在仿真环境中模拟构建得到的临时路径下无人机的飞行费用消耗的方式得到,无人机的动作依据选择最大回报的策略产生。
(3)使用基于邻域搜索的算法优化物流配送路径:具体的过程为:
步骤1:依据给定的删除策略删除现有路径集合中比例为α的顾客,实例中采用的α的范围为0-1。具体的:可采用的删除策略包括,随机挑选现有路径集合中的比例为α的顾客删除;选择删除后可以使路径费用减少最多的比例为α的顾客;选择删除后可以使得路径费用减少第k位的顾客(k-regret删除,在实例中k选择2,3及4);随机将一架无人机服务的所有顾客删除;选择当前费用最大的一架无人机删除其所有顾客。将所有被删除的顾客放入待插入顾客集合中。
步骤2:依此按照给定的插入策略从待插入顾客集合中挑选顾客插入使得插入以后的飞行费用最小的位置,其中飞行费用依据无人机飞行仿真环境结合训练得到的深度强化学习模型按照选择最大回报的动作得到。具体的插入操作包括:随机从待插入顾客集合中选择顾客;依此选择插入后使得费用增长最小的顾客;依此选择插入后使得费用增长第k位的顾客(k-regret插入,在实例中k选择2,3及4)。
其中每个删除及插入操作均具有选择比重wi,每次迭代中按照下式:
计算各删除插入操作选择概率pi,并依据概率选择删除及插入操作。
步骤3:若未达到最大循环次数l1,返回步骤1继续循环,循环次数l1=l1+1。若达到最大循环次数则调用局部邻域搜索策略优化当前结果,具体的:局部邻域搜索的策略包括:交换路径内两个顾客的顺序,交换路径间两个顾客顺序,交换路径间若干在服务序列中位置相同的顾客。实例中局部邻域搜索的迭代次数为l2。
步骤4:判断是否达到最大搜索循环次数l,若未达到循环次数,更新删除插入操作权重返回步骤1,并设置循环次数l=l+1,否则输出当前最好的结果给第二阶段的无人机飞行路径规划模型。具体的:删除及插入操作的比重按照下式更新:
其中,参数r表示依据删除插入操作得分更新比重的系数,在实例中,η的取值范围为0-1。ρi表示各操作在迭代过程中出现的次数,πi表示各操作在迭代过程的得分,具体的:当删除插入操作后得到一个新的最优解,得分为33,当删除插入操作后得到一个不是最优解但是优于操作之前的解,得分为9,当删除插入操作后得到的解差于操作之前的解,但基于模拟退火机制被选择时,得分为13。
3)基于深度强化学习的无人机飞行路径规划阶段:
(1)构建无人机飞行路径任务集,具体的,基于第一阶段的基于邻域算法得到的物流配送路径,构建无人机ni的飞行路径序列qni={m,…,i,…,m′},其中m和m′分别表示无人机ni起飞和降落的位置。根据飞行路径序列确定飞行路径规划阶段的起点和终点即为(xm,ym,hm),(xm′,ym′,hm′)。
(2)无人机动作选择,具体的,无人机ni在初始时刻t0由起点(xm,ym,hm)出发,在任意时刻t首先判断是否已经到达终点(xm′,ym′,hm′),若到达终点则无人机的ni路径规划已完成。若未到达终点,则依据神经网络输出的q值选择最大的q值对应的动作,产生t+1时刻的无人机状态s′。特别的,在无人机飞行过程中,由无人机携带的雷达实时检测相邻空间网格内部是否存在障碍物,若存在障碍物则实时将该网格的状态标记为0,即不可被进入。
(3)重复步骤(2)直到无人机完成序列中安排的配送任务并最终抵达预设降落位置。
以上仅是本发明的优选实施方式,本发明的保护范围并不局限于上述实施案例,值得指出,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。