基于强化学习算法的无人艇复杂路径规划方法及装置

文档序号:33470053发布日期:2023-03-15 08:05阅读:117来源:国知局
基于强化学习算法的无人艇复杂路径规划方法及装置
基于强化学习算法的无人艇复杂路径规划方法及装置
【技术领域】
1.本发明涉及无人艇路径规划的技术领域,特别是在时空变化海流环境下,一种基于强化学习算法的无人艇复杂路径规划方法及装置。


背景技术:

2.随着人类海洋活动逐渐增多,无人艇在海洋科学研究、海上搜救等领域的优势逐渐显现。路径规划是无人艇完成海洋生物采样、海底测绘等任务的重要环节,高质量的航行路径可以保证无人艇安全迅速地到达目标以及快速响应环境。近年来,行动器-评判器强化学习算法被广泛用于处理移动机器人的路径规划问题,该算法通过对环境的探索获得知识,并通过反复试验,学习从状态到行为的映射关系。对于路径规划问题,强化学习的优点在于只需较少的环境先验信息,对传感器精度依赖性低,泛化性强等,但是基础的行动器-评判器强化学习算法存在对路径质量评价标准单一的缺点,难以在多目标优化、模型和参数复杂、全局最优规划中给出最佳结果。
3.在长距离的海洋航行任务中,由于无人艇体积小、载荷有限,能源供应成为限制其航行距离的一个重要因素。另外,在潮汐作用下,海面上同一位置的水流速度呈现周期性变化,而同一时刻不同位置的水流速度又会出现显著的差别,船体航行的能量消耗很大程度上受其相对水流的速度的影响,为了减小相对水流的速度对海洋航行任务的影响,现提出一种基于强化学习算法的无人艇复杂路径规划方法及装置。


技术实现要素:

4.本发明的目的就是解决现有技术中的问题,提出一种基于强化学习算法的无人艇复杂路径规划方法及装置,能够在时空变化的海流环境下,生成以节能为目标的无碰撞航行路径,该路径连接了任务起点和终点。
5.为实现上述目的,本发明提出了一种基于强化学习算法的无人艇复杂路径规划方法,包括以下步骤:
6.s1.对预规划海岸线轮廓进行适度膨胀扩展,建立时间-空间变化的海流地图环境模型;
7.s2.采用行动器-评判器强化学习算法,结合安全性回报函数和能耗回报函数分别训练不同的评判器,并将评估值函数进行综合评估,得到行动器-多评判器强化学习算法,利用所述行动器-多评判器强化学习算法计算每个时间步无人艇航行的能量消耗和安全成本,经过多轮训练生成一条无碰撞的能量最优路径。
8.作为优选,步骤s1中,利用全球高分辨率海岸线数据集和海流数据集绘制任务海域在不同时刻的海流图,在处理海岸线数据集时,根据无人艇几何尺寸和运动参数将海岸线轮廓适度膨胀扩展。
9.作为优选,使用插值法获取任意时刻的海流速度。
10.作为优选,全球高分辨率海岸线数据集使用多边形表示海岸线轮廓,在对海岸线
轮廓进行膨胀扩展时,通过计算所有多边形的顶点膨胀后的坐标来获得膨胀后的海岸线轮廓。
11.作为优选,步骤s2中,在训练行动器部分时将各评判器的评估值函数求和,作为综合性评估。
12.作为优选,步骤s2中,每个评判器和行动器都对应一个神经网络进行训练。
13.作为优选,步骤s2中,将无人艇的状态空间定义为其中x,y表示无人艇的坐标,为无人艇的航行方向,u,v为海流速度在坐标x,y方向上的分量,t为任务开始后的累计时间,定义动作空间为航行角度的变化量。
14.作为优选,步骤s2中,定义安全性回报函数为
[0015][0016]
其中,k
safe
为安全性系数,d
thresh
为安全距离阈值,d
obs
为无人艇与最近的障碍物的距离,e
l
为偏移,防止回报值过小,l为无人艇与终点的距离,k
l
用于衡量回报值对距离l的敏感程度。
[0017]
作为优选,步骤s2中,定义能耗回报函数为
[0018][0019]
其中,ke为能耗系数,ρ表示海水密度,cd和a分别表示阻力系数和受力面积,表示无人艇相对海流的速度矢量,表示无人艇的对地速度矢量,d
step
表示每个时间步无人艇的航行距离;无人艇的对地速度和相对速度的关系式为其中为海流速度矢量,根据海流数据集计算得到。
[0020]
本发明还提出了一种基于强化学习算法的无人艇复杂路径规划装置,该装置包括存储单元、传感单元和计算处理单元;所述存储单元用于储存地图和海流信息以及计算机执行指令;所述传感单元用于获取装置的实时位置和运动方向;所述计算处理单元执行所述存储单元储存的计算机执行指令,使得所述计算处理单元执行上述的基于强化学习算法的无人艇复杂路径规划方法,通过模拟仿真环境进行路径预规划,同时在真实的航行状况中接收传感单元获得的信息以校准航行路径。
[0021]
本发明的有益效果:本发明的路径规划方法充分考虑了更贴近实际的海洋环境,即海流不仅在空间上是变化的,在时间上也是变化的时空变化特性,通过分析利用海流的时空变化特性,在起点和终点之间规划出耗能较少的路径,从而使无人艇更好地适应远距离、长航时的海上任务,节省能量消耗,起到延长续航时间的效果。此外,本发明还针对基础的行动器-评判器强化学习算法对路径质量评价标准单一的缺点提出了行动器-多评判器算法,该改进的算法将航行的能量消耗和安全成本同时纳入评估标准,增强了算法的适用性。
[0022]
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
[0023]
图1是本发明的海岸线膨胀算法示意图;
[0024]
图2是本发明的行动器部分的网络结构示意图;
[0025]
图3是本发明的评判器部分的网络结构示意图;
[0026]
图4是本发明的行动器-多评判器算法架构图。
【具体实施方式】
[0027]
本发明的一种基于强化学习算法的无人艇复杂路径规划方法,包括以下步骤:
[0028]
s1.建立时间-空间变化的海流地图环境模型:利用全球高分辨率海岸线数据集和海流数据集绘制任务海域在不同时刻的海流图。
[0029]
由于地图数据存在误差,并且潮汐作用会导致动态变化的海岸线,在获得海岸线数据后,根据无人艇几何尺寸和运动参数将海岸线轮廓适度扩展,使无人艇避免潜在的触底、触礁等碰撞问题。在海岸线数据集中,海岸线轮廓由多边形表示,故只需利用几何运算求出膨胀后所有多边形顶点的位置即可获得膨胀后的海岸线轮廓。
[0030]
其次,海流数据在时间上是离散的,但实际的海流变化是连续的,本发明中使用插值法来估计任意时刻的海流速度。设某点在时刻τi和时刻τ
i+1
的海流速度矢量为和则该点在时刻τi+t的海流速度为
[0031][0032]
s2.利用行动器-多评判器强化学习算法,计算每个时间步无人艇航行的能量消耗和安全成本,经过多轮训练生成一条无碰撞的能量最优路径,该算法具体包括如下步骤:
[0033]
计算无人艇航行的能量消耗的表达式为
[0034][0035]
其中,ρ表示海水密度,cd和a分别表示阻力系数和受力面积,表示无人艇相对海流的速度矢量,表示无人艇的对地速度矢量,d
step
表示每个时间步无人艇的航行距离。无人艇的对地速度和相对速度的关系式为
[0036][0037]
其中为海流速度矢量,可根据海流数据集计算得到。
[0038]
强化学习的基本元素包括智能体、环境、状态、动作、回报和策略。智能体为执行任务的主体;环境为智能体交互的对象;状态为智能体在某一时刻从环境中获得的部分或全部的观测内容;动作是智能体能够采取的行为,它使智能体从原状态转移到新状态;回报用于评估动作的质量,直接定义了强化学习的目标;策略是状态到动作的映射,决定了智能体在面对某一状态时应该采取的动作,它是强化学习的核心,策略的目标为最小化整个任务执行过程中的累计回报。
[0039]
在基于强化学习的海上路径规划任务中,智能体即指无人艇,环境为任务海域,规
定无人艇的状态空间为其中x,y表示无人艇的坐标,为无人艇的航行方向,u,v为海流速度在坐标x,y方向上的分量,t为任务开始后的累计时间。规定无人艇以恒定的对地速度航行,则动作空间可以设置为航行角度的变化量,例如a=[-75
°
,-60
°
,-45
°
,...,45
°
,60
°
,75
°
]。设置回报函数时除了考虑能量消耗,还需要考虑路径的安全性,即不与障碍物发生碰撞。首先由式(1)确定能耗回报函数r
energy
=kee,再规定安全性回报函数
[0040][0041]
其中,k
safe
为安全性系数,d
thresh
为安全距离阈值,d
obs
为无人艇与最近的障碍物的距离,e
l
为偏移,防止回报值过小,l为无人艇与终点的距离,k
l
用于衡量回报值对距离l的敏感程度。上式说明,当无人艇与最近的障碍物距离d
obs
小于安全距离阈值后,安全性回报函数与d
obs
呈线性关系,当k
safe
为负数时,d
obs
越小,回报值越小,作为增加了无人艇发生碰撞的概率的惩罚。
[0042]
本发明在基础的行动器-评判器强化学习算法上进行修改,用安全性回报函数和能耗回报函数分别训练不同的评判器,并在训练行动器部分时将两个评判器的评估值函数v
safe
(s)与v
energy
(s)求和,作为综合性评估。上述算法称为行动器-多评判器算法,每个评判器和行动器都对应一个神经网络进行训练。经训练后生成的路径即在时空变化海流环境下,算法给出的能量最优路径。
[0043]
实施例1
[0044]
获得海岸线数据后,对海岸线轮廓进行膨胀,如图1所示。设膨胀距离为r,考虑到在海岸线夹角处存在海水冲击沙滩底,故在虚拟顶点弧线间距离为r+δ。其中,δ值根据海岸线夹角进行调整,当ab、bc之间夹角大于等于45
°
时,δ=0;当ab、bc之间夹角小于45
°
时,δ=0.1r。在本实施例中,ab、bc之间夹角大于45
°
,δ=0。折线a-b-c膨胀至a-b-c,线段ab与ab、bc与bc相互平行且垂直距离为r,ob为角平分线,θ
abm
和θ
cbm
分别表示线段ab和cb与水平线的夹角,膨胀算法的目标即计算交点b(xb,yb)。首先计算夹角θ
abm
和θ
cbm

[0045][0046]
接着计算角θ
obc
和bb
[0047][0048]
根据以上推导,可将(xb,yb)表示为
[0049][0050]
对轮廓中的所有顶点应用此算法,即可获得膨胀后的轮廓。
[0051]
由于海洋科学和卫星图像处理技术的发展,海流的状态已经能被预测,根据预测
的海流数据,可以构建未来时刻的海流环境模型。首先在仿真环境中对无人艇进行训练。给定起点和终点的坐标,构建行动器和评判器的网络结构,其中,行动器网络的输入为i维状态,输出为n维概率值,其中n为动作空间的维数。由于输出向量的每个元素表示选择该动作的概率,在网络中加入softmax层进行归一化,如图2所示;评判器网络的输入为i维状态,输出为值函数v,如图3所示。本发明中存在两个路径质量评价准则,故需建立两个评判器网络,分别为安全性评估评判器和能耗评估评判器,输出分别为值函数v
safe
(s)和v
energy
(s)。在对网络参数进行迭代更新时,将两个网络的输出进行累加,作为综合性评估评判器的输出v
com
(s),取折扣系数0≤γ≤1,则每一步的时序差分误差表示为
[0052]
td=(r
safe
+r
energy
+γv
com
(s
t+1
))-v
com
(s
t
)
[0053]
网络参数的更新方式采取通用的反向传播算法,定义评判器部分的损失函数为
[0054][0055]
行动器部分的损失函数为
[0056]eactor
=log(y
k,t
)
×
td
[0057]
其中y
k,t
是在t时刻根据网络输出概率对动作进行采样后,所得动作对应的概率值。利用损失函数计算梯度,就可以对参数进行更新。行动器-多评判器算法架构如图4所示。
[0058]
规定每轮训练开始时无人艇都处于起点位置,每个时间步无人艇会执行一个动作,改变或保持航行方向并向此方向行驶固定的距离。若无人艇到达终点或与障碍物发生碰撞,该轮训练结束,无人艇的位置初始化为起点,重新开始新一轮训练。无人艇到达终点时,会获得较高的回报值作为奖励,而当无人艇与障碍物发生碰撞时,会获得较低的回报值作为惩罚。
[0059]
经过一定次数的训练后,算法将逐渐收敛,返回一条连接起点和终点的能量最优路径,该路径是仿真环境中获得的预规划路径。当需要无人艇执行实际的航行任务时,在相应时刻和相应位置将其启动,使其跟踪生成的能量最优路径,此时传感单元中的gps、电子罗盘等硬件设备会实时输出无人艇的位置和航向等信息,计算处理单元可以利用pid等线性或非线性控制方法使实际的航行路线不发生偏离。最终使无人艇以较少的能耗到达终点。
[0060]
本发明的一种基于强化学习算法的无人艇复杂路径规划装置,所述装置适用于无人艇本体,包括:存储单元、传感单元和计算处理单元。所述存储单元储存地图和海流信息以及计算机执行指令;所述传感单元含有gps、电子罗盘等传感器,可以获得装置的实时位置和运动方向;所述计算处理单元执行所述存储单元储存的计算机执行指令,使得所述计算处理单元执行上述的基于强化学习算法的无人艇复杂路径规划方法,通过模拟仿真环境进行路径预规划,同时在真实的航行状况中接收传感单元获得的信息以校准航行路径。
[0061]
上述实施例是对本发明的说明,不是对本发明的限定,任何对本发明简单变换后的方案均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1