基于Actor-Critic-Advantage网络的无人艇轨迹跟踪控制方法

文档序号:33479314发布日期:2023-03-15 11:34阅读:142来源:国知局
基于Actor-Critic-Advantage网络的无人艇轨迹跟踪控制方法
基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法
技术领域
1.本发明涉及无人艇技术领域,特别涉及一种基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法。


背景技术:

2.近年来,随着陆地燃料资源的枯竭,占据地球面积约71%的海洋战略地位随之不断提高。为充分勘探和开采海洋资源,海洋装备技术的发展不可或缺。以无人艇(包括水下航行体、水下机器人、水面无人船等)为代表的海洋智能装备是现阶段海上作业的主要载体。
3.近年来,无人舰艇的应用日益增长,目前,无人艇已经在诸如围捕、驱离、扫雷、反潜之类的军事领域以及诸如物资补给、地形测绘、海面营救、无人搜索之类的民事领域发挥重要作用。
4.但无人艇的轨迹跟踪控制往往存在无法保证精准性、时效性的问题。


技术实现要素:

5.本发明的目的在于提供一种基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法,以解决现有的无人艇的轨迹跟踪控制存在无法保证精准性、时效性的问题。
6.为解决上述技术问题,本发明提供一种基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法,包括:
7.向actor-critic网络中引入优势函数估计网络,以形成新型actor-critic-advantage网络;
8.训练新型actor-critic-advantage网络以进行无人艇轨迹跟踪控制;
9.使用单步获取策略梯度方式执行无人艇轨迹跟踪训练,利用优势函数估计网络输出值得到策略梯度更新策略网络;
10.基于反步法求解虚拟控制律设计分段奖励函数;以及
11.向奖励函数中引入虚拟控制律,使得训练无人艇的速度输出趋向于虚拟控制律。
12.可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
13.步骤一:搭建无人艇轨迹跟踪的环境模型,模拟无人艇在具有干扰的真实海洋环境航行,随机生成具有时间约束的期望轨迹和无人艇的起始位置和艏向角;
14.无人艇轨迹跟踪与垂直空间无关,根据建立的三自由度欠驱动无人艇数学模型获得无人艇在环境模型中任意时刻的状态信息;
15.无人艇的运动学模型表达式为:
[0016][0017]
其中,η=[x,y,ψ]
t
,其中(x,y)表示无人艇的位置,ψ表示船体坐标系与大地坐标
系之间的夹角,即无人艇的艏向角;υ=[u,v,r]
t
,其符号分别表示船体坐标系下的纵向速度、横向速度以及艏摇角速度,r(η)表示船体坐标系变换到大地坐标系的旋转矩阵;
[0018]
无人艇的动力运动学模型表达式为:
[0019][0020]
其中,τ=[τu,0,τr]
t
,τu、τr分别表示环境模型中无人艇的纵向推力和转向力矩,τe=[τ
eu

ev

er
]
t
,τ
eu
、τ
ev
、τ
er
分别表示海洋环境在u、ν、r方向上对无人艇施加的干扰,m、c(υ)、d(υ)分别表示无人艇的惯性矩阵向心力矩阵以及阻尼矩阵。
[0021]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
[0022]
步骤二:设置动作空间和状态空间;
[0023]
根据环境模型,无人艇的当前时刻t的状态空间设计为s
t
=[xe,ye,ψ,ψd,u,ν,r],其中xe,ye表示环境模型中无人艇在大地坐标系下的跟踪轨迹位置误差,ψ,ψd表示当前艏向角和期望艏向角,u,v和r分别表示船体坐标系下无人艇的纵向速度,横向速度和艏向角速度;
[0024]
无人艇的当前时刻t的动作空间为a
t
=[τu,τr],分别表示环境模型中无人艇的纵向推力和转向力矩,经过动作转换器转化为作为输入与环境模型交互。
[0025]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
[0026]
步骤三:设计新型actor-critic-advantage网络,其包括actor网络、critic网络和advantage网络,分别对应决策网络、评价网络以及优势函数估计网络,其更新方式具体为:
[0027]
步骤3.1:评价网络的输入为状态s
t
,输出为状态价值评价网络根据估计的状态价值和目标状态价值差值的平方均值作为损失函数进行更新,其损失函数为:
[0028][0029]
其中,γ为折扣系数,取值[0,1],r
t
为无人艇与环境交互获得的实时奖励,通过步骤四计算获得当前时刻的奖励。
[0030]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括
[0031]
步骤3.2:根据广义优势估计方法得到优势函数的估计为:
[0032][0033]
其中,λ为误差权重系数,决定了估计量的偏差大小,取值[0,1];δ
t
为时序差分误差,
[0034]
广义优势函数估计方法包括:通过引入优势函数估计的方差,减小δ
t
作为优势函数的偏差,广义优势函数估计方法计算出优势函数估计值,使得偏差和方差更好平衡;
[0035]
根据广义优势函数估计的表达式得到,当前状态和动作下的优势函数估计值与后续时刻有关,对广义优势函数估计进行如下推导:
[0036][0037]
得到优势函数估计递推公式:
[0038]
a(s
t
,a
t
)=δ
t
+γλa(s
t+1
,a
t+1
)
[0039]
构造优势函数估计网络以近似广义优势函数估计值a(s
t
,a
t
),优势函数估计值满足下式:
[0040][0041]
优势函数估计网络输入为环境模型中的状态s
t
和动作a
t
,输出为优势函数估计值a
ω
(s
t
,a
t
),优势函数估计网络根据优势函数估计值a
ω
(s
t
,a
t
)和目标优势函数估计值δ
t
+γλa
ω
(s
t+1
,a
t+1
)差值的平方差均值作为损失函数进行更新,其损失函数为:
[0042][0043]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
[0044]
步骤3.3:决策网络的输入为环境模型中状态s
t
,输出为无人艇的动作a
t
~π(a
t
|s
t
),其中π(a
t
|s
t
)表示在状态s
t
下执行动作a
t
的概率;
[0045]
求解策略网络的策略梯度时使用优势函数真实值:
[0046]aπ
(s
t
,a
t
)=q
π
(s
t
,a
t
)-v
π
(s
t
)
[0047]
其中,a
π
(s
t
,a
t
)为优势函数真实值,q
π
(s
t
,a
t
)为动作状态价值函数真实值,v
π
(s
t
)为状态价值函数真实值;
[0048]
决策网络π
θ
(a|s)的参数θ更新表达式为:
[0049][0050]
其中,α为决策网络学习率;
[0051]
决策神经网络的参数更新中所用为优势函数真实值,在实际操作中,用代替优势函数真实值计算,δ
t
中的状态值通过评价网络得到,由δ
t
作为优势函数存在偏差;
[0052]
广义优势函数估计方法通过对后续时刻的δ
t+l
,l=0,1,...,∞求和得到,因此通过引入优势函数估计网络a
ω
(s,a)以近似优势函数估计值a(s
t
,a
t
);
[0053]
所以决策神经网络策略梯度为:
[0054][0055]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
[0056]
步骤四:确定奖励函数;
[0057]
无人艇轨迹跟踪控制是无人艇从任意位置出发到达具有时间约束的期望轨迹并以尽量小的跟踪误差沿期望轨迹航向;
[0058]
通过设计奖励函数对当前时刻环境模型中状态进行评估,以完成无人艇轨迹跟踪的控制目标;
[0059]
遵循反步法推导的框架,构造坐标变化:z1=η-ηd,z2=v-vd;其中,ηd为期望轨迹,υd为虚拟控制律;
[0060]
针对步骤一所提无人艇数学模型,设计基于反步法的虚拟控制律νd,确保跟踪误差z1足够小以达到轨迹跟踪目标;设计李雅普诺夫函数:
[0061][0062]
显然v1≥0,正定,对其求一阶导:
[0063][0064]
理想情况下,虚拟控制律υd设计为:
[0065][0066]
其中k1为对称正定矩阵;
[0067]
保证υ

υd即那么η

ηd,实现无人艇轨迹跟踪控制;
[0068]
取k1=diag(k
11
,k
22
,k
33
)虚拟控制律νc转换程方程组为:
[0069][0070][0071][0072]
设计奖励函数
[0073][0074]
其中,l1,l2,l3是调节系数,de为期望轨迹跟踪误差。
[0075]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
[0076]
步骤五:基于新型actor-critic-advantage网络的控制器训练;
[0077]
步骤5.1:构建步骤二的网络,包括五个网络结构:当前评价网络目标评价网络广义优势函数估计网络a
ω
(s,a)、当前策略网络π
θ
(a|s)、以及目标策略网络π
θ

(a|s),当前评价网络与目标评价网络结构一致,当前策略网络与目标策略网络结构一致;
[0078]
步骤5.2:初始化从经验数据缓冲区获取的经验样本数量e和模型环境中无人艇的状态,并使用随机权重初始化网络模型参数ω,θ,当前评价网络的参数复制到目标评价网路当前策略网络的参数复制到目标策略网络θ

θ


[0079]
步骤5.3:根据当前无人艇的状态s
t
输入到当前策略网络中,输出动作a
t
~π
θ
(a
t
|s
t
),输入动作转换器得到动作然后输入到环境模型中,得到下一时刻的状态s
t+1
,并基于步骤四得到即时的奖励r
t
,最后再将状态s
t+1
输入到当前策略网络中;
[0080]
循环执行步骤5.3,将每个过程产生的经验样本(s
t
,a
t
,r
t
,s
t+1
)存入经验数据缓冲区。
[0081]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
[0082]
步骤5.4:当经验数据缓冲区的样本数量超过e时,终止循环步骤5.3,并从经验缓冲区中选取经验样本(si,ai,ri,s
i+1
),i=1,...,e,将状态si,s
i+1
分别输入当前评价网络和目标策略网络得到状态值计算并基于步骤2.1计算当前评价网络训练的损失函数:
[0083][0084]
基于此损失函数更新当前评价网络的权重参数;
[0085]
步骤5.5:将动作s
i+1
输入目标策略网络中输出动作a
i+1
~π
θ
(a
i+1
|s
i+1
),得到动作a
i+1
,然后再把si,ai和s
i+1
,a
i+1
分别输入到优势函数估计网络得到优势函数估计值a
ω
(si,ai)和a
ω
(s
i+1
,a
i+1
),并基于步骤2.2计算优势函数估计网络训练的损失函数:
[0086][0087]
可选的,在所述的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法中,还包括:
[0088]
基于此损失函数更新优势函数估计网络的权重参数;
[0089]
步骤5.6:对于当前策略网络的训练采用策略梯度算法更新训练当前策略网络的参数,根据步骤2.3推导计算策略梯度:
[0090][0091]
步骤5.7:采用软更新方式对目标评价网络和目标策略网络的参数进行更新:
[0092][0093]
θ

=τθ+(1-τ)θ

[0094]
其中τ为软更新系数,取值[0,1];
[0095]
步骤5.8:循环执行5.3-步骤5.7,观察是否达到训练结束条件,若达到,则结束训练,策略网络产生最优策略使用最优策略可以控制任意初始位置的无人艇,完成任意期望轨迹的跟踪。
[0096]
本发明的发明人通过研究发现,针对无人艇轨迹跟踪控制方法的研究,现有技术往往只专注于常规actor-critic网络实现无人艇轨迹跟踪控制的方法,尚未深入研究actor-critic网络能否通过改进,充分发挥actor-critic网络在无人艇轨迹跟踪控制问题的优势,从而导致强化学习在无人艇轨迹跟踪控制上应用的局限性。
[0097]
另外,基于广义优势函数方法的强化学习,只能通过固定多步的运行获取数值,然后从最后时刻向前递推计算每一时刻的优势函数值,再采用策略梯度更新策略网络,这就造成了现有技术方法的策略梯度的获取困难且计算量大的难题。需开发采用单步获取策略
梯度方式更新策略网络用以无人艇轨迹跟踪的快速、有效训练。
[0098]
最后,现有的无人艇奖励函数的设计往往只考虑欧式距离信息变化。而忽略了速度信息的变化,特别是欧式距离信息x方向和y方向上的位置误差的耦合,无法准确对当前无人艇的状态做出评估,进而导致无人艇的轨迹跟踪训练效果不佳,若将位置误差信息设置子奖励函数,以权重参数的形式构成奖励函数,则会导致浪费大量时间在奖励函数的权重参数的调试上。因此需要开发基于反步法求解虚拟控制律设计分段奖励函数,可实现无人艇轨迹跟踪误差,及时有效,小波动收敛,满足跟踪误差精度要求。
[0099]
基于以上洞察,本发明提供了一种基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法,训练新型actor-critic-advantage网络实现无人艇轨迹跟踪控制:新型actor-critic-advantage网络是在actor-critic网络基础上引入优势函数估计网络,克服了优势函数估计不准确导致因估计偏差大引起的训练收敛效果差甚至不收敛的困难,解决了无人艇轨迹跟踪训练过程中样本利用率低的问题,确保无人艇轨迹跟踪训练过程的平稳性。
[0100]
本发明的无人艇轨迹跟踪训练采用单步获取策略梯度方式更新策略网络:不再局限于广义优势函数估计方法在actor-critic网络在中需要采用多步获取策略梯度的方式,充分利用更易于获取的优势函数值得到策略梯度更新策略网络,快速、有效的实现无人艇轨迹跟踪控制的训练目标。
[0101]
本发明基于反步法求解虚拟控制律设计分段奖励函数:克服了以位置误差设计的奖励函数无法确保无人艇跟踪误差控制方法的稳定性的困难,奖励函数中引入虚拟控制律,训练无人艇的速度输出趋向于虚拟控制律,保证无人艇跟踪误差及时、有效和小波动收敛,确保无人艇跟踪误差满足跟踪误差精度要求。
[0102]
本发明针对无人艇轨迹跟踪控制问题提出一种基于新型actor-critic-advantage网络的无人艇轨迹跟踪控制方法研究,旨在解决在基于actor-critic网络的无人艇轨迹跟踪控制训练过程中,因优势函数估计的偏差过大导致无人艇轨迹跟踪训练不收敛或收敛结果较差的问题,通过所提改进的方法,能够快速完成无人艇轨迹跟踪控制目标,同时可以提高轨迹跟踪时抗干扰能力,具有高度的自适应能力。
附图说明
[0103]
图1是本发明一实施例的无人艇大地坐标系og-xgyg与船体坐标系ob-xbyb描述与模型示意图;
[0104]
图2是本发明一实施例的步骤二中所构造神经网络之间的关系示意图;
[0105]
图3是本发明一实施例的无人艇在规定时间30s内实现轨迹跟踪控制示意图;
[0106]
图4是本发明一实施例的经过新型actor-critic-advantage网络训练的控制器控制无人艇跟踪期望轨迹的效果示意图。
具体实施方式
[0107]
下面结合具体实施方式参考附图进一步阐述本发明。
[0108]
应当指出,各附图中的各组件可能为了图解说明而被夸大地示出,而不一定是比例正确的。在各附图中,给相同或功能相同的组件配备了相同的附图标记。
[0109]
在本发明中,除非特别指出,“布置在

上”、“布置在

上方”以及“布置在

之上”并未排除二者之间存在中间物的情况。此外,“布置在

上或上方”仅仅表示两个部件之间的相对位置关系,而在一定情况下、如在颠倒产品方向后,也可以转换为“布置在

下或下方”,反之亦然。
[0110]
在本发明中,各实施例仅仅旨在说明本发明的方案,而不应被理解为限制性的。
[0111]
在本发明中,除非特别指出,量词“一个”、“一”并未排除多个元素的场景。
[0112]
在此还应当指出,在本发明的实施例中,为清楚、简单起见,可能示出了仅仅一部分部件或组件,但是本领域的普通技术人员能够理解,在本发明的教导下,可根据具体场景需要添加所需的部件或组件。另外,除非另行说明,本发明的不同实施例中的特征可以相互组合。例如,可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征,所得到的实施例同样落入本技术的公开范围或记载范围。
[0113]
在此还应当指出,在本发明的范围内,“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等,而是允许一定的合理误差,也就是说,所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推,在本发明中,表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。
[0114]
另外,本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出,各方法步骤可以以不同顺序执行。
[0115]
以下结合附图和具体实施例对本发明提出的基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
[0116]
本发明的目的在于提供一种基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法,以解决现有的无人艇的轨迹跟踪控制存在无法保证精准性、时效性的问题。
[0117]
为实现上述目的,本发明提供了一种基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法,包括:在actor-critic网络基础上引入优势函数估计网络,形成新型actor-critic-advantage网络;训练新型actor-critic-advantage网络进行无人艇轨迹跟踪控制;无人艇轨迹跟踪训练采用单步获取策略梯度方式,利用优势函数估计网络输出值得到策略梯度更新策略网络;基于反步法求解虚拟控制律设计分段奖励函数;奖励函数中引入虚拟控制律,训练无人艇的速度输出趋向于虚拟控制律。
[0118]
本发明针对无人艇轨迹跟踪控制问题提出一种基于新型actor-critic-advantage网络的无人艇轨迹跟踪控制方法研究,旨在解决在基于actor-critic网络的无人艇轨迹跟踪控制训练过程中,因优势函数估计的偏差过大导致无人艇轨迹跟踪训练不收敛或收敛结果较差的问题,通过所提改进的方法,能够快速完成无人艇轨迹跟踪控制目标,同时可以提高轨迹跟踪时抗干扰能力,具有高度的自适应能力。
[0119]
本发明训练新型actor-critic-advantage网络实现无人艇轨迹跟踪控制:新型actor-critic-advantage网络是在actor-critic网络基础上引入优势函数估计网络,克服了优势函数估计不准确导致因估计偏差大引起的训练收敛效果差甚至不收敛的困难,解决了无人艇轨迹跟踪训练过程中样本利用率低的问题,确保无人艇轨迹跟踪训练过程的平稳性。
[0120]
本发明的无人艇轨迹跟踪训练采用单步获取策略梯度方式更新策略网络:不再局限于广义优势函数估计方法在actor-critic网络在中需要采用多步获取策略梯度的方式,充分利用更易于获取的优势函数值得到策略梯度更新策略网络,快速、有效的实现无人艇轨迹跟踪控制的训练目标。
[0121]
本发明基于反步法求解虚拟控制律设计分段奖励函数:克服了以位置误差设计的奖励函数无法确保无人艇跟踪误差控制方法的稳定性的困难,奖励函数中引入虚拟控制律,训练无人艇的速度输出趋向于虚拟控制律,保证无人艇跟踪误差及时、有效和小波动收敛,确保无人艇跟踪误差满足跟踪误差精度要求。
[0122]
图1~4提供了本发明的实施例,步骤一:搭建无人艇轨迹跟踪的环境模型,模拟无人艇在具有干扰的真实海洋环境航行,随机生成具有时间约束的期望轨迹和无人艇的起始位置和艏向角;
[0123]
无人艇轨迹跟踪问题的研究与垂直空间无关,通常根据建立的三自由度欠驱动无人艇数学模型获得无人艇在环境模型中任意时刻的状态信息。
[0124]
无人艇大地坐标系og-xgyg与船体坐标系ob-xbyb描述与模型如图1所示:
[0125]
无人艇的运动学模型表达式为:
[0126][0127]
其中,η=[x,y,ψ]
t
,其中(x,y)表示无人艇的位置,ψ表示船体坐标系与大地坐标系之间的夹角,即无人艇的艏向角。υ=[u,v,r]
t
,其符号分别表示船体坐标系下的纵向速度、横向速度以及艏摇角速度,r(η)表示船体坐标系变换到大地坐标系的旋转矩阵。
[0128]
无人艇的动力运动学模型表达式为:
[0129][0130]
其中,τ=[τu,0,τr]
t
,τu、τr分别表示环境模型中无人艇的纵向推力和转向力矩,τe=[τ
eu

ev

er
]
t
,τ
eu
、τ
ev
、τ
er
分别表示海洋环境在u、ν、r方向上对无人艇施加的干扰,m、c(υ)、d(υ)分别表示无人艇的惯性矩阵向心力矩阵以及阻尼矩阵。
[0131]
步骤二:设置动作空间和状态空间;
[0132]
根据环境模型,无人艇的当前时刻t的状态空间设计为s
t
=[xe,ye,ψ,ψd,u,ν,r],其中xe,ye表示环境模型中无人艇在大地坐标系下的跟踪轨迹位置误差,ψ,ψd表示当前艏向角和期望艏向角,u,v和r分别表示船体坐标系下无人艇的纵向速度,横向速度和艏向角速度。无人艇的当前时刻t的动作空间为a
t
=[τu,τr]分别表示环境模型中无人艇的纵向推力和转向力矩,需要经过动作转换器转化为作为输入与环境模型交互。
[0133]
步骤三:设计新型actor-critic-advantage网络,actor网络、critic网络、advantage网络分别对应决策网络、评价网络以及优势函数估计网络,并建立上述三个网络,它们更新方式具体为:
[0134]
步骤3.1:评价网络(critic网络)的输入为状态s
t
,输出为状态价值评价网络根据估计的状态价值和目标状态价值差值的平方均值作为损失函数进行更新,其损失函数为:
[0135]
[0136]
其中,γ为折扣系数,取值[0,1],r
t
为无人艇与环境交互获得的实时奖励,通过步骤四计算获得当前时刻的奖励。
[0137]
步骤3.2:根据广义优势估计方法得到优势函数的估计为:
[0138][0139]
其中,λ为误差权重系数,决定了估计量的偏差大小,取值[0,1]。δ
t
为时序差分误差,
[0140]
广义优势函数估计方法是通过引入优势函数估计的方差,在一定程度上减小了δ
t
作为优势函数的偏差,广义优势函数估计方法计算出优势函数估计值在偏差和方差方面得到了更好的平衡。
[0141]
根据广义优势函数估计的表达式看出,当前状态和动作下的优势函数估计值与后续时刻有关,因此,在实际操作中无法计算出准确的优势函数估计值。于是对广义优势函数估计进行如下推导:
[0142][0143]
得到优势函数估计递推公式:
[0144]
a(s
t
,a
t
)=δ
t
+γλa(s
t+1
,a
t+1
)
[0145]
类比评价网络的更新方式,构造优势函数估计网络(advantage网络)来近似广义优势函数估计值a(s
t
,a
t
),理想的优势函数估计值应满足下式:
[0146][0147]
优势函数估计网络输入为环境模型中的状态s
t
和动作a
t
,输出为优势函数估计值a
ω
(s
t
,a
t
),优势函数估计网络根据优势函数估计值a
ω
(s
t
,a
t
)和目标优势函数估计值δ
t
+γλa
ω
(s
t+1
,a
t+1
)差值的平方差均值作为损失函数进行更新,其损失函数为:
[0148][0149]
步骤3.3:决策网络(actor网络)的输入为环境模型中状态s
t
,输出为无人艇的动作a
t
~π(a
t
|s
t
),其中π(a
t
|s
t
)表示在状态s
t
下执行动作a
t
的概率
[0150]
求解策略网络的策略梯度时使用优势函数真实值(即当前状态下的动作价值,相对于当前状态下的平均动作价值的优势):
[0151]aπ
(s
t
,a
t
)=q
π
(s
t
,a
t
)-v
π
(s
t
)
[0152]
其中,a
π
(s
t
,a
t
)为优势函数真实值,q
π
(s
t
,a
t
)为动作状态价值函数真实值,v
π
(s
t
)为状态价值函数真实值。
[0153]
决策网络π
θ
(a|s)的参数θ更新表达式为:
[0154][0155]
其中,α为决策网络学习率。
[0156]
上述决策神经网络的参数更新中所用为优势函数真实值,但无法准确的求出当前策略下的优势函数真实值。在实际操作中,一般用代替优势函数真实
值计算,但δ
t
中的状态值是通过评价网络得到的,存在偏差,故由δ
t
作为优势函数存在偏差。
[0157]
广义优势函数估计方法通过对后续时刻的δ
t+l
,l=0,1,...,∞求和得到,因此通过引入优势函数估计网络a
ω
(s,a)以近似优势函数估计值a(s
t
,a
t
)
[0158]
所以决策神经网络策略梯度为:
[0159][0160]
步骤四:确定奖励函数;
[0161]
无人艇轨迹跟踪控制是无人艇从任意位置出发到达具有时间约束的期望轨迹并以尽量小的跟踪误差沿期望轨迹航向。只有通过设计适合的奖励函数对当前时刻环境模型中状态进行有效的评估,才能完成无人艇轨迹跟踪的控制目标。
[0162]
遵循反步法推导的框架,构造坐标变化:z1=η-ηd,z2=v-vd其中,ηd为期望轨迹,υd为虚拟控制律。
[0163]
针对步骤一所提无人艇数学模型,设计基于反步法的虚拟控制律νd,确保跟踪误差z1足够小,达到轨迹跟踪目标。设计李雅普诺夫函数:
[0164][0165]
显然v1≥0,正定,对其求一阶导:
[0166][0167]
理想情况下,虚拟控制律υd设计为:
[0168][0169]
其中k1为对称正定矩阵.
[0170]
因此,只要保证υ

υd即那么η

ηd,就可以实现无人艇轨迹跟踪控制。
[0171]
取k1=diag(k
11
,k
22
,k
33
)虚拟控制律νc转换程方程组为:
[0172][0173][0174][0175]
设计奖励函数
[0176][0177]
其中,l1,l2,l3是调节系数,de为期望轨迹跟踪误差。
[0178]
步骤五:基于新型actor-critic-advantage网络的控制器训练如图2所示;
[0179]
步骤5.1:构建步骤二的网络,包括五个网络结构:当前评价网络目标评价网络广义优势函数估计网络a
ω
(s,a)、当前策略网络π
θ
(a|s)、目标策略网络π
θ

(a|s),
当前评价网络与目标评价网络结构一致,当前策略网络与目标策略网络结构一致。
[0180]
步骤5.2:初始化e(从经验数据缓冲区获取的经验样本数量)和模型环境中无人艇的状态,并使用随机权重初始化网络模型参数ω,θ,当前评价网络的参数复制到目标评价网路当前策略网络的参数复制到目标策略网络θ

θ


[0181]
步骤5.3:根据当前无人艇的状态s
t
输入到当前策略网络中,输出动作a
t
~π
θ
(a
t
|s
t
),输入动作转换器得到动作然后输入到环境模型中,得到下一时刻的状态s
t+1
,并基于步骤四得到即时的奖励r
t
,最后再将状态s
t+1
输入到当前策略网络中。循环执行步骤5.3,将每个过程产生的经验样本(s
t
,a
t
,r
t
,s
t+1
)存入经验数据缓冲区。
[0182]
步骤5.4:当经验数据缓冲区的样本数量超过e时,终止循环步骤5.3,并从经验缓冲区中选取经验样本(si,ai,ri,s
i+1
),i=1,...,e,将状态si,s
i+1
分别输入当前评价网络和目标策略网络得到状态值计算并基于步骤2.1计算当前评价网络训练的损失函数:
[0183][0184]
基于此损失函数更新当前评价网络的权重参数。
[0185]
步骤5.5:将动作s
i+1
输入目标策略网络中输出动作a
i+1
~π
θ
(a
i+1
|s
i+1
),得到动作a
i+1
,然后再把si,ai和s
i+1
,a
i+1
分别输入到优势函数估计网络得到优势函数估计值a
ω
(si,ai)和a
ω
(s
i+1
,a
i+1
),并基于步骤2.2计算优势函数估计网络训练的损失函数:
[0186][0187]
基于此损失函数更新优势函数估计网络的权重参数。
[0188]
步骤5.6:对于当前策略网络的训练采用策略梯度算法更新训练当前策略网络的参数,根据步骤2.3推导计算策略梯度:
[0189][0190]
步骤5.7:采用软更新方式对目标评价网络和目标策略网络的参数进行更新:
[0191][0192]
θ

=τθ+(1-τ)θ

[0193]
其中τ为软更新系数,取值[0,1]
[0194]
步骤5.8:循环执行5.3-步骤5.7,观察是否达到训练结束条件,若达到,则结束训练,策略网络产生最优策略使用最优策略可以控制任意初始位置的无人艇,完成任意期望轨迹的跟踪。
[0195]
综上所述,本发明具有以下创新点:
[0196]
首先在actor-critic网络引入优势函数估计网络,在步骤2.2中优势函数估计网络输入为环境模型中的状态s
t
和动作a
t
,输出为优势函数估计值a
ω
(s
t
,a
t
),优势函数估计网络根据优势函数估计值a
ω
(s
t
,a
t
)和目标优势函数估计值δ
t
+γλa
ω
(s
t+1
,a
t+1
)差值的平方
均值作为损失函数进行更新,其损失函数为:
[0197][0198]
该改进点提出基于actor-critic网络引入优势函数估计网络的无人艇轨迹跟踪控制方法,克服了优势函数估计不准确的问题,即估计偏差大从而引起的训练收敛效果差甚至不收敛的问题,解决了无人艇轨迹跟踪训练过程中样本利用率低的问题,确保无人艇轨迹跟踪训练过程的平稳性。
[0199]
其次优势函数估计网络的输出值替代策略梯度中的优势函数值;在步骤2.3中设计如下决策神经网络策略梯度为:
[0200][0201]
优势函数估计值a
ω
(s
t
,a
t
)替换广义优势函数估计方法版本的actor-critic网络中策略梯度中的优势函数值,从而易于在任意时刻获取优势函数值以参与策略梯度的计算,从而更新策略网络。
[0202]
不在局限于广义优势函数估计方法在actor-critic网络在中需要采用多步获取策略梯度的方式更新策略网络,充分利用更易于获取的优势函数值得到策略梯度更新策略网络,加快无人艇轨迹跟踪控制目标的训练。
[0203]
另外引入虚拟控制律的奖励函数设计,在步骤四中设计奖励函数为
[0204][0205]
其中,l1,l2,l3是调节系数,de为期望轨迹跟踪误差。采用分段函数的形式来描述奖励,最高奖励表示当前时刻的轨迹跟踪控制误差满足精度要求。不满足精度要求的时刻,将奖励的值域限定在(-1,1]之间,无人艇的速度和艏向角速度越接近虚拟控制律时奖励越高,保证无人艇轨迹跟踪的训练朝着最大期望折扣回报的方向收敛。
[0206]
克服了基于欧式距离设计的奖励函数无法确保无人艇跟踪误差控制稳定性的困难,奖励函数中引入虚拟控制律,训练无人艇的速度输出趋向于虚拟控制律,保证无人艇跟踪误差收敛于零,同时分段奖励函数的设计确保无人艇跟踪误差满足的精度要求。
[0207]
例如:初始化无人艇在大地坐标系的起始位置为(2,-1),起始艏向角为-π/2,即η0=[-1,2,-π/2]
t
,具有时间约束的期望跟踪轨迹为:
[0208][0209]
要求无人艇在规定时间30s内实现轨迹跟踪控制(如图3所示),轨迹误差控制在0.5m之内。经过新型actor-critic-advantage网络训练的控制器控制无人艇跟踪期望轨迹的效果图如图4所示。
[0210]
上述仅为个例,更为一般的是基于新型actor-critic-advantage网络的无人艇轨
迹跟踪控制方法训练出来的策略网络,能够用于控制无人艇从任意位置跟踪任意具有时间约束的期望轨迹,且跟踪误差控制在要求范围之内,具有高度的自适应能力。
[0211]
综上,上述实施例对基于actor-critic-advantage网络的无人艇轨迹跟踪控制方法的不同构型进行了详细说明,当然,本发明包括但不局限于上述实施中所列举的构型,任何在上述实施例提供的构型基础上进行变换的内容,均属于本发明所保护的范围。本领域技术人员可以根据上述实施例的内容举一反三。
[0212]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0213]
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1