基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法

文档序号：31413232发布日期：2022-09-03 11:13阅读：来源：国知局

技术特征：
1.一种基于探索策略改进的td3算法的自动驾驶车辆车道保持方法，其特征在于，包括以下步骤：(1)对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼，并结合深度强化学习算法，将任务中的自动驾驶车辆控制描述为无模型的马尔科夫决策过程；(2)基于双延迟深度确定性策略梯度算法，实现对输入的自动驾驶车辆状态及其传感器信息进行计算，输出具体动作，实时控制车辆行动；(3)在双延迟深度确定性策略梯度算法训练阶段，为充分探索状态空间，使用奥恩斯坦-乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加噪声，并基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正，实现减少自动驾驶车辆在训练过程中的无效勘探；(4)在torcs仿真平台上进行大量实验，自动驾驶车辆由探索策略改进的双延迟深度确定性策略梯度算法指导，通过与环境进行交互收集大量训练数据，并利用这些数据进行学习，对算法进行更新，最终收敛至最优策略。2.根据权利要求1所述的基于探索策略改进的td3算法的自动驾驶车辆车道保持方法，其特征在于，所述步骤(2)实现过程如下：td3算法中有六个网络，分别是actor网络，critic1网络_1，cirtic2网络_2，actor目标网络，critic目标网络_1以及critic2目标网络_2；其中，actor网络是策略网络，它接收[自动驾驶车辆的状态]作为输入，输出[对车辆的控制动作]；critic网络是评价网络，以[车辆状态，actor网络生成的动作]作为输入，输出[actor网络生成的动作的价值]，用来对actor网络进行评估。3.根据权利要求1所述的基于探索策略改进的td3算法的自动驾驶车辆车道保持方法，其特征在于，步骤(3)所述路径追踪方法为：对于自动驾驶中的车道保持任务，td3算法接收无人驾驶车辆状态作为输入，输出转向、加速和制动三个动作；在算法训练阶段，为了充分探索状态空间，使用ou过程为td3算法输出的动作添加噪声，自动驾驶车辆的探索策略表示为：a
t
＝μ(s
t
|θ)+n
t
其中，μ(s
t
|θ)为td3算法输出的策略动作，是一个三维向量：[steer,accel,brake]，n
t
为ou过程产生的噪声，也是一个三维向量：[steer_noise,accel_noise,brake_noise]；基于路径追踪方法对ou过程产生的动作噪声进行加权修正，在考虑车辆速度的同时，最小化车辆方向和道路轴线之间的角度并缩短车辆质心和道路中心线之间的距离trackpos，由路径追踪方法给出的转向控制动作为：其中，η1，η2，η3是比例系数。4.根据权利要求1所述的基于探索策略改进的td3算法的自动驾驶车辆车道保持方法，其特征在于，步骤(3)所述基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正过程如下：对ou过程产生的转向噪声进行加权修正，以减少无人驾驶车辆的无效勘探：steer_noise＝(1-ε)*steer_noise_ou+ε*steer_action_pt，
其中，ε的初始值为0.5，并且在训练过程中逐渐减小，当训练步数达到100000步时，减小为0；对转向噪声进行加权修正后，无人驾驶车辆执行的转向动作为：steer＝original_steer+steer_noise其中，original_steer为actor网络输出的原始转向动作。5.根据权利要求1所述的基于探索策略改进的td3算法的自动驾驶车辆车道保持方法，其特征在于，所述步骤(4)包括以下步骤：1)首先初始化actor网络π
θ
，critic网络_1critic网络_2actor目标网络critic目标网络_1critic目标网络_2以及初始化经验回放池d；开始进行第k轮仿真(1≤k≤m)，其中m是设置的最大仿真轮数；2)初始化状态s
t
；3)开始第k轮仿真中的第t个时间步(1≤t≤t)，其中t是设置的一轮仿真的最大时间步数；4)将自动驾驶车辆状态输入actor网络和路径追踪算法，得到td3算法输出的原始动作original_a
t
和路径追踪算法输出的转向动作steering_action_pt；5)将动作original_a
t
输入ou过程，输出ou噪声n
t
；6)将steering_action_pt和n
t
相结合生成加权修正的噪声n
′
t
；7)生成最终执行的动作a
t
＝μ
θ
(s
t
)+n
′
t
；8)执行该动作a
t
，得到奖励r
t
，并进入下一状态s
′
t
；9)将元组(s
t
,a
t
,r
t
,s
′
t
)存入经验回放池d；10)如果经验回放池d中有足够多的数据，则采样n条数据(s,a,r,s')；11)用actor目标网络生成状态s'下的动作：其中是actor目标网络输出的动作，ε～normal(0,σ)是为了提高算法鲁棒性，添加到上的基于正态分布的噪声，σ是正态分布的协方差，而clip(ε,-c,c)是用于对噪声进行裁剪，经过clip函数裁剪后的噪声范围在(-c,c)之间；12)计算更新目标：其中γ是折扣因子，是critic目标网络生成的动作价值；13)更新critic网络的参数：14)每两个时间步使用梯度上升法更新一次actor网络的参数：同时更新三个目标网络的参数：θ-←
τθ+(1-τ)θ,其中τ是滑动平滑更新的参数；15)一个时间步结束，返回步骤(3)进行下一个时间步；16)一轮仿真结束，返回步骤(1)进行下一轮仿真，直至仿真轮数k到达设置的上限m结束。

技术总结
本发明公开了一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法，对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼，将任务中的无人驾驶车辆控制描述为无模型的马尔科夫决策过程；基于TD3算法，实现对输入的自动驾驶车辆状态及其传感器信息进行计算，输出具体动作，实时控制车辆行动；使用奥恩斯坦-乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加噪声，并基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正。本发明结合了路径追踪方法对TD3算法探索策略中的动作噪声进行了加权修正，使得无人驾驶车辆的探索偏向于正确的方向，且降低了经验回放池中低效样本的比例，最终使得算法更快收敛，并且策略具有更好的表现性。并且策略具有更好的表现性。并且策略具有更好的表现性。

技术研发人员：黄志球华高洋王金永谢健
受保护的技术使用者：南京航空航天大学
技术研发日：2022.05.27
技术公布日：2022/9/2

完整全部详细技术资料下载

当前第2页1 2