本发明涉及多轴汽车运动控制的,特别涉及一种基于深度强化学习算法的自学习运动控制方法。
背景技术:
1、随着中国汽车工业和运输行业的快速发展,大型运输专用车辆在各个行业中的应用日渐广泛。在交通运输、土木工程和军事运载方面对于大型和中型车辆相比于过去有了更高的需求和要求。传统的大型车辆的在转向方面有着转弯半径大、偏操控稳定性差一级轮胎磨损严重等缺点。
技术实现思路
1、针对现有技术中存在的不足之处,本发明的目的是提供一种基于深度强化学习算法的自学习运动控制方法,将汽车自动驾驶技术与多轴转向技术相结合,以实现多轴转向汽车的轨迹跟踪与自动驾驶。为了实现根据本发明的上述目的和其他优点,提供了一种基于深度强化学习算法的自学习运动控制方法,包括:
2、s1、通过车载传感器获取汽车行驶过程中的实时状态信息,且将该实时信息传递至状态机;
3、s2、通过实时状态信息与强化学习算法建立自动驾驶的多轴转向汽车自学习运动控制的初始控制模型,并设计相应的状态空间、动作空间和奖励函数;
4、s3、通过仿真场景对初始模型进行训练,并得到最终模型;
5、s4、通过最终模型控制状态机的状态转移;
6、初始控制模型中车辆状态空间表示为:其中汽车行驶相对轨迹的横向偏移量y、汽车行驶速度v、横摆角φ、横摆角速度和前向轨迹的曲率k;
7、动作空间为a={a1,a2,a3};其中a1、a2和a3为状态机的控制指令,分别控制汽车三个转向轴是否参与转向;
8、奖励函数为:
9、
10、其中,k1、k2、k3为各项奖励的权重系数;第一项为横向偏差奖励y表示车辆与预设轨迹的横向偏差;第二项为稳定性奖励表示汽车横摆角角速度;第三项为行驶效率奖励v表示自动驾驶系统规划的期望速度;第四项为转向模式奖励与各个转向轴是否参与转向有关。
11、优选的,步骤s1中状态机控制自动驾驶多轴转向汽车在转向时使用的转向模式与转向角,具体为状态机状态转移控制三轴车辆各个轴是否参与转向,根据当前车辆的状态参数,通过mpc算法控制参与转向的各轴的转向角。根据车辆结构参数,设置mpc控制算法所需参数。
12、优选的,mpc算法内嵌于状态机中,且该算法的优化目标为:其中反映系统对于参考轨迹的跟随能力;则反映了对于控制量变化的限制,这使得车辆控制过程更加平稳;np与nc分别代表mpc问题中的预测时域与控制时域;q和r分别为惩罚系统状态和控制输入量的权重矩阵;ε为松弛因子;ρ为加权系数。
13、优选的,步骤s3中具体包括以下步骤:
14、s31、初始化强化学习模型的q网络参数θ与q′网络参数θ′,设定步长参数a、ε和最大训练数m,其中q为当前网络,q′为目标网络;
15、s32、根据奖励函数计算当前状态s下执行该动作的奖励值r,并根据状态信息得到汽车的下一状态s′;
16、s33、设置经验池用于存放上一步骤的转移数据{st,at,r,s′t},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换,其中,st为t时刻汽车的状态,at为在st状态下执行的动作,r为在状态st下执行动作at所获取的奖励值r;
17、s34、从经验池中随机选取经验样本,对在线网络q网络进行更新,在训练满足一定条件后,基于当前q网络参数θ与q′网络参数θ′;
18、s35、将状态信息作为输入至所述q网络获取当前状态s下动作空间内所有动作对应的q值;
19、s36、根据计算所得q值,基于∈-greedy策略选择动作a,并将动作指令a传输给状态机。
20、优选的,其中当前q网络和目标q′网络结构为一个输入层、两个全连接层和一个输出层,输出层激活函数为tanh函数;
21、所述网络更新方法采用梯度下降法进行更新,损失函数公式为:
22、loss(θ)=e(r+γmaxq(s′,a′,θ′)-q(s,a,θ));
23、其中γ为衰减系数,q(s,a,θ)为当前网络输出的q值,q(s′,a′,θ′)为目标网络输出的q值。
24、本发明与现有技术相比,其有益效果是:通过将获取到的车辆位置、姿态等信息输入到训练好的自学习模型,获取当前车辆理想的多轴转向模式,并将指令传递给状态机,控制车辆三个转向轴是否参与转向,以此达到既提升车辆转弯时的循迹性的同时,又能保证车辆行驶过程中的效率。为自动驾驶系统与汽车多轴转向技术相结合提供了可行的解决方案。
1.一种基于深度强化学习算法的自学习运动控制方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于深度强化学习算法的自学习运动控制方法,其特征在于,步骤s1中状态机控制自动驾驶多轴转向汽车在转向时使用的转向模式与转向角,具体为状态机状态转移控制三轴车辆各个轴是否参与转向,根据当前车辆的状态参数,通过mpc算法控制参与转向的各轴的转向角。
3.如权利要求2所述的一种基于深度强化学习算法的自学习运动控制方法,其特征在于,mpc算法内嵌于状态机中,且该算法的优化目标为:其中反映系统对于参考轨迹的跟随能力;则反映了对于控制量变化的限制,这使得车辆控制过程更加平稳;np与nc分别代表mpc问题中的预测时域与控制时域;q和r分别为惩罚系统状态和控制输入量的权重矩阵;ε为松弛因子;ρ为加权系数。
4.如权利要求3所述的一种基于深度强化学习算法的自学习运动控制方法,其特征在于,步骤s3中具体包括以下步骤:
5.如权利要求4所述的一种基于深度强化学习算法的自学习运动控制方法,其特征在于,其中当前q网络和目标q′网络结构为一个输入层、两个全连接层和一个输出层,输出层激活函数为tanh函数;