本发明属于智能驾驶领域,具体涉及一种面向混合扰动的异质网联车队的智能鲁棒控制方法。
背景技术:
1、在智能网联车队的发展领域,有效的车辆控制策略对于实现安全、高效的道路交通至关重要。尽管近年来自动驾驶技术取得了显著进展,但现有的车队控制方法在处理复杂交通环境中的输入时延、不确定参数和外部扰动方面仍存在局限性。特别是在纵向动力学控制方面,现有技术通常难以兼顾稳定性、安全性、驾乘舒适性和行驶跟随的高效性。
2、此外,传统的控制策略,如基于模型的控制和pid控制,往往在复杂、动态变化的驾驶环境中显示出适应性不足。为了克服这些挑战,深度强化学习提供了一种有效的解决方案。它利用机器学习技术优化长期复杂的决策过程,尤其适用于处理高维度控制任务。然而,单独的深度强化学习方法在确保实时反应和系统鲁棒性方面仍有改进空间。在此背景下,滑模控制方法的引入显得尤为重要。作为一种有效的非线性控制策略,滑模控制以其对不确定性和动态系统的强鲁棒性而著称。因此,结合深度强化学习和滑模控制的方法,不仅能够优化智能网联车队的控制策略,还能显著提高对复杂环境的适应性和响应速度。
技术实现思路
1、针对现有技术中存在的不足,对复杂扰动下的异质智能网联电动汽车队列,本发明提出了一种面向混合扰动的异质网联车队的智能鲁棒控制方法,旨在通过深度强化学习和滑模控制的结合,大幅提升智能网联车队在复杂道路环境中的整体性能,特别是在稳定性、安全性、舒适性和高效性方面。这种分层控制方法的设计不仅优化了控制结构,还为智能交通系统的未来发展提供了重要的技术基础。具体的设计按照以下步骤进行:
2、步骤1、综合考虑输入时延、不确定参数和外部扰动,建立车辆i的三阶纵向动力学模型为:
3、
4、其中pi(t),vi(t),ai(t)和ai,des(t)分别是车辆i的位置、速度、加速度和期望加速度;τn是车辆i发动机滞后参数的标称值;ui(t)和di(t)分别是车辆i用来补偿不确定因素的控制输入和集总扰动(包括输入时延、不确定参数和外部扰动)。
5、步骤2、基于三阶纵向动力学模型,选择控制目标,设计基于深度强化学习算法的上层协调控制策略。
6、步骤2.1、选择控制目标。
7、t时刻车辆i与前车实际间距di(t)表示为:
8、di(t)=pi-1(t)-pi(t)-li
9、其中,li为车辆i的车长。在行驶过程中,内部稳定性控制目标为:减小其中,ddes表示相邻车辆之间的期望固定间距。队列稳定性控制目标为:
10、为保证车辆安全,设置最小距离dmin,避免主车与前车发生碰撞;同时设置最大距离dmax避免其他车辆插入队列中。安全性控制目标为:
11、dmmin<di(t)<dmax
12、为实现驾驶舒适性,设置加速度最大值amax和加速度最小值amin。驾乘舒适性控制目标为:
13、amin<ai,des(t)<amax
14、定义车辆i的状态误差为:
15、
16、
17、
18、车队行驶跟随高效性控制目标为:减小及
19、步骤2.2、在guide actor-critic算法中,输入为状态变量包括t时刻车辆i与前车实际间距di(t)与期望间距ddes之间的偏差车辆i与前车的速度偏差,车辆i与前车的加速度偏差,车辆i与领头车的速度偏差。输出为控制变量coni(t),也就是车辆i在t时刻的期望加速度ai,des(t)。
20、为了满足上述控制目标,奖励函数rewardi(si(t),coni(t))包括奖励部分rall和惩罚部分pall。其中,奖励部分设计为:
21、rall=α1*rstring+α2*rflow+α3*rsafety
22、其中,α1、α2和α3是奖励部分对应权重。rstring、rflow和rsafety分别为满足队列稳定性、行驶跟随高效性和驾乘舒适性对应的奖励项,定义为:
23、
24、
25、rsafety=|ai(t)|
26、其中,k1、k2、k3、k4是权重参数,e为指数函数。
27、惩罚项pall用于惩罚训练过程中间距偏差过大的情况,促进算法学习到较好的间距保持策略,设计为:
28、
29、由此,奖励函数表示为:
30、rewardi(si(t),coni(t))=rall+pall
31、步骤2.3、以二阶同质车队为训练对象获取权重参数,车辆的二阶纵向动力学模型表示为:
32、
33、其中,pi,ul(t)、vi,ul(t)和ai,ul(t)分别为训练过程中t时刻车辆i的位置、速度和加速度。
34、步骤3、基于上层协调控制策略的输出,设计滑模跟随控制器和多目标扰动观测器,完成车队控制。为了使观测器地性能最优,选择用于解决多目标优化问题的遗传算法确定最优的观测器增益。
35、步骤3.1、定义下层车辆i的期望加速度跟踪误差为ei,a(t),滑模面为si(t)。
36、为了满足车辆状态约束的同时保证系统状态能够快速地趋近到滑模面,选择趋近律为:
37、
38、其中,k、β为正的参数;b(vi(t))和b(ai(t))分别是关于vi(t)和ai(t)的障碍函数,表示为:
39、b(vi(t))=-η1 ln(vi(t)-vmin)-ζ1(vmax-vi(t))
40、b(ai(t))=-η2 ln(ai(t)-amin)-ζ2(amax-ai(t))
41、其中,ηm和ζm(m=1,2)是用于控制函数接近边界时的增长率,满足:
42、
43、
44、其中,ηm0和ζm0分别是ηm和ζm的初始值;∈1和∈2是衰减率;zi(t)表示自变量,zmin和zmax分别表示zi(t)的最大最小值。
45、基于滑模面和趋近律,可以得到控制输入表达式为:
46、
47、其中,为集总扰动di(t)的估计值,可由以下扩张状态观测器获得:
48、
49、其中,l1、l2、l3为观测器增益;为加速度的估计值,加速度估计误差
50、步骤3.2、为了使观测器地性能最优,选择用于解决多目标优化问题的遗传算法确定最优的观测器增益。
51、在连续时间系统中,构建基于nsga-ii的观测器参数优化问题。
52、与现有技术相比,本发明的优点如下:
53、(1)综合考虑输入时延,不确定参数和外部扰动,以二阶同质车队为训练对象,三阶异质车队为控制对象,增加辅助控制输入补偿复杂扰动,避免了训练困难的问题的同时又没有牺牲车队的整体性能。
54、(2)将深度强化学习和滑模控制结合,显著提高对复杂环境的适应性和响应速度。