一种基于安全强化学习的跟车能量管理方法

文档序号:35450043发布日期:2023-09-14 05:05阅读:46来源:国知局
一种基于安全强化学习的跟车能量管理方法

本发明涉及燃料电池混合动力汽车设计领域,尤其涉及一种基于安全强化学习的跟车能量管理方法。


背景技术:

1、随着汽车网联化、自动化的发展,跟车场景下的燃料电池混合动力汽车的节能驾驶技术已由单纯动力总成能量管理向速度轨迹和能量管理的协同优化演化,目前强化学习在跟车能量管理方面是一种较有潜力的机器学习方法,能实现良好的全局最优解搜索性能,但现有强化学习智能体在处理跟车控制和能量管理时忽略了决策的安全性,容易在训练和实施过程中出现不安全动作的探索,导致严重的车辆安全问题(撞车、倒车、电池过充和过放等),因此如何提升强化学习的安全性仍是一大挑战。


技术实现思路

1、本发明旨在提供一种基于安全强化学习的跟车能量管理方法,解决被控车辆跟驰行驶过程中强化学习智能体安全决策的问题,达到提升强化学习算法的收敛速度,保证行驶过程中车辆和人员的安全性。

2、为了解决以上技术问题,本发明采用的具体方案为:一种基于多目标优化的燃料电池混合动力汽车跟车能量管理方法,首先建立跟车场景下被控车辆动力学模型、燃料电池和锂电池经验老化模型;其次以被控车辆本身为环境,利用双延迟深度确定策略梯度算法(twin delayed deep deterministic policy gradient,td3)设计基于多智能体的分层强化学习跟车能量管理框架;然后在强化学习智能体模块与环境之间构建安全约束控制器,过滤智能体模块输出的不安全动作,保障强化学习策略训练和应用过程中车辆的安全性。

3、优选的,包括以下步骤:

4、s1:建立跟车场景下被控车辆自适应巡航系统的跟车动力学模型、车载动力系统的需求功率模型和燃料电池/锂电池经验老化模型,获取不同采样时刻下被控车辆与前车的实际车间距、车辆速度、燃料电池健康状态(state of health,soh)和锂电池soh;

5、s2:根据s1中建立的跟车动力学模型,以自适应巡航系统为上层环境,以实际车间距、期望车间距、前车与被控车辆速度差和被控车辆速度为状态值,被控车辆加速度为执行动作构建跟车控制智能体模块以及奖励函数;

6、s3:根据s1中建立的需求功率模型和燃料电池/锂电池经验老化模型,以车载动力系统为下层环境,以车辆需求功率、锂电池荷电状态(state of charge,soc)为状态值,燃料电池功率为执行动作构建能量管理智能体模块以及奖励函数;

7、s4:根据s1和s2中建立的相关车辆模型与智能体模块,在跟车控制智能体模块与上层环境之间构建安全约束控制器1,在能量管理智能体模块和下层环境之间构建安全约束控制器2,利用二次规划将智能体输出的不安全动作投影到最接近满足系统安全约束的动作,从而限制强化学习智能体对不安全动作的探索并指导智能体对系统约束的学习,保障强化学习策略训练和应用过程中车辆的安全性。

8、优选的,s1中被控车辆自适应巡航系统的跟车动力学模型为:

9、

10、其中,d为实际车间距,vdif为前车与被控车辆速度差,ts为采样时间,ap为前车加速度,u为被控车辆加速度,ve为被控车辆速度。

11、优选地,s1中车载动力系统的需求功率模型为:

12、

13、其中,δ为旋转质量换算系数,g为重力加速度,fr为路面摩擦系数,α为道路坡度,cd为车辆空气阻力系数,a为被控车辆迎风面积,ρ为空气密度,ηmotor为驱动电机效率,pfc和pbat分别为燃料电池和锂电池输出功率,ηdc1和ηdc2分别为单向dc/dc和双向dc/dc变换器效率。

14、优选地,s1中车载动力系统的燃料电池经验退化模型为:

15、

16、其中,△sohfc为燃料电池健康状态(百分比),kr为实际工况和实验差异修正系数,v1、v2、v3和v4分别为实验室环境下测量的燃料电池启停循环、低功率运行、高功率运行和负载波动工况对应电压衰减值,△pfc为燃料电池功率波动(w/s),△v燃料电池电压最大允许衰减值,fon-off,flow$$和fhigh分别为燃料电池启停循环、低功率运行、高功率运行标志,具体表示如下:

17、

18、

19、优选地,s1中车载动力系统的锂电池经验退化模型为:

20、

21、其中,△sohbat为锂电池健康状态(百分比),ncycle为锂电池充放电循环次数,为锂电池最大存储电量,具体表示如下:

22、

23、其中,qc为锂电池额定容量,f为与放电倍率相关的指数前因子,ea为活化能,r为通用气体常数,ta为运行温度,c为放电倍率。

24、优选地,s2中跟车控制智能体模块奖励函数为:

25、r1(k)=-[w1|d(k)-△d(k)|+w2|(u(k)-u(k-1))/ts|],

26、其中,w1和w2为权重因子,△d(k)为期望车间距,具体表示如下:

27、△d(k)=ve(k)th+d0,其中,th为车头时距,d0为最小安全距离。

28、优选地,s3中能量管理智能体模块奖励函数为:

29、

30、其中,为燃料电池每千克价格,γfc和γbat分别为燃料电池和锂电池每百分比老化成本,meq为等效氢气消耗,具体表示如下:

31、

32、其中,ηfc为燃料电池效率,为氢气的低热值,λbat为锂电池能耗等效因子,具体表示如下:

33、其中,ηdis和ηchg分别为锂电池的充放电效率。

34、优选地,s4中安全约束控制器1设计为:

35、

36、其中,u′为安全约束控制器1的输出,x1=[d,vdif,ve]t,y1=[d,ve]t,为车辆最大行驶速度,umax和umin分别为最大和最小加速度。

37、优选地,s4中安全约束控制器2设计为:

38、

39、其中,pf′c为安全约束控制器2的输出,和分别为燃料电池最小和最大输出功率,和分别为锂电池最小和最大输出功率,socmin和socmax分别为锂电池最小和最大soc。

40、本发明建立跟车场景下被控车辆动力学模型、燃料电池和锂电池经验老化模型,获取不同采样时刻下实际车间距、车辆速度、燃料电池soh和锂电池soh;根据所获状态信息,以被控车辆本身为环境,利用td3设计基于多智能体的分层强化学习跟车能量管理框架,实现车辆外部运动控制和内部动力系统能量管理的协同优化;最后基于二次规划算法,在强化学习智能体模块与环境之间构建安全约束控制器,过滤智能体模块输出的不安全动作,保障强化学习策略训练和应用过程中车辆的安全性。使得本发明在解决跟车场景下基于强化学习的燃料电池混合动力汽车能量优化安全决策问题时,有效保障车辆和人员安全。



技术特征:

1.一种基于安全强化学习的跟车能量管理方法,其特征在于:首先建立跟车场景下被控车辆动力学模型、燃料电池和锂电池经验老化模型,其次以被控车辆本身为环境,利用双延迟深度确定策略梯度算法(twin

2.根据权利要求1所述的一种基于安全强化学习的跟车能量管理方

3.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s1中被控车辆自适应巡航系统的跟车动力学模型为:

4.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s1中车载动力系统的需求功率模型为:

5.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s1中车载动力系统的燃料电池经验退化模型为:

6.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s1中车载动力系统的锂电池经验退化模型为:

7.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s2中跟车控制智能体模块奖励函数为:

8.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s3中能量管理智能体模块奖励函数为:

9.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s4中安全约束控制器1设计为:

10.根据权利要求2所述的一种基于安全强化学习的跟车能量管理方法,其特征在于:s4中安全约束控制器2设计为:


技术总结
本发明涉及燃料电池混合动力汽车设计领域,尤其涉及一种基于安全强化学习的跟车能量管理方法,首先建立跟车场景下被控车辆动力学模型、燃料电池和锂电池经验老化模型,其次以被控车辆本身为环境,利用双延迟深度确定策略梯度算法设计基于多智能体的分层强化学习跟车能量管理框架,实现车辆外部运动控制和内部动力系统能量管理的协同优化。本发明建立跟车场景下被控车辆动力学模型、燃料电池和锂电池经验老化模型,获取不同采样时刻下实际车间距、车辆速度、燃料电池SoH和锂电池SoH,根据所获状态信息,以被控车辆本身为环境,利用TD3设计基于多智能体的分层强化学习跟车能量管理框架,实现车辆外部运动控制和内部动力系统能量管理的协同优化。

技术研发人员:付主木,朱龙龙,陶发展,王楠,王俊,高颂,杨艺,陈灵峰,高向前,马浩翔,冯逸轩
受保护的技术使用者:河南科技大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1