使用机器学习控制车辆的方法和系统与流程

文档序号:37228098发布日期:2024-03-05 15:34阅读:26来源:国知局
使用机器学习控制车辆的方法和系统与流程

本公开涉及自动驾驶技术,更具体地,涉及一种使用机器学习来学习驾驶员模型并通过使用驾驶员模型来控制车辆的技术。


背景技术:

1、人工智能是一种“问题解决功能”。人们的大多数决策,例如穿什么、说什么是一种解决问题的过程。通过技术变革人工智能已经从简单的问题解决发展到实际的智能实现。

2、为了评估车辆的性能和燃料效率,通常使用底盘测功机中规定的车辆速度曲线(profile)。在底盘测功机中,测试通常由驾驶员操作加速器(accelerator)和制动踏板(brake pedal)而执行。然而,人类驾驶员直接操作踏板的测试缺乏可重复性,有时会使用机器人驾驶员来弥补可重复性的不足。在使用这种机器人驾驶员的情况下,与测试驾驶员相比,测试偏差大大减少,以允许有效地执行车辆的燃料经济性和驾驶性能开发任务。然而,这种机器人驾驶员存在采购价格高、安装困难等方面的缺点。

3、为了解决机器人驾驶员的缺点,开发了一种名为“虚拟与机器人驾驶员”的车辆测试系统,以通过控制基于控制器局域网(can)和加速器位置传感器(aps)的命令值的车辆来执行测试。该系统采用了比例-积分-微分(pid)控制技术,弥补了现有机器人驾驶员的各种缺陷。

4、然而,为了通过相应的系统驱动车辆速度曲线,需要设置在pid控制方法中所需的控制变量值(pid增益值)。这些控制变量值应该针对每个评估模式(例如,ftp-45、hwfet、nedc等)和每个车辆不同地设置。由于这个原因,调整虚拟与机器人驾驶员的控制变量的过程通常是非常耗时的。已经开发了一种使用机器学习技术为每个车辆找到合适的比例(p)和积分(i)增益值的模型,但很难克服pi控制器的缺点,因为它不能在所有部分中提供最佳结果,并且需要模型针对每一种评估模式和车辆进行新的训练。

5、前述内容仅旨在帮助理解本公开的背景,并不旨在表示本公开落入本领域普通技术人员已知的相关技术的范围内。


技术实现思路

1、本公开的技术目的是提供一种能够根据模式燃料经济性测试评估模式(例如,ftp-45、hwfet和nedc)输出最佳aps和bps值的驾驶员模型自动学习算法。

2、本公开的另一个技术目的是实现一种能够通过使用诸如加速度、控制变量、速度和目标速度的各种数据的机器学习灵活地响应环境和条件的变化的控制逻辑。

3、本公开的另一个技术目的是通过减少车辆性能开发期间的人力投入缩短量产周期并提高测试安全性。

4、根据本公开的实施例,一种用于控制车辆的方法包括:基于状态变量和奖励变量确定加速器位置传感器/制动踏板位置传感器(aps/bps)命令值,状态变量和奖励变量包括基于车辆的过去aps/bps命令值预测的车辆的未来速度的预测值;以及基于所确定的aps/bps命令值在给定环境信息下对至少一个状态变量产生的变化来进行学习,使得根据奖励变量的奖励值满足预定目标。

5、在一方面,奖励变量可以包括确定有助于满足当前速度的误差和未来速度的误差之间的预定目标的相对比率的指数。

6、在一方面,控制方法可以进一步包括生成aps/bps命令值,用于利用应用了学习结果的驾驶员代理来遵循预定的速度曲线,并基于aps/bps命令值控制车辆的动力装置。

7、在一方面,确定aps/bps命令值可以进一步包括基于状态变量和奖励变量确定aps/bps变化量,以及基于所述aps/bps变化量和距离当前时间点的预定时间之前的时间点的所述aps/bps命令值,确定所述aps/bps命令值。

8、在一方面,车辆的未来速度的预测值可以基于车辆的对应于至少两个不同时间点的过去速度信息来确定。

9、在一方面,车辆的未来速度的预测值可以基于i)将所述车辆的过去加速度信息通过低通滤波器得到的值和ii)车辆的当前速度来确定。将车辆的过去加速度信息通过低通滤波器得到的值和ii)所述车辆的当前速度来确定所述车辆的未来速度的预测值

10、在一方面,过去aps/bps命令值可以是在预设的预定期间内的过去aps/bps命令值。

11、在一方面,未来速度的预测值可以包括在预设的预定期间的未来速度的预测值。

12、在一方面,状态变量可以包括车辆的过去速度、实际速度相对于车辆的过去目标速度的误差或车辆的目标速度中的至少一个。

13、在一方面,车辆的目标速度可以根据车辆的驾驶模式而具有不同的值。

14、在一方面,车辆的奖励变量可以基于攻击性指数、车辆的过去驾驶速度和过去目标速度的均方根误差(root mean square error)、车辆的预测未来速度和未来目标速度的均方根误差以及信号惩罚(signal penalty)来确定。

15、在一方面,攻击性指数的值越大,驾驶模式可能越具有攻击性。

16、在一方面,当在车辆加速的情况下车辆生成的aps/bps命令值低于用于将车辆保持在恒定速度的aps/bps命令值时,信号惩罚可以具有正值。

17、在另一实施例中,根据本公开的实施例的一种用于控制车辆的系统包括:车辆速度预测器,被配置为生成基于车辆的过去加速器位置传感器/制动踏板位置传感器(aps/bps)命令值预测的未来速度的预测值;以及代理实现单元,被配置为基于状态变量和奖励变量中的至少一个,确定aps/bps命令值,基于所确定的aps/bps命令值在给定环境信息下对至少一个状态变量产生的变化来进行学习,使得根据所述奖励变量的奖励值满足预定目标。

18、在一方面,可以生成aps/bps命令值,用于利用应用了学习结果的驾驶员代理来遵循预定的速度曲线,并且系统可以进一步包括基于aps/bps命令值控制的动力装置。

19、在一方面,代理实现单元可以被配置为基于至少一个状态变量和奖励变量确定aps/bps变化量,并且基于aps/bps变化量和距离当前时间点的预定时间之前的时间点的aps/bps命令值确定aps/bps命令值。

20、在一方面,车辆的未来速度的预测值可以基于车辆的对应于至少两个不同时间点的过去速度信息来确定。

21、在一方面,车辆的未来速度的预测值可以基于i)将所述车辆的过去加速度信息通过低通滤波器得到的值和ii)车辆的当前速度来确定。

22、在一方面,过去aps/bps命令值可以是预设的预定期间内的过去aps/bps命令值。

23、在一方面,未来速度的预测值可以包括在预设的预定期间内的未来速度的预测值。

24、在一方面,状态变量可以进一步包括车辆的过去速度、实际速度相对于车辆的过去目标速度的误差、车辆的目标速度中的至少一个。

25、在一方面,车辆的目标速度可以根据车辆的驾驶模式而具有不同的值。

26、在一方面,车辆的奖励变量可以基于攻击性指数、车辆的过去驾驶速度和过去目标速度的均方根误差、车辆的预测未来速度和未来目标速度的均方根误差以及信号惩罚来确定。

27、在一方面,攻击性指数的值越大,驾驶模式就越具有攻击性。

28、在一方面,当在车辆加速的情况下车辆生成的aps/bps命令值低于用于将车辆保持在恒定速度的aps/bps命令值时,信号惩罚可以具有正值。

29、根据本公开的实施例,可以提供一种能够根据模式燃料经济性测试评估模式(例如,ftp-45、hwfet和nedc)输出最佳aps和bps值的驾驶员模型自动学习算法。

30、根据本公开的实施例,可以提供一种能够通过使用诸如加速度、控制变量、速度和目标速度的各种数据的机器学习灵活地响应环境和条件的变化的控制逻辑。

31、根据本公开的实施例,可以在开发车辆性能时通过减少人力投入来缩短量产周期并提高测试安全性。

32、根据本公开的实施例,可以根据用于代理学习的奖励设计实现不同的驾驶模式或不同的驾驶倾向模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1