本公开属于自动驾驶,具体涉及一种实时轨迹规划方法、装置和设备。
背景技术:
1、目前自动驾驶实时轨迹规划所应对的自动驾驶场景越来越复杂和多变,当异常场景出现时传统的解耦规划或优化求解往往因为搜索维数、代价参数等问题难以应对,从而导致实时规划失败。
2、因此,现有技术通过引入强化学习直接生成轨迹粗解再进行后端优化求解最终轨迹,此种方法虽然可以获得相对可靠安全的轨迹,但dqn强化学习方法往往因为网络本身的局限性难以获得良好的轨迹粗解,从而使后端优化并不稳定。
技术实现思路
1、本公开实施例提出了一种实时轨迹规划方案,以解决现有技术对异常场景处理能力不足的问题。
2、本公开实施例的第一方面提供了一种实时轨迹规划方法,包括:
3、获取车辆在当前时刻的基础导航点信息和位姿信息,基于所述基础导航点信息确定目标路径参考线,基于所述目标路径参考线将所述位姿信息由笛卡尔坐标系转化到弗莱纳坐标系下,获得横向偏移-位移图和栅格化地图,其中,所述位姿信息包括车辆自身状态、周围交通参与者和局部路网信息;
4、通过代价搜索和强化学习模型,确定当前车辆的路径规划初始值,平滑化所述路径规划初始值以获得初始路径规划,对所述初始路径规划进行多目标优化以获得最优路径规划;
5、确定与所述最优路径规划对应的最优速度曲线,联合所述最优路径规划和所述最优速度曲线得到目标轨迹,对多车道目标轨迹进行代价选择,获取最终的控制轨迹。
6、在一些实施例中,所述基于所述基础导航点信息确定目标路径参考线包括:
7、根据所述车辆当前帧的定位信息实时获取前方第一预设距离和后方第二预设距离内的基础导航点;
8、确定所述目标路径参考线的损失函数和边界约束条件,其中,所述损失函数包括平滑代价、紧凑代价和相似代价,所述平滑代价用于衡量所述目标路径参考线的光滑程度,所述紧凑代价用于衡量与所述基础导航点对应的目标路径参考点之间的均匀程度,所述相似代价用于衡量所述目标路径参考线与原导航路径的偏离程度;
9、基于二次型求解器得到满足所述边界约束条件的所述基础导航点,与所述基础导航点对应的路径参考点组成所述目标路径参考线。
10、在一些实施例中,所述通过代价搜索和强化学习模型,确定当前车辆的路径规划初始值包括:
11、沿所述目标路径参考线进行采样,计算各个采样节点的预设代价的代价值,由代价值总和最小的所述采样节点组成与所述预设代价对应的第一路径规划初始值;
12、根据当前及过去基于所述目标路径参考线的连续三帧所述栅格化地图,利用决策神经网络模型进行所述车辆在当前时刻所要执行动作的决策,获得所述车辆在当前时刻的决策动作值,所述决策动作值组成第二路径规划初始值;
13、对所述第二路径规划初始值计算预设代价的代价值并与所述预设代价对应的第一路径规划初始值的代价值作比较,将所述第二路径规划初始值和所述第一路径规划初始值中代价值较小者作为当前车辆的路径规划初始值。
14、在一些实施例中,所述决策神经网络模型的训练方法包括:
15、由以车辆为中心的基于路径的连续三帧的栅格地图构成状态空间,其中,所述车辆和周围障碍物的位置被投影到所述栅格地图上;
16、构建由所述车辆前方预设矩形范围内采样的多个路径点的横向连续坐标值组成的动作空间,其中,所述路径点纵向间保持固定间隔,横向坐标值由决策神经网络模型确定;
17、基于到达目标的奖励、碰撞发生的惩罚、输出路径的曲率以及输出路径间的平滑迁移设计奖励函数;
18、以所述状态空间为输入,以所述动作空间为输出构造训练集;
19、设计包含包括静态场景和复杂场景的仿真环境,在所述仿真环境中基于所述奖励函数,采用sac强化学习方法对所述训练集训练神经网络模型,获得所述决策神经网络模型。
20、在一些实施例中,所述平滑化所述路径规划初始值以获得初始路径规划包括:
21、将所述目标路径参考线的损失函数和边界约束条件作为所述路径规划初始值的损失函数和边界约束条件;
22、基于二次型求解器对所述路径规划初始值进行优化以得到所述初始路径规划。
23、在一些实施例中,所述对所述初始路径规划进行多目标优化以获得最优路径规划包括:
24、基于所述横向偏移-位移图和所述路径规划初始值确定所述路径的边界约束条件,基于所述边界约束条件以及预设优化目标对所述初始路径规划进行多目标优化以获取目标空间内的最优路径规划,其中,所述预设优化目标包括目标路径与所述目标路径参考线的偏离程度、所述目标路径与所述路径规划初始值的偏离程度、所述目标路径的连续性中的一个或多个;
25、当目标空间内的最优路径规划求解异常时,将所述初始路径规划作为所述最优路径规划。
26、在一些实施例中,所述确定与所述最优路径规划对应的最优速度曲线包括:
27、对所述车辆在弗莱纳坐标系下的静态障碍物和动态障碍物构建位移-时间图;
28、对所述位移-时间图进行采样,计算各个采样节点的预设代价的代价值,由代价值总和最小的所述采样节点组成与所述预设代价对应的速度曲线初始值,其中,所述预设代价包括速度代价、加速度代价、加加速代价以及碰撞代价;
29、由所述速度曲线初始值得到速度优化的凸空间,在所述凸空间中提取边界约束条件,基于所述边界约束条件以及预设优化目标对所述速度曲线进行多目标优化以获取最优速度曲线,其中,所述预设优化目标包括巡航速度、加速度和加加速之中的一个或多个。
30、在一些实施例中,所述联合所述最优路径规划和所述最优速度曲线得到目标轨迹包括:
31、基于所述最优速度曲线,通过位移对所述最优路径规划做插值,得到每个时刻的速度和路径信息以生成目标轨迹。
32、本公开实施例的第二方面提供了一种实时轨迹规划装置,包括:
33、确定模块,用于获取车辆在当前时刻的基础导航点信息和位姿信息,基于所述基础导航点信息确定目标路径参考线,基于所述目标路径参考线将所述位姿信息由笛卡尔坐标系转化到弗莱纳坐标系下,获得横向偏移-位移图和栅格化地图,其中,所述位姿信息包括所述车辆自身状态、周围交通参与者和局部路网信息;
34、优化模块,用于通过代价搜索和强化学习模型,确定当前车辆的路径规划初始值,平滑化所述路径规划初始值以获得初始路径规划,对所述初始路径规划进行多目标优化以获得最优路径规划;
35、获取模块,用于确定与所述最优路径规划对应的最优速度曲线,联合所述最优路径规划和所述最优速度曲线得到目标轨迹,对多车道目标轨迹进行代价选择,确定最终的控制轨迹。
36、本公开实施例的第三方面提供了一种实时轨迹规划设备,包括存储器和处理器:
37、所述存储器,用于存储计算机程序;
38、所述处理器,用于当执行所述计算机程序时,实现根据本公开第一方面所述的方法。
39、综上所述,不同于现有技术通过强化学习直接得出轨迹粗解然后优化出最优轨迹,本公开各实施例提供的实时轨迹规划方法、装置和设备用强化学习得出路径粗解,并与代价搜索得的粗解做融合得到目标路径粗解,然后优化得到目标路径,最后与速度优化后的结果合并成目标轨迹。因为通过对基础导航点的多层代价与平滑处理确定目标路径参考线,解决了模型或搜索空间的偏差,使得动态规划的参考线初始路径更加稳定可靠;通过代价搜索与强化学习相结合的方法,解决了细粒度空间解的选取问题,增强了路径规划初始值的准确性和安全性;通过基于准确路径规划初始值的多目标优化策略,解决了规划模块在不同驾驶场景频繁调参的问题,使得系统具有良好的异常场景处理能力。