车辆行驶轨迹的规划方法、装置、车辆及存储介质与流程

文档序号:38886833发布日期:2024-08-02 03:02阅读:46来源:国知局
车辆行驶轨迹的规划方法、装置、车辆及存储介质与流程

本技术涉及车辆,特别涉及一种车辆行驶轨迹的规划方法、装置、车辆及存储介质。


背景技术:

1、当前的自动驾驶算法,往往采用感知-预测-决策-规划的结构,这样的结构下,各个模块的误差容易不断累积,一个模块出现的错误可能引发连锁反应,容易导致最后规划出的路径不够平滑,舒适度低,乃至产生安全风险。

2、传统的基于规则进行路径规划的方法,可以适用于结构化的驾驶场景,然而,随着自动驾驶覆盖场景的日益增多,传统的基于规则的方法无法完整覆盖城市中的驾驶场景,且传统的基于规则的方法,不具备理论上的可成长性,面对场景的改变,需要人工重新设定规则,增加了繁琐的工作量。


技术实现思路

1、本技术提供一种车辆行驶轨迹的规划方法、装置、车辆及存储介质,以解决相关技术中轨迹规划中容易产生误差累积,导致规划出的路径精确度低,并且覆盖场景较少等问题。

2、本技术第一方面实施例提供一种车辆行驶轨迹的规划方法,包括以下步骤:获取车辆的驾驶环境信息;提取所述驾驶环境信息中当前驾驶环境下的环境特征状态;将所述环境特征状态输入预先建立的神经网络模型,所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹,其中,所述神经网络模型基于可生成所述环境特征状态的仿真环境和/或携带有环境特征状态标签的训练样本训练得到。

3、可选地,所述神经网络模型包括策略网络和值网络,其中,所述策略网络包括网络结构相同的在线策略网络和目标策略网络,用于根据所述环境特征状态输出在预设动作空间内的期望行驶轨迹点,根据所述期望行驶轨迹点生成所述规划行驶轨迹;所述值网络包括网络结构相同的在线值网络和目标值网络,用于根据所述期望行驶轨迹点输出品质因子。

4、可选地,在将所述环境特征状态输入预先建立的神经网络模型之前,还包括:利用所述仿真环境模拟在当前驾驶环境下的驾驶环境信息;提取所述驾驶环境信息中当前驾驶环境下的环境特征状态,将所述环境特征状态输入所述在线策略网络,所述在线策略网络输出在当前驾驶环境下的规划行驶轨迹,并利用第一期望动作表示所述规划行驶轨迹将所述第一期望动作分别输入所述在线值网络和所述仿真环境,所述在线值网络输出所述第一期望动作的第一品质因子,所述仿真环境根据所述第一期望动作和所述环境特征状态计算所述第一期望动作的动作奖励,并给出新驾驶环境下的环境特征状态;将所述新驾驶环境下的环境特征状态输入所述目标策略网络,所述目标策略网络输出所述新驾驶环境下的规划驾驶路径,并利用第二期望动作表示所述新驾驶环境下的规划驾驶路径;将所述第二期望动作和所述新驾驶环境下的环境特征状态输入所述目标值网络,所述目标值网络输出所述第二期望动作的第二品质因子;根据所述第一品质因子计算所述在线策略网络的第一损失值,利用所述第一损失值更新所述所述在线策略网络和所述目标策略网络的网络参数,并根据所述动作奖励和所述第二品质因子计算所述在线值网络的第二损失值,利用所述第二损失值更新所述在线值网络和所述目标值网络的网络参数。

5、可选地,在将所述环境特征状态输入预先建立的神经网络模型之前,还包括:根据所述当前驾驶环境下的环境特征状态、所述第一期望动作、所述动作奖励和所述新驾驶环境下的环境特征状态生成训练样本;构建经验回放池,将所述训练样本存储至所述经验回放池,并在训练过程中从所述经验回放池中随机抽取训练样本对所述神经网络模型进行训练。

6、可选地,所述经验回放池还存储有根据实车采集数据生成的训练样本。

7、可选地,所述仿真环境根据所述第一期望动作和所述环境特征状态计算所述第一期望动作的动作奖励之前,还包括:构建环境特征状态与期望动作的奖励函数;利用所述奖励函数计算所述第一期望动作的动作奖励。

8、可选地,所述提取所述驾驶环境信息中当前驾驶环境下的环境特征状态,包括:识别所述驾驶环境信息中的感知信息、导航信息和自车运动信息;分别对所述感知信息、所述导航信息和所述自车运动信息进行向量化,得到多个多维向量,并将所述多个多维向量分成多个向量组;提取所述多个向量组中每个向量组的道路元素特征,并提取所有道路元素特征之间的交互特征,根据所述交互特征生成所述当前驾驶环境下的环境特征状态。

9、本技术第二方面实施例提供一种车辆行驶轨迹的规划装置,包括:获取模块,用于获取车辆的驾驶环境信息;提取模块,用于提取所述驾驶环境信息中当前驾驶环境下的环境特征状态;输出模块,用于将所述环境特征状态输入预先建立的神经网络模型,所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹,其中,所述神经网络模型基于可生成所述环境特征状态的仿真环境和/或携带有环境特征状态标签的训练样本训练得到。

10、可选地,所述神经网络模型包括策略网络和值网络,其中,所述策略网络包括网络结构相同的在线策略网络和目标策略网络,用于根据所述环境特征状态输出在预设动作空间内的期望行驶轨迹点,根据所述期望行驶轨迹点生成所述规划行驶轨迹;所述值网络包括网络结构相同的在线值网络和目标值网络,用于根据所述期望行驶轨迹点输出品质因子。

11、可选地,所述车辆行驶轨迹的规划装置还包括:训练模块,用于在将所述环境特征状态输入预先建立的神经网络模型之前,利用所述仿真环境模拟在当前驾驶环境下的驾驶环境信息;提取所述驾驶环境信息中当前驾驶环境下的环境特征状态,将所述环境特征状态输入所述在线策略网络,所述在线策略网络输出在当前驾驶环境下的规划行驶轨迹,并利用第一期望动作表示所述规划行驶轨迹;将所述第一期望动作分别输入所述在线值网络和所述仿真环境,所述在线值网络输出所述第一期望动作的第一品质因子,所述仿真环境根据所述第一期望动作和所述环境特征状态计算所述第一期望动作的动作奖励,并给出新驾驶环境下的环境特征状态;将所述新驾驶环境下的环境特征状态输入所述目标策略网络,所述目标策略网络输出所述新驾驶环境下的规划驾驶路径,并利用第二期望动作表示所述新驾驶环境下的规划驾驶路径;将所述第二期望动作和所述新驾驶环境下的环境特征状态输入所述目标值网络,所述目标值网络输出所述第二期望动作的第二品质因子;根据所述第一品质因子计算所述在线策略网络的第一损失值,利用所述第一损失值更新所述所述在线策略网络和所述目标策略网络的网络参数,并根据所述动作奖励和所述第二品质因子计算所述在线值网络的第二损失值,利用所述第二损失值更新所述在线值网络和所述目标值网络的网络参数。

12、可选地,所述车辆行驶轨迹的规划装置还包括:生成模块,用于在将所述环境特征状态输入预先建立的神经网络模型之前,根据所述当前驾驶环境下的环境特征状态、所述第一期望动作、所述动作奖励和所述新驾驶环境下的环境特征状态生成训练样本;构建经验回放池,将所述训练样本存储至所述经验回放池,并在训练过程中从所述经验回放池中随机抽取训练样本对所述神经网络模型进行训练。

13、可选地,所述经验回放池还存储有根据实车采集数据生成的训练样本。

14、可选地,所述仿真环境根据所述第一期望动作和所述环境特征状态计算所述第一期望动作的动作奖励之前,还包括:构建环境特征状态与期望动作的奖励函数;利用所述奖励函数计算所述第一期望动作的动作奖励。

15、可选地,所述提取模块进一步用于:识别所述驾驶环境信息中的感知信息、导航信息和自车运动信息;分别对所述感知信息、所述导航信息和所述自车运动信息进行向量化,得到多个多维向量,并将所述多个多维向量分成多个向量组;提取所述多个向量组中每个向量组的道路元素特征,并提取所有道路元素特征之间的交互特征,根据所述交互特征生成所述当前驾驶环境下的环境特征状态。

16、本技术第三方面实施例提供一种车辆,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的车辆行驶轨迹的规划方法。

17、本技术第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的车辆行驶轨迹的规划方法。

18、由此,本技术至少具有如下有益效果:

19、本技术实施例可以对当前驾驶环境的探索试探,端到端的根据驾驶环境信息,输出最终的规划行驶轨迹,避免了先决策后规划造成的误差累积,提高了轨迹规划的精确度,并且针对场景变换具有自学习能力,能够适应城市中日趋复杂的场景,覆盖场景多,依靠仿真环境实现自学习和自进化,同时使用实车驾驶采集数据进行训练,进一步保证了规划轨迹的类人性。由此,解决了相关技术中轨迹规划中容易产生误差累积,导致规划出的路径精确度低,并且覆盖场景较少等技术问题。

20、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1