本发明涉及车辆自动驾驶,尤其涉及一种自动驾驶算法训练方法和装置。
背景技术:
1、在自动驾驶规划和控制(pnc,planning and control)领域,现有的技术方案主要集中在基于传统规则、经验和模型进行决策规划与控制的方法上。这些方法通常使用预定义的规则和模型来生成自动驾驶决策策略,例如latticeplanner、emplanner等局部规划算法常用于结构化道路中的车辆局部路径规划、速度规划以产生车辆轨迹形成巡航、跟车、换道、超车、避障等不同的驾驶行为。mpc(模型预测控制)、lqr(线性二次型调节器跟踪控制器)等算法常用于车辆的轨迹跟踪控制。
2、然而,这些现有技术方案存在一些缺点。首先,由于自动驾驶场景复杂多变,很难通过人工定义的规则和模型来覆盖所有可能的情况,导致决策策略缺乏灵活性和适应性。其次,传统方法通常需要大量的手动调优和参数设置,且对于不同的道路、交通状况和车辆特性需要重新定制,增加了开发和维护的成本。此外,现有技术在处理非结构化、复杂的真实道路场景时可能存在一定的局限性,系统鲁棒性和安全性难以保证,同时,现有技术对于从仿真车辆、交通环境到真实车辆交通环境的自适应性较差,需要大量重复的后期工作以将仿真环境中验证通过的算法迁移适配到真实环境中。并且,当前学习型自动驾驶算法的半实物训练与校验场景较为单一,尚未完全构成完整的算法训练、更新与校验数据闭环,算法对边界情况的适应能力较差。
3、因此,需要提供一种自动驾驶算法训练方法,能够通过在环仿真平台和实车平台共同完成对自动驾驶算法的训练、更新和校准,提高自动驾驶算法的整体开发效率与测试的安全系数。
技术实现思路
1、有鉴于此,有必要提供一种自动驾驶算法训练方法和装置,用以解决现有技术对于不同的道路、交通状况和车辆特性需要重新进行参数调优设置,在处理复杂道路场景时准确性不高、车辆自动行驶安全性低的问题。
2、为了解决上述问题,本发明在第一方面提供了一种自动驾驶算法训练方法,包括:
3、基于测试道路信息生成道路仿真环境;
4、利用预设正交排列法根据历史交通场景数据构建多场景驾驶数据集;
5、根据所述多场景驾驶数据集在道路仿真环境中对自动驾驶算法进行优化,得到优化驾驶算法,获取交通参与者时空分布特征和车辆的仿真轨迹数据;
6、将所述交通参与者时空分布特征实时投影到测试道路,获取车辆的真实轨迹数据,根据所述真实轨迹数据和仿真轨迹数据对所述优化驾驶算法进行训练,得到训练完备的自动驾驶算法。
7、在一种可能的实现方式中,所述基于测试道路信息生成道路仿真环境,包括:
8、获取测试道路的轨迹点经纬度信息、海拔信息及车辆姿态信息,所述车辆姿态信息包括车辆俯仰角信息;
9、根据所述俯仰角信息,确定测试道路的坡度;
10、将所述轨迹点经纬度信息转换为基于高斯-克吕格投影坐标系下的坐标信息,并根据所述测试道路的坡度,构建车辆轨迹序列集;
11、根据所述车辆轨迹序列集,确定测试道路对应的道路特征,并根据所述道路特征生成对应的道路仿真环境。
12、在一种可能的实现方式中,所述利用预设正交排列法根据历史交通场景数据构建多场景驾驶数据集,包括:
13、获取多个实际交通事故中的边界场景数据,提取所述实际交通场景数据中场景对象的采样特征数据;
14、根据所述采样特征数据对所述场景对象进行正交排列,得到交通参与者时空分布特征;
15、获取车辆的基础驾驶工况,根据所述基础驾驶工况和交通参与者时空分布特征得到多场景驾驶数据集。
16、在一种可能的实现方式中,所述根据所述多场景驾驶数据集在道路仿真环境中对自动驾驶算法进行优化,得到优化驾驶算法,包括:
17、在所述道路仿真环境中加入所述多场景驾驶数据集,利用待校验的自动驾驶算法对车辆进行模拟控制,并获取车辆的仿真轨迹数据;
18、将所述仿真轨迹数据划分为多个驾驶场景片段,确定每个所述驾驶场景片段中自车轨迹数据和环境车轨迹数据;
19、对所述自车轨迹数据和环境车轨迹数据进行坐标系转换,根据坐标转换后的轨迹数据生成算法优化评价指标;
20、基于所述算法优化评价指标和所述仿真轨迹数据构建算法训练数据库,对自动驾驶算法进行优化,得到优化驾驶算法。
21、在一种可能的实现方式中,所述算法优化评价指标包括横向评价指标和纵向评价指标;
22、所述横向评价指标用于衡量车辆相对于预设标准线的偏离情况和换道行驶的平稳状态;
23、所述纵向评价指标用于衡量车辆速度偏差和轨迹偏差、纵向加速度的平稳性以及车辆的碰撞风险。
24、在一种可能的实现方式中,所述根据所述多场景驾驶数据集在道路仿真环境中对自动驾驶算法进行优化,得到优化驾驶算法,包括:
25、以车辆驾驶任务完成时间、碰撞次数、轨迹跟踪效果作为优化目标,对自动驾驶算法进行优化,得到优化驾驶算法。
26、在一种可能的实现方式中,所述将所述交通参与者时空分布特征实时投影到测试道路,获取车辆的真实轨迹数据,根据所述真实轨迹数据和仿真轨迹数据对所述优化驾驶算法进行训练,得到训练完备的自动驾驶算法,包括:
27、根据仿真中投影的障碍物信息,在车辆不同驾驶工况中进行在环测试,获取车辆的真实轨迹数据;
28、以所述仿真轨迹数据和真实轨迹数据作为预设训练模型的数据输入,对自动驾驶算法进行优化训练,得到训练完备的自动驾驶算法。
29、第二方面,本发明还提供一种自动驾驶算法训练装置,包括:
30、环境搭建模块,用于基于测试道路信息生成道路仿真环境;
31、数据集构建模块,用于利用预设正交排列法根据历史交通场景数据构建多场景驾驶数据集;
32、仿真模块,用于根据所述多场景驾驶数据集在道路仿真环境中对自动驾驶算法进行优化,得到优化驾驶算法,获取交通参与者时空分布特征和车辆的仿真轨迹数据;
33、训练优化模块,用于将所述交通参与者时空分布特征实时投影到测试道路,获取车辆的真实轨迹数据,根据所述真实轨迹数据和仿真轨迹数据对所述优化驾驶算法进行训练,得到训练完备的自动驾驶算法。
34、第三方面,本发明还提供了一种电子设备,包括:处理器和存储器;
35、所述存储器上存储有可被所述处理器执行的计算机可读程序;
36、所述处理器执行所述计算机可读程序时实现如上所述的自动驾驶算法训练方法中的步骤。
37、第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的自动驾驶算法训练方法中的步骤。
38、本发明的有益效果是:
39、本发明提供一种自动驾驶算法训练方法,首先基于真实测试道路信息在仿真平台中构建道路仿真环境,通过正交排列法构建、衍生多场景驾驶数据集;其次,根据多场景驾驶数据集在仿真平台中对自动驾驶算法进行优化,得到优化驾驶算法,并获取仿真平台输出的交通参与者时空分布特征和车辆的仿真轨迹数据;最后,将所述交通参与者时空分布特征实时投影到测试道路,获取车辆的真实轨迹数据,根据真实轨迹数据和仿真轨迹数据对自动驾驶算法进行训练,得到训练完备的自动驾驶算法。本发明通过采用深度学习、强化学习、逆强化学习和模型预测控制等技术的综合应用,使系统能够从大量真实驾驶数据中学习驾驶经验和规律,具备自主学习、智能决策和自适应调整的能力以适应复杂的驾驶环境;在仿真软件中构建多场景驾驶数据集,在实车在环平台中完成数据的收集与算法的校验,通过虚实结合的训练方法使自动驾驶算法更快速高效的向真实环境迁移,降低了算法训练与校验的成本,能够更好地应对复杂的驾驶场景,提高驾驶安全性和舒适性,并且能够根据具体车辆特性和真实道路环境进行在线训练和优化,具有良好的自适应特性。