本技术涉及智能交通管理,尤其涉及一种基于模仿学习的车辆轨迹优化方法及相关装置。
背景技术:
1、随着城市化进程的加速,交通压力和安全挑战日益严峻,智能交通系统(its)作为应对这些挑战的关键技术,正迅速发展。its通过集成先进的信息技术、数据通信传输技术以及计算机技术,实现了对交通流动的实时监控、高效管理和科学引导。全息轨迹构建技术,作为its的重要组成部分,能够全面捕捉和分析路口内车辆的动态行为,对于提升交通流的优化和预测能力至关重要。
2、当前,实现路口内复杂全息轨迹构建的主要技术方案依赖于雷视融合技术。该技术结合了雷达和视觉检测设备的优势,能够获取车辆的位置、速度、运动方向以及外观和车牌等特征信息。然而,在实际应用中,由于视线遮挡、光照变化、距离限制等因素,视觉检测设备往往无法连续或准确地捕获车辆轨迹,导致轨迹信息的不完整。
3、为了解决这些问题,当前技术方案采用了轨迹修正方法。这种方法的核心在于设定预设轨迹,即根据道路设计和交通规则,为车辆设定一系列预期的行驶路径和速度。在实际应用中,系统首先通过雷达和视觉检测设备获取车辆的实际行驶数据,然后将这些数据与预设轨迹进行对比和分析。当发现实际轨迹与预设轨迹存在偏差时,系统会利用算法进行轨迹修正,以模拟和还原车辆在路口的真实行驶状态。
4、然而,尽管轨迹修正方法在一定程度上缓解了检测误差,但其仍存在局限性。一方面,预设轨迹的设定依赖于道路设计和交通规则,缺乏对车辆行为的深入学习和理解。因此,在复杂交通环境中,特别是交通流量大、交通事件突发的情况下,预设轨迹的预测准确性可能受限。另一方面,轨迹修正方法主要依赖于算法对实际轨迹与预设轨迹的对比和分析,缺乏对车辆行驶意图和路径的实时预测能力。这限制了全息轨迹构建技术在应对突发交通事件和复杂交通场景方面的能力。
技术实现思路
1、鉴于上述问题,本技术提供了一种基于模仿学习的车辆轨迹优化方法及相关装置,以实现更好的应对突发交通事件和复杂交通场景的目的。具体方案如下:
2、本技术第一方面提供一种基于模仿学习的车辆轨迹优化方法,包括:
3、获得目标车辆的初始轨迹数据;
4、确定所述目标车辆的目标流向;
5、基于所述初始轨迹数据,从所述目标流向对应的至少一个车道中筛选目标车道;
6、如果所述初始轨迹数据满足修正条件,从路口的配置信息中提取所述目标车道的车道信息,并基于所述初始轨迹数据,获得所述目标车辆及其周围车辆的当前位置信息和当前运动信息;
7、将所述目标车辆及其周围车辆的当前位置信息、当前运动信息及所述目标车道的车道信息输入至生成对抗模仿学习模型,得到所述生成对抗模仿学习模型确定的目标轨迹数据;
8、基于所述目标轨迹数据,对所述初始轨迹数据进行修正。
9、在一种可能的实现中,确定所述目标车辆的目标流向,包括:
10、如果所述目标车辆已锁流向,则将所述目标车辆已锁定的流向作为所述目标车辆的目标流向;
11、如果所述目标车辆未锁流向,且所述目标车辆的进口道车道流向配置为单流向,则将所述单流向作为所述目标车辆的目标流向;
12、如果所述目标车辆未锁流向,且所述目标车辆的进口道车道流向配置为多流向,则通过比较所述多流向中各流向对应的车流量,从所述多流向中选择车流量最大的流向作为所述目标车辆的目标流向;
13、如果所述多流向中各流向对应的车流量一致,基于所述目标车辆的历史轨迹,确定临时目标点,如果所述临时目标点位于所述多流向中其中一个流向中,将所述多流向中包含所述临时目标点的流向作为所述目标车辆的目标流向。
14、在一种可能的实现中,基于所述初始轨迹数据,从所述目标流向对应的至少一个车道中筛选目标车道,包括:
15、基于所述初始轨迹数据中所述目标车辆当前所处轨迹点,确定所述目标车辆的最新轨迹航向角;
16、获取所述目标车辆的目标流向所对应的出口道航向角;
17、确定所述最新轨迹航向角和所述出口道航向角的平均夹角;
18、确定所述目标流向对应的至少一个车道中各车道的目标点和所述目标车辆当前所处轨迹点之间的角度,将所述角度与所述平均夹角之差最小的车道作为目标车道。
19、在一种可能的实现中,所述初始轨迹数据满足修正条件通过以下方式判断得到:
20、确定所述初始轨迹数据中进入所述目标车道的路口内的第一个初始轨迹点和所述目标车道的目标点之间的第一距离;
21、确定所述初始轨迹数据中所述目标车辆当前所处轨迹点和所述第一个初始轨迹点之间的第二距离;
22、如果所述目标流向为左转流向,如果所述第二距离和所述第一距离的比值不小于左转阈值,则满足修正条件;
23、如果所述目标流向为右转流向,如果所述第二距离和所述第一距离的比值不小于右转阈值,则满足修正条件;
24、如果所述目标流向为直行流向,如果所述第二距离和所述第一距离的比值不小于直行阈值,且所述目标车辆在视觉跟踪中失效,则满足修正条件;
25、如果所述目标流向为掉头流向,如果所述目标车辆在视觉跟踪中失效,则满足修正条件。
26、在一种可能的实现中,所述生成对抗模仿学习模型基于对抗网络训练得到,所述对抗网络包括生成器和评判器;
27、所述生成对抗模仿学习模型基于所述对抗网络进行训练的过程,包括:
28、获取路口的车辆行驶轨迹,并基于所述路口的车辆行驶轨迹确定专家的状态动作对;
29、在当前时刻,按照课程分布集的设定采样出个车辆,作为多个样本车辆;
30、获取所述多个样本车辆中各所述样本车辆在当前位置的样本信息;所述样本信息包括:所述样本车辆在当前位置的位置信息和运动信息及其周围样本车辆的位置信息和运动信息及目标样本车道的车道信息;
31、根据所述生成器的当前策略对各样本车辆对应的样本信息进行处理,生成各所述样本车辆的轨迹;
32、确定各所述样本车辆的轨迹对应的惩罚值;
33、基于所述评判器为各所述样本车辆的轨迹中的每个状态动作对进行评分,生成各所述样本车辆的奖励值;所述奖励值通过以下方式确定得到:
34、
35、其中,表示评判器在参数下根据状态动作对得出的值,表示所述样本车辆的轨迹对应的惩罚值;
36、保持所述评判器的参数不变,基于信赖域优化方法更新所述生成器的策略参数;基于信赖域优化方法更新所述生成器的策略参数,包括:对以下约束优化问题进行求解:
37、;
38、其中,表示策略的参数;表示期望;表示在时刻采取的当前策略,其根据旧参数定义的;表示新策略;表示当前策略在时刻下在观察条件下采取动作的概率;表示新策略在时刻下在观察条件下采取动作的概率;表示当前策略在观察条件下采取动作的概率分布;表示新策略在观察条件下采取动作的概率分布;表示和之间的kl(kullback-leibler)散度;表示步长参数,用于控制每次优化步骤中策略的最大变化量;表示优势函数,用于衡量观察条件下采取动作的动作价值期望与观测器估计的状态价值期望之间的差异程度;动作表示所述样本车辆根据策略采取的行为;
39、所述优势函数通过以下广义优势估计方法进行估计得到:
40、
41、其中,表示折扣率;是介于0和1之间的参数,用于平衡td(temporaldifference)误差的权重;表示评判器确定的奖励值;和分别表示在时刻和时刻的状态价值期望;
42、保持所述生成器的策略参数不变,基于所述专家的状态动作对和所述生成器的新策略生成的状态动作对,更新所述评判器的评判参数;所述评判器的评判参数通过以下目标函数进行更新:
43、
44、其中,表示专家策略,表示所述新策略,表示在执行策略时状态动作对被访问到的概率;表示在策略下时间处于状态的概率;表示基于当前策略在状态下采取动作的概率;表示在执行策略时状态动作对被访问到的概率;表示在策略下时间处于状态的概率;表示基于专家策略在状态下采取动作的概率;是的简化表达,表示评判器在参数下根据状态动作对得出的值。
45、在一种可能的实现中,确定各所述样本车辆的轨迹对应的惩罚值,包括:
46、通过惩罚函数,确定各所述样本车辆的轨迹对应的惩罚值;
47、其中,表示任意两个样本车辆之间最小距离,1表示碰撞惩罚值,表示样本车辆距道路边缘最近距离,,表示样本车辆距离道路左边缘最近距离,表示样本车辆距离道路右边缘最近距离,表示距离惩罚值,表示不满足车辆运动学约束,表示约束惩罚值,表示急刹车惩罚值,表示加速度。
48、在一种可能的实现中,所述碰撞惩罚值通过以下方式确定得到:
49、从所述样本车辆的轨迹中提取前n个连续的位置点;
50、针对所述前n个连续的位置点中各位置点,如果所述样本车辆在移动到所述位置点之前与其周围车辆未发生碰撞,但在所述位置点与其周围车辆发生碰撞,将所述位置点标记为异常;如果所述样本车辆在移动到所述位置点之前与其周围车辆未发生碰撞,且在所述位置点与其周围车辆未发生碰撞,将所述位置点标记为候选;
51、如果所述前n个连续的位置点中各位置点中存在标记为候选的位置点,将标记为候选的位置点中排列在最后的位置点作为所述样本车辆的新的当前位置,并确定标记为异常的位置点对应的惩罚值,将标记为异常的位置点对应的惩罚值进行累加,得到碰撞惩罚值;
52、如果所述前n个连续的位置点均标记为异常,将所述前n个连续的位置点中第一个位置点作为所述样本车辆的新的当前位置,并确定标记为异常的位置点对应的惩罚值,将标记为异常的位置点对应的惩罚值进行累加,得到碰撞惩罚值。
53、本技术另一方面提供一种基于模仿学习的车辆轨迹优化装置,包括:
54、第一获得模块,用于获得目标车辆的初始轨迹数据;
55、第一确定模块,用于确定所述目标车辆的目标流向;
56、筛选模块,用于基于所述初始轨迹数据,从所述目标流向对应的至少一个车道中筛选目标车道;
57、第二获得模块,用于如果所述初始轨迹数据满足修正条件,从路口的配置信息中提取所述目标车道的车道信息,并基于所述初始轨迹数据,获得所述目标车辆及其周围车辆的当前位置信息和当前运动信息;
58、第二确定模块,用于将所述目标车辆及其周围车辆的当前位置信息、当前运动信息及所述目标车道的车道信息输入至生成对抗模仿学习模型,得到所述生成对抗模仿学习模型确定的目标轨迹数据;
59、修正模块,用于基于所述目标轨迹数据,对所述初始轨迹数据进行修正。
60、本技术第三方面提供一种电子设备,包括:
61、存储器用于存储计算机程序;
62、处理器用于执行所述计算机程序,以使所述电子设备能够实现如上述任意一项所述的基于模仿学习的车辆轨迹优化方法。
63、本技术第四方面提供一种计算机存储介质,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备能够实现如上述任意一项所述的基于模仿学习的车辆轨迹优化方法。
64、在本技术中,通过对生成对抗模仿学习模型进行训练,生成对抗模仿学习模型可以学习如何根据车辆当前的位置、速度、运动方向以及周围车辆的动态变化来预测车辆未来的行驶意图和路径。因此,将目标车辆及其周围车辆的当前位置信息、当前运动信息及目标车道的车道信息输入至生成对抗模仿学习模型,生成对抗模仿学习模型能够生成更加准确和可靠的目标轨迹数据,因此,目标轨迹数据可以对通过雷达设备和视觉检测设备确定的不完整或偏差的车辆轨迹进行智能修正,以应对视线遮挡、光照变化和距离过远等问题,从而实现对路口内车辆运动状态的连续和准确捕捉。以及,利用生成对抗模仿学习模型深入学习和理解车辆行为,可以摒弃对预设轨迹的依赖,实现对车辆行驶意图和路径的准确预测,可以更好的应对突发交通事件和复杂交通场景。以及,通过生成对抗模仿学习模型,可以优化数据在复杂交通场景下的融合过程,如交通拥堵情况下的雷视融合精度和适应性。