本发明属于自动驾驶。
背景技术:
1、诸如chatgpt等大语言模型在自动驾驶领域展现出巨大的潜力,尤其在座舱人机交互和交通场景理解等应用上取得了显著成效。在人机交互方面,大语言模型能够通过解析用户指令,结合基于数据库的记忆模块,实现个性化的用户交互,大幅提升用户的驾驶体验。在场景理解方面,大语言模型能够整合来自不同传感器的多模态数据,并结合网络预训练获得的通用常识,实现对长尾交通场景进行理解与推理。同时,轨迹预测作为自动驾驶的重要组成部分,旨在通过精确预测道路上车辆、行人等多种参与者的运动状态,为智能车辆的路径规划与避障提供有力支持。因此,如何有效利用大语言模型实现精准的轨迹预测,是其在自动驾驶中实现安全可靠应用的关键前提。
2、专利cn 1 1358 12 13a提出一种预测车辆运动轨迹的处理方法。这类方法的基本思想是通过对运动物体的物理性质和动力学方程建模,结合观测到的历史数据,进行轨迹预测,但是只适用于规则明确、影响因素少等情况的简单交通场景,无法处理车辆行人密集的、环境多变等情况的复杂交通场景。
3、专利cn 1 15523934a提出了一种基于深度学习的车辆轨迹预测方法及系统。该方法将位置信息编码向量和车道线信息编码向量输入第一层循环神经网络模块进行训练,使其输出表征目标车辆驾驶习惯决策依据的隐向量;然后将隐向量与目标车辆的历史轨迹输入第二层全连接神经网络模块,生成预测轨迹。相比传统方法,神经网络通过数据驱动的方式进行轨迹预测,不再依赖手工设计的特征提取或物理模型。典型的神经网络方法包括循环神经网络(rnn)、长短时记忆网络(lstm)等,能够自动学习车辆运动模式和时间依赖关系。然而,这类方法通常依赖于车辆大数据的训练,在处理交通长尾场景时缺乏泛化能力。
4、除传统方法和深度学习方法外,专利cn 1 18394874a公开了一种基于大语言模型引导的车辆轨迹预测方法。该方法首先获取车辆的历史轨迹数据,经过增强处理后生成历史轨迹,并将其输入大语言模型生成历史轨迹的嵌入向量。然后对嵌入向量进行编码,最后通过解码器预测未来轨迹。该专利使用大语言模型来生成历史轨迹的嵌入向量,未能充分发挥大语言模型在轨迹预测中的推理优势,可能导致上下文理解不足、动态学习能力受限、跨领域知识整合不足,以及在数据稀疏性方面的挑战,从而影响整体预测性能。
5、综上,精准的轨迹预测是大语言模型在自动驾驶领域安全、可靠应用的关键。然而,随着车辆和行人等环境信息复杂性的增加,所需描述的词元数量也随之增多。同时,考虑到语言模型在处理数字等方面的局限性,这要求模型具备强大的场景理解和推理能力,因此在推理过程中面临诸多困难和挑战。因此,亟需探索基于大语言模型的车辆轨迹预测方法,帮助模型准确预测交通参与者的行为,进而提升自动驾驶系统在多变、复杂路况中的决策能力,最终实现智能、安全的驾驶体验。
技术实现思路
1、本发明的目的是提出了一个框架,将车辆轨迹以文本格式输入到大语言模型,评估大语言模型在理解交通代理的时间动态方面能力的基于大语言模型的车辆行驶轨迹预测方法。
2、本发明的步骤是:
3、s1、交通场景数据编码:首先向量化目标车辆0及其相邻代理i∈{1,2,…,i}对于每个时间戳t∈{1,2,…,t},如下:
4、
5、其中表示空间坐标,i和t分别表示相邻代理的数量和观察到的时间戳;
6、s2、交互编码:使用交叉注意层将目标车辆与相邻智能体之间的交互编码为向量
7、其中,从目标车辆0导出的查询向量关键向量和值向量如下:
8、
9、其中,φ:为多层全连接神经网络,场景分别为可学习的查询、键和值权重矩阵;
10、将相邻agent的相互作用与目标车辆的空间状态进行融合:
11、
12、式中为可学习向量,表示hadamard积;
13、s3、重编程适配器:从式(4)中提取的场景特征ht投影到llm的文本嵌入空间中
14、
15、进一步分解为两个步骤
16、s31、重编程适配器reprogram将词汇表符号压缩并转换为一组文本原型
17、βprot=wprotβtext (6)
18、其中,表示llm词汇库中j个文本词元,wprot∈rm×j是一个可训练矩阵,表示m个文本原型的集合
19、s32、采用交叉注意层,重编程适配器reprogram将场景特征编程为场景词元
20、
21、其中,为查询、键和值向量,由:
22、
23、其中,分别为查询、键和值转换的可学习权矩阵,函数φrep:表示全连接网络;
24、s4、线性轨迹解码器:
25、
26、其中是经过处理的场景词元被冻结的llm主干;
27、首先将平展到向量上,然后将其投影到向量t上用一个可学习的矩阵将其投影到预测轨迹中,其中n表示预测时间范围内的时间戳数。
28、本发明无需二次训练即可直接应用于轨迹预测,显著节省训练资源;提出的编码方法精简了场景表示所需词元,提升了推理速度;通过轨迹预测任务量化评估大语言模型对交通场景动态信息的理解能力,并采用简单的线性模型作为解码器,避免了任务复杂化,从而更准确地评估模型的预测能力。实验表明,该框架在不同时间范围的预测精度(ade和fde指标)上优于现有方法(详见表一),为大语言模型实现可靠、安全的驾驶决策提供了有力支持。
1.一种基于大语言模型的车辆行驶轨迹预测方法,其特征在于:其步骤是: