一种车辆的自动驾驶方法、系统、设备及存储介质与流程

文档序号:32846233发布日期:2023-01-06 22:17阅读:37来源:国知局
一种车辆的自动驾驶方法、系统、设备及存储介质与流程

1.本发明涉及机器学习技术领域,特别是涉及一种车辆的自动驾驶方法、系统、设备及存储介质。


背景技术:

2.近年来,自动驾驶成为学术界和工业界都非常感兴趣的研究领域。自动驾驶汽车基于车载传感设备实时获取的驾驶环境信息,通过智能化决策技术,实现在脱离人为控制的情况下自动安全行驶,能有效提高交通运行效率、减少事故发生率和能源消耗,是提升道路交通智能化水平的关键技术。
3.深度强化学习是一种实现自动驾驶车辆智能化决策的新范式,它试图通过平衡当前策略的效用和未知空间的探索来找到最大化预期回报的最优策略,在车辆与环境的交互过程中实现驾驶策略的自我学习。基于深度强化学习的车辆自主决策技术可描述为一个闭环优化过程,每一时刻车辆基于驾驶策略将驾驶状态s映射为相应的驾驶动作a,车辆执行驾驶动作完成状态转移,同时环境给予相应的奖励反馈r,以指导驾驶策略更新。由于深度强化学习的驾驶策略训练过程不受监督信息约束,因此具备超越人类驾驶性能的潜力。
4.然而,现阶段的自动驾驶车辆在全面产业化落地前仍存在一个较长过渡期,在此期间,人类驾驶汽车和自动驾驶汽车将不可避免地会同时出现在高速、城市等复杂交通场景中。针对这种混合交通流,考虑到驾驶环境的随机性以及人类驾驶行为的不确定性,车辆不仅需要对环境动态变化及时做出反应,还需要观察周围人类驾驶车辆的行为意图,以便通过交互协商来确保行驶安全性。因此,基于深度强化学习的驾驶策略在处理驾驶环境信息的同时,还要捕捉复杂的交通动态,包括预测周围车辆驾驶行为以及根据历史状态调整驾驶行为等。因此,如何确保驾驶策略在学习和执行过程中的安全性,是深度强化学习在自动驾驶领域中的一个重要研究挑战。
5.针对自动驾驶策略的安全性问题,现有研究分别从车端、路端和车路协同的角度提出相应的解决方法。
6.对于车端决策,通常针对驾驶策略的学习过程,根据特定驾驶场景或驾驶任务,采用奖励塑形或先验驱动来设计对应的安全强化学习框架。其中,奖励塑形是通过将风险整合到奖励中来直接修改驾驶策略的目标优化函数,以减少安全违规行为。先验驱动则是通过修改驾驶策略探索过程来提升驾驶安全性,可进一步分为动作掩蔽机制和安全检查器。由于这些方法依赖专家经验,缺乏理论上的安全保证,无法达到足够的安全性。另一方面,由于车端决策依赖于以车辆为第一视角的环境感知信息,不仅需要大量车端计算资源来完成感知处理,车载传感器的限制和盲点还可能导致不准确或不完整的感知数据,存在极大的安全隐患。
7.对于路端决策,一般会从车联网的角度出发,引入v2v(vehicle to vehicle,车对车)通信技术来提高自动驾驶汽车的效率和安全性,通过结合车载传感器信息和互联车辆之间的共享数据,交由路端计算中心完成车群统一协调决策,以提高交通安全性。这种方法
能够可以克服车端计算资源和传感器范围限制,但在利用车辆共享数据时需要考虑通信延迟等v2v技术限制,并且要求所有车辆都配备这种互联通信能力,而在现实世界中,可能需要数十年才能使所有车辆联网,在此之前人类驾驶车辆仍将出现在道路上,无法直接控制所有车辆,因此不适用于混合交通场景。
8.综上所述,如何有效地实现车辆的自动驾驶方法,保证行车安全,是目前本领域技术人员急需解决的技术问题。


技术实现要素:

9.本发明的目的是提供一种车辆的自动驾驶方法、系统、设备及存储介质,以有效地实现车辆的自动驾驶方法,保证行车安全。
10.为解决上述技术问题,本发明提供如下技术方案:
11.一种车辆的自动驾驶方法,包括:
12.规划出从出发地位置到达目的地位置的参考路径,并根据所述参考路径确定出用于反映车辆静态路径的静态导航信息;
13.根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过特征提取,得到用于反映车辆自身驾驶状态的感知状态输入量;
14.确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征;
15.将所述车载传感设备的检测内容发送至路侧系统,并接收所述路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息;
16.将所述静态导航信息,所述感知状态输入量,所述关联性特征以及所述行为预测信息作为输入量输入至深度强化学习模型,得到所述深度强化学习模型输出的驾驶策略;
17.执行所述驾驶策略。
18.优选的,接收到的所述路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息,为所述路侧系统通过以下操作确定出的行为预测信息:
19.根据所述车载传感设备的检测内容,以及路侧传感设备的检测内容,确定出所检测到的各个车辆各自的历史轨迹序列
20.对所述历史轨迹序列进行线性变换与归一化处理,得到对应的低维融合特征
21.将得到的各个低维融合特征传递至滤波模型,以通过所述滤波模型衰减频域中的噪声信息;
22.将所述滤波模型的输出发送至基于mlp的行为预测模型,得到所述行为预测模型输出的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息;
23.其中,n为序列长度,zi为历史轨迹序列中的第i轨迹点的环境上下文信息,oi为历史轨迹序列中的第i轨迹点的车辆观测信息;xi为低维融合特征x中的第i特征量。
24.优选的,所述滤波模型由多个滤波子模型堆叠而成,每个所述滤波子模型包括滤波层,第一随机失活层,第二随机失活层,前馈层,第一归一化层以及第二归一化层;
25.所述滤波层用于将输入进行快速傅里叶变换之后,通过sgd进行优化以衰减频域
中的噪声信息,并通过逆快速傅里叶变换将优化结果变换回时域;
26.所述第一随机失活层用于接收所述滤波层的输出,并在进行残差连接之后由所述第一归一化层进行归一化,得到的结果作为所述前馈层的输入;
27.所述前馈层用于在mlp结构下,通过激活函数从自身输入中提取非线性特征,得到的结果作为所述第二随机失活层的输入;
28.所述第二随机失活层用于接收所述前馈层的输出,并在进行残差连接之后由所述第二归一化层进行进行归一化,得到的结果作为所在的滤波子模型的输出。
29.优选的,基于mlp的所述行为预测模型的损失函数l
base
(δ)设置为:
[0030][0031]
其中,δ为模型参数,为指示函数,为第k条预测轨迹中车辆未来t时刻的状态,为预测均值,为预测方差,k为预测轨迹总数,为第k条预测轨迹的输出概率,t为预测轨迹长度,为地面真实轨迹,m为地面真实轨迹总数;
[0032]
得到所述行为预测模型输出的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息为
[0033]
其中,h为被检测区域内的车辆总数,为所述行为预测模型输出的表示第i车辆概率最大的预测轨迹。
[0034]
优选的,所述规划出从出发地位置到达目的地位置的参考路径,并根据所述参考路径确定出用于反映车辆静态路径的静态导航信息,包括:
[0035]
基于导航地图,规划出从出发地位置到达目的地位置的参考路径w,且w=[w0,w1,...,wg];
[0036]
基于车辆当前位置,从所述参考路径w中截取d个路径点,确定出用于反映车辆静态路径的静态导航信息为[wi,w
i+1
,...,w
i+d
];
[0037]
其中,w0至wg表示的是从出发地位置到达目的地位置的各个路径点,其中w0为出发地位置的路径点,wg为目的地位置的路径点;
[0038]
wi表示的从车辆当前位置到达所述目的地位置的各个路径点中,距离车辆当前位置最近的路径点,d为正整数。
[0039]
优选的,所述根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过特征提取,得到用于反映车辆自身驾驶状态的感知状态输入量,包括:
[0040]
根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过数据融合的方式构建出第一bev图;
[0041]
提取所述第一bev图的环境语义信息,得到第二bve图;
[0042]
提取所述第二bve图的低维特征,得到用于反映车辆自身驾驶状态的感知状态输入量s。
[0043]
优选的,所述确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征,包括:
[0044]
在车辆与环境交互过程中,记录下各个驾驶样本,并构建出基于驾驶样本的历史行为序列;
[0045]
将所述历史行为序列作为第一学习模型的输入量,确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征c;
[0046]
其中,记录下的驾驶样本为τ,且τ=(s,a,r,),构建出的基于驾驶样本的历史行为序列为{τ
t-l
,...,τ
t-i
,...,τ
t-1
};
[0047]
s为所述感知状态输入量,a为所述驾驶策略,r为所述深度强化学习模型中的环境奖励反馈量,t表示当前时刻,τ
t-1
至τ
t-l
表示t-1时刻至t-l时刻的驾驶样本,l为设定的历史行为序列长度。
[0048]
优选的,所述深度强化学习模型为设置了注意力增强机制的深度强化学习模型,以与车辆当前状态以及驾驶策略相关联的输入量的权重。
[0049]
优选的,所述注意力增强机制所采用的注意力矩阵表示为:
[0050][0051]
其中,output为注意力矩阵的输出,softmax为激活函数,k0为所有车辆的键,v0为所有车辆的值,q为来自车辆的单个查询,t0表示矩阵转置操作,dk为键向量k0的维度。
[0052]
优选的,还包括:
[0053]
在得到所述深度强化学习模型输出的驾驶策略之后,判断得到的所述驾驶策略是否满足预设的安全驾驶规则;
[0054]
如果是,则执行所述驾驶策略;
[0055]
如果否,则基于所述安全驾驶规则调整所述驾驶策略,并执行经过调整之后的驾驶策略。
[0056]
优选的,所述安全驾驶规则包括:
[0057]
当vm>v
limit
且am>0时,将am设置为0;
[0058]
其中,vm为所述驾驶策略的输出速度,am为所述驾驶策略的输出加速度,v
limit
为交通限速值。
[0059]
优选的,所述安全驾驶规则还包括:
[0060]
当d
p-t
minvm
<d
min
时,将am设置为a
min

[0061]
当vm>v
rcm
时,将am设置为a
max

[0062]
其中,d
p
为当前车辆与前车的行车间距,d
min
为最小安全间距,t
min
为最小碰撞时间,a
min
为最小减速度,v
rcm
为推荐速度,a
max
为最大加速度。
[0063]
一种车辆的自动驾驶系统,包括:
[0064]
静态导航信息确定模块,用于规划出从出发地位置到达目的地位置的参考路径,并根据所述参考路径确定出用于反映车辆静态路径的静态导航信息;
[0065]
感知状态输入量确定模块,用于根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过特征提取,得到用于反映车辆自身驾驶状态的感知状态输入量;
[0066]
关联性特征确定模块,用于确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征;
[0067]
行为预测信息确定模块,用于将所述车载传感设备的检测内容发送至路侧系统,并接收所述路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息;
[0068]
驾驶策略输出模块,用于将所述静态导航信息,所述感知状态输入量,所述关联性特征以及所述行为预测信息作为输入量输入至深度强化学习模型,得到所述深度强化学习模型输出的驾驶策略;
[0069]
驾驶策略执行模块,用于执行所述驾驶策略。
[0070]
一种车辆的自动驾驶设备,包括:
[0071]
存储器,用于存储计算机程序;
[0072]
处理器,用于执行所述计算机程序以实现如上述所述的车辆的自动驾驶方法的步骤。
[0073]
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的车辆的自动驾驶方法的步骤。
[0074]
应用本发明实施例所提供的技术方案,以全局静态路径作为决策引导,即规划出从出发地位置到达目的地位置的参考路径,并根据参考路径确定出用于反映车辆静态路径的静态导航信息,有利于降低深度强化学习模型的训练难度。在得到感知状态时,本技术不仅仅依赖于以车辆为第一视角的环境感知信息,而是会根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过特征提取,得到用于反映车辆自身驾驶状态的感知状态输入量,使得得到的用于反映车辆自身驾驶状态的感知状态输入量更为准确。此外,本技术考虑到,车辆驾驶过程具有显著的时序特征,导致驾驶策略在某一时刻所做出的决策可能会依赖于此前某一时间段内历史行为间的关联性特征,因此,为了进一步增强输入特征的表达能力,本技术还会确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征。针对人类驾驶行为的不确定性,本技术通过路测系统预测周围车辆未来驾驶行为,可以增强决策安全性。即本技术会通过路侧系统进行行为预测,接收路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息,以使得后续得到的驾驶策略安全性更高。将静态导航信息,感知状态输入量,关联性特征以及行为预测信息作为输入量输入至深度强化学习模型,可以得到深度强化学习模型输出的驾驶策略,进而执行驾驶策略。
[0075]
综上所述,本技术的方案可以有效地实现车辆的自动驾驶方法,保证行车安全。
附图说明
[0076]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0077]
图1为本发明中一种车辆的自动驾驶方法的实施流程图;
[0078]
图2为本发明一种具体实施方式中的行为预测模型和滤波模型的框架示意图;
[0079]
图3本发明一种具体实施方式中的注意力增强机制的框架示意图;
[0080]
图4为本发明中一种车辆的自动驾驶系统的结构示意图;
[0081]
图5为本发明中一种车辆的自动驾驶设备的结构示意图。
具体实施方式
[0082]
本发明的核心是提供一种车辆的自动驾驶方法,可以有效地实现车辆的自动驾驶方法,保证行车安全。
[0083]
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0084]
请参考图1,图1为本发明中一种车辆的自动驾驶方法的实施流程图,该车辆的自动驾驶方法可以包括以下步骤:
[0085]
步骤s101:规划出从出发地位置到达目的地位置的参考路径,并根据参考路径确定出用于反映车辆静态路径的静态导航信息。
[0086]
具体的,可以依赖高精地图,规划出从出发地位置到达目的地位置的参考路径,该参考路径通常可以用一系列的中间路径点表示。而根据参考路径确定出用于反映车辆静态路径的静态导航信息时,通常可以在参考路径中从当前位置开始选取一定数量的路径点。本技术通过将静态导航信息作为深度强化学习模型的输入量,可以降低实时决策难度。
[0087]
在本发明的一种具体实施方式中,步骤s101可以具体包括:
[0088]
基于导航地图,规划出从出发地位置到达目的地位置的参考路径w,且w=[w0,w1,...,wg];
[0089]
基于车辆当前位置,从参考路径w中截取d个路径点,确定出用于反映车辆静态路径的静态导航信息为[wi,w
i+1
,...,w
i+d
];
[0090]
其中,w0至wg表示的是从出发地位置到达目的地位置的各个路径点,其中w0为出发地位置的路径点,wg为目的地位置的路径点;
[0091]
wi表示的从车辆当前位置到达目的地位置的各个路径点中,距离车辆当前位置最近的路径点,也就是车辆当前位置的下一个最近的路径点。d为正整数。
[0092]
可以理解的是,该种实施方式中,g为路径点总数量,由规划步长和总路程决定。在确定出用于反映车辆静态路径的静态导航信息时,d的取值可以根据需要进行设定和调整。
[0093]
步骤s102:根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过特征提取,得到用于反映车辆自身驾驶状态的感知状态输入量。
[0094]
本技术的方案中,不仅仅依赖于以车辆为第一视角的环境感知信息,而是会根据车载传感设备的检测内容以及接收到的路侧传感设备的检测内容进行特征提取,从而使得得到的用于反映车辆自身驾驶状态的感知状态输入量更为准确,提高深度强化学习模型的学习效率以及对于变化环境的鲁棒性。
[0095]
在本发明的一种具体实施方式中,步骤s102可以具体包括:
[0096]
根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过数据融合的方式构建出第一bev图;
[0097]
提取第一bev图的环境语义信息,得到第二bve图;
[0098]
提取第二bve图的低维特征,得到用于反映车辆自身驾驶状态的感知状态输入量
s。
[0099]
该种实施方式中,考虑到构建bev(birds eye views,鸟瞰图)图作为感知状态中间表示,可以避免环境差异影响,提升对于变化环境的鲁棒性,之后从中提取出低维特征,可以降低驾驶策略的训练难度。
[0100]
车载传感设备的检测内容可以有多种,例如车载摄像头等设备检测到的视觉图像,雷达设备检测到的雷达点云等等。
[0101]
考虑构建bev图依赖于传感设备实时接收的信息来生成输入状态,因此会受到传感设备的感知范围限制,即无法对超出传感设备的观测距离的环境信息进行描述。因此,本技术的方案中,可以借助高精地图来做相应的融合定位,通过v2i(vehicle to infrastructure,车对智能基础设施)无线通信技术将路侧传感设备的检测内容添加到车载感知信息中,即路侧传感设备的检测内容可以通过v2i技术传递至车端,由车端的相应处理器来基于车载传感设备的检测内容以及路侧传感设备的检测内容进行第一bev图的构建。
[0102]
具体的,根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,可以通过目标检测、数据融合、语义分割等技术构建出第一bev图
[0103]
提取第一bev图的环境语义信息时,具体可以提取被控车辆、背景建筑、可行驶区域、交通标志、交通参与者等环境语义信息,从而减小环境差异影响,而第一bev图的剩余信息,例如道路空间布局等车辆决策所需的大部分信息可以保留。
[0104]
该种实施方式中,还会进一步地提取第二bve图的低维特征,得到用于反映车辆自身驾驶状态的感知状态输入量s。例如,具体可以使用cnn(convolutional neural network,卷积神经网络)编码器从第二bve图中提取低维潜在关键特征,例如与前方车辆的距离、到最近停车标志的距离、与车道中心的距离、最近的交通灯状态等等,提取出的结果作为驾驶策略的感知状态输入量s,即得到用于反映车辆自身驾驶状态的感知状态输入量s。由于提取第二bve图的低维特征达到了对状态空间降维的目的,因此可以加快后续的深度强化学习的策略优化过程,提升样本学习效率。
[0105]
此外需要说明的是,采用cnn编码器等方式进行特征提取时,cnn编码器可以采用监督学习的方式进行预训练,也可以通过反向梯度更新与深度强化学习模型同时进行训练。在实际应用中,为避免前期大规模数据收集工作,通常是采用cnn编码器与深度强化学习模型同时训练的实施方式。并且,在部分实施方式中,也可以采用cnn编码器之外的其他方式,只要能够有效地从第二bve图中提取出所需要的低维特征即可,并不影响本发明的实施。
[0106]
步骤s103:确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征。
[0107]
本技术考虑到,车辆驾驶过程具有显著的时序特征,导致驾驶策略在某一时刻所做出的决策,可能会依赖于此前某一时间段内历史行为间的关联性特征。因此,本技术的方案中,为了进一步增强输入特征的表达能力,会确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征,作为深度强化学习模型的输入量。
[0108]
确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征的具体方式可以根据实际需要进行设定,例如在本发明的一种具体实施方式中
[0109]
步骤s103可以具体包括:
[0110]
在车辆与环境交互过程中,记录下各个驾驶样本,并构建出基于驾驶样本的历史行为序列;
[0111]
将历史行为序列作为第一学习模型的输入量,确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征c;
[0112]
其中,记录下的驾驶样本为τ,且τ=(s,a,r,),构建出的基于驾驶样本的历史行为序列为{τ
t-l
,...,τ
t-i
,...,τ
t-1
};
[0113]
s为感知状态输入量,a为驾驶策略,r为深度强化学习模型中的环境奖励反馈量,t表示当前时刻,τ
t-1
至τ
t-l
表示t-1时刻至t-l时刻的驾驶样本,l为设定的历史行为序列长度。
[0114]
该种实施方式中,将每一时刻的驾驶状态、决策动作和环境奖励记为一个驾驶样本,即τ=(s,a,r,),而针对车辆与环境交互过程中的历史决策信息,例如可以采用rnn(recurrent neural network,循环神经网络)来确定出一个依赖于历史行为序列{τ
t-l
,...,τ
t-i
,...,τ
t-1
}的关联性特征c。
[0115]
t表示当前时刻,也即当前决策时刻,l为设定的历史行为序列长度,以表征在深度强化学习的顺序决策过程中历史行为间的隐藏关联特性。此外,其他实施方式中,第一学习模型可以不采用rnn网络模型,例如可以选择lstm(long short-termmemory,长短期记忆网络)、gru(gated recurrentunit,门控循环单元)及其变体。例如一种具体场合中,考虑到表征能力和计算复杂性间的平衡,可以采用gru来提取关联性特征c。
[0116]
步骤s104:将车载传感设备的检测内容发送至路侧系统,并接收路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息。
[0117]
本技术考虑到,人类驾驶行为具有不确定性,因此,本技术方案中,通过预测周围车辆未来驾驶行为,以增强决策安全性。并且,考虑到以自我车辆为中心的车端行为预测方法受车载传感范围与计算资源限制,随着交通密集程度的增大,其计算复杂度与扩展能力均存在瓶颈,因此,本技术是在路侧系统中构建以场景为中心的行为预测模型,依靠路侧系统实现高效、准确的车辆行为预测,缓解车端的计算压力,同时增强决策预见性。
[0118]
具体的,通过v2i通信技术可以将车载传感设备的检测内容发送至路侧系统,路侧系统便可以结合车载传感设备的检测内容,以及路侧传感设备的检测内容,确定出各个车辆的历史轨迹序列,进而通过行为预测模型对检测区域内的各车辆的未来行为进行预测,即预测各车辆的未来轨迹。
[0119]
在本发明的一种具体实施方式中,接收到的路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息,为路侧系统通过以下操作确定出的行为预测信息:
[0120]
根据车载传感设备的检测内容,以及路侧传感设备的检测内容,确定出所检测到的各个车辆各自的历史轨迹序列
[0121]
对历史轨迹序列进行线性变换与归一化处理,得到对应的低维融合特征
[0122]
将得到的各个低维融合特征传递至滤波模型,以通过滤波模型衰减频域中的噪声信息;
[0123]
将滤波模型的输出发送至基于mlp的行为预测模型,得到行为预测模型输出的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息;
[0124]
该种实施方式中,考虑到受通信干扰以及传感器误差的影响,车辆历史轨迹序列中的数据噪声会导致行为预测模型出现过拟合问题,影响预测效果。因此,本技术借助数字信号处理中的滤波思想,通过引入滤波模型来增强方案的鲁棒性。而行为预测模型常用的包括mlp(multilayer perceptron,多层感知机)、rnn、cnn以及transformer等结构,本技术可以采用结构简单的mlp作为骨干网络,构建滤波增强的行为预测模型。
[0125]
具体的,根据车载传感设备的检测内容,以及路侧传感设备的检测内容,可以确定出所检测到的各个车辆各自的历史轨迹序列,表示为n为序列长度,zi为历史轨迹序列中的第i轨迹点的环境上下文信息,oi为历史轨迹序列中的第i轨迹点的车辆观测信息,例如可以包括车辆的位置、速度、转向角等。
[0126]
对历史轨迹序列进行线性变换与归一化处理,可以得到对应的低维融合特征,表示为xi为低维融合特征x中的第i特征量。然后将得到的低维融合特征传递给滤波模型进行噪声衰减。
[0127]
在本发明的一种具体实施方式中,滤波模型由多个滤波子模型堆叠而成,每个滤波子模型包括滤波层,第一随机失活层,第二随机失活层,前馈层,第一归一化层以及第二归一化层;可参阅图2,为一种具体实施方式中的行为预测模型和滤波模型的框架示意图,并且需要说明的是,图2中仅示出了单个滤波子模型。
[0128]
滤波层用于将输入进行快速傅里叶变换之后,通过sgd进行优化以衰减频域中的噪声信息,并通过逆快速傅里叶变换将优化结果变换回时域;
[0129]
第一随机失活层用于接收滤波层的输出,并在进行残差连接之后由第一归一化层进行归一化,得到的结果作为前馈层的输入;
[0130]
前馈层用于在mlp结构下,通过激活函数从自身输入中提取非线性特征,得到的结果作为第二随机失活层的输入;
[0131]
第二随机失活层用于接收前馈层的输出,并在进行残差连接之后由第二归一化层进行进行归一化,得到的结果作为所在的滤波子模型的输出。
[0132]
例如,第l个滤波层的输入表示为x
l
,则进行快速傅里叶变换之后,可以表示为x
l
=f(x
l
),此处的f()可以为一维fft(fast fourier transform,快速傅立叶变换)操作。
[0133]
进行快速傅里叶变换之后,通过一个可学习的滤波器f调整频域表示。例如具体为其中的

为逐元素乘法,滤波器f可以通过sgd(stochastic gradient descent,随机梯度下降法)优化方式进行优化,以自适应地衰减频域中的噪声信息。由于这种频域上的点乘相当于时域的循环卷积,具有更大的感受野,因此能够更好地捕捉序列周期性特征。
[0134]
最后,采用逆fft将频域表示变换回时域,可以表示为此处的f-1
()
可以为一维的逆fft操作,为去噪之后的序列表示。
[0135]
并且,为了避免梯度消失和不稳定训练问题,避免过拟合,本技术会将输入dropout层后进行残差连接,即第一随机失活层用于接收滤波层的输出,并在进行残差连接之后由第一归一化层进行归一化,第一归一化层得到的结果作为前馈层的输入,可以表示为:该式中的dropout便是第一随机失活层,layernorm为第一归一化层。
[0136]
在前馈层,可以结合mlp和relu激活函数进一步从序列中提取非线性特征,可以表示为其中的w1,b1,w2以及b2均为可训练参数。
[0137]
前馈层的输出发送至第二随机失活层之后,进行残差连接,再由第一归一化层进行归一化,得到的结果便可以作为滤波子模型的输出,也即该例子中第l个滤波子模型的输出。
[0138]
如前文的描述,本技术可以采用结构简单的mlp作为骨干网络,构建滤波增强的行为预测模型。
[0139]
例如滤波模型的输出序列为则可以将行为预测模型的输出表示为车辆未来轨迹的高斯分布:该式中的φ表示分布,n为高斯分布,为第k条预测轨迹中车辆未来第t时刻的状态,为预测均值,为预测方差。通过gmm(gaussian mixture model,高斯混合模型)可以描述路侧预测轨迹的概率分布模型,表示为:
[0140]
其中的p为概率,k为预测轨迹总数,π(zk|x)为第k条预测轨迹的输出概率,t为预测轨迹长度。
[0141]
采用mlp将输入映射为预测轨迹的概率分布表示,并可以通过sgd进行优化,以最大化车辆预测轨迹的似然估计。例如训练数据表示为大化车辆预测轨迹的似然估计。例如训练数据表示为为地面真实轨迹,则在本发明的一种具体实施方式中,模型优化目标,即
[0142]
基于mlp的行为预测模型的损失函数l
base
(δ)可以具体设置为:
[0143][0144]
其中,δ为模型参数,为指示函数,为第k条预测轨迹中车辆未来t时刻的状态,为预测均值,为预测方差,k为预测轨迹总数,为第k条预测轨迹的输出概率,t为预测轨迹长度,为地面真实轨迹,m为地面真实轨迹总数。
[0145]
可以将训练好的行为预测模型部署在路侧系统中,从而对检测区域内的车辆进行实时轨迹预测。假设被控区域内存在h辆车,通过路侧的行为预测模型可以推断每辆车的未来轨迹分布,并输出概率最大的预测轨迹z
max
,将所有车辆的预测轨迹进行聚合,便可以得
到周围车辆的未来行为信息。
[0146]
即在本发明的一种具体实施方式中,得到行为预测模型输出的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息可以表示为其中,h为被检测区域内的车辆总数,为行为预测模型输出的表示第i车辆概率最大的预测轨迹。
[0147]
步骤s105:将静态导航信息,感知状态输入量,关联性特征以及行为预测信息作为输入量输入至深度强化学习模型,得到深度强化学习模型输出的驾驶策略;
[0148]
步骤s106:执行驾驶策略。
[0149]
本技术中,将静态导航信息w,感知状态输入量s,关联性特征c以及行为预测信息i相结合,构成输入状态并作为深度强化学习模型的输入量,其中的
·
为连接运算符。
[0150]
在采用深度强化学习模型实现车辆运动控制时,可以采用的算法有ppo(proximal policy optimization,近端策略优化)、ddpg(deep deterministic policy gradient,深度确定性策略梯度)、td3(twin delayed deep deterministic policy gradient,双延迟深度确定性策略梯度)、sac(soft actor-critic,柔性动作-评价)等等。而考虑到超参数与收敛性能,本发明例如可以采用ppo进行训练。
[0151]
在ppo框架下,深度强化学习模型可以基于车辆与环境每一次交互过程所产生的驾驶样本进行学习,并利用重要性采样来提升样本效率,同时通过裁剪目标优化函数,防止策略更新前后差异过大,保证策略优化性能。假设模型为π
θ
,其中的θ为模型参数,则基于π
θ
产生一组驾驶样本此处的t为一次交互过程的总步数,在更新过程中,每次随机抽取小批量样本作为训练样本,tm为批量大小,根据以下目标优化函数更新参数θ:
[0152][0153]
其中的θk为第k次迭代更新得到的模型参数,为策略π
θ
的概率分布,可以通过样本来逼近,为策略的概率分布,通过样本来逼近,clip(
·
)为裁剪操作,防止θ与θk差异过大,具体表示为:
[0154][0155]
其中,ε∈(0,1)为限制参数。为动作优势函数,表示为:
[0156]
[0157]
其中的为状态时采取动作ai的奖励反馈,为价值函数,γ∈(0,1)为奖励衰减因子。当k达到设定的最大迭代数,则一轮优化过程结束,车辆继续与环境交互,并进行下一轮策略优化,直至达到优化次数上限。
[0158]
进一步的,在本发明的一种具体实施方式中,深度强化学习模型为设置了注意力增强机制的深度强化学习模型,以提高与车辆当前状态以及驾驶策略相关联的输入量的权重。
[0159]
具体的,可以在ppo的策略网络中设计注意力模块,使深度强化学习模型能够更关注与当前车辆状态和决策相关的输入部分,即提高与车辆当前状态以及驾驶策略相关联的输入量的权重。
[0160]
可参阅图3,为注意力增强机制的框架示意图,对于静态导航信息w,感知状态输入量s,关联性特征c,归入图3中的自我车辆状态,而路侧系统发送的行为预测信息,可以分解为自我车辆状态和周围车辆状态这两部分,分别归入图3中的自我车辆状态和周围车辆状态。之后,可以进行归一化并传递至mlp,然后将mlp的输出进一步传递至注意力模块,在本发明的一种具体实施方式中,注意力增强机制所采用的注意力矩阵可以具体表示为:
[0161][0162]
其中,k0为所有车辆的键,v0为所有车辆的值,二者均可以通过自我车辆和周围车辆状态信息线性投影得到。q为来自车辆的单个查询,可以通过自我车辆状态信息线性投影得到。output为注意力矩阵的输出,softmax为激活函数。此处的t0表示矩阵转置操作,dk为键向量k0的维度。
[0163]
将注意力模块的输出数据拼接并进行线性变换,然后添加到自我车辆状态的mlp输出中,归一化后传递给输出mlp层,最终输出动作值,即输出驾驶策略。
[0164]
进一步的,在本发明的一种具体实施方式中,还可以包括:
[0165]
在得到深度强化学习模型输出的驾驶策略之后,判断得到的驾驶策略是否满足预设的安全驾驶规则;
[0166]
如果是,则执行驾驶策略;
[0167]
如果否,则基于安全驾驶规则调整驾驶策略,并执行经过调整之后的驾驶策略。
[0168]
该种实施方式为了进一步地提高行车安全,在得到深度强化学习模型输出的驾驶策略之后,还会进一步地判断得到的驾驶策略是否满足预设的安全驾驶规则。
[0169]
如果满足,说明得到的驾驶策略正常,可以直接执行驾驶策略。如果不满足,则从安全角度出发,会基于安全驾驶规则调整驾驶策略,并执行经过调整之后的驾驶策略。
[0170]
当然,具体的安全驾驶规则可以根据实际需要进行设定和选取,例如通常考虑的安全驾驶规则为限速规则,例如在本发明的一种具体实施方式中,安全驾驶规则可以包括:
[0171]
当vm>v
limit
且am>0时,将am设置为0;
[0172]
其中,vm为驾驶策略的输出速度,am为驾驶策略的输出加速度,v
limit
为交通限速值。
[0173]
可以看出,当vm>v
limit
时,说明驾驶策略的输出速度超过了交通限速值,因此将驾驶策略的输出加速度替换为0,以防止车辆超速。
[0174]
进一步的,在本发明的一种具体实施方式中,安全驾驶规则还可以包括:
[0175]
当d
p-t
minvm
<d
min
时,将am设置为a
min

[0176]
当vm>v
rcm
时,将am设置为a
max

[0177]
其中,d
p
为当前车辆与前车的行车间距,d
min
为最小安全间距,t
min
为最小碰撞时间,a
min
为最小减速度,v
rcm
为推荐速度,a
max
为最大加速度。
[0178]
该种实施方式中,进一步地从保持行车间距和安全超车的角度,对安全驾驶规则进行了补充。
[0179]
当判断出d
p-t
minvm
<d
min
时,说明当前车辆与前车的行车间距过低,因此将am设置为a
min
,即控制车辆执行最小减速度以保持与前车的安全间距。
[0180]
而当vm>v
rcm
时,将am设置为a
max
,用于确保车辆并道或超车时执行最大加速度,直到达到推荐速度,v
rcm
可以预先设定并且可以根据实际情况进行动态调整。
[0181]
应用本发明实施例所提供的技术方案,以全局静态路径作为决策引导,即规划出从出发地位置到达目的地位置的参考路径,并根据参考路径确定出用于反映车辆静态路径的静态导航信息,有利于降低深度强化学习模型的训练难度。在得到感知状态时,本技术不仅仅依赖于以车辆为第一视角的环境感知信息,而是会根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过特征提取,得到用于反映车辆自身驾驶状态的感知状态输入量,使得得到的用于反映车辆自身驾驶状态的感知状态输入量更为准确。此外,本技术考虑到,车辆驾驶过程具有显著的时序特征,导致驾驶策略在某一时刻所做出的决策可能会依赖于此前某一时间段内历史行为间的关联性特征,因此,为了进一步增强输入特征的表达能力,本技术还会确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征。针对人类驾驶行为的不确定性,本技术通过路测系统预测周围车辆未来驾驶行为,可以增强决策安全性。即本技术会通过路侧系统进行行为预测,接收路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息,以使得后续得到的驾驶策略安全性更高。将静态导航信息,感知状态输入量,关联性特征以及行为预测信息作为输入量输入至深度强化学习模型,可以得到深度强化学习模型输出的驾驶策略,进而执行驾驶策略。
[0182]
综上所述,本技术的方案可以有效地实现车辆的自动驾驶方法,保证行车安全。
[0183]
相应于上面的方法实施例,本发明实施例还提供了一种车辆的自动驾驶系统,可与上文相互对应参照。
[0184]
参见图4所示,为本发明中一种车辆的自动驾驶系统的结构示意图,包括:
[0185]
静态导航信息确定模块401,用于规划出从出发地位置到达目的地位置的参考路径,并根据参考路径确定出用于反映车辆静态路径的静态导航信息;
[0186]
感知状态输入量确定模块402,用于根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过特征提取,得到用于反映车辆自身驾驶状态的感知状态输入量;
[0187]
关联性特征确定模块403,用于确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征;
[0188]
行为预测信息确定模块404,用于将车载传感设备的检测内容发送至路侧系统,并接收路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测
信息;
[0189]
驾驶策略输出模块405,用于将静态导航信息,感知状态输入量,关联性特征以及行为预测信息作为输入量输入至深度强化学习模型,得到深度强化学习模型输出的驾驶策略;
[0190]
驾驶策略执行模块406,用于执行驾驶策略。
[0191]
在本发明的一种具体实施方式中,行为预测信息确定模块404接收到的路侧系统反馈的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息,为路侧系统通过以下操作确定出的行为预测信息:
[0192]
根据车载传感设备的检测内容,以及路侧传感设备的检测内容,确定出所检测到的各个车辆各自的历史轨迹序列
[0193]
对历史轨迹序列进行线性变换与归一化处理,得到对应的低维融合特征
[0194]
将得到的各个低维融合特征传递至滤波模型,以通过滤波模型衰减频域中的噪声信息;
[0195]
将滤波模型的输出发送至基于mlp的行为预测模型,得到行为预测模型输出的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息;
[0196]
其中,n为序列长度,zi为历史轨迹序列中的第i轨迹点的环境上下文信息,oi为历史轨迹序列中的第i轨迹点的车辆观测信息;xi为低维融合特征x中的第i特征量。
[0197]
在本发明的一种具体实施方式中,滤波模型由多个滤波子模型堆叠而成,每个滤波子模型包括滤波层,第一随机失活层,第二随机失活层,前馈层,第一归一化层以及第二归一化层;
[0198]
滤波层用于将输入进行快速傅里叶变换之后,通过sgd进行优化以衰减频域中的噪声信息,并通过逆快速傅里叶变换将优化结果变换回时域;
[0199]
第一随机失活层用于接收滤波层的输出,并在进行残差连接之后由第一归一化层进行归一化,得到的结果作为前馈层的输入;
[0200]
前馈层用于在mlp结构下,通过激活函数从自身输入中提取非线性特征,得到的结果作为第二随机失活层的输入;
[0201]
第二随机失活层用于接收前馈层的输出,并在进行残差连接之后由第二归一化层进行进行归一化,得到的结果作为所在的滤波子模型的输出。
[0202]
在本发明的一种具体实施方式中,基于mlp的行为预测模型的损失函数l
base
(δ)设置为:
[0203][0204]
其中,δ为模型参数,为指示函数,为第k条预测轨迹中车辆未来t时刻的状态,为预测均值,为预测方差,k为预测轨迹总数,为第k条预测轨迹的
输出概率,t为预测轨迹长度,为地面真实轨迹,m为地面真实轨迹总数;
[0205]
得到行为预测模型输出的用于反映路侧传感设备的检测区域内的各车辆未来行为的行为预测信息为
[0206]
其中,h为被检测区域内的车辆总数,为行为预测模型输出的表示第i车辆概率最大的预测轨迹。
[0207]
在本发明的一种具体实施方式中,静态导航信息确定模块401,具体用于:
[0208]
基于导航地图,规划出从出发地位置到达目的地位置的参考路径w,且w=[w0,w1,...,wg];
[0209]
基于车辆当前位置,从参考路径w中截取d个路径点,确定出用于反映车辆静态路径的静态导航信息为[wi,w
i+1
,...,w
i+d
];
[0210]
其中,w0至wg表示的是从出发地位置到达目的地位置的各个路径点,其中w0为出发地位置的路径点,wg为目的地位置的路径点;
[0211]
wi表示的从车辆当前位置到达目的地位置的各个路径点中,距离车辆当前位置最近的路径点,d为正整数。
[0212]
在本发明的一种具体实施方式中,感知状态输入量确定模块402,具体用于:
[0213]
根据车载传感设备的检测内容,以及接收到的路侧传感设备的检测内容,通过数据融合的方式构建出第一bev图;
[0214]
提取第一bev图的环境语义信息,得到第二bve图;
[0215]
提取第二bve图的低维特征,得到用于反映车辆自身驾驶状态的感知状态输入量s。
[0216]
在本发明的一种具体实施方式中,关联性特征确定模块403,具体用于:
[0217]
在车辆与环境交互过程中,记录下各个驾驶样本,并构建出基于驾驶样本的历史行为序列;
[0218]
将历史行为序列作为第一学习模型的输入量,确定出用于反映车辆与环境交互过程中的历史决策信息的关联性特征c;
[0219]
其中,记录下的驾驶样本为τ,且τ=(s,a,r,),构建出的基于驾驶样本的历史行为序列为{τ
t-l
,...,τ
t-i
,...,τ
t-1
};
[0220]
s为感知状态输入量,a为驾驶策略,r为深度强化学习模型中的环境奖励反馈量,t表示当前时刻,τ
t-1
至τ
t-l
表示t-1时刻至t-l时刻的驾驶样本,l为设定的历史行为序列长度。
[0221]
在本发明的一种具体实施方式中,深度强化学习模型为设置了注意力增强机制的深度强化学习模型,以与车辆当前状态以及驾驶策略相关联的输入量的权重。
[0222]
在本发明的一种具体实施方式中,注意力增强机制所采用的注意力矩阵表示为:
[0223][0224]
其中,output为注意力矩阵的输出,softmax为激活函数,k0为所有车辆的键,v0为所有车辆的值,q为来自车辆的单个查询,t0表示矩阵转置操作,dk为键向量k0的维度。
[0225]
在本发明的一种具体实施方式中,驾驶策略执行模块406,还用于:
[0226]
在得到深度强化学习模型输出的驾驶策略之后,判断得到的驾驶策略是否满足预设的安全驾驶规则;
[0227]
如果是,则执行驾驶策略;
[0228]
如果否,则基于安全驾驶规则调整驾驶策略,并执行经过调整之后的驾驶策略。
[0229]
在本发明的一种具体实施方式中,安全驾驶规则包括:
[0230]
当vm>v
limit
且am>0时,将am设置为0;
[0231]
其中,vm为驾驶策略的输出速度,am为驾驶策略的输出加速度,v
limit
为交通限速值。
[0232]
在本发明的一种具体实施方式中,安全驾驶规则还包括:
[0233]
当d
p-t
minvm
<d
min
时,将am设置为a
min

[0234]
当vm>v
rcm
时,将am设置为a
max

[0235]
其中,d
p
为当前车辆与前车的行车间距,d
min
为最小安全间距,t
min
为最小碰撞时间,a
min
为最小减速度,v
rcm
为推荐速度,a
max
为最大加速度。
[0236]
相应于上面的方法和系统实施例,本发明实施例还提供了一种车辆的自动驾驶设备以及一种计算机可读存储介质,可与上文相互对应参照。
[0237]
可参阅图5,该车辆的自动驾驶设备可以包括:
[0238]
存储器501,用于存储计算机程序;
[0239]
处理器502,用于执行计算机程序以实现如上述任一实施例中的车辆的自动驾驶方法的步骤。
[0240]
该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例中的车辆的自动驾驶方法的步骤。这里所说的计算机可读存储介质包括随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
[0241]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0242]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0243]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些
改进和修饰也落入本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1