本发明涉及智能驾驶行为决策,尤其是涉及联合时空信息的智能驾驶多步长时行为决策方法及装置。
背景技术:
1、近年来,智能驾驶及其相关研究取得了很大进展,在提升交通效率和驾驶安全方面已经显现出巨大潜力。行为决策作为智能驾驶系统中重要的模块,该模块的性能直接决定了智能驾驶汽车的智能性的高低,也是用于评价智能驾驶能力的最核心的指标之一。智能驾驶行为决策模块根据上层感知和预测结果与行驶任务给出决策结果,指导人类驾驶员或下层的轨迹规划与控制产生驾驶行为。
2、传统的驾驶行为决策方法基于规则实现对各决策基元(例如:车道保持、跟驰、换道、超车、加速、减速)的选择。例如,公开号为cn108583578a的中国发明专利申请《用于自动驾驶车辆的基于多目标决策矩阵的车道决策方法》公开了一种针对三车道模型,基于交通参与者当前位置与速度信息和车道限速信息构建决策矩阵,实现自动驾驶车辆的实时自主车道决策;公开号为cn110667578a的中国发明专利申请《自动驾驶车辆的横向决策系统及横向决策确定方法》公开了一种通过道路特征信息以及预先选择的目标线和环境物体目标评估自动驾驶车辆进行横向决策所需的目标车道和车道异常情况,并据此作出符号道路特征的横向决策。
3、现有的方法基于道路结构信息与交通参与者当前位置与速度信息,根据设计的规则或评价函数选择下一步的最优决策基元,为一步短时行为决策。一步短时行为决策根据短时段的信息评估当前选择某一决策基元,可能会导致局部极小或不稳定(相邻决策周期的决策结果频繁切换)的短视决策结果。此外,现有方法输出的决策结果偏语义层面的信息(例如左换道、车道保持、右换道、加速、减速等),包含较少的定量信息(例如换道的起点与终点、速度期望值等)。在满足实时决策的前提下,决策结果包含更多的定量信息能够对人类驾驶员或下层的轨迹规划与控制产生更加明确有效的指导。
技术实现思路
1、为解决现有技术的不足,实现能跨越多个决策基元的决策结果,考虑时空维度上更长远的环境信息,得到包含更丰富的轨迹点序列的多步长时决策结果,从而有助于人类驾驶员或智能驾驶平台得到更加安全、稳定、高效的驾驶行为的目的,本发明采用如下的技术方案:
2、一种联合时空信息的智能驾驶多步长时行为决策方法,该方法根据交通参与者的位置分布以及道路结构等信息构建驾驶状态转移图,即智能汽车根据该驾驶状态转移图可能到达指定车道上指定两个前后相邻的交通参与者(包括给每个邻近车道设立的极前与极后两个虚拟交通参与者)之间;再根据交通参与者的时空信息(例如,预测轨迹)进行前向模拟来构建智能汽车的时空轨迹树,从而找到构成决策结果的完整轨迹点序列;最后,根据设计的指标对各时空轨迹树进行全方位的评分,并以综合评分最高的时空轨迹作为当前决策结果。具体包括如下步骤:
3、一种联合时空信息的智能驾驶多步长时行为决策方法,包括如下步骤:
4、步骤s1:根据道路结构信息与交通参与者信息,生成驾驶状态集合,将各驾驶状态作为节点,基于相邻车道的驾驶状态,生成节点间的有向边,构建驾驶状态转移图;
5、步骤s2:基于驾驶状态转移图与交通参与者的时空信息,构建时空轨迹树;将智能汽车的当前状态作为时空轨迹树根节点进入先入先出队列队尾,将与根节点关联的驾驶状态加入已探索驾驶状态列表;若先入先出队列中队头节点所在的时间步小于已探索驾驶状态列表的决策步长时,则取出队头节点;将头节点的直系子节点加入先入先出队列队尾,除叶子节点外的其他节点有且仅有1个直系子节点,直系子节点的驾驶状态与父节点的驾驶状态相同;若驾驶状态转移图中,有头节点的驾驶状态指向其候选旁系子节点的驾驶状态的有向边,且候选旁系子节点的驾驶状态属于已探索驾驶状态列表,则将候选旁系子节点加入先入先出队列队尾,将候选旁系子节点的驾驶状态加入已探索驾驶状态列表;除叶子节点外的其他节点至多有2个旁系子节点,旁系子节点的驾驶状态与父节点的驾驶状态不相同且不属于同一车道;若先入先出队列中队头节点所在的时间步大于等于已探索驾驶状态列表的决策步长时,终止迭代并输出时空轨迹树;
6、步骤s3:在时空轨迹树中提取时空轨迹,并对所有候选时空轨迹进行评分,最终选择分数最高的时空轨迹作为决策结果。
7、进一步地,所述步骤s1包括如下步骤:
8、步骤s1.1:根据智能汽车v所在车道确定基准车道m;若智能汽车v行驶方向与所在车道行驶方向相反,则以邻近智能汽车v所在车道的第一个与智能汽车v行驶方向同向的车道作为基准车道m;若智能汽车v行驶方向与所在车道行驶方向相同,则以智能汽车v所在车道作为基准车道m;
9、步骤s1.2:根据基准车道m以及与基准车道m邻近车道,构建车道集合slane;
10、步骤s1.3:沿着基准车道m的行驶方向从后往前对车道x∈slane上的除智能汽车v以外的其他交通参与者进行排序,得到其他交通参与者列表,将slane中各车道的驾驶状态集合合并成总的驾驶状态集合sstate;
11、步骤s1.4:以总的驾驶状态集合sstate中的所有驾驶状态,作为驾驶状态转移图stg的节点,对任意的两个驾驶状态xi与xj,当且仅当xi与xj所属的车道相邻,则在驾驶状态转移图stg中分别添加从xi指向xj的有向边与从xj指向xi的有向边。
12、进一步地,所述步骤s1.2中,slane⊆{m,l,c,r},且m∈slane,且l∈slane与c∈slane互斥,l表示m的左侧同向车道,r表示m的右侧同向车道,c表示m的左侧逆向车道;
13、所述步骤s1.3中,其他交通参与者列表sxtraffic={tx0, tx1, …, txn, txn+1},其中txi,i=1,… , n为车道x上其他交通参与者,tx0为设置于车道x上沿基准车道m的行驶方向后方inf处的虚拟交通参与者,txn+1为设置于车道x上沿基准车道m的行驶方向前方inf处的虚拟交通参与者,inf为设定的第一阈值(较大值),则车道x上的驾驶状态集合为sxstate={x0=f(v,a(tx0)∩b(tx1)), …, xn=f(v,a(txn)∩b(txn+1))},其中,a(tx)表示车道x上其他交通参与者tx的前方区域,b(tx)表示车道x上其他交通参与者tx的后方区域,a(txi)∩b(txi+1)表示车道x上其他交通参与者txi与txi+1之间的区域,f表示将智能汽车v行于车道x上的区域a(txi)∩b(txi+1)映射到驾驶状态的函数,x∈slane;
14、不同标记的车道对应的驾驶状态集合与驾驶状态表示如下:
15、若车道标记为m,则smstate={m0,m1,…,mn(m)},其中n(m)为m上的其他交通参与者m的数量;
16、若车道标记为l,则slstate={l0,l1,…,ln(l)},其中n(l)为l上的其他交通参与者l的数量;
17、若车道标记为r,则srstate={r0,r1,…,rn(r)},其中n(r)为r上的其他交通参与者r的数量;
18、若车道标记为c,则scstate={c0,c1,…,cn(c)},其中n(c)为c上的其他交通参与者c的数量。
19、进一步地,所述步骤s2包括如下步骤:
20、步骤s2.1:初始化一个空的先入先出队列qfifo=∅、一个空的已探索驾驶状态列表closedlist=∅以及决策步长d;
21、步骤s2.2:根据智能汽车v的当前状态,构建时空轨迹树t的根节点root,其中,时空轨迹树的各节点node由六元组表示<d,x,s,v,x,f>,其中d、x、s、v、x分别表智能汽车v在该节点时所在时间步、车道、位置、速度、驾驶状态以及父节点等信息;假定与根节点root相关联的驾驶状态为xi∈sstate,将根节点root加入先入先出队列qfifo队尾,将驾驶状态xi加入已探索驾驶状态列表closedlist;
22、步骤s2.3:按以下步骤迭代构建时空轨迹树:
23、步骤s2.3.1:先入先出队列qfifo中队头节点为nodei=<di,x,si,vi,xi,fi>,若节点nodei所在的时间步di<d,则从取出队头节点进行后续步骤,否则终止迭代并输出时空轨迹树t;
24、步骤s2.3.2:使用纵向一步速度规划模型p纵向,得到nodei的直系子节点nodeiic,将nodeiic加入先入先出队列qfifo队尾;除叶子节点外的其他节点有且仅有1个直系子节点,直系子节点的驾驶状态与父节点的驾驶状态相同;
25、步骤s2.3.3:使用横向一步换道决策模型p横向,得到nodei的所有可能的候选旁系子节点nodeisc:假定候选旁系子节点的驾驶状态为xnisc,若驾驶状态转移图stg中有xni指向xnisc的有向边且xnisc∉closedlist时,则将nodeisc加入先入先出队列qfifo队尾,将xnisc加入已探索驾驶状态列表closedlist;除叶子节点外的其他节点至多有2个旁系子节点,旁系子节点的驾驶状态与父节点的驾驶状态不相同且不属于同一车道;
26、步骤s2.3.4:跳转到步骤s2.3.1。
27、进一步地,所述步骤s2.3.2中的纵向一步速度规划模型p纵向具体为:假定以时空轨迹树的节点nodei作为纵向一步速度规划模型p纵向的起始状态,以交通参与者第di步的预测状态作为p纵向环境状态信息,p纵向根据起始状态与环境状态等信息规划输出一下步考虑智能汽车v本体动力学与运动学约束的速度与位置;p纵向基于规则构建,或为可学习的网络模型。
28、进一步地,所述纵向一步速度规划模型p纵向为:vd=max{vmin, min{vmax, dist(nodei, txaheadi(di))/ht}}与sd=si+vd×dt,其中,vd为nodei的直系子节点的期望速度值,vmin与vmax分别为综合考虑nodei的速度、v的最大加/减速度以及车道限速等约速下,在nodei的直系子节点能达到的最小速度与最大速度,dist(nodei, txaheadi(di))为nodei位置与它所在车道前方第一个交通参与者之间的距离,ht为最短车头时距(一般,为了安全,ht=2s),si为nodei的位置,sd为nodei的直系子节点的期望位置,dt为一步规划的时间。
29、进一步地,所述步骤s2.3.2中的横向一步换道决策模型p横向具体为:假定以时空轨迹树的节点nodei作为横向一步换道决策模型p横向的起始状态,以交通参与者第di步的预测状态作为p横向环境状态信息,以nodei所在车道的领近车道x∈slane为目标车道,p横向根据起始状态、环境状态以及目标车道输出一下步能否变换车道等决策信息;p横向基于规则构建,或为可学习的网络模型。
30、进一步地,所述横向一步换道决策模型p横向为:若dist(nodei, tpbehind(di))>d1且dist(nodei, tpahead(di))>d2,也即若节点ni所在位置处与旁边车道p后方与前方第一个交通参与者的距离分别大于d1与d2时,则vd=max{vmin, min{vmax, dist(nodei, tpaheadi(di))/ht}}与sd=si+vd×dt,其中,d1与d2为设定的车间安全间隔,vmin与vmax分别为综合考虑nodei的速度、v的最大加/减速度以及车道限速等约速下,在nodei的直系子节点能达到的最小速度与最大速度,dist(nodei, tpaheadi(di))为nodei位置与旁边车道p前方第一个交通参与者之间的距离,ht为最短车头时距,si为nodei的位置,sd为nodei的直系子节点的期望位置,dt为一步规划的时间。
31、进一步地,所述步骤s3包括如下步骤:
32、步骤s3.1:循着时空轨迹树t,收集从根节点到叶子节点的所有节点,构成轨迹点序列tracei,i=1,2,...,h,其中,h为t中叶子节点的个数,也是最终收集到的轨迹点序列个数;
33、步骤s3.2:根据设计的评价指标对所有轨迹点序列进行评分:
34、评价指标包括但不限于引导性cguide、时效性ceffic、安全性csafe以及一致性cconsist,各评价指标释义如下:
35、cguide:引导性评估通过时空轨迹使v最终到达的车道与全局路线信息给出的目标车道的邻近程度,通过两车道的中心线距离来评估;
36、ceffic:时效性评估通过时空轨迹使v能够更快的完成驾驶任务,可根据与时空轨迹关联的轨迹点序列的速度信息来评估;
37、csafe:安全性评估v按照该时空轨迹行驶与其他交通参与者避免发生擦碰的概率,可根据与时空轨迹关联的轨迹点序列与周围交通参与者的时空距离来评估;
38、cconsist:一致性评估v按照决策动行驶时变换车道的次数,可根据时空轨迹关联的轨迹点序列中连续两节点不在同一车道的事件计数来评估;
39、步骤s3.3:通过加权求和计算总分ctotal=weffic×ceffic+wsafe×csafe+wconsist×cconsist,其中,weffic、wsafe、wconsist为对应指标的权重,从引导性cguide最高的有效时空轨迹中选择总分ctotal最高的作为决策结果。
40、一种联合时空信息的智能驾驶多步长时行为决策装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的联合时空信息的智能驾驶多步长时行为决策方法。
41、本发明的优势和有益效果在于:
42、本发明与现有技术相比,突破一步短时行为决策的限制,利用交通参与者的位置分布以及道路结构等信息得到可跨越多个决策基元的决策结果,在考虑交通参与者的时空预测信息的基础上得到的时空轨迹包含更加丰富的定量信息,使智能汽车能够对多步长时的决策结果进行定量的评价(评价指标包括但不限于引导性、时效性、安全性以及一致性等)。此外,本发明利用内嵌低级的一步速度规划模型与一步换道决策模型,来达到在多步长时的时空维度中进行实时的行为决策。本发明可得到的更具远见的决策结果,可以直接作为辅助驾驶技术供人类驾驶员提供决策建议,也可以作为无人驾驶系统的决策模块引导下层的运动规划与控制,进一步提升交通效率和驾驶安全性。