技术特征:
1.一种基于离线增量学习的自动驾驶汽车路径规划方法,其特征在于,包括如下步骤:确定汽车的当前状态变量和目标信息;所述当前状态变量包括:汽车的位置、速度、加速度以及偏航速度;所述目标信息为汽车行驶目的地的区域范围信息;利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量,以规划汽车的短期路径;基于二维地图信息构建人工势场,以为二维地图上不同类型的障碍物和道路结构分配不同的势函数,使得障碍物周围与道路边缘形成排斥势场,中间目标处周围形成引力势场;所述中间目标指的是汽车行驶路径中的位置点;通过线性二次调节策略获取汽车行驶路径的离线数据,并利用径向基函数神经网络对所述离线数据进行训练,以对汽车行驶路径的行驶距离进行预测;基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划,并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径;其中,将所述汽车短期路径作为长期路径规划的采样指导,将所述人工势场作为长期路径规划的方向约束。2.根据权利要求1所述的自动驾驶汽车路径规划方法,其特征在于,所述利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量具体为:x(k+1)=ax(k)+bu(k)+q(k)y(k)=cx(k)+r(k)其中k∈[k
i
,k
f
],k表示采样时刻,k
i
表示开始采样时刻,k
f
表示结束采样时刻;是车辆当前状态变量,其包含n个状态向量,是下个采样时刻的车辆的状态变量,表示车辆的控制输入变量,是p个车辆传感器的测量输出,是高斯噪声,是观测噪声,a,b,c分别表示状态转移矩阵、输入矩阵和测量矩阵;x(k+δk)=δρ(k)+x(k)其中,x(k)=(x
v
,y
v
,θ,ω,v,a),x
v
与y
v
表示车辆的横向位置与纵向位置,v与a表示车辆的速度与加速度,θ表示转向角,ω表示角速度,δk表示采样时间间隔,δρ(k)表示车辆的状态转移矩阵;x(k+δk)是预测的车辆下一个采样间隔的状态变量。3.根据权利要求2所述的自动驾驶汽车路径规划方法,其特征在于,所述基于二维地图信息构建人工势场,以为二维地图上不同类型的障碍物和道路结构分配不同的势函数,具体为:障碍物的斥力势场p
ov
(x
v
,y
v
)为:
其中,p
o
是障碍物产生的势场的最大振幅,δ1与δ2的取值范围为(0,1),共同决定势场电位上升与下降的速率,(x
v
,y
v
)与(x
o
,y
o
)分别表示车辆与障碍物的坐标;车辆行驶路径势场p
lane
(x
v
,y
v
)为:其中,a
lane
是道路中心线的最大振幅,d
safe
是确保安全的最短制动距离,l
w
是道路总宽度,a
x
和a
y
表示中间变量;道路势场p
road
(x
v
,y
v
)为:p
road
(x
v
,y
v
)=ln(1-|sin((x
v
π)/l
w-π/2|);总势场力为:其中,p
u
(x
v
,y
v
)表示总的势函数,所述总势场力用于引导车辆到朝向目的地的最陡下降方向行径。4.根据权利要求2所述的自动驾驶汽车路径规划方法,其特征在于,所述通过线性二次调节策略获取汽车行驶路径的离线数据,并利用径向基函数神经网络对所述离线数据进行训练,以对汽车行驶路径的行驶距离进行预测,具体为:建立基于二次调节策略的二次代价函数度量距离,通过最小化车辆的状态误差来计算采样点之间的距离;其中,j表示二次代价函数,x
init
与x
f
是初始地的汽车状态变量与目标地的汽车状态变量,q与q
f
是半正定权重矩阵,r是正定权重矩阵,x
i
,u
i
(i∈{0,
…
,f-1})分别表示采样点的汽车状态变量与控制输入变量,f表示采样点总个数;构建标准的线性优化控制模型,从而计算代价函数cost;在基于线性二次调节策略的最优距离计算过程中,需要改变权重矩阵q、q
f
与r,并进行多次迭代,生成合适的距离度量:与r,并进行多次迭代,生成合适的距离度量:方程系数和权值的更新如下:
式中,以及均为中间变量;通过线性二次调节策略得到代价函数cost(x
init
,x
f
)和增益矩阵k的局部最优解:其中s=cost(x
init
,x
f
);设计径向基函数神经网络来提高计算效率,利用线性二次调节策略获得的离线训练数据学习成本函数的最优估计;y
k
=cost(x
ni
,x
nf
)其中dis_e(x
ki
,x
kf
)是样本点x
ki
到样本点x
kf
的欧几里得距离;y
k
表示估计的样本点x
ki
到样本点x
kf
的行驶距离;由于车辆运动轨迹的非完整性约束,采用dubins距离dis_d来衡量状态点的相似度;dubins距离度量受最大曲率曲线的约束,以曲线路径的形式测量指定初始位置到目标位置的距离;此时,径向基函数神经网络的期望输出表示为:φ
jk
=exp(-dis_d(x
k
,x
cj
)/(2η2))1≤k≤n其中m是隐藏节点的数目,φ
jk
是第j个隐藏神经元的基函数,x
cj
是中心向量,dis_d(x
k
,x
cj
)表示样本节点和中心节点之间的dubins距离,η决定隐藏神经元的宽度,是径向基函数神经网络的实际输出,e
k
是建模误差,ω
j
是隐藏层和输出层之间的权重;由此,径向基函数神经网络的输出表示为:y=φw+e其中y=[y1,
…
,y
n
]
t
是期望输出向量,φ=[φ1,
…
,φ
m
]
t
是回归矩阵,φ
i
=[φ
i1
,
…
,φ
in
]
t
,w=[ω1,
…
,ω
m
]
t
是权重向量,e=[e1,
…
,e
m
]
t
是误差矩阵。5.根据权利要求4所述的自动驾驶汽车路径规划方法,其特征在于,所述并利用径向基函数神经网络对所述离线数据进行训练,以对汽车行驶路径的行驶距离进行预测,具体包括如下步骤:(1)网络参数的初始化:隐藏节点的数目m,迭代终止阈值ε,距离度量阈值g
j
(j∈{1,2,
…
,m});(2)中心向量x
c
=[x
c1
,
…
,x
cm
]
t
,x
cji
=minx
i
+(maxx
i-minx
i
)/(2m)+(j-1)(maxx
i-minx
i
)/m;其中i∈{1,2},j∈{1,2,
…
,m},x
cj1
,x
cj2
是中心x
cj
的特征,minx
i
,maxx
i
分别是输入向量的第i个特征的最小值和最大值;(3)从隐藏层到输出层的权重向量w
j
=[ω
j1
,
…
,ω
jm
]
t
(j∈{1,2,
…
,m}),其中ω
jk
=
exp(-0.5(x
k-x
cj
)
t
g
j
(x
k-x
cj
));(4)令若rms≤0,则训练结束,得到了行驶距离否则跳转步骤(5);(5)执行基于正则化正交最小二乘法的中心向量选择方法,逐个选择m个中心x
c
的子集,选择一个满足终止准则的候选中心:[err]
j
(j∈{1,2,
…
,m})为迭代误差减小率;(6)用梯度下降法逼近权矩阵w=[ω
jk
]
mn
的最优值,然后转到步骤(4)。6.根据权利要求1至5任一项所述的自动驾驶汽车路径规划方法,其特征在于,所述基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划,具体包括如下步骤:1)对随机树t进行扩展,随机树t将作为起始点,将x
goal
作为目标点;并将作为本次扩展的父节点;2)依据采样约束函数sample_apf生成随机状态点然后利用函数nearest找到与最近的节点作为父节点3)以为中心r
n
为半径,在树t上搜索满足apf约束的节点作为子节点的潜在父亲节点比较作为父亲节点的轨迹p1的成本cost1与作为父亲节点的轨迹p2的成本cost2,当p2无碰撞(满足obstaclefree函数)并且cost2<cost1时,将的父亲节点改为添加新的边,然后删掉树t上之前的父亲节点与子节点之间的边;4)遍历所有潜在的父节点,得到更新后的树t。7.一种基于离线增量学习的自动驾驶汽车路径规划系统,其特征在于,包括:汽车信息获取单元,用于确定汽车的当前状态变量和目标信息;所述当前状态变量包括:汽车的位置、速度、加速度以及偏航速度;所述目标信息为汽车行驶目的地的区域范围信息;短期路径规划单元,用于利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量,以规划汽车的短期路径;人工势场构建单元,用于基于二维地图信息构建人工势场,以为二维地图上不同类型的障碍物和道路结构分配不同的势函数,使得障碍物周围与道路边缘形成排斥势场,中间目标处周围形成引力势场;所述中间目标指的是汽车行驶路径中的位置点;行驶距离预测单元,用于通过线性二次调节策略获取汽车行驶路径的离线数据,并利用径向基函数神经网络对所述离线数据进行训练,以对汽车行驶路径的行驶距离进行预测;长期路径规划单元,用于基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划,并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径;其中,将所述汽车短期路径作为长期路径规划的采样指导,将所述人工势场作为长期路径规划的方向约束。
8.根据权利要求7所述的自动驾驶汽车路径规划系统,其特征在于,所述短期路径规划单元利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量具体为:x(k+1)=ax(k)+bu(k)+q(k)y(k)=cx(k)+r(k)其中k∈[k
i
,k
f
],k表示采样时刻,k
i
表示开始采样时刻,k
f
表示结束采样时刻;是车辆当前状态变量,其包含n个状态向量,是下个采样时刻的车辆的状态变量,表示车辆的控制输入变量,是p个车辆传感器的测量输出,是高斯噪声,是观测噪声,a,b,c分别表示状态转移矩阵、输入矩阵和测量矩阵;x(k+δk)=δρ(k)+x(k)其中,x(k)=(x
v
,y
v
,θ,ω,v,a),x
v
与y
v
表示车辆的横向位置与纵向位置,v与a表示车辆的速度与加速度,θ表示转向角,ω表示角速度,δk表示采样时间间隔,δρ(k)表示车辆的状态转移矩阵;x(k+δk)是预测的车辆下一个采样间隔的状态变量。9.根据权利要求8所述的自动驾驶汽车路径规划系统,其特征在于,所述人工势场构建单元构建的势场具体包括:障碍物的斥力势场p
ov
(x
v
,y
v
)为:其中,p
o
是障碍物产生的势场的最大振幅,δ1与δ2的取值范围为(0,1),共同决定势场电位上升与下降的速率,(x
v
,y
v
)与(x
o
,y
o
)分别表示车辆与障碍物的坐标;车辆行驶路径势场p
lane
(x
v
,y
v
)为:其中,a
lane
是道路中心线的最大振幅,d
safe
是确保安全的最短制动距离,l
w
是道路总宽度,a
x
和a
y
表示中间变量;道路势场p
road
(x
v
,y
v
)为:p
road
(x
v
,y
v
)=ln(1-|sin((x
v
π)/l
w-π/2|);
总势场力为:其中,p
u
(x
v
,y
v
)表示总的势函数,所述总势场力用于引导车辆到朝向目的地的最陡下降方向行径。10.根据权利要求8所述的自动驾驶汽车路径规划系统,其特征在于,所述行驶距离预测单元通过线性二次调节策略获取汽车行驶路径的离线数据,并利用径向基函数神经网络对所述离线数据进行训练,以对汽车行驶路径的行驶距离进行预测,具体为:建立基于二次调节策略的二次代价函数度量距离,通过最小化车辆的状态误差来计算采样点之间的距离;其中,j表示二次代价函数,x
init
与x
f
是初始地的汽车状态变量与目标地的汽车状态变量,q与q
f
是半正定权重矩阵,r是正定权重矩阵,x
i
,u
i
(i∈{0,
…
,f-1})分别表示采样点的汽车状态变量与控制输入变量,f表示采样点总个数;构建标准的线性优化控制模型,从而计算代价函数cost;在基于线性二次调节策略的最优距离计算过程中,需要改变权重矩阵q、q
f
与r,并进行多次迭代,生成合适的距离度量:与r,并进行多次迭代,生成合适的距离度量:方程系数和权值的更新如下:方程系数和权值的更新如下:方程系数和权值的更新如下:式中,以及均为中间变量;通过线性二次调节策略得到代价函数cost(x
init
,x
f
)和增益矩阵k的局部最优解:其中s=cost(x
init
,x
f
);设计径向基函数神经网络来提高计算效率,利用线性二次调节策略获得的离线训练数据学习成本函数的最优估计;y
k
=cost(x
ni
,x
nf
)其中dis_e(x
ki
,x
kf
)是样本点x
ki
到样本点x
kf
的欧几里得距离;y
k
表示估计的样本点x
ki
到样本点x
kf
的行驶距离;由于车辆运动轨迹的非完整性约束,采用dubins距离dis_d来衡量状态点的相似度;dubins距离度量受最大曲率曲线的约束,以曲线路径的形式测量指定初始位置到目标位置的距离;此时,径向基函数神经网络的期望输出表示为:φ
jk
=exp(-dis_d(x
k
,x
cj
)/(2η2))1≤k≤n其中m是隐藏节点的数目,φ
jk
是第j个隐藏神经元的基函数,x
cj
是中心向量,dis_d(x
k
,x
cj
)表示样本节点和中心节点之间的dubins距离,η决定隐藏神经元的宽度,是径向基函数神经网络的实际输出,e
k
是建模误差,ω
j
是隐藏层和输出层之间的权重;由此,径向基函数神经网络的输出表示为:y=φw+e其中y=[y1,
…
,y
n
]
t
是期望输出向量,φ=[φ1,
…
,φ
m
]
t
是回归矩阵,φ
i
=[φ
i1
,
…
,φ
in
]
t
,w=[ω1,
…
,ω
m
]
t
是权重向量,e=[e1,
…
,e
m
]
t
是误差矩阵。
技术总结
本发明提供一种基于离线增量学习的自动驾驶汽车路径规划方法及系统,包括:确定汽车的当前状态变量和目标信息;利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量,以规划汽车的短期路径;基于二维地图信息构建人工势场,以为二维地图上不同类型的障碍物和道路结构分配不同的势函数;通过线性二次调节策略获取汽车行驶路径的离线数据,并利用径向基函数神经网络对所述离线数据进行训练,以对汽车行驶路径的行驶距离进行预测;基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划,并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径;本发明高效准确地实现车辆轨迹预测。本发明高效准确地实现车辆轨迹预测。本发明高效准确地实现车辆轨迹预测。
技术研发人员:周漫 韩福济 付才 张云鹤 袁斌 慕冬亮 韩兰胜
受保护的技术使用者:华中科技大学
技术研发日:2022.01.13
技术公布日:2022/5/10