车辆状态跟踪方法、系统、计算机及可读存储介质与流程

文档序号:31598334发布日期:2022-09-21 07:47阅读:157来源:国知局
车辆状态跟踪方法、系统、计算机及可读存储介质与流程

1.本发明涉及新能源汽车技术领域,特别涉及一种车辆状态跟踪方法、系统、计算机及可读存储介质。


背景技术:

2.随着科技的进步以及生产力的快速发展,新能源汽车已经逐渐得到人们的认可,并且在人们的日常生活中得到普及,大幅方便了人们的生活。
3.其中,自动驾驶汽车技术是当前新能源汽车研究的热点之一,然而自动驾驶技术距离大批量的运用到实际道路上仍有一段很长的路要走。其中,亟待解决的问题之一就是如何在异步决策的前提下对车辆的状态进行准确的跟踪。然而,现有技术的强化学习方法只能解决同步决策控制问题,即决策与动作集往往是并发的,一旦决策以目标点或参考曲线的形式给出,则决策与动作就不能同步,从而制约了自动驾驶技术的发展。
4.因此,针对现有技术的不足,提供一种能够在异步决策的前提下对车辆状态进行准确跟踪的方法很有必要。


技术实现要素:

5.基于此,本发明的目的是提供一种车辆状态跟踪方法、系统、计算机及可读存储介质,以提供一种能够在异步决策的前提下对车辆状态进行准确跟踪的方法。
6.本发明实施例第一方面提出了一种车辆状态跟踪方法,所述方法包括:
7.步骤s10:获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型m中的全部神经网络的参数,所述策略梯度模型m包括actor当前网络,critic当前网络,actor目标网络以及critic目标网络;
8.步骤s20:基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型m计算出所述被控测试车辆在所述t时刻的最优控制动作序列a
1t
,a
2t
,......,a
nt

9.步骤s30:将所述最优控制序列中的第一个动作a
1t
传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作a
1t

10.步骤s40:获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励r
t+1
,且将所述被控测试车辆获取到的经验值放入预设经验池中;
11.步骤s50:分别对所述actor当前网络、所述critic当前网络、所述actor目标网络以及所述critic目标网络对应的权重参数θ
t
,ω
t
,θ

t
,ω

t
进行更新;
12.步骤s60:重复执行所述步骤s20至所述步骤s50,直至所述损失函数等于0或者达到预设最小值。
13.本发明的有益效果是:通过首先获取当前测试场景中t时刻被控测试车辆的第一
状态观测值、预定位置目标以及损失函数,并初始化策略梯度模型m中的全部神经网络的参数,进一步的,基于上述参数以及策略梯度模型m计算出当前被控测试车辆在t时刻的最优控制动作序列a
1t
,a
2t
,......,a
nt
;并将当前最优控制序列中的第一个动作a
1t
传输至所述被控测试车辆,并使上述被控测试车辆在仿真环境中执行第一个动作a
1t
;再获取当前测试场景中t+1时刻的被控测试车辆所响应的第二状态观测值,并获取被控测试车辆对应的即时奖励r
t+1
,且将被控测试车辆获取到的经验值放入预设经验池中;从而能够分别对actor当前网络、critic当前网络、actor目标网络以及critic目标网络对应的权重参数θ
t
,ω
t
,θ

t
,ω

t
进行更新;最后只需重复执行上述步骤,直至损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪,同时将mpc中的非线性求解器使用神经网络代替,通过最小化神经网络loss,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
14.优选的,所述分别对所述actor当前网络、所述critic当前网络、所述actor目标网络以及所述critic目标网络对应的权重参数θ
t
,ω
t
,θ

t
,ω

t
进行更新的步骤包括:
15.在所述预设经验池中获取经验值s
t
,a
1t
,s
t+1
,r
t+1
,并将所述经验值中的s
t
,a
1t
输入至所述critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值q(s
t
,a
1t
);
16.将所述t时刻的收益期望的预估值q(s
t
,a
1t
)通过反向传播梯度算法返回至所述actor当前网络中,并通过所述收益期望的预估值q(s
t
,a
1t
)中的最大化收益期望的预估值将所述actor当前网络的权重参数θ
t
更新为θ
t+1

17.将所述经验值中的s
t+1
,a
1t+1
输入至所述critic目标网络中,并获取所述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
);
18.通过最小化时序差分算法更新所述critic当前网络的权重参数ω
t
,并将所述t时刻的收益期望的预估值q(s
t
,a
1t
)和所述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
)均代入至预设预测时序差分算法中进行计算;
19.每隔预设时间分别通过所述actor当前网络和所述critic当前网络的权重参数θ和ω分别对应更新所述actor目标网络和所述critic目标网络的权重参数θ

和ω


20.将所述t+1时刻的所述被控测试车辆所响应的状态观测值s
t+1
作为新的位置初始值s传递回所述策略梯度模型m中。
21.优选的,所述基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型m计算出所述被控测试车辆在所述t时刻的最优控制动作序列a
1t
,a
2t
,......,a
nt
的步骤包括:
22.通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态s
t

23.将所述t时刻对应的车辆状态s
t
输入至所述actor目标网络中,以使所述actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列a
1t
,a
2t
,......,a
nt

24.优选的,所述反向传播梯度公式的表达式为:
[0025][0026]
其中,

j表示损失梯度;m表示批量梯度下降的样本数;
表示控测试车辆在状态si下根据策略πθ(s)采取了动作ai所获得的长期收益梯度;表示所述被控测试车辆在状态si下所采用的策略。
[0027]
优选的,所述预测时序差分公式的表达式为:
[0028][0029]
其中,表示所述被控测试车辆在t-1时刻的状态s

t-1
=s下采取了动作a

t
=a,a

t+1
=a1,a

t+2
=a2,......,a

t+n
=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,q(s
t+1
,a
t+1
,a1′
,......,an′
)为被控测试车辆在t+1时刻的状态s
t+1
下采取了动作a
t+1
,a1′
,......,an′
时所预计获得的长期收益,q(s
t
,a
t
,a1,a2,......,an)为被控测试车辆在t时刻的状态s
t
下采取了动作a
t
,a1,a2,......,an时所预计获得的长期收益。
[0030]
优选的,所述损失函数的表达式为:
[0031][0032]
其中,s
end
表示所述被控测试车辆的实际最终状态;s
*end
表示所述被控测试车辆的预定最终状态;s
t
表示所述被控测试车辆在所述t时刻的状态;p、q以及k均表示所述被控测试车辆在t时刻的状态下采取了动作a
1t
的动作价值函数所组成的惩罚项矩阵;u
t
表示所述t时刻的控制量所组成的矩阵。
[0033]
本发明实施例第二方面提出了一种车辆状态跟踪系统,所述系统包括:
[0034]
第一获取模块,用于获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型m中的全部神经网络的参数,所述策略梯度模型m包括actor当前网络,critic当前网络,actor目标网络以及critic目标网络;
[0035]
计算模块,用于基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型m计算出所述被控测试车辆在所述t时刻的最优控制动作序列a
1t
,a
2t
,......,a
nt

[0036]
执行模块,用于将所述最优控制序列中的第一个动作a
1t
传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作a
1t

[0037]
第二获取模块,用于获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励r
t+1
,且将所述被控测试车辆获取到的经验值放入预设经验池中;
[0038]
更新模块,用于分别对所述actor当前网络、所述critic当前网络、所述actor目标网络以及所述critic目标网络对应的权重参数θ
t
,ω
t
,θ

t
,ω

t
进行更新;
[0039]
循环模块,用于重复执行所述计算模块、所述执行模块、所述第二获取模块以及所述更新模块的功能,直至所述损失函数等于0或者达到预设最小值。
[0040]
其中,上述车辆状态跟踪系统中,所述更新模块具体用于:
[0041]
在所述预设经验池中获取经验值s
t
,a
1t
,s
t+1
,r
t+1
,并将所述经验值中的s
t
,a
1t
输入至所述critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值q
(s
t
,a
1t
);
[0042]
将所述t时刻的收益期望的预估值q(s
t
,a
1t
)通过反向传播梯度算法返回至所述actor当前网络中,并通过所述收益期望的预估值q(s
t
,a
1t
)中的最大化收益期望的预估值将所述actor当前网络的权重参数θ
t
更新为θ
t+1

[0043]
将所述经验值中的s
t+1
,a
1t+1
输入至所述critic目标网络中,并获取所述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
);
[0044]
通过最小化时序差分算法更新所述critic当前网络的权重参数ω
t
,并将所述t时刻的收益期望的预估值q(s
t
,a
1t
)和所述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
)均代入至预设预测时序差分算法中进行计算;
[0045]
每隔预设时间分别通过所述actor当前网络和所述critic当前网络的权重参数θ和ω分别对应更新所述actor目标网络和所述critic目标网络的权重参数θ

和ω


[0046]
将所述t+1时刻的所述被控测试车辆所响应的状态观测值s
t+1
作为新的位置初始值s传递回所述策略梯度模型m中。
[0047]
其中,上述车辆状态跟踪系统中,所述计算模块具体用于:
[0048]
通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态s
t

[0049]
将所述t时刻对应的车辆状态s
t
输入至所述actor目标网络中,以使所述actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列a
1t
,a
2t
,......,a
nt

[0050]
其中,上述车辆状态跟踪系统中,所述反向传播梯度公式的表达式为:
[0051][0052]
其中,

j表示损失梯度;m表示批量梯度下降的样本数;表示控测试车辆在状态si下根据策略π
θ(s)
采取了动作ai所获得的长期收益梯度;表示所述被控测试车辆在状态si下所采用的策略。
[0053]
其中,上述车辆状态跟踪系统中,所述预测时序差分公式的表达式为:
[0054][0055]
其中,表示所述被控测试车辆在t-1时刻的状态s

t-1
=s下采取了动作a

t
=a,a

t+1
=a1,a

t+2
=a2,......,a

t+n
=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,q(s
t+1
,a
t+1
,a
′1,......,a
′n)为被控测试车辆在t+1时刻的状态s
t+1
下采取了动作a
t+1
,a
′1,......,a
′n时所预计获得的长期收益,q(s
t
,a
t
,a1,a2,......,an)为被控测试车辆在t时刻的状态s
t
下采取了动作a
t
,a1,a2,......,an时所预计获得的长期收益。
[0056]
其中,上述车辆状态跟踪系统中,所述损失函数的表达式为:
[0057][0058]
其中,s
end
表示所述被控测试车辆的实际最终状态;s
*end
表示所述被控测试车辆的预定最终状态;s
t
表示所述被控测试车辆在所述t时刻的状态;p、q以及k均表示所述被控测
试车辆在t时刻的状态下采取了动作a
1t
的动作价值函数所组成的惩罚项矩阵;u
t
表示所述t时刻的控制量所组成的矩阵。
[0059]
本发明实施例第三方面提出了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上面所述的车辆状态跟踪方法。
[0060]
本发明实施例第四方面提出了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上面所述的车辆状态跟踪方法。
[0061]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0062]
图1为本发明第一实施例提供的车辆状态跟踪方法的流程图;
[0063]
图2为本发明第一实施例提供的车辆状态跟踪方法的执行流程示意图;
[0064]
图3为本发明第一实施例提供的车辆状态跟踪方法中的反向传播梯度算法的执行流程图;
[0065]
图4为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t时刻的车辆状态跟踪图;
[0066]
图5为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t+1时刻的车辆状态跟踪图;
[0067]
图6为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t时刻至t+n时刻的车辆轨迹跟踪图;
[0068]
图7为本发明第二实施例提供的车辆状态跟踪系统的结构框图。
[0069]
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
[0070]
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
[0071]
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0072]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0073]
请参阅图1,所示为本发明第一实施例提供的车辆状态跟踪方法,本实施例提供的车辆状态跟踪方法能够在异步决策的前提下对车辆的状态进行跟踪,同时将mpc中的非线性求解器使用神经网络代替,通过最小化神经网络loss,以达到最优控制,从而能够大幅减
少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
[0074]
具体的,本实施例提供的车辆状态跟踪方法具体包括以下步骤:
[0075]
步骤s10:获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型m中的全部神经网络的参数,所述策略梯度模型m包括actor当前网络,critic当前网络,actor目标网络以及critic目标网络;
[0076]
具体的,在本实施例中,首先需要说明的是,本实施例提供的车辆状态跟踪方法是基于frenet坐标系下实施的,进一步的,本实施例还会基于上述frenet坐标系构建出适用于当前被控测试车辆的测试场景以及车辆仿真环境。
[0077]
在此基础之上,本步骤会首先获取到当前测试场景中的被控测试车辆在t时刻生成的第一状态观测值s
t
(s
t
,s

t
,s

t
,d
t
,d

t
,d

t
,y
t
)、被控测试车辆预定的位置目标s
end
(s
end
,s

end
,s

end
,d
end
,d

end
,d

end
,y
end
)以及与当前被控测试车辆对应的损失函数j。
[0078]
其中,上述损失函数的表达式为:
[0079][0080]
其中,s
end
表示所述被控测试车辆的实际最终状态;s
*end
表示所述被控测试车辆的预定最终状态;s
t
表示所述被控测试车辆在所述t时刻的状态;p、q以及k均表示所述被控测试车辆在t时刻的状态下采取了动作a
1t
的动作价值函数所组成的惩罚项矩阵;u
t
表示所述t时刻的控制量所组成的矩阵。
[0081]
另外,本步骤还会初始化与当前被控测试车辆对应的策略梯度模型m中的全部神经网络的参数,即初始化当前策略梯度模型m中的actor当前网络,critic当前网络,actor目标网络以及critic目标网络中的参数。
[0082]
步骤s20:基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型m计算出所述被控测试车辆在所述t时刻的最优控制动作序列a
1t
,a
2t
,......,a
nt

[0083]
进一步的,在本步骤中,需要说明的是,在通过上述步骤s10获取到当前被控测试车辆在t时刻产生的第一状态观测值s
t
(s
t
,s

t
,s

t
,d
t
,d

t
,d

t
,y
t
)、被控测试车辆预定的位置目标s
end
(s
end
,s

end
,s

end
,d
end
,d

end
,d

end
,y
end
)以及与当前被控测试车辆对应的损失函数j后,本步骤会进一步通过预设程序检测出当前被控测试车辆在上述t时刻对应的车辆状态;进一步的,将当前t时刻对应的车辆状态s
t
输入至上述actor目标网络中,以使当前actor目标网络输出当前被控测试车辆在当前t时刻产生的最优控制动作序列a
1t
,a
2t
,......,a
nt

[0084]
步骤s30:将所述最优控制序列中的第一个动作a
1t
传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作a
1t

[0085]
具体的,在本步骤中,在通过上述步骤s20获取到当前被控测试车辆在上述t时刻产生的最优控制动作序列a
1t
,a
2t
,......,a
nt
后,本步骤会将当前最优控制动作序列a
1t
,a
2t
,......,a
nt
)中的第一个动作a
1t
传输至当前被控测试车辆的车载终端上,以使该车载终端控制当前被控测试车辆在上述仿真环境中执行上述第一个动作a
1t
,以使当前被控测试车
辆开始运动。
[0086]
步骤s40:获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励r
t+1
,且将所述被控测试车辆获取到的经验值放入预设经验池中;
[0087]
进一步的,在本步骤中,当被控测试车辆开始运动后,本步骤会进一步获取当前被控测试车辆在上述测试场景中的t+1时刻所响应的第二状态观测值s
t+1
(s
t+1
,s

t+1
,s

+1
,d
t+1
,d

t+1
,d

t+1
,y
t+1
),与此同时,本步骤还会对应获取到当前被控测试车辆在当前t+1时刻所对应产生的即时奖励rt+1,且将所述被控测试车辆获取到的经验值(s
t
,a
1t
,s
t+1
,r
t+1
)放入预设经验池(experience buffer)中。
[0088]
步骤s50:分别对所述actor当前网络、所述critic当前网络、所述actor目标网络以及所述critic目标网络对应的权重参数θ
t
,ω
t
,θ

t
,ω

t
进行更新;
[0089]
具体的,在本步骤中,需要说明的是,本步骤会首先在上述预设经验池(experience buffer)中获取到与当前被控测试车辆对应的经验值s
t
,a
1t
,s
t+1
,r
t+1
,进一步的,将当前经验值中的s
t
,a
1t
输入至上述critic当前网络中,且同时获取到当前被控测试车辆在上述t时刻的收益期望的预估值q(s
t
,a
1t
);
[0090]
进一步的,将上述t时刻的收益期望的预估值q(s
t
,a
1t
)通过预设好的反向传播梯度算法返回至上述actor当前网络中,并同时通过当前收益期望的预估值q(s
t
,a
1t
)中的最大化收益期望的预估值将上述actor当前网络的权重参数θ
t
更新为θ
t+1
从而能够有效的完成对actor当前网络的权重参数θ
t
的更新;
[0091]
其中,上述反向传播梯度算法的表达式为:
[0092][0093]
其中,

j表示损失梯度;m表示批量梯度下降的样本数;表示控测试车辆在状态si下根据策略π
θ(s)
采取了动作ai所获得的长期收益梯度;表示所述被控测试车辆在状态si下所采用的策略。
[0094]
更进一步的,本步骤还会将上述经验值(s
t
,a
1t
,s
t+1
,r
t+1
)中的s
t+1
,a
1t+1
输入至上述critic目标网络中,并同时获取到上述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
);
[0095]
在此基础之上,本步骤进一步通过预设好的最小化时序差分算法更新上述critic当前网络的权重参数ω
t
,并同时将上述t时刻的收益期望的预估值q(s
t
,a
1t
)和上述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
)均代入至预设好的预测时序差分算法中进行计算;
[0096]
其中,上述预测时序差分算法的表达式为:
[0097][0098]
其中,表示所述被控测试车辆在t-1时刻的状态s

t-1
=s下采取了动作a

t
=a,a

t+1
=a1,a

t+2
=a2,......,a

t+n
=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,q(s
t+1
,a
t+1
,a
′1,......,a
′n)为被控测试车辆在t+1时刻的状态s
t+1
下采取了动作a
t+1
,a
′1,......,a
′n时所预计获得的长期收益,q(s
t
,a
t
,a1,a2,......,an)为被控测试车辆在t时刻的状态st下采
取了动作a
t
,a1,a2,......,an时所预计获得的长期收益。
[0099]
进一步的,在通过上述步骤完成对上述t时刻的收益期望的预估值q(s
t
,a
1t
)和上述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
)的处理过后,本步骤还会每隔预设时间分别通过上述actor当前网络和上述critic当前网络的权重参数θ和ω分别对应更新上述actor目标网络和上述critic目标网络的权重参数θ

和ω


[0100]
具体的,更新权重参数的表达式为:
[0101]
ω

+τω+(1-τ)ω

[0102]
θ
′←
τθ+(1-τ)θ

[0103]
其中,τ为软更新系数。
[0104]
最后,本步骤将上述t+1时刻的被控测试车辆所响应的状态观测值s
t+1
作为新的位置初始值s传递回上述策略梯度模型m中,以完成对上述actor当前网络、上述critic当前网络、上述actor目标网络以及上述critic目标网络的权重参数的更新。
[0105]
步骤s60:重复执行所述步骤s20至所述步骤s50,直至所述损失函数等于0或者达到预设最小值。
[0106]
最后,在本步骤中,需要说明的是,若上述损失函数在经过上述步骤s20至步骤s50后的输出结果没有达到预设值时,即没有等于0或者没有达到最小值时,则需要重复执行上述步骤s20至上述步骤s50,直至当前损失函数的输出至等于0或者达到预设最小值,以完成车辆状态的跟踪。
[0107]
使用时,通过首先获取当前测试场景中t时刻被控测试车辆的第一状态观测值、预定位置目标以及损失函数,并初始化策略梯度模型m中的全部神经网络的参数,进一步的,基于上述参数以及策略梯度模型m计算出当前被控测试车辆在t时刻的最优控制动作序列a
1t
,a
2t
,......,a
nt
;并将当前最优控制序列中的第一个动作a
1t
传输至所述被控测试车辆,并使上述被控测试车辆在仿真环境中执行第一个动作a
1t
;再获取当前测试场景中t+1时刻的被控测试车辆所响应的第二状态观测值,并获取被控测试车辆对应的即时奖励r
t+1
,且将被控测试车辆获取到的经验值放入预设经验池中;从而能够分别对actor当前网络、critic当前网络、actor目标网络以及critic目标网络对应的权重参数θ
t
,ω
t
,θ

t
,ω

t
进行更新;最后只需重复执行上述步骤,直至损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪,同时将mpc中的非线性求解器使用神经网络代替,通过最小化神经网络loss,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
[0108]
需要说明的是,上述的实施过程只是为了说明本技术的可实施性,但这并不代表本技术的车辆状态跟踪方法只有上述唯一一种实施流程,相反的,只要能够将本技术的车辆状态跟踪方法实施起来,都可以被纳入本技术的可行实施方案。
[0109]
综上,本发明上述实施例当提供的车辆状态跟踪方法能够在异步决策的前提下对车辆的状态进行跟踪,同时将mpc中的非线性求解器使用神经网络代替,通过最小化神经网络loss,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
[0110]
请参阅图7,所示为本发明第二实施例提供的车辆状态跟踪系统,所述系统包括:
[0111]
第一获取模块12,用于获取当前测试场景中t时刻被控测试车辆的第一状态观测
值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型m中的全部神经网络的参数,所述策略梯度模型m包括actor当前网络,critic当前网络,actor目标网络以及critic目标网络;
[0112]
计算模块22,用于基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型m计算出所述被控测试车辆在所述t时刻的最优控制动作序列a
1t
,a
2t
,......,a
nt

[0113]
执行模块32,用于将所述最优控制序列中的第一个动作a
1t
传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作a
1t

[0114]
第二获取模块42,用于获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励r
t+1
,且将所述被控测试车辆获取到的经验值放入预设经验池中;
[0115]
更新模块52,用于分别对所述actor当前网络、所述critic当前网络、所述actor目标网络以及所述critic目标网络对应的权重参数θ
t
,ω
t
,θ

t
,ω

t
进行更新;
[0116]
循环模块62,用于重复执行所述计算模块、所述执行模块、所述第二获取模块以及所述更新模块的功能,直至所述损失函数等于0或者达到预设最小值。
[0117]
其中,上述车辆状态跟踪系统中,所述更新模块52具体用于:
[0118]
在所述预设经验池中获取经验值s
t
,a
1t
,s
t+1
,r
t+1
,并将所述经验值中的s
t
,a
1t
输入至所述critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值q(s
t
,a
1t
);
[0119]
将所述t时刻的收益期望的预估值q(s
t
,a
1t
)通过反向传播梯度算法返回至所述actor当前网络中,并通过所述收益期望的预估值q(s
t
,a
1t
)中的最大化收益期望的预估值将所述actor当前网络的权重参数θ
t
更新为θ
t+1

[0120]
将所述经验值中的s
t+1
,a
1t+1
输入至所述critic目标网络中,并获取所述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
);
[0121]
通过最小化时序差分算法更新所述critic当前网络的权重参数ω
t
,并将所述t时刻的收益期望的预估值q(s
t
,a
1t
)和所述t+1时刻的收益期望的预估值q(s
t+1
,a
1t+1
)均代入至预设预测时序差分算法中进行计算;
[0122]
每隔预设时间分别通过所述actor当前网络和所述critic当前网络的权重参数θ和ω分别对应更新所述actor目标网络和所述critic目标网络的权重参数0

和ω


[0123]
将所述t+1时刻的所述被控测试车辆所响应的状态观测值s
t+1
作为新的位置初始值s传递回所述策略梯度模型m中。
[0124]
其中,上述车辆状态跟踪系统中,所述计算模块22具体用于:
[0125]
通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态s
t

[0126]
将所述t时刻对应的车辆状态s
t
输入至所述actor目标网络中,以使所述actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列a
1t
,a
2t
,......,a
nt

[0127]
其中,上述车辆状态跟踪系统中,所述反向传播梯度公式的表达式为:
[0128]
[0129]
其中,

j表示损失梯度;m表示批量梯度下降的样本数;表示控测试车辆在状态si下根据策略π
θ(s)
采取了动作ai所获得的长期收益梯度;表示所述被控测试车辆在状态si下所采用的策略。
[0130]
其中,上述车辆状态跟踪系统中,所述预测时序差分公式的表达式为:
[0131][0132]
其中,表示所述被控测试车辆在t-1时刻的状态s

t-1
=s下采取了动作a

t
=a,a

t+1
=a1,a

t+2
=a2,......,a

t+n
=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,q(s
t+1
,a
t+1
,a
′1,......,a
′n)为被控测试车辆在t+1时刻的状态s
t+1
下采取了动作a
t+1
,a
′1,......,a
′n时所预计获得的长期收益,q(s
t
,a
t
,a1,a2,......,an)为被控测试车辆在t时刻的状态s
t
下采取了动作a
t
,a1,a2,......,an时所预计获得的长期收益。
[0133]
其中,上述车辆状态跟踪系统中,所述损失函数的表达式为:
[0134][0135]
其中,s
end
表示所述被控测试车辆的实际最终状态;s
*end
表示所述被控测试车辆的预定最终状态;s
t
表示所述被控测试车辆在所述t时刻的状态;p、q以及k均表示所述被控测试车辆在t时刻的状态下采取了动作a
1t
的动作价值函数所组成的惩罚项矩阵;u
t
表示所述t时刻的控制量所组成的矩阵。
[0136]
本发明第三实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一实施例提供的车辆状态跟踪方法。
[0137]
本发明第四实施例提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一实施例提供的车辆状态跟踪方法。
[0138]
综上所述,本发明上述实施例当提供的车辆状态跟踪方法、系统、计算机及可读存储介质能够在异步决策的前提下对车辆的状态进行跟踪,同时将mpc中的非线性求解器使用神经网络代替,通过最小化神经网络loss,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
[0139]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0140]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装
置。
[0141]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0142]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0143]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0144]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1