一种基于强化学习的农林用车辆的导航控制方法

文档序号:30089178发布日期:2022-05-18 07:57阅读:来源:国知局

技术特征:
1.一种基于强化学习的农林用车辆的导航控制方法,其特征在于:包括如下步骤:1)将车辆的路径跟踪系统描述成马尔科夫决策过程(mdp);2)建立状态空间及动作空间;3)以神经网络的q-learning算法作为车辆的路径跟踪及避障控制器,通过对控制器进行示教训练,实现车辆的精准路径跟踪。2.根据权利要求1所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述建立状态空间的步骤如下:a1)通过gnss获取车辆的位置坐标及航向信息;a2)将参考路径等间隔的分成n段,在每两段的节点处取点,获取参考路径上距离车辆最近点的坐标和该点的切线方向,计算车辆与参考路径的距离误差e
dt
和航向误差e
θt
;a3)将上一个状态的车辆与参考路径的距离误差e
dt-1
加入进状态空间;a4)探测车辆前方是否有障碍物,并计算出车辆与障碍物之间的距离d
t
,则t时刻的状态空间表示为:s
t
=[e
dt
,e
θt
,e
dt-1
,d
t
]。3.根据权利要求2所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述建立动作空间的步骤如下:b1)将车辆的速度设置成固定值;b2)将车辆的转角设置在[-30,30]度之间,且转角取整数,则动作空间表示为:a
t
=[e
t
]。4.根据权利要求3所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述控制器的示教训练过程如下:c1)初始化神经网络的参数,即q值;c2)将车辆置于初始状态s,判断车辆是否到达最终状态;c3)若未达到,则执行以下步骤:将当前状态信息输入神经网络,计算得到相应的q值,选取最大q值对应的动作a,根据选定的动作a,得到下一个状态s’以及一个奖励值;c4)重复上述训练过程c1)、c2)和c3),通过对环境进行探索,并得到相应的奖励值,不断更新神经网络的权值,实现车辆进行路径跟踪。5.根据权利要求4所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:根据所述奖励值建立奖励函数,将奖励函数设置成分段形式。6.根据权利要求5所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:对所述奖励函数设置一个阈值,当车辆与参考路径的距离误差e
dt
小于阈值,则为正奖励;当车辆与参考路径的距离误差e
dt
大于阈值,则为负奖励。7.根据权利要求6所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述航向误差e
θt
的奖励值的确定方法,包含如下步骤:d1)确定农林用车辆相对于参考路径的位置;d2)当不存在距离误差e
dt
时,则航向误差e
θt
越小,奖励越高;d3)当存在距离误差e
dt
,同时存在航向误差e
θt
,但航向误差e
θt
致使车辆朝着参考路径靠近,则给其一个正奖励;d4)当航向误差e
θt
致使车辆愈加远离参考路径,则应给其一个负奖励,以使车辆及时调整车轮转角,向参考路径的方向行进;
d5)当车辆撞上障碍物时,应给其一个负奖励,以避免车辆再次碰撞车辆。8.根据权利要求1所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述车辆上安装有激光雷达,所述控制器为rl控制器。

技术总结
本发明公开了一种基于强化学习的农林用车辆的导航控制方法,包括如下步骤:将车辆的路径跟踪系统描述成马尔科夫决策过程,建立状态空间及动作空间,以神经网络的Q-Learning算法作为车辆的路径跟踪及避障控制器,通过对控制器进行示教训练,实现车辆的精准路径跟踪。本发明的有益效果是:将强化学习应用到车辆的路径跟踪控制中,无需建立精确的车辆运动模型,即可实现车辆的精准路径跟踪,避免车辆与障碍物的碰撞,自适应性和自学能力强;可减少车辆在农林业环境中由于路面泥泞打滑,不平整等因素造成的路径跟踪误差,提高路径跟踪的精确度;此设计较为简单,避免了精准车辆模型的建立及大量的人工参数整定工作,可行性强。可行性强。可行性强。


技术研发人员:张瑞瑞 张林焕 丁晨琛 杨琰 陈栋 姜舒文
受保护的技术使用者:北京市农林科学院智能装备技术研究中心
技术研发日:2021.12.08
技术公布日:2022/5/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1