专利名称:基于单链序贯回溯q学习的移动机器人路径规划算法的制作方法
技术领域:
本发明涉及一种利用改进强化学习算法进行移动机器人路径规划的方法,属于人工智能技术领域。
背景技术:
路径规划问题是移动机器人研究中的关键技术之一,路径规划算法是指移动机器 人按照某一性能指标,搜索一条从起始位置到目标位置的最优或次优的无碰路径。根据环境信息是否完全已知,路径规划可以分为环境信息完全已知的离线全局路径规划和环境信息完全或部分未知的在线局部路径规划,又称为静态路径规划和动态路径规划。目前,确定环境下的全局路径规划研究已较成熟,未知环境下的路径规划问题仍是机器人研究领域的热点问题。传统的路径规划算法大多基于图论,在环境的几何模型上搜索某种最优或次优的避碰路径。近年来,随着人工智能的深入研究,研究者们将人工势场法、模糊逻辑、神经网络、遗传算法、强化学习等应用于路径规划,提出了多种智能路径规划算法。人工势场法计算简单,便于实现,但可能陷入局部极小点,运动到一个合力为零的死区,规划失败,无法到达目标位置。模糊逻辑算法不需精确的系统模型,可以根据模糊信息,针对环境知识总结出规则,但当环境复杂时,难以建立全面的规则库,规则库的建立和修改需要花费大量时间,且缺乏泛化能力。采用神经网络算法进行路径规划,较难获得具有代表性的训练样本。遗传算法基于自然选择和基因遗传的搜索算法,通过机器人对环境的逐渐适应,学会相应的避碰行为,但实时性差,且较难构造合适的适应度函数。强化学习是一种无监督的学习方法,其中的Q-学习算法不需要建立环境模型、算法简单、易于使用,许多研究者应用Q-学习算法获取未知环境下机器人控制策略,实现复杂环境下移动机器人的路径规划。2OO2 年发表在《严 International Workshop on Advanced Motion Control))(《第七届国际先进运动控制研讨会》)462-466页的论文《A reinforcement learningapproach to obstacle avoidance of mobile robots))(((一种基于强化学习的移动机器人避障方法》)不需环境先验知识、通过与环境的交互学习,利用无监督的Q-学习算法实现移动机器人的无碰路径规划。2004年发表在《IEEE Proceedingsof the3rdInternational Conference on Machine Learning and Cybernetics))(〈〈第三届 IEEE 机器学习和控制论国际会议论文集》)48-52页的论文《Mobile robot navigation usingneural Q-learning》(《基于神经网络Q-学习算法的移动机器人导航》)采用了多层前馈神经网络逼近值函数Q-学习,机器人经过多次尝试后能够在环境中找到一条无碰路径进行导航° 2004 年发表在〈〈Proceedings of the IEEE International Conference onNetworking, Sens ing&Control》(《IEEE网络、传感器和控制国际会议论文集》)的论文《Areinforcement-learning approach to robot navigation))(((一种用于机器人导航的强化学习方法》)提出了一种基于强化学习的移动机器人导航方法,通过强化学习建立的模糊规则把传感器的观测映射到机器人适当的动作行为,实现移动机器人的路径规划。但是上述方法仅适用于静态环境并且学习时间长,效率低,对于复杂环境,难以收敛,不能够在短时间内找到一条最优路径。2008年发表在《Neural Networks》(《神经网络》)第21卷,第10 期,1556-1566 页的论文〈〈Automatic generation of fuzzy inference systems viaunsupervised learning》(无监督学习自动生成模糊推理系统)提出了一种能够自动生成模糊推理系统的增强型动态模糊Q-学习方法,仿真研究了单个移动机器人避障和沿壁行走行为,说明了这种新方法的有效性,但是这种方法也仅限于解决静态环境下的路径规划。2008年发表在《Applied Artificial Intelligence》(《应用人工智能》)第22卷,第7-8期,761-779 页的论文〈〈Reinforcement learning for POMDP using state classification))(《基于状态分类的部分可观察马尔可夫决策过程的强化学习》)提出将强化学习与递归神经网络相结合,将状态空间分成完全可观的状态和隐状态,利用Q值表存放完全可观状态的值,用回归神经网络近似隐状态的值,但是该方法仍旧没有解决复杂环境中学习算法收敛速度慢的问题。2011 年发表在《Robotics and Computer-Integrated Manufacturing》(《机器人学与计算机集成制造》)第27卷,第I期,135-149页的论文《Reinforcement basedmobile robot navigation in dynamic environment》(《动态环境下基于强化学习的移动机器人导航》)采用Q-学习算法实现动态环境下移动机器人导航,为了解决动态环境下状·态值储存量大的问题,通过对状态空间进行重新定义,减少Q值表大小,从而加快了算法速度。作为一种智能的路径规划算法,强化学习算法已被广泛地应用于移动机器人的路径规划问题。虽然经典单步Q学习算法较简单,但动态寻优和学习速度慢,如何对收敛过程进行改善,使得算法以较快速度收敛,以较短的时间找到最优或次优路径,是机器人行为学习急需解决的问题。1996年发表在《Machine Learning》(机器学习)第22卷,第1-3期,283-290页的论文《Incremental Multi-step Q-Iearning))(递增的多步Q-学习算法)提出的多步Q(入)在线回溯算法引入回溯和遗忘跟踪原理,显式地利用资格迹衰退系数入,对将来多步决策的在线强化信息进行高效的回溯操作,提高了算法收敛速度。但是,多步Q(X)算法利用资格迹衰退系数,将后续状态-动作的强化信息直接作用于前面的状态-动作对的Q值,不能及早校正错误动作决策,存在无意义的搜索,学习时间有待进一步减少,收敛速度有待进一步提闻。
发明内容
本发明针对现有强化学习算法在未知环境下移动机器人路径规划应用中存在的学习时间长、收敛速度慢等不足,提出了一种能够在复杂环境中快速高效地搜索到最优路径的基于单链序贯回溯Q学习的移动机器人路径规划算法。本发明的基于单链序贯回溯Q学习的移动机器人路径规划算法,是使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在某一时刻的状态就表示为机器人所在环境位置,按照移动机器人顺序通过的环境位置依次排列,形成移动机器人的状态单链,移动机器人的每一步搜索,都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端即初始位置的Q值,直到到达目标位置,移动机器人循环往复地从初始位置开始寻找到达目标位置的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到收敛为止;具体步骤如下(I)建立状态单链在每一 t时刻,为移动机器人记忆矩阵M(t)增加一行M(t) — [st, at, rt,入J,其中st表示机器人的当前状态,当前状态就是机器人所在位置的坐标,st = [xt,yt]),at表示在当前状态下执行的动作,包括向上、向下、向左、向右、静止五个动作,分别表示为
,
, [-1,0], [1,0],
,动作集合表示为A,当前状态St与五个动作构成五个状态-动作对,每一个状态-动作对对应一个Q值Q(s,a),所有的Q(s,a)初始化为零,并根据步骤(2)中的迭代更新公式进行更新,根据贪婪策略选择动作at,即选择满足
权利要求
1.一种基于单链序贯回溯Q学习的移动机器人路径规划算法,其特征是 使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在某一时刻的状态就表示为机器人所在环境位置,按照移动机器人顺序通过的环境位置依次排列,形成移动机器人的状态单链,移动机器人的每一步搜索,都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端即初始位置的Q值,直到到达目标位置,移动机器人循环往复地从初始位置开始寻找到达目标位置的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到收敛为止;具体步骤如下 (1)建立状态单链 在每一 t时刻,为移动机器人记忆矩阵M(t)增加一行M(t) — [st, at, rt,入山其中81表示机器人的当前状态,当前状态就是机器人所在位置的坐标,st = [xt,yt] ),at表示在当前状态下执行的动作,包括向上、向下、向左、向右、静止五个动作,分别表示为[O,I],
,[-1,O], [I, O], [O, O],动作集合表示为A,当前状态St与五个动作构成五个状态-动作对,每一个状态-动作对对应一个Q值Q (s,a),所有的Q (s,a)初始化为零,并根据步骤(2)中的迭代更新公式进行更新,根据贪婪策略选择动作at,即选择满足& = ai^max Oh、* -.I也就是选择与当前状态st构成的五个状态-动作对的Q值最大的动作作为at,st+1表示执行动作at后下一时刻状态值,rt表示对动作at奖励值,如果执行at后的下一个坐标上有障碍物,则机器人下一时刻状态st+1仍为St的坐标值,奖励值rt = -O. 2 ;如果执行at后的下一个坐标上没有障碍物,则st+1为该坐标,奖励值rt = -O. I ;如果执行at后的下一个坐标是目标位置即终点,则奖励值rt = l;Ate (O, I)表示学习率,只要At e (O, I),经过有限次迭代,Q-学习算法一定能够收敛于最优解,这里取λ t = O. 3 ;从初始时刻t = O到当前时刻t = n,所有的状态依序构成一个状态单链; (2)序贯回溯迭代 在t+Ι时刻,记忆矩阵M(t)增加一行新内容[st+1,at+1, rt+1, λ t+1],并根据记忆矩阵中存储的状态链,用Q-学习迭代公式进行序贯回溯迭代更新 对于 k = t, t-1, t-2,…,I, O,执行 Cl,I為 },(.、.*;Hk) + 4 rk +rmaxft,,( ' 川), “ .卜」 其中,Y是折扣因子,反映了后续状态-动作对对应的Q值对状态单链中前面状态动作对Q-值的影响,使得某一状态的动作决策能够直接受到其后续状态的影响,Y e (O, I),值越大,后续状态对状态单链中前面的状态动作选择影响越大,在移动机器人路径规划问题中,为了使状态单链中前面的动作选择对后续状态的Q值影响及时反馈回来,取Y =O.95 ; 通过序贯回溯迭代,在t+Ι时刻不仅更新了状态St的Q值,也顺序地更新了状态单链中st前面的状态st_1; st_2,……,s2,S1, S0的Q值,迭代过程如下
全文摘要
本发明提出了一种基于单链序贯回溯Q学习的移动机器人路径规划算法,是使用栅格法表示二维环境,每块环境区域都对应一个离散的位置表示,移动机器人在某一时刻的状态就表示为机器人所在环境位置,移动机器人的每一步搜索,都以非确定性马尔科夫决策过程的Q-学习迭代公式为基础,从单链的末端即当前状态的Q值开始逐步序贯回溯到单链的首端的Q值,直到到达目标状态,移动机器人循环往复地从初始状态开始寻找到达目标状态的路径,在搜索的每一步按照上述步骤,不断迭代和优化状态的Q值,直到收敛为止。本发明搜索最优路径需要的步数远少于经典Q-学习算法和Q(λ)算法,学习时间较短,学习效率较高,特别是对于大环境,优势更加明显。
文档编号G05D1/02GK102799179SQ201210234510
公开日2012年11月28日 申请日期2012年7月6日 优先权日2012年7月6日
发明者马昕, 孙国强, 许亚, 宋锐, 荣学文, 李贻斌 申请人:山东大学