基于行动者-评论家方法的机器人运动控制方法和装置的制造方法
【技术领域】
[0001 ]本发明设及一种机器人运动控制方法,属于机器学习领域,具体设及一种方差相 关的离策略行动者-评论家控制方法及装置。
【背景技术】
[0002] 随着机器人研究的进展,如何对机器人的运动进行智能控制成为机器人进一步发 展的一个关键技术问题。现有技术中,对机器人的运动控制包括人为控制和自动控制。
[0003] 例如,中国发明专利申请CN105313129A公开了一种基于视频的机器人行走运动控 制方法,机器人摄像头采集视频画面,在移动终端(PAD或手机)上查看机器人视频画面,通 过手指在移动终端视频画面上进行滑动损伤,操控机器人的行走运动。该技术方案属于人 为控制,虽然通过摄像头画面可W实现非可视距离内的控制,但并不能实现智能控制。
[0004] 中国发明专利申请CN105487541A公开了一种配送机器人及其控制方法,在配送机 器人的控制器中存储目标区域的导航地图,所述导航地图用于记录所述目标区域内的目标 地点名称W及到达所述目标地点名称的导航路径,控制器在接收到包括所述目标地点名称 的控制指令时,控制所述配送机器人沿所述目标地点名称的导航路径移动;移动时,控制器 控制激光器进行实时扫描,激光器在扫描出配送机器人前方存在障碍物时,将所述障碍物 的实时距离发送至所述控制器,所述控制器在检测出所述实时距离小于预设阔值时控制所 述配送机器人停止移动。该技术方案可W实现机器人的自动控制,但是其智能性差,机器人 只能根据预设的导航地图运动,当环境发生变化,预设路径上出现障碍物时,机器人只能停 止移动,等待障碍物消失或者接收到新的导航路径,而不能自行寻找新的运动路径。
[0005] 如果能够在给定目的地之后,机器人通过自我学习获得到达目的地的较快速的路 径,对于机器人技术的发展将起到极大的推动作用。
[0006] 作为机器学习的一个分支,强化学习通过不断地与环境进行交互W达到最大化目 标函数的目的。在强化学习中目标函数有很多种形式,例如平均奖赏、长期累积回报等等。 然而在风险敏感领域中,特别是过程控制领域,除了要考虑最大化目标函数,还要将解决问 题的过程中可能出现的风险控制在可接受范围之内。因此,在解决风险敏感的强化学习问 题时,应该将风险控制与传统的目标函数相结合,W达到共同控制的目的。方差可W作为风 险的一种形式化表示方法,将方差相关的标准加入到目标函数中可W实现风险控制与目标 函数相结合的目的。方差相关标准运用到强化学习框架中会使得方法复杂度大大提升,计 算困难度增加。目前一种比较有效的降低复杂度的方法是运用策略梯度方法得到问题的局 部最优解而非全局最优解。
[0007] 策略梯度方法是强化学习中一类重要的方法,它直接通过策略参数来学习策略, 其中策略参数根据目标函数的梯度方向不断地进行更新。行动者-评论家(AC)方法作为策 略梯度方法中一类特殊方法,它不仅依靠策略参数,还需要依赖值函数进行策略的更新。AC 方法因其良好的兼容性和高效性而被广泛应用于各种强化学习方法中。2012年提出的离策 略AC方法是对W往AC方法的一个扩充。离策略的意思是智能体学习的策略(也就是评估策 略)与智能体实际执行的策略(也就是行为策略)是两种独立的策略。离策略的机制可w有 效地解决强化学习中探索与利用的平衡问题。
[000引目前在强化学习中已经有一些基于策略梯度的方差相关方法。Tamar等人在2012 年提出了两个带方差相关风险评估标准的策略梯度方法,并且证明了方法的收敛性。 Prashanth和化avamzadeh在2013年提出了一种基于马尔科夫决策过程(MDP)模型的方差相 关的在策略AC方法。然而对于近几年才提出的离策略AC方法,目前还没有关于其方差相关 性方面的研究。
[0009] 因此,如何将离策略AC方法与方差相关风险评估标准相结合,并应用于机器人,是 机器人控制中的一个急需解决的问题。
【发明内容】
[0010] 本发明的发明目的是提供一种基于行动者-评论家方法的机器人运动控制方法和 装置,通过对控制问题中方差的有效控制,使得控制性能更稳定,收敛结果更好,W获得更 高的平均奖赏,并实现对机器人运动路径的快速选择。
[0011] 为达到上述发明目的,本发明采用的技术方案是:一种基于行动者-评论家方法的 机器人运动控制方法,其特征在于,包括W下步骤: (1) 通过摄像头采集视频数据,对视频数据进行处理获得当前机器人的位置信息、障碍 物分布信息,给定目的地信息; (2) 对通过视频数据的分析获得地图,W机器人所在的位置作为机器人的状态X,机器 人的运动方向作为动作U; (3) 状态迁移:在当前状态X下选择对应的当前动作U,执行当前动作U得到相应奖赏r并 且迁移到下一状态X',再根据行为策略自{κμγ?选择下一状态X'对应的下一动作U' ;其中, 行为策略摩f游1:3?初始状态采用完全随机策略,任一状态下所有动作的选择概率均相等且 和为1; (4) 计算离策略因子:根据评估策略詞詔4与行为策略赛ikiS计算得到离策略因子
,碱(赵蝴为基函数,省为 策略参数,U为动作的集合; (5) 更新平均值:根据当前时间步下所得到的奖赏r更新近似平均奖赏值J与近似平均 平方奖赏值.琼; (6) 计算时间差分:根据步骤一中得到的迁移知识,计算当前的平均奖赏时间差分冬 与平均平方奖赏时间差分 (7) 更新评论家:根据步骤(3)至步骤(6)中学习到的信息,进行评论家部分的迭代更 新,包括近似平均奖赏参数砖的迭代更新W及近似平均平方奖赏参数的迭代更新; (8) 更新行动者:根据步骤(3)至步骤(7)中学习到的信息,进行行动者部分的迭代更 新,包括近似平均奖赏的梯度V/的计算,近似平均平方奖赏的梯度巧適的计算W及策略参 数愚的更新; (9) 状态动作更替:重设当前状态X的值为原下一状态X',当前动作u的值为原下一动作 U',重复步骤(3)至步骤(9),直到策略参数收敛,完成机器人的学习过程; (10) 根据机器人学习过程确定的到达目的地的运动策略,实现机器人的运动控制。
[0012]上述技术方案中,步骤(2)中,状态值是离散的或者连续的,动作值是离散的。所述 步骤(4)中,因为加入离策略因子,使得原本基于行为策略的有偏估计变成无偏估计。所述 步骤(5)中,采用迭代的方式更新近似平均奖赏与近似平均平方奖赏,所得的近似平均奖赏 与近似平均平方奖赏分别是从开始时间步到当前时间步所得到的奖赏的平均值与平方的 平均值。用运两个平均值来近似表示真实的平均值,随着时间步数的不断增加,运两个平均 值将越来越接近真实的平均值。所述步骤(6)中,利用时间差分来评估当前更新得到的新策 略较更新之前的策略相比是变得更好还是更差。因此时间差分被定义成当前状态动作对的 值与之前时间步该状态动作对的值的差。如果该差值为正,表示当前更新有利于策略向更 好的方向发展,应该有效利用该更新。相反,如果该差值为负,表示当前更新使得策略向不 好的方向发展,不利于策略的改进,所W应该抑制该更新。所述步骤(7)中,评论家部分的更 新主要是更新近似值函数察龄知和近似平方值函数给( XW)所依赖的两组值函数参数& 和霉?的值。当更新运两个参数的值后,相应的近似值函数与近似平方值函数就得W更新, 于是整个评论者部分就得到更新。运里采用迭代方式,沿着值函数梯度方向更新参数值。所 述步骤(9)中,状态更替的目的是使原采样得到的下一状态动作对在下一轮新的迭代过程 中变成当前状态动作对,在此状态动作对下进行新的采样,W此来实现方法的在线实时学 习特性。
[001引上述技术方案中,步骤(5)中,近似平均奖赏值J :: (3…议'μ十访.Γ,近似平均平方奖 赏值.
其中,聲心,t是当前时间步。
[0014]步骤(6)中,近似平均奖赏的时间差巧
近似平 均平方奖赏的时间差分
,其中,是近似 值函数,鑛衫碱是近似平方值函数,7是折扣因子,锭當f虽!,。
[001引其中,值函数的计算采用线性函数近似的方式,
其中,爲与分别是近似值函数参数与近似平方值函数参数。
[0016]步骤(7)中,采用梯度下降方法更新参数值,更新形式为,
其中,心J与碼《分别是两组参数更新时的步长参数。
[0017] 步骤(8)中,近似平均奖赏的梯度獻。鄉?!访辦句:參捣游),近似平均平方奖赏的 梯运
庚中凌根 据采用的方差风险标准确定。
[001引优选的技术方案,方差风险标准采用J-兴Γ,其中與是惩罚因子,
,优选地,辉<0.1,更优选地,兴' < 0.01。
[0019] 为实现本发明的另一发明目的,提供一种基于行动者-评论家方法的机器人运动 控制装置,机器人装配有摄像头和控制器,与机器人配合设有后台数据处理器,机器人中的 控制器经无线网络与所述后台数据处理器连接,所述摄像头的输出信号连接至所述控制 器,所述控制器中设有视频数据预处理模块,所述后台数据处理器中设有基于上述基于行 动者-评论家方法的机器人运动控制方法的控制模块。
[0020] 由于上述技术方案运用,本发明与现有技术相比具有下列优点: 1、 本发明采用摄像头获得的视频信号获取机器人当前位置、目的地信息及障碍物信 息,利用机器学习的方法获得优选的机器人行动路径,实现了机器人的智能运动控制; 2、 通过将方差的计算加入到传统的强化学习目标函数中,可W在最优化传统目标函数 的同时有效控制方差在一定可接受的范围内,从而使得控制结果更稳定,方法收敛效果更 好,方差更小。
【附图说明】
[0021 ]图1为本发明实施例的系统工作流程图; 图2为实施例中采用弹球模型的示意图; 图3为实施例与对比各方法累积奖赏概率分布图; 图4为各方法每个情节执行总步数概率分布图; 图5为本发明实施例的装置示意图。
【具体实施方式】
[0022] 下面结合附图及实施例对本