一种基于分层强化学习的四足机器人运动规划方法

文档序号：25435197发布日期：2021-06-11 21:52阅读：来源：国知局

技术特征：

1.一种基于分层强化学习的四足机器人运动规划方法，其特征在于，该方法包括如下步骤：

步骤一：在仿真平台上搭建具备神经网络训练能力的四足机器人虚拟仿真环境，并构建分层控制网络，包括上层的控制神经网络和下层的模型预测控制器；

步骤二：初始化虚拟仿真环境；

步骤三：不断更新仿真环境，在每个仿真环境中，所述控制神经网络结合每个仿真环境，输出机器人的控制参数信息；所述模型预测控制器根据所述控制神经网络的输出，执行控制操作；并根据机器人的动作响应计算运动控制奖励函数；

步骤四：判断环境训练终止条件，收集当前环境下的训练数据集；

步骤五：使用所述训练数据集训练所述分层控制网络，获得优化的分层控制网络，并部署到真实四足机器人上进行复杂地形运动规划。

2.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法，其特征在于，所述控制神经网络为全连接网络，其包括两个隐含层，每层包含256个节点，其中激活函数选择relu函数。

3.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法，其特征在于，所述初始化虚拟仿真环境包括初始化四足机器人所在的仿真环境，以及初始化机器人的初始位置、姿态和环境地形信息，设置四足机器人的初始滚转角、俯仰角以及偏航角为0。

4.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法，其特征在于，所述步骤三中的更新仿真环境具体为按照规则随机生成复杂楼梯地形环境。

5.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法，其特征在于，所述机器人的控制参数信息包括四足机器人足端期望位置、机身期望姿态以及速度。

6.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法，其特征在于，所述步骤三中，所述模型预测控制器执行控制操作具体为：求解包含机器人逆运动学模型的二次优化函数，计算腿部电机力矩、关节扭矩以及足端移动位置，并对仿真环境中的四足机器人进行对应的运动控制。

7.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法，其特征在于，所述根据机器人的动作响应计算运动控制奖励函数具体过程如下：在仿真环境中，四足机器人根据模型预测控制器进行对应的单次运动动作控制，实时计算每次动作的奖励函数，设计阈值判断机器人是否摔倒；重复执行四足机器人的运动控制指令，直到到达设定目的地或者达到当次环境下训练次数上限，退出当前环境仿真；

所述奖励函数r计算公式如下：

r＝0.08rlin+0.02rang+0.03rbody

其中，rlin为机身移动速度奖励，鼓励机器人以合理的速度运动；rang是对机身偏航角速度的奖励值，其目的是避免四足机器人机身发生抖动；rbody表示机身平稳运行的奖励值；vy为横向运动速度，θr和θy分别表示滚转角、偏航角的角度。

8.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法，其特征在于，所述步骤五具体过程如下：

收集仿真环境中四足机器人的当前状态s、动作a、期望状态s′、奖励结果r以及终止判定条件d，记录为当前环境下的动作指令数据集d＝(s,a,s′,r,d)i＝1,...,n，其中n为数据集大小；用当前环境下的动作指令数据集d训练分层控制网络，优化器使用adam，学习率为0.001；重复执行上述操作，对分层控制网络进行训练，直到达到总的训练次数上限。

技术总结
本发明公开一种基于分层强化学习的四足机器人运动规划方法，该方法通过构建基于深度强化学习的上层行为决策控制器以及基于模型预测控制的下层运动执行控制器；对于上层的深度强化学习网络，基于SAC算法设计四足机器人的状态更新网络、动作执行网络以及奖励函数等，结合机器人周围的环境高度图信息输出对应的行为控制参数；对于下层执行控制器中的模型预测控制器，通过求解基于上层输入的控制参数二次规划方程组来获取对应的控制指令。该分层控制框架结合了深度强化学习与模型预测控制的优势，使四足机器人能够根据当前机身状态以及地形环境做出更安全可靠的行为模式，保持机身姿态平稳，从而有效规避风险，实现在复杂地形下的有效运动轨迹规划。

技术研发人员：么庆丰;王纪龙;魏震宇;王东林
受保护的技术使用者：西湖大学
技术研发日：2021.03.25
技术公布日：2021.06.11

完整全部详细技术资料下载

当前第2页1 2