技术特征:
技术总结
基于强化学习的足球机器人防守策略,基于半场进攻平台HFO环境和TD算法的足球机器人防守策略,所述HFO环境建立在RoboCup 2D仿真平台的基础之上;所述TD算法对防守角色的机器人进行强化学习,利用值函数的更新来优化策略,帮助机器人选择效果更佳的动作来提高球权占有率;然后在TD算法中加入通讯来提高强化学习的效率,利用广播来传递机器人状态‑动作等实时信息,加速算法收敛,提升机器人的协作防守效率。
技术研发人员:李汉辉;梁志伟
受保护的技术使用者:南京邮电大学
技术研发日:2019.06.21
技术公布日:2019.09.27