一种基于强化学习的时序逻辑任务规划方法与流程

文档序号：18187421发布日期：2019-07-17 05:25阅读：来源：国知局

技术特征：

技术总结
本发明提出了一种基于强化学习的时序逻辑任务规划方法。首先使用线性时序逻辑语言和非确定性Büchi自动机对任务进行建模，并使用有限状态转移系统FTS对环境进行描述，然后利用FTS和Büchi自动机产生生成式Büchi自动机；利用Q‑Learning方法对生成式Büchi自动机进行任务规划训练；在迭代训练训练过程中，当组合状态进入可接受状态或者死区状态时，结束本轮迭代，跳转进入下一次迭代过程；同时，更新状态‑动作值所使用的奖励函数包含当组合状态进入可接受状态或者死区状态时给予奖励值或者惩罚值的设定。本发明能够有效、安全、高速的对时序逻辑任务进行任务规划。

技术研发人员：方浩;宇文涛;陈杰;杨庆凯;曾宪琳
受保护的技术使用者：北京理工大学
技术研发日：2019.04.23
技术公布日：2019.07.16