一种基于离散状态空间下强化学习的决策规划方法

文档序号：37648262发布日期：2024-04-18 20:22阅读：来源：国知局

技术特征：

1.一种基于离散状态空间下强化学习的决策规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法，其特征在于，所述步骤s1中的具体步骤包括：

3.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法，其特征在于，所述步骤s2中的具体步骤包括：

4.根据权利要求3所述一种基于离散状态空间下强化学习的决策规划方法，其特征在于，所述步骤s2中设计奖惩函数、状态空间，以及动作空间的具体步骤包括：

5.根据权利要求4所述一种基于离散状态空间下强化学习的决策规划方法，其特征在于，所述步骤s2中构建具有交互性的城区结构化道路交通仿真场景的具体步骤包括：

6.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法，其特征在于，所述步骤s3中的具体步骤包括：

7.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法，其特征在于，所述步骤s4中的具体步骤包括：

技术总结
本发明公开了一种基于离散状态空间下强化学习的决策规划方法，包括获取车辆当前道路的环境信息和自车状态，得到交通状态信息向量；建立强化学习模型，并设计奖惩函数、状态空间，以及动作空间，同时构建交通仿真场景；选取典型的前置后驱车辆运动学模型和有关可行的控制算法描述智能体运动；将提取的车辆环境二维矩阵传入构建的强化学习模型进行训练，得到最终的模型；根据得到最终的模型进行自动驾驶决策规划并输出规划结果。本发明通过使用基于离散状态空间下分布式最大熵强化学习来让自动驾驶车辆自主学习城区结构化道路下的决策规划策略，提高了自动驾驶汽车决策规划策略的稳定性。

技术研发人员：梁华为,毛俊毅,王健,李志远,郑小坤,周鹏飞
受保护的技术使用者：中国科学院合肥物质科学研究院
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

当前第2页1 2