1.一种基于离散状态空间下强化学习的决策规划方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法,其特征在于,所述步骤s1中的具体步骤包括:
3.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法,其特征在于,所述步骤s2中的具体步骤包括:
4.根据权利要求3所述一种基于离散状态空间下强化学习的决策规划方法,其特征在于,所述步骤s2中设计奖惩函数、状态空间,以及动作空间的具体步骤包括:
5.根据权利要求4所述一种基于离散状态空间下强化学习的决策规划方法,其特征在于,所述步骤s2中构建具有交互性的城区结构化道路交通仿真场景的具体步骤包括:
6.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法,其特征在于,所述步骤s3中的具体步骤包括:
7.根据权利要求1所述一种基于离散状态空间下强化学习的决策规划方法,其特征在于,所述步骤s4中的具体步骤包括: