技术特征:
1.一种自动驾驶方法,包括:获取移动智能体根据初始策略自动驾驶与行驶环境交互产生的交互数据;根据所述交互数据确定优势函数;响应于预设停止条件满足,根据所述优势函数更新所述初始策略的参数,得到最优策略;根据所述最优策略,确定智能移动体的自动驾驶策略供自动驾驶。2.根据权利要求1所述的方法,其中,所述根据所述交互数据确定优势函数,包括:根据所述交互数据确定价值函数以及动作价值函数;根据所述价值函数以及所述动作价值函数,确定所述优势函数。3.根据权利要求1所述的方法,其中,所述根据所述优势函数更新所述初始策略的参数,得到最优策略,包括:将约束问题转化为无约束问题;根据所述优势函数,更新所述初始策略的参数,直到预设停止条件满足,确定所述无约束问题的最优解;将所述最优解作为所述最优策略。4.根据权利要求3所述的方法,其中,所述将约束问题转化为无约束问题,包括:根据重要性采样比,将所述约束问题转化为等价问题;利用确定罚函数,将所述等价问题转化为无约束问题。5.根据权利要求3所述的方法,其中,所述根据所述优势函数,更新所述初始策略的参数,确定所述无约束问题的最优解,包括:利用近似误差,将所述无约束问题转换为近似问题;根据所述优势函数,在所述近似问题的信任域内对所述初始策略的参数进行保守更新,得到所述近似问题的最优解。6.根据权利要求1所述的方法,其中,所述根据所述最优策略,确定智能移动体的自动驾驶策略供自动驾驶,包括:根据所述移动智能体的位置、行驶环境以及所述最优策略,确定所述移动智能体的自动驾驶策略。7.一种自动驾驶装置,包括:交互数据获取单元,被配置成获取移动智能体根据初始策略自动驾驶与行驶环境交互产生的交互数据;优势函数确定单元,被配置成根据所述交互数据确定优势函数;最优策略确定单元,被配置成响应于预设停止条件不满足,根据所述优势函数更新所述初始策略的参数,直到所述预设停止条件满足,得到最优策略;自动驾驶单元,被配置成根据所述最优策略,确定智能移动体的自动驾驶策略供自动驾驶。8.根据权利要求7所述的装置,其中,所述优势函数确定单元进一步被配置成:根据所述交互数据确定价值函数以及动作价值函数;根据所述价值函数以及所述动作价值函数,确定所述优势函数。9.根据权利要求7所述的装置,其中,所述最优策略确定单元进一步被配置成:
将约束问题转化为无约束问题;根据所述优势函数,更新所述初始策略的参数,直到预设停止条件满足,确定所述无约束问题的最优解;将所述最优解作为所述最优策略。10.根据权利要求9所述的装置,其中,所述最优策略确定单元进一步被配置成:根据重要性采样比,将所述约束问题转化为等价问题;利用精确罚函数,将所述等价问题转化为无约束问题。11.根据权利要求9所述的装置,其中,所述最优策略确定单元进一步被配置成:利用近似误差,将所述无约束问题转换为近似问题;根据所述优势函数,在所述近似问题的信任域内对所述初始策略的参数进行保守更新,得到所述近似问题的最优解。12.根据权利要求7所述的装置,其中,所述自动驾驶单元进一步被配置成:根据所述移动智能体的位置、行驶环境以及所述最优策略,确定所述移动智能体的自动驾驶策略。13.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
技术总结
本公开提供了自动驾驶方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及强化学习技术领域。具体实现方案为:获取移动智能体根据初始策略自动驾驶与行驶环境交互产生的交互数据;根据交互数据确定优势函数;响应于预设停止条件满足,根据优势函数更新初始策略的参数,得到最优策略;根据最优策略,确定智能移动体的自动驾驶策略供自动驾驶。本实现方式可以利用强化学习为移动智能体确定出最优自动驾驶策略,从而能够提高移动智能体的安全性。性。性。
技术研发人员:沈力 张麟睿 陶大程
受保护的技术使用者:京东科技信息技术有限公司
技术研发日:2022.06.16
技术公布日:2022/8/16