1.一种智能体探索策略的确定方法,其特征在于,所述探索策略包括基于预设网络模型的探索策略,所述确定方法包括:
2.根据权利要求1所述的智能体探索策略的确定方法,其特征在于,所述基于所述距离参数,确定所述预设网络参数的目标值,包括:
3.根据权利要求2所述的智能体探索策略的确定方法,其特征在于,所述根据所述距离参数和所述预设网络模型的奖励函数,确定所述预设网络模型的目标函数,包括:
4.根据权利要求2所述的智能体探索策略的确定方法,其特征在于,所述将所述目标函数的取值为最大值时所述预设网络参数的取值确定为所述预设网络参数的目标值,包括:
5.根据权利要求1所述的智能体探索策略的确定方法,其特征在于,所述基于所述预设网络模型的预设网络参数,确定所述智能体的预测轨迹集,包括:
6.根据权利要求5所述的智能体探索策略的确定方法,其特征在于,所述对所述预设网络参数进行多次采样,得到所述预设网络参数的多个采样值,包括:
7.根据权利要求1所述的智能体探索策略的确定方法,其特征在于,所述确定所述预测轨迹集和所述历史轨迹集之间的距离参数,包括:
8.一种智能体探索策略的确定装置,其特征在于,所述探索策略包括基于预设网络模型的探索策略,所述确定装置包括:
9.一种智能体,其特征在于,包括:
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由智能体的处理器执行时,使得智能体能够执行如权利要求1-7中任一项所述的方法。