智能体探索策略的确定方法、装置、智能体及存储介质

文档序号：34300987发布日期：2023-05-31 16:20阅读：来源：国知局

技术特征：

1.一种智能体探索策略的确定方法，其特征在于，所述探索策略包括基于预设网络模型的探索策略，所述确定方法包括：

2.根据权利要求1所述的智能体探索策略的确定方法，其特征在于，所述基于所述距离参数，确定所述预设网络参数的目标值，包括：

3.根据权利要求2所述的智能体探索策略的确定方法，其特征在于，所述根据所述距离参数和所述预设网络模型的奖励函数，确定所述预设网络模型的目标函数，包括：

4.根据权利要求2所述的智能体探索策略的确定方法，其特征在于，所述将所述目标函数的取值为最大值时所述预设网络参数的取值确定为所述预设网络参数的目标值，包括：

5.根据权利要求1所述的智能体探索策略的确定方法，其特征在于，所述基于所述预设网络模型的预设网络参数，确定所述智能体的预测轨迹集，包括：

6.根据权利要求5所述的智能体探索策略的确定方法，其特征在于，所述对所述预设网络参数进行多次采样，得到所述预设网络参数的多个采样值，包括：

7.根据权利要求1所述的智能体探索策略的确定方法，其特征在于，所述确定所述预测轨迹集和所述历史轨迹集之间的距离参数，包括：

8.一种智能体探索策略的确定装置，其特征在于，所述探索策略包括基于预设网络模型的探索策略，所述确定装置包括：

9.一种智能体，其特征在于，包括：

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由智能体的处理器执行时，使得智能体能够执行如权利要求1-7中任一项所述的方法。

技术总结
本公开是关于一种智能体探索策略的确定方法、装置、智能体及存储介质，应用于机器学习技术领域，用于确定智能体的探索策略，探索策略包括基于预设网络模型的探索策略。智能体探索策略的确定方法包括：获取智能体的历史轨迹集；基于预设网络模型的预设网络参数，确定智能体的预测轨迹集；确定预测轨迹集和历史轨迹集之间的距离参数；基于距离参数，确定预设网络参数的目标值；根据预设网络参数的目标值，确定智能体的目标探索策略。本公开中通过预测轨迹集和历史轨迹集之间的距离参数来确定预设网络参数，能够使智能体探索更多未知区域，从而使智能体摆脱局部最优策略，学习到全局最优策略，极大程度提高智能体对新轨迹的探索能力。

技术研发人员：吴发国,张筱,刘健翔,姚望
受保护的技术使用者：北京航空航天大学
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

当前第2页1 2