一种细粒度专家行为模仿学习方法、装置、介质及终端

文档序号：33171076发布日期：2023-02-04 02:34阅读：来源：国知局

技术特征：
1.一种细粒度专家行为模仿学习方法，其特征在于，包括：获取智能体的当前环境状态信息，将所述当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据所述预测信息控制所述智能体执行相应动作，采集任务完成情况信息和当前所述动作的状态信息；根据所述动作的状态信息计算单次奖励值，根据所述任务完成情况信息计算任务奖励值；根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将所述任务奖励值和每局若干所述单次奖励值相加，得到总奖励值，当所述总奖励值大于阈值时，完成对所述预设预测网络模型的训练，得到训练后的预测网络模型，并将所述训练后的预测网络模型输出的策略返回。2.根据权利要求1所述的一种细粒度专家行为模仿学习方法，其特征在于，所述预设预测网络模型为基于深度强化学习方法构建的操作预测网络模型。3.根据权利要求2所述的一种细粒度专家行为模仿学习方法，其特征在于，所述获取智能体的当前环境状态信息之前还包括预先获取专家决策数据。4.根据权利要求3所述的一种细粒度专家行为模仿学习方法，其特征在于，所述获取智能体的当前环境状态信息，将所述当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据所述预测信息控制所述智能体执行相应动作，采集任务完成情况信息和当前所述动作的状态信息包括：获取智能体的当前环境状态信息，将所述当前环境状态信息输入所述操作预测网络模型中，以得到所述预测信息，其中，所述当前环境状态信息包括坐标信息、角度信息和姿态信息，所述预测信息为动作概率分布；基于所述动作概率分布采样选取一个动作操作信息，根据所述动作操作信息执行相应动作，其中，每个所述动作操作信息对应一个概率；采集任务完成情况信息和当前所述动作的状态信息。5.根据权利要求4所述的一种细粒度专家行为模仿学习方法，其特征在于，所述根据所述动作的状态信息计算单次奖励值，根据所述任务完成情况信息计算任务奖励值，包括：将所述动作的状态信息与所述专家决策数据进行对照，得到差异信息，根据所述差异信息计算单次模仿奖励值，其中，所述动作的状态信息与所述专家决策数据进行对照为将所述动作的状态信息中的动作关键帧与所述专家决策数据中的专家关键帧进行对照；根据所述任务完成情况信息计算任务奖励值。6.根据权利要求5所述的一种细粒度专家行为模仿学习方法，其特征在于，所述根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将所述任务奖励值和每局若干所述单次奖励值相加，得到总奖励值，当所述总奖励值大于阈值时，完成对所述预设预测网络模型的训练，得到训练后的预测网络模型，并将所述训练后的预测网络模型输出的策略返回包括：将所述智能体初始化至随机采样状态；采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将若干所述单次模仿奖励值与所述任务奖励值相加，得到总奖励值，当所述总奖励值大于阈值时，完成对所述预设预测网络模型的训练，得到训练后的预测网络模型；
将所述训练后的预测网络模型输出的策略返回。7.根据权利要求6所述的一种细粒度专家行为模仿学习方法，其特征在于，采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将若干所述单次模仿奖励值与所述任务奖励值相加，得到总奖励值，当所述总奖励值大于阈值时，完成对所述预设预测网络模型的训练，得到训练后的预测网络模型包括：选择预设时间段的所述专家决策数据对所述预设预测网络模型进行模仿学习训练，将预设时间段内所有单次模仿奖励值相加，得到单段模仿奖励值；对是否再次进行训练进行判断，若所述单段模仿奖励值小于单段奖励阈值或触发提前终止条件时未通过单段训练，则重复对所述预设预测网络模型进行模仿学习训练，若所述单段模仿奖励值大于单段奖励阈值时通过单段训练，则在所述预设时间段的基础上增加新的时间段，得到累积时间段；选择所述累积时间段的所述专家决策数据重复对所述预设预测网络模型进行模仿学习训练并重复对是否再次进行训练进行判断的过程，直至累积时间段等于一局时间段且所述任务奖励值与所述一局时间段内所有所述单次模仿奖励值相加值大于一局奖励阈值时完成对所述预设预测网络模型的训练，得到训练后的预测网络模型。8.一种细粒度专家行为模仿学习装置，其特征在于，包括：信息采集模块，用于获取智能体的当前环境状态信息，将所述当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据所述预测信息控制所述智能体执行相应动作，采集任务完成情况信息和当前所述动作的状态信息；奖励值计算模块，用于根据所述动作的状态信息计算单次奖励值，根据所述任务完成情况信息计算任务奖励值；模型训练模块，用于根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将所述任务奖励值和每局若干所述单次奖励值相加，得到总奖励值，当所述总奖励值大于阈值时，完成对所述预设预测网络模型的训练，得到训练后的预测网络模型，并将所述训练后的预测网络模型输出的策略返回。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述的细粒度专家行为模仿学习方法中的步骤。10.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述通信总线实现处理器和存储器之间的连接通信；所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的细粒度专家行为模仿学习方法中的步骤。

技术总结
本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端，方法包括，获取智能体的当前环境状态信息，将当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据预测信息控制智能体执行相应动作，采集任务完成情况信息和当前动作的状态信息；根据动作的状态信息计算单次奖励值，根据任务完成情况信息计算任务奖励值；根据单次奖励值及任务奖励值训练预设预测网络模型，将任务奖励值和每局若干单次奖励值相加，得到总奖励值，当总奖励值大于阈值时，完成对预设预测网络模型的训练并将输出的策略返回，上述方法降低了训练难度、提高了训练效率，无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。模式的策略。模式的策略。

技术研发人员：漆舒汉孙志航殷俊黄新昊万乐王轩张加佳王强
受保护的技术使用者：哈尔滨工业大学（深圳）
技术研发日：2022.10.20
技术公布日：2023/2/3

完整全部详细技术资料下载

当前第2页1 2