鲁棒强化学习与对抗强化学习的无人机控制方法及装置

文档序号：40160141发布日期：2024-11-29 15:49阅读：来源：国知局

技术特征：

1.一种鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述s1中，初始化无人机系统，获取无人机的当前状态，包括：

3.根据权利要求2所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述s2中，基于所述当前状态，计算所述无人机的鲁棒部分控制量，基于所述鲁棒部分控制量判断是否需要触发强化学习控制，若是，则进行鲁棒部分控制量的扩展，并通过强化学习控制器和对抗网络分别输出准确控制量；若否，则直接将鲁棒部分控制量作为准确控制量，包括：

4.根据权利要求3所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述触发的时间间隔为强化学习控制模块的控制周期，控制周期设为大于等于延迟时间。

5.根据权利要求4所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述s2还包括：

6.根据权利要求5所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述s3中，将所述准确控制量输入至无人机系统，得到奖励，包括：

7.根据权利要求6所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述s3中，将奖励、动作以及准确控制量作为经验，对所述强化学习控制器和对抗网络进行更新，并判断所述强化学习控制器和对抗网络是否收敛，若否，则返回s2；若是，则保存网络参数，完成基于鲁棒强化学习与对抗强化学习的无人机控制，包括：

8.一种基于鲁棒强化学习与对抗强化学习的无人机控制装置，所述基于鲁棒强化学习与对抗强化学习的无人机控制装置用于实现如权利要求1-7任一项所述基于鲁棒强化学习与对抗强化学习的无人机控制方法，其特征在于，所述装置包括：

9.一种基于鲁棒强化学习与对抗强化学习的无人机控制设备，其特征在于，所述基于鲁棒强化学习与对抗强化学习的无人机控制设备包括：

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。

技术总结
本发明涉及计算机技术领域，特别涉及一种鲁棒强化学习与对抗强化学习的无人机控制方法及装置。所述方法包括：初始化无人机系统，获取无人机的当前状态；基于当前状态，计算无人机的鲁棒部分控制量，基于鲁棒部分控制量判断是否需要触发强化学习控制输出准确控制量；将准确控制量输入至无人机系统，得到奖励；对强化学习控制器和对抗网络进行更新，并判断强化学习控制器和对抗网络是否收敛，保存网络参数，完成基于鲁棒强化学习与对抗强化学习的无人机控制。本发明既可以保证在训练前期施加较小的扰动保证强化学习控制模块网络可以收敛，也可以保证在训练后期施加尽可能大的干扰，以提高强化学习控制模块网络的抗扰能力。

技术研发人员：余瑶,费圆圆,张紫祚,孙长银
受保护的技术使用者：北京科技大学
技术研发日：
技术公布日：2024/11/28

完整全部详细技术资料下载

当前第2页1 2