1.一种鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述s1中,初始化无人机系统,获取无人机的当前状态,包括:
3.根据权利要求2所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述s2中,基于所述当前状态,计算所述无人机的鲁棒部分控制量,基于所述鲁棒部分控制量判断是否需要触发强化学习控制,若是,则进行鲁棒部分控制量的扩展,并通过强化学习控制器和对抗网络分别输出准确控制量;若否,则直接将鲁棒部分控制量作为准确控制量,包括:
4.根据权利要求3所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述触发的时间间隔为强化学习控制模块的控制周期,控制周期设为大于等于延迟时间。
5.根据权利要求4所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述s2还包括:
6.根据权利要求5所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述s3中,将所述准确控制量输入至无人机系统,得到奖励,包括:
7.根据权利要求6所述的基于鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述s3中,将奖励、动作以及准确控制量作为经验,对所述强化学习控制器和对抗网络进行更新,并判断所述强化学习控制器和对抗网络是否收敛,若否,则返回s2;若是,则保存网络参数,完成基于鲁棒强化学习与对抗强化学习的无人机控制,包括:
8.一种基于鲁棒强化学习与对抗强化学习的无人机控制装置,所述基于鲁棒强化学习与对抗强化学习的无人机控制装置用于实现如权利要求1-7任一项所述基于鲁棒强化学习与对抗强化学习的无人机控制方法,其特征在于,所述装置包括:
9.一种基于鲁棒强化学习与对抗强化学习的无人机控制设备,其特征在于,所述基于鲁棒强化学习与对抗强化学习的无人机控制设备包括:
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。