本发明涉及飞行器控制,具体为多无人机姿态控制方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、四旋翼无人机结构简单、灵活性高并且能够垂直起降,常被用于执行危险环境下的复杂任务,如电厂检查、灾害监测、野外搜救等,当多台四旋翼无人机组成集群时能够提高作业效率。
3、四旋翼无人机在执行作业任务时,即需要控制其位置,也要控制其姿态,而多无人机需要通过相互协同配合,才能完成复杂任务,此时的无人机受限于自身控制算法的复杂程度,导致能量消耗也随之而增加。
技术实现思路
1、为了解决上述背景技术中存在的技术问题,本发明提供多无人机姿态控制方法及系统,利用反步法实现多无人机的控制,反步的第一步设计了由与通信拓扑相关的相邻智能体状态的耦合项组成的一致误差,并设计了具有一致误差项的虚拟控制,反步的第二步构造神经网络结构执行强化学习,进而导出优化的实际控制,相较于传统的多无人机控制算法更加简单,间接的节省无人机作业时的能量消耗。
2、为了实现上述目的,本发明采用如下技术方案:
3、本发明的第一个方面提供多无人机姿态控制方法,包括以下步骤:
4、建立多无人机姿态控制的动力模型,并转换型式;
5、设定无人机的角度跟踪误差,导出动力方程并基于相邻无人机的输出状态确定一致误差,确定对应的虚拟控制;
6、设定无人机的角速度跟踪误差,导出动力方程并以最小化性能函数为目标生成最优性能函数,经求导得到哈密顿-雅可比-贝尔曼方程,基于该方程对最优控制参数求导得到含有未知项的最优控制参数;
7、基于神经网络获取的权重更新律得到未知项,确定实际控制输入。
8、进一步的,建立多无人机姿态控制的动力模型,包括,以无人机的翻滚角、俯仰角和偏航角为目标,并基于控制力矩、转动惯量和阻力系数建立动力模型。
9、进一步的,基于相邻无人机的输出状态确定一致误差,具体为:
10、
11、式中,ei(t)为第i个无人机的一致误差,ξi为无人机i的邻居集,aij是与连通图g有关的邻接矩阵a中的元素,bi为无人机和领航者之间的通讯矩阵中的元素,xpi(t)表示第i个无人机由翻转、俯仰和偏航三个欧拉角组成的姿态状态向量,xpj(t)表示第j个无人机由翻转、俯仰和偏航三个欧拉角组成的姿态状态向量,xr(t)为参考信号或者领航者。
12、进一步的,得到的虚拟控制,具体为:
13、式中,代表设计参数,ei(t)为第i个无人机的一致误差。
14、进一步的,设定无人机的角速度跟踪误差,导出动力方程并生成最优性能函数,具体为:
15、定义与误差动力相关的无穷积分性能指标,并根据角速度的跟踪误差确并以指标函数最小化为目标,得到最优性能函数。
16、进一步的,最优性能函数,具体为:
17、
18、式中,为跟踪误差变量,为最优姿态控制,ci(zvi,τi)为成本函数,无人机姿态一致控制τi∈ψ(ω),ω为集合。
19、进一步的,最优性能函数经求导得到哈密顿-雅可比-贝尔曼方程,如下式所示:
20、
21、fi(xpi,xvi)为动态函数,为虚拟控制的导数,zvi为角速度跟踪误差。求解为最优姿态控制,得到其中为未知项。
22、进一步的,基于神经网络获取的权重更新律得到未知项,确定实际控制输入;具体为:
23、执行强化学习的神经网络如下式所示:
24、
25、
26、其中,为未知项的估计,和分别为对应神经网络的权重;
27、神经网络权重更新率分别为:
28、
29、
30、其中,κci>0和κai>0分别为critic和actor神经网络的设计参数,和分别表示critic和actor神经网络的权重,si(zvi)为基函数向量。
31、本发明的第二个方面提供多无人机姿态控制系统,包括:
32、建模模块,被配置为:建立多无人机姿态控制的动力模型,并转换型式;
33、第一反步模块,被配置为:设定无人机的角度跟踪误差,导出动力方程并基于相邻无人机的输出状态确定一致误差,确定对应的虚拟控制;
34、第二反步模块,被配置为:设定无人机的角速度跟踪误差,导出动力方程并以最小化性能函数为目标生成最优性能函数,经求导得到哈密顿-雅可比-贝尔曼方程,基于该方程对最优控制参数求导得到含有未知项的最优控制参数;
35、强化学习模块,被配置为:基于神经网络获取的权重更新律得到未知项,确定实际控制输入。
36、与现有技术相比,以上一个或多个技术方案存在以下有益效果:
37、1、利用反步法实现多无人机的控制,反步的第一步找到虚拟控制,反步的第二步构造神经网络结构执行强化学习,进而导出优化的实际控制,相较于传统的多无人机控制算法更加简单,间接的节省无人机作业时的能量消耗。
38、2、在传统的强化学习最优控制中,神经网络的更新率由包含多个非线性项的hamilton-jacobi-bellman(hjb,哈密顿-雅可比-贝尔曼)方程近似的平方进行梯度下降推导而来,算法非常复杂。而本发明的强化学习更新率是根据与hjb方程相关的简单正函数的负梯度产生的,因此其算法比传统情况更简单,并且还可以消除持续激励条件。
1.多无人机姿态控制方法,其特征在于,包括以下步骤:
2.如权利要求1所述的多无人机姿态控制方法,其特征在于,建立多无人机姿态控制的动力模型,具体为:以无人机的翻滚角、俯仰角和偏航角为目标,并基于控制力矩、转动惯量和阻力系数建立动力模型。
3.如权利要求1所述的多无人机姿态控制方法,其特征在于,基于相邻无人机的输出状态确定一致误差,具体为:
4.如权利要求1所述的多无人机姿态控制方法,其特征在于,得到的虚拟控制参数,具体为:
5.如权利要求1所述的多无人机姿态控制方法,其特征在于,设定无人机的角速度跟踪误差,导出动力方程并生成最优性能函数,具体为:
6.如权利要求5所述的多无人机姿态控制方法,其特征在于,所述最优性能函数,具体为:
7.如权利要求5所述的多无人机姿态控制方法,其特征在于,最优性能函数经求导得到哈密顿-雅可比-贝尔曼方程,如下式所示:
8.如权利要求1所述的多无人机姿态控制方法,其特征在于,基于神经网络获取的权重更新律得到未知项,确定实际控制输入,包括:
9.如权利要求8所述的多无人机姿态控制方法,其特征在于,神经网络权重更新率分别为:
10.多无人机姿态控制系统,其特征在于,包括: