本发明涉及飞行器控制,具体涉及一种水空多旋翼飞行器控制方法及其系统。
背景技术:
1、随着科技的高速发展及社会的不断进步,单种飞行器在一些特定的情况下下已经很难满足工作需求。特别是对于一些飞机失事坠落于野外环境(水、空、陆)的情况,单种飞行器的搜寻定位作业受到限制。因此,急需一种能适应多种环境的飞行器,解决单种飞行器在水、陆、空三域搜寻定位的灵活性差、适应性弱和多功能运动模式受限等问题。
2、水空多旋翼飞行器结合了空中无人机和水下机器人的优势,能够完成单种飞行器所不能完成的任务,具有环境适应性强、活动范围广、立体空间感知等诸多优势。水空多旋翼飞行器一般是指在空气介质和水体环境(表面)同时具有生存能力的无人驾驶的海空一体化飞行器。其具备无人机的高速高机动和快速部署能力和无人水面舰艇的快速游弋能力或无人水下航行器的高隐蔽性等优势。
3、水空多旋翼飞行器不规则外形在不同介质下的受力具有高度的复杂性,在执行飞行任务的过程中会受到不同环境的影响,比如水空多旋翼飞行器的飞行状态在空中会受到风速的影响;在水下会受到水的流速的影响;特别是在水空分界处会受到风、水波和水空多旋翼飞行器螺旋桨推进器的共同影响,导致其运动控制非常困难。水空多旋翼飞行器系统具有多输入多输出、欠驱动、强耦合和非线性等特点,以及动力学模型的复杂性、参数不确定性和建模过程中简化导致建模不精确对其控制器的鲁棒性、抗干扰性等要求较高等问题,传统的线性控制方法无法实现实时跟踪其动态变化过程,抗干扰能力不足。
技术实现思路
1、本发明的目的在于提供一种水空多旋翼飞行器控制方法及其系统,以能够提高水空多旋翼飞行器的运动感知实时性、运动控制精度和抗扰动能力。
2、本发明解决上述技术问题的技术方案如下:
3、本发明提供一种水空多旋翼飞行器控制方法,所述水空多旋翼飞行器控制方法包括:
4、s1:获取水空多旋翼飞行器的飞行指令和状态信息;
5、s2:根据所述飞行指令和状态信息,得到所述水空多旋翼飞行器在当前任务中的目标状态和初始状态;
6、s3:根据所述初始状态,利用深度强化学习器,计算得到所述水空多旋翼飞行器当前时刻的动作并将所述当前时刻的动作发送至所述水空多旋翼飞行器;
7、s4:控制所述水空多旋翼飞行器执行所述当前时刻的动作;
8、s5:利用传感器获取所述水空多旋翼飞行器下一时刻的状态;
9、s6:控制所述水空多旋翼飞行器将所述初始状态、所述当前时刻的动作、所述下一时刻的状态以及当前时刻的奖励函数缓存为数据包并将与所述数据包反馈至所述深度强化学习器;
10、s7:利用所述深度强化学习器判断所述下一时刻的状态是否为目标状态,若是,进入步骤s8;否则,将所述下一时刻的状态更新为初始状态并返回步骤s3;
11、s8:获取所述水空多旋翼飞行器在所述目标状态的实际位置和姿态;
12、s9:判断所述实际位置和所述姿态是否为目标位置和目标姿态,若是,结束当前任务的控制程序,否则,对所述水空多旋翼飞行器进行自抗扰校正。
13、可选择地,所述步骤s1中,所述飞行指令包括水空多旋翼飞行器线速度和航向角速度;
14、所述步骤s2中,所述状态信息包括所述水空多旋翼飞行器的姿态角和入水高度;
15、所述步骤s2包括:
16、根据所述飞行指令,得到所述水空多旋翼飞行器在当前任务中的目标线速度和目标航向角速度;
17、根据所述目标线速度、所述目标航向角速度、目标姿态角和目标入水高度,得到目标状态;
18、根据所述水空多飞行器的初始入水高度,得到所述初始状态。
19、可选择地,所述动作包括所述水空多旋翼飞行器的螺旋桨转速和推进器倾转角。
20、可选择地,所述步骤s3中,所述深度强化学习器包括:
21、输入层、输出层,以及在所述输入层和所述输出层之间的k层全连接层,所述输入层用于输入初始状态,所述输出层用于输出当前时刻的动作,每层所述全连接层包括个m0,m1,m2,…,mk神经元,对于第k层全连接层:
22、
23、其中,为第k层的第i个神经元;mk为第k层的神经元个数;为第k层权重矩阵的第i行j列的权重;为第k层的偏置;w(k)为第k层的权重矩阵;y(k-1)为第k-1层的输出向量和第k层的输入向量;y(k)为第k层的输出向量;net(k)中每个元素表示第k层输入向量与权重矩阵相乘后与偏置向量的加权和;f(k)为第k层神经元的激活函数。
24、可选择地,所述步骤s6中,所述奖励函数为:
25、
26、其中,ut表示t时刻水空多旋翼飞行器的线速度,φt表示t时刻水空多旋翼飞行器的姿态角、ωt表示t时刻水空多旋翼飞行器的角速度,utarget、φtarget和ωtarget分别表示目标线速度、目标姿态角和目标角速度,d表示入水深度。
27、可选择地,所述步骤s9中,利用串级adrc自抗扰控制系统对所述水空多旋翼飞行器进行自抗扰校正。
28、可选择地,所述串级adrc自抗扰控制系统包括外环控制子系统和内环控制子系统,所述外环控制子系统用于对所述实际位置进行内外扰动实时估计并消除扰动;
29、所述内环控制子系统用于消除对所述姿态的扰动并进行实时控制。
30、可选择地,所述外环控制子系统和所述内环控制子系统均包括跟踪微分器、扩张状态观测器和非线性误差反馈控制,
31、跟踪微分器用于对该系统的输入信号进行跟踪及微分处理,获得稳定的系统输入信号;扩张状态观测器用于估计实时状态和系统总扰动;非线性误差反馈控制用于根据系统稳定的系统输入信号、估计的实时状态和总扰动进行控制率的补偿,并生成位置和姿态的最终控制量;
32、所述跟踪微分器的输入为实际位置/姿态,输出为所述实际位置/姿态的一阶跟踪微分信号和二阶跟踪微分信号;
33、所述扩张状态观测器的输入为水空多旋翼飞行器期望位置信息/期望姿态信息以及期望位置信息/期望姿态信息和预设系数的乘积,输出为期望位置信号/期望姿态信号、期望位置信号变化率/期望姿态信号变化率和期望位置信号观测总扰动/期望姿态信号观测总扰动;
34、所述误差反馈控制输入为位置信号误差/姿态信号误差、变化率误差,输出为误差反馈控制量。
35、可选择地,所述跟踪微分器为:
36、
37、
38、其中,r,p0待调整参数;h为运算步长;k为采样时刻数;p1为k时刻下输入信号p0的跟踪输入信号,p2(k)为p1(k)的一阶微分信号;sign(.)为符号函数;fhan(.)为最速控制综合函数,a为中间过渡参数,a0为边界层厚度,xyz为实际位置信号,h0为独立于时间步长的另一个可调参量,x1和x2为不同的信号输入量,y1、sy、d1和sa均为中间参数,为一阶微分形式,为最速控制综合函数的一阶微分形式;
39、所述扩张状态观测器为:
40、
41、式中,k为采样时刻数;z1(k)为k时刻下的测喷注压力;z2(k)为k时刻下的观测喷注压力变化率;z3(k)为k时刻下的喷注器内外扰动的总扰动估计值;h()为步长函数,fal()为饱和函数,a1,a2,a3,β01,β02和β03均为调整参数;δ为线性段的区域长度,e为增益;
42、所述误差反馈控制的误差反馈控制量做如下处理:
43、
44、式中,u0为误差反馈控制量;β1和β2均为可调参数;e1为位置信号误差/姿态信号误差,e2为变化率误差,p1和p2分别为实际位置的一阶跟踪微分信号和二阶跟踪微分信号,a1和a2分别为调整参数,δ为线性段的区域长度。
45、本发明还提供一种基于上述的水空多旋翼飞行器控制方法的控制系统,所述控制系统包括:
46、数据获取模块,所述数据获取模块用于获取水空多旋翼飞行器的飞行指令和状态信息;利用传感器获取所述水空多旋翼飞行器下一时刻的状态以及获取所述水空多旋翼飞行器在所述目标状态的实际位置和姿态;
47、数据处理模块,所述数据处理模块用于根据所述飞行指令和状态信息,得到所述水空多旋翼飞行器在当前任务中的目标状态和初始状态;根据所述初始状态,利用深度强化学习器,计算得到所述水空多旋翼飞行器当前时刻的动作;
48、数据传输模块,所述数据传输模块用于将所述当前时刻的动作发送至所述水空多旋翼飞行器;
49、飞行器控制模块,所述飞行器控制模块用于控制所述水空多旋翼飞行器执行所述当前时刻的动作;控制所述水空多旋翼飞行器将所述初始状态、所述当前时刻的动作、所述下一时刻的状态以及当前时刻的奖励函数缓存为数据包并将与所述数据包反馈至所述深度强化学习器;
50、判断模块,所述判断模块用于利用所述深度强化学习器判断所述下一时刻的状态是否为目标状态以及判断所述实际位置和所述姿态是否为目标位置和目标姿态。
51、本发明具有以下有益效果:
52、(1)本发明能够实时确定水空多旋翼飞行器当前时刻的状态,并根据目标状态和当前时刻的状态重新校准信号,即校准水空多旋翼飞行器线速度、姿态角和角速度,结合串级自抗扰控制系统,使水空多旋翼飞行器以最快、最稳定的方式达到目标状态;
53、(2)本发明所提供的串级adrc自抗扰控制系统由踪微分器,扩张状态观测器与非线性误差反馈控制三部分组成,三个部分互相配合,共同工作,能一定程度的克服飞行过程的扰动,实现水空多旋翼飞行器位置和姿态的控制;
54、(3)水空多旋翼飞行器在水中、空中、水空过渡工作过程中,提升其运动感知实时性、运动控制精度和抗干扰能力,高效调控水空多旋翼飞行器运动状态,实现水空多旋翼飞行器工作环境适应性强、活动范围大等目标。