一种无人直升机时变增益自抗扰优化控制方法

文档序号:33638337发布日期:2023-03-29 01:20阅读:63来源:国知局
一种无人直升机时变增益自抗扰优化控制方法

1.本发明属于飞行器鲁棒优化控制技术领域,具体是一种无人直升机时变增益自抗扰优化控制方法。


背景技术:

2.无人直升机具有隐蔽性好、慢速飞行、垂直上升下降等明显优势,因此被广泛应用于救灾搜寻、侦察监视、探查航拍等领域,在军事和民用方面都有着非常重要的实用价值。在军事方面,无人直升机可以进行对地攻击、中继通信、火力支援、敌情监测等;在民用商用中,无人直升机可以代替人力进行高难度危险的电力巡航,对受损或老化的设备进行替换;还可以清理高压电线上的漂浮物质、对海洋中的溺水者和船舶进行搜索并投入救生器材、新闻和影视航拍、快件运输等。因此对无人直升机进行研究具有深远的学术价值和现实意义。
3.无人直升机在飞行过程中不可避免地会受到外部干扰的影响。目前,已有相当量的文献对无人直升机展开了抗扰控制研究,其中最为常见的自抗扰控制技术。但是,传统的自抗扰技术是基于固定增益扩张状态观测器设计的,这导致观测器参数无法随着干扰的变化而变化。此外,固定增益扩张状态观测器还存在初始时刻增益过大导致系统计算量爆炸的问题。随着航天航天、自动化和人工智能等技术的飞速发展,现今人们已不满足于无人直升机单纯的完成任务,而是期望它能以某种最优的性能指标实现要求,如油耗最小、时间最短、速度最快等。因此,对传统固定增益自抗扰技术进行改进并设计无人直升机的最优控制器是现实的迫切需求。


技术实现要素:

4.本发明的目的是提供一种无人直升机时变增益自抗扰优化控制方法,保证无人直升机在具有良好鲁棒性能的同时,能够以能耗最小的方式完成跟踪任务。
5.为实现上述目的,本发明的技术方案具体分为以下步骤:
6.1)首先,针对无人直升机高度姿态复合系统中存在的干扰,设计时变增益扩张状态观测器来对未知干扰进行实时估计;
7.2)其次,通过等效变换将无人直升机跟踪优化控制问题转换为优化镇定问题处理:
8.3)最后,基于自适应动态规划方法和单评价神经网络技术设计最优飞行控制器,所述最优飞行控制器包括最优虚拟反馈控制器和最优反馈控制器。
9.进一步的,上述步骤(1)所述的无人直升机高度姿态复合动力学模型为:
[0010][0011][0012]
[0013]
其中,po=[ρ,σ
t
]
t
表示高度和姿态混合向量,ρ和σ=[φ,θ,ψ]
t
分别表示无人直升机的垂直高度和姿态角向量,σ=diag{1,γ(σ)}和γ(σ)∈r3×3是姿态运动学矩阵,qo=[h,ω
t
]
t
表示速度和角速度混合向量,h和ω=[p,q,r]
t
分别是垂直速度和姿态角速度向量,g是重力加速度,j0=diag{j
0x
,j
0y
,j
0z
}为惯性矩阵,m表示总质量,是待设计的控制输入,fu和tu∈r3分别是作用在无人直升机上的力和力矩,d∈r4是未知干扰,y0是系统输出。
[0014]
进一步的,上述步骤(1)中,时变增益扩张状态观测器设计如下:
[0015][0016]
其中和分别表示p0,q0和rd的估计值,表示p0的估计误差,k1=diag{k
11
,k
12
,k
13
,k
14
},k2=diag{k
21
,k
22
,k
23
,k
24
},k3=diag{k
31
,k
32
,k
33
,k
34
},k
ij
(i=1,2,3,j=1,2,3,4)是设计的正常数,μ(t)是时变增益,其形式为:
[0017][0018]
其中μ0和a为正常数。
[0019]
进一步的,上述步骤(2)中,等效变换方法的具体步骤如下:选择候选lyapunov函数如下所示
[0020][0021]
对vo进行求导可得
[0022][0023]
其中*表示零矩阵,e
λ
=λ
max
(e1),),
[0024]
从上式可以看出,如果设计的最优反馈控制器uo能够使如下动态系统稳定
[0025][0026]
则可以确保(38)右侧第一项的稳定性;同时如果(n
nm-e
λ
)>0成立,整个闭环系统最终一致有界。
[0027]
进一步的,上述步骤(3)中,提出虚拟控制律为:
[0028][0029]
其中q
dfo
是设计的前馈虚拟控制器,q
dbo
是设计的最优虚拟反馈控制器;
[0030]
前馈虚拟控制器q
dfo
设计为
[0031][0032]
实际控制律uu设计为
[0033][0034]
其中u
un
是设计的前馈控制器,u
uo
是设计的最优反馈控制器;
[0035]
前馈控制器u
un
设计为
[0036][0037]
其中f
*
=f-f(q
do
);
[0038]
代价函数选取为:
[0039][0040]
其中和是选定的具有适当维数的正定矩阵;
[0041]
针对代价函数(40)定义hjb方程为
[0042][0043]
其中
[0044]
最优代价函数j
*
(ξ)的估计为
[0045][0046]
其中和分别是j
*
(ξ)以及sa的估计;
[0047]
最优控制器和hjb方程设计为
[0048][0049][0050]
其中γe是残余误差。
[0051]
进一步的,上述步骤(3)中,神经网络权值矩阵的自适应更新律设计为:
[0052][0053]
其中γs>0是设计的正常数,χ1和χ2是设计的具有适当维数的参数矩阵,
υs=μs/κs。
[0054]
与现有技术相比,本发明带来的有益效果是:
[0055]
(1)本发明所提出的时变增益自抗扰技术,解决了传统固定增益自抗扰技术存在的初始时刻计算量爆炸和观测器增益无法随时间变化的问题,提高了系统的瞬态性能;为了处理无人直升机高度姿态复合模型中的时变干扰,本发明采用时变参数设计了新型扩张状态观测器,并全面证明了任意时刻下系统均稳定,时变参数扩张状态观测器的性能优于固定不变参数的扩张状态观测器;
[0056]
(2)本发明利用自适应动态规划技术和神经网络技术所设计的最优控制器,包含了最优虚拟反馈控制器和最优反馈控制器,解决了传统飞行控制设计中单纯完成跟踪任务的问题,而是能够保证无人直升机以能耗最小的代价完成飞行任务,大大提高了飞行性能;
[0057]
(3)本发明所提出的设计方案,能同时兼顾无人直升机的抗扰能力和性能最优指标,更加符合实际任务背景。
附图说明
[0058]
图1为本发明的系统控制流程图。
具体实施方式
[0059]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图和实施例对本发明作进一步地详细描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0060]
本发明公开了一种无人直升机时变增益自抗扰优化控制方法。设计了新型时变增益自抗扰观测器,保证了无人直升机的瞬态性能;并将系统的最优跟踪控制问题等效转换为优化镇定问题,借助于自适应动态规划技术和神经网络技术,设计了最优控制器以实现能耗最小。
[0061]
参见图1,在建立无人直升机高度姿态复合模型后,首先传感器会将采集到的系统输出信号送到时变增益扩张状态观测器和神经网络中;而后,采用自适应动态规划技术和神经网络的输出,设计虚拟最优反馈控制器;信号经处理后,与虚拟前馈控制器的输出联合设计虚拟控制律;同样地,采用自适应动态规划技术和神经网络的输出,设计最优反馈控制器;信号经处理后,与虚拟控制律、前馈控制器的输出联合设计实际控制律;最终,将该控制律用于解决无人直升机的最优跟踪控制问题。
[0062]
实施例,一种无人直升机时变增益自抗扰优化控制方法,包括以下的具体步骤:
[0063]
步骤(1):针对无人直升机高度姿态复合系统中存在的干扰,设计时变增益扩张状态观测器来对未知外部干扰进行实时估计
[0064]
步骤1.1建立受扰的无人直升机姿态高度混合模型
[0065]
考虑到垂直起降的典型运动模态,受到干扰影响的无人直升机高度姿态组合非线性动力学模型可以表示为:
[0066]
[0067][0068][0069]
其中po=[ρ,σ
t
]
t
表示高度和姿态混合向量,ρ和σ=[φ,θ,ψ]
t
分别表示无人直升机的垂直高度和姿态角向量,σ=diag{1,γ(σ)}和γ(σ)∈r3×3是姿态运动学矩阵,qo=[h,ω
t
]
t
表示速度和角速度混合向量,h和ω=[p,q,r]
t
分别是垂直速度和姿态角速度向量,j0=diag{j
0x
,j
0y
,j
0z
}为惯性矩阵,g是重力加速度,m表示无人直升机的总质量,表示待设计的控制输入向量,fu和tu∈r3分别是作用在无人直升机系统上的力和力矩,d∈r4是总的未知干扰,y0是系统输出。
[0070]
本发明的控制目标是设计自适应最优控制器,使得系统输出yo围绕在期望信号p
do
的附近,同时保证飞行过程能耗最小。为此下面列出一些必要的假设和引理:
[0071]
假设1:假设未知扰动d及其一阶导数是有界的。也就是说,存在正常数和使得和
[0072]
假设2:由于无人直升机的特殊旋翼结构,假设其姿态角在合理范围内变化。此外参考轨迹p
do
及其导数是有界的。
[0073]
引理1:采用神经网络逼近任何未知的光滑函数m(ε),其形式为:
[0074][0075]
其中ε∈r
l
是神经网络输入向量,是m(ε)的估计;表示最优权重矩阵且满足且满足是选定合适的基函数向量且满足k
t
(ε)k(ε)≤km;和km为正常数。因此,未知的光滑函数m(ε)可以进一步描述为:
[0076][0077]
其中是逼近误差且满足是逼近误差且满足是正常数。
[0078]
步骤1.2设计时变增益扩张状态观测器
[0079]
首先将外部干扰d扩展为一个新的状态rd,则受干扰无人直升机的非线性动力学(1)可以进一步描述为
[0080][0081]
其中d=rd。根据假设1,可以得出λ有界且
[0082]
基于上述描述,新型时变增益扩张状态观测器构造如下:
[0083][0084]
其中和分别是p0,q0和rd的估计值,是p0的估计误差。k1=diag{k
11
,k
12
,k
13
,k
14
},k2=diag{k
21
,k
22
,k
23
,k
24
},k3=diag{k
31
,k
32
,k
33
,k
34
},k
ij
(i=1,2,3,j=1,2,3,4)是设计的正常数,μ(t)是时变增益,其形式为:
[0085][0086]
其中μ0和a为正常数。
[0087]
定义估计误差为和然后引用(4)和(5)得到:
[0088][0089][0090][0091]
为了便于分析,引入新的辅助变量βi(i=1,2,3),由下式给出
[0092][0093]
因为时变增益μ(t)是分段函数,所以讨论分为两种情况。首先,当成立,已知μ(t)=μ0。辅助变量βi(i=1,2,3)可以重写为
[0094][0095]
结合(7)-(10)并取βi(i=1,2,3)对时间求导可得
[0096][0097][0098][0099]
通过定义可以得出
[0100][0101]
其中*表示零矩阵,r4×4,i4×4表示单位矩阵,bk=μ0(∑-i4×4),
[0102][0103]
选择适当的参数k
ij
以确保ac是hurwitz矩阵。也即存在正定矩阵mc,使得
[0104][0105]
其中nc是正定矩阵。
[0106]
选择lyapunov函数为
[0107][0108]
代入(15)并求v
β
的导数得
[0109][0110]
其中||mcb1||≤c1,||mcb2||≤c2,c1和c2为正常数,n
n1
=λ
min
(μ0n
c-2c1i
i-ii),ii∈r
12
×
12
是单位矩阵。
[0111]
另一种情况是成立,我们有μ(t)=(1+a)
at
。在这种情况下,考虑(7)-(10)并取βi(i=1,2,3)的时间导数
[0112][0113][0114][0115]
类似地,结合β的定义,可以给出
[0116][0117]
其中bh=μ(t)(σ-i4×4),
[0118]
现在,我们选择相同的候选lyapunov函数(17),它的时间导数变为
[0119][0120]
其中||mcb3||≤c3,c3>0。
[0121]
这里注意到μ(t)=(1+a)
at
是的指数函数。由于1+a>1始终成立,因此得出μ(t)是单调递增函数的结论。显然μ(t)的变化范围为μ(t)∈(1,μm),其中
我们由此可以得到:
[0122][0123]
将(24)代入(23)可得
[0124][0125]
其中n
n2
=λ
min
(n
c-2c3i
i-ii)。
[0126]
综合结论(18)和(25),得
[0127][0128]
其中n
nm
=max{n
n1
,n
n2
}。
[0129]
步骤(2).通过等效变换方法将无人直升机跟踪优化控制问题转换为优化镇定问题
[0130]
考虑到(1),我们将跟踪误差定义为
[0131][0132][0133]
其中p
do
是期望的轨迹信号,q
do
是设计的虚拟控制器。
[0134]
对e1的时间求导
[0135][0136]
与传统的反步法相比,本发明提出的虚拟控制律如下
[0137][0138]
其中q
dfo
是设计的前馈虚拟控制律,q
dbo
是待设计最优虚拟反馈控制器。显然,如果我们让q
dbo
=0,方程(30)将退化为标准的反步法控制结构。
[0139]
首先,将前馈虚拟控制器q
dfo
设计为
[0140][0141]
将(30)和(31)代入(29)得到
[0142][0143]
对e2的时间求导
[0144][0145]
然后,实际控制输入uu表示为
[0146][0147]
其中u
un
是设计的前馈控制器,u
uo
是设计的最优反馈控制器。
[0148]
前馈控制器u
un
设计为
[0149][0150]
其中f
*
=f-f(q
do
)。
[0151]
利用(34)和(35),方程(33)可以改写为
[0152][0153]
选择候选lyapunov函数,如下所示:
[0154][0155]
考虑(26)、(32)和(36)并对vo进行微分
[0156][0157]
其中e
λ
=λ
max
(e1),),
[0158]
从(38)可以看出,如果设计的最优反馈控制器uo可以使以下的动态系统稳定
[0159][0160]
则可以确保(38)右侧第一项的稳定性。同时如果(n
nm-e
λ
)>0成立,我们可以得出整个闭环系统最终一致有界的结论。这样原始的最优跟踪控制问题被转化为系统(39)的最优稳定问题。也即,通过这种等效变换方法将无人直升机的最优跟踪控制问题转换为系统镇定问题来处理。
[0161]
步骤(3).基于自适应动态规划方法和单评价神经网络技术设计的最优飞行控制器,包括虚拟前馈控制器和最优反馈控制器的设计,以保证无人直升机的性能满足预设的能量指标函数。
[0162]
结合动态系统(39),选取代价函数:
[0163][0164]
其中和是选定的具有适当维数的正定矩阵。
[0165]
定义1:考虑具有代价函数(40)的非线性误差系统(39)。如果控制律uo能够同时保证误差系统(39)稳定和代价函数(40)的有界性,则uo被称为(39)中的容许控制输入。同时所有的可容许的控制输入构成了一个可容许的集合描述为
[0166]
针对代价函数(40),定义哈密尔顿方程为
[0167][0168]
其中
[0169]
根据最优解的存在条件最优控制输入使代价函数(40)最小
[0170][0171]
其中j*(ξ)是当j
*
(0)=0时的最小代价函数。
[0172]
通过设并代入(42),我们得到以下hjb方程
[0173][0174]
其中
[0175]
由于hjb方程(43)是一个复杂的非线性偏微分方程,很难获得解析解。因此将神经网络技术与adp方法相结合来克服这一困难。此外,给出如下假设:
[0176]
假设3:对于误差系统(39)和相应的最优控制器存在一个有界正定矩阵以及正函数使得
[0177][0178][0179]
其中和l(ξ)是选择的lyapunov函数。
[0180]
基于引理1,采用nn技术来近似最优代价函数j
*
(ξ),可以描述为
[0181][0182]
其中sa∈r
l
是理想权值向量,ha(ξ)∈r
l
表示nn的激励函数,是近似误差。
[0183]
对(46)求关于ξ的偏导数
[0184][0185]
其中
[0186]
假设4:假设理想权值向量sa,激励函数ha(ξ)和近似误差在紧集λj上是范数有界的。同时假设ha(ξ)和的偏导数是范数有界的。也即存在正常数s
am1
,h
am1
,h
am2
和使得||sa||≤s
am1
,||ha(ξ)||≤h
am1
,和成立。
[0187]
调用(47),最优控制器(42)和相应的hjb方程(43)可以进一步改写为
[0188][0189][0190]
其中
[0191]
考虑到以下实际情况:
[0192][0193]
其中根据假设3,注意到c
λ
是有界的。换句话说存在正的常数cm,使得||c
λ
||≤cm。
[0194]
进而hjb方程(49)变为
[0195][0196]
其中
[0197]
由于理想权值矩阵sa未知,因此采用nn的方法来估计最优代价函数j
*
(ξ):
[0198][0199]
其中和分别是j
*
(ξ)和sa的估计值。
[0200]
考虑(52),最优控制器(48)和hjb方程(51)的近似值可以表示为
[0201][0202][0203]
其中γe是残余误差。
[0204]
显然,如果神经网络的权值矩阵能够被充分训练并以令人满意的方式近似于理想权值矩阵sa,则可以得到最小化目标函数:
[0205][0206]
结合上述分析,设计的自适应更新定律为:
[0207]
[0208]
其中γs>0是设计的正常数,χ1和χ2是设计的具有适当维度的参数,υs=μs/κs。
[0209]
定义作为估计误差。引用(56)得
[0210][0211]
考虑(51)和(54),我们得到
[0212][0213]
将(58)代入(57)得
[0214][0215]
通过定义方程(59)可以进一步表示为
[0216][0217]
其中
[0218]
这里可以选择合适的参数χ1和χ2,使得ma是正定矩阵。同时基于上述分析,可以得出ma和na的范数都是有界的。然后我们得到
[0219][0220]
其中ω1=λ
min
(ma),
[0221]
下面对上述实施例的稳定性进行验证
[0222]
上述控制器设计过程可以归纳为如下定理1的形式:
[0223]
定理1:考虑包含扰动的无人直升机非线性动力学(1)满足假设1-3,设计时变增益扩张状态观测器为(5),神经网络的权重更新律设计为(56)。采用包含前馈控制器(35)和最优反馈控制器(53)的控制输入(34),闭环系统的所有误差信号最终都是一致有界的,并且代价函数(40)最小。
[0224]
证明:选取lyapunov函数为
[0225][0226]
其中l(ξ)的定义已在假设3中给出。本发明中,选择为
[0227]
调用(38)和(61),并取v
γ
的时间导数,我们得到
[0228][0229]
结合(48)和(53)得到
[0230][0231]
考虑假设3-4并将(64)代入(63),得到
[0232][0233]
其中和
[0234]
在此如果可以选择相应的参数,使得n
nm-e
λ
>0,且
[0235][0236]
则可以得到表示闭环系统的所有误差信号都是有界的。证明完成。
[0237]
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。任何熟悉该技术的人在本发明所揭露的技术范围内的局部修改或替换,都应涵盖在本发明的包含范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1