本发明涉及一种扰动抑制控制方法,特别是一种能够在线估计模型参数和扰动作用力的自适应扰动前馈补偿控制方法,具体的说是一种利用观测器估计的系统参数,建立动力学模型进而利用基于模型的自适应动态规划算法实现动态系统的扰动前馈补偿控制方法。
背景技术:
自适应动态规划方法在自适应控制领域得到越来越广泛的关注,并广泛应用于自动化作业系统和工业过程控制系统中。自适应动态规划方法的优势在于:表征控制性能的损失函数的值可以通过跟踪记录控制过程中系统状态轨迹并结合贝尔曼方程或hjb方程得到准确预测。进而得到最小化损失函数的最优控制策略的解析解。由于自适应动态规划方法对于损失函数的形式没有严格限制,并且不依赖于系统动力学模型,因此被广泛应用于解决各类复杂的控制任务中。例如鲁棒控制和无模型控制。然而,对于系统模型参数持续变化的情况,经典的动态规划方法无法给出精确的性能预测,导致策略的学习陷入局部极小点。因此不确定系统的自适应动态规划控制一直以来面临巨大挑战。例如dipak等设计了一种包含控制输出约束和不确定性上界的控制器,ding等发现不确定性的上界的权重大于r矩阵的最大特征值可以保证系统的有界稳定性。jiang等将一个小增益加入到控制策略中并证明了其鲁棒最优性。这些方法运用自适应动态规划方法解决了鲁棒控制问题,保证了在扰动存在的前提下系统的鲁棒性。但是在扰动上界以及系统动力学参数难以确定的情况下,仍然面临收敛慢和难以保证自适应过程中的稳定性的问题。相比于策略搜索方法,直接计算最优策略的解析解是一种相对高效的方式,然而这种方法在系统模型完全未知的情况下难以实现。
扰动和系统不确定性抑制是一种行之有效的提升控制系统鲁棒性的方法。其特点是使用观测器对特定系统的扰动作用和不确定性进行在线估计。使用扰动前馈策略可以抑制或消除扰动作用对系统的影响。相似的机制也可以用于抵消系统中的不确定性作用,进而提升系统的鲁棒性。然而观测器的设计一般依赖于系统的动力学模型,建模精度在一定程度上影响扰动作用的估计精度。为了降低观测器对于系统动力学模型的依赖程度,han等人提出了状态扩展观测器,该方法仅需考虑模型的相对阶,最小化了观测器对于模型的依赖程度。johnson等提出了未知输入观测器,同时估计系统状态和系统扰动。其本质是在eso的基础上引入了扰动作用的动力学模型,并使用两个状态观测器分别对系统动力学模型和扰动作用动力学模型进行状态估计。ohnishi等人将该滤波器应用于估计机械系统的负载扭矩,提升了系统速度控制和扭矩控制的性能。
本发明使用自适应动态规划方法解决基于扰动观测器的非匹配扰动抑制问题。首先对扰动观测器进行改进,提出一种可以在线估计系统输入动力学参数和外界扰动作用的观测器。相比于单纯估计扰动作用的观测器,使用该观测器有助于直接获得最优策略的解析解,消除了在线估计策略的必要性。通过将传统扰动补偿控制器作为最优控制器反推出对应的效能函数,我们发现该效能函数不能很好地表征扰动作用对系统的影响。为此我们修改了该效能函数并使用自适应动态规划方法重新得到了抑制非匹配扰动作用的最优控制器。打破了以往只能在系统输出端实现扰动解耦的限制。此外我们使用神经网络预测损失函数关于系统状态的梯度,该神经网络的权值参数是在保证系统稳定性的前提下,最小化汉密尔顿方程的准侧进行优化的。由于预测的是损失函数的梯度,因此该网络的输出可以直接用于计算汉密尔顿方程和最优反馈控制律。仿真实验结果显示,所提出的方法策略收敛速度更快,并且可以抑制系统每个维度状态的扰动。相比于从系统输出端解耦扰动作用的方法,该方法将扰动作用在系统状态轨迹上造成的摄动降低了12%。相比于鲁棒自适应动态规划方法,本发明所提出的系统将控制性能提升了50%。
技术实现要素:
针对上述现有技术,本发明要解决的技术问题是在于基于自适应动态规划方法提出一种基于观测器的扰动抑制控制方法,最小化非匹配扰动作用对系统状态的影响,即自适应最优扰动抑制控制方法。
为解决上述技术问题,本发明一种扰动抑制控制方法,包括扰动观测器、估值网络、最优控制器、估值网络参数优化器和汉密尔顿函数计算单元;
设当前时刻为i,记n维矢量xi由i时刻系统所有可观测的状态变量组成,将i-1时刻控制器输出ui-1和系统状态变量xi作为扰动观测器的输入,扰动观测器输出扰动和不确定性w(t)的估计值
本发明还包括:
扰动观测器的动力学方程为:
其中:
本发明的有益效果:本发明的特色是将扰动观测器与自适应动态规划方法相结合,在无需对系统状态进行微分的前提下估计扰动和不确定性作用。结合参数估计方法建立动力学模型,并基于该模型在保证系统状态渐进稳定的前提下学习最优反馈控制律。最优前馈控制律利用扰动作用的在线估计值实现扰动抑制,减弱扰动和不确定性作用对控制系统的影响。
本发明的优点在于克服了只能在系统输出端解耦扰动作用的限制,放宽对研究对象的限制条件。实现了针对非匹配扰动的最优抑制作用。同时基于观测器针对扰动和系统输入动力学模型参数进行在线估计,在系统动力学模型未知的条件下实现基于模型的自适应最优控制,所估计的参数收敛过程耗时短,同时保证了自适应过程中系统的渐进稳定性。
本发明所设计的控制器由扰动观测器,扰动前馈补偿控制器,估值网络和状态反馈控制四部分组成。与现有方法独立设计前馈控制器和反馈控制器不同,控制系统在前馈补偿控制器和状态反馈控制器的共同作用下最小化非匹配扰动作用对于系统状态的影响,克服了原有方法仅能从系统输出端进行扰动解耦的难题,在扰动作用下实现最优的系统动态响应性能和稳态抗扰性能。
本发明控制系统中的扰动观测器针对扰动作用、系统动力学模型的输入矩阵参数和系统状态进行在线估计,观测器以线性回归的方式建立扰动作用的动力学模型,因此避免计算系统状态关于时间导数,其中系统输入矩阵是实现扰动前馈补偿和最优反馈控制所必需的系统参数,因此该控制方法在系统模型未知的情况下实现最优扰动补偿控制,又能够基于在线估计的系统动力学模型由实时调整估值网络的在线更新过程,保证系统稳定性。具有自适应速度快;对模型参数摄动不敏感的特点。
本发明控制系统中的估值网络预测损失函数关于系统状态的梯度,基于凸优化理论对网络权值的优化过程施加了系统渐进稳定的约束。表现为学习算法采用合理的步长实现策略搜索,在估值网络对损失函数的分布实现准确预测之前维持系统的稳定性,避免了在策略搜索过程中由于采用了不当的控制策略对硬件系统造成损坏。
附图说明
图1为本发明控制系统结构框图。
图2为本发明估值网络迭代学习算法的算法流程图。
图3为观测器针对系统参数的在线估计的仿真曲线。
图4为自适应最优扰动抑制控制方法的控制作用下,训练阶段和测试阶段系统状态变化轨迹的对比图,左图为训练阶段,右图为测试阶段;
图5为自适应最优扰动抑制控制方法在训练阶段和测试阶段控制器的控制指令随时间变化的曲线对比图,左图为训练阶段,右图为测试阶段。
图6为不同控制方法作用下系统的状态轨迹对比图。
图7为估值网络网络参数在训练阶段的变化曲线。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
本发明所述方法的控制对象的动力学模型参数是部分已知的:
其中:
a——系统状态转移矩阵的已知部分。
b——未知的系统输入传递矩阵。
x——完全可观测的n维系统状态矢量。
u——系统输入信号。
w(t)——扰动及模型不确定性作用。
λ——w(t)的状态转移矩阵
这里假设w(t)各参量为相互独立的时变过程,λ为对角矩阵。
1.扰动观测器
扰动观测器以测量的系统状态x和控制输入u作为输入,将估计得到的系统输入动力学参数
其中:
l1-4——人为设置的参数估计动力学模型参数。
考虑如下李雅普诺夫函数v(t)
上述观测器的稳定性可通过证明
其中:
容易证明系统(4)是完全可观测的,故设计估计误差观测器如下:
其中po为黎卡提方程
基于(1)、(2)和(5)构成的系统,其中可测得状态变量
2.最优控制器
最优控制器的输入包括估值网络和扰动观测器的估计结果。本发明所述的控制方法的控制目标为最小化以下损失函数:
j(x,u,w)=∫xtqx+(bu+w)tr(bu+w)dt(6)
其中:
q∈rd×d——正定实对称状态二次型权值矩阵
r∈rd×d——正定实对称扰动和控制输入作用混合二次型权重矩阵
对于控制系统(1),损失函数关于系统状态的梯度满足如下汉密尔顿-雅克比-贝尔曼方程:
定义汉密尔顿函数
最优的控制律满足:
解得:
其中
3.估值网络
使用解析法求解满足方程(7)的函数
其中:
σ(·)——非线性输出激活函数
网络的输出分别传递给汉密尔顿函数(8)和最优控制器(10)。
4.估值网络参数优化器
估值网络参数优化器获取系统输入动力学参数
其中xi,ui,wi分别代表第i时刻采样得到的系统状态,控制输入和扰动作用观测值。
将(13)写成递推的形式:
将(14)代入计算得到最优的乘子为:
其中
确定不等式约束条件是否能够被满足。当
本发明所述的非匹配扰动抑制控制方法的计算流程如下:设当前时刻为i,记n维矢量xi由i时刻系统所有可观测的状态变量组成。将i-1时刻控制器输出ui-1和系统状态变量xi作为扰动观测器的输入,观测器输出扰动和不确定性w(t)的估计值
实施例:针对如下非线性系统实现自适应扰动抑制控制:
图1中基于扰动观测器的自适应扰动抑制控制系统的实现单元包括:1.汉密尔顿函数计算单元,2.估值网络参数优化器;3.被控对象;4.估值网络;5.扰动观测器;6.最优控制器。系统状态(102)包含(17)中所述系统的状态变量x1和x2。系统控制输入信号(101)对应于(17)中所述系统输入u。(101)和(102)同时输入到扰动观测器中,扰动观测器输出扰动作用估计值和系统输入动力学参数(103),该动力学参数用于计算更新最优控制器前馈和反馈分量的增益。此外,系统状态(102)输入给估值网络预测损失函数的梯度
图2描述了由图1框图中1,2,3,6四个单元构成的递归学习算法的计算流程图。步骤1中设置的参数n为最大迭代次数,c<0为松弛变量,代表系统稳定性裕量。该算法的输入包括图1中(101),(104)和(106)三路信号,在步骤2中进行实时更新。步骤三利用步骤二中采集到的数据计算汉密尔顿函数(8)和李雅普诺夫函数(16)。当李雅普诺夫函数不满足约束条件,即系统不满足给定的稳定裕量时,使用(15)计算乘子αi。否则设αi=0。结合乘子和汉密尔顿函数值在步骤4中更新网络权值参数并在步骤5中更新损失函数梯度预测值。步骤6中更新控制器输出。最后将计数器增加一并返回步骤2开始新一轮迭代。
将初始的状态向量设置为x1=1,x2=-0.5,并将损失函数(6)的参数设置为q=i3,r=0.3i3。启动系统,使用本发明提出的控制系统对(17)施加控制,该阶段为训练阶段。控制系统运行10秒后重置(17)的状态变量,保持控制器和观测器的参数不变,重启系统,进入测试阶段,运行10秒后结束。从图3中从左至右分别对应观测器输出的系统状态轨迹,扰动和不确定性估计值和系统输入动力学参数估计值变化曲线。证明了观测器的有界稳定性。其中系统输入动力学参数估计值最终收敛到b1=1,b2=0。与系统状态收敛到0后的系统输入动力学参数相一致。仿真结果包括系统状态轨迹估计;系统扰动和不确定性作用的二维估计值和模型输入动力学参数得二维估计值。系统状态估计参数的初始值为[0,0]t。所估计的状态轨迹起始于状态空间的原点并最终收敛回原点。在系统状态收敛至状态空间原点时,系统输入动力学参数收敛至[1,0]t,该仿真结果与基于(17)模型的结果一致。
图4代表训练阶段系统的状态轨迹和控制输出指令,图5代表测试阶段系统的状态轨迹和控制输出指令。仿真结果包含前馈控制指令和反馈控制指令,测试阶段控制系统的控制性能有显著提升。反馈控制器的响应明显不同,而前馈控制器对扰动作用的响应则没有显著变化。保持系统初始状态不变,分别使用无模型鲁棒行动者-评论家算法、鲁棒自适应动态规划方法以及本专利所提出的控制方法对(17)所描述的控制系统施加控制作用,对比控制性能。与本专利所述方法不同,无模型行动者-评论家算法和鲁棒自适应动态规划方法的估值网络直接预测损失函数的值,其网络的具体结构为:
图6仿真结果对比了无模型鲁棒自适应控制方法,基于参数估计的鲁棒自适应动态规划控制方法和本专利提出的方法作用下系统状态随时间变化曲线。对比了三种不同控制系统作用下系统状态变量x1,x2随时间变化曲线随时间变化曲线,为了定量表征在[0,t]时间范围内控制系统的性能,这里采用状态变量的二次型关于时间的积分即:
三种控制方法作用下对应的测量结果分别为2.1887,3.0877,0.8755。相较于对照方法,本专利所提出的方法将控制性能提升了50%以上。系统调节时间和调节过程的超调量都有显著降低。
图7为估值网络网络参数在训练阶段的变化曲线。仿真结果对比了无模型鲁棒自适应控制方法,基于参数估计的鲁棒自适应动态规划控制方法和本专利提出的方法的估值网络参数随时间变化曲线。
本发明控制方法主要由扰动观测器和基于动态规划方法的最优抗扰控制器组成。系统结构如图所示。其中观测器用于估计扰动作用力和系统输入端的动力学参数。最优抗扰控制器利用控制过程中采集到的系统状态轨迹和观测到的动力学参数规划出控制策略,使系统具有最优的动态控制性能和稳态抗扰性能。其核心思想是:在经典的最优控制器损失函数中考虑扰动作用,计算包含扰动前馈控制和状态反馈控制两部分的最优控制器的解析表达式。其中前馈控制律由系统输入动力学参数和扰动作用共同决定;反馈控制律由系统输入动力学参数和损失预测值的梯度共同决定。系统输入动力学参数和扰动作用由所设计的观测器提供,算法通过优化汉密尔顿方程的神经网络估计得出。因此与基于观测器的扰动补偿控制相比具有更好的自适应能力,在扰动和系统控制输入维数不匹配的情况下最小化全局状态摄动。适用于未知系统参数并对稳定性要求较高的应用场合。