一种基于强化学习的航天器姿态预设定时间协同控制方法

文档序号:36398908发布日期:2023-12-16 00:42阅读:86来源:国知局
一种基于强化学习的航天器姿态预设定时间协同控制方法

本发明属于航天器控制,尤其涉及一种基于强化学习的航天器姿态预设定时间协同控制方法。


背景技术:

1、航天器编队系统能够突破单颗航天器在物理结构上的约束,提高信息获取和分辨的能力。有效的航天器姿态协同控制是保证诸如在轨服务、地球监测和空间救援等航天器编队飞行任务成败的关键,因而获得了广泛的关注。

2、快速机动和高精度稳定的协同能力是航天器编队系统完成诸如高精度观测和测量等复杂任务的前提和保障,主要的协同控制方式分为:有限时间协同控制、固定时间协同控制和预设性能控制。有限时间协同控制虽然具有收敛速度快、控制精度高和鲁棒性强的优势,但是收敛时间的上界与系统的初始状态有关,限制了其在工程中的应用。固定时间协同控制使得收敛时间的上界摆脱了对初值的依赖。但是与有限时间协同控制一样,系统的收敛时间和稳态阈值只能采取事后估计的方式获得。预设性能协同控制能够定量化设计系统瞬态和稳态性能。

3、常见的航天器编队协同控制策略仅考虑如何改善系统的控制性能(如收敛速度、瞬态性能、稳态性能等),忽略了协同控制过程中的能耗问题。而实际航天器所携带的能源都是有限且宝贵的,上述协同算法在改进编队系统性能的同时,势必会增加能量的消耗。


技术实现思路

1、发明目的:本发明提供了一种基于强化学习的航天器姿态预设定时间协同控制方法,可以保证航天器编队系统在满足预设定收敛时间、瞬态和稳态性能的同时,兼顾能量消耗问题。

2、技术方案:本发明提供一种基于强化学习的航天器姿态预设定时间协同控制方法,包括以下步骤:

3、(1)多航天器姿态协同控制问题的数学描述:根据航天器的动力学特性,建立单航天器姿态动力学模型;采用图论描述成员航天器与领航者以及成员航天器与其邻居航天器之间的通信拓扑关系;

4、(2)预设定时间分布式观测器设计:构造预设定时间分布式观测器,保证跟随者在预设定时间内获得领航者状态的观测信息;

5、(3)预设定时间性能函数设计及系统等价转换:根据各成员航天器对领航者的姿态估计值定义姿态协同跟踪误差估计值;确定预设定时间性能函数定量刻画协同跟踪误差的收敛时间、瞬态性能及稳态性能约束;基于障碍函数的误差变换将受预设性能约束的协同跟踪误差系统转换为无约束系统:

6、(4)分布式最优姿态协同控制律设计:针对无约束的状态方程,确定性能指标函数及其相应的哈密顿-雅克比-贝尔曼方程,通过对哈密顿-雅克比-贝尔曼求解关于最优控制的偏导得到最优控制输入关于最优函数的表现形式;

7、(5)采用强化学习方法在评价网络框架下设计近似最优控制器。

8、进一步地,步骤(1)所述单航天器姿态动力学模型表达为:

9、

10、

11、其中,σi表示航天器i相对于惯性系姿态的修正罗德里格参数,ωi表示航天器i的角速度,为其反对称矩阵,ji表示第i个航天器的转动惯量,τi表示第i个航天器的控制力矩,矩阵g(σi)的表达式为:

12、

13、进一步地,步骤(1)所述采用图论描述成员航天器与领航者以及成员航天器与其邻居航天器之间的通信拓扑关系实现过程如下:

14、航天器编队成员间的通信拓扑结构为无向图,记为其中n={n1,…,nn}表示成员航天器集合,是边的集合,(ni,nj)表示航天器j与航天器i之间可以直接进行信息交互;a=[aij]为无向图的加权邻接矩阵,若(ni,nj)∈e,则邻接矩阵元素aij>0,否则aij=0;主从架构的多航天器系统假定存在一个虚拟领航者,设置其编号为0,其状态设置为给定的期望轨迹,若航天器i与领航者之间有直接的通信连接,则ai0>0,否则ai0=0。

15、进一步地,所述步骤(2)实现过程如下:

16、对于航天器i,根据其与其邻居航天器对领航者的姿态和速度估计值,设计预设定时间分布式观测器为:

17、

18、

19、其中,α0,α1,α2,α3>0为分布式观测器的设计参数,pi和表示第i个航天器对领航者姿态σ0和速度的估计,ku为常值,θ(t,tf1,ε1)=1/(ε1+θ0(t,tf1)),tf1>0为设计者指定的分布式观测器的过渡时间,ε0,ε1>0为设计参数,用来表示观测器的估计误差,且:

20、

21、进一步地,步骤(3)所述的姿态协同跟踪误差的估计值为:

22、

23、其中,为pi的反对称矩阵。

24、进一步地,步骤(3)所述的预设定时间性能函数为:

25、

26、其中,tf和ηijs表示指定的收敛时间上界和稳态值,设计参数aijk,k=2,3,4由下式确定:

27、

28、所述协同跟踪误差所需满足的性能约束表示为:

29、

30、其中,是用来刻画预设定跟踪误差性能函数上、下边界的设计参数,是的分量。

31、进一步地,步骤(3)所述基于障碍函数的误差变换表示为:

32、

33、其中,εij为转换后的协同跟踪误差,是用来避免控制输入过大的设计参数;

34、定义所述转换后的无约束系统表示为:

35、

36、其中,

37、进一步地,步骤(4)所述性能指标函数为:

38、

39、其中,为设计的效用函数,qi为所设计的正定矩阵,用来表示协同跟踪误差在效用函数中所占的比重,ψi(τi)是用来约束控制输入的正定被积函数:

40、

41、其中,λi>0为系统的控制输入上限,满足||τi||<λi,为设计的正定矩阵,用来表示控制输入在效用函数中所占的比重。

42、进一步地,步骤(4)所述哈密顿-雅克比-贝尔曼方程为:

43、

44、其中,为最优的控制输入,为最优的代价函数,为vi*相对于si的偏导数;

45、对哈密顿-雅克比-贝尔曼方程求关于的偏导数,得到最优控制输入的表达形式为:

46、

47、进一步地,所述步骤(5)实现过程如下:

48、基于神经网络对非线性函数的逼近能力,构建评价网络在线估计最优性能指标函数和基于所述在线逼近最优性能指标函数获得实际的最优姿态协同控制策略;所述最优性能指标函数和最优姿态协同控制策略表达式如下:

49、

50、

51、其中,wi表示理想的评价网络权重矩阵;表示基函数向量,表示近似误差;定义为理想权重矩阵wi的估计,则最优的性能指标函数和姿态协同控制策略近似为:

52、

53、

54、其中,的更新律设计为如下形式:

55、

56、其中,βi为设计的学习律,

57、有益效果:与现有技术相比,本发明的有益效果:本发明设计的预设定分布式观测器可以保证所有成员航天器在预设定时间内获得虚拟领航者的状态估计信息;本发明引入了一种基于障碍函数的误差转换技术将性能受限的协同最优控制问题等价转化为一个传统的无约束最优镇定问题,并在评价网络框架下得到近似最优控制器,不但保证了协同跟踪误差满足预设定的性能约束,而且使其控制性能达到最优。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1