本发明属于火箭弹姿态控制,涉及一种基于强化学习的火箭弹姿态自适应控制方法与系统。
背景技术:
1、火箭弹的制导化、精确化成为远程精确打击的研究热点。但是,在火箭弹飞行过程中,弹体质量、速度以及气动系数不断发生变化,导致弹体参数快速变化,弹体动态特性高度非线性,并含有不确定因素;并且各飞行参数互相耦合,且随时间变化剧烈,是多变量强耦合的时变系统,使得火箭弹姿态难以自适应控制。
技术实现思路
1、本发明的目的在于克服上述现有技术的缺点,提供一种基于强化学习的火箭弹姿态自适应控制方法与系统,以解决现有技术中火箭弹姿态难以自适应控制的技术问题。
2、为达到上述目的,本发明采用以下技术方案予以实现:
3、一种基于强化学习的火箭弹姿态自适应控制方法,包括以下步骤:
4、s1,建立火箭弹姿态运动学模型和动力学模型,将运动学模型和动力学模型均转变为反步法的非线性模型,所述非线性模型中包括第一阶子系统和第二阶子系统,所述非线性模型中包含未知干扰和控制输入;
5、s2,构建第一阶子系统的虚拟控制律和第二阶子系统的跟踪误差导数,所述跟踪误差中设置有未知扰动;
6、s3,通过执行神经网络对未知扰动进行拟合,获得强化学习的自适应控制器,通过评价神经网络评价执行神经网络的结果,所述评价神经网络通过罚函数近似评价;所述自适应控制器通过李雅普诺夫证明稳定性;
7、所述执行神经网络和评价神经网络均通过梯度下降法获得更新率,所述执行神经网络的更新目标为效益误差最小,所述评价神经网络的更新目标为残差的均方差最小;
8、s4,所述自适应控制器火箭弹输出控制信号,所述控制信号用于控制偏航角和俯仰角,实现火箭弹姿态自适应。
9、本发明的进一步改进在于:
10、优选的,s1中,所述第一阶子系统和第二阶子系统分别为:
11、
12、其中,f1(x1)=(0 0)t,f2(x1,x2)、g1(x1)、g2(x1,x2)分别为非线性矩阵,u为控制信号,d为未知干扰,x1=(ψ θ),ψ、θ分别表示火箭弹的偏航角和俯仰角,x2=(ωy4 ωz4),ωy4,ωz4为弹体坐标系中火箭弹绕弹体角速度。
13、优选的,s3中,所述第一节子系统的虚拟控制为:
14、x2c=g1(x1)-1(-k1e1-f1(x1)+x1d),k1>0 (13)
15、其中,x2c为期望值,g1(x1)为非线性矩阵的简记,e1为火箭弹偏航和俯仰角的跟踪误差,x1d表示火箭弹偏航和俯仰角的跟踪期望值。
16、优选的,s2中,所述第二阶子系统的跟踪误差导数为:
17、
18、其中,为状态变量的导数,为虚拟控制量的导数,d为未知干扰,为未知干扰的估计值。
19、优选的,s3中,所述执行神经网络对未知扰动进行拟合为:
20、
21、其中,
22、优选的,s3中,所述执行神经网络的更新率为:
23、
24、其中,γ为神经网络的学习率,ω为增益系数。
25、优选的,s3中,所述对罚函数近似为:
26、
27、其中,基函数是有界的,满足||φc||≤φcm。
28、优选的,评价神经网络的更新率为:
29、
30、其中,
31、优选的,s2中,所述火箭弹控制的控制律为:
32、
33、其中,g2-1(g1e1)项是对角度跟踪误差e1的补偿。
34、一种基于强化学习的火箭弹姿态自适应控制系统,包括:
35、非线性模块,用于建立火箭弹姿态运动学模型和动力学模型,将运动学模型和动力学模型均转变为反步法的非线性模型,所述非线性模型中包括第一阶子系统和第二阶子系统,所述非线性模型中包含未知干扰和控制输入;
36、子系统模块,用于构建第一阶子系统的虚拟控制律和第二阶子系统的跟踪误差导数,所述跟踪误差中设置有未知扰动;
37、扰动拟合模块,用于通过执行神经网络对未知扰动进行拟合,获得强化学习的自适应控制器,通过评价神经网络评价执行神经网络的结果,所述评价神经网络通过罚函数近似评价;所述自适应控制器通过李雅普诺夫证明稳定性;
38、所述执行神经网络和评价神经网络均通过梯度下降法获得更新率,所述执行神经网络的更新目标为效益误差最小,所述评价神经网络的更新目标为残差的均方差最小;
39、控制模块,用于通过所述自适应控制器火箭弹输出控制信号,所述控制信号用于控制偏航角和俯仰角,实现火箭弹姿态自适应。
40、与现有技术相比,本发明具有以下有益效果:
41、本发明涉及一种基于强化学习的火箭弹姿态自适应控制算法,属于火箭弹姿态控制研究领域,基于强化学习的actor-critic(ac)结构,由动作网络和评价网络构成。其中,评价网络是根据火箭弹的状态输出对于弹体状态的评价值,动作网络是根据评价网络输出的评价值产生对应的升降舵偏角,从而实现在不依赖火箭弹内部模型的情况下对火箭弹的姿态进行稳定控制。本方法能够实现基于强化学习对时变干扰的拟合估计,并对系统状态进行控制,系统状态能够迅速收敛到期望状态。本发明通过强化学习actor-critic结构,在不依赖内部模型的情况下对未知非线性观测,实现了火箭弹姿态的跟踪控制。
1.一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,s1中,所述第一阶子系统和第二阶子系统分别为:
3.根据权利要求1所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,s3中,所述第一节子系统的虚拟控制为:
4.根据权利要求1所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,s2中,所述第二阶子系统的跟踪误差导数为:
5.根据权利要求1所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,s3中,所述执行神经网络对未知扰动进行拟合为:
6.根据权利要求3所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,s3中,所述执行神经网络的更新率为:
7.根据权利要求1所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,s3中,所述对罚函数近似为:
8.根据权利要求7所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,评价神经网络的更新率为:
9.根据权利要求1所述的一种基于强化学习的火箭弹姿态自适应控制方法,其特征在于,s2中,所述火箭弹控制的控制律为:
10.一种基于强化学习的火箭弹姿态自适应控制系统,其特征在于,包括: