基于自适应动态规划的运载火箭智能姿态容错控制

2021-07-05 13:46梁小辉胡昌华周志杰王青
航空学报 2021年4期
关键词:执行机构观测器执行器

梁小辉,胡昌华,周志杰,王青

1. 西北工业大学 自动化学院,西安 710129 2.火箭军工程大学 导弹工程学院,西安 710025 3.北京航空航天大学 自动化科学与工程学院,北京 100191

大型运载火箭是开展大规模空间探索与开发的前提,研制新一代运载火箭对于中国未来的太空发展战略意义重大。目前由于大运载技术还不够成熟,发射任务还时有失败,因此,保障大型运载火箭的安全可靠飞行已成为国家迫切需要解决的重大工程问题[1-3]。容错控制技术[4]可利用故障检测信息,通过参数调整、控制重构等手段,保证执行机构、测量器件或其他系统元器件处于故障状态时,闭环系统仍然稳定且维持一定的控制性能,在航天飞控系统设计中得到了广泛的应用[5]。

容错控制一般可分为主动容错和被动容错2种情况[6-7]。针对运载火箭推力下降或伺服机构卡死等有限故障,文献[8]提出了一种基于径向基神经网络的自适应容错姿态控制方法,使用神经网络在线辨识模型的故障参数和不确定干扰,在保证姿态控制系统稳定的同时提高了对故障的自适应能力。文献[9-10]设利用扩张状态观测器来估计可重复使用运载火箭的栅格翼故障和系统不确定性,并结合固定时间收敛的相关理论,消除了观测误差收敛受系统初始值的限制,并在此基础上,设计了一种非奇异快速终端滑模容错控制器,消除了执行器故障的不利影响,保证了姿态跟踪性能。针对结构损伤导致的气动参数变化,文献[11]在线估计了气动参数的变化,利用自适应反步容错控制器来补偿结构损伤导致的气动参数变化,消除了结构损伤对系统静稳定性和控制精度的影响,实现容错飞行控制功能。考虑到系统受外部干扰和未知执行器效率损失的影响,文献[12]提出了一种积分滑模容错控制方法,该方法保证了执行器故障下航天器姿态控制系统的稳定性,并采用自适应方法消除了故障信息边界的限制。进一步考虑执行器饱和问题,文献[13]利用鲁棒控制技术,设计了一种被动容错姿态稳定控制方法,该方法即使在控制输入饱和的情况下也可以保证姿态系统的局部有限时间稳定性。

上述的几种容错控制手段虽然可以有效提高姿态控制系统的鲁棒容错能力,但其大多都缺乏自我学习和参数自主更新的功能,当系统遭遇意外故障时,火箭控制系统的性能会仍然会受到很大影响。与传统的控制方法不同,自适应动规划(Adaptive Dynamic Programming, ADP)是一种利用一个函数近似结构(例如神经网络、模糊模型、多项式等) 来估计代价函数, 用于按时间正向求解动态规划的学习算法,具有在线学习和调整控制器参数的能力[14-16]。文献[17]提出了一种基于执行-评价(Actor-Critic, AC)结构的ADP算法来处理分散跟踪控制问题,并通过AC网络求解了Hamiltonian-Jacobi-Bellman方程。文献[18]基于增量近似动态规划设计了一类非线性系统的无模型控制方案。利用ADP和滑模控制技术,文献[19]解决了高超声速飞行器姿态跟踪控制问题。该算法将实际值与参考信号之间的偏差信息作为AC网络的输入,利用ADP算法产生补偿控制以改善系统性能。虽然容错控制和自适应动态规划都取得了一定的研究成果,但是二者之间的有机结合还有待进一步研究,尤其是在运载火箭姿态控制方面的相关应用。

为了解决运载火箭执行机构故障下的姿态容错控制问题,本文提出了一种基于自适应动态规划的智能容错控制方法。首先,构造了一种自适应故障观测器,有效实现了执行机构未知故障的估计;在此基础上设计了一种自适应滑模容错控制器,保证了故障情况下闭环系统的稳定以及姿态跟踪误差的有限时间收敛;同时,为了提高火箭姿态跟踪的控制精度,利用执行-评价网络结构,设计了一种自适应动态规划补偿控制器,降低执行机构故障带来的消极影响;最后,通过仿真验证证明了所提算法的有效性。

1 建模与问题描述

运载火箭绕质心转动动力学方程可表示为[20]

(1)

式中:τ∈R3为控制力矩;d= [dx,dy,dz]T∈R3为系统的复合干扰项,主要包括弹性模态等引起的未建模动态、外部干扰以及系统不确定性等;J=diag(Jxx,Jyy,Jzz)T∈R3×3为转动惯量;ω=[ωx,ωy,ωz]T∈R3为姿态角速度向量;ω×表示向量ω∈R3扩张成的斜对称矩阵。

定义ξ=[φ,ψ,θ]T∈R3,φ、ψ和θ分别为滚转角、偏航角和俯仰角,姿态角可以表示为

(2)

式中:S(ξ)为坐标转换矩阵。

运载火箭上升段的动力系统主要由4台捆绑助推发动机(A1~A4)和4台芯级发动机(B1~B4)构成,每台发动机推力可达460 t,其摆角执行机构如图1所示布局。其中:Ra和Rb表示火箭中心轴线到捆绑发动机中心和芯级发动机中心的距离,黄色喷管为固定喷管,其他为摆动喷管。发动机A1、A3、B1、B3联合摆动控制偏航运动,发动机A2、A4、B2、B4联合摆动控制俯仰运动,8台发动机综合控制运载火箭滚转运动[21]。根据火箭摆角等效原则,姿态控制三通道(俯仰、偏航、滚转)等效摆角指令为

图1 推力发动机分布Fig.1 Configuration of propulsive engines

(3)

式中:δA和δB分别为捆绑和芯级发动机三通道的摆角值;kA、kB为发动机摆角系数,转换矩阵TA和TB的具体形式为

此时,运载火箭主动段的姿态控制系统三通道的等效摆角值δ=[δx,δy,δz]T可以表示为

δ=δA+δB

(4)

本文主要考虑效率损失和偏差性故障这2种最为常见的摆动执行机故障[21],因此,执行机构故障模型采用矩阵形式可表示为

δf=Eδ+ρ

(5)

式中:E=diag{e1,e2,e3}∈R3×3为执行效率矩阵且效率系数满足0

τf=Gδf

(6)

式中:对角矩阵G∈R3×3为力矩转换矩阵,为三通道的等效控制输入。

注1区别于文献[22],本文将摆动发动机的控制等效到了俯仰、偏航和滚转3个通道,这里考虑的故障影响是一种综合的体现,并不是具体哪个执行机构的故障。ei=0表示等效三通道的某个通道已经完全失去控制,控制系统已经失去了控制作用。

结合式(1)~式(6),运载火箭执行器故障情况下的姿态控制系统可表示为

(7)

(8)

为简化后续的推导表述,式(8)可被改写为

(9)

本文的主要目的是:在式(5)所示的发动机摆动执行机构故障情况下,设计一种基于自适应动态规划的智能容错控制器,以提高运载火箭姿态控制系统的容错能力和抗干扰特性,消除执行机构故障以及外部干扰带来的消极影响,维持姿态系统(7)的稳定,保证指令跟踪误差系统(9)收敛到零。

2 预备知识

引理1[13]对于系统(10),若存在李雅普诺夫函数满足:

∀t≥t0,V(xt0)≥0

则系统收敛时间为

其中:λ1>0,λ2>0和0

引理2[23]若李雅普诺夫函数V(t)为连续正定函数且V(0)有界,满足下述不等式:

式中:c1和c2为正常数;h(t)为有界正函数。则V(t)为有界函数。

引理3[24]径向基神经网络(Radial Basis Function Neural Networks, RBFNN)可以很好的逼近未知连续函数。利用RBFNN,未知连续函数f(Z):Rk→Rp可被改写为

f(Z)=WTf(Z)+ε

因为最优权重W和近似误差ε未知,可得

注2运载火箭的气动面和发动机摆动执行机构的偏转角是在一定范围内连续的变化的。因此,附加的气动力不确定性和扰动也是有界的[20]。此外,对于工程实践来说,执行器故障和外部干扰是有界性假设是合理的。

3 基于ADP的智能容错控制

本文设计智能容错控制器结构如图2所示,绿色部分是稳定控制器,黄色部分是补偿控制器。设计目的是结合2种方法的优势,实现存在故障和各类不确定性下的火箭姿态高精度跟踪控制。传统的稳定控制方法可以保证系统稳定,但是在火箭发射过程中即使保持稳定,但稳定过程耗费的时间太多,仍然会导致发射任务的失败,所以采用ADP优化补偿控制器来改善系统的控制性能,同时也降低稳定控制器设计的难度和复杂度。

图2 基于自适应动态规划的智能容错控制器结构Fig.2 Structure of ADP-based intelligent fault-tolerant controller

3.1 容错稳定控制器

定义辅助变量U(t)=diag{δx(t),δy(t),δz(t)},Σ=[e1,e2,e3]T,此时有

(10)

设计如下所示的故障观测器:

(11)

(12)

式中:

(13)

α1>0,β1>0,γ1>0为常值增益;P为正定对称矩阵;(·)i为向量的第i个元素。

(14)

式中:

(15)

α2>0,β2>0,γ2>0为常值增益。

(16)

(17)

式中:ε为一个较小的正数,常值增益α3>0。此时,可得观测误差系统为

(18)

定理1考虑系统(9),设计故障观测器(11)和自适应更新律(12)~(15),对于给定的Hurwitz矩阵A和正常数ξ,若存在正定对称矩阵P满足:

ATP+PA+2ξP<0

(19)

则观测误差系统(19)是最终一致有界的。

(20)

求导可得

(21)

式中:

根据式(12),YΣ可分为下面3种情况。

(22)

(23)

(24)

同理可得

(25)

将式(22)~式(25)代入(21)可得

(26)

易知下述不等式成立

(27)

(28)

(29)

(30)

将式(27)~(30)代入(26)可得

(31)

选择参数βi,γi,(i=1,2)使得2βi-1>0和2γi-1>0成立,可得

(32)

式中:

Ω=

其中:λmin(·)为矩阵(·)的最大特征值。

同样的根据式(16),分情况讨论。

(34)

根据引理2和假设3可知:李雅普诺夫函数V1(t)是有界的。

(34)

由式(17)可知,π(t)是一个正的单调递增函数,且存T>0,对于∀t>T,满足π(t)≥ζ。因此,函数V1(t)是有界的,且满足:

(35)

根据ATP+PA+2ξP<0可得

V1(T)-V1(t)-

V1(T)-V1(t)+

(36)

通过上述分析可知,

(37)

证毕。

进一步设计自适应滑模容错控制器来保证姿态闭环系统的稳定性。首先,设计如式(38)所示的非奇异快速终端滑模面:

(38)

对滑模面(38)求微分可得

F+GE(t)δ(t)+Gρ(t)+D(t)+

(39)

式中:

Dx1=

(40)

式中:W1和φ1为权重矩阵和径向基函数;ε1为近似误差。

滑模面的可达律为

(41)

注3在容错控制率的设计中采用了RBFNN来处理滑模动态中的不确定性,主要是因为在故障观测器中并不涉及不确定性的观测,如果利用观测器来直接处理会增加观测器设计的复杂度,降低观测误差的收敛时间,不利于算法实现,同样的策略在文献[25]中也有所体现。

定理2考虑系统(9),设计容错控制律

(42)

(43)

对式(43)求导可得

(44)

将自适应容错控制律(42)代入式(44)可得

ϑ1S-ϑ2signa/b(S)+

(45)

式中:

下面将YW1分为以下2种情况进行讨论。

(46)

(47)

(48)

同时,易得下述不等式成立,

(49)

(50)

将不等式(46)~式(50)代入式(45)可得

(51)

(52)

(53)

(54)

因此可知,自适应控制律(42)可使得闭环系统稳定,且滑模动态(40)在有限时间内收敛到原点的邻域内。

证毕。

3.2 优化补偿控制器

为了进一步改善运载火箭姿态系统的跟踪性能,本节主要利用自适应动态规划算法,设计了一种执行-评价网络结构的优化补偿控制器。

定义系统的效用函数为[26]

r(x(t),u(t))=[xT(t),uT(t)]Kr[xT(t),uT(t)]T

(55)

式中:u(k)=δ(k)为ADP算法的输出;Kr为正定对称矩阵。

然后,评价函数定义为[27]

(56)

式中:收敛系数ε∈(0,1)。

ADP的主要目的是找到一个控制输入u(k)使得上述的评价函数J(x(t),u(t))最小,所以最优评价函数J*(x(t),u(t))可表示为

(57)

根据最优控制理论,可得下述Bellman方程:

εJ*(x(t+Δt),u(t+Δt))}

(58)

ainput=x(t),aoutput=u(t)

(59)

评价网络的输入cinput和输出coutput可表示为

(60)

(61)

(62)

对于执行网络的第p个输出节点,其输出up(t)为

(63)

(64)

(65)

(66)

根据梯度下降算法,执行-评价网络权重的更新规则为

(67)

(68)

(69)

(70)

其中:λa>0和λc>0为学习效率。至此,基于自适应动态规划的优化补偿控制方案设计完成。ADP补偿控制部分网络权重更新主要利用的梯度下降的方法实现,由于篇幅所限,这里就不做具体推导,详细的证明过程可以参考我们之前的工作[28]。

4 仿真验证

(71)

为了说明所设计的基于ADP的智能容错控制的有效性,分别对“滑模容错”和“ADP+滑模容错”2种控制方法进行数值仿真,仿真结果如图4~图12所示。同时,为了说明本文所提方法的优越性,论文结果与文献[20]进行对比仿真,由图可知上述的几种容错控制设计方法都可保证执行机构故障下姿态控制系统的稳定,并完成火箭上升段姿态指令跟踪任务,但是不难发现,本文所提的基于自适应动态规划的智能容错控制方法具有更强的容错能力,当运载火箭姿态系统遭遇外部干扰和执行机构故障的不利影响时,能够更好的维持姿态系统的跟踪性能。

图4为偏航通道执行器部发生分效率损失故障的估计曲线,图5为俯仰通道执行器偏置故障的估计曲线,由图可知:所设计的故障观测器可以有效实现故障信息的估计。图6~图8为火箭姿态系统的姿态角指令跟踪曲线,图9为姿态跟踪误差响应曲线。观察图6~图8可知,姿态角在12 s内即可跟踪上指令信号,跟踪误差不超过0.1°。当仿真进行到20 s时,系统遭遇执行机构故障,姿态跟踪特性明显被影响,系统出现明显的跟踪误差,如图9所示。3种容错控制方法都可以消除故障的持续影响,其中本文多提“ADP+滑模控制”的方法处理故障的速度更快,在10 s就能消除跟踪误差。相比较而言,紧靠“滑模控制”方法虽然最终也实现了姿态指令的跟踪,但是没有ADP的补偿控制明细响应速度下降。

图4 执行器效率损失故障观测值Fig.4 Estimation of LOE fault for actuators

图5 执行器偏置性故障观测值Fig.5 Estimation of bais fault for actuators

图6 滚转角跟踪曲线Fig.6 Tracking curves of the roll angle

图10为姿态角速率的时间响应曲线,等效三通道控制输入响应曲线如图11所示,效用函数的响应曲线如12所示。观察图10可知,在整个仿真过程中,姿态角速率都能快速收敛,但是本文所采用的“ADP+滑模控制”的方法明细收敛速度和振荡幅值、频率都低于其他2种方法。从图12明显可以看出:通过提出的权重更新算法,当执行器在20 s发生故障时,效用函数将迅速收敛到零,这意味着姿态跟踪误差将减小到零,即所提方法可以快速消除执行器故障对姿态跟踪性能的影响。

图7 偏航角跟踪曲线Fig.7 Tracking curves of the yaw angle

图8 俯仰角跟踪曲线Fig.8 Tracking curves of pitch angle

图9 姿态角跟踪误差曲线Fig.9 Tracking erros of attitude angle

图10 姿态角速率响应曲线Fig.10 Responses of attitude velocity

图11 控制输入Fig.11 Control input

5 结 论

本文针对主动上升段存在发动机摆动执行机构故障的运载火箭姿态控制问题,提出了一种基于自适应动态规划的智能姿态容错控制方法。主要结论包括:

1) 利用自适应控制技术,可设计出一种基于非线性观测器的故障检测估计方法,成功实现对执行机构效率损失和偏置性故障的估计。

2) 在上述故障观测器基础上,结合非奇异终端滑模技术和故障估计信息,可构建了一种滑模自适应容错控制器,保证了姿态闭环系统的稳定性。

3) 为进一步减小系统跟踪误差,利用强化学习的执行-评价结构,设计出一种自适应动态规划补偿控制算法,可以依据系统跟踪误差对系统进行优化补偿,在确保姿态系统跟踪精度,提高姿态跟踪的收敛速度。

猜你喜欢
执行机构观测器执行器
形状记忆合金执行器研究综述
优化反馈补偿闭环定子磁链观测器
自动驾驶汽车执行器故障冗余算法
含干扰项的非线性广义系统执行器故障估计*
基于观测器的非脆弱控制研究及其在混沌系统中的应用*
一种软体末端执行结构设计与试验分析
执行器中磁滞非线性问题的建模和补偿
基于滑模观测器的无传感器PMSM仿真
三门核电汽轮机旁排阀特点及比较分析