基于递归神经网络的再入飞行器最优姿态控制

2021-04-08 07:44吉月辉周海亮车适行

控制理论与应用 2021年3期

吉月辉 ,周海亮 ,车适行 ,高强

(1.天津理工大学电气电子工程学院天津市复杂系统控制理论及应用重点实验室,天津 300384;2.天津市计量监督检测科学研究院,天津 300192)

1 引言

在航天任务中,姿态控制是再入飞行器控制系统的重要环节之一,实现精确的姿态控制可以提供足够的气动力,保证再入飞行器能够稳定地跟踪制导参考指令.再入飞行器飞行速度快,在飞行过程中易受到风扰、大气密度和地球引力变化的影响.由于气动参数受高度和速度变化的影响,再入飞行器的气动参数是时变的.因此,再入飞行器的旋转运动方程具有强非线性、耦合性和不确定性等特点[1].

已有多种控制方法用于再入飞行器的姿态控制器设计：反馈线性化[2]、滑模控制[3-4]、自抗扰控制[5-6]、反步法等.反步法通过对再入飞行器进行递推系统化和结构化设计,获得良好的全局或局部稳定性.针对存在输入约束、模型不确定性和外界干扰的可重复使用运载火箭,基于自适应滤波反步法,提出再入段姿态跟踪策略[7].针对升力体再入飞行器发生执行机构故障情况,基于反步法设计姿态容错控制律,无需飞行器转动惯量信息,同时有效抑制外界干扰[8].但上述研究均未考虑系统的最优控制性能.近年来,最优控制设计的研究成果斐然,对再入飞行器的姿态跟踪而言,最优控制可优化姿态跟踪精度、控制力矩等性能指标,已成为现代控制的研究热点之一.传统非线性最优系统的设计需要推导Hamilton-Jacobi-Isaacs(HJI)方程的解,但解析推导HJI方程较困难.为此,采用自适应动态规划技术,逼近HJI方程的最优解[9-11].

针对再入飞行器的不确定问题,神经网络(neural networks,NNs)、模糊逻辑系统(fuzzy logic systems,FLS)因其对非线性函数的近似特性,用于逼近难以精确建模的复杂非线性系统.综合反步法和神经网络,实现气动特性不确定性、外部干扰和执行器饱和情况下高超声速再入飞行器的姿态跟踪控制问题.借助径向基函数神经网络(radical basis function neural networks,RBFNN)的通用逼近能力,设计自适应扰动观测器在线估计外部扰动[12].针对具有气动-伺服弹性和扰动的可重复使用运载火箭,采用模糊逻辑系统设计扰动观测器,结合自适应滑模技术,设计姿态跟踪控制器[13].与传统的函数逼近器相比,递归神经网络(recurrent neural networks,RNNs)具有优越性能,包括动态性能和存储信息的能力.在递归神经元中引入内部反馈回路,无需外部延迟反馈就可捕获动态信息.通过自身操作可处理时变输入或时变输出.因此,RNNs是性能良好的动态映射,可采用较少神经元以高精度逼近非线性函数.

为此,针对再入飞行器,实现基于RNNs的自适应最优姿态控制,由前馈控制和反馈控制两部分组成.本文的创新点在于：1)基于RNN和反步法,设计前馈控制器,将再入飞行器的姿态跟踪问题转化为姿态角跟踪误差/角速率跟踪误差系统的最优反馈控制问题.其中,RNNs估计再入飞行器中的未知扰动和非线性函数;2)基于自适应动态规划,设计最优反馈控制器,保证姿态角可有界地跟踪制导参考信号,闭环系统所有信号是有界的,同时保证代价函数最小化.

本文章节安排如下：第2部分阐述了高超声速再入飞行器模型与递归网络的预备知识;第3部分设计前馈控制器和最优反馈控制器;第4部分讨论闭环系统的稳定性;第5部分中通过仿真研究,验证了所提出方法的有效性;第6部分是论文的结论.

2 问题描述

2.1 高超声速再入飞行器数学模型

机体坐标系下,再入飞行器旋转运动方程为

其中：θ=[α β σ]T∈R3是姿态角向量,分别是攻角、侧滑角和倾斜角;ω=[p q r]T∈R3是角速率向量,分别是滚转角速率、俯仰角速率、偏航角速率;M=[MxMyMz]T∈R3是控制力矩输入向量,分别是滚转力矩、俯仰力矩和偏航力矩;

再入飞行器旋转运动方程可转化为严反馈形式

本文的控制目标为：针对再入飞行器的旋转动态(1),基于递归神经网络设计最优控制器,使得姿态角以最优方式跟踪有界的参考信号,保证闭环系统中所有信号是一致最终有界的(uniformly ultimately bounded,UUB),同时最小化代价函数.

2.2 递归神经网络

如图1所示,递归神经网络由输入层、具有反馈单元的隐含层和输出层组成.与传统的径向基函数神经网络相比,递归神经网络在隐含层中引入内部反馈收集内部状态信息,提高对未知非线性光滑函数的逼近能力.

图1 递归神经网络结构图Fig.1 The flow chart of RNNs

1) 输入层.

对输入层的每个节点i,输入和输出为

其中：xi是第i个输入节点,N是迭代次数,χi是激活函数.

2) 隐含层.

对隐含层的每个节点j,输入和输出为

其中：wj是递归权重,wji是输入层和隐含层的权重,χj是激活函数.

3) 输出层.

对输出层的每个节点k,输入和输出是

其中：wkj是隐含层和输出层的权重,χk是激活函数.

递归神经网络的输出可表示为

其中：

其中ε是估计误差.

假设1说明递归神经网络具有较强的学习能力和自适应能力,可充分逼近复杂的非线性函数,学习和适应不确定系统的动态特性.未知函数可表示为

逼近误差为

采用泰勒展开,将非线性函数线性化：

未知函数逼近误差(8)可表示为

3 自适应RNN最优控制

在本节中,针对再入飞行器的姿态角子系统、角速率子系统分别设计自适应RNN最优控制ui=ubi+uai,i=θ,ω;ubi是基于反步法和RNN的前馈跟踪控制,将姿态跟踪问题转化为跟踪误差的镇定问题;uai是基于自适应动态规划(adaptive dynamic programming,ADP)的最优反馈控制,保证闭环系统的稳定性和代价函数的最小化.控制系统框图如图2所示.

3.1 前馈跟踪控制

为设计前馈跟踪控制,引入如下坐标变换：

其中：zθ,zω是姿态角跟踪误差、角速率跟踪误差,uθ,uω分别是姿态角、角速率子系统的自适应RNN最优控制律：

第1步姿态角跟踪误差zθ,其动态如下：

选择Lyapunov候选函数：

是待设计的控制增益矩阵.

Lyapunov候选函数的一阶导数为

采用RNN估计未知非线性函数Dθ=dθ：

设计虚拟控制和自适应权重更新律如下：

其中kθ是控制增益.

因此,Lyapunov函数的一阶导数动态为

图2 控制系统框图Fig.2 Block diagram of control system

第2步zω的动态为

其中：

定义如下Lyapunov候选函数：

其一阶导数为

采用RNN估计未知函数Dω=fω(θd,uθ)+dω：

设计控制律和自适应权值更新律为

其中kω是控制增益.

Lyapunov函数(20)的一阶导数为

其中∆ω为角速率子系统有界匹配误差,满足

设计最优反馈控制Ua,稳定跟踪误差动态=H(Z)+GUa,同最小化代价函数,保证系统的最优性能.

3.2 最优反馈控制

考虑如下的跟踪误差动态：

选择如下的代价函数：

其中：Ω(Z)是半正定函数,Ξ是正定矩阵.

定义相应的Hamilton函数：

其中∇J(Z)是J(Z)相对于Z的导数.

定义效用函数为

选择如下的最优代价函数J∗：

若设计如下的状态反馈最优控制输入：

其中∇J∗(Z)是J∗(Z)相对于Z的导数,则闭环系统是稳定的,代价函数(27)达到最优值J∗,且Hamilton-Jacobi-Isaacs(HJI)方程成立：

采用ADP算法求解最优控制问题中HJI方程(32)的解,引入评价网络估计近似代价函数.

引理1考虑跟踪误差系统(26)、代价函数(27)和最优反馈控制(31).假设Js(Z)是一个连续可微的Lyapunov候选函数,满足

则下式成立：

采用理想的评价网络逼近最优代价函数：

最优控制器和Hamiltonian函数可设计为

其中τHJB是HJI方程残差：

定义实际评价网络为

最优控制器可表示为

则Hamilton函数的估计值为

选择如下的目标函数：

定义评价网络权重向量的估计误差：

则权重的估计误差动态满足

4 系统稳定性分析

定理1给出本文的主要结论和闭环系统的稳定性分析.

假设2评价网络的理想权重Wc、梯度项∇φc(Z)和∇εc(Z)有界,即

定理1针对再入飞行器旋转运动模型(1)、自适应前馈控制输入(23)、最优反馈控制(38)、代价函数(27)和权重更新律(41)组成的闭环系统,所有信号包括输出跟踪误差和评价网络的权重估计误差是UUB的,并实现了预先定义的代价函数最小化.

证定义Lyapunov候选函数：

Lyapunov函数的一阶导数为

其中评价网络的估计误差动态满足

注意：

其中：

选择合适参数λ1,λ2保证矩阵T是正定的,则

因此,式(47)可表示为

其中控制器增益Kmin=min{K},且满足

考虑式(35)和式(38),有

式(49)为

可以证明‖GΞ−1GT‖≤κ.

定义

若

或

5 仿真案例

在MATLAB/Simulink环境中,验证所提出的自适应RNN最优控制,对再入飞行器大机动飞行时的有效性和控制性能.再入飞行器参数选取X-33的物理参数,即

为了验证控制器的鲁棒性,仿真中考虑如下的外部扰动和力矩扰动：

再入飞行器的初始条件为

再入飞行时,侧滑角制导参考信号保持在0,攻角和倾斜角的制导参考信号选为方波信号.仿真参数选择如下：前馈跟踪控制器中,控制器增益选为kθ=20,kω=10.在姿态角子系统、角速率子系统中分别引入RNN网络,每个RNN网络由输入层、隐含层、输出层组成,依次选用1个节点、3个节点、1个节点(每个节点为3维向量),激活函数均选为χ(s)=RNN网络权重的初始值选取如下：其中=[0.01 0.01 0]T,其他初始值选为0向量,网络权重在给定初始值基础上更新.其他参数选为λoθ=λRθ=λHθ=λoω=λRω=λHω=10.在最优反馈控制器中,半正定函数Ω(Z)选为Ω(Z)=正定矩阵Ξ=I6,激活函数选为φc(Z)=[zθ zω]T,参数选为η=10,λ1=1,λ2=10.

为验证所提出最优姿态控制的跟踪性能,引入传统反步控制下再入飞行器的跟踪轨迹对比,传统反步控制系统中选取和最优姿态控制反步部分相同的控制增益.仿真结果如图3-11所示,图3-5是姿态角向量轨迹,图6-8是角速率向量跟踪轨迹,图9-10是前馈跟踪控制RNNs权重更新律,图11是最优跟踪控制评价网络权重更新律.根据姿态角响应过程可知,存在干扰情况下再入飞行器可快速跟踪制导参考信号,跟踪精度较高,再入飞行器可完成飞行任务.与传统反步控制相比,姿态角跟踪误差较小,角速率跟踪轨迹的暂态性能良好.

图3 攻角跟踪轨迹Fig.3 The tracking trajectory of angle of attack

图4 侧滑角跟踪轨迹Fig.4 The tracking trajectory of sideslip angle

图6 滚转角速率跟踪轨迹Fig.6 The tracking trajectory of roll rate

图7 俯仰角速率跟踪轨迹Fig.7 The tracking trajectory of pitch rate

图8 偏航角速率跟踪轨迹Fig.8 The tracking trajectory of yaw rate

图9 前馈跟踪控制RNNs权重更新律Fig.9 RNNs weighting update law

图10 前馈跟踪控制RNNs权重更新律Fig.10 RNNs weighting update law

图11 最优跟踪控制评价网络权重更新律Fig.11 Critic neural network weighting update law

因此,所提出的自适应RNN最优姿态控制可提供满意的跟踪性能和鲁棒性,保证飞行器闭环系统的稳定性,同时实现代价函数最小化.

6 结论

基于反步法和最优控制理论,提出再入飞行器的RNNs自适应最优姿态控制方案,该控制包括前馈跟踪控制器和最优调节器两部分.稳定性分析证明,所提出的控制方法既保证闭环系统中所有信号都是有界的,实现代价函数最小化,同时再入飞行器姿态角可跟踪制导参考信号.