落角与视场约束制导控制一体化策略

2022-02-01 13:29:18郭宗易杨晓宏胡冠杰郭建国王国庆

宇航学报 2022年12期

郭宗易，杨晓宏，胡冠杰，郭建国，王国庆

(1. 西北工业大学航天学院精确制导与控制研究所，西安 710072； 2. 中国运载火箭技术研究院研发部，北京 100076)

0 引言

高超声速飞行器已成为目前世界各国抢占战略优势的利器。对于其制导控制系统设计，传统设计方法是分为控制回路和制导回路两个子系统，不考虑两者之间的耦合关系[1]。这种分离设计的理论基础是要求制导控制系统满足频谱分离条件，即姿态控制系统的时间常数远远小于制导系统的时间常数，但事实上高超声速飞行器制导环节和姿态控制环节并不总是满足该条件，因此在舵偏角的反馈控制设计中使用了姿态、过载和视线角信息等以便获得更好的系统性能，即制导控制一体化设计(Integrated guidance and control, IGC)考虑了导弹制导系统与控制系统之间的耦合关系，根据弹目相对运动关系和导弹自身运动信息直接产生舵偏指令，驱使飞行器击中目标[2]，并显著减小脱靶量，有效提高制导控制系统的可靠性和稳定性[3-5]。由于飞行器的高效打击需求和导引头的探测能力约束，在打击过程中需要考虑落角约束和视场角约束。目前已有较多制导律设计的相关文献如文献[6-8]考虑了这两种约束，主要采用方法有障碍李雅普诺夫函数法[6]、解析法[7]和多阶段切换法[8]等，但并未考虑姿态系统。目前，制导控制一体化方法大多采用滑模变结构、最优控制方法、反演设计方法等传统控制方法，比如Li等[9]针对一体化系统，采用滑模变结构方法进行控制，变结构项会使控制量产生高频抖振，影响系统的打击精度，增加能耗，降低系统性能；Park等[10]采用最优控制方法，存在模型精确度不高、鲁棒性较差的问题；Pei等[11]采用反演法，保证了系统的稳定性，但存在“计算膨胀”问题，存在高阶导数，控制器结构复杂。以上方法多考虑落角约束或视场角约束其中一种约束情形，并未完全覆盖两种约束。

工程实际当中，往往需要系统在保证稳定性的同时，有较高的灵活性和自适应性，传统的控制方法难以满足复杂要求[12]。随着人工智能技术的快速发展，自适应动态规划方法开始被提出并应用到控制系统设计[13-14]。自适应动态规划(ADP)方法是一种基于强化学习理论的先进智能控制方法，基于神经网络的函数泛化能力，通过近似求解非线性哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程获得最优控制律[15]，应用范围广，自适应性自调节能力强，而且能够与干扰观测等技术结合实现较好的鲁棒性。由于ADP的强适应能力，近几年，基于ADP方法的控制策略被应用于飞行器控制问题研究中[16-17]。郭建国等[18]针对高超声速飞行器的姿态模型，设计反步法和ADP结合的非线性优化学习控制方法，实现系统的近似最优跟踪。

综上分析，目前同时考虑落角约束与视场角约束的制导控制一体化方法研究较少。因此，本文提出一种基于自适应动态规划的新型制导控制一体化策略，其新颖之处在于：(1)不同于以往的制导约束设计方法，本文将视场角约束、落角约束和命中精度要求集成到视场角指令，从而将约束问题转化为跟踪问题，保证在精确跟踪的同时即可满足这两种约束，而且便于结合考虑姿态系统；(2)引入基于自适应非线性扰动观测器的不确定性估计值，设计基于ADP的制导控制一体化方法，既能够通过保证精确跟踪实现高超声速飞行器的精准打击和对落角视场角约束的满足，又考虑制导控制模型中不确定性等多种实际因素，具有更好的技术优势和更强的应用潜力。仿真验证了本文提出方法的有效性，并与现有方法开展了对比研究，本文方法可以在满足落角约束和视场角约束下实现精准打击。

1 问题描述

首先，建立飞行器二维平面模型如下所示。

图1 纵向平面弹目几何关系Fig.1 Two-dimensional engagement geometry

如图1所示，M, T分别表示导弹和静止目标；qe,θM和σM表示视线角，弹道倾角和视场角；R表示弹目相对距离；VM表示导弹速度。运动学方程为

(1)

飞行器姿态方程为

(2)

(3)

(4)

高超声速飞行器需要考虑视场约束与落角约束来满足探测约束与打击毁伤效果。因此，本文的目标是针对一体化模型(4)，设计一种可以满足视场角约束和落角约束的制导控制一体化控制器，即

(5)

2 集成视场约束与落角约束的视场角指令设计

定义落角的误差为

eq=qe-θd

(6)

那么飞行中需要控制上式中的变量eq，保证打击目标时的落角。式(6)对弹目相对距离R求导，可得

(7)

基于式(7)，本文提出视场角指令为

(8)

式中：sat(·)为饱和函数，当|x|≤1时，sat(x)=x，否则sat(x)=sgn(x)。ρ和φ1为参数，满足以下条件：

(9)

(10)

如果|eq(R)|>φ1，求解式(10)可得

eq(R)=

(11)

式中：R0和R1由R0=R(t=0), |eq(R1)|=φ1求得。式(11)的解表明|eq(R)|是严格递减的，因为R也是严格递减的。此外，式(11)中第2式表示当R趋于零时，eq(R)趋于零。

如果|eq(R0)|≤φ1，用R0代替式(11)第2式中的R1可得eq(R)的解。因此，在|eq(R0)|>φ1和|eq(R0)|≤φ1的情况下，当R趋近于0时，eq(R)收敛于0，满足落角约束，从而保证精确跟踪时必然满足两种约束。

3 基于ADP的制导控制一体化设计

3.1 制导控制一体化控制器设计

考虑系统(4)具有非匹配不确定性，本文引入文献[19]提出的自适应干扰观测器。以下是基本假设：

假设1.扰动di(t)(i=1,2,3)有界，满足

(12)

式中：μi是正常数。

设计自适应干扰观测器如式(13)所示

(13)

定义估计误差为

(14)

对于模型(4)，定义新变量ψ为

(15)

对式(15)求导可得

(16)

式中：

g(ψ)=b, Δψ=c1d1+c2d2+d3。首先给出假设：

假设 2.[15]非线性不确定项Δψ满足条件Δψ=GT(ψ)d(ψ)，其中G(·)是表示不确定性结构的固定函数，d(·)(d(0)=0)是不确定函数，且存在已知函数h(·)(h(0)=0)满足dT(ψ)d(ψ)≤hT(ψ)h(ψ)。

本节依据系统(16)通过构建单个网络即评价网络来实现，将ADP方法引入一体化非线性系统控制,设计一个控制输入u，使它不仅能稳定闭环系统，还能最小化形式如下的代价函数

(17)

定义哈密顿函数为

(18)

(19)

将式(19)代入HJB方程可得

(20)

由于解析求解方程(20)较为困难，接下来引入基于单一评价网络的ADP方法来求解最优控制策略。

根据神经网络的全局逼近性质，最优代价函数V*(ψ)可以精确地表示为

V*(ψ)=WTσ(ψ)+ε(ψ)

(21)

式中：理想权值向量W∈Rl,σ∈Rl为神经网络激活函数，l是隐含层中神经元的个数；ε(ψ)代表神经网络的近似误差。于是有

(22)

将式(22)代入式(19)可以得到最优控制形式为

(23)

由于理想权值未知，将估计的权值写为如下形式来构建评价神经网络进而逼近代价函数。

(24)

考虑式(24)，可以得到近似控制函数为

(25)

将式(25)用于式(16)，得到

(26)

(27)

(28)

利用估计的权值向量，导出近似哈密顿函数为

(29)

(30)

假设3.[15]针对式(16)，选取一个连续可微的李雅普诺夫函数Js(ψ)，满足

(31)

(32)

(33)

(34)

3.2 稳定性证明

(35)

(36)

证.选择李雅普诺夫函数为

(37)

对时间求导并代入式(36)可得

(38)

(39)

使用关系式：

(40)

(41)

则有

(42)

式中：φ+,φ-和φ1均是非零常数。同理，式(39)其余项可按同样方式处理，得到

(43)

式中：

(44)

(45)

式中：φi,i=1,2,…,6为非零常数，保证λ7>0。

(46)

因此，如果有以下的不等式存在

(47)

(48)

(49)

因此，如果有以下的不等式存在

(50)

(51)

定理1分析了新变量ψ的收敛性，而下面的定理2则分析了闭环系统中状态x1和x2的稳定性。

定理2.考虑如式(4)所示的干扰观测器，在控制输入(25)与评价网络的权值式(30)作用下，闭环系统中视场角实现对指令(8)的有界跟踪。

(52)

将式(52)代入式(4)可得

(53)

(54)

(55)

式中：q1>0,q2>0。

根据式(53)对Vx求导，得到

(56)

(q2|x2+d1|-μ12)

(57)

(58)

根据李雅普诺夫稳定性理论，闭环系统是稳定的，收敛范围为

|x1|≤ε1和|x2+d1|≤ε2

(59)

因此，视场角误差eσM=x1/a1是有界收敛的，闭环系统中视场角实现对指令(8)的有界跟踪。同时，ε1越小，则x1越接近零，根据以上分析，在控制命令(25)下，可以保证脱靶量趋向0的情况下同时满足视场角和落角的约束。

4 仿真校验

图2 不同落角约束下，视场角、舵偏角、视线角和相对距离的变化曲线Fig.2 Curves of look angles, δz, qe, and R under different θd values

图3 不同落角约束下，评价网络的权值更新Fig.3 Curves of weight updating of critic network

图4 与考虑落角约束的文献[20]方法的对比Fig.4 Comparison with the method in the reference [20] considering the impact angle constraint

图5 与考虑视场角约束的文献[21]方法的对比Fig.5 Comparison with the method in the reference [21] considering the field-of-view constraint

表1 结果比较Table 1 The results comparison

图6 2000次蒙特卡洛仿真下的脱靶量结果Fig.6 Results of the miss distance under 2000 Monte-Carlo tests

5 结论

本文针对考虑视场角约束和落角约束的高超声速飞行器高精度打击问题，提出一种基于自适应动态规划的新型制导控制一体化策略。现有一体化方法较少同时考虑两种约束，而本文方法将视场角约束、落角约束和命中精度要求集成到视场角指令，从而将约束问题转化为跟踪问题，通过自适应动态规划的强化学习思想得到最优策略，保证在精确跟踪的同时即可满足这两种约束。数学仿真验证了提出方法的有效性及相比于现有方法的优势。后续研究中将考虑弹道设计以及落速和时间约束，从而实现更好的打击效果，促进高超声速飞行器制导控制技术发展。