郭建国,胡冠杰,郭宗易,王国庆
(1. 西北工业大学精确制导与控制研究所,西安 710072; 2. 中国运载火箭技术研究院研发部,北京 100076)
雷达寻的导弹在测量弹目相对视线(Line-of-sight, LOS)角度时,被目标反射的雷达波通过天线罩到达导引头。当天线罩形状为理想半球时,雷达波不会被天线罩折射,但是这种形状会受到较大的空气阻力。实际设计中为了减小空气动力阻力,天线罩的形状是非半球的,可这也导致雷达波发生折射。天线罩对雷达波的折射会在弹目相对视线角上引起一个误差角,从而给出有偏差的目标位置指令。天线罩误差会对导弹制导系统产生影响,在制导回路中产生寄生回路,进而影响雷达寻的导弹的脱靶距离,甚至破坏动态稳定性。
关于雷达天线罩折射现象影响导弹的制导性能问题,回顾前人文献,国内外学者做出了大量工作。天线罩误差斜率是天线罩误差产生的核心因素,通过对天线罩误差斜率的无偏估计和有效补偿可大大减少脱靶距离。天线罩误差斜率估计方法涉及扩展卡尔曼滤波、粒子滤波等。Seo等提出了仅在弹目相对视线角测量的情况下的天线罩误差估计系统,并引入了修正自适应间歇机动以提高估计性能。宗睿等针对天线罩误差的在线补偿方法展开了系统的研究,基于极点配置自校正理论分析了不同制导律下天线罩误差对导弹性能的影响。同时,智能方法也被用在解决天线罩误差中。Klein等在频域中利用补偿网络环路整形的方法分析了非线性天线罩效应,减少天线罩寄生环效应。已有的研究方法都是围绕对天线罩误差的估计和补偿展开,但是这些方法的估计误差会随着时间而累计,导致在制导末端天线罩误差的估计值不能十分准确地接近真实值,并且在目标机动时效果更差。因此需要提出一种在目标机动下能处理天线罩误差的制导策略。
自适应动态规划是一种集强化学习、动态规划和神经网络于一体的数据驱动学习控制方法。它不依赖于数学模型,当系统受到噪声或干扰时,可以自适应的更新网络权值来选择最优策略。针对非线性控制模型中目标机动这种非匹配干扰,基于ADP的控制策略已经有大量研究。同时在制导策略研究中,ADP解决了鲁棒最优制导律设计中的性能指标的问题,推动了导弹制导系统的智能化和精确化。但这些研究都未涉及天线罩误差。参考导弹拦截机动目标,利用ADP设计微分对策制导律的思想,本文提出一种导弹天线罩误差下的基于ADP的制导策略,不同于传统处理目标机动和天线罩误差的估计方式,设计了一种新的代价函数,通过引入状态量和不确定项将天线罩误差和目标机动考虑进去,同时可以保证控制能量最小。利用ADP逼近最小代价函数值的原理来消除天线罩误差的影响,从而求解出鲁棒最优制导策略,保证导弹在目标机动和天线罩误差下准确的完成拦截任务。
图1 导弹-目标交战场景Fig.1 Missile-target engagement scenario
导弹-目标的相对运动方程为
(1)
(2)
(3)
(4)
当雷达波通过导弹雷达导引头的天线罩时,存在折射效应,导致真实视线和虚假视线之间形成了图1中误差角Δ,它被称为天线罩瞄准线折射误差角。在天线罩误差的影响下,目标T从真实位置偏移到′处,并且导弹制导系统会将折射角的变化误认为是弹目相对视线角的改变。根据相关天线罩瞄准线折射误差角的研究,实际弹目相对视线角的表达形式为
′=-ϑ
(5)
式中:是天线罩误差斜率,它会在制导系统中引起寄生回路,从而严重影响稳定性,该值的大小取决于天线罩的材料、尺寸、雷达波长等众多因素。ϑ是导弹的姿态角,说明天线罩误差还会进一步影响导弹的自动驾驶仪设计。
图2 天线罩误差下的导弹制导系统Fig.2 Missile guidance system under radome errors
(6)
其中,弹目相对距离出现在的分母上,它随着导弹飞行时间单调减小,使得视线角速率变化率趋于无穷大。同时,系统(6)本质上是一个有限时间拦截问题,不满足局部Lipschitz条件。因此,需要将系统(6)转化为一个可以由所提出方法解决的新系统。
(7)
根据状态变量给出新系统的状态空间模型为
(8)
设计鲁棒最优制导策略之前需要以下假设。
为了解决系统(8)的鲁棒最优控制问题,需要推导出控制使闭环系统稳定。面对天线罩误差这种状态不确定性Δ,并且涉及模型不确定性Δ(),通常很难直接设计。在本文中,通过在代价函数中引入不确定性项来处理模型不确定性。随后构造具有新的权值自适应律的批评网络,利用自适应动态规划技术推导出反馈形式的控制解来得到制导策略。特别的,考虑到新系统(8)中|(-)|=π2, |(-)|=π2是一个不稳定的平衡。因此,提前规定了本文制导策略适用的范围如下。
={:|(-)|≠π2,|(-)|≠
π2,<0}
(9)
根据系统(8),将其名义系统考虑为
(10)
本节的目标是根据名义系统设计一个控制输入(),使它不仅能稳定闭环系统,还能最小化形式如下的代价函数
(())}d
(11)
式中:()>0是连续可微的状态函数,是正定的对角矩阵。()是一个待定义的有界函数。
代价函数分为三个部分:第一部分(())的目的是使得状态量趋于零,实现拦截目标;第二部分()()的目的是最小化控制输入,实现控制最优;第三部分(())的目的是引入模型不确定性,考虑目标机动情况。
定义Hamilton函数为
(12)
(13)
从而推导出鲁棒最优制导策略的表达形式
(14)
式(14)代入式(13)可以推导出HJB方程的形式为
(15)
考虑到名义系统(10)和代价函数(11),在所提出的鲁棒最优制导策略(14)下,闭环系统(8)可以保证渐近稳定。
考虑()=()为Lyapunov函数,对()沿闭环系统轨迹对时间求导,可以得到
(16)
结合式(15),进一步可以得到
(17)
(18)
进一步得到
()=(())(())+
(19)
根据神经网络的全局逼近性质,最优代价函数()可以精确地表示为。
(20)
(21)
将式(21)代入到控制输入(14)中,可以得到
(22)
并且式(15)也可以重写为
())+(())(())+=0
(23)
(24)
(25)
根据式(25)可以得到近似鲁棒最优制导策略为
(26)
将式(26)代入式(15)可得近似Hamilton函数
(27)
(28)
(29)
(30)
式(30)在后续部分用于讨论权值估计误差的稳定性。
为了消除神经网络逼近误差的影响,得到一个具有渐近稳定平衡点的闭环系统,在制导策略中增加了一个鲁棒控制项,可以构造为
(31)
式中:>0是个常数;是二维的单位矩阵;是一个满足≥的待设计参数,Ξ的取值将在下节进行讨论。
(32)
(33)
(34)
(35)
选择合适的和参数使得>0,()表示的最小特征值,可以得到
(36)
由于式(29)的定义,接下来分两种情况展开。
(37)
(38)
(39)
因此,如果下列两个不等式任一条件成立。
(40)
选择与定理2中相同的Lyapunov函数(),类似于定理2的证明,可以得到
(41)
(42)
天线罩误差下基于ADP的制导策略的主要思想是:首先,推导出天线罩误差下的非线性制导模型(8),将有限时间拦截问题转化为无限时间鲁棒最优控制问题;其次,不同于传统处理天线罩误差的估计与补偿方式,设计了新型的代价函数(11),解决了天线罩误差和目标不确定性,并保证能量最优;然后通过构造评价网络,利用自适应动态规划来求解近似鲁棒最优制导策略(26),并得到最终制导策略形式(32);最后,采用李雅普诺夫稳定性理论证明了权值误差一致最终有界和闭环系统的渐近稳定。
在本节中,考虑了导弹和目标的自动驾驶仪的一阶动力学来验证所提出的方法的性能。设导弹与目标的运动方程分别为
(43)
式中:(,)和(,)分别为导弹和目标在惯性参考坐标系下的位置坐标,和分别为导弹和目标的法向加速度,==01为导弹和目标的自动驾驶仪的时间常数。本文假设导弹和目标的速度是常值,即=600 m/s和=400 m/s,它们初始的弹道倾角分别是=35°、=70°,初始的位置坐标分别是(,)=(0,0)、(,)=(2500,0)。
本章节对比方法采用比例制导律,并对天线罩误差采用视线角速率与天线罩误差联合估计的扩展卡尔曼滤波器(Extended kalman filter, EKF)进行估计,最后补偿到视线角中。比例制导律的导航比为3,视线角速率与天线罩误差联合估计的EKF滤波器中的参数:状态估计方差阵的初值为()=diag(01,0001),估量测噪声方差取为()=0015,动态噪声方差阵为()=diag(0,07)。加入的天线罩误差形式为Δ=005sin()。
为了保证在弹载计算资源条件下,基于ADP的制导策略的计算效率能满足实时性要求,对ADPG进行实时性校验。校验方式为在导弹的制导系统中,跟踪系统状态量常值阶跃响应=[0,0],对ADPG的收敛时间进行校验。本文提出ADPG的收敛时间在0.1 s以内,也就意味着在线得到最优权值的时间在0.1 s以内,从而可以满足实时性要求,进行在线计算最优权值。
导弹在天线罩误差下,分别采用比例制导律方法(Proportional navigation guidance, PNG)、比例制导律结合EKF滤波器方法(PNG+EKF)和本文提出的ADPG来拦截机动目标,目标机动形式为=5sin()(=98 m/s)。导弹拦截目标的脱靶量如表1所示,拦截轨迹如图3所示。可以看出,只有ADPG方法可以实现拦截,其它两种方法都无法成功拦截目标。这是因为天线罩误差下PNG+EKF方法针对机动目标无法做到准确估计和补偿,滤波器产生了较大的误差。
表1 拦截脱靶量Table 1 Interception miss distance
图3 拦截轨迹图Fig.3 Interception trajectories
图4 评价网络权值变化曲线Fig.4 Curves of critic network weights
在拦截过程中,三种方法的两种导弹拦截指标变化如图5所示。图5(a)中反映了导弹视线角速率的变化,可以看出,由于目标机动,天线罩误差下PNG+EKF方法无法收敛,而ADPG方法可以保证导弹视线角速率收敛。图5(b)中反映了导弹法向加速度的变化,可以看出,天线罩误差下PNG+EKF方法的法向加速度比ADPG方法要大。ADPG方法不仅能消除天线罩误差还实现了最优控制,而且保证了控制能量最小。
图5 拦截指标变化曲线Fig.5 Curves of interception indicators
为校验本文所提出的ADPG制导策略的制导精度及鲁棒性,进行蒙特卡洛打靶仿真校验。在上一节天线罩误差下拦截机动目标的场景下,仿真制导模型和策略参数不改变,采用蒙特卡洛法进行500次打靶仿真。蒙特卡洛打靶仿真考虑的随机影响条件如下:
(1)仿真中目标的仿真参数不变,导弹的初始弹道倾角设定范围为=0°~60°。
(2)仿真中加入的天线罩误差设定范围为Δ=(005±005)sin()。
经过蒙特卡洛打靶仿真,导弹拦截机动目标的拦截脱靶量散布如图6所示。设定拦截脱靶量小于1 m为拦截成功,图中可以看出,拦截失败的次数为7,拦截成功率为98.6%。再对500次拦截脱靶量的结果求取平均脱靶量为0.23 m,说明提出的ADPG方法拦截成功率和拦截精度均较高。因此,ADPG方法在天线罩误差下是一种可行的高拦截性能的制导策略。
图6 拦截脱靶量散布Fig.6 Interception miss distance scattering
本文针对导弹导引头存在的天线罩误差,提出了一种基于自适应动态规划的制导策略。不同于传统处理天线罩误差的估计与补偿方式,ADPG既可以消除天线罩误差和目标机动影响,又可以保证控制能量最优。通过天线罩误差下导弹拦截机动目标的数学仿真,可以发现PNG+EKF方法会产生估计误差导致拦截失败,而ADPG方法具有较好的拦截效果且控制能量更小,验证了其有效性和最优性。进一步通过蒙特卡洛打靶仿真验证了ADPG方法具有较强的鲁棒性。