程瑞锋刘卫东 高立娥 康智强
1)(西北工业大学航海学院,西安 710072)
2)(西北工业大学,水下信息与控制重点实验室,西安 710072)
3)(西安建筑科技大学机电工程学院,西安 710055)
(2017年5月24日收到;2017年10月11日收到修改稿)
相比空中追踪,水下追踪以海水为工作介质,受水声物理场的制约[1],水下声自导装置获取目标参量的周期相对较长.同时由于实际海洋环境随时空变化的特性[2]和海洋自噪声、舰船噪声、生物发声等环境噪声[3]的存在,声自导探测的目标信号通常伴有一定的混响和干扰[4].这些混响和干扰随水文、环境条件及航行深度和追踪相对距离等的改变会发生随机变化,使水下追踪器自导装置对目标的探测精度受到严重影响,极易造成目标信号的丢失与误判,实时、有效获取目标参量成为水下追踪导引面临的首要难题.虽然微分对策通过“最坏”情况下的“最佳”控制性能设计,能有效处理动态对抗问题,但受实际追踪系统中存在的非线性、时变、模型失配、干扰等因素影响[5],当目标机动频繁时,剩余航行时间的估计误差较大[6],且微分对策仅考虑了对抗时间与能耗的最优原则,无法保证动态对抗的过程约束.预测控制中的广义预测控制(GPC)算法能有效处理过程约束,并结合辨识与自校正机理对机动目标进行实时监测,具有鲁棒性强、能有效克服系统滞后等优点[7].但由于微分对策t的引入,对策现象或规律在连续变量空间呈现动态结构[8],阻碍了离散时间设计方法的应用,且广义预测算法中离散时间的选取受采样周期的影响较大,而水下追踪器的自导探测无法保证在广义预测的每个检测周期都能俘获目标信息,对目标探测周期的不合理选择可能导致目标的漏检和系统的不稳定[9].连续时间广义预测控制(CGPC)算法属于模型预测控制的一员,通过模型的泰勒级数展开得到预测模型,不需要进行模型的离散化,在采样时间的选择上较为灵活,不但继承了GPC算法的众多优点,而且拥有和GPC算法类似的调节参数,对外界扰动和参数摄动具有更强的鲁棒性和自适应能力[10,11].
在水下追踪博弈过程中,如果追踪方能够快速、准确地俘获机动目标信息,便可在微分对策中处于优势地位.因此,在追踪器发现目标后,本文利用连续时间广义预测算法,对自导俘获的目标运动信息要素进行解算、预测,通过滚动优化反馈校正的学习预测功能,实施对自导探测有利提前角的快速调整控制,并利用滚动优化,将微分对策的初始时刻随整个预测时段向前推移,实现对微分对策导引的实时补偿校正,有效避免剩余时间的估计误差.在确保复杂海洋环境下追踪器获得对机动目标最大概率俘获的同时,将追踪时间不确定情形的微分对策控制转化为多个有限时域的微分对策滚动优化.通过动态规划与预测优化的优势互补,克服微分对策在对抗过程约束和随机干扰方面的不足.在保证微分博弈追踪全局渐近稳定的同时,解决了不确定性因素影响下如何平衡控制器设计的鲁棒性与保守性的难题.
将复杂海洋环境下的追踪博弈描述为一类具有干扰的非线性连续动态系统:
式中x∈X⊂Rn为状态变量,X为状态空间;y∈Rm为输出状态变量. 追踪博弈双方的决策控制变量u∈[−umax,umax]∈Uγ和v∈[−vmax,vmax]∈Vl,且γ≤n.f(x)∈Rn;g(x)∈Rn×γ;l(x)∈Rn×l;z(x)∈Rn×q为内部系统模型,h(x)∈Rn×m为输出函数.初始状态x(t0)=ζ,服从高斯分布N(m0,R0),R0为非负定矩阵;随机干扰ω属于给定概率空间(Ω,ℑ,P),且与初始值x0互不相关[12].
将追踪博弈考虑为生存型微分对策,相应二次型性能指标为
则(2)式中相关性能指标可进一步表示为
式中µ=(µ1,µ2,···,µl)T∈Rl为待定系数;L(t)为半正定时变矩阵,R1(t)和R2(t)为正定对称时变矩阵. 设λ=(λ1,λ2,···,λn)T∈Rn是任意向量,利用文献[14]哈密顿-雅可比方程对微分对策进行求解,构造系统((1)式)的哈密顿函数:
由于正规合成鞍点的每个策略都能充分考虑当前t时刻的状态信息,使博弈双方根据当前的对策局势制定与调整策略,适用于对策局势不断变化的博弈问题.因此将水下追踪问题转化为寻找微分对策值ς,使其满足[15]
对应的正规合成鞍点为[u∗(t,x),v∗(t,x)]∈Uγ×Vl,由正规合成鞍点存在满足的协态方程和横截条件:
应用伴随原理,定义追踪过程中系统不加控制经有限时间即能达到零脱靶的状态为零控追踪状态z(t)[16],推导可得相应的最优控制策略函数为
式中下标A与T分别表示追踪器与机动目标对应的相关参数,NA,NT分别为追踪器与机动目标微分对策最优导引对应的制导增益,x∗为相应于正规合成鞍点的轨迹.
对策区间[t0,t]进行任意剖分:t0<t1<t2<···<tn=t记为I,且将每个区间记为Ij=(tj−1,tj](j=1,2,···,n). 选取任意变量δ>0,假设博弈双方在任意t时刻均可以完全了解t−δ以前对方的全部信息,但不了解其对手在未来的行为,为了获得各自的最优局部目标,博弈双方将采用u∗(t,x∗)与v∗(t,x∗)在x∗对应的界栅上展开最激烈的争夺、对抗[17].因此,对于相同环境下性能相近的水下追踪博弈,打破对抗均衡态势的条件为:追踪器在博弈中占有信息优势地位,即追踪器可获知自身和机动目标过去所采取过的全部策略u(t)∈Uγ与v(t)∈Vl,而机动目标只能获知t−δ时对策双方的机动选择u(t−δ)∈Uγ与v(t−δ)∈Vl.
由于海洋环境的复杂性和水声物理场及水下智能体结构等因素的制约,在实际追踪过程中,通常对抗双方均不能获得准确的状态信息,博弈双方具有不同的信息模式.虽然通过各自有限的观测器和相应的滤波算法能实现状态估计,但采用估计器估计系统状态时,真实状态的界是动态不确定的[18].为此,将连续时间广义预测优化作为更新真实状态界的方法,通过随机干扰下系统输出与追踪器俘获约束的实时预测调整,对追踪器的最优控制进行滚动优化校正.
从非线性零和微分博弈的基本思想可以看出,由于各类不确定因素存在于整个追踪过程中,单一的控制器无法调节复杂环境下的有效追踪.具有显式处理约束能力的连续时间广义预测控制能对追踪过程中的系统状态输出变量实施滚动预测优化,并对微分对策控制器进行实时补偿校正,使追击方在零和博弈中处于信息优势地位.具有连续广义预测校正的非线性追踪博弈控制结构如图1所示.
图1 具有预测校正的非线性追踪博弈控制结构Fig.1.Nonlinear tracking differential game control structure with CGPC corrector.
图1中Tp为预测时域;yE(t)为滚动时域期望输出;e(t,Tp)为预测时域实际输出与期望输出之间的偏差;Δu(t)为滚动时域的控制补偿修正.假定系统输出y(t)光滑连续,且其任意阶导数存在,为满足连续空间微分对策需要,采用CGPC对t+Tp时刻的追踪博弈输出状态y(t,Tp)与最大目标俘获期望输出yE(t,Tp)的偏离进行补偿校正[19].
由于CGPC算法的预测输出计算以系统输出信号的k阶导数的仿真运算为基础,因此先利用截断Maclaurin级数进行模型预测计算:
式中t1为最小预测时域,t2为最大预测时域,Q∈Rm×m为正定矩阵,ρ为控制加权系数;
式中
将水下追踪博弈双方近似为同一水平面内的点质量模型,水下追踪的相对运动关系可表示为
式中VA与VT分别为追踪器和机动目标的速度;R与˙R分别为相对运动的距离和径向速度;ηA与ηT为提前角,ηT=φT−q,ηA=φA−q;p=VT/VA;φA与φT分别为追踪器的偏航角和机动目标的航向角;q与˙q分别为视线角和视线角速度.令VR=˙R,Vq=R˙q,取x=[R VRVq]为状态向量,由(16)式求导并简化处理可得
式中u=[uRuq]T,v=[vRvq]T分别为追踪器和机动目标加速度沿视线方向与视线法向的对应分量.只考虑视线法向控制时当前t时刻对应的零控追踪状态z(t)可表示为
式中tf为追踪终止时间,tgo为剩余航行时间.由于目标机动和干扰的影响,准确估计剩余航行时间十分困难[21].而滚动预测控制对终止时间不确定情形的最优控制具有良好的适应性,取超前预测时域为δ,则对有利提前角进行广义预测与补偿校正的同时,相应期望状态˜x∗(t+δ)和零控估值˜z(t+δ)的求解为
考虑到水下追踪博弈控制的目的是保证相对距离减小的同时使视线角速率尽可能小,选取为系统的状态转移矩阵.由(9)式可得当前t时刻追踪器具有预测估计的微分对策最优控制为
式中
滚动预测应用有效避免了微分对策导引对剩余航行时间的估计[22],但无法保证对目标的实时最大俘获.而在追踪博弈的过程中,抗除干扰、实时俘获是追踪器追踪与命中目标的首要条件门.为实施有效追踪,水下追踪器采用自动调整提前角导引算法对机动目标进行实时俘获.由于水下追踪器的自导装置与壳体固连,水下追踪瞄准的过程实际对应追踪器的姿态调整.水下追踪器自导装置波束的配置如图2所示.
图2 自导装置波束配置Fig.2.Beam configuration of underwater acoustic homing device.
设追踪器自导装置的水平波束由7个波瓣组成,开始导引时零声轴位于中间波瓣,当水平波瓣“抓住”目标后,先以中间波瓣对准目标.传统的自动调整提前角算法只分析目标是否进入基准轴扇区后又离开,由于追踪器运动的惯性作用,这种调整方法容易产生提前角超前现象[23].为消除此现象,在追踪博弈过程中,根据广义预测控制理论,采用ηA(t)与期望提前角ηE(t)的变化趋势对不确定干扰下的ηA(t)进行补偿校正,实现追踪器姿态的及时调整.
由于目标机动、模型时变或干扰等不确定性因素的影响,追踪的输出不可能始终保证追踪器具有最大俘获概率,因此需要在实测输出上加上误差补偿对自导俘获进行反馈校正.由(16)式推导可得目标方位角输出为
考虑自导搜索扇面俘获约束,当自导扇面半角为θ时,ηA(t)应满足
由于目标机动未知,追踪器航行过程中的有利提前角实际上是一个角度范围,在此范围内,通过对相应时刻有利提前角的滚动预测调整,使追踪器保持对机动目标的最大发现概率.根据概率论原理,参考图3,t时刻追踪器对机动目标俘获概率最大的条件为:追踪器的自导搜索扇面遮盖的正负误差绝对值相等,即将追踪器自导搜索扇面中心线的前端点指向机动目标预定点所处的位置.
图3 声自导追踪器有利提前角Fig.3.Optimal advance angle of acoustic homing tracker.
假定自导的单个波瓣扇面角不大于10°,由文献[24]可知t时刻拦截器的有利提前角可近似为
式中ηE(t)为t时刻追踪器的期望有利提前角;R(t)为当前时刻水下追踪博弈双方的相对距离;q(t)为当前时刻的目标舷角;VA为拦截器的速度;VT为机动目标速度;r为声自导最大作用距离.将自导探测的目标方位角ηA(t)所处自导扇区的编号标记为目标位置NT(t);有利提前角ηE(t)所处的扇区编号标记为基准轴NB(t)[25].目标位置与基准轴偏差为ξ(t),则下一有限时段δ的基准轴变化趋势为
式中Δη为对应δ时段内广义预测控制Δu∗(t)对自导扇面的调整角度.
为配合处于连续变量空间的微分对策控制,采用CGPC算法对t+δ时刻的追踪博弈状态与具有约束的当前时刻的有利提前角ηE(t+δ)的偏离进行滚动反馈补偿校正.由(10)—(15)式推导可得
由此可得,含有t+δ预测信息的微分对策最优控制为
可见,在水下追踪博弈过程中,对于任意给定的对策控制集(Uγ,Vl),由于采用了连续时间广义预测控制,追踪器可根据自身和机动目标在过去一段时域内所采取的所有控制策略和过程俘获约束所预测的对手的额外信息,对未来t+δ时刻的状态进行超前补偿控制Δu(t),使追踪器实现快速姿态调整,将机动目标锁定在最大俘获扇面之内,并在t时刻控制时可以惟一构造出追踪博弈双方的控制函数[uδ(t),vδ(t)],其中uδ(t)为追击方的上δ控制策略,vδ(t)为目标的下δ控制策略,使追踪器在追踪博弈中处于信息优势地位,为追踪器迅速精准的追踪提供有力保障.
为了验证该导引策略的有效性,对水下具有未知机动能力的目标追踪进行仿真分析.根据水声物理场特性和自导装置的测量精度,假定水下智能体对径距和径向速度的测量误差为5%,对机动目标方位角的测量误差为±2°.水下智能体速度为40 kn(1 kn=1.852 km/h),初始航向角为55°,机动目标的航速为35 kn,初始视线角为30°,初始相对距离为210 m.广义预测控制器的参数为δ=0.3 s,t1=0,t2=1.5 s,Tp=3 s,为了验证CGPC-NDG(微分对策控制算法)性能,将输出量近似解耦为有利提前角偏差输出与相对距离,比较输出量随时间的变化趋势与微分对策控制算法的仿真结果,如图4所示.
由图4(a)目标方位角与有利提前角之间的偏差随时间的变化趋势可以看出,由于CGPC-NDG导引能对有利提前角偏差趋势进行预测补偿,在较短时间俘获调整后,追踪器可将机动目标锁定在较小偏差范围内,对目标机动实施超前校正,实现追踪状态的迅速调整,从而保证对机动目标的有效俘获.图4(b)相对距离变化趋势表明,在目标机动改变时,NDG导引的相对位移变化缓慢.两种算法下的追踪轨迹仿真结果如图5所示.
图4 相关输出随时间的变化趋势 (a)有利提前角偏差随时间的变化趋势;(b)相对距离随时间的变化趋势Fig.4.Variation trend of correlation output values with time:(a)Variation trend of the optimal advance angle;(b)variation trend of relative distance.
图5 追踪博弈轨迹Fig.5.Tracking trajectory of different guidance control.
由图5可知,NDG导引算法的追踪轨迹受目标机动的影响形成蛇形航迹.原因在于NDG导引只能对追踪器自导俘获的极值范围进行约束,在追踪中容易导致Bang-Bang控制,出现提前角超调现象,这不仅容易导致目标漏检,而且造成部分航程的浪费.采用CGPC-NDG导引算法时,由于对目标机动具有预见性,不仅能对轨迹进行及时调整,使追踪运动轨迹平滑,而且能有效提高追踪器控制的稳定性,缩短追踪导引航程,更快达到追踪目的.由上述分析可知,相比NDG导引追踪,由于CGPC算法的引入,实施CGPC-NDG导引控制时,追踪器通过滚动反馈预测校正,能对未来时域目标机动的轨迹方向进行预判,并在满足约束的条件下,控制智能体以几乎零延迟的速度调整追踪姿态,在确保精准追击的同时,有效提高了控制系统的响应速度.
对基于连续时间框架设计的CGPC算法与离散广义预测算法在水下微分博弈中的应用效果进行分析.设定GPC算法的采样时间T=0.3 s,两种预测算法对应的提前角偏差变化趋势和调节追踪器姿态变化的控制量随时间的变化如图6所示.
图6 基于不同预测控制算法的有利提前角偏差变化趋势(a)CGPC算法;(b)GPC算法Fig.6.Variation of the optimal advance angle for different predictive control algorithms:(a)CGPC algorithm;(b)GPC algorithm.
由图6可知,由于采用了预测控制算法,追踪器的有利提前角均能在短时间内被锁定在较小的偏差范围之内,但相比GPC导引,CGPC导引控制能在1 s内快速完成最佳有利提前角的调整,并在导引末端控制有利提前角偏差在零位附近微小波动,而GPC导引则需2 s才能完成调整,且在末端有利提前角偏差有发散趋势.因此,CGPC导引具有更快的响应速度,能快速跟踪机动目标变化和抑制干扰,更有利于精准追踪导引的实现.分析两种算法对应的控制量曲线,如图7所示.
由图7可知,CGPC导引的采样时间选择灵活,不受采样周期的影响,能在较快的采样时间条件下反映时间常数的变化过程.结合具有一致性的微分对策性能指标的滚动优化反馈控制,通过连续时间的有效控制,使导引末端的控制量逐渐趋于零位.而GPC控制性能受采样时间的影响较大,不仅在初始段的调整力度大,而且在导引末端无法实现较好的收敛,不利于拦截器的控制稳定性.
图7 不同预测控制算法对应的控制量变化曲线Fig.7.Variation of the control value for different predictive control algorithms.
将NDG,GPC-NDG与CGPC-NDG算法分别应用于终端交会角约束为零的水下追踪博弈导引,并通过终端交会角偏差、脱靶量与交会时间进行导引性能分析与比较,结果见表1.
表1 不同导引律的追踪博弈结果Table 1.Results of different tracking game guidance laws.
从追踪博弈结果来看,采用CGPC-NDG算法的终端脱靶量和交会时间明显优于其他两种导引律.虽然GPC-NDG算法通过选取合适的检测周期,对机动目标参数进行延迟补偿与预判,其终端脱靶量和交会时间能够满足水下追踪博弈要求,但检测周期的选择需要一定的先验信息,而CGPCNDG算法克服了检测周期选取造成的目标漏检,通过连续时间滚动优化与反馈校正,推进水下微分对策动态博弈,使追踪器实时保持对机动目标的最大发现概率,从而获得优于GPC-NDG的追踪博弈结果.
由性能分析和追踪导引结果可知,GPC-NDG导引算法可灵活选择采样时间,对非最小相位系统也无需控制加权,能有效克服GPC设计方法的固有缺陷和微分对策导引的保守性,实现不确定干扰环境下探测方式受限时对水下机动目标的高精度最优在线追踪与预测校正.
提出了一种应用于不确定水声环境,在自导装置探测周期长的情况下,实现对机动未知目标的高精度最优在线追踪与预测校正的CGPC-NDG算法.该算法利用微分博弈动态对抗,使追踪器对机动目标追踪实施“最坏”情况下的“最佳”控制,有效克服目标机动难以预测的情形.同时,利用CGPC算法对目标机动偏离趋势进行预测,并进行在线校正补偿,将目标锁定于追踪器的最大俘获自导扇面范围之内,使追踪器在微分博弈对抗中处于信息优势地位,为提高追踪的精准性与快速性提供必要保障.动态对抗与预测控制两种算法的有效融合,使追踪器以几乎零延迟的速度,根据机动目标的运动轨迹调整自身姿态,实现对机动目标的有效追踪.对不同算法控制下追踪航迹和导引性能的仿真比较表明所提算法有效、可靠,对外界干扰具有强的鲁棒性,具有一定的工程应用价值.
[1]Dong Z P,Wan L,Li Y M,Liu T 2015Int.J.Nav.Arch.Ocean7 817
[2]Qin J X,Katsnelson B,Li Z L,Zhang R H,Luo W 2016Acta Acustica41 145(in Chinese)[秦继兴,Boris Katsnelson,李整林,张仁和,骆文2016声学学报41 145]
[3]Hu Z G,Li Z L,Zhang R H,Ren Y,Qin J X,He L 2016Acta Phys.Sin.65 014303(in Chinese)[胡治国,李整林,张仁和,任云,秦继兴,何利2016物理学报65 014303]
[4]Chen Y F,Li G J,Wang Z S,Zhang M W,Jia B 2013Acta Phys.Sin.62 084302(in Chinese)[陈云飞,李桂娟,王振山,张明伟,贾兵2013物理学报62 084302]
[5]Shojaei K,Dolatshahi M 2017Ocean Eng.133 244
[6]Zhang P,Fang Y W,Zhang F M,Xiao B S 2012Chinese J.Aeronaut.25 739
[7]Zhang Y,Xu Q,Sun M W,Chen Z Q 2015Acta Phys.Sin.64 010502(in Chinese)[张园,徐琦,孙明玮,陈增强2015物理学报64 010502]
[8]Yu G F,Li D F,Qiu J M,Ye Y F 2016Control Decis.31 2013(in Chinese)[余高锋,李登峰,邱锦明,叶银芳2016控制与决策31 2013]
[9]Wei H,Gao F,Wang D K,Wen G H,Pan L D 2007J.Syst.Sim.19 27(in Chinese)[魏环,高峰,王东凯,闻光辉,潘立登2007系统仿真学报19 27]
[10]Yong K H,Farouq S M,Hark K Y 2012Chem.Eng.84 479
[11]Oksendal B,Sulem A 2014J.Optimiz.Theory Appl.161 22
[12]Kamel O,Tou fik R,Mohand O 2014ISA Trasac.53 76
[13]Chen Y,Zhang R M,Zhao X Y 2016Ocean Eng.15 123
[14]Zhang H G,Wei Q L,Liu D R 2011Acta??????47 207
[15]Fu Y,Chai Y 2015Control Theory Appl.32 196(in Chinese)[富月,柴佑2015控制理论与应用 32 196]
[16]Liu X D,Li K,Sun J,Fu X L,Zhang C H 2015Control Theory Appl.32 1640(in Chinese)[刘旭东,李柯,孙静,符晓玲,张承慧2015控制理论与应用32 1640]
[17]Zhang P,Fang Y W,Hui X B 2013Acta Automatica Sin.39 391(in Chinese)[张平,方洋旺,惠晓滨 2013自动化学报39 391]
[18]Ping X B,Ding B C,Han C Z 2012Acta Automatica Sin.38 31(in Chinese)[平续斌,丁宝苍,韩崇昭 2012自动化学报38 31]
[19]Krid M,Benamar F,Lenain R 2017Int.J.Control Autom.15 303
[20]Yan Z P,Liu Y B,Zhou J J,Zhang W,Wang L 2017Chin.Phys.B4 79
[21]Sarkar M,Nandy S,Vadal S R K 2016Math.Comput.Simulat.121 34
[22]Li H P,Yan W S,Shi Y 2017Syst.Control Lett.75 144
[23]Gao J,Liu C X 2015J.Northwest Polytechnical Univ.33 861(in Chinese)[高剑,刘昌鑫 2015西北工业大学报33 861]
[24]He J Z,Fu T P,Wu X H 2011Comput.Dig.Eng.39 21(in Chinese)[何建忠,傅调平,吴晓海 2011计算机与数字工程39 21]
[25]Fan H,Zhang Y W,Li W Z 2008J.Northwest Polytechnical Univ.26 743(in Chinese)[范辉,张宇文,李文哲2008西北工业大学学报26 743]