方洋旺,邓天博,符文星
(1.西北工业大学无人系统技术研究院,西安710072;2.西北工业大学航天学院,西安710072)
导弹制导系统是导弹的指挥官,承担着决策指令生成的重要任务,即结合外部信息(环境、目标、干扰)和导弹自身的内部信息按一定规律导引和控制导弹飞向目标或预定轨迹。导引头获取的外部信息的准确性从根本上决定了指挥官决策的准确性,在信息准确的基础上,导引方法则极大地影响指挥官的决策质量。
战场环境日益复杂的发展趋势对技术也提出了更多的要求,传统的制导系统面临挑战:对外,针对性地提升不同导引系统的信息获取能力;对内,克服信息质量问题实现精确制导。因此,导弹制导系统能力综合提升对于实现单兵作战效能最大化显得尤为重要。现代控制理论的工程应用和智能控制理论的不断发展为制导系统解决复杂环境下目标探测、识别、跟踪以及精确打击提供多样化选择。
智能导弹是未来导弹的发展方向,智能制导系统是导弹智能决策的基础。本文对导弹智能制导系统的应用现状进行介绍,探讨了智能制导系统的研究现状并在此基础上提出智能导弹集群、探测制导一体化等技术发展方向,旨在为未来智能制导系统的发展提供思路。
目前,伴随着人工智能的热潮席卷全球,世界各大军事强国都在紧锣密鼓地着手于智能导弹的研发。尽管从总体上来说真正意义上的智能导弹还没有出现,但已初具雏形,在导航制导、目标识别、任务规划等方面都呈现出了智能化的特点[1]。其中,最具代表的是以下三种型号[2-4]。
2009年,美国国防预先研究计划局与洛克希德·马丁公司导弹和火控分公司签订了发展远程反舰导弹(Long Range Anti-Ship Missile,LRASM)的第一阶段合同。远程反舰导弹项目由美国国防高级研究计划局和美国海军研究办公室共同出资开展,承包商为洛克希德·马丁公司和火控分公司负责,旨在开发并验证一种全所未有的远程反舰导弹。
在洛克希德·马丁公司发布的关于LRASM 的宣传片中,美国海军航母编队F-18 战机挂载LRASM 起飞执行作战任务。在监视卫星发现敌方海上舰艇编队目标后,向指挥中心发送关于目标的相关数据信息。舰上作战指挥系统根据作战需求,发射了两枚舰载LRASM,通过数据链由舰艇向导弹传输目标指示信息,随后F-18 战机发射一枚LRASM。LRASM 之间通过数据链进行通讯,可在GPS 拒止条件下正常工作,并在线规划路线。在飞行过程中,LRASM 可自主感知威胁,并对威胁自主进行建模,实现在线路线规划,绕过威胁。LRASM飞到末端时,首先使用被动远距离探测目标,完成虚假目标剔除、高价值目标识别和锁定,并降低高度进行超低空突防,在距离目标较近时使用成像导引头实现目标薄弱部位识别,最终完成打击任务。
LRASM 被美国海军称为人工智能导弹。其空射版已经于2018年首先列装了美国空军第28轰炸机联队。LRASM 在自主感知威胁、自主在线航迹规划、多弹协同、目标价值等级划分、目标识别等方面的智能化水平极高。其中,自主在线航迹规划、多弹协同等包含了智能制导律的相关理论和技术。
锆石高超声速反舰导弹(3M22)由俄罗斯战术导弹集团下属的俄罗斯机械制造科研生产联合体NPOM负责研制[5]。锆石反舰导弹以超燃冲压发动机为主要动力,根据飞行弹道的不同,其最远射程从350 km 到500 km 不等,飞行速度可达马赫数5~10,具有很强的机动和突防能力。
锆石反舰导弹智能化水平主要体现在制导系统作战自主性和对抗水平方面。一组锆石导弹在执行打击任务时会进行“自我协调”,编组成一个整体的导弹打击群,协同对目标发起攻击,使得目标难以防御。在锆石导弹的目标引导程序中集成了人工智能数据,使得导弹不仅能够对抗敌电子干扰手段,而且还能够自主规避敌防空火力的打击。为了消除对目标的误判,在导弹的弹载计算机中预先储存了现代主要舰艇的图像,可供导引头在选择机动方式和攻击指定目标时进行校正。此外,锆石导弹还能够按重要性对目标进行分类,然后根据预定的程序自主选定攻击战术和攻击实施方案,攻击其中最重要的目标。
锆石导弹上不仅可安装雷达自导头,还可安装用于搜索和探测目标的光电系统,并可加装数据链,具备了自主规避威胁能力。
其智能制导律算法主要体现在:能够自主选择目标,动态实时地选择合适的、满足规避威胁要求,且还能有效攻击所选择目标的制导律。
挪威导弹(Naval Strike Missile,NSM)号称“全球唯一第五代反舰导弹”[6]。由美国雷锡恩公司与挪威康斯伯格海事公司联合研发。2018年6月,美军宣布其濒海舰(Littoral Combat Ship,LCS)和新型护卫舰将使用挪威研制的隐身反舰导弹NSM。这也意味着NSM 击败了波音公司提出的“鱼叉”增程型方案和洛克希德·马丁公司的LRASM 舰射型导弹。
NSM 采用成型弹体、正常气动布局、折叠式上翼、4个尾舵的结构布局,该导弹采用红外隐身外形设计,末段可进行三维迂回机动,有高达200 个途径点的航路规划能力。NSM 于2010年服役,主要用来装备挪威海军南森级护卫舰和导弹快艇。
NSM采用了高清晰度红外成像导引头,能够清晰分辨远处目标的外轮廓,制导系统的目标分类软件可进行自动目标识别。这样就可以通过发射前的程序设计,选择目标的薄弱部位或者关键部位进行攻击。当导弹处于不利攻击阵位时,智能软件可以控制导弹通过战术机动,占领有利攻击阵位,对目标实施最佳效果的攻击。在对目标实施多弹攻击时,可对每枚导弹的攻击飞行路线进行设定,并可设定不同的攻击部位,可使一枚或几枚导弹从对方拦截的盲区对目标舰发起攻击。这种攻击方法,可使导弹达成一定意义的协同,互相配合,达到最好的攻击效果。
其智能制导算法主要体现在:一是智能改变末端弹道和进入角度以满足攻击目标的薄弱部位或者关键部位的要求;二是将协同制导和智能制导相结合实时规划出有利的飞行弹道实现多枚导弹同时攻击目标的不同部位,提高打击效果。
随着人工智能技术的不断发展及其在武器装备上的应用,武器的智能化逐渐改变着未来战争的面貌。为满足未来战争“智能、快速、精确、高效”的作战需求,现有导弹需加快智能化步伐。而导弹智能化可概括为两个特征:一是电子对抗和智能抗干扰,即在复杂战场环境下,可对敌方发出的大量干扰信号进行有效识别而不被干扰信息打断、诱骗;二是智能打击目标,即能够自主根据目标当前情况控制发射与否,并检测目标状态做出积极响应。其中前者可理解为导引头的智能识别技术,而后者即为基于可观测信息的智能制导技术。下面将围绕智能制导技术中所涉及的智能制导方法进行综述。
(1)基于神经网络求解的局部智能制导律
最优制导律设计问题本质上是最优控制问题,而最优控制问题只有在很少的情况下能获得解析表达式;最优制导律所涉及的弹目运动模型通常是非线性的,只有进行大量的假设简化之后才能给出解析表达式,这些假设不但会影响制导律的适应范围,而且会影响制导律的精度。特别是在实际工程应用中存在各种约束条件,如过载约束、角度约束、速度约束等都会影响最优制导律表达式的求解。为了求解带有各种约束条件的弹目运动模型的最优制导律,研究人员开始将神经网络理论应用到制导律的求解中。Song 等[7]通过训练神经网络建立了最优制导律表达式与弹目相对状态之间的函数关系。尽管无法获取精确的制导方程,但通过设定一些终止条件,制导律仍可通过训练神经网络获得。张汝川等[8]利用Hopfield 神经网络在线实时求解最优制导问题,同时为了在拦截有界机动目标时视线角速率趋于0,将滑模控制理论引入到制导律的设计中,并利用Lyapunov稳定性理论对该制导律的稳定性进行了证明。
基于有限滚动时域的最优制导律本质上是局部最优制导律,主要是解决各种约束条件下非线性最优制导律难以在整个优化时间求解的难题而提出来的。其主要思想是将整个优化时间区域划分为一系列时间片,然后在每个时间片上滚动地求解局部最优制导律。虽简化了计算难点,但解析仍然难以获得。因此,基于模型的鲁棒预测控制理论,Li 等[9]研究了导弹的拦截问题,在有限滚动时域上使用基于线性变分不等式的原始-对偶神经网络来求解约束二次规划(Quadratic Programming,QP)问题,利用多参数QP问题的在线解,实时做出有约束的最优控制决策。
(2)基于神经网络参数估计的局部智能制导律
由于滑模制导律不受弹目运动模型的限制而且易于获得解析表达式,因此获得广泛的应用。然而,滑模制导律的不足之处在于存在抖振现象,而且对外部干扰包括目标机动的处理,通常将其当作干扰项,采用鲁棒的方式进行处理,从而影响制导精度。为了解决上述问题,人们将神经网络引入滑模制导中,要么解决抖振问题,要么解决干扰项的估计问题。Shao 等[10]利用径向基函数(Radial Basis Function,RBF)神经网络实时估计目标运动信息,减少三维运动模型中的耦合干扰。从而使制导律能够自适应参数的变化,提高了制导律的鲁棒性。Li 等[11]提出了一种用于拦截具有落角和横向加速度指令约束的非机动目标的制导律,该制导律将滑模控制方法与小波神经网络相结合,提高了系统的鲁棒性,减小了系统的抖振。Lai等[12]基于Lyapunov稳定性理论,提出了一种基于非线性扩张状态观测器的神经自适应快速终端滑模动态面控制方法,保证了系统的稳定性。李解等[13]为提高末制导精度,根据滑模变结构理论推导了一种基于零化视线角速率的滑模制导律,利用RBF神经网络对切换项增益进行在线估计,并将所设计的RBF滑模制导律与滑模制导律、比例导引律进行仿真对比。佟廷帅等[14]为了解决滑模制导律在拦截高速、大机动目标存在视线角速率抖振现象以及忽略自动驾驶仪动态特性等问题,结合变结构控制理论和神经网络,提出一种基于RBF 神经网络调节增益的滑模制导律。
(3)基于模糊参数估计的局部智能制导律
滑模制导律存在抖振现象,以及对外部干扰包括目标机动的处理(通常将其当作干扰项处理)难以满足工程应用要求。对于此方面的问题,除了用神经网络进行估计补偿之外,还可以采用模糊推理进行逼近,其优点是模糊神经网络隐层少,结构简单。针对滑模变结构制导律难以避免的抖动问题,温先福等[15]提出用模糊神经网络去逼近滑模制导律的抖振项,从而达到消除抖动的目的,但遗憾的是,该文未给出详细的模糊规则,而且也未给出收敛性证明。针对空中高速、大机动目标的拦截问题,周德云等[16]在变结构控制理论的基础上,提出了三维自适应变结构制导律,将目标加速度视为外界干扰,设计了一种快速趋近律,并利用模糊RBF网络的高效自学习能力对变结构项的增益进行了在线估计,实现对变结构项的自适应调节,从而减小了抖振项。Wang 等[17]针对空中高速、大机动目标的拦截问题,在考虑加速度约束和自动驾驶仪动态特性的情况下,设计了滑模变结构制导律,并通过构建五条模糊规则获得模糊基函数,设计模糊控制器逼近变结构项,并设计径向基网络估计目标加速度项,同时给出了基于上述逼近项的滑模制导律收敛性证明。
(4)基于强化学习参数估计的局部智能制导律
由于一般制导律设计都是在弹目运动模型确定的情况下获得的,目标及外部环境一旦产生一些不确定的变化,制导律就难以适应此变化,从而导致制导精度下降。而强化学习正好具有学习外部环境不断变化的能力。张秦浩等[18]以传统的比例制导律为基础,提出基于强化学习的方法学习比例系数,实现自适应变比例系数的制导算法。该算法以视线角变化率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。该算法虽然具有学习的功能,但由于只考虑改变比例导引律的比例系数,仍无法解决目标机动以及各种干扰条件下的精确制导问题,而且,比例制导律的最优比例系数就是最优制导律的比例系数,因此,即使再自适应的改变,理论上也不会好于最优制导律。
(5)基于强化学习模型的局部智能制导律
强化学习还可以动态的学习一些带有不确定因素和随机因素的模型。Liang 等[19]提出了一种基于模型的深度强化学习方法,首先基于模型预测控制(Model Predictive Control,MPC)制导律结构,然后利用深度神经网络逼近制导动力学的预测模型,并将其纳入模型预测路径积分控制框架,利用元学习技术使深层神经动力学模型能够在线适应不同的目标机动、其他扰动和执行器故障等情况,并在此基础上设计了变速拦截器在执行器失效情况下拦截机动目标的制导律。此方法的优点是MPC 制导律容易处理各种约束,用于求解;而且采用深度强化学习方法可以学习不确定情况下制导动力学的预测模型,从而,确保所设计的制导律具有适应各种复杂环境的能力。
(1)全局神经网络智能制导律
对于在各种复杂干扰环境和目标作大机动情形下,弹目运动模型不但是高度非线性,而且是不确定的、随机的模型,同时受到各种状态和终端约束,因此,很难基于常规的控制方法设计制导律。只能使用具有学习、推理能力,且能处理随机性、不确定性问题的神经网络来设计制导律。考虑到神经网络强大的近似能力,一些国外学者用其取代传统制导律以提高制导律计算效率。其中,Rajagopalan 等[20-21]详细地分析了使用神经网络设计制导律的可行性及优势。徐洋[22]针对红外空空导弹在目标机动和红外诱饵干扰情况下利用长短期记忆(Long-Short Term Memory,LSTM)网络设计具有抗干扰能力的智能制导律。Filici 等[23]考虑到扰动的随机性,设计了一款在线神经网络制导律。一旦扰动出现,神经网络就会进行在线补偿。
(2)全局模糊智能制导律
模糊推理可以单独用来设计控制器,因此也可以用来单独的设计模糊制导律。针对地空导弹拦截攻击弹的制导问题,Wang 等[24]首先将拦截弹的制导问题转化为拦截弹跟踪地面雷达探测目标视线的问题,然后设计一种模糊神经网络(Fuzzy Neural Network,FNN)控制器,用于逼近拦截弹跟踪控制器,仿真结果表明:所设计的控制器能够完成导弹制导任务,且计算量远小于使用小脑模型神经网络控制器(Cerebellar Model Articulation Controller,CMAC)。Lin[25]同时考虑了目标机动、转弯延时、控制系统延时、闪烁噪声等一系列影响因素后,通过三种不同的神经网络优化器,设计了一种模糊神经网络制导律,最终的脱靶量、过载以及拦截时间都要低于传统制导律。
(3)全局强化学习智能制导律
强化学习通过状态集、动作集、奖赏函数以及外部环境可以形成一个闭环,通过不断的学习,最终就能获得最优的结果,因此,完全可以将制导过程转化为强化学习的闭环模型,通过强化学习方法,可以获得基于强化学习的制导律。基于强化学习方法,Gaudet 等[26]设计了制导律,并能够保证其最优性,文章表明该制导方法要明显优于传统比例导引法。在此基础上,Gaudet 等[27]又提出了一种只需要导引头视线角及其变化率组成的观测值,不再需要估计距离的制导律。该制导律使用强化元学习进行了优化,优化后在不同的目标加速度情况下都可以稳定视线角速率,同时文中说明在能获得较为完善的目标加速度信息的情况下,此制导律比增强型零控脱靶量制导律具有更好的性能。Lee等[28]研究了导弹-目标追逃问题,其中导弹采用纯比例导引方法,而目标则利用强化学习算法以实现躲避策略。
自适应最优控制方法也可以看作是一种特殊的强化学习方法,它是一种有模型的强化学习。目前,已将该方法应用到最优制导律设计中,解决非线性最优制导律无法求解的难题。孙景亮等[29]对自适应最优控制方法在制导律设计中的应用进行了综述研究。Han 等[30]在导弹输入受约束情况,引入自适应评价网络设计了制导律以保证导弹可在最短时间内由初始马赫数增长到终端马赫数;又利用自适应评价网络结构,进行了中段制导律的设计。
导弹作为强有力的攻击手段,在攻守双方的博弈中起着不可或缺的作用,未来的战争是智能化的战争,导弹的智能化势在必行,制导系统因其指挥官的核心作用连接着外部环境和导弹自身,与人工智能技术的结合势必对作战效能的提高起着决定性的作用。人工智能技术的不断发展对武器研制有极强的推动作用,必将深刻影响制导理论的发展。因此,未来智能制导律的可能发展方向和发展趋势如下。
(1)分布式多源异构信息融合条件下的单智能体局部智能制导律
在复杂战场环境下单一模式的探测装置受到物理属性、干扰因素的限制,其探测、识别能力都有限,无法满足作战需求,如远程空空导弹中制导阶段,载机雷达探测目标特别是隐身目标距离难以满足要求,需要位于不同空间位置的多源异构多传感器协同探测,进行分布式多源异构信息融合后获得制导系统所需要的目标信息。由于复杂战场环境下即使通过多传感器探测并利用信息融合处理获得的目标信息,仍然不可避免地存在目标识别准确率不高、目标估计信息精度下降和不稳定、目标信息传输延时和丢包等问题,对于此类复杂目标信息情况下,现有的制导律难以适用,需要设计针对上述复杂多变目标信息的制导律。对于此类问题,可以考虑根据所获取的目标信息的质量、完整性进行分类,对不同的信息采用不同的制导律,然后进行切换或加权。至于分类方法和加权系数的处理,可以考虑充分利用人工智能强大的学习推理能力如神经网络或强化学习的方法来处理,从而获得多源信息融合条件下的智能制导律。也可以直接基于分布式多源异构信息融合下目标复杂多变信息对制导影响的主要特征参数,构建合适的深度学习神经网络,通过离线和在线学习的方法获得智能制导律。
(2)多约束和不确定条件下的单智能体智能制导律
复杂的作战环境和作战需求及飞行器探测和动力配置方式的多样化等给飞行器制导控制带来一系列的约束问题。如为了保证杀伤效果,通常要求飞行器以特定的弹道和特定角度攻击目标,即对速度方向和终端交汇角产生约束;同时,由于受到自身物理属性和发动机推力的限制,其过载也受到约束;另外,对于空中目标,还会受到目标机动和释放干扰等不确定因素的影响,这显然是一个多约束和不确定条件下的制导问题。如果是高超飞行器,对攻角、飞行速度、飞行航迹和飞行姿态有更严格的约束以及热流造成飞行器的弹性变形等随机不确定因素等。因此,需要深入研究满足多约束和不确定条件下的制导律问题。可能的思路是先放宽约束条件和建立粗略的不确定模型,利用现有的控制理论设计带有约束变量和不确定参量的制导律;然后,构建仿真系统,在遍历所要约束条件和不确定环境下进行大量的制导仿真,获得带有标签的样本;接着利用人工智能中神经网络或强化学习等强大学习和推理能力,自适应的估计出约束变量和不确定的参量,从而获得多约束和不确定条件下的智能制导律。也可以直接基于约束条件和不确定环境下对制导影响的主要特征参数,构建合适的深度学习神经网络,通过离线和在线性学习的方法获得智能制导律。
(1)多智能体协同智能制导律
近年来,集群智能作为人工智能的一个主要方向获得快速发展,并被广泛应用到无人机编队、机器人编队等协同制导控制中。对于多飞行器协同制导来说,目前主要基于多智能体一致性理论设计协同制导律,解决的主要是网络的拓扑结构、通信和防碰撞等多智能体相互之间的制导影响以及一致性条件是否满足的问题,没有将上述的多源信息融合条件下或多约束不确定条件下的实际影响因素与协同制导设计问题结合。因此,需要对此进行深入研究,可能的研究方向包括:分布式多维多源异构信息融合下的多飞行器协同智能制导律研究;带有通信延时和防碰撞条件下的多无人飞行器协同智能制导律研究;基于强化学习的多飞行器非线性协同智能制导律研究等。
(2)目标和任务变化下的多智能体智能制导律
当多智能体在攻击目标特别是集群目标时,由于距离较远且目标群无法分开,一开始分配给多智能体的目标可能是一个粗略的目标,等到多智能体能清楚探测、识别具体目标时,需要实时调整任务和再次分配目标。在此过程中,如何进行智能自主制导将是需要研究的问题,即目标和任务动态变化情况下的制导问题。可以考虑采用以下两种思路:一是将目标和任务分类组合,针对每一种组合设计相应的制导律,再采用人工智能中神经网络或强化学习等方法构建学习推理模型,自主地识别目标和任务的分类,学习相应的制导律参数,实现自主智能制导;二是构建仿真环境,在遍历目标和任务情况下,进行大量的制导仿真获取样本,然后构建神经网络或强化学习模型,采用离线学习和动态调整相结合的方法,实现智能自主制导。
智能制导律代表了未来制导律的发展方向,智能化导弹能够在战场上发挥指挥官的作用,对战场全面统筹、监控战场态势,做出相应决策,对战局有举足轻重的影响。国外发达国家已经在智能化导弹的研制上取得建树,因此研究新型智能制导律的意义重大。面对当今世界科学技术高速发展和新军事变革的迅猛推进,加速导弹智能化技术的研究,是巩固我国大国地位,实现“能打仗,打胜仗”的关键所在。