李 樾,韩 维,仲维国
(1. 海军航空大学航空基础学院,烟台264001;2. 海军航空大学91206部队,青岛266108)
有人机/无人机协同作战是指在信息化、网络化及体系对抗环境下,有人机与无人机联合实施攻击的作战方式[1]。该协同方式通过平台及载荷类型的相互补充、平台性能的优势互补特别是对当前无人机自主水平的弥补,将无人机无缝融入到现代作战体系之中,同时有效提高了作战资源利用率、任务成功率、平台生存性,并缩短观察-调整-决策-行动(Oberve-Orient-Decide-Act,OODA)环路,最终提升协同作战系统的效费比,是潜在的第六代穿透型战机的发展方向之一[2]。该协同系统与其他编队系统的区别之处主要体现在以下两方面:一是有人机在协同系统中的安全性至关重要,无人机要不惜牺牲自己的方式保护有人机;二是有人机飞行员在作战中的作用更加关键,其不仅要控制有人机,还要依靠机载通讯网络兼顾指挥无人机,为其下达作战指令。
目前,对有人机/无人机协同系统的探索和研究是一个热点,文献[3-5]列出了该协同系统作战的几大关键技术和研究现状,主要包含有人机/无人机协同交互控制技术、协同态势感知技术、协同任务分配技术、协同航迹控制技术和协同效能评估技术等,但由于公开的关于有人机/无人机协同系统的技术研究较少,目前缺乏对上述关键技术的具体探讨和分析。基于此,本文从飞行动力学与控制学科角度出发,结合本课题组的一些最新研究成果,对有人机/无人机协同系统航迹控制这一关键技术进行梳理和总结。
首先,协同航迹规划是航迹控制的重要基础,是发挥系统联合突防作用的有效保证,其按照航迹生成的实时性可分为离线航迹规划和在线航迹规划。对于异构机群离线航迹规划,需要结合任务规划指标、飞行约束条件和战场环境等因素,设计协同飞行航路,以优化总体作战效能,这是一个具有复杂性和耦合性的多约束、多目标优化决策问题[6]。针对有人机/无人机协同系统,在考虑同构机群航迹规划的基础上,还应该着重考虑有人机的安全性和特殊性,为此可首先对有人机航迹进行规划,充分确保其飞行安全和任务实现,进而将有人机的航迹作为已知条件输入到无人机航迹规划器中,并重点设计和引入时空约束,即考虑无人机与有人机到达目标区域的时序约束、无人机终端状态量关系约束及其与有人机的防碰撞约束等,以确保无人机与有人机的有效协同。
在离线航迹规划的基础上,还需要考虑异构机群在线航迹机动调整技术,其主要应对中远程突发的机动障碍或内部队形调整等情况,这一技术可以有效保证协同系统航迹的灵活性变换。具体针对于有人机/无人机协同系统,应突出有人机的绝对领导地位,确保其在线机动调整的绝对安全。为此,还应当引入一定的在线调整策略,即通行法则。其思想是令无人机群为有人机航迹调整“让步”,优先调整有人机航迹,令有人机仅考虑外部障碍等不可控威胁,降低其机动带来的风险和难度,在此基础上进一步考虑无人机的机动调整。值得一提的是,必要时可令无人机选择“自杀”的方式抵消外部威胁,以确保有人机的安全。
其次,通过经典的OODA 作战理论[7]可以看出,决策环节对航迹控制起着关键作用,并且会影响整个作战平台的空战水平[8]。其中,近距空战中异构机群的智能机动决策技术,具有重要的研究价值,但同时也是一个难点。与异构机群在线航迹机动调整主要考虑中远距且机动性较弱、规律性较强的障碍不同,在近距空战中,敌我机群的机动变化剧烈,战场态势更迭迅速,对决策的实时性和智能程度要求更高。近年来,随着人工智能技术的普及,特别是深度强化学习理论的迅速发展,其凭借着不需要先验知识输入,仅依靠与环境交互“试错”实现自我学习的特点而具备了与近距空战决策进行结合的可能,同时该技术的运用可以极大地缓解有人机飞行员决策的压力,为其争取更多的时间去指挥调度整个有人机/无人机协同系统,从而最大限度地发挥协同系统的作战效力。
最后,在上述研究的基础上,研究风场环境下异构机群队形鲁棒控制技术,该技术是协同系统航迹控制的最终落脚点。按照无人机是否以伴飞的形式跟踪有人机,可以分为编队保持控制器的设计和单机航迹跟踪控制器的设计两个子关键技术。当无人机执行实时避障、空战打击等非伴飞任务时,其与有人机的地位是近乎平等的,可统一为单机航迹鲁棒控制器设计的问题,其目标是实现在风场影响下对已知航迹的快速稳定跟踪;当无人机协同有人机巡航或以固定编队队形执行其他伴飞任务时,有人机作为长机,其飞行航迹通过单机航迹鲁棒控制器实现,而无人机作为僚机,需设计鲁棒性较好的编队保持控制器以实现对有人机的跟踪。
目前,机群离线航迹规划从建模的方式上可分为两种,一种是基于加速度或过载等控制量来建立微分运动方程,将航迹规划作为最优控制问题进行研究;另一种是基于转弯角、航段长度而建立代数运动方程,相应的规划方法主要有图搜索、树搜索、势场法等[9]。由于利用前者进行建模的方式更容易与动力学控制接轨,因而在实际工程领域受到了更广泛的关注,其求解思路主要分为直接法和间接法。直接法将最优控制问题转化为有限维参数优化问题,用非线性规划方法进行求解,其缺点是求解精度不高;间接法则重点研究最优控制问题的一阶必要条件并将其转化为哈密顿边值问题,其缺点是收敛半径较小,对初值要求较高[10]。近年来,凸优化理论得到不断地完善,特别是在求解多维最优控制问题方面优势明显[11],其本质上属于直接法的一种,主要采用内点法进行求解[12],该理论在星际轨道转移、多智能体航迹规划以及无人机编队队形重构等领域均有应用。文献[13]以四旋翼为研究对象,将最优控制问题转化为若干二阶锥规划的子问题,并利用内点法求解机体避障航迹;文献[14]利用序列凸规划思想,将非凸最优控制问题近似为一系列凸优化子问题,解决了多无人机编队重构问题。
另一方面,对于机群时空约束的研究有以下方法:文献[15]针对无人机编队控制,研究了可行拓扑图的特征值分布规律,并以此解决了编队控制和观测信息时空一致性的问题;文献[16]设计了“时空解耦”特性的多分散控制体系结构,其将空间任务-路径跟踪和时间任务-协调编队进行了解耦;文献[17]针对复杂环境中的机器人的时空约束进行了研究,提出了一种具有时间约束的与或(And/OR)任务树方法对任务进行建模,并利用市场拍卖机制,解决了网络分区引起的候选者缺席问题。然而,目前针对基于时空约束的有人机/无人机机群离线航迹规划技术的研究较少,具有代表性的是文献[18]根据协同系统中有人机与无人机的任务特点,分别设计航迹规划器与编队规划器,并在编队规划器中引入协同时空约束条件,进而对两规划器模型进行近似与凸化,利用凸优化算法进行求解,并通过对比仿真,验证了凸优化算法在求解成功率和效率上的优势,并且验证了协同时空约束对提高系统飞行安全性的作用。
从上述分析中可以看出,将机群离线航迹规划问题视为最优控制问题进行求解是一个趋势,可采用的方法较多且不同程度的适用于有人机/无人机协同系统。同时,时空约束是异构机群离线航迹规划中需要着重考虑的约束是实现异构机群协同的重要保障,但目前该约束与有人机/无人机协同系统的结合还缺乏深入的研究,主要表现为对约束过于理想化的处理导致问题研究与实际工程脱轨、系统的异构特点特别是有人机的地位未能突显等,这些不足是该关键技术亟待解决的问题。
交互避障法是目前最常用的一种在线航迹机动调整的方法,主要包括势能域法、几何引导法。几何引导法又包括威胁锥法[19]、速度障碍物法[20]和几何微分法[21]等。由于速度障碍物法更为适用于复杂环境下的多障碍物避障,且对计算要求不高,因此该方法在单智能体实时避障的研究中被广泛采用。文献[22]根据机器人和障碍物的实时状态量,采取传统的速度障碍法对动态环境下的机器人进行航迹规划,文献[23]改进了速度障碍法,并将其运用到无人机领域,着重考虑了“潜在危险障碍”的影响和多障碍避障的问题,为无人机自主避障提供了依据。从目前文献来看,研究协同系统特别是有人机/无人机协同在线航迹机动调整的成果不多,主要受限于避障空间多停留在二维、对障碍物机动性的影响缺乏预测以及针对多机异构系统缺乏一套完整的通行法则等。其中,通行法则的设定也是为了保障有人机在实时航迹机动调整中的绝对优势地位,使得在遇到突发战场情况时,能首先保证协同系统中有人机飞行的安全,对于这方面的研究有:文献[24]在二维平面内根据飞机间的相对位置确定相应的通行法则,以确保同一空域内多机的飞行安全,不足之处在于未考虑外部障碍对系统中飞机的影响;文献[25]提出一种有人机/无人机协同系统的三维实时避障方法,其思想是将三维空间离散成若干避障平面,通过设定系统遭遇机动障碍时的通行法则,选择飞行模式,进而确定最佳的避障平面以实现有人机与无人机的协同避障。
从上述分析可以看出,在线航迹机动调整的关键是算法的效率和避障的效果,速度障碍法作为目前处理在线机动的典型算法,受到了广泛的关注。针对异构机群,通行法则的设定有利于提高协同系统机动调整的有序性,减少算法的求解空间,降低航迹的优化难度,提高求解效率。但目前的研究中,通行法则的设定还不够深入和系统,缺少一套权威的、专门适用于异构机群的通行法则,并且从现有的公开文献中,我们发现对于机动威胁的处理,还存在过于简化的情况,今后应在机动威胁的建模上花费更多精力。
目前空战机动决策的方法可大致分为两大类[26]:一类是以微分对策和专家系统为代表的传统方法;另一类是以遗传算法、影响图法、蚁群算法、人工免疫系统等为代表的智能方法。机动决策的核心在于预测未来的空战状态,但上述方法在长期预测方面不能取得良好的效果,主要受限于计算的复杂性等因素。近年来,人工智能技术在机动决策领域的应用得到了越来越多学者的关注,比较有代表性的有:2016年,美国辛辛那提大学研发了名为Alpha 的智能空战系统,其采用了遗传模糊随机树的思想,并在与著名的美国空军上校Gene Lee 的模拟空战对抗中取得了完胜[27];在同一年,美军提出了Commander′s Virtual Staff 项目[28],具体通过融合人工智能和信息系统的方式来减轻空战中指挥官在识别和认知战场态势方面的负担;2019年8月,美国空军研究实验室和DZYNE 公司联合开发了ROBOpilot 项目[29],其研发人员利用相机收集飞机仪表板数据,并使用机械传输设备控制操纵杆、踏板和开关等,以代替飞行员操纵指挥和分析飞行数据,进而与飞机进行交互;美国在2015年提出的忠诚僚机计划,旨在为飞行员提供合理且快速地空战建议[30]。但综合看来,目前人工智能技术在机动决策领域的应用主要存在以下三个不足:一是由动作空间离散化或者奖励函数简化等导致的决策模型失真的问题[31]。文献[32]提出了一种基于强化学习方法的无人机短程空战自主机动决策模型,根据离散控制的要求,采用了一种传统的求解离散空间的深度强化学习方法——深度Q 网络(DQN)算法,虽然该成果是对强化学习与空战决策相结合的一次有效探索,但决策模型过于理想化,导致结果与真实空战决策仍有差距。第二个不足是虽然不少学者通过改进提高了强化学习方法的效率,但面对高维复杂空战问题,仍存在计算效率问题。在这一方面比较有代表性的探索包括:DeepMind 公司在2016年提出了一种求解连续控制模型的算法——深度确定性策略梯度(DDPG)算法[33]。在此之后,2017年7月,OpenAI 公司引入了近端策略优化(PPO)方法[34],该方法是对策略优化体系的延伸,该方法具有信任区域策略优化的一些优点,但实现简单得多,效率更高。之后,DeepMind 公司在PPO方法的基础上又提出了分布式近端策略优化方法(DPPO)[35]。第三个不足是智能体机动决策的任务和目标相对单一,如无人机多以实现空战打击、无人车多以实现安全驾驶为目标,缺乏人为的有效干预和引导,不能充分发挥人在协同系统中的指挥协调作用,针对这一问题,文献[36]将标准Q 学习中状态到动机的二层映射,转变为动机引导的Q 学习状态-动机-动作的三层映射,并且用模拟退火算法的思想对强化学习过程进行了优化,但在动机层以及动机到动作规则的设计上采用的是IF-THEN 规则,具有较大的主观性,仍有改进空间。
就目前的研究现状而言,将深度强化学习与有人机/无人机智能决策理论相结合的研究相对较少,特别是对二者之间的适用性和可行性方面的研究更是比较匮乏,较为有代表性的是文献[37]将深度强化学习理论与有人/无人智能空战决策模型相结合,并创新地提出了四种典型的作战意图,具体包括:强攻、逃离、追击和能量积蓄,这四种意图分别对应不同的优化模型;该文献对传统的DDPG 算法进行了结构改进,主要针对经验池进行了重构设计,具体表现为增加了经验判断机制和改良了经验取样策略,其对于神经网络训练的收敛和稳定有积极作用;同时,该文献设计了空战自我博弈环节,通过不同意图之间的反复对抗训练,有效地提升了空战智能决策水平,这对于训练深度神经网络和最终实现真正的智能空战有着重要的指导意义。
综合上述分析,我们发现将深度强化学习理论与异构机群近距智能机动决策相结合是当今的研究热点和趋势,各军事强国都在大力推进相关技术的发展与研究,并取得了一定的成果。深度强化学习理论仍在不断发展之中,将其最新的理论成果运用到异构机群决策技术之中,降低飞行员的指挥难度,即达到仅在必要时刻才需要飞行员干预和决策的目的,以实现真正的智能空战,是今后的研究目标。
当无人机协同有人机执行非伴飞任务时,可将二者视为相互独立、地位平等的单智能体,此时研究队形控制时,只需设计单机航迹跟踪控制器。纵观飞行控制技术的发展,PID 控制作为经典理论控制方法的代表,被广泛运用到各类飞行器控制中,但该方法的参数调节是一个复杂繁琐的过程,特别是当无人机遇到外界扰动时,其控制精度较差。针对这一问题,现代控制技术中的鲁棒控制理论逐渐兴起,其能够有效应对包括外界干扰(如风场)及模型摄动引起的系统不确定性问题[38]。该理论包含Kharitonov 区间理论、H∞控制理论和结构奇异值理论(μ 理论)等,其中H∞控制理论通过设计反馈控制器,使闭环系统稳定且闭环传递函数阵的H∞范数最小或小于某一给定值,以达到被控对象满足理想性能要求的目标,这一理论应用最为广泛[39]:如文献[38]为解决无人机飞行过程中由于外界干扰及被控对象模型摄动引起的系统不确定性问题,对鲁棒H∞控制器进行了模型降阶和离散化,并通过半物理仿真验证了其良好的控制效果;文献[40]利用鲁棒H∞模型对其进行改进,设计了一种基于鲁棒H∞/S 面模型的控制方法,并针对该控制方法,以某型无人机为例进行了纵向飞行仿真试验、横侧向飞行仿真试验和模型参数不确定性的研究;文献[41]基于状态反馈H∞最优控制,对于小扰动假设下的无人机纵向飞行和无人机横侧向飞行的动态方程分别设计了对应的反馈控制器并拟通过频域分析的方式对其鲁棒稳定性进行分析。随着计算机硬件水平的不断提升,限制鲁棒控制理论应用的计算量较大的问题已逐渐解决,因而针对风场影响下的单机航迹跟踪控制器设计问题,运用鲁棒H∞等控制理论进行研究,是一个不错的选择。
另一方面,当无人机协同有人机进行伴飞时,无人机作为僚机,需设计鲁棒性较好的编队保持控制器以实现对长机即有人机的跟踪。目前,以有人机/无人机为研究对象的编队保持研究不是很多,我们可以从现有的多智能体编队控制中提取相关技术经验,如:文献[42]基于动态面方法设计了自主水下航行器编队控制律,使得自主水下航行器之间保持期望的距离,达到编队控制的目的;文献[43]针对多无人机集结期望的队形和达到稳态速度缓慢影响作战效率,基于反步推演法设计了一种协同导引控制律,用于解决多无人机快速队形重构和快速达到稳定状态;文献[44]针对四旋翼无人机群在轨迹跟踪过程中易受外界干扰而引起跟踪误差的问题,首先通过积分反步法(IBS)对所建四旋翼飞行器模型设计leader 无人机的轨迹跟踪控制器,其次设计了基于滑模法的控制器(SMC)以控制leader 与follower 无人机实现期望的编队队形并同时跟踪参考轨迹。从上述研究可以看出,现代控制方法中典型代表之一——反步法,在多智能体队形保持控制器设计上应用广泛,其以李雅普(Lyapunov)理论为基础,设计子系统期望的虚拟输入信号,然后反馈给控制器得到真实子系统的控制输入。该控制方法在处理非线性、不确定性影响问题时有良好的效果,并且收敛速度很快。
综上可知,异构机群队形鲁棒控制技术包含单机航迹跟踪控制器设计和编队保持控制器设计两个子技术。现代控制技术中一些相对成熟的控制理论可以引入到两类控制器的设计中。目前,国内关于有人机/无人机异构机群队形鲁棒控制的飞行试验成果尚属空白。实验室仿真与真实的风场等不确定环境下的飞行试验,这两者在验证控制方法效果上还有一定的差距,今后应重点开展利用飞行试验验证相关关键技术的研究。
有人机/无人机协同系统的研究是新兴的一大热点,其符合未来战争的发展方向。本文从飞行动力学与控制学科的角度出发,对协同系统的航迹控制问题进行了探讨,对其中的关键技术进行了梳理和总结。研究发现,该协同系统与现有的多智能体编队在航迹控制方面既有联系又有不同。联系在于二者之间的关键技术有相通之处,许多已有的求解思路和成熟理论可以在有人机/无人机协同系统中得以借鉴和使用;而不同之处在于,有人机/无人机协同系统的航迹控制更为复杂,需要考虑的约束更多,特别是该系统中有人机的地位特殊,一方面要充分考虑其飞行安全,另一方面,又要通过设计辅助决策系统,协助有人机飞行员指挥控制整个系统的航迹,进而发挥联合作战的优势,为打赢未来高技术局部战争打下基础。
在今后有人机/无人机协同系统航迹控制领域,还可以针对特殊机型研究大迎角、过失速的机动,以完成特殊的空战任务,增加战术的多样性;另外,可以对面向作战的有人机引导下的大规模无人机编队的航迹控制进行探索,即“蜂群战术”,这需要在建立通信拓扑的基础上,设计更为复杂和庞大的控制系统,这都是未来有人机/无人机协同系统航迹控制发展的新挑战。