飞行器博弈制导进程与展望

2024-06-03 14:49郭建国陆东陈周敏
航空兵器 2024年2期
关键词:智能算法

郭建国 陆东陈 周敏

摘 要:博弈制导可处理复杂系统中涉及多方合作、 竞争的动态问题, 有利于实现智能化战场上信息价值最大化发挥, 推动精确制导武器的智能化发展。 本文总结了博弈制导的基本分类和建模方法, 从终端角度约束、 时间约束、 过载约束、 末速约束等方面提出了飞行器博弈制导的关键性问题, 搭建了矩阵博弈、 微分博弈两种典型博弈模型求解框架, 从解析解、 数值解、 智能算法等方面对博弈制导的求解方法进行梳理。 最后, 从非线性微分博弈求解方法, 非完备信息博弈算法, 不均衡、 非对称信息下多飞行器协同, 多类型武器体系博弈等方向出发, 对飞行器博弈制导未来的发展趋势进行了展望和总结。

关键词:  博弈制导; 微分博弈; 矩阵博弈; 智能算法; 自适应算法

中图分类号:  TJ765; V249

文献标识码: A

文章编号:  1673-5048(2024)02-0008-09

DOI: 10.12132/ISSN.1673-5048.2024.0022

0 引  言

随着飞行器种类的不断增加、 飞行任务的复杂化以及飞行性能的优化需求, 传统制导系统在应对多智能体环境、 不确定性和动态性方面显得愈发力不从心。 为解决这些问题, 新的方法和理论不断涌现, 推动着制导技术向高精度和智能化方向发展, 飞行器制导系统产生了巨大变革, 其中博弈制导技术的崛起无疑成为引领这一变革的先锋。

博弈制导的理论最早由Isaacs[1]提出。 20世纪80年代和90年代初期, 随着博弈论在多领域的发展, 研究者开始将博弈论引入飞行器制导领域, 博弈制导[2-7]的理论框架逐渐建立。 博弈制导的概念并非局限于对手与对手之间的竞争, 更是一种综合性的智能控制范式。 博弈理论和制导控制理论的有机结合提供了一种有效框架来分析多方参与、 相互竞争或合作的决策过程, 将博弈理论引入飞行器制导研究能够更精准地构建阵营对抗态势, 综合考虑对手信息制定制导策略, 在不同信息优势下获取最优制导策略, 实现对战场的全局把控。

20世纪末期, 针对不同目标、 不同环境的博弈制导系统设计需求, 研究者开始将博弈制导应用于实际问题, 逐渐深入研究博弈模型的构建和求解方法。 博弈制导的本质是一种考虑双方行为和反应的制导方法, 其所追求的不仅是单一飞行器的最优控制策略, 更是在复杂、 动态环境下实现多智能体之间的协同与对抗。 这种博弈思维的引入, 使得飞行器能够更为智能地应对诸如多体协同打击等复杂情境。 通过分析博弈策略, 飞行器能够在动态变化的环境中做出实时决策, 提高任务执行的适应性和鲁棒性。 相比于经典制导方法, 博弈制导具有如下优势: (1)动态适应性, 即博弈制导能够根据对手的策略实时调整自身策略。 (2)预测能力, 即能够预测并应对可能的反制措施。 (3)决策优化, 即在多目标、 多威胁环境下提供优化的制导决策。 (4)复杂场景, 即更适合处理高度动态和不确定的战场环境。 相比之下, 常规制导律通常基于固定算法或预设条件, 可能在复杂或快速变化的环境中表现不足。 而博弈制导的灵活性和适应性使其在现代复杂战场环境中更具优势。

21世纪初期, 随着对多智能体系统研究的兴起, 博弈制导开始更多地与多智能体系统理论相结合。 这使得研究者能够更全面地考虑导弹与目标以及其他智能体间的相互作用; 近年来, 随着强化学习和深度学习的兴起, 一些研究开始探索这些方法在博弈制导中的应用, 包括使用强化学习算法优化导弹的制导策略, 以适应复杂和动态的战场环境。

尽管博弈制导技术带来了显著的优势, 但在实际应用中仍然面临一系列挑战, 如博弈模型建立、 博弈模型求解等。 本文将深入研究博弈制导技术在飞行器领域的应用, 从一对一追逃博弈到多体协同对抗, 从基础理论到智能算法, 探討其对飞行器制导领域的影响与推动作用, 并展望博弈制导技术在飞行器领域的发展趋势。

1 博弈制导模型建立

博弈制导模型的基本要素包括参与者、 策略、 收益、 信息四个方面, 根据实际制导场景对四要素进行定义。

(1) 参与者: 即参与博弈且拥有决策权的各方阵营。 根据攻防场景, 将各飞行器按照目的进行阵营划分, 从对抗角度来看, 一对一攻防场景可划分为追击方和逃逸方, 多飞行器对抗场景按战场态势分为攻击方和防御方, 其中多飞行器对抗场景下往往蕴含着协同合作, 可建模为合作博弈模型。

(2) 策略: 一局博弈中每个参与者的完整的博弈行动方案称为参与者的策略。 制导问题的本质为得到一种满足各种约束需求的制导律, 主要分为两类: 一是根据制导需求, 考虑各种约束条件进行制导律设计, 即微分博弈问题; 二是在已有的机动策略库中通过比较分析, 选取一种最优的制导律, 多建立为矩阵博弈问题。 此外, 一对一攻防博弈中双方策略一般为完全对抗策略, 多体对抗的策略设计中往往需要考虑相同阵营间的协同合作问题。

(3) 收益: 一局博弈结束时的结果称为收益, 一般为包含参与者博弈策略的函数, 用于评价博弈策略的好坏。 博弈制导模型中的得失一般为以控制指令和状态为变量的性能函数, 用以表征控制策略的优劣程度。 性能函数的设计需要考虑实际制导问题中的各种约束条件以及制导性能, 包括脱靶量、 角度误差等终端约束和带有控制量和误差积分形式的过程约束。

(4) 信息: 即博弈各参与者对其他参与者的信息掌握程度。 博弈制导中的信息主要包括动力学模型、 控制执行机构、 机动策略以及表征收益的性能函数等。 一般情况下对各阵营间飞行器建立相同的动力学模型, 并假定具有理想的控制执行机构, 结合状态转移矩阵用零控脱靶量或脱靶量建立当前状态下制导策略与收益的映射关系。

博弈制导数学模型可表示为

x·=f(x, u)(1)

J=(x(tf))+∫L(x(τ), u(τ), w(τ), τ)dτ(2)

式(1)为系统模型, 式(2)为性能函数。 其中, (x(tf))为终端型性能指标; L(x(τ), u(τ), w(τ), τ)为积分型性能指标; u(τ), w(τ)为双方机动策略。 双方通过选取博弈策略分别使得性能函数达到极大或极小:

u*=minu∈UJ(u, w)

w*=maxw∈WJ(u, w) (3)

结合博弈相关理论, 对该模型进行纳什均衡解[8](u*, w*)的求取, 使得式(4)成立:

J(u*, w)≤J(u*, w*)≤J(u, w*)(4)

非合作博弈考虑对对方阵营飞行器的机动能力、 机动策略的掌握情况, 当已知对方机动策略时, 转化为最优控制问题; 当对方飞行器策略未知时, 建立博弈模型进行纳什均衡解的求取, 根据信息的掌握情况选取不同的模型求解方法。

纳什均衡是一种相对平衡状态, 本质是各阵营间的策略组合, 每个决策者都在对方阵营策略给定的情况下做出最佳反应, 参与方均不具有单方面改变策略的动机, 是博弈制导问题中最常见的解的形式。

2 博弈制导研究现状及关键性问题

在飞行器博弈制导中, 除了制导精度的表征脱靶量外, 还期望己方具有更多的打击优势, 从而对终端角度、 剩余时间、 过载受限、 飞行末速等方面提出需求, 并结合研究现状对飞行器博弈制导的关键问题进行梳理。

2.1 多种约束问题研究现状

(1) 终端角度约束

对坦克、 舰艇、 航空母舰等大型攻击目标而言, 不同碰撞角度下的毁伤效果有所差异, 对于新型飞行器, 不同角度的探测效果也有所不同。 终端角度约束是指制导武器在攻击末段应达到的特定攻击角度, 保证最优探测效果的同时达到最大杀伤效果。

终端角度约束制导方法由 Kim 等[9]首次提出, 目前针对终端角度约束的制导律已有很多研究, 主要包括: 基于比例导引, 如偏置比例导引[10-12]; 基于现代控制理论, 如最优控制[13]、 自适应变结构控制[14-15]等; 基于几何曲线[16]、 优化理论以及协同打击[17]等其他类型的制导方法。 有关终端角度约束的研究大多针对地面固定目标或匀加速直线运动目标, 未考虑目标机动情况。

微分博弈制导律能在击中目标的同时满足特定的性能需求, 适用于解决机动目标下的终端角度约束问题。 文献[18]基于线性高斯伪谱模型预测控制(LGPMPC)方法, 结合了线性正交最优控制、 模型预测控制和高斯伪谱法, 解决了具有二次性能指标和硬终端约束的非线性最优控制问题, 但耗时较长; Shaferman等[19]考虑了终端角度约束问题, 按照目标机动是否已知分别推导了微分博弈制导律和最优制导律, 在目标机动时也具有较好的打击效果, 但该方法假定导弹机动不受限制; 文献[20-21]沿用Shaferman等人的思想, 推导出一个有偏置的最优制导律, 所提出的制导律适合于拦截高速机动的目标, 并且在临近终点时需要较小的制导指令, 可以成功避免指令饱和, 但参数选取是一大难点。

(2) 剩余时间约束

在导弹制导和空间交会等场景中, 通过估算目标到达时间(即剩余飞行时间)来调整制导策略, 以提高制导的效率和准确性。 剩余时间约束多用于协同制导问题, 要求飞行器在同一时刻到达目标位移, 以实现对目标的围捕, 达到协同效果; 剩余时间约束也可用于优化制导算法, 确保飞行器能在最短时间内击中目标, 有助于减少目标逃逸概率, 同时提高制导系统对快速变化情况的适应能力。

近年来, 研究者们通过引入时间优化模型或引入偏置项来满足剩余时间的约束。 文献[22]在最优导引律中引入时变修正项, 实现了对导弹飞行时间的准确控制; 文献[23]基于二维制导模型, 在小角度假設下推导了剩余飞行时间的估算模型, 通过构造时间误差和滑模面,设计了一种无奇异点的时间约束末制导律, 能够控制导弹以期望的攻击时间击中目标点, 并通过设计附加项解决制导律的控制奇异问题; 文献[24] 针对空空导弹期望时间拦截强机动目标问题, 提出一种不依赖剩余时间估计的新型攻击时间约束滑模制导律; 文献[25]结合一致性算法设计分布式制导律, 并基于李雅普诺夫理论证明系统在有限时间收敛, 可以实现同时打击。

(3) 过载能量约束

受物理结构和动力系统的限制, 飞行器的可用过载并不能满足所有的制导指令需求, 因此在进行制导律设计时需要考虑过载约束问题。 目前在飞行器博弈制导中过载约束问题的研究主要包括两个方向: 一是以过载二次型积分形式为性能函数的能量最优问题, 也被称为过载“软约束”问题; 二是严格保证过载不超限的“硬约束”问题。

在博弈制导中的微分博弈模型能够有效解决各种约束问题, 针对“软约束”问题, 借助最优控制理论求得微分博弈模型的纳什均衡解, 但这往往存在小区间内的过载发散问题, 因此过载硬约束问题的研究非常重要。 目前大多数研究者通过施加饱和控制来避免过载超限问题, 很少从根本上将过载约束考虑进制导律的设计中。 文献[26]提出一种带有时变加速度限制的微分博弈制导律; 文献[27-28]提出一种考虑加速度硬约束的组合线性二次型制导律, 采用分段思想, 在制导初段预先将状态约束到一个奇异博弈空间, 在该博弈空间能够保证飞行器在实现末制导打击的同时, 制导指令不超出可用过载。

(4) 末速最大约束

高末速可以增强穿透力和破坏力, 提升攻击的有效性, 末速最大约束用于确保制导武器在接近目标时保持较高速度, 这对于打击高机动性目标尤为关键。 研究者们通过改善推进系统和优化飞行轨迹来实现高末速。 在博弈制导中, 可建立控制量与末速度间的映射关系, 将末速度作为终端约束引入性能指标, 然后借助博弈模型进行求解, 但目前的研究较少。

2.2 博弈制导关键性问题

博弈制导的关键内容包括两部分: 准确的博弈模型是博弈制导的必要前提条件; 模型求解的真实可靠性是实现制导的决定性因素。

(1) 博弈模型的准确性问题

博弈模型是对制导问题的数学描述, 其通过物理学联系、 理想假设等过程, 将一个制导问题转化成数学问题。 在实际背景下, 简化过程的合理性是衡量数学描述准确性的标准, 也影响基于博弈解设计制导律的有效性。 真实的制导模型是一个复杂的非线性系统, 目前的研究主要分为两大方向: 一是基于小角度假设等方法进行线性化, 基于线性模型进行求解; 二是对于复杂非线性模型, 借助自适应算法进行近似解的求取。 前者的线性化条件较为理想, 适用场景受限。 后者的模型更为准确, 但受限于数学理论的不足, 难以求取解析解; 同时数值解的逼近效果受方法的影响, 神经网络等智能算法虽有较好的自适应效果, 但未将物理信息考虑在内, 在某种意义上是对已知信息资源的浪费。

(2) 博弈模型求解难点

对于线性模型, 当前多借助于状态转移矩阵得到零控脱靶量, 以零控脱靶量为新变量进行博弈模型降维与问题重构。 在推导计算过程中, 双边问题的求解大多忽略了双方机动导致的相对运动关系耦合因素, 而是仿照单边问题的求解方法进行推导运算。 对于非线性模型, 神经网络等自适应算法一则未用到物理信息, 二则其逼近效果和收敛速度很大程度上依赖于自适应参数的初值选取和自适应更新律的设计, 这些问题都依赖于数学方法的进一步研究和应用。

3 博弈制导方法

博弈制导问题通常假定各阵营间的博弈无时间序列性, 属于静态博弈范畴, 且当前的博弈制导研究主要集中于完全信息博弈, 根据博弈策略的连续性分别用矩阵博弈和微分博弈求取纳什均衡, 并基于纳什均衡进行制导律设计。 矩阵博弈是典型的静态博弈算法, 多用于解决离散型决策问题, 即每个参与者有一组明确的、 有限的策略可供选择, 通过求解博弈矩阵, 选取最优纳什均衡解并得到对应制导策略; 微分博弈又称微分对策, 是一种涉及在动态系统中的两个或多个参与者之间的竞争或合作的最优控制方法, 适用于连续时间或连续策略的情景, 借助最优控制理论进行求解。

3.1 矩阵博弈

矩阵博弈将博弈过程以矩阵形式呈现出来, 矩阵元素为双方采取对应行/列策略下的收益函数, 通过求解博弈矩阵得到均衡解。 矩阵博弈主要包括策略库建立、 收益函数设计、 博弈矩阵建立、 求解和优化策略四部分内容。

(1) 首先根据双方的可用策略建立机动策略库, 博弈矩阵的维数取决于双方的可用策略数;

(2) 结合实际制导场景设计博弈收益函数, 对不同博弈策略产生的博弈结果进行量化表征;

(3) 对于每个参与者, 将不同策略下的博弈结果量化填充到矩阵中, 矩阵中的每个元素代表了当各方选择特定策略组合时的收益或损失;

(4) 分析和优化策略: 通过分析矩阵寻找纳什均衡点, 即在此点上没有任何一方能够通过单方面改变策略来获得更好的结果。

二人有限零和博弈可用数组G={U, W, R, X, Y}表示, 其中: U={u1, u2, …, um}, W={w1, w2, …, wn}分别表示博弈参与者双方阵营P1, P2的策略集合; R=[rij]m×n代表支付矩阵, 当参与者P1, P2分别选择策略ui(i=1, …, m)和策略wj(j=1, …, n)时, rij表示对应策略下的收益值。

在混合策略情况下, 参与者分别以概率pi, qj选取策略ui, wj, 则有

X={p=(p1, p2, …, pm)T|∑mi=1pi=1, pi≥0}

Y={q=(q1, q2, …, qn)T|∑nj=1qj=1, qj≥0} (5)

式中: X, Y为参与者的混合策略空间, 期望收益函数为

E(p, q)=pRqT=∑mi=1∑nj=1rijpiqj(6)

对于该模型, 若存在p*∈X, q*∈Y, 使得式(7)成立, 则称(p*, q*)为博弈G的纳什均衡解:

E(p, q*)≤E(p*, q*)≤E(p*, q)(7)

矩阵博弈的求解方法包括但不限于线性规划、 极小极大算法、 动态规划、 进化算法和机器学习等。 受限于策略空间的离散性质, 矩阵博弈仅适用于策略层级的博弈, 在制导律设计中的应用研究较少。 李博文[29]、 孙传鹏[30]以不同系数下的比例导引律为例将矩阵博弈用于制导问题, 考虑目标机动的不确定性, 采用滚动时域算法和粒子群优化算法求取了均衡解。

3.2 微分博弈

在微分博弈[31-47]中, 参与者的策略随时间连续变化, 每个参与方通过选择合适的控制变量来实现最小化或最大化性能指标。 微分博弈包括动力学微分方程建立、 约束条件和性能函数选取、 微分博弈求解和制导律设计四部分内容。

根据动力学模型的復杂程度可分为线性二次型微分博弈和非线性微分博弈。

(1)  线性二次型微分博弈

假定系统状态模型为线性:

X·(t)=A(t)X(t)+B(t)U(t)(8)

结合状态转移矩阵构建当前状态下不同控制指令对应的终端状态间的映射关系, 用零控脱靶量、 零控角脱靶量等来表征终端状态, 同时实现模型降维, 降低计算复杂度。 性能指标为二次型形式:

J=(x(tf)) + 12∫tft[eT(τ)Q(τ)e(τ) +

UT(τ)R(τ)U(τ)]dτ(9)

通过选取哈密顿函数, 结合最优控制理论和极值原理得到控制方程、 协态方程、 横截条件, 联立求得最优控制解析解为

u*(t)=-R-1u(t)BTu(t)Pu(t)x(t)

w*(t)=-R-1w(t)BTw(t)Pw(t)x(t) (10)

其中, P(t)满足如下Riccati方程:

P·=-P(t)A-ATP(t)+P(t)BR-1BTP(t)-QP(tf)=F (11)

这也进一步实现了将博弈制导问题转化为Riccati方程求解问题。 对于线性动力学模型而言, 一般选定参数矩阵Q, R为正定对角阵, 进一步简化求解Riccati方程, 得到u*(t), w*(t)解析表达式, 并进行制导律设计。

在实际应用领域, 飞行器动力学模型具有非线性、 时变性、 不确定性等特点, 这导致式(11)非常复杂, 目前的数学手段难以支撑非线性Riccati方程的求解。 因此, 数值方法和智能算法的结合受到众多学者的青睐与推崇。

(2) 非线性微分博弈

研究非线性微分博弈的方法分为定量方法和定性方法。 定量方法以求解均衡点、 均衡点所对应的最优控制策略以及相应的代价函数为目的; 定性方法则以对抗中某种预期结果能否实现为研究目的, 分析界栅存在性和位置, 以期在对抗中处于有利地位。 定量微分博弈所用的方法为双方极值原理和变分方法, 将求解微分博弈最优控制策略问题转化为求一组HJI(Hamilton-Jacobi-Isaacs)方程的问题。

依托最优控制理论、 庞特里亚金极大值原理等, 博弈制导模型的求解转化为HJI方程的求解。 HJI方程是HJB(Hamilton-Jacobi-Bellman)方程的一个推广, 用于描述在动态博弈场景中的最优策略。 HJI方程的求解通常比HJB方程更复杂, 涉及双边极值。 目前常规的求解方法可大致分为解析法, 数值法以及智能算法, 如图1所示。

a. 解析法

当控制系统和动态系统具有高度对称性时, 可采用分离变量法[47]进行解析解求取。 假设解可写成多个变量的乘积形式, 将假设形式代入HJI方程, 得到一系列常微分方程, 分别求解这些常微分方程, 并将得到的各部分解组合起来, 即可构造HJI方程的解。

特征线法[48]的主要思想是将HJB方程转化为一组常微分方程, 通过跟踪特征线求解最优控制和最优值函数的解。 其核心概念是在状态空间中沿着特征线传播信息, 从而找到最优解。 求解流程为: 从HJI方程出发, 构造相应的特征方程组, 通过解这组常微分方程, 得到特征曲线; 在特征曲线上, HJI方程的解可表示为沿特征曲线的简单函数, 通过特征曲线回代, 得到原偏微分方程的解。

当HJI方程不能精确求解时, 可使用微扰方法[47]近似求解。 选择一个合适的基准解, 在基准解上加入小的扰动, 构造扩展解; 将扩展解代入HJI方程, 得到扰动方程; 求解扰动方程, 获得对基准解的修正。

上述解析法中, 特征线法直观性强, 对很多一阶非线性偏微分方程均有效, 但对于具有复杂边界条件或在高维空间中的方程, 特征线法可能难以应用, 且这种方法通常只能提供局部解, 无法得到全局解; 分离变量法仅适用于方程或边界条件具有高度对称性的场景; 微扰方法只适用于扰动较小的情况, 大扰动可能导致解的不准确或失效, 且需要一个合适的基准解, 但对于复杂问题而言, 基准解的获取本身就是个很大挑战。

文献[28]考虑加速度受限的制导问题, 将有界控制问题转化为柯西问题, 并且借助特征线法求得解析解。 基于微扰方法和分离变量法的求解因条件过于苛刻, 尚未应用到制导领域。 因此, 在非线性微分博弈问题中, 解析解的适用范围非常之小, 众多学者开始进行数值法的研究。

b. 数值法

数值法[48]也是先将微分博弈问题看成一个双边或多边最优控制问题, 将最优控制问题转化成一个等效问题, 然后用数值优化的方法来求解该等效问题。 其中, 转化方法主要有直接法和间接法两类。

直接法是通过把原始最优控制问题的控制变量或状态变量离散和参数化, 从而实现将连续系统最优控制问题转化为一个非线性规划问题(NLP), 求解NLP问题获得原最优控制问题的最优解, 主要包括直接打靶法和配点法。 该方法不需要推导原始问题的一阶最优性必要条件, 对初值估计精度要求不高, 但容易收敛到局部最优解。

间接法是基于最优化理论之一的Pontryagin极大值原理推导原始最优控制问题的一阶最优性必要条件, 从而构造原始最优控制问题的Hamiltonian边值问题(HBVP), 求解该边值问题, 即可获得原始最优控制问题的最优解。 解的精度较高且最优解满足一阶最优性必要条件, 但求解两点边值问题时的收敛域很小, 对未知边界条件的初值估计精度要求很高。

基于直接法的算法如联立迭代分解正交配置法(SOCD)[49]、 联立直接间接混合法(SSD)等可求解带有障碍、 边界受限等复杂场景下的微分博弈问题, 目标函数多为终端型或混合型性能指标。 基于间接法的算法如自适应动态规划(ADP)等多用于求解彈道规划、 制导轨迹优化等问题, 目标函数多为积分型性能函数问题; 此外, 滚动时域优化算法(RHO)还可用于求解部分场景实时变化等不确定性条件下的微分博弈问题。 在状态空间较大或动作空间连续的情况下, 数值法计算复杂度高, 对于连续问题, 离散化过程会引入误差, 目前数值法多与智能算法结合呈现。

c. 智能算法

相比传统博弈求解方法, 智能算法在解决飞行器博弈制导问题方面展现明显优势 [50-63]: 一方面, 其能精确建模复杂环境, 适用于多智能体博弈的复杂情境; 另一方面, 其能实时决策且自主学习、 适应, 更适用于处理非凸、 多阶段、 不确定等复杂博弈场景。 目前的智能博弈求解方法包括仿生优化算法、 机器学习、 强化学习等。

仿生优化算法是指模拟自然界中生物种群的某些现象和规律, 以搜索得到问题的解, 主要包括遗传算法(GA)、 粒子群算法(PSO)、 模拟退火算法(SA)等。 谢子涵采用混合策略博弈理论对双方的策略进行扩展, 将拦截弹的制导策略选择问题转化为一个具有等式约束的多参数优化问题, 并采用改进的粒子群算法进行优化[50]; 文献[51-52]采用混沌量子粒子群优化(CQPSO)算法求解非线性微分博弈问题, 文献[53]将现代生物遗传算法引入到对策问题的均衡解计算中来, 设计了求解有限n人非合作对策的纳什均衡解的遗传算法模型, 并通过双矩阵对策的例题验证了算法的有效性; 文献[54]提出一种自适应邻域模拟退火算法, 在不减少问题解的条件下, 解决了多解的非合作n人对策问题; 文献[55]把基于模拟退火的粒子群算法(SA-PSO)作为优化策略, 将一种改进的SA-PSO作为非线性模型预测控制(NMPC)的优化技术, 在保留PSO快速简单的全局寻优特点下, 利用SA跳出局部最优的能力, 通过引入模拟退火算法跳出局部最优, 并自适应调整权重参数, 提升了系统收敛性能。

机器学习算法从数据中学习总结模型的规律及特征, 在博弈制导问题中以神经网络应用最为广泛。 强化学习指通过与环境的交互实现自主学习的过程, 主要包括值迭代学习和策略迭代学习。 在微分博弈求解中, 機器学习与强化学习相互融合, 多以自适应神经网络的各种形式呈现。

针对多智能体间不完全信息随机博弈问题, 文献[56]将神经虚拟自博弈 (NFSP)应用到小型实时策略(Mini-RTS), 证明了NFSP可以有效地与策略梯度强化学习相结合; 文献[57]将虚拟自博弈(FSP)与软策略演员-评论家(SAC)相结合, SAC的引入使得FSP能够处理具有连续、 高维观测和动作空间的问题; 文献[58] 通过构建一类启发式连续奖励函数, 设计一种自适应渐进式学习方法, 提出一种快速稳定收敛训练方法, 解决深度强化学习训练过程中的稀疏奖励问题, 实现智能博弈算法的稳定快速收敛; 文献[59]将综合评价网络引入到策略梯度方法中, 形成训练智能体自主学习的自博弈演员-批评者(SPAC)方法, 仿真结果表明, 该方法下智能体表现优于深度确定性策略梯度(DDPG)和近端策略优化(PPO)算法。

针对传统微分博弈制导律的求解极度依赖模型的复杂度, 复杂系统导致维数爆炸问题, 文献[60-61]利用自适应动态规划(ADP)方法, 引入评价神经网络逼近最优代价函数, 得到攻防博弈双方的最优指令; 文献[62]引入策略迭代思想, 通过策略评估和策略提高进行循环来逼近微分博弈的鞍点解, 同时采用多项式拟合的方法逼近价值函数, 以避免非线性偏微分方程的求解。 刘子超等人针对固定目标拦截问题, 通过引入深度监督学习网络提高深度强化学习训练效率, 提出一种基于预测校正的角度约束制导方法[12]。 文献[63]基于深度确定性策略梯度强化学习算法, 提出一种权衡制导精度、 能量消耗和拦截时间的拦截制导方法, 有效应用于随机弱机动目标拦截场景。

4 挑战和未来方向

4.1 面临的挑战

(1) 模型不确定性博弈问题

微分博弈和矩阵博弈等都是假定飞行器具有理想且精准的动力学模型, 而实际应用中, 模型不确定性问题给博弈制导造成了很大困难。 图2所示为模型不确定控制系统结构图。

首先, 模型不确定性使得飞行器的动力学特性难以精确预测, 导致制定的策略可能无法精确适应实际情况。 这种不确定性可能来源于飞行器本身的性能变化、 环境因素或者对手飞行器的未知行为。 其次, 不确定性增加了策略设计的复杂度, 飞行器必须在缺乏完整信息的情况下做出决策, 这要求策略具有更高的适应性和鲁棒性。 此外, 不确定性也增加了多目标优化的难度, 使得在动态变化的环境中平衡各种目标(如安全、 效率和能耗)变得更加困难。 总之, 模型不确定性要求博弈制导算法不仅要能有效应对预测性挑战, 还要能灵活适应不可预见的环境和对手行为变化。

(2) 非对称信息博弈制导挑战

非对称信息在博弈制导问题中引入的挑战主要体现在信息不平衡给决策带来的高度复杂性。 当参与博弈的飞行器拥有的信息数据量和信息质量不一致时, 其决策效率和准确性会受到影响。 这种信息差异可能导致某些飞行器在制定策略时处于劣势, 因为无法完全预测或理解对手的行动和意图。 此外, 非对称信息还可能增加制导策略的不确定性, 因为飞行器必须在部分未知的环境中作出反应。 这要求策略设计不仅要考虑当前的信息状态, 还要能够适应可能的信息变化和不确定性。 在多飞行器博弈制导中, 有效管理和利用非对称信息成为一个关键的挑战, 需要算法具备更高的智能性和适应性以应对这种复杂的信息环境。

(3) 多飞行器博弈制导问题

多飞行器博弈制导问题结合了控制论和博弈论, 核心在于多个飞行器在空中执行策略互动, 以实现各自目标任务。 这个问题的难点主要体现在以下几个方面: 首先, 每个飞行器都有独立的动力学模型, 相互作用导致系统总体表现出非线性和高复杂性; 其次, 飞行器在博弈中往往不能获取关于其他飞行器的完整信息; 此外, 策略设计需考虑对手行动和环境变化, 要求算法具备高度适应性和智能性; 多目标优化也是一个重点问题, 如能量最小化、 攻击效率最大化与飞行安全等目标往往相互冲突, 需妥善平衡, 处理协同与竞争关系也至关重要。 为应对这些挑战, 可采用非线性控制理论、 博弈论、 机器学习和人工智能等方法, 在提高飞行器性能和安全性的同时, 也为理解复杂系统动态行为提供新视角。

(4) 多类型武器体系协同对抗挑战

面向涵盖火炮、 舰艇、 无人机、 导弹等多种武器类型的复杂体系交战场景, 要求总控系统发挥“首脑作用”, 对来袭的多武器体系进行战略部署, 以期夺取体系对抗的胜利。 多类型武器体系协同对抗时, 不同武器系统的作用形式不同, 杀伤效果不同, 面向不同目标的作战效能也有所不同, 且各武器类型间的协同配合效果难以准确描述, 这不仅对交战场景的模型建立带来了挑战, 也对能力评估、 协同打击、 任务分配等提出了更高需求。

解决这些问题需要对多智能体系统、 博弈论和信息论等领域的深入理解, 以及创新性的博弈制导算法和决策策略的设计。 这些关键问题的解决将有助于推动飞行器博弈制导技术的发展, 为未来的智能飞行器系统提供更强大、 灵活、 鲁棒的导航与控制能力。

4.2 未来研究方向

(1) 非线性微分博弈求解方向

由于数学理论的高度理想性, 分离变量法、 微扰方法、 特征线法等在非线性微分博弈的解析求解中的适用范围十分有限。 虽然基于最优控制理论下的微分博弈求解手段相对成熟, 但对双边问题的求解多套用单边最优控制问题求解方法, 并未从双边博弈角度出发进行研究, 因此可探索极小化极大值方法、 博弈树等经典博弈算法在博弈制导问题中的应用。 此外, 基于固定点迭代、 蒙特卡洛树搜索等的数值方法与强化学习等智能算法的结合应用仍用很大研究空间。

(2) 非完备信息下新型博弈算法

博弈制导研究大多聚焦于完备信息领域, 假定双方均掌控对方的全部信息, 在此基础上进行最优策略制定, 而对于非完备信息博弈制导的研究仍有很大空白。 自博弈理论就是一种非完备信息下的博弈方法, 假定对方飞行器和我方飞行器有相同动力学模型并且采取平均策略, 针对平均策略学习交替最优策略, 实现自我博弈。 主要算法包括虚擬对局(Fictitious Play)、 虚拟自我对局(Fictitious Self-Play)、 全幅扩展式虚拟对局(Full-Width Extensive-Form Fictitious Play)等。

(3) 不对称信息下博弈算法

量子博弈是以量子信息论为基础, 将信息拓展为量子信息, 进而把经典概率空间拓展到量子概率空间, 能够有效应对不对称信息问题。 量子博弈的本质是采用量子信息中的干涉、 纠缠、 不确定等特性构建博弈中各参与者间的复杂关系, 从量子信息角度出发解决, 其最大特点为可以通过量子纠缠建立各参与者间的复杂相互作用关系。 在多体博弈问题中, 各合作方之间存在协同和制约并行的复杂调和问题, 量子博弈的出现为解决此类问题提供了新思路。

(4) 不均衡能力下多对多协同博弈制导

博弈制导研究多围绕制导律的设计问题, 对于非均衡多对多协同对抗问题, 飞行器能力的参差不齐对任务分配和协同制导带来了挑战。 针对这一问题, 可在原有基础上进行延伸探索对抗阵营间的制导能力, 基于博弈制导模型分析评估实现拦截各个飞行器的制导能力需求, 比如过载比、 速度比、 完成制导任务的最小配置需求, 将上述需求作为先验指导信息, 有效应用于战前策略制定、 任务分配等问题, 进而生成博弈策略, 达到飞行器能力资源最大化利用, 提高全局协同效能。

(5) 多武器平台体系化战场战术博弈

博弈论的优势还体现于对抗策略制定和战场决策生成等方面。 面向空天地海等多平台协同作战场景, 考虑海陆空等平台各自优势及作战效能, 结合博弈模型生成最优战术决策及各平台任务分配方案, 获取协同作战场景下的最优战术, 形成集信息系统、 指挥控制、 作战平台为一体的智能化作战体系, 推动全平台体系化智能作战策略的发展。

参考文献:

[1] Isaacs R. Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization[J].The Mathematical Gazette, 1965, 51(375): 80-81.

[2] Ben-Asher J Z, Yaesh I. Advances in Missile Guidance Theory[M]∥Zarchan P. Progress in Astronautics and Aeronautics, Reston,  AIAA, 1998.

[3] Shinar J, Siegel A W, Gold Y I. On the Analysis of a Complex Differential Game Using Artificial Intelligence Techniques[C]∥ 27th IEEE Conference on Decision and Control, 1988: 1436-1441.

[4] Faruqi F A. Intelligent 3-Party Game Theoretic Approach to Missile Guidance[C]∥AIAA Guidance, Navigation, and Control Conference, 2012.

[5] Faruqi F A. Integrated Navigation, Guidance, and Control of Missile Systems: 3-D Dynamic Model, DSTO-TR-2805 [R].2013.

[6] Shinar J, Guelman M, Silberman G, et al. On Optimal Missile Avoidance-A Comparison between Optimal Control and Differential Game Solutions[C]∥ IEEE International Conference on Control and Applications, 1989: 453-459.

[7] Shinar J, Shima T. A Game Theoretical Interceptor Guidance Law for Ballistic Missile Defence[C]∥35th IEEE Conference on Decision and Control, 1996: 2780-2785.

[8] Basar T,  Olsder G J. Dynamic Noncooperative Game Theory[M]. 2nd ed. Philadelphia: Society for Industrial and Applied Mathema-tics, 1999.

[9] Kim M, Grider K. Terminal Guidance for Impact Attitude Angle Constrained Flight Trajectories[J]. IEEE Transactions on Aerospace and Electronic Systems, 1973, 9(6): 852-859.

[10] 嚴鹏辉, 刘刚, 缪前树. 基于落角约束的偏置比例导引律的研究[J]. 现代防御技术, 2021, 49(6): 49-54.

Yan Penghui, Liu Gang, Miao Qianshu. Research on Bias Proportional Navigation Guidance Law Based on Terminal Impact Angle Constraint[J]. Modern Defence Technology, 2021, 49(6): 49-54.(in Chinese)

[11] 王晓海, 孟秀云, 周峰, 等. 基于偏置比例导引的落角约束滑模制导律[J]. 系统工程与电子技术, 2021, 43(5): 1295-1302.

Wang Xiaohai, Meng Xiuyun, Zhou Feng, et al. Sliding Mode Guidance Law with Impact Angle Constraint Based on Bias Proportional Navigation[J]. Systems Engineering and Electronics, 2021, 43(5): 1295-1302.(in Chinese)

[12] 刘子超, 王江, 何绍溟, 等. 基于预测校正的落角约束计算制导方法[J]. 航空学报, 2022, 43(8): 325433.

Liu Zichao, Wang Jiang, He Shaoming, et al. A Computational Gui-dance Algorithm for Impact Angle Control Based on Predictor-Corrector Concept[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43(8): 325433. (in Chinese)

[13] 刘强, 范英飚. 基于最优控制的落角约束攻击设计[J]. 海军航空工程学院学报, 2007, 22(2): 215-218.

Liu Qiang, Fan Yingbiao. Design of Guidance Law and Controller of Missile with Terminal Angular Constraint Based on Optimal Control[J]. Journal of Naval Aeronautical and Astronautical University, 2007, 22(2): 215-218.(in Chinese)

[14] 赵斌, 朱传祥, 仝云, 等. 基于自适应滑模观测器的终端角度约束制导律[J]. 空天防御, 2019, 2(4): 19-24.

Zhao Bin, Zhu Chuanxiang, Tong Yun, et al. Adaptive Sliding Mode Observer Based Impact Angle Constraint Guidance Law[J]. Air & Space Defense, 2019, 2(4): 19-24.(in Chinese)

[15] 李晓宝, 赵国荣, 刘帅, 等. 考虑攻击角度和视场角约束的自适应终端滑模制导律[J]. 控制与决策, 2020, 35(10): 2336-2344.

Li Xiaobao, Zhao Guorong, Liu Shuai, et al. Adaptive Terminal Sliding Mode Guidance Law with Impact Angle and Field-of-View Constraints[J]. Control and Decision, 2020, 35(10): 2336-2344.(in Chinese)

[16] Kim B, Kim Y W, Cho N, et al. Collision-Geometry-Based Optimal Guidance for High-Speed Target[J]. Aerospace Science and Technology, 2021, 115: 106766.

[17] 张明洋, 晁涛, 杨明. 带有攻击角约束的机动目标协同拦截制导律[J]. 战术导弹技术, 2022(4): 78-89.

Zhang Mingyang, Chao Tao, Yang Ming. Cooperative Interception Guidance Law for Maneuvering Target with Impact Angle Constraint[J]. Tactical Missile Technology, 2022(4): 78-89.(in Chinese)

[18] He X C, Chen W C, Yang L. An Intercept Guidance Law with Impact-Angle-Constrained Based on Linear Gauss Pseudospectral Model Predictive Control[C]∥IEEE 10th International Conference on Mechanical and Aerospace Engineering (ICMAE), 2019: 229-235.

[19] Shaferman V, Shima T. Linear Quadratic Guidance Laws for Imposing a Terminal Intercept Angle[J]. Journal of Guidance, Control, and Dynamics, 2008, 31(5): 1400-1412.

[20] Xu X, Liang Y. Biased Optimal Guidance Law with Specified Velocity Rendezvous Angle Constraint[J]. The Aeronautical Journal, 2015, 119(1220): 1287-1299.

[21] Xu X Y, Liang Y L, Cai Y L. A Mathematic Model on Differential Game Based Flight-Path Angle Control Guidance Law[J]. 2017, 2: 203-213.

[22] 王宇翔. 一种具有时间约束的最优导引律设计方法[J]. 解放军理工大学学报: 自然科学版, 2015, 16(1): 68-73.

Wang Yuxiang. Design of Optimal Guidance Law with Flying Time Constraint[J]. Journal of PLA University of Science and Techno-logy: Natural Science Edition, 2015, 16(1): 68-73.(in Chinese)

[23] 张璐. 中程弹道导彈动力学分析与时间约束末制导律设计[D]. 哈尔滨: 哈尔滨工业大学, 2022.

Zhang Lu. Dynamics Analysis of Medium Range Ballistic Missile and Design of Time Constrained Terminal Guidance Law[D].Harbin: Harbin Institute of Technology, 2022. (in Chinese)

[24] 张晨欣, 王宁宇, 王小刚. 空空导弹反强机动目标时间约束滑模制导律[J]. 宇航学报, 2023, 44(10): 1544-1554.

Zhang Chenxin, Wang Ningyu, Wang Xiaogang. Time-Constrained Sliding Mode Guidance Law of Air-to-Air Missile against Strong Maneuvering Target[J]. Journal of Astronautics, 2023, 44(10): 1544-1554.(in Chinese)

[25] 张世强, 李群生, 何金刚. 考虑通信拓扑切换的多导弹协同制导研究[J/OL].航空兵器, doi: 10.12132/ISSN.1673-5048.2023.0099.

Zhang Shiqiang, Li Qunsheng, He Jingang. Cooperative Multi-Missile Guidance Research Considering Communication Topology Switching [J/OL]. Aero Weaponry, doi: 10.12132/ISSN.1673-5048.2023.0099. (in Chinese)

[26] Qi N M, Liu Y F, Sun X L. Differential Game Guidance Law for Interceptor Missiles with a Time-Varying Lateral Acceleration Limit[J]. Transactions of the Japan Society for Aeronautical and Space Sciences, 2011, 54(185/186): 189-197.

[27] Shima T, Shinar J. Time-Varying Linear Pursuit-Evasion Game Models with Bounded Controls[J]. Journal of Guidance, Control, and Dynamics, 2002, 25(3): 425-432.

[28] Turetsky V, Weiss M, Shima T. A Combined Linear-Quadratic/Bounded Control Differential Game Guidance Law[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 57(5): 3452-3462.

[29] 李博文. 基于博弈論的导弹拦截制导律研究[D]. 沈阳: 沈阳理工大学, 2017.

Li Bowen. Research on Missile Interception Guidance Law Based on Game Theory[D].Shenyang: Shenyang Ligong University, 2017. (in Chinese)

[30] 孙传鹏. 基于博弈论的拦截制导问题研究[D]. 哈尔滨: 哈尔滨工业大学, 2014.

Sun Chuanpeng. Research on Interception Guidance Based on Game Theory[D]. Harbin: Harbin Institute of Technology, 2014. (in Chinese)

[31] Battistini S, Shima T. Differential Games Missile Guidance with Bearings-only Measurements[J]. IEEE Transactions on Aerospace and Electronic Systems, 2014, 50(4): 2906-2915.

[32] Rusnak I, Weiss H, Eliav R, et al. Missile Guidance with Constrained Intercept Body Angle[J]. IEEE Transactions on Aerospace and Electronic Systems, 2014, 50(2): 1445-1453.

[33] Shima T, Golan O M. Linear Quadratic Differential Games Guidance Law for Dual Controlled Missiles[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43(3): 834-842.

[34] Weiss M, Shima T. Linear Quadratic Optimal Control-Based Missile Guidance Law with Obstacle Avoidance[J]. IEEE Transactions on Aerospace and Electronic Systems, 2019, 55(1): 205-214.

[35] Balhance N, Weiss M, Shima T. Cooperative Guidance Law for Intrasalvo Tracking[J]. Journal of Guidance, Control, and Dynamics, 2017, 40(6): 1441-1456.

[36] Shaferman V, Shima T. Cooperative Differential Games Guidance Laws for Imposing a Relative Intercept Angle[J]. Journal of Guidance, Control, and Dynamics, 2017, 40(10): 2465-2480.

[37] Shima T. Intercept-Angle Guidance[J]. Journal of Guidance, Control, and Dynamics, 2011, 34(2): 484-492.

[38] Taub I, Shima T. Intercept Angle Missile Guidance under Time Varying Acceleration Bounds[J]. Journal of Guidance, Control, and Dynamics, 2013, 36(3): 686-699.

[39] Tsalik R, Shima T. Inscribed Angle Guidance[J]. Journal of Guidance, Control, and Dynamics, 2015, 38(1): 30-40.

[40] Perelman A, Shima T, Rusnak I. Cooperative Differential Games Strategies for Active Aircraft Protection from a Homing Missile[J]. Journal of Guidance, Control, and Dynamics, 2011, 34(3): 761-773.

[41] Rusnak I, Weiss H, Eliav R, et al. Missile Guidance with Constrained Terminal Body Angle[C]∥IEEE 26th Convention of Electrical and Electronics Engineers in Israel, 2010.

[42] Weiss M, Shima T. Practical Optimal Intercept Guidance Algorithm with Bounded Lateral Acceleration[C]∥27th Mediterranean Conference on Control and Automation (MED), 2019: 595-599.

[43] Gaudet B, Linares R, Furfaro R. Deep Reinforcement Learning for Six Degree-of-Freedom Planetary Landing[J]. Advances in Space Research, 2020, 65(7): 1723-1741.

[44] Gaudet B, Furfaro R. Missile Homing-Phase Guidance Law Design Using Reinforcement Learning[C]∥AIAA Guidance, Navigation, and Control Conference, 2012.

[45] Gaudet B, Linares R, Furfaro R. Adaptive Guidance and Integra-ted Navigation with Reinforcement Meta-Learning[J]. Acta Astronautica, 2020, 169: 180-190.

[46]Gaudeta B, Furfaroa R, Linares R. Reinforcement Learning for Angle-only Intercept Guidance of Maneuvering Targets[J]. Aerospace Science and Technology, 2020, 99: 105746.

[47] Agarwal R P, ORegan D. An Introduction to Ordinary Differential Equations[M]. New York: Springer, 2008.

[48] Subbotina N N. The Method of Characteristics for Hamilton-Jacobi Equations and Applications to Dynamical Optimization[J]. Journal of Mathematical Sciences, 2006, 135(3): 2955-3091.

[49] 朱強. 高性能数值微分博弈: 一种机器智能方法[D]. 杭州: 浙江大学, 2020.

Zhu Qiang. High-Performance Computational Differential Game [D]. Hangzhou: Zhejiang University, 2020. (in Chinese)

[50] 谢子涵. 基于分数阶滑模的博弈制导方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2020.

Xie Zihan. Research on Game Guidance Method Based on Fractional Sliding Mode[D].Harbin: Harbin Institute of Technology, 2020. (in Chinese)

[51] Nobahari H, Nasrollahi S. A Nonlinear Robust Model Predictive Differential Game Guidance Algorithm Based on the Particle Swarm Optimization[J]. Journal of the Franklin Institute, 2020, 357(15): 11042-11071.

[52] He F, Chen W Y, Bao Y. Predictive Differential Game Guidance Approach for Hypersonic Target Interception Based on CQPSO[J]. International Journal of Aerospace Engineering, 2022, 2022: 6050640.

[53] 陈士俊, 孙永广, 吴宗鑫. 一种求解NASH均衡解的遗传算法[J]. 系统工程, 2001, 19(5): 67-70.

Chen Shijun, Sun Yongguang, Wu Zongxin. A Genetic Algorithm to Acquire the Nash Equilibrium[J]. Systems Engineering, 2001, 19(5): 67-70.(in Chinese)

[54] 朱康宁, 谢政, 戴丽. 基于自适应邻域模拟退火算法的非合作对策求解[J]. 计算机工程与科学, 2016, 38(12): 2560-2566.

Zhu Kangning, Xie Zheng, Dai Li. Solving Non-Cooperative Game Based on Simulated Annealing Algorithm with Self-Adaption Neighborhood[J]. Computer Engineering & Science, 2016, 38(12): 2560-2566.(in Chinese)

[55] 马艇. 微分对策及其在飞行器追逃控制中的应用研究[D]. 南京: 南京航空航天大学, 2015.

Ma Ting. Differential Game and Its Application in Pursuit-Evasion Control of Aircrafts[D].Nanjing: Nanjing University of Aeronautics and Astronautics, 2015. (in Chinese)

[56] Kawamura K, Tsuruoka Y. Neural Fictitious Self-Play on ELF Mini-RTS[J/OL]. (2019-02-06)[2024-01-30]. https:∥arxiv.org/abs/1902.02004.

[57] Guo D L, Ding H, Tang L, et al. A Proactive Eavesdropping Game in MIMO Systems Based on Multiagent Deep Reinforcement Learning[J]. IEEE Transactions on Wireless Communications, 2022, 21(11): 8889-8904.

[58] 倪煒霖, 王永海, 徐聪, 等.基于强化学习的高超飞行器协同博弈制导方法[J/OL].航空学报, doi: 10.7527/S1000-6893.2023.29400.

Ni Weilin, Wang Yonghai, Xu Cong, et al. Hypersonic Vehicle Cooperative Game Guidance Method Based on Reinforcement Learning [J/OL]. Acta Aeronautica et Astronautica Sinica, doi: 10.7527/S1000-6893.2023.29400. (in Chinese)

[59] Liu S Q, Cao J J, Wang Y J, et al. Self-Play Reinforcement Learning with Comprehensive Critic in Computer Games[J]. Neurocomputing, 2021, 449: 207-213.

[60] 王子瑶, 唐胜景, 郭杰, 等. 高超声速攻防博弈自适应微分对策三维制导[J]. 兵工学报, 2023, 44(8): 2342-2353.

Wang Ziyao, Tang Shengjing, Guo Jie, et al. Adaptive 3-Dimensional Differential Game Guidance for Hypersonic Attack and Defense [J]. Acta Armamentarii, 2023, 44(8): 2342-2353.(in Chinese)

[61] Sun J L, Liu C S. Distributed Zero-Sum Differential Game for Multi-Agent Systems in Strict-Feedback Form with Input Saturation and Output Constraint[J]. Neural Networks, 2018, 106: 8-19.

[62] 苏山. 多拦截器博弈策略与自适应微分对策制导方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2022.

Su Shan. Research on Multi-Interceptor Game Strategy and Adaptive Differential Game Guidance Law[D].Harbin: Harbin Institute of Technology, 2022. (in Chinese)

[63] He S M, Shin H S, Tsourdos A. Computational Missile Guidance: A Deep Reinforcement Learning Approach[J]. Journal of Aerospace Information Systems, 2021, 18(8): 571-582.

Analysis of the Progress of Aircraft Game Guidance

Guo Jianguo, Lu Dongchen*, Zhou Min

(Institute of Precision Guidance and Control, Northwestern Polytechnical University, Xian 710072, China)

Abstract: Game guidance can handle dynamic problems involving multi-party cooperation and competition in complex systems, which is conducive to maximizing the value of information on intelligent battlefields and promoting the intelligent development of precision guided weapons. This article summarizes the basic classification and modeling methods of game guidance, and proposes key issues of aircraft game guidance from the perspectives of terminal constraints, time constraints, overload constraints, and terminal speed constraints. Two typical game model solving frameworks, matrix game and differential game are constructed, and the algorithm solutions of game guidance are sorted out from the perspectives of analytical solutions, numerical solutions, and intelligent algorithms. Finally, the future development trends of aircraft game guidance are discussed and summarized from the perspectives of nonlinear differential game solving methods, incomplete information game algorithms, multi aircraft collaboration under unbalanced and asymmetric information, and multi type weapon system games.

Key words: game guidance; differential game; matrix game; intelligent algorithms; adaptive algorithm

猜你喜欢
智能算法
智能算法赋能铸牢中华民族共同体意识的机理与优化策略
神经网络智能算法在发电机主绝缘状态评估领域的应用
基于超像素的图像智能算法在矿物颗粒分割中的应用
从鸡群算法看群体智能算法的发展趋势
基于智能预测算法的食用菌大棚温湿度控制研究
图像处理智能化的发展方向
智能蚂蚁算法应用的最新进展
基于OMNeT++平台的AntNet的仿真
多机器人系统及其路径规划方法综述
改进的多目标快速群搜索算法的应用