复杂系统博弈理论与其效能评估综述

2022-03-23 03:26:55刘佳琪彭程远刘成国

导弹与航天运载技术 2022年5期

刘佳琪，彭程远，张超，刘成国，刘芳

（1. 北京航天长征飞行器研究所，北京，100076；2. 试验物理与计算数学国家重点实验室，北京，100076）

0 引言

高速飞行武器作为现代战争最具威慑力的作战装备，发挥着不可替代的作用，随着现代飞行器对抗作战向着体系化、智能化、信息化等方向发展，复杂系统博弈及其指导理论，作为飞行器对抗作战的重要组成部分，也在同步进步发展。博弈理论自诞生以来，广泛应用于经济、社会、科学、军事等各个方面，并取得了重大发展。在军事领域，弹道飞行器的拦截与反拦截场景是典型的追逃博弈问题，其作为在现代战争中具有强大威慑能力的杀手锏武器，飞行器防御技术的出现和进步，极大地推动了弹道飞行器机动技术和各种对抗技术的发展，并使得飞行器博弈进入新的发展阶段。在新发展阶段中，复杂系统博弈理论和方法在现代实战中获得应用和发展，在飞行器设计、作战战法、体系评估核效能评价方面发挥着重要作用。

1 复杂系统博弈场景建模方法

动态博弈场景构建，是进行复杂系统博弈研究的基础，主要方法有兰彻斯特方程法、Agent建模方法、离散事件动态系统建模方法、网络模型方法和Petri网模型方法等。

经典的体系对抗模型构建是基于兰彻斯特方程的方法，其以微分方程的形式描述体系对抗过程的对抗性与动态性，但存在对高度聚合的部队进行模拟时反应迟钝，只注重兵力数量的变化等问题，难以适应当今信息化条件下的体系作战场景。

Agent建模理论是一种研究大量个体，或由他们交互而出现的宏观尺度行为的一种向实体对象的建模方法，能够通过自底向上、从个体到整体、从微观到宏观来研究系统的复杂性。多Agent理论的基本思想是将复杂系统划分为若干智能体，从研究个体微观行为入手，进而获得系统宏观行为，具有互耦合性、自治性、并行性等特点。采用多Agent系统理论进行作战系统的建模，须考虑各Agent模型之间的通信开销，并建立Agent之间完善的控制机制，缺乏协作的全局观点。

离散事件动态系统（Discrete Event Dynamic Systems，DEDS）建模方法，是一种形式化、模块化、层次化描述机制，用于离散事件系统的建模和仿真，广泛应用于军事、经济等领域。DEDS一种能够对离散事件系统进行动态仿真，层次结构清晰的建模与仿真方法，特别适合作战过程的形式化建模仿真。但是,难以处理连续、随机、时延等过程，实际应用的效果受到很大的限制。

网络模型将作战单元和作战过程抽象为节点和边，形成一个复杂的作战网络，通过网络反映作战过程中双方的冲突、内部的合作与协调。目前对复杂网络的研究和应用大多是单向的，通过分析现有的复杂系统数据，得到复杂系统的结构和性质，实证研究多，建模研究少。

Petri网模型可以描述和分析离散事件系统的冲突、并发、共享资源和优先级等特征。传统的Petri模型只适用于离散事件的动态博弈系统的建模，经过发展，形成了多种改进的Petri网模型，例如有色Petri网、随机Petri网、对象Petri网等，同时也发展了GreatSPN、Charlie、Snoopy、PIPE等多种Petri网建模与仿真工具软件，并广泛应用于复杂系统对抗中的探测、拦截博弈场景建模。现有的基于Petri网的建模方法仅能描述一种或两种混杂特性，无法同时描述作战系统中存在的离散、连续、随机、时延和决策多种混杂特性。混杂随机时延Petri网[1]（HSTPN-Hybrid Stochastic Timed Petri Nets）是一种基于条件事件网改进的高级Petri网模型框架，含有离散、连续、随机、时延和控制5种库所，可对复杂系统博弈过程中存在的多种混杂特性以及连续动态进行建模。

2 复杂系统博弈对抗理论方法

2.1 矩阵博弈法

矩阵博弈法要求根据攻防环境与局势，列出当前攻防双方的博弈矩阵，并求取纳什均衡，做出优化决策，视战场情况有目的地实施对抗策略。飞行器在进行大量的数据收集分析后，得到最优策略集，依此制定战术策略，完成自主化对抗任务。

矩阵博弈法已应用于完全信息条件下的多目标打击决策建模，不确定信息条件下的战场火力分配建模，以及反拦截机动博弈制导建模等。周兴旺等[2]针对作战过程中不确定性以及确定性信息共存的情况，提出了贝叶斯混合博弈火力分配模型；Gong H等[3]使用非合作博弈方法，提出了火力分配决策模型，将火力分配方案作为局中人策略进行优化；Wei M等[4]使用了帕累托博弈论方法进行建模，使用机器学习方法进行了模型的求解优化；李博文等[5]针对一对一、多对一拦截两种情况，运用动态博弈与矩阵对策相结合的方法，将拦截弹末制导过程转化为博弈论中的二人竞争博弈模型。

制定对抗策略的过程如果在弹上实现，对计算速度、时间有很高的要求，弹载计算机的计算能力有限，难以工程应用。若实现进行地面训练，由于矩阵博弈是将研究对象的状态变量和控制策略在时间和控制性质上离散后得到的方法，其解是次最优的，存在策略精度不足的问题。

2.2 微分对策法

用微分方程描述的动态过程双方对策控制的理论和方法称为微分对策。20世纪50年代以来，美国兰德公司在空军赞助下，以Isaac博士为领导开始了研究，微分对策博弈最终可以得到博弈对抗双方的机动策略。相较于最优制导律，微分对策理论不需要掌握敌方制导指令信息作为先验知识，因此对加速度估计误差的敏感度更低，并且微分对策制导律曲线更加平滑，有利于减少控制指令饱和与控制指令震颤的现象，更加符合实际应用的需求。

微分对策法广泛应用于不同飞行阶段的追逃问题、多飞行器协同博弈问题研究，能够给出进攻方/防御方的微分对策制导律。Shaferman V等[6]在多飞行器协同博弈对抗问题中，分别就最优控制理论和微分对策理论提出了具有角度约束的协同制导律；Liang H 等[7]在考虑三方乃至四方博弈的复杂对抗场景中，利用线性二次微分对策理论解析的求出了多方博弈策略；鲜勇等[8]针对导弹中段的智能机动对抗问题，基于微分对策法建立了进攻弹和拦截弹的零和博弈模型，得到进攻弹的最优规避策略；熊思宇等[9]对于进攻弹采用的主动防御策略的情况下，基于微分对策提出了主动反拦截器和进攻弹的协同对抗机动策略。

基于最优控制理论与微分对策理论的解析博弈策略，主要利用变分法原理推导得到制导律的解析解，具有稳定、可分析的优点，但对计算资源以及攻防博弈成员相对位置、过载能力、响应速度等先验信息有较为苛刻的要求，并且存在超参数选择的问题。

2.3 概率评估分析法

概率评估分析通过建立概率模型对复杂系统攻防策略进行分析，主要思路是首先对攻防体系进行建模，进而对博弈双方的关键行为策略，如探测、识别、拦截等，计算其成功的概率，最后评估攻防效果。概率模型可以采用伴随技术、随机服务理论、ADC模型、改进的ADC模型、多层防御系统的贝努利实验模型等多种方法建立。

概率评估分析方法已应用于复杂系统博弈关键环节建模与效能分析。Menq等[10]通过离散时间马尔科夫过程对多层防御系统进行了建模；高恩宇等[11]建立了飞行器穿透防守区域概率模型和目标识别概率模型，针对弹幕防御和射击-观察-射击两种不同的拦截模式基于简化概率模型进行了分析。

概率评估分析法通过构建博弈关键环节的概率模型，可以直接给出效能评估；并且通过建立概率模型对攻防过程进行建模，可以对全过程进行分段研究。其不足之处为：a）目前的概率模型基本是静态的，没有考虑攻防博弈这一复杂过程的动态性，在对抗过程中概率随着过程演化动态变化；b）由于攻防过程在时间上具有连续性，导致上述各种随机事件之间具有不同程度的相关性，对概率的运算不能简单运用加法和乘法原理，在文献中多被简化为独立性；c）博弈中的博弈策略和手段具有多样性，现有场景与概率模型偏简化，难以反映博弈的多样性。

2.4 智能博弈技术

在信息技术发展的推动下，特别是物联网、大数据和人工智能等技术的支撑下，复杂系统博弈博弈理论方法也将逐渐迈入智能化发展阶段。深度强化学习是现代机器学习的一个分支，成功地应用于序贯决策领域。2015年Mnih将深度神经网络与强化学习相结合，对游戏AI智能体进行训练，其性能超过以往的所有方法，甚至超过了人类顶尖高手的水平。强化学习与传统解析方法相比，另一个巨大优势在于，它可以使用飞行器和环境的高保真模型进行学习；Brain等利用深度强化学习，针对飞行器着陆问题，提出了一个自适应智能制导方法，在特定环境下进行训练的智能体可以通过少量的训练适应新的环境，这表明利用参数不确定性进行训练能得到具有鲁棒性的智能体。

智能博弈技术是智能化军事应用的基础和共性技术，是解决指挥控制中作战方案生成、任务规划及离线决策等智能化的关键，同时也是训练模拟、自主集群无人化作战等军事关键领域智能化建设的核心技术基础。基于深度强化学习的智能博弈技术，是将以深度学习和强化学习为代表的机器学习技术引入博弈对抗建模过程。利用数据、知识和规则等，结合机器学习方法，建立和优化博弈对抗过程中各类行动实体的决策模型，为作战方案分析、战法试验分析及机器学习提供数据支撑，并使分析结果具有更强说服力，学习结果具有更高置信度。朱建文等[12]构建基于强化学习的多目标决策架构，设计以分配向量为基本元素的动作空间，以及基于量化性能指标的状态空间，利用Q-Learning方法对协同攻击方案进行智能决策；马文[13]将博弈论和强化学习方法结合，在训练过程中采用基于博弈论的ε-minimax探索利用策略，在生成空战策略时使用Minimax算法通过线性规划求解最优策略，实现最优的机动决策序列快速生成；Du等[14]建立了基于深度强化学习的导弹拦截环境，使用确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）方法训练拦截Agent。多智能体方法和DDPG方法也可以与多智能体方法结合，进行多智能体追-逃博弈协同作战决策；Shalumov V[15]针对目标-拦截器-反拦截器三方博弈对抗场景，利用策略梯度法训练进攻方的智能体，以求寻找到最佳发射时间和最优导引律来提高对抗胜率。

基于深度强化学习的智能博弈技术的突破对解决高动态、不确定性及复杂战场环境下的智能决策问题，支撑智能化指挥控制的共性基础理论与技术，具有重要的理论意义和应用价值。与解析法相比，智能博弈技术具有更高的计算效率，能够实现实时应用。基本采用两步法：a）利用解析策略生成最优策略数据集；b）利用预生成的策略数据对深度神经网络进行训练。在实际应用中，得到充分训练的深度神经网络可实时生成指令。然而两步法只适用于确定性场景，通过解析法能够获取大量最优策略数据。在不完备信息攻防博弈问题中，场景存在大量不确定信息，难以通过蒙特卡洛仿真获取大量最优策略数据用于训练深度神经网络。

3 攻防效能评估

系统效能是指在给定条件下系统能够特定的目标的能力。飞行器攻防效能评估主要是利用飞行试验、地面试验、仿真试验等手段，评价进攻方飞行器在防御系统实施探测、识别、拦截的威胁条件下，采取针对性对抗措施，成功完成任务的能力。

3.1 飞行器攻防效能结构

从进攻方飞行器与防御系统的攻防对抗过程来看，飞行器攻防对抗效能评估主要涉及到对防御系统的反探测能力、反识别能力、反拦截能力等。

张克等[16]在对武器系统作战效能评估问题的探讨中提到，系统在开始执行任务和执行任务过程中的状态以及最后完成给定的构成任务的程度共同构成了系统的效能，并根据层次分析法给出了飞行器攻防效能结构，包括隐身能力、机动能力、电子对抗能力和火力对抗能力；齐玲辉等[17]在导弹攻防对抗过程分析中给出了系统效能指标层次结果，其中，攻防对抗能力划分为反探测能力和反击毁能力；谢如恒[18]在弹道导弹中段机动攻防对抗技术研究中将攻防对抗效能分解为隐身（反发现）能力、反识别能力和反摧毁能力。

3.2 系统效能评估技术

系统效能评估常用的评估方法有解析法、专家评估法、作战模拟法等。

a）解析法

通过建立根据尺度参数计算性能指标的数学模型，代入实际系统的尺度参数，调用数学模型，即可计算出实际系统的性能指标，目前主要的方法有代数图解构造法（Algebraic Diagrammatic Construction，ADC）、系统效能分析法（System Effectiveness Analysis，SEA）、层次分析法（Analitic Hierarchy Process，AHP）、逻辑分析方法、指数法、灰色理论方法、模糊数学方法、信息熵评估法等。朱枫等[19]利用灰色关联度（Technique for Order Preference by Similarity to Ideal Solution，TOPSIS）的组合评估法，对反临近空间武器作战能力进行了综合评估。通过构建防控导弹作战能力指标体系，三角模糊数的层次分析法和信息熵法对各二级指标进行综合赋权，再运用合适的评价模型与评价方法对飞行器的作战能力进行综合评估；葛鲁亲等[20]在层次分析法的基础上，采用GA-BP神经网络分别对攻防对抗双方的指标体系能力效用值进行优化解算，避免了传统层次分析法、熵权法在指标权重选取过程中后不确定因素影响的问题，精确地对飞行器协同攻防效能进行了评估。

b）专家评估法

通过专家经验、专家打分和一些先验信息等途径进行评估，如专家打分法、模糊综合评判法、群体多属性决策法等，此类方法通过经验、专家等途径进行评估，受主观因素影响较大。

c）作战模拟法

又称作战仿真，主要通过建立武器系统的仿真模型，代入实际系统的尺度参数，引入随机输入，重复多次实验，通过统计获得实验系统的性能指标，主要的方法包括Petri网以及人工神经网络（Artificial Neural Network，ANN）、系统动力学法（System Dynamics，SD）、Monte Carlo法、Lanchester法等。陆梦驰[21]运用系统动力学方法，确定作战效能评估SD模型的边界，构建指挥信息系统作战效能评估SD模型，为指挥信息系统作战效能评估及各要素灵敏度分析提供方法和平台；张斌等[22]利用仿真实验研究复杂电磁环境对地空导弹的打击效能，通过构建地空导弹在敌远程电子压制性干扰下击落敌突防飞机的作战模型，根据概率分析模型关心的参数，设计仿真实验，对仿真结果进行分析，得到了地空导弹击落目标概率的关键影响因素，为装备改进和实战运用中的参数设置提供了依据。

3.3 飞行器攻防效能评估技术

飞行器攻防效能评估是系统效能评估的一部分，为了较真实、较准确的反应对抗过程的效能指标的获取，需要利用攻防对抗仿真，通过对攻防对抗仿真结果的统计分析，得到有价值的攻防效能指标。仿真实验具有攻防要素全面、对抗过程模拟逼真的特点，是飞行器攻防效能评估的主要手段。地面试验、飞行试验为仿真试验提供目标特性数据、攻防对抗动态关键环节数据，起到数据支撑与模型校核的作用。

2005年美国总统建议报告中指出，仿真技术是以下3个方面的结合：算法、建模和仿真软件用于解决问题；计算机和信息技术用于开发和优化系统硬件、软件、网络和数据管理系统；计算基础设施提供相关技术和工程问题的解决方案并促进计算机信息技术的发展[23]。美国分布式仿真技术经历了从仿真器联网（Simulation Networking，SIMNET）、分布式交互仿真（Distributed Interactive Simulation，DIS）、聚合级仿真协议（Aggregate Level Simulation Protocol，ALSP）、高层体系仿真结构（High Level Architecture，HLA）到可扩展建模与仿真框架（Extensible Modeling and Simulation Framework，XMSF）、试验与训练使能框架（Test and Training Architecture，TENA），再到实况虚拟构造（Live Virtual Constructive，LVC）架构的发展历程[24]。在开始提出时，这些分布式仿真架构所支持的仿真类型各有侧重，随着技术的发展，它们之间的界限越来越模糊，下一代分布式仿真架构将同时支持各种类型的仿真。

中国在分布式仿真方面，主要有国防科技大学的KD HLA、北京仿真中心的SSS RTI、北京航空航天大学的AST RTI、清华大学的TH RTI等。大型仿真系统方面，美国根据不同目的，开发了空战仿真、扩展防空模拟系统、联合战区级仿真、系统效能分析仿真等。

近年来，平行仿真技术在系统建模与仿真领域逐渐兴起，在系统效能评估技术领域，也逐渐关注相关技术的发展。杨雪榕等[25]对装备平行试验概念进行了辨析，将平行试验理论定义在并行试验（物理靶场和人工靶场同步开展试验）、虚实结合（利用人工系统靶场的虚拟对象和环境，补充物理靶场的作战背景）、平行发展（通过机器学习、人工智能技术对实际试验数据进行采集和学习，实现人工系统对现实系统的真实反映）3个层次。

由于飞行器攻防对抗评估需要设计大量的装备、设备构建形成体系，从而评价其效能，全部使用实际装备进行评估试验难以实现，因此，需要采用其他技术途径，模拟构建攻防对抗双方的体系运用环境，开展效能仿真评估，仿真试验床是其中一种方法和技术。20世纪80年代，美国实施“星球大战”计划时，就为动能武器和激光武器建立了试验床，随着技术的不断发展，试验床技术已应用于概念论证、技术攻关、系统继承、演示验证等各个阶段。国外典型的试验床包括美国Via Sat公司的空间通信试验床、美国空军的机动飞行器集成技术试验床、美国DARPA的快速机动空间试验床和Hallmark项目的太空作战管理指挥与控制试验床等。中国从2001年开始开展了试验床的先期研究，在体系仿真、LVC仿真方面都取得了一定的研究成果，实现了试验资源的互操作、可重用、可组合。

4 结束语

复杂系统博弈涉及导弹战、电子战、信息战、决策战等等，最能体现博弈论的特点，是对抗技术发展的理论支撑和学术价值体现，随着信息技术、智能技术和计算机技术的不断发展，复杂系统博弈将不断推动对抗技术向着高级阶段发展，对抗技术也最能牵引现代科技的蓬勃发展，两者相互促进，螺旋式上升，在各国的高度重视下，复杂系统博弈理论必将向着智能特色更浓的方向发展。