联合火力打击战法策略的智能进化方法研究

2021-10-15 01:53李保硕

兵器装备工程学报 2021年9期

邢岩，刘昊，李保硕

(1.沈阳航空航天大学电子信息工程学院，沈阳 110000；2.国防大学联合作战学院，石家庄 050000； 3. 31696部队参谋部，辽宁锦州 121000)

1 引言

在未来智能化条件下的诸军兵种火力突防作战，呈现出智能化、精确化、多弹种、实时动态可控的新型作战特点，如何将联合作战指挥员的战法策略实时高效地转化为计算机能接收、理解并高效执行的指令数据流，并通过计算机的大规模运算生成符合指挥员决策意图的智能优化结果，是智能化算法研究的核心和难点问题。随着人工智能逐步融合军队装备建设实际，战法策略的人机结合以及联合火力打击任务规划的智能优化成为可能，国内外专家聚焦于在现有博弈对抗算法基础上实现对战法策略的智能优化和辅助控制，以期提升火力打击效率和胜率。

在国内外的人工智能领域相关研究中，文献[1-5]利用多智能体序列的交叉变异实现战术级兵棋对抗推演的智能决策，实现了智能体搭配组合下的决策优化；文献[6-10]则聚焦桌面棋类游戏的对抗博弈研究，利用基于决策树算法的改进博弈树实现了智能体棋力对抗提升；文献[11-15]聚焦五子棋算法等博弈棋类算法研究，利用剪枝算法和窗口搜索实现了智能系统棋艺提升；文献[16-20]针对棋类博弈计算的复杂性剧增特点，通过神经元网络训练智能体内部结构，并使用威胁空间搜索实现算法的迭代加深，取得了较好的博弈效果。通过对同类研究分析，相关算法多聚焦于智能优化算法研究，通过神经网络或强化学习方法达成系统结构对解决方案的适应性调整，而较少涉及智能体的结构以及多智能体之间协作性研究[21-25]。本文中从联合火力打击战法策略研究切入，利用指挥员的主观决策拆解为联合火力打击的实时任务规划，进而转译为计算机可调用并优化的智能体结构，并通过众多目的不同、性能表现各异的智能体之间的搭配组合实现群体行为的控制，进而使用反馈调节智能体构造，以求建立能够学习优化的种群进化模型，为联合火力打击的智能优化提供算法平台支撑。

2 联合火力打击概述

联合火力打击是诸军兵种联合作战的重要打击样式，也是决战决胜火力突防作战中的主要作战行动，由于联合火力打击中较少涉及诸军兵种部队的兵力机动转移，而将主要作战行动集中于频繁的火力机动调度，因此相较于常规兵棋推演系统在一定程度上简化了智能优化和动态火力分配的计算难度，为智能算法的应用提供了量化计算平台。在联合火力打击中，通常依据指挥员定下作战决心、细化战法策略、诸军兵种拟制任务规划、执行火力打击行动的流程执行，本文中主要关注指挥员战法策略、火力打击任务规划和智能体构造3个环节之间的作用关系。

2.1 联合火力打击战法策略

联合火力打击战法策略是指挥员依据上级定下的作战决心，结合诸军兵种火力打击部队的作战特点，以及敌方的防御重点定下的有倾向性的火力打击行动准则。根据指挥员的主观经验，战法策略可以是具有指向性的重点打击目标类别策略，也可以是针对某种特定目标的硬性指标策略，战法策略中包含决策倾向的目的性要求、部队弹种的限制性要求、目标毁伤程度的技术性要求，表1为联合火力打击战法策略示例。

表1 联合火力打击战法策略

表1中的No.2战法策略中，指挥员的目的性要求为体系破击，因此对高体系价值目标的毁伤程度通常定为歼灭毁伤60%以上(判定敌方目标在达成60%以上毁伤即可视为歼灭)，同时对参战火力打击部队弹种的使用亦有相应约束，如对DF21D导弹部队的使用应做以限制，以保持对敌航母威胁等。

2.2 联合火力打击任务规划

在指挥员主观战法策略基础上，参谋机构应以此为准则要求，细化拟制诸军兵种火力打击部队的联合火力打击任务规划，任务规划中明确参与打击部队弹种的编号名称、火力打击发起时刻、打击目标的编号性质及坐标位置。联合火力打击任务规划与战法策略之间是多对一的对应关系，即在同一战法策略的指导下，不同的参谋人员可依据自身特点拟制多种多样的任务规划，并能保证符合战法策略的硬约束条件，而各任务规划之间的执行差异度和最终执行效果是衡量参谋人员综合素养的关键指标，一般只有经过实战或兵棋推演实现量化评估。

3 智能体构造方法

联合火力打击的智能体结构可视作是联合火力打击任务规划的计算机转译矩阵，目标是为智能优化的概率性变异操作提供合适的执行单元，就如同基因代码，能够随着不断自我复制产生微小变异，以进化出适应性后代。智能体构造可以依托联合火力打击任务规划，但必须满足如下条件：一是智能体能够包含所有的战法策略表述；二是智能体结构应是矩阵行列表达式；三是智能体结构能够变异和转译，转译即能够一对一的与联合火力打击任务规划建立对应关系。通过约束条件可知，智能体有且仅能转译为一个联合火力打击任务规划，而考虑到智能体的系统变异复杂性，有必要为智能体保留一定的冗余变异空间，因此联合火力打击任务规划能够转译为多个智能体，联合火力打击战法策略、任务规划、智能体之间的对应关系如图1所示。

图1 战法策略、任务规划、智能体对应关系框图Fig.1 Tactics，mission planning，agent corresponding relationship

联合火力打击任务规划拟制流程：

1) 确定限制条件。包括客观限制条件如地形、天候、射程、空域、弹种目标匹配、毁伤程度等；以及主观限制条件如指挥员主观命令部队弹种待命导致的火力打击策略改变等，以此建立部队弹种与特定目标的匹配限制表。

2) 选择部队弹种。通过遍历所有任务部队，确定当前处于空闲待命状态的任务部队，同时根据弹药剩余储备选择执行火力打击任务的弹种。

3) 选择打击目标。通过遍历所有打击目标，确定当前优先打击的目标编号，同时根据匹配限制表查询是否符合火力打击条件。

4)建立火力打击指令。在指令中输入部队弹种编号、目标编号，并根据当前任务条件确定火力打击发起时刻，在系统中录入火力打击指令。

5) 重复步骤2)～步骤4)，直至达成退出条件：参战部队均无法执行火力打击任务，或者所有目标均已达成规定毁伤指标。

6) 输出任务规划。将上述步骤中录入的所有指令输出为联合火力打击任务规划，必要时利用计算机仿真计算任务规划的预期执行效果评分。

智能体构造过程本质上是再现联合火力打击任务规划的拟制过程，因此可将智能体构造过程划分为部队弹种选择、打击目标选择、冗余数据设计3部分。

3.1 具备深度学习能力的部队弹种排序

考虑智能体必须在变异过程中贴合联合火力打击任务规划，因而有必要引入部队弹种的排序表结构代替任务规划拟制中的选择部队弹种步骤，排序表优点在于具备动态适应性，不会因为智能体变异而产生无法合法表述为任务规划的情况。并引入转译的规则约束：如当前选中的部队弹种无法执行火力打击任务，则按照排序表依次选中后序部队弹种。在排序表结构中，变异操作借鉴了旅行商NP问题中的遍历节点算法，只需对调其中两个节点即可完成变异操作。智能体在优化选择过程中，必然需要保留一定的冗余度，以防止算法陷入局部最优而失效，因此设计冗余结构：在每个部队弹种的打击排序表中引入一定的-1编号，当部队弹种触发该位置，则执行待命操作，以保证随时保留一定的弹药余量打击重点目标。

智能体结构包括：1) 部队弹种序号，2) 寿命，3) 综合评分，4) 目标排序表。

智能体示例：D131115旅发射1营，寿命为24，综合评分为2 152.38，目标排序为30、29、13-1、8、16、2、4。

3.2 多智能体搭配组合方法

每个智能体代表唯一对应的部队弹种，则多个智能体的搭配组合即可转译为联合火力打击任务规划，因此建立由多个智能体组成的种群结构：种群中包含对应不同部队弹种的多个智能体，种群内智能体通过反馈评分调节达成内部目标排序表的适应性进化。为了计算反馈评分，引入敌我双种群模式，敌我双方的智能体随机搭配组合，形成多种多样的任务规划，并通过敌我双方的任务规划实现联合火力打击的兵棋对抗推演，利用对抗结果反馈到智能体综合评分，进而实现智能体的优胜劣汰。由于不同部队弹种的智能体之间的搭配组合随机实现，鉴于种群规模庞大，因而能够产生智能体搭配组合中的涌现效应，即产生复杂系统中的群体进化现象，利用种群中智能体搭配组合的复杂性对抗多种多样的敌方任务规划类型，并通过多代进化实现智能体智力水平的提升。敌我双种群示意如图2所示。

3.3 多智能体协作进化算法

智能体携带了某个部队弹种的特定打击目标排序表，隶属于同一部队弹种的智能体之间可视为同一物种，存在竞争关系，即智能体间依靠激励函数的反馈评分确定淘汰和繁殖对象，并在多代进化后实现算法对敌我对抗推演过程的深度学习；隶属于不同部队弹种的智能体之间如同不同物种，存在协作关系，即多个隶属于不同部队弹种的智能体搭配组合实现唯一对应的联合火力打击任务规划，搭配组合方式的复杂性决定了任务规划具备复杂多样性，智能体结构的改变使群体涌现产生的任务规划发生群体性的改变，达成以复杂对抗复杂的效果；算法流程为：

步骤1建立红蓝双种群。种群内为每个部队弹种分配4个初始化智能体，通过随机分配打击目标排序实现智能体的初始化，每个智能体的初始评分设置为0。

步骤2建立任务规划。随机抽取同一部队弹种中的智能体，按照部队弹种顺序从每个选中智能体对应的目标排序表中抽取拟打击目标编号，如选中冗余项-1则命令该部队待命3 min，根据部队打击能力表计算该部队的执行规划时刻、火力打击时刻以及弹药消耗量，为了防止规划执行中有目标已被消灭导致的弹药剩余情况，应根据目标排序表多分配一定的任务规划项。在生成所有部队弹种对应的任务规划项后，应对所有任务规划项按照火力打击时刻由小至大排序以贴合任务规划的对抗推演操作。

步骤3计算红蓝对抗结果。利用兵棋推演平台实现红蓝任务规划的对抗推演，严格依据任务规划实现联合火力打击并统计最终红蓝双方的兵力损失和弹药消耗，以此计算红蓝双方的输赢结果以及各自评分。设红方的最终体系价值评分为pH，蓝方最终体系价值评分为pL，则反馈评分Δf的计算公式为

(1)

步骤4更新参与搭配组合的智能体分值。对于胜利方的智能体奖励反馈评分；对于失败方的智能体扣除反馈评分；以此更新各智能体的分值并记录寿命+1，并执行淘汰繁殖操作：所有寿命上限达到1 000的智能体执行变异操作，即替换目标排序表中随机两个目标序号的位置，并置寿命和综合评分为0；对同部队弹种的最高分智能体执行变异操作，并用新生智能体替换同部队弹种中的最低分智能体。

步骤5重复步骤2～步骤4，直至达成退出条件：进化代数达到上限。输出红蓝双方最高分智能体对应的任务规划。

3.4 任务规划对抗推演方法

敌我种群产生的任务规划实现对抗推演的方法流程较为复杂，主要包括：按照火力打击时刻混合排列敌我双方的任务规划；计算各任务规划项中对打击目标的毁伤程度，并更新参与打击部队的弹药储备量；如是航空部队打击，单独计算敌方防空反击造成的部队毁伤程度，并更新敌方防空部队的弹药储备量；判断所有任务规划是否执行完毕，如任务规划项因弹药耗尽或目标达成毁伤上限无法执行则跳过；根据敌我双方终止状态时的各目标毁伤程度和部队关联关系计算敌我双方的网络体系价值[26-31]。

4 实验分析

实验目的在于检验智能体结构能否完全覆盖指挥员主观战法策略和参谋机构拟制的联合火力打击任务规划，进而在此前提下检验任务规划实现了智力提升。基于此，首先引入不同的智能体结构并分析其转译为任务规划的对比情况；而后对变异可能导致的任务规划变化情况进行量化分析，以检验智能体的变异稳定性；最后通过横向对比多种智能优化算法，检验多智能体协同进化方法的有效性。

4.1 智能体结构覆盖范围分析

考虑联合火力打击任务规划的作用范围和变化幅度宽广，而智能体结构变异如不能有效覆盖任务规划则会造成全局寻优能力下降甚至失效，因此有必要进行智能体结构变异与任务规划范围之间的覆盖率分析。实验选取任务规划的蒙特卡洛随机产生不同的后代结果，而后使用智能体转译算法将任务规划转化为智能体结构，并存储为 10 000个对照种群作为对照单元；采用协同进化的方法产生多代智能体，每一代智能体与对照种群做以比对，如匹配对照单元内的智能体结构则记录匹配度+1，进行 1 000代进化而后统计匹配度的变化情况，为了规避随机不确定性带来的覆盖率影响，进行3组实验并统计结果；各代匹配度变化如图3所示。

图3 各代匹配度变化情况Fig.3 The change of matching degree in different generations

通过对比分析可知，随着进化次数的提升，智能体能够覆盖的匹配度逐步提升，进而使对照单元的覆盖率同步升高，但随着优化结果的逐步收敛，覆盖率的提升幅度逐步缩窄，3次实验的最终覆盖率均未超过60%，实验表明协同进化达成了进化的效果，同时也简化了搜索范围，对于初期效果不理想的智能体后代未进行后续带入。但从800代后的覆盖率分析，数值提升依然持续，只是速度相对降低，证明算法依然在寻找全局最优。

4.2 智能体变异效果分析

智能体的变异操作借鉴了旅行商问题求解中的替换节点操作，包含2种变异：一是通过同部队弹种的最高分智能体变异以替换最低分智能体；二是对到达寿命上限的智能体变异以提升智能体多样性，防止产生局部收敛的超高分智能体。为了检验变异效果，分别以变异操作中对调2次和对调3次的智能体变异情况作为参照对象，结果如图4所示。

图4 变异效果曲线Fig.4 Comparison and analysis of variation effect

通过对比分析可知，变异操作对新生任务规划能够产生影响，随着变异次数的增多，红蓝对抗的胜率逐步趋向稳定，导致对应最优任务规划的对抗能力难以有效提升；相比较而言，图4(c)中的对调1次变异表现最为优越，随着同一智能体中变异次数的增多，与测试样本对抗胜率则持续下降。原因在于频率过高的变异使高分智能体的对抗经验没有及时传递给种群内其他智能体，导致对抗经验的流失，以至于出现图4(c)中的波动效果。从最佳进化代数上分析，考虑算法各代智能体均以敌方最优智能体为博弈对象，环境处于动态变化状态，因此属于无限博弈，智能体随着进化代数的增加而积累博弈经验，改造自身结构，因此最佳进化代数应取决于计算机的性能和红蓝对抗结果的分叉程度，如图4(a)中55代之后蓝方胜率明显高于红方，此刻应停止进化并取蓝方智能体作为最佳智能体。

4.3 智能体对抗效果分析

为了验证算法的有效性，选取遗传算法[32]作为对比算法，利用任务规划的交叉变异操作产生新个体，同时通过红蓝对抗进化实现任务规划的优化。2种算法结果如图5所示。

图5 算法效果对比分析Fig.5 Comparison and analysis of algorithm effect

通过对比分析可知，对抗进化算法和本方法在各代红蓝胜率上基本持平，红蓝对抗结果均为纠缠状态，但在与测试样本对抗的胜率统计上，智能对抗进化算法表现明显不如本方法，胜利次数呈现波动状态，难以恒定收敛。原因主要在于：智能对抗进化算法利用了遗传算法在对抗环境中实现了敌我对抗进化，虽然在对抗中积累了经验，但由于智能体之间不存在协作关系而只保留竞争关系，导致智能体进化过程中只专注于局部胜率，而忽视了对不同任务规划的兼顾，也不存在多智能体之间产生的涌现效应，因此效果不如本方法；相比较而言，多智能体协作进化方法兼顾了智能体之间的竞争和协作关系，并通过涌现效应实现了任务规划的复杂演变，因此总体效果高于对比算法。

5 结论

1) 在遗传算法和旅行商问题求解算法的基础上，充分借鉴多智能体协同进化的生物学原理，在敌我双种群中引入多智能体搭配组合，进而实现了以智能体搭配组合复杂性对抗任务规划复杂性，并通过多代进化达成了智能体的对抗能力提升。

2) 利用智能体和种群的构造和对抗推演中的反馈评分实现了智能体的智力提升，其算法内核能够迁移到诸多研究领域，具备一定的应用性和扩展性。

3) 在后续研究中，将重点研究非对称博弈状态中的敌我智能体进化问题，以实现算法的更广阔应用。