海战仿真中的智能对抗行为建模方法研究

2022-02-25 05:09王成飞董亚卓苏千叶张祥林

指挥控制与仿真 2022年1期

王成飞,董亚卓,苏千叶,张祥林

(中国人民解放军91977部队,北京 100000)

作战体系仿真技术是军事仿真领域的重要研究方向之一,在作战方案推演、作战模拟训练、武器装备体系论证等多个军事领域都有应用。美军是作战体系仿真技术的先驱者,建有一大批成熟的作战体系仿真系统,如联合作战模拟系统(Joint Warfare System,JWARS/JAS)、战区级联合作战模拟系统(Joint Theater Level Simulation,JTLS)、海军仿真系统(Navy Simulation System,NSS)、联合建模与仿真系统(Joint Modeling and Simulation System,JMASS)等,覆盖战区、军种、作战方向、海上编队、单平台等多个作战域,涉及联合战场多层级指挥、复杂通信网络、多域协同战术战法等诸多模型算法,架构十分复杂。作战体系仿真技术主要包括离散事件仿真引擎、并行计算、多分辨率建模、组合化建模、战场行为建模等。其中,自主的战场对抗行为建模一直是体系仿真的研究热点和焦点,吸引大量研究人员孜孜不倦的创新和探索。

近几年,随着人工智能技术突飞猛进的发展,采用机器学习技术开展战场行为建模的方法成为前沿热点,事实也证明,这是一条十分可行的途径,例如，在美军联合作战模拟系统(JWARS/JAS)中实现了利用深度强化学习来构建战场智能体模型。国内组织了各类兵棋比赛,极大促进了智能行为建模的发展,但目前还处于探索阶段,特别是在海上方向,缺少成熟的网络模型、算法框架等。

本文从典型的战场行为建模方法分析入手研究,对规则推理和机器学习两种行为建模技术进行研究,并给出了相应的模型算法。

1 战场行为决策建模方法

战场行为决策建模主要指战场上的决策单元能够根据实时态势自动生成动作指令,本质上是模拟了一个具备指挥功能的决策实体,类似于指挥官、舰长模型。通常考察行为决策模型有以下几个指标:认知水平、可重复性、计算成本、可解释性、统计性等,本节将从这几个方面对典型的战场行为决策建模方法进行分析。

1)人在回路决策

由人工干预来实现决策指挥行为,当模型执行达到必须执行其中一个已识别决策时刻,仿真通过一个显示机制暂停并显示足够的状态信息给人类决策者,后者通过从可能的响应列表或其他选择机制中进行选择来做出决策。人在环的方法以牺牲可重复性、计算成本、统计性等为代价实现了高水平的决策。

2)基于脚本的决策

作战体系仿真中,所有作战单元的行动被预先以脚本的形式确定,这种方法在给定输入的情况下评估作战结果,没有自主决策,缺少统计学意义。

3)基于规则的决策

所有指挥官的决策类型都以一组有限的触发条件和决策响应的形式来描述。触发条件可以依赖于每次决策时决策实体的状态。这一方法的缺点是要求预先知道每种决策类型的所有触发条件和响应。可能无法很好地适应需要有许多触发器和响应的情况。相当于低至中等认知水平,在可重复性、计算成本、透明度和统计显著性方面优势明显。

4)战术算法决策

战术算法决策过程是指在代码中直接编码决策算法,这些算法可能出现在各种联合或方面作战行动中,例如空中作战巡逻中的飞机机动,其与基于规则的决策方法类似。

5)价值驱动决策

在这种方法下,存在这样一种方案,即当决策时机出现时,自动生成多个决策策略,而无须用户干预,并通过预测(模拟)每个策略和评估每个策略的结果来对其进行评估,选择具有最高排名结果的策略,典型如蒙特卡洛搜索树算法,这是一种潜在的中高级自主决策方法,但要牺牲计算成本和设置复杂性。

6)学习算法决策

该方法是价值驱动方法的一种扩展,它不仅通过预测(模拟)和评估结果来对策略进行评分,而且还通过考虑在模拟运行之前发生的“类似”情况下的实际模拟结果,即允许根据当前时间预测加上过往的经验对备用决策策略进行评估。这是更高层次的认知决策,会增加计算成本和设置复杂度,在透明度方面会有很大损失。

7)优化决策

该方法非常类似于具有额外特征的值驱动方法利用优化技术(如线性规划、遗传算法)有效地搜索可能的指挥决策空间。因此,这与价值驱动方法有大致相同的优点和缺点,并且，可能降低计算成本。

在这些方法中,最为成熟的是基于规则和战术算法的行为建模方法,已普遍应用于国内外各大仿真系统中,最前沿的是学习算法、优化决策等行为建模方法,本文主要针对这两类方法给出建模思路和基本实现方法。

2 基于规则和条令推理的行为建模

2.1 作战规则建模方法

作战规则主要描述了满足何种条件时采取何种应对方法,采用典型ECA方法构建作战规则推理模型如图1所示。主要要素包括触发时机(准则)、条件和响应动作三个方面。触发时机是指判断什么时候作战规则是否适用;条件指的是战术态势必须满足什么条件作战规则才能适用;响应则是指执行此作战规则的兵力应采取何种行动方式。

图1 规则推理模型原理

当态势发生变化时,触发规则匹配模型,即将兵力的态势内容与其搭载的规则的条件进行匹配,当态势目标与规则条件匹配时便执行该条规则所规定的响应动作。典型的规则描述见表1。

表1 战术规则模板

以美军航母作战指挥为例,作战指挥官可分为编群层、任务层和平台层,其中，编群层、任务层主要侧重兵力协同规则,平台层主要偏重单兵力作战规则,如图2所示。

图2 作战规则按指挥层级分类

基于模板的作战规则建模实现了对战术条件、战术响应的描述和量化,形成条目化的条件模板和响应模板。战术条件包括目标属性、时间、空间、探测、状态等;战术响应包括平台运动、探测、报告、通讯、电子战、通讯干扰、软打击和打击等行为。在此基础上,通过不同条件及响应的组合形成了灵活多样的战术规则模型。

2.2 行动条例建模方法

行动条例建模是一种基于战术算法的行为建模方法,即将行动条例以代码内嵌的形式与指控模型统一构建,从而实现了宏观动作的自主决策。

行动条例是指一些特定的作战样式的行动流程、准则、要求、约束等。以美军为例,其海空联合作战行动样式,可分为空中作战、打击作战、水面作战、水下作战、两栖作战、特种作战等。美军航空母舰编队对空/对海的典型作战流程如图3所示。

图3 美军航空母舰编队对空作战流程图

美军航空母舰对空/对海的作战流程复杂,考虑的因素和涉及的兵种较多,但是作战行动的共性特点是:指定一定数量飞机在指定空域进行警戒、巡逻、侦察、监视和搜索任务,对其作战流程中主要过程进行提炼,可从“出动、指控、任务、电磁、接替、打击”六个方面进行行动条例描述，如表2所示。

表2 行动条例模型描述要素

2.3 基于规则和条例推理的作战行动生成

在对规则和条例等知识进行了格式化表述后,结合规则匹配和行动条例开展对抗过程中作战行动生成的研究。

规则和条例都是广泛意义的作战领域知识,作战仿真领域知识主要包括作战计划、战术规则、行动条例三类。作战计划包含兵力编成、部署、指挥关系、作战任务等;战术规则用于描述战场实体应对战场态势的处置对策,如态势目标威胁意图判定、态势目标可攻击范围确定等;行动条例是对典型作战行动要领的概括,如直升机反潜、舰艇编队导攻等,三者之间互相关联、互为依赖。构建三者之间的共生、共存环境,通过构建各仿真模型实体与三者之间的自作用模型,实现战场仿真的智能演进。

以行动条例、作战计划、战术规则三者交互关系为基础,构建基于OODA控制流的模型体系动态演化机制,如图4所示。

图4 战场仿真实体智能演进原理

模型演化的目的是形成时域上的模型生成、调度序列。作战计划主要用于在时域上创建模型演化的基准序列;行动条例可以在时域上创建典型作战行动序列;战术规则用于将每个兵力的实时态势进行匹配响应,从而产生新的行动序列。这种动静结合的作战序列生成机制,可以实现战场仿真的全过程动态演化,其主要流程为:

1)仿真开始前,作战计划和行动条例相互作用生成基准行为序列;

2)仿真开始后,各仿真模型按基准行为序列演化;

3)战术规则和行动条例根据兵力态势进行推理,动态地调整、变更行动序列。

3 基于深度强化学习的行为建模

深度学习(Deep Learning)(也称深度结构学习、层次学习或者深度机器学习)是一类算法集合,是机器学习的一个分支。与人工神经网络的区别是它可以有许多隐含层,主要网络结构包含为深度前馈网路、卷积网络和递归经神网络,深度学习是基于多层网络结构的一种机器学习方法,它逐层提取抽象特征,通过多层非线性传输,完成复杂的目标函数系统逼近。

强化学习是指通过构建一个环境、奖励、动作、状态的求解器来求解各类复杂博弈问题,如果复杂博弈问题用深度神经网络来描述,则强化学习可以理解为一种求解深度神经网络模型的算法,当然,实际情况远比此复杂,二者是相互依赖的关系。

3.1 战场博弈问题的提出

随着AlphaGo的大获成功,以棋牌类游戏为代表的序贯博弈问题基本得到了解决,战场博弈是典型的实时策略的同步博弈问题(Simultaneous Games),也将是人工智能攻占的下一个制高点。与序贯博弈不同,战场博弈对战双方同时采取行动,实时性强,双方控制的单位数目不确定、不对称,进而导致动作空间规模随单位数量的增加而呈指数性增长,大大增加了问题的求解难度,目前，各种同步博弈的解决方案已经在星际争霸II(StarCarft II)、Dota2等即时策略游戏中得到探索和试验,是目前多智能体决策问题研究的一大主流方向。

3.2 多智能体网络模型

在作战体系仿真中,战场上的水面舰艇、潜艇、飞机、陆上车辆等都是具有指挥决策功能的实体,可以用智能体模型来描述。智能体模型在军事战场上的输入主要是全局或局部的作战态势,输出是智能体的各类战术动作,如机动、打击等。在以联合作战为主的现代战争中,战场智能决策实体通常是多层、多类、多方面的,不同的决策实体担负不同的作战任务,指挥不同的作战单元。考虑目前人工智能在多层智能体求解方面还存在诸多瓶颈问题,本文将简化智能体的指挥层级关系,构建智能体的神经网络模型如图5所示。

图5 智能体神经网络模型

接收敌方兵力局部态势、全局态势和我方兵力局部态势,在分别经过三个卷积网络处理后,进入AC框架的动作预测网络和态势估计网络,最后由后端网络输出多维向量,输出内容分别表示目标选择、指令选择、扩展参数和我方兵力选择等,例如，我方某舰艇对敌方某空中目标发射舰空导弹进行打击。

前端卷积网络采用深度残差网络ResNet,网络层1000层以上,可以解决态势映射时精度随网络深度增加会导致剧烈下降的问题;动作预测网络为策略网络,输出当前状态下决策动作的概率,态势估计网络为价值网络,输出当前状态下每个决策动作的估值,二者均可使用双向循环网络LSTM来实现,甚至可以使用同一个网络模型,双向的递归机制可以使多智能体之间进行交流,并且具备本地记忆,具体网络模型要结合训练算法来探索和设计;后端网络根据具体动作不同而不同,可以是全连接网、卷积网、循环神经网络等,但规模通常小一些。

3.3 多智能体训练算法

智能体神经模型线下学习和在线对战通常有所区别,在线学习的流程如图6所示。

图6 在线学习流程

多智能体学习流程根据选择的网络模型、用到的强化学习算法、样本生成方法等的不同会有所区别,但总体上存在以下四个步骤:

1)通过基于规则推理的行为生成方法在仿真环境中进行红蓝对抗生成大量的初始样本;

2)对冷启动样本进行评价引导,即设计单步奖励值,通常过程动作的奖励是比较稀疏的,可以将最后一步的胜负作为一个大奖励;

3)用深度强化学习算法遍历所有样本,求解深度网络的参数值,进而形成初始版本的红蓝智能体模型;

4)红蓝智能体依托于仿真系统进行自博弈对抗,产生大量的自博弈样本,然后重复步骤3),直到训练出能够战胜人类的智能体模型。

在上述流程中重点有四项内容需要研究:冷启动样本生成、决策评价引导体系、深度强化学习训练和自博弈对抗演化方法。

在典型强化学习方法中,DQN(深度Q学习)、DPG(确定策略梯度)等无法解决多智能体博弈问题,目前AC框架的相关算法是解决该类问题的唯一途径,而在典型AC框架算法中,MADDPG、PPO、A3C等是目前应用最多、最有效的方法。

MADDPG针对每个智能体训练一个需要全局信息的Critic以及一个需要局部信息的Actor,每个智能体有自己的奖励函数,可用于合作任务、对抗任务,空间可连续。

PPO提出了新的目标函数,可以学习自己环境下的经验也可以获得其他环境的经验,最新提出了ACKTR算法,已在Dota2中成功应用。

3.4 多智能体演化方法

多智能体演化方式是指在构建好智能体网络模型基础上,通过各种博弈方式不断地培育、提升智能体的智能性,达到预期的效果,多智能体演化方式主要有以下几种。

1)模仿学习

通过已有的知识规则数据或人类对抗数据作为样本来训练智能体。

2)自博弈训练

通过智能体自博弈产生样本数据来训练智能体,通常需要一个动作选择机制或构建初始的策略网。

3)不对称交替训练

非对称场景时,交替训练红蓝双方智能体,用胜率来确定训练结束,使红蓝方智能体在交替博弈过程中逐步提升对战胜率。

4)课程学习训练

智能体依次解决场景中设置的不同子任务来提高智能性,子任务通常由易到难。

5)智能体联赛

镜像多个异步智能体,通过相互对抗、优胜劣汰的方式同时训练多个智能体,使智能体集群逐步演化。

在多智能体培育过程中,通常是多种方法结合使用的,比如，Alpha Go先采用模仿学习的方法学习人类职业棋手的棋谱，形成初始的策略网,再通过自博弈训练产生强化学习样本进一步提升智力水平,Alpha Star则是采用模仿学习、课程学习和智能体联赛三种方式结合来演化训练的。

4 典型航母作战智能对抗行为建模

在复杂多样的海上作战中,航母编队作战基本涵盖了大多数的海战对抗行为,为此本文在已有的海战推演平台上,设计了航母作战想定,利用规则和条令推理以及深度强化学习两种方法,进行智能对抗行为建模。

4.1 想定设计

红蓝双方航母编队在相距1 000 km的某海域上对峙,双方的兵力配置相同,各有一艘航母、两艘护卫舰、两艘驱逐舰、一艘核潜艇,航母上都载有三十架战斗机、两架预警机和两架反潜直升机,击沉对方一艘水面舰艇即胜利,其中，红方航母编队模型如图7所示,与蓝方航母编队模型相同。

图7 红方航母编队模型

4.2 规则和条令推理建模

在航母编队作战想定中,可以将移动速度较慢的水面舰艇和潜艇以及在编队周围负责警戒探测的飞机,利用相应作战单位的作战规则和行动条例,构建基于OODA控制流的水面舰艇、潜艇和飞机的体系动态演化机制,实现各模型单位在面对不同态势时执行既定的作战行动。

1)水面舰艇作战模型

红蓝双方五艘水面舰艇各构成一个航母编队阵型,编群级的作战指挥决策为航母编队沿固定航线前行,同时开启对空和对海探测,若发现敌方来袭飞机和导弹目标,执行编队自主防空的作战任务,按照作战规则和行动条例,给各舰艇单位分配防空拦截导弹发射的行动序列。

2)潜艇作战模型

潜艇在航母编队前方,按照规划的路线进行反潜探测,若发现敌方潜艇或水面舰艇目标,通过指挥通信链路上报给航母编队,若目标在攻击范围内则实施打击行动。

3)警戒飞机作战模型

在航母编队的两个斜侧方向上,各派出两架战斗机编队在固定区域进行巡航,发现敌机后执行拦截行动并上报指挥所。在航母编队两侧,各派出一架反潜直升机进行反潜探测,发现潜艇后上报跟踪。

4.3 深度强化学习建模

在海战仿真推演对抗中,舰载战斗机编队执行对敌探测和打击任务时,面临的态势信息不确定性大,需要飞机单位根据当前的态势信息不断调整作战行为,而传统的建模方法难以满足实时性需求,且在战术行动上需要预先进行设计不够灵活,为此可以利用深度强化学习的方法,构建战斗机智能体模型,根据本文介绍的在线学习方法,对智能体仿真对抗数据进行深度强化学习训练,最终使战斗机智能体模型具备较强的空战能力和突袭打击敌水面舰艇的能力。

本文对战斗机多智能体模型的训练采用了自博弈对抗技术,根据多智能体训练算法的四个步骤,设计了红蓝双方飞机对抗的规则推理模型用于产生大量的初始样本,采用PPO算法和循环神经网络、长短时记忆神经网络、卷积神经网络等深度学习网络,对样本数据进行深度强化学习,形成初始版本的红蓝智能体模型,随后红蓝双方进行自博弈对抗,产生大量的样本数据继续进行深度强化学习,通过不断地更新迭代,生成可以协同作战、打击敌方飞机和水面舰艇的战斗机编队多智能体模型。

4.3 实验结果

采用深度强化学习方法构建的战斗机多智能体模型,设计奖励函数如表3所示。

表3 奖励函数设计

其中,Δ与Δ是当前战斗机编队中心的经纬度值减去上一步的经纬度值,为常数,目的是让战斗机编队向敌方舰艇方向移动。

在自博弈对抗过程中,蓝方采用规则推理模型,记录红方战斗机每10轮对战奖励的平均值,红蓝双方共进行4 000轮对战,红方的训练过程曲线如图8所示。

图8 红方平均奖励值和决策步数曲线图

从图8曲线中可以看出,在第600轮后,红方平均奖励变为正值,开始逐渐取得胜利,在1 000轮后开始趋于收敛,并且奖励值在缓慢地增加。而智能体平均每回合对战的决策步数,一直在平稳地缓慢下降,在经过4 000轮的训练后,红方智能体的奖励值收敛于14分左右,决策步数收敛于340步左右,红方智能体可以最小代价快速地取得胜利。

本次实验构建的航母编队模型,验证了规则推理与深度强化学习两种方法相结合,可以实现对海战智能对抗行为的建模,并且在经过大量训练后,红方航母编队可以具备较强的智能作战能力。

5 结束语

规则推理的行为建模具有应用广泛、实用度高、可解释性好等特点,受作战指挥系统设计人员所青睐,深度强化学习的行为建模方法技术先进,潜力巨大,是未来智能化作战一个重要研究方向,唯一不足之处是可解释方面亟待提升,本文从典型海战场行为建模方法分析入手,提出了规则推理与深度强化学习的模型算法框架,对于未来智能化军事应用具有借鉴意义。