人工智能在无人战场态势预判与博弈对抗中的应用

2020-11-26 07:49:04汤润泽张承龙李林林

现代防御技术 2020年5期

汤润泽，张承龙，李林林

(北京电子工程总体研究所，北京 100854)

0 引言

随着大数据、云计算以及人工智能等大量高新技术的蓬勃发展，智能化作战武器平台和无人作战体系迎来空前巨大的发展机遇和挑战。2014年11月，美国国防部首次提出了以人工智能为重点的“第三次抵消战略”。由此可见，以人工智能为代表的先进技术正在打开未来颠覆性战争的大门，智能无人系统在未来作战体系中，将逐步由介入转化为支撑，并最终扮演主导力量的角色[1-2]。

当前，全球局势正在经历快速发展和持续变革的阶段，我国国家利益拓展和周边安全形势面临巨大威胁和挑战。为了有效保卫国家的领空利益，发展具备与时俱进的智能无人作战能力迫在眉睫[3-4]。

无人作战具有实时对抗、非完全信息博弈、不确定性大、群体协作、高动态等特点，同时也面临着战术变化多、时效性强、系统复杂等诸多挑战。为了搭建攻防兼备、能力完善的智能无人作战体系，必须获得OODA概念上的优势(观察-判断-决策-行动，如信息探测能力、电子战能力、通信能力和火力打击能力)。因此，如何将人工智能技术与传统无人作战需求进行有机融合，形成一套高效智能的无人作战系统，具有十分重要的科研价值和应用意义。

本论文首先深入分析了当前智能无人作战的发展现状，并梳理总结了未来智能无人作战的关键技术方向，随后分别提出了人工智能在战场态势预判与博弈对抗中的应用，最后对智能无人作战的发展进行了总结和展望。

1 智能无人作战现状及未来技术研判

1.1 人工智能在无人作战中的应用

近些年来人工智能技术突飞猛进，在语音识别、图像辨识、运动感知等众多领域，纷纷取得了历史性的突破进展。2016年，AlphaGo与李世石进行了一场万众瞩目的围棋大战，最终人工智能AlphaGo以4∶1的结果完胜人类，一时间掀起了社会上的广泛热议，推动了人工智能技术的又一次发展浪潮。随后，AlphaGo的研制团队DeepMind趁热打铁，宣称要挑战更为复杂的《星际争霸》游戏，更是将人工智能技术推上了无所不能的神坛。围棋和《星际争霸》这2款游戏同战场军事指挥控制有着十分紧密的联系，尤其是星际争霸与军事战争有着极高的相似度[5-6]。因此，受此启发，将人工智能技术运用在军事作战指挥成为了很自然的选择。下面分别介绍国内外人工智能在无人作战中的应用情况。

(1) 空战人工智能系统(Alpha AI)

美国空军一直以来在无人作战领域，大力发展人工智能在军事装备与技术上的应用。例如，与美国辛辛那提大学联合研发的空战人工智能系统阿尔法AI(Alpha AI)就是代表之一[7-9]。

2016年6月，Alpha AI在模拟空战的演练中，以百分之百的胜率击败了美国空军退役上校基恩·李，模拟空中对战场景如图1所示。参与人机对战的基恩·李上校并非等闲之辈，他作战经验丰富，曾经驾驶过多种机型，拥有数千小时的飞行经验。在空中模拟对战场景中，研发人员甚至有意限制Alpha AI所控制战斗机的作战能力，以便探索其能力阈值。即使如此，Alpha AI仍然能够击败人类飞行员，体现出人工智能技术在无人作战领域的惊人威力。

图1 模拟空中对战场景Fig.1 Aerial combat simulation

(2) 美军“深绿”系统(Deep Green)

美军推出的“深绿”系统计划，是美国国防部高级研究计划局(DARPA)支持的一项面向美国陆军指挥与控制领域的研究项目。“深绿”系统是把人工智能引入作战辅助决策的一项尝试探索，示意图如图2所示[10-12]。

图2 “深绿”系统概念示意图Fig.2 Schematic diagram of the concept “deep green”

“深绿”系统的核心技术本质上是基于战场实时态势的动态仿真。对于战场上复杂多因素综合作用的过程，很难使用传统的数学公式进行描述，这恰好是动态仿真最为擅长的部分。通过仿真的手段，可以使得“深绿”系统量化地估计未来某一时刻的战场状态，以期掌握战场态势局面。

然而，运用仿真的方式对战场变化进行预测也存在一大漏洞，即无法应对分支太多的情形。包括战场环境变化、随机过程不确定性、敌方战术策略、我方应对策略等都会导致分支出现。而各种不确定性的组合产生数据爆炸，导致仿真模拟的计算资源和时间成本过高，这是“深绿”系统所遇到的最大难题。虽然由于种种原因，美军于2011财年高调宣布暂停“深绿”计划，其思路和方法值得借鉴。

(3) 中国兵棋AI“先知”(CASIA-先知v1.0)

人工智能技术应用在国际象棋领域，催促了“深蓝”(Deep Blue)的诞生，人工智能技术应用在围棋领域，促成了AlphaGo的成功，那么将人工智能技术运用在更复杂、更灵活、更加不透明的不完全信息博弈对抗兵棋领域，也一定会产生出超越人类最高水平的人工智能体。2017年9月，由中科院自动化所研制的人工智能程序“CASIA-先知v1.0”，在“赛诸葛”兵棋推演人机大战中，与全国决赛阶段的8名实力选手激烈交锋，并最终以7∶1的战绩大胜人类选手[7]。兵棋推演过程如图3所示。

图3 兵棋推演示意图Fig.3 Schematic diagram of wargame rehearse

1.2 未来技术发展研判

针对以上智能无人作战现状的分析，对未来技术发展进行研判，总结出智能自主感知技术、高可靠性通信技术、任务规划与决策技术等亟待应用在无人作战领域的关键技术。

(1) 智能自主感知技术

智能自主感知技术是指一种无须或仅需极少的人为干预，通过接收自身探测或外部信息支援的数据，如陆海空天电网等多域信息源，就能凭借机器自身性能智能自主感知到准确的环境信息。未来智能自主感知技术的发展，一方面是结合现有的传感器完成对不同模态感知数据的融合，比如激光测距仪、全景相机、GPS、惯导、双目摄像机等多种传感器集成新型的融合；另一方面是探索具有仿生或者类脑性质的新型传感器，比如动态视觉感知、角度感知、光流和焦点流感知、触觉感知等等。智能自主感知计算，能够丰富大量的作战信息，而准确的信息感知是作战的基础，能够用于无人作战系统战中进行任务规划、目标分配与决策打击等。

(2) 高可靠性通信技术

高可靠性信息交互是无人作战系统获取作战信息的重要途径，也是实现协同作战的基础，无人作战系统通信技术应具备高可靠性、足够的带宽、可灵活接入的动态特性。目前如火如荼的5G通信技术拥有高速率、低功耗、低延时、高通信密度的特点，其突破不仅仅体现在速度方面的升级，更重要的是低延时和高通信密度的特点能够让信息覆盖得更广。

(3) 任务规划与决策技术

智能任务规划与决策技术是智能无人作战系统实现自主作战的关键技术，即在一定程度上模仿或替代人的思维，对外界获得的信息进行分析判断和处理，制定任务并实现作战决策。作战任务规划是军事信息系统的核心，通过深度强化学习等人工智能技术的应用，对获得的战场态势信息进行融合处理，针对作战任务，综合分析敌我双方作战资源、作战能力、对抗措施、使用部队、作战地域武器装备、飞行航迹等作战要素。智能决策系统可以与“观察-调整-决策-行动”OODA作战链相结合，从4个角度出发，运用大数据和机器学习方法提取有人作战的战斗经验，并结合Monte Carlo搜索树、滚动时域优化等方法，在实时条件了达成任务规划与决策。

因此，结合当前先进的科学技术，在未来智能无人作战中，集中力量发展相关关键技术的落地应用，成为未来战争取得主动权的必要手段。下面选取军事指挥作战过程中最重要的2类场景，即态势预判与博弈对抗，对人工智能技术在其中的应用进行探索。

2 无人作战态势预判中的关键技术

本节针对无人作战态势预判的问题，采用深度学习技术搭建基本模型，实现了人工智能技术在无人作战领域的初步探索。

随着大数据时代的到来，战场态势预判面对的数据量呈井喷式增长，迫使作战指挥方在决策支持层面，面临前所未有的挑战。基于神经网络架构的深度学习模型，以其出色的特征提取、多层学习和表达能力，为军事态势预判系统的研究提供了新的思路。与传统方法相比，基于深度学习的态势预判方法，对于数据信息的识别以及推理分析能力，都具有显著的优势，能够有效深入地处理和分析大数据。

在无人作战态势预判中，同时需要关注以下几点关键问题：

(1) 战场态势理解

在作战指挥中，通过分析判断战场敌我情况，充分掌握战场态势，并做出临机决策制定行动计划。因此，研究发展智能无人作战系统，首先必须解决的就是战场态势理解问题。一方面，需要在不完备信息对抗的战场上，从众多复杂多变的战场态势信息中，提取真实、有效的信息；另一方面，利用获取的信息有效转化为机器语言实现机器理解。因此，解决以上两方面的问题是有效进行战场态势理解的基础。

(2) 战场信息处理

在未来战争中，从海量数据中提取重要战场信息的能力是能够真正制约战场决策的关键环节。因此，为了有效处理战场信息，不仅应着重关注战场信息大数据挖掘方面的研究，同时也要关注战场重要信息选取的难题。利用已有演习的真实数据，通过构建符合战场态势特性的深层神经网络进行逐层训练，能够加强对战场态势的抽象理解。

(3) 作战意图预测

AlphaGo的成功启示我们，在对双方每一步作战意图可以进行准确预测的前提下，利用人工智能技术，可以实现模拟环境下自我对抗演练。

在作战行动的推演中，准确预测敌方下一阶段的作战意图面临巨大挑战。首先，作战意图的预测是通过已知的态势信息数据进行推演，一定要确保推演信息的数据可信度，否则会增加了作战意图预测的难度；其次，作战双方在决策过程中不会按照一致的方案进行博弈，即任何战争中从来不存在固定的游戏规则，必须根据态势情况进行摸索和判断；最后，政治、外交等许多难以量化的诸多因素也会掺杂影响作战意图的判断，尤其对于战略级的作战意图，并非是简单的局部作战行动的叠加。因此，解决以上3方面的问题是有效进行战场作战意图预测的基础。

根据以上3方面问题的研究，本节提出基于深度学习的态势预判模型如图4所示。首先对各方面探测器感知到的战场态势信息进行分析、判断，提取与战场决策有关的重要信息进行处理，最后结合指挥员的作战经验，最终得出完备的态势预判信息[13-14]。

图4 基于深度学习的态势预判模型Fig.4 Situation assessment model based on deep learning

3 无人作战博弈对抗中的关键技术

近年来，深度强化学习在诸多复杂序贯决策问题中取得巨大突破，最为典型的例子即2016年AlphaGo在围棋比赛中战胜韩国顶级职业选手李世石，AlphaGo从此名声大噪，深度强化学习技术(DRL)也逐渐引起了世人的广泛关注。由于融合了深度学习强大的表征能力和强化学习有效的策略搜索决策能力，深度强化学习已经成为实现人工智能颇有前景的学习范式。本节围绕无人作战博弈对抗智能化的问题，利用深度强化学习技术开发作战智能体，搭建了基于深度强化学习的博弈对抗基本模型，能够解决复杂战场环境下的识别和决策问题[15-17]。

在博弈对抗作战场景下，首先要解决的就是任务分配的问题。任务集建模是动态在线策略生成的核心，但针对多场景、多任务的大规模作战资源管控问题一直面临维数灾难的难题。深度神经网络在高度结构化数据的特征提取方面表现格外优异，因此首先选用深度神经网络对战场博弈信息进行提取整合。将战场态势和作战任务作为输入，根据不同的作战策略建立对应的价值函数Q，将对应的Q值作为输出，可以实现战场多场景、多任务集的基本建模。同时，针对战场资源管控的多任务特点，可以建立多Agent的DQN网络，如图5所示。每个Agent利用蒙特卡罗树搜索结构实现作战策略更新，并在Agent之间实现DQN网络参数与不确定集约束的并行计算与迭代，实现基于分布式特征函数逼近的最优作战任务集建模，从而解决作战任务分配的智能化模型。

图5 多DQN网络信息传递示意图Fig.5 Information transfer schematic diagram based on muti-DQN network

运用DQN对作战网络信息资源化进行整合之后，就需要作出战场决策。从DeepMind挑战《星际争霸2》得到的经验来看，机器学习采用从零学习的策略是不可取的，复杂战场环境中的决策更是如此，对模型初始阶段的训练应当依托人类经验进行训练，在模型能够自行处理部分简单任务后，再进行自我模拟对抗的强化学习将更加有效，这也是深度强化学习的精髓所在。将深度神经网络与强化学习结合，利用仿真推演平台将战场数据与作战博弈对抗决策进行综合处理分析，利用决策模型依托真实数据和兵棋模拟数据进行自我博弈，从而不断提高作战博弈对抗决策的效能。基于深度强化学习的博弈对抗模型训练模型如图6所示。

图6 基于深度强化学习的博弈对抗模型Fig.6 Game countermeasure model based on DRL

4 未来发展的初步构想

现阶段美国等军事强国实施了多项无人作战装备研发计划，并部署开发了支撑智能无人作战系统的关键性技术，如自主智能感知、自主任务规划与决策、分布式协同作战、多域作战计划等，无人作战系统呈现蓬勃发展的趋势。借鉴现有无人作战系统技术及概念，未来智能化无人作战系统应具备如下形态特征：完善的信息获取能力；可自主完成目标识别、作战任务规划、作战决策、自主发射等功能；适应不同环境实现多域部署；单个平台独立完成作战，多平台间协同作战扩展作战能力；自主监测、自主保障功能，可免维护实现长期可靠作战值班。为实现上述功能，应结合无人作战的特点，关注影响未来发展的核心技术方向。

(1) 云作战单元的统一化描述及优选

智能无人作战系统智能自主作战的理念不是将作战资源间功能及性能的差异最小化，而是充分重视这些差异，以便面对各种不同的任务需求，都能从资源池中选择出相应能完成任务的作战资源。将作战资源虚拟为云服务是对作战单元统一描述的一种方式，但是如何定义云协同中统一的语义，确保同一个术语在不同域之间表示相同的含义，以及如何保证这些术语能够完成地描述作战资源的功能等问题，仍需要深入研究。

(2) 复杂场景体系架构的搭建

智能无人作战属于一种极为复杂的作战场景。架构方法搭建是解决大型复杂信息系统分析设计问题的一种行之有效的手段。体系架构的核心思想是利用多视图方法，从不同利益相关者的角度认识和分析研究对象，将复杂问题分解为一系列简单问题，通过简单问题解的总和得到复杂问题的解。

(3) 跨域信息融合能力

在智能无人作战环境中，来自各域的传感器所探测信息的类型、精度、范围、刷新频率等都是不同的，甚至差别很大，这便对跨域信息融合能力提出了挑战。为此，应构建合理的跨域信息融合体系，以使带宽通过有限的网络通信能力，达到满足战需的战场态势感知能力。

(4) 先进的数据链系统

数据链系统是智能无人作战的神经系统，当前各军种的数据链虽可以实现简单的互联互通，但难以实现灵活的协同作战。为了实现基于云协同的多域指挥控制，应对各军种各自建立的数据链系统进行统型，制定统一的数据链构建和使用标准，以便在满足面对不同需求而利用不同的数据链进行通信的同时，又能够在各域之间进行通畅的、安全的、抗干扰的战术通信。

(5) 未来新型战术战法研究

基于智能无人作战的跨域作战是一种新型的作战方式，与传统的单兵种作战、多兵种间有限度的联合作战有较大差别，因此需要对新的战术战法进行研究，构建战术战法数据库，并积累跨域作战经验。

5 结束语

随着技术的进步，智能无人作战系统在连续作战能力、计算能力、自主化水平、可靠性等方面不断发展，将进一步融入到陆海空各领域，消除了人的限制，作战系统反应速度、作战能力将得到极大提升。论文研究了智能无人作战系统现状，梳理了其主要特点及关键技术，提出了智能无人作战系统发展的初步构想与关键技术方向，成果可用于智能无人作战系统发展参考。智能无人作战系统是一项极具潜力的作战概念，后续还需要加强进一步的投入，期待通过不断研究使其早日应用实践，在未来无人作战环境中发挥重要作用。