人工智能在对空指挥决策中的应用

2019-08-27 10:03:20韩春雷刘美云

火控雷达技术 2019年2期

刘钦韩春雷张扬刘美云郭良刘蔚

(中国电子科技集团公司第二十研究所西安 710068)

0 引言

面对敌方由大量巡航导弹、战术弹道导弹及各种高性能作战飞机组成的空袭兵力群的立体打击威胁，战场指挥员需要迅速做出准确、合理的对空指挥决策，一方面能够降低我方防空弹药消耗量，节省弹药后杀伤更多的敌方空袭兵器；另一方面能提高防空作战效能，最大程度杀伤空中来袭目标，尽可能使我方免受空中打击而降低损失。

但是，随着空袭环境的复杂化，空袭武器数量、类型多样化，人类智能已无法在短时间内应对多目标、多对多的指挥决策计算和判断。现代战场对防空作战指挥的实时性和高效性提出了更高的要求。为保证指挥员及时做出科学的决策，必须借助人工智能技术模拟人类智能，在数据和经验中总结人类智慧，利用计算机进行高速计算实现实时决策。

本文从防空作战的实际需求出发，针对人工智能在对空指挥决策中的应用进行论述，首先介绍了人工智能技术的概念；其次概括了人工智能在对空指挥决策中的技术优势；然后，分别从威胁评估、目标分配、分布式架构、仿真验证等方面对其应用情况进行详细论述；最后，简要介绍了人工智能技术在指控领域应用时需要解决的具体问题。

1 人工智能概念由来

虽然人人都在论说“人工智能”，但是每个人心目中所想象的“人工智能”却各不相同。人工智能的几种经典的定义：

1)麦卡锡(John McCarthy)在1956年达特茅斯(Dartmouth)夏季学术讨论会首次提出人工智能概念。人工智能就是“利用计算机技术从功能上来模拟人类智能”。

2)百度词条中将人工智能解释为，研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

3)“人类智能”是“人工智能”的原型；“人工智能”是“人类智能”的某种人工实现。这是我们的认知。

2 人工智能技术研究层次

从发展历程看，人工智能可分为运算、感知和认知智能等三个发展阶段。

图1 人工智能技术发展历程

1)运算智能以高速计算和存储能力为代表。以科学运算、逻辑处理、统计查询等形式化、规则化运算为核心。机器早已在这一级别超过人类。

2)感知智能是指触觉、视觉、听觉等感知能力。以图像理解、自然语音处理为代表。机器已在这一级别接近人类。

3)认知智能是让机器学会主动思考及行动，以期辅助或替代人类工作，以理解、推理和决策为代表。这一级别研究难度很大，进展缓慢。军事领域的应用也主要集中在认知智能上，利用机器来代替人脑进行推理和决策。

3 人工智能技术知识谱系

从人工智能的分类图上可以看出，人工智能技术体系庞杂，应用广泛。以数学理论为基础，以机器学习[1-2]为主要研究领域。虽然机器学习和人工智能还存在严格的概念上的区分，但是大量的可参考资料和研究成果几乎已经将人工智能技术和机器学习技术画上了等号。同时还包括神经网络、深度学习和其它群体智能技术。深度学习作为机器学习技术的子领域，从2006年开始，对其研究关注和研究成果出现了爆炸式的增长，已然成为机器学习的主流。

4 人工智能指挥决策技术研究必要性

4.1 解决非线性问题

由于防空态势中的目标数量多，我方成员多，且各平台具有同时跟踪、攻击多目标能力，是一个典型的多对多的复杂非线性问题。态势中用于指挥决策的信息量巨大，很难从庞大的数据中寻求数据间的内在关系，没有一个明确的数学解析式可用于计算，因此做出的决策往往不是准确的，因为不是最佳的。

人工智能中BP神经网络类方法由于具有很好的函数逼近能力，通过学习训练样本，能较好地映射输出与输入间复杂的非线性关系，是目前应用得最为广泛的神经网络模型之一。

图2 人工智能算法分类

图3 人工智能、机器学习和深度学习的关系

4.2 解决不确定性问题

由于战场环境复杂，可获得的用于决策的信息往往是有限的、不完全的，并且有些信息不明确，因此采用专家系统以及传统统计方法等决策技术对此无能为力。

同时，传统指挥决策算法多是基于专家经验和规则的(在广义上专家系统也是人工智能，只是没有学习能力的人工智能)。这些规则和经验是人类从以往决策实践中总结出来的。从理论上来讲，对于不同的战场环境，总是存在以往设计的规则不能覆盖的地方。换句话说就是人类无法穷尽所有的规则，这种情况需要具有学习能力和推理能力的人工智能系统来弥补，以应对复杂多变的战场环境。

4.3 解决实时性问题

1)预测能力

态势中用于决策的目标状态总是滞后的，也就是说将雷达探测信息进行融合、识别处理后，进行决策时，目标位置早已发生改变。而指挥决策所需的目标状态信息应该越新越好[3]，这样才能做出准确决策。神经网络具有很好的预测能力，可以用来解决这一问题。

2)并行工作能力

传统的指挥决策方法多是由专家经验和逻辑规则组成，这种串行执行的逻辑规则使得决策严重滞后。具有并行工作方式的深度学习方法也可以加快决策制定速度。

4.4 解决信息缺失问题

传统基于规则的算法中，当多条规则同时被满足时，就会产生决策冲突。经过逻辑规则筛选后的态势信息可能已不具备协调冲突能力。而在这种典型情况下，基本的态势信息中可能富含更多用于解决冲突的信息。基于大数据学习的人工智能算法，可以将初始的态势信息记忆在网络权值中，通过对误差项的修正不断逼近最优决策，最大限度地保留原始数据中的有效信息。

4.5 强大的数据挖掘能力

对空指挥决策，除了经验可以利用，还有大量的仿真、模拟、对抗演练的数据，这些数据中包含着宝贵的知识与智能。对这些数据的挖掘利用，提高指挥决策水平需要人工智能技术。

5 如何在对空作战指挥决策中应用人工智能技术

人工智能的真正挑战在于解决那些对人来说很容易执行、但很难形式化描述的任务，对于这些问题，我们人类往往可以凭借直觉轻易地解决。在军事领域，例如在防空作战中，指挥员可以根据目标的态势标绘，从主观上判断出目标的作战意图和威胁等级，进而可以给出针对该目标的拦截方案。

5.1 智能识别

随着深度学习的迅猛发展，其应用也越来越广泛，特别在视觉识别、语音识别和自然语音处理等很多领域都表现出色。卷积神经网络(Convolutional Neural Network，CNN)作为深度学习中应用最为广泛的网络模型之一，也得到了越来越多的关注和研究[4]。事实上，CNN作为一项经典的机器学习算法，早在20世纪80年代就已被提出并展开一定的研究。但是，在当时硬件运算能力有限、缺乏有效训练数据等因素的影响下，人们难以训练不产生过拟合情形下的高性能深度卷积神经网络模型。所以，之前CNN的经典应用场景就是用于识别手写数字。伴随着计算机硬件和大数据技术的不断进步，人们也尝试开发不同的方法来解决深度CNN训练中所遇到的困难，特别是Krizhevsky等专家提出了一种经典的CNN架构，论证了深度结构在特征提取问题上的潜力，掀起了深度结构研究的浪潮。而卷积神经网络作为一种已经存在的、有一定应用案例的深度结构，也重新回到人们的视野中，得以进一步研究和应用。

基于深度学习算法的目标识别框架如图4所示，其在训练过程中自动生成特征提取器，而不再基于人工设计。特征提取器由一些特殊的神经网络类型组成，权重可以在训练过程中自动获取。可见，深度网络的特点和优势就在于将人工设定特征提取转变成自动生成特征。

图4 基于深度学习算法的目标识别框架

步骤1：首先对于待识别的目标(某些型号的飞机和导弹)，采集其不同飞行姿态下的序列图像信息，并进行类别标签的设定(机型和导弹型号的标定)；

步骤2：将所采集的样本数据进行划分，一部分用于识别模型构建(训练样本)，另一部分用于测试分析和系统性能的评估(测试样本)；

步骤3：通过识别模型(训练所得的深度神经网络)，对所获取的目标数据进行识别，能够确信的目标类别信息直接输出，不能够完全确信和未知信息则可通过专家系统进行决策分析，同时可以添加新的目标样本并进行深度学习网络的更新，提升网络的不断自主学习性能。

基于智能算法的目标分类识别所需关键技术主要包含两个模块：数据集的采集与处理、识别模型构建与智能决策分析。

5.2 作战意图推理

战术意图推理问题的核心是如何从相关数据中统计和学习先验知识[5]。作战意图的分析需要采用推理知识库，知识库的构建需要一系列的逻辑规则。而逻辑规则由逻辑知识片段构成，它们可以由历史数据或样本数据的统计和挖掘来发现。构建描述基本逻辑关系、概率迁移逻辑、序列关系逻辑的逻辑知识片段模型，来表征观测目标相关属性、类型、状态、行为模式以及战场环境等态势要素内部及其相互之间的逻辑关联关系，从而形成基于动态贝叶斯网络[6]、序列贝叶斯网络、多实体贝叶斯网络的规则知识体系。

图5 作战意图推理规则发现流程

1)基本逻辑片段B-MFrag，表达随机事件之间的相互逻辑关系。将逻辑片断B-MFrags所表达的过程构造为BN模型中的随机事件之间的逻辑关联关系。

2)概率迁移逻辑片段PT-MFrag，描述随机事件状态概率迁移过程。将PT-MFrags逻辑片断所表达的过程构造为SBN模型中子序列的马尔可夫序列过程。

3)序列关系逻辑片段SR-MFrag，描述随机事件状态时序序列和根事件状态空间的对应关系。将逻辑片断SR-MFrags所表达的过程构造为SBN模型中根事件与子序列之间的分解关系。

5.3 智能威判

威胁判断是对敌方目标威胁程度的量化过程，是指挥控制决策的重要前提。传统方法采用多属性决策理论、层次分析法等方法，依靠专家经验，主观性较强，不具备自学习和自适应能力。

通过态势分析以及外部情报获得目标类型、目标作战能力、目标干扰能力、目标意图等定性指标；对于定性的指标通过贝叶斯网络进行推理，构建评估模型，确定网络节点参数，最后推理得到静态威胁估计值。通过雷达实时测得目标的速度、高度、距离、航向角等定量指标。对于这些定量指标的变化关系，可以通过测得的样本进行神经网络训练。首先需要对数据进行离散化，然后利用训练样本构建网络，最后用训练好的网络对测试样本进行测试输出动态威胁度值。最终通过线性加权得到目标的综合威胁度。

图6 智能威胁评估框架

5.4 智能分配

指挥决策由传统威胁判定和目标分配到智能威胁判定和目标分配的过渡的途径是“专家经验”和“仿真数据”。因此，利用人工智能的两个关键途径是：

1)建立威胁判定和目标分配的规则库，来完成对专家经验的整理、积累和利用；

2)对模拟对抗数据的产生、积累、评价和利用，建立威胁判定和目标分配的数据库。

这两个资源是智能的来源，利用好了这两个资源才能实现对空指挥决策人工智能技术。

以3层神经网络模型为例，模型的输入层为4个节点，表示每个目标的4个距离特征：d1、d2、d3、d4；隐藏层也有4个节点，为中间节点；输出层有1个节点，采用softmax函数进行多分类输出，输出值为0、1、2、3其中之一，表示该目标该由哪条平台进行打击。

神经网络模型的结构如图7所示。

图7 目标分配的神经网络模型

神经网络在没有数据输入时，其不同层之间的权值是随机初始化的，在没有数据训练的情况下，测试输出的正确性为0.25(随机选择)。在大量目标数据(专家经验)训练迭代下，神经网络的权值对于结果拟合的越来越准确。其中拟合方法采用反向梯度下降法，通过反向梯度下降法来反向更新神经网络的权值，让错误结果得到修正。

图8 基于强化学习的目标分配算法

针对短时间、强对抗的交战环境能够提供给机器学习的战场指挥决策数据样本量少，传统机器学习方法难以有效应用的问题，研究与模型和数据无关的基于强化学习的目标分配方法，首先将敌我对抗系统中各仿真实体用Agent的思想自底向上对整个系统进行建模，通过Agent行为及其之间的交互关系来描述对抗系统的行为。其次将敌我双方参与作战的Agent种类及数量作为强化学习的状态；将目标分配的方案作为强化学习的动作子集；将武器装备打击效能评估(先敌发射概率、目标击毁概率)作为回报收益，来设计强化学习的研究方案。

5.5 分布式人工智能架构

在实现单平台决策算法智能化后，需要关注平台之间的协作，即群体智能的激发与涌现。多智能体系统[7](Multi-Agent System,MAS)与传统的协同决策控制系统相比，其最大的优势与特点是服务机制。将我方各节点映射为具备不同能力的智能体，每个智能体以服务资源的形式在决策控制网络中挂起，服务资源主要包括探测、融合、评估、分配、武器攻击等。该智能体不仅能够求解自身的决策控制问题，还能够为发出服务请求的其他节点智能体提供支持，服务请求包括精跟关注、导弹攻击、电磁干扰等。

图9 基于多智能体的决策控制系统体系结构

6 亟待解决问题

6.1 缺少样本数据

在和平时期，依靠打仗来积累带标签的数据是不合理的。考虑到成本问题，依靠实兵演练、模拟训练等渠道的积累标签数据是不现实的。现在限制AI在军事领域应用的关键就在于：强对抗、短时间的战场环境提供给机器的学习样本数量太少，导致人工智能难以在对抗环境中施展。为了解决这一问题，可构建红蓝对抗博弈平台，模拟典型的作战场景，包括我方主要作战兵力兵器，通信组网、指挥控制方式方法；以及敌方主要作战兵力兵器及典型作战样式，以此来积累指控样本数据。

6.2 算法效能难以有效验证

威胁估计准不准、目标分配对不对，在传统的指控领域也无法给出公认的度量。人工智能指挥控制算法的另一个亟待解决的问题是算法的有效验证问题。目前的解决思路还是建立一个博弈对抗系统，在多组复杂仿真场景下对指挥控制的最终结果进行检验。即系统的作战效能，包括决策执行后武器的攻击效果，武器的命中概率、弹药的消耗量、目标的毁伤情况等进行综合判别。

7 结束语

人工智能技术已经应用在人类生活的方方面面，俨然已成为国际竞争的新焦点。但是，在军事领域，尤其在指挥控制领域的研究才刚刚起步。由于样本量和标签数据的缺乏，导致不能直接使用其他领域的成熟算法。需要研究人员花费大量的精力去创新、改进算法，探索人工智能技术在指控领域的应用，形成能够在线智能学习的、小样本的无监督学习算法。