基于知识库的无人机作战自主决策方法的研究

2020-08-03 01:50万晓冬

计算机测量与控制 2020年7期

李维，万晓冬

(1.南京航空航天大学自动化学院，南京 211100；2.通信网信息传输与分发技术重点实验室，石家庄 050000)

0 引言

近年来，军用无人机迅速发展成了一种新型武器，在几次高技术局部战争中发挥了重要作用。美军在海湾战争、科索沃战争、阿富汗战争、伊拉克战争中对无人机的大量军事运用，特别是“捕食者”直接发射导弹攻击地面目标，更是将无人机的发展与使用推向了新的高潮[1-2]。

在现代空战中，无人机需具备自主作战的能力。在实际作战中，指挥员难以处理大量的战场信息，无法满足作战的实时性和适应性的需求；并且为了应对UAV 与地面任务控制站之间可能出现的通信中断等突发状况，提高作战无人机自主决策能力是适应现代化战争的必然趋势[3-4]。

目前关于自主决策的方法有许多，如神经网络、基于黑板模型、基于案例推理[5-7]。为了充分利用指挥员已有的作战经验以提高无人机自主决策的能力，本文提出基于知识库的自主决策方法。将指挥员的作战经验以特定的方式存入知识库。无人机将结合作战任务、目标状态以及系统状态，依据知识库中的作战规则来制定一系列的作战行动。

1 无人机自主决策模型

无人机自主决策过程是对人脑思维模式和思维过程的模拟，其核心是知识库。知识库包括了模型库(事实库)、评估模型、规则库。无人机平台将传感器系统的输出处理为对状态的认知，然后通过知识库来决定作战行动。知识库好比指挥员的大脑，存储了作战经验，比如攻击炼油厂时，较好的攻击武器是AGM-65“小牛”空地导弹，因为这类带导弹击中目标后容易引起大火，以达到最好的攻击效果。这类简单直接的知识经验很难用算法或者数据模型表达，若直接以if的方式镶嵌到控制主系统中，将增大决策系统的耦合性，使系统变得臃肿不可维护。所以本文将上述类的作战经验以规则的方式存储在知识库中的规则库中，将规则与程序隔离。还有些作战规则是针对模糊的判断做出的选择，比如敌方目标对我方威胁度大，应立刻对其采取措施。其中威胁程度的大小是指挥员根据目标信息以及我方状态得到的模糊的主观评估，如何表达这样的评估知识也是构建知识库的重点。

无人机自主决策流程如图1所示。模糊化是对传感器数据进行模糊化处理，得到连续变量的隶属度，然后传递给贝叶斯网络进行评估。动态贝叶斯评估网络根据各项评估模型建立对应的贝叶斯网络，输入离散变量与模糊后的连续变量证据，结合知识库中的专家经验得到评估结果。推理引擎根据输入的事实与评估当前状态的评估结果，与规则库中的规则进行匹配，若匹配成功，执行相应的决策结果。

图1 无人机自主决策流程图

无人机平台在执行任务的过程中利用其自身的传感器(如雷达、敌我识别器、电子支援设备等)对来自战场的信息进行采集，采集战场信息经过各传感器的响应处理后形成对战场信息不同的表达，如战场目标的类型，特征，敌我属性等。这些战场信息经过传感器信息的处理和知识表达之后，无人机利用所建立的相应贝叶斯网络对传感器信息和数据库信息进行融合，并将评估结果输入规则引擎，规则引擎结合自身情况、数据库信息以及各方面评估效果做出战术性决策，决定下一步的行动。

2 知识库的构建

知识库是自主决策系统的核心部分。知识库包括了模型库(事实库)、评估模型、规则库。

2.1 模型库(事实库)

模型库主要存储目标、无人机平台、任务载荷的参数信息。

其中目标主要指地面实体，包括动态实体与静态实体单元。动态实体主要指具有机动能力的作战实体，如坦克、装甲车辆；静态实体主要指静止的建筑、工事，如桥梁、指挥所、炼油厂等。

无人机的任务载荷主要涉及三类，分别是侦察监视载荷、武器载荷、干扰载荷。其中侦察监视载荷主要用于对目标进行搜索、识别跟踪等。可通过测量与分析提供目标的类型、位置、速度等信息，并提供武器瞄准、发射所需数据。武器载荷指在无人机上进行投射用于攻击敌方目标的武器装备，根据用途可分为航空火箭弹、航空炸弹、制导炸弹、空空导弹、空地导弹等。进行武器载荷选择时可根据任务类型携带相应的武器型号，由于选定的无人机平台载重有一定的限制，所以对携带的武器数量也有相应的约束。干扰载荷是指为无人机提供电子防护，还可用来干扰敌方雷达与攻击武器的装备，其中电子干扰机可与对敌方雷达进行压制，降低敌方搜索能力；另一种是干扰弹，如红外干扰弹，用于制造假目标，可诱骗敌方发射的红外制导方式的武器，使无人机躲过敌人的攻击。

这些实体与装备模型可用动态与静态两种参数描述。动态参数用于描述当前各实体的运动状态、工作状态、评估结果、属性，其可作为条件用于触发决策规则；静态参数包括各实体的重量、长度、体积、适用距离等常识性知识，用于决策过程中进行与实际情况对比参考。

2.2 规则库

规则库存放的是专家经验的决策知识，描述不同态势与战斗阶段下无人机应做出怎样的行动。为了对规则进行统一的存储管理，需要对作战规则进行形式化描述。因此选择何种描述方法成为建立规则库的关键。

规则库采用产生式规则来描述作战经验知识，有作战经验的军事人员将对地攻击时用到的推断与决策经验总结出的一套战术描述，作为制定产生式规则的基础，然后经过专家的分析和改进，去掉冗余的态势判断，补全未知情况下的行动措施，最后建立逻辑全覆盖、合理完善的规则库。

产生式规则由条件(IF)和结论(THEN)两部分组成。具体结构如下:

if 子句 1 or/and 子句 2

then 子句 3 or/and 子句4

通过深入研究无人作战活动的分类特点和组织形式，建立了将无人机各模块属性、状态、行动相结合的规则模型。

事实库中使用面向对象的方法定义各个领域：目标、无人机平台(包括武器系统、雷达系统、飞控系统)，环境等。根据实体的功能定义不同的状态信息与数据信息。规则的前件包括对象的属性以及状态信息，属性信息是对当前数据的表示，状态信息确定了当前作战阶段，可用于控制流程；后件部分描述对情况下应采取的作战行动。决策时，使用Rete算法进行前向规则匹配[8]，当满足前件条件时，则触发规则，执行后件动作。表1是部分规则示例。

表1 规则示例

2.3 基于动态贝叶斯网络的评估模型

在战场中，指挥员需要根据战场中态势进行决策。例如敌方目标对我方产生较高威胁时，应立刻对该目标采取应对处理。判断目标的威胁程度，即对传感器得到而数据进行融合形成对当前态势的描述，如何对这类评估知识进行表达是本章的主要内容。

本文采用了动态贝叶斯网络(DBN)[9]来进行战场态势的评估，包括目标威胁评估、打击效果评估等。下面将以基于DBN的目标威胁程度评估模型为例。

运用贝叶斯网络进行威胁评估，首先需要确定影响目标威胁程度判断节点因素及其状态，即确定贝叶斯网络中的时间节点及其对应的状态；然后按照各事件之间的因果关系建立节点间的有向弧，表示事件之间的层次关系；然后确定贝叶斯网络参数，及网络中各节点的先验概率或边缘概率；最后选择合适的算法进行推理[10]。

影响地面目标威胁程度的因素是多样的，结合空对地作战的实际，得到影响目标威胁评估的因素主要包括目标企图、目标毁伤能力、我方目标价值、目标面向速度、目标距离、方向、干扰能力、目标类型。基于静态贝叶斯网络的目标威胁评估网络图2，其对应的节点状态如下：

目标威胁程度(TH)：高(H)，中(G)，低(L)；

目标企图(IN)：火力攻击(A)，预警探测(S)，防空拦截(P)，电子干扰(E)；

毁伤能力(DE)：强(S)，中(M)，弱(W)；

我方价值(VA)：高(H)，较高(E)，中(M)，低(L)；

面向速度(V)：快(Q)，中(M)，慢(S)；

距离(S)：远(F)，中(M)，近(C)；

方向(D)：靠近(E)，远离(L)；

干扰能力(G)：强(H)，中(M)，弱(L)；

目标类型(T)：雷达(T1),装甲车辆(T2)，导弹阵地(T3)，高炮阵地(T4)。

图2 目标威胁评估网络图

在实际作战过程中，目标的状态信息不是一成不变的，若只以某一时刻的信息作为后续决策的判断依据将会造成巨大的误差。所以本文采用了动态贝叶斯网络，在静态贝叶斯网络中加入时间节点，将前一时刻的评估结果作为后一时刻的评估依据，能够将历史信息与最新的证据信息结合，提高评估系统的实时性与鲁棒性。

在实际中，由于战场信息的高度保密性，很难获取大量的样本数据进行贝叶斯网络参数的学习，因此本文采用专家知识来完成贝叶斯网络的参数模型，并在实验中不断优化参数，使其接近真实状态。

3 自主决策作战过程及仿真分析

3.1 自主决策过程分析

在本文中的无人机自主决策作战仿真过程中，当无人机发现并锁定目标后，获取目标的类型、运动路径、当前位置等信息，加入无人机平台的目标集，决策模块通过规则匹配，触发目标应对规则，无人机平台根据获取的目标信息进行威胁评估，并根据相应规则决定是攻击、躲避还是忽略。若需要对目标进行打击，触发武器选择规则，根据目标类型、武器载荷等约束选择合适的武器进行打击，打击结束后进行打击效果评估，根据评估结果决定是否进行二次打击；若目标威胁程度大，敌我势力悬殊，无人机需要对目标的攻击进行躲避，根据电子对抗规则，若被敌方雷达锁定，可释放金属箔条对雷达进行干扰，若敌方目标发射红外导弹，可使用红外干扰机或红外诱饵，在电子对抗的辅助下进行机动动作对敌方的攻击进行规避，能有效逃离敌方的压制；若目标威胁程度低，无人机可忽略该目标继续进行原侦察任务。在整个过程中，没有依赖地面站的控制，无人机平台一直循环更新目标、态势等信息，并根据获取的信息不断匹配相应的规则，整个作战流程根据无人机平台以及目标的状态信息按照相应的规则进行驱动，完成自主决策。该决策过程流程如图3所示。

图3 自主决策流程图

3.2 仿真实验

针对上述自主决策流程，进行无人机执行简单察打任务的仿真实验实例。

3.2.1 作战想定

我方无人机在警戒区域执行侦察任务时，敌方装甲车辆向我方军事要地秘密潜入，且行进速度较快。已知敌方装甲车辆进入无人机探测范围。

3.2.2 实验平台

本实验使用的是基于Agent[11]的仿真软件：Repast[12]。实验中，进行简单的战场仿真[13]，并创建两个实体模型：UAVAgent与TargetAgent。TargetAgent代表我方察打无人机，具有探测、决策、打击功能；TargetAgent代表敌方装甲车辆。下面主要介绍无人机Agent的构建。

无人机Agent主要由五部分构成，分别为无人机平台、机载雷达模块、飞行控制模块、火力控制模块、辅助防御模块。

无人机平台：主要由无人机决策系统构成，无人机通过机载雷达模块获取目标及环境信息，所获信息进入由动态贝叶斯与规则推理组成的决策系统，得出决策结果，飞行控制、火力控制、辅助防御模块根据该结果执行相应的动作。

机载雷达模块：该模块执行的动作包括敌方地面目标的搜索、目标识别、目标跟踪、获取目标位置、速度、方位信息、目标指示等。这些动作的执行根据无人机平台的任务以及雷达模块工作状态由相应的目标探测规则触发。雷达模块根据雷达的相关参数，主要包括工作频率、天线增益、发射机峰值功率、探测范围、发现概率、虚警概率等。当目标进入雷达探测距离后，并不一定能发现目标，可以通过产生一个范围为0到1的随机数，将该数与发现概率相比较，若该随机数大于发现概率，则目标为被发现，若小于发现概率，则判定雷达探测到该目标。

飞行控制模块：无人机的机动主要包括无人机平飞、转弯、俯冲、等动作的执行。大多数无人作战飞机所需的升力基本全部来源与机翼上下面压力差形成的升力，没有飞行速度，光靠气流吹袭产生的升力是远远不够的，所以无人作战飞机在锁定目标后，并不能执行悬停动作，这样，无人机平台机动就可能导致敌方目标脱离机载侦察设备的视场范围。仿真实验中，无人机不做复杂的机动动作，在向目标点飞行时，主要采取直线平飞。当在某区域执行侦察任务时，开启巡航模式，即航行轨迹为圆周。当无人机侦察到敌方目标时，为保持目标在视场范围内执行定常盘旋动作。

火力控制模块：当无人机发射导弹后，导弹并不一定能够击中目标，可以通过产生一个范围为0到1的随机数，将该数与导弹杀伤概率相比较，若该随机数大于杀伤概率，则目标未被击中，若小于杀伤概率，则判定该目标被击中。目标被击中后不一定能被摧毁，因为目标会有一定的装甲、抗损伤能力，可将目标装甲能力用0到1之间的值标定，将其与导弹杀伤力的乘积通过阈值比较进行实际毁伤定性判定。

辅助防御模块：该模块主要动作是压制性干扰和防御干扰。当无人机为躲避敌方地面警戒雷达探测时，通过自卫干扰设备进行压制性干扰躲避敌方的探测与跟踪。当无人机被敌方警戒雷达锁定后，根据敌方发射导弹类型选择释放箔条弹或者红外干扰弹，以躲避敌方导弹的攻击。

3.2.3 实验结果

UAVAgent的决策日志见表2，仿真展示见图4，整个决策流程通过改变无人机平台与目标的状态控制流程，其对应的状态值记录如表3。

图4 仿真展示图

表2 决策仿真日志

Tick1时刻，Target进入UAV的雷达探测范围内，UAV的目标队列中加入该目标，由表3可见此时Target处于被警告状态，触发UAV目标应对规则库的相应规则，对Target进行威胁评估；Tick2时刻，威胁评估完成，Target处于评估完成状态，威胁评估结果为高，Target的威胁状态置为高，此时UAV触发目标打击规则，对目标进行打击准备；Tick3时，Target处于打击准备状态，武器分发为等待状态，触发武器选择规则，并按照相应的武器选择规则进行打击武器选择；Tick4时，武器选择完成后，武器分发状态为已分配状态；Tick5时刻，Target处于UAV打击范围内后，触发相应打击规则，进行武器发射,如图4(b)；Tick6时，打击结束，Target处于已攻击状态，触发相应毁伤评估规则，进行打击效果评估；Tick7时，打击效果达标，目标处于被摧毁状态，触发相应规则，UAV的目标队列中Target被移除，打击任务完成,如图4(c)。在上述仿真过程中，UAVAgent通过感知并使用评估网络获取当前态势，设置各模块的状态值并触发相应的规则，做出对应的行动，动作完成时改变各模块状态值，触发新的规则，以此不断推进任务的完成，完成自主决策。

表3 状态值记录表

4 结束语

结合人脑的思维模式和思维过程，提出基于知识库来实现无人机的自主决策。知识库主要用以存储军事作战经验。通过规则匹配的方式进行决策，能避免神经网络等理论进行模型构建带来的困难和一些不确定因素，而且从实验看，此决策过程是可行的。下一步工作是对无人机领域模型的完善，并加入环境态势，提高无人机复杂态势下的自主决策能力。