张 栋 王孟阳 唐 硕
1.西北工业大学航天学院 陕西 西安 710072 2.陕西省空天飞行器设计重点实验室 陕西 西安 710072
2020年1月, 中国科学院发布的《2019年人工智能发展白皮书》中将“群体智能技术”列为八大人工智能关键技术之一[1], 随着智能系统与复杂体系、感知与判断、分布式协同、人工智能和算法战等理论与技术的不断发展与突破, 智能系统已呈现出无人化、集群化和自主化等特征[2]. 无人机集群作为未来集群智能系统的主要形式, 能够实现单平台行为决策、多平台任务协同, 具有集群涌现特性, 表现出了巨大的应用前景. 无人机集群任务环境弹性大、态势变化快、传感器信息不完全、通信结构不稳定, 是以决策为主的对抗. 因此, 协同自主决策作为“感知-判断-决策-行动(observation-orientation-decision-action,OODA)”环路循环中的关键技术引起了国内外广泛关注[3-5]. 无人机集群在复杂动态变化的环境下, 如何根据不确定的态势信息, 实施可解释的自主决策推理, 确定高效可靠的任务协同执行方式对保障集群安全, 提升作战效能至关重要.
按照系统科学的观点[6], 无人机集群系统多平台异构、任务需求众多、输入态势变化、战术目的复杂、约束条件耦合, 为解决以上问题, 需要面向无人机集群多任务设计自主决策规划框架, 降低系统研究的复杂性. 文献[7]基于不确定攻防博弈态势信息搭建了无人机集群对抗博弈模型, 并设计博弈成本函数计算最优策略;文献[8]提出了一种多无人机分布式智能自组织算法, 将集群侦察-打击任务优化问题分解为多个局部优化问题, 并通过集群与环境和集群之间的信息交流实现全局优化决策;文献[9]针对区域侦察等典型集群任务, 采用深度学习方法构建任务决策模型, 然后基于遗传算法对决策模型进行优化, 为集群实现离线学习和在线决策提供了有效支撑, 然而现有成果从多任务角度出发, 对集群自主决策问题进行研究相对较少.
对于集群系统协同作战任务方面的研究, 主要以任务规划问题为主[10], 此类问题大都是事先拟定好了任务输入类型和约束, 是一种有目标信息的多约束优化问题. 然而对于集群如何获得准确的任务目标信息, 并根据态势进行动态任务调整并没有考虑,此问题正是集群协同任务决策的研究重点. 现阶段无人机决策问题研究大都聚焦于空战过程中的机动动作决策[11-12], 或者某个明确任务场景中的决策, 如集群打击任务等[13-14], 没有从集群协同作战过程中战术战略及任务的多样性和复杂性方面开展自主决策研究. 因此, 本文针对这个问题, 分析了集群任务自主决策概念、任务定义与分类, 设计了自主决策的流程;应用分层研究思想提出一种自主决策框架, 并根据通信结构定义不同的决策模式;结合多种技术途径对无人机集群自主决策建模的体系结构和求解框架进行了分析和探讨.
无人机集群的显著特征是具有较高的自主能力,主要表现在集群能够不断感知态势信息、自身性能、任务目标以及状态约束的动态变化, 并及时地作出动态响应决策, 从整体效能角度出发衡量决策结果的正确性. 通过这种连续交互响应进程, 无人机集群不断学习累积任务经验, 实现决策知识库的自发育,从而改变集群结构和任务执行方式, 因此, 集群自主的核心是集群的学习能力.
无人机集群自主决策系统的输入依赖于复杂多变的战场信息, 通过分析集群作战自主决策解算流程进行系统设计, 其结构主要由知识库、推理机和决策库组成, 如图1 所示. 集群系统的先验知识存储在知识库中;决策规则和决策首选项存储在决策库中,根据IF-ELSE-THEN 的逻辑构建规则进行选择输出[15].推理机是集群决策过程的最重要组成部分, 可以集成各种复杂的输入信息完成推理和决策任务. 推理机除了使用先验知识进行推理外, 还可在训练后自动更新知识, 实现知识库的补充. 因而决策系统的自主特性主要表现为:无人机集群通过对当前态势的感知, 从现有知识库中选择某一自主行为去执行, 而后通过与环境的交互行为, 学习产生新的规则, 并对原有决策库进行更新, 进而调整自身行为, 这一过程循环往复进行.
图1 决策系统自主性结构Fig.1 Autonomous structure of decision-making system
集群任务依据作战场景和态势信息表现为不同形式, 为使集群任务效率最大化, 一方面需要明确集群任务之间的序贯配合和任务执行流程, 对任务执行类型序列进行决策;另一方面, 也需要通过决策明确任务执行约束及任务执行最优效能, 因此, 有必要对不同类型的任务属性进行表征和区分, 提升集群整体决策效率. 不同任务类型包括集群潜伏、集群突防、集群侦察、集群打击、集群封控、集群突击、集群评估等任务, 介绍如下:
1)集群潜伏, 无人机集群从起飞点或抛洒点出发, 分布为多个编队, 形成任务执行前待命状态, 具有一定的隐蔽性, 根据作战地形、气候和环境特点决策使得敌方预警信息最小化且我方燃料损耗最小化.
2)集群突防, 战场存在地形、敌方雷达和反导系统等威胁, 集群通过实施电子干扰和光电红外诱饵等方式进行突防, 决策使得集群突防效率最大化, 任务能力损失最小化,实现集群对敌方威胁的主动远离.
3)集群侦察, 由于集群没有目标的先验状态信息, 在太阳光照等环境信息和我方平台能力等约束条件下对区域执行侦察搜索任务, 实现为对目标位置状态的准确定位, 透明化战场态势.
4)集群打击, 打击任务为无人机集群对动态/静态目标的主动靠近, 考虑到敌方目标的机动性能, 在战场态势、飞行动力学和集群能力等约束下决策优化集群打击方式, 实现为集群对目标实现多方位多波次打击.
5)集群封控, 封控任务是将集群拆分为能力相近的效地编队, 增加集群强度、任务灵活性和生存能力, 实现为多方向、多波次、长耗时的持续对敌电磁压制和电子封控.
6)集群突击, 当敌方出现破绽时需紧急执行突击任务进行针对性打击, 实现为对集群当前任务状态影响最小化迅速地对破绽执行突击任务.
7)集群评估, 评估任务是指侦察、封控或打击等任务执行完成后, 通过集群中带评估载荷无人机的联合, 实现对任务执行效果的评估, 包括集群压制评估、毁伤评估和生存性能评估等, 实时掌握集群作战效果.
对于实际态势情况下的集群任务自主决策, 不同的任务类型决策方式之间存在一定的关系, 如图2 所示, 对集群自主决策任务流程的具体过程描述如下:
图2 集群任务决策全流程Fig 2 The whole process of multi-task decision-making of UAVs
1)集群潜伏阶段. 是我方无人机集群面对战场目标前的一种准备状态, 在这一阶段, 为了避免打草惊蛇, 任务决策确定集群分簇及构型, 发射/抛洒时间, 优化集结编队队形, 利用地形范围和己方电磁屏蔽范围等, 掩护集群分布和自身作战意图, 提高集群安全性能.
2)集群突防阶段. 集群开始接近敌方作战区域,此时战场空间中存在敌方多种探测设备威胁, 决策确定编队队形保持、切换、拆分和重构样式, 通过不断地切换和自组合, 提高集群伪装能力和突防性能;同时根据对敌方威胁态势分析决策突防地理方位、突防时集群航向、集群诱饵释放时机.
3)集群对抗阶段. 当集群接近敌方目标区域过程中, 进入集群对抗阶段, 该阶段主要包括集群侦察、集群打击、集群封控和集群突击4 种任务决策类型. 分别实施对目标的准确定位、准确打击、目标压制和破绽针对. 上层决策根据目标信息感知与预测决策获得任务序列, 对复杂动态的战场环境, 存在4 类任务类型的序贯耦合和拼接, 如“察-打”一体任务、中继通信(“侦察-封控”一体)任务和电磁干扰(“封控-打击-突击”一体)任务等, 不同任务策略多管齐下发挥集群优势. 下层决策对上层决策序列中的任务分别执行约束决策, 集群侦察任务决策结果为目标侦察区域大小, 集群侦察队形和侦察方位角,在得到侦察结果后持续或中止侦察任务;集群打击任务根据获取的目标信息对目标行为进行预测, 决策结果为多约束条件下多波次、多方位和多时间约束打击模式;集群封控任务决策结果为了最大化封控效率, 确定我方最优封控编队队形和封控包围环(圈)构型;集群突击任务决策过程需考虑时间和集群碰撞规避约束, 决策结果为时间约束和相对几何约束下的任务执行效能优化.
4)集群评估阶段. 在完成对敌方目标的打击、封控等任务后, 根据战场态势决策进入集群评估阶段. 由于爆炸烟雾、战场动态威胁、不同的目标受损态势信息、传感器噪声和其他不可避免的误差, 会影响集群传感器获取的评估态势信息的质量, 是一种信息不完全的决策问题. 因此, 结合一致性理论信息融合和平行仿真修正模型, 在考虑目标权重、集群耐久度和传感器误差的情况下, 建立集群的快速评估任务决策方案, 建立高效准确的作战效能评估模型,根据任务评估效果决定是否仍需对目标执行多次迭代任务.
无人机集群系统本质为数量众多的同构/异构无人机通过通信数据链路交互构成的复杂系统. 随着系统规模增加, 集群任务自主决策复杂度不论在理论研究还是系统实现上均呈指数型上升, 体系架构设计也更具挑战. 集群任务自主决策框架设计, 一方面要解决该复杂系统的控制和信息的耦合交互问题,另一方面也需要尽量在决策框架和算法上降低系统的复杂性. 研究表明, 分层控制可以有效降低集群任务决策的复杂性, 提高集群任务执行效率[16-17]. 本文借鉴BOSKOVIC JD 的思想[18], 将无人机集群OODA 环中决策问题分为4 个层次, 分别为态势通信层(communication, C)、任务决策层(decision, D)、任务规划层(planning, P)及控制层(control, C), 简称为CDPC架构, 结构关系如图3 所示.
图3 协同任务决策分层CDPC 架构Fig.3 Hierarchical CDPC architecture for collaborative multi-task decision-making
在该架构中, 态势通信层负责集群网络通信, 实现信息共享、信息融合和状态预测等;任务决策层根据动态战场态势确定环境、目标状态和集群任务需求, 基于逻辑推理及多目标优化技术得到最优化決策信息, 其内容包括任务态势评估、任务制定与协调等. 任务决策是一个动态的过程, 根据战场态势在线决策, 并面向任务规划生成集群战略、战术等决策数据, 调度一系列任务规划层的过程, 其输出决策信息作为任务规划层的约束输入;任务规划层接收决策数据并将其转换为在线规划输入, 为集群内每架无人机规划从起始位置到目标位置的运动轨迹, 实现集群内相互避碰以及避免与环境碰撞, 其内容包括任务分配和航迹规划等;任务决策层与任务规划层研究的出发点、目的和结果皆存在较大不同, 如表1 所示.控制层根据航路信息进行集群协调, 实现自主避障和编队控制. 通过建立CDPC 架构对决策问题进行分层优化求解, 集群可以针对复杂的任务场景和不同的应用领域, 实现分层协调, 快速完成集群任务决策.
表1 无人机集群自主决策与任务规划研究异同Table 1 Similarities and differences of autonomous decision making and mission planning of UAVs
通过分层优化, 集群可以针对复杂任务场景和不同应用领域实现任务的分层协调和快速完成, 以该结构为基础, 建立CDPC 架构信息流向如图4 所示. 该结构集成了智能、认知和信息融合等先进概念,包括反应、决策、规划、执行、控制、思考学习等6个方面. 无人机通过通信网络获知地面指挥控制中心和其他无人机节点的态势信息进行推理决策, 将决策信息流向任务规划得到集群更新后的航迹, 航迹流向无人机控制层实现集群涌现行为. 其中, 集群任务决策是决策体系架构中的一项关键问题, 是集群任务执行的顶层判定, 对最终任务执行质量有着最根本的影响.
图4 CDPC 架构信息流向示意图Fig 4 Schematic diagram of CDPC architecture information flow
无人机集群任务自主决策位于整个任务执行过程中的顶层, 态势信息的建模为决策基础. 态势跟踪窗口不确定、网络通信结构不稳定等动态环境增加了任务决策的难度, 集群需要根据任务或环境的动态变化及时地作出任务决策. 无人机集群是否能达到预定的战斗力, 关键在于信息的获取和传输, 根据集群通信拓扑结构可将集群决策依据分为以下3 类:
1)集中式决策
集中式决策存在一个全局视角的决策节点, 通过数据链路获得其他无人机的全局感知信息表征,其他无人机之间不进行相互通信,以全局为中心,从集群整体角度出发进行综合衡量、协调, 如图5 所示.中心决策节点一般是辅助集群内个体获取和处理全局信息, 并在集群内进行沟通和协调, 并非自上而下取代集群内个体作出决策, 具体的决策过程还是由集群内无人机自主完成. 集中式决策在全局信息辅助下更具宏观视角, 其最终对个体的作战任务行为决策效果不一定最优, 但集群整体作战行为产生效果最优, 具有群体智能性. 该结构通过感受全局信息降低环境噪声带来的信息损失, 对通信负载要求较高, 若决策中心单元出现异常, 则群体决策有可能陷入瘫痪, 系统容错性较差, 对通信实时性要求较高,适用于时效性要求较低的无人机集群任务决策系统.
图5 集中式决策架构示意图Fig.5 Schematic diagram of centralized decision-making architecture
2)完全分布式决策
由于通信网络结构存在通信距离和通信跳跃,完全分布式决策集群内无人机依靠自身观测信息和局部通信信息, 结合战场态势的推断进行数据融合自主决策, 将决策结果在集群内部共享, 以期涌现出协同决策结果, 协调一致地完成任务, 如图6 所示.该结构对通信链路中单一节点的依赖性较低, 将全局优化问题分解为多个局部优化问题, 每架无人机解决其局部优化问题, 通过机间信息交换进行优化决策. 该结构由于缺乏全局态势信息, 信息融合不完全, 受环境因素影响也更大, 易产生不一致的决策结果, 因此, 在该模式下如何利用通信信息交互, 达到一致的任务决策效果是集群效能最大化的有效保证.
图6 完全分布式决策架构示意图Fig.6 Schematic diagram of fully distributed decision-making architecture
3)混合式决策
当集群规模过大, 无论是集中式决策和分布式决策架构都存在容错性差、通信负载成比例增加等问题, 对于大规模集群而言, 若无交互则鲁棒性差,若无中心则全局可控性差. 因此, 结合分层研究的思想构建无人机集群混合式决策架构, 主要包括3 级:上层决策中心节点、中间层调度规划节点和底层执行节点, 如图7 所示. 当底层执行节点获取战场态势时, 逐级上传给上层决策中心节点进行态势分析、任务战术、战略决策, 并对局部调度规划节点下达任务命令;调度规划节点接收任务命令进行任务分配、群航迹生成、任务评估、状态管理等, 中间层调度规划节点之间通过通信链路实现信息共享、态势融合、战术协同;底层执行节点根据任务要求实时航迹规划以执行具体任务, 并实时反馈自身状态信息及传感器信息, 执行节点通过数据交互实现一致性协同作战.
图7 混合式决策架构示意图Fig.7 Schematic diagram of hybrid decision-making architecture
该混合式架构通过态势共享、指令互连将3 层节点融为一体, 将自上到下的多层指挥可控性与自下到上的个体涌现性相结合, 执行节点和调度规划节点既接受上层命令, 又能与同层无人机信息共享.因此, 该决策结构具有集群全局性和有序性, 又能兼顾个体自主性和涌现性.
决策是在多种选择方案中作出选择的认知过程,无人机集群自主决策问题通常被建模为非完整信息下的多目标动态优化问题, 具有高动态、强实时、不确定等特点, 其研究由基于模板匹配的感性决策和基于自主学习的理性决策组成.
感性决策方法基于知识规则驱动, 适用于态势环境和任务需求固定, 知识库全面、任务规则覆盖、计算实时性要求较高情况下的快速决策, 包括专家知识模板匹配、“黑箱”模板匹配推理等, 此类方法简单高效, 但准确度较低, 决策结果局限于现有知识水平和匹配规则;理性自主任务决策方法基于数据驱动, 适用于任务环境陌生、态势信息复杂变化, 知识库缺乏有效模板情况下的自主决策, 包括基于微分博弈、数值优化方法、群体智能算法和深度强化学习方法等, 此类方法具有较强的学习和自适应能力,可实现决策结果的进化和知识库的自发育, 但需要建立合理的优化指标, 同时依赖于大量的数据集支持以进行离线学习, 对数据依赖性较高.
任务决策过程中, 通过战场特征提取和通信交流基于模糊认知图建立态势模型, 通过我方作战体系、敌方防御体系、目标预估状态和已有决策信息, 形成专家(经验)先验知识域, 建立先验决策模型. 最后对不同态势建模下集群作战进行模板匹配推理, 若匹配, 则采用专家知识感性推理方法进行任务决策;否则, 根据当前战场环境的变化情况和任务需求, 采用基于数据驱动的微分博弈、数值优化方法、群体智能算法和深度强化学习的逻辑推理方法, 实现集群任务決策, 集群任务决策系统结构如图8 所示. 本节对集群任务决策过程中涉及的关键技术途径进行叙述.
图8 集群任务决策系统示意图Fig 8 Schematic diagram of multi-task decision-making system of UAVs
决策过程中的决策环境根据处理分析备选方案的类型进行区分:在确定性环境中, 备选方案的评估是明确的;在高风险不确定环境中, 对备选方案只能以近似的方式进行评估. 无人机集群决策是高动态、高风险、不确定性环境, 因此, 模糊灰色认知图(fuzzy grey cognitive map, FGCM)因其鲁棒性、自适应性、计算效率高, 可为综合形式化模型的验证提供了一个良好的框架[19-20]等优势, 被认为是解决面向任务的集群决策问题建模的有效途径. 相比于贝叶斯网络、影响图等工具, 模糊灰色认知图将模糊逻辑与人工智能相结合, 具有根据动态输入反馈特性, 更加适合集群任务自主决策. FGCM 由以下四元组构成:
由于FGCM 建模方法简单、具有良好的适应性和应用性,衍生出众多拓展模型,其中,智能体模糊灰色认知图(agent-based fuzzy grey cognitive map, ABFGCM)模型的每个节点可对应异构无人机, 基于平台能力建立不同的决策推理模型和求解算法, 节点间通过信息传递机制相互作用, 适用于无人机集群决策系统的建模[14]. 基于ABFGCM 建模的无人机集群任务决策过程中, 节点的数据量纲互不相同, 统一模糊化转换为无量纲的模糊数, 模糊决策后需进行模糊判决再将模糊数转换为准确值, 最后根据标度因子获得决策精确输出.
基于ABFGCM 模型建立无人机集群自主任务决策模型过程中, 将无人机按照不同任务能力进行划分, 分别为战场信息感知无人机、威胁感知与预测无人机、目标感知与预测无人机、敌方行为预测无人机、多任务执行安全性估计无人机、多任务执行效能估计无人机, 建立模糊输入态势模型和任务决策模型框架如图9 所示.
图9 基于ABFGCM 的集群任务决策建模Fig.9 ABFGCM-based decision-making modelling for multi-task of UAVs
模糊任务决策基于感性决策架构和理性决策架构, 可分为专家知识匹配和自我学习决策两种方式.采用智能算法为代表的自主学习决策可提高模型的参数学习能力, 降低对现有知识库的依赖[14,21-22], 同时又能实现专家知识库的发育, 具有良好的研究意义.感性决策和理性决策架构目的皆是确定任务决策阈值, 输出任务决策信息模糊值, 并将其标准化输出为精确输出.
智能化作战会使知识力量更加突出, 知识较量体现在作战决策上, 基于态势-决策模板匹配构建决策知识提取规则, 其决策流程如下:当集群进入决策状态时, 由推理机将感知态势信息与知识库中的各个规则条件进行匹配, 直到找到与态势信息相符的规则并提取, 规则提取策略包括启发式搜索[23]和主动学习方法等[24], 决策知识库基于集群任务需求和集群状态等要素建立任务最优决策策略. 在多任务条件下, 将先验知识库中的态势-决策模板数据表示如下:
图10 基于专家知识的无人机集群任务自主决策结构图Fig 10 Structure diagram of autonomous decision-making for multi-task of UAVs based on expert knowledge system
博弈论(game theory)是研究多个自主个体在利益相关情形下决策行为的理论[25]. 在博弈论中每个个体的博弈策略都是通过自身策略以及其他个体策略影响的效能函数定义,调整自身策略进行优化求解[26-27].无人机集群任务决策的微分博弈方法是先把任务对策转化为双边极值问题, 然后进行求解, 涉及的相关元素由式中五元组表示:
其中, t 为集群任务博弈决策的时间变量;Xt为博弈决策中个体状态量集合, 在不同任务中状态量不同,如在集群突防任务中状态量为敌方威胁探测半径和我方无人机与敌方威胁之间的距离, 在集群打击中表示我方无人机和敌方目标位置、相对速度等;为决策个体集合,对应集群内无人机;, si对应无人机vi的任务策略;Ct为任务决策过程的约束集合, 主要包括集群能力、飞行动力学方程以及任务环境信息;Ut为集群任务决策微分博弈中每个决策个体效能函数的集合.
集群任务决策微分博弈过程中, 关键在于为任务策略的设计常用的微分博弈控制策略, 包括基于梯度的博弈控制策略和基于Hamiltonian 函数的最优化博弈策略[28-29]. 以上两种博弈控制策略设计本质都是设计可靠的效能函数, 因此, 将其应用到集群任务决策求解过程中时, 需重点研究能够反映实际情况的决策效能函数. 虽然微分对策法是一种具有现实意义的方法, 但是该方法存在效能函数设定困难、计算量庞大和方法复杂等缺点, 设计出符合任务决策策略的效能函数难度较大, 其次是最优策略求解的困难性, 当面对高维度的无人机集群决策问题时纳什均衡解析解求解困难, 难以应用于实际.
无人机集群自主决策态势信息具有模糊性和动态性, 因此, 可将该问题建模为不确定环境下的在线多目标优化问题, 基于数值优化思想设计合理的决策效能函数, 对于巩固集群作战优势, 发挥集群协同效能具有重要意义. 基于数值优化方法建立无人机集群自主决策架构如图11 所示, 首先根据我方集群、目标和环境态势设计合理隶属函数实现态势信息融合, 采用贝叶斯推理、统计学优化和遗传算法[30-32]等优化方法评估态势对集群任务决策的影响, 自适应调整效能函数权重, 优化任务决策结果.
图11 基于数值优化方法的无人机集群决策Fig.11 Numerical optimization methods-based decision-making for UAVs
针对无人机集群任务决策高动态和不确定性的特点, 为了提高决策系统的鲁棒性, 一方面利用隶属函数对模糊态势信息进行态势信息融合, 并采用可达集理论对威胁态势、目标意图等进行预测[33], 在一定程度上克服信息不准确的问题;另一方面借助数值优化方法在决策过程中尽可能地根据态势融合结果自适应地调整决策效能函数权重, 提高决策结果的鲁棒性. 虽然该集群决策方法在任务决策中应用较为广泛, 但由于集群任务决策问题状态空间的复杂性, 数值优化算法要求很高的计算资源来求解此类高维度、大规模优化问题, 难以保障实时性, 因此,数值优化算法主要解决集群起飞前静态、离线环境的集群任务决策问题.
自然界生物群体演化过程中存在着多种多样的集群行为, 例如狼群捕猎、蚁群觅食和鸟群飞行等.从对生物群体行为的研究过程中也衍生出了多种启发式智能算法, 如狼群算法(wolf algorithm)、蚁群算法(colony algorithm)和粒子群算法(particle swarm optimization, PSO)[8,34-35]等应用于无人机集群智能决策、规划和控制领域. 基于群体智能算法集群决策的研究关键在于如何建立生物个体、群体位置及行为与态势变化下的任务决策规则解之间的映射关系, 即将个体和群体合作觅食、移动、狩猎等生物行为映射为集群侦察、突防和突击等任务行为, 将生物群体移动的位置、速度能力约束对应于无人机集群的任务、运动学能力约束等, 以此来建模优化求解.
考虑到集群任务决策问题建模求解的高维度和复杂性, 建立基于群体智能算法的双层优化求解架构如图12 所示, 外层用于集群系统性能估计, 内层用于集群任务管理和调度. 外层决策模型设计采用受生物启发的聚类算法, 基于狼群算法或蚁群算法寻找集群网络结构中心点, 从集群构造时间、能耗、集群生命周期和集群任务成功率等多方面评估系统的性能[36].在外层的牵引下,内层任务决策在系统性能的约束下建立系统目标函数并不断进行优化. 由于无人机集群的高动态性, 外层和内层模型需持续更新以适应集群任务的自主决策需求.
图12 基于生物群体智能的无人机集群决策Fig.12 Biological population intelligence-based decision-making for UAVs
通过对自然界中生物行为机理的研究, 将不同群体行为与无人机集群任务行为作相似性对应, 例如仿照生物群体伪装机理设计的集群潜伏任务策略、仿照狼群狩猎行为设计的集群打击任务执行策略等,从而提高计算得到任务策略的智能性. 但由于集群决策问题中优化目标组成较多, 集群求解规模大, 此类方法容易陷入求解局部最优解中, 计算量较大, 因此, 针对特定的决策任务类型需选用不同的算法及作出相应的优化.
人工智能类的集群决策方法主要为基于神经网络的自演进机器学习方法. 神经网络模仿生物神经网络进行设计, 其基本信息处理单元为神经元, 神经元主要有连接权值、累加器和激活函数3 种基本元素构成, 大量神经元的相互连接组成神经网络, 增加神经网络隐层的数量以达到更好的学习效果, 称为深度学习神经网络[37]. 将深度神经网络应用于无人机集群任务决策问题, 需要依据任务执行过程的特点,设计神经网络模型, 采用深度强化学习实现自演进机器学习训练.
深度强化学习方法是一种不断与环境信息交互、根据外界反馈的奖惩信号来学习和修正动作策略的方法, 一般用马尔科夫决策过程(Markov decision process, MDP)形式化表示, 与一般的MDP 不同, 面向任务的集群自主决策MDP 包含战场态势感知函数获取真实的环境状态信息[38]. 基本原理为:
1)动态过程中的每个时刻, 无人机集群感知模块与决策模块利用人工神经网络(artificial neural network, ANN)构成的态势认知网络得到高维度的态势观察及抽象、具体的状态特征表示.
2)各无人机将状态特征通过通信层(兼虚拟全局无人机)进行充分地沟通和协调.
3)将沟通和协调后的信息反馈到集群在线决策模块, 在线决策基于任务效能设计预期决策奖励机制, 据此来评价不同任务决策方案的价值函数, 并建立当前状态信息到决策方案的映射.
4)决策模型及时作出动态响应, 并对作战执行效果进行评估, 并改进无人机集群的作战决策策略选择, 得到下一状态节点的观察值, 实现无人机集群任务决策最优策略.
根据不同任务类型及约束特征建立深度强化学习的无人机集群任务决策模型, 基于现有的决策知识水平, 设计不同的随机变量和动态触发条件, 在地面仿真端机进行大量的Monte Carlo 任务决策仿真实验, 获得样本数据并将其输入深度学习网络中, 经过网络迭代形成无人机集群任务策略集合, 利用深度学习的数据储存能力记录输入态势和输出决策模板数据D, 从而实现知识库自发育. 深度强化学习通过大量的试错模式, 以最大化预期奖赏为目标进化, 获取集群决策最优策略, 其算法框架如图13 所示. 根据深度神经网络和强化学习的自组织学习特性, 不断扩充决策知识库, 实现理性和感性推理的结合, 从而进行高效、智能的顶层任务决策, 获取最优任务执行方案.
图13 基于深度强化学习无人机集群任务决策算法框架Fig.13 Deep reinforcement learning based algorithmic framework for multi-task decision making of UAVs
无人机由于其任务能力多样性占据战场优势,这会导致任务决策过程中优化目标函数更加复杂,基于深度强化学习的集群决策方法引进了神经网络,能够保证对复杂任务决策优化目标函数的有效求解,应用场景更为广泛, 通过与任务环境持续交互, 能够利用复杂的优化目标函数对多任务类型和决策推理需求进行更精细化的描述, 自我学习生成全新的任务执行模式.
集群决策往往意味着有多个决策节点共同参与决策问题, 每个节点皆有自己的想法、知识、态度和动机, 相应地每个节点会存在各自的偏好方案. 在集群决策过程中, 引入共识达成过程(consensus reaching processes, CRPs)使集群内偏好方案更加接近, 形成群体满意的决策方案, 其主要阶段为:1)共识测量, 即确定偏好方案的差异程度;2)共识控制, 确定是否达到预期共识标准水平;3)共识达成, 应用反馈机制, 使偏离程度较远的成员偏好方案更接近平均偏好, 提高一致性水平. 在集群资源有限的情况下,通过整合利用节点关系信息, 建模分析节点之间的关系和意见, 设计基于最小调整成本的自动反馈共识达成机制, 以发现和消除集群冲突, 支持高效的一致性决定. 无人机集群任务决策中的不同偏好结构和表现形式、重要性水平参差的异构群体、紧急决策场景中的一致性保持仍是该领域的一些挑战和未来研究方向.
基于自然语言处理(natural language processing,NLP)的交流形式是人类在决策过程交流的标准表示形式, 其值是从自然语言中提取的命题单词, 确定术语集的语言描述符及其定义, 通过语义术语代替实数对集群任务进行评估, 从而使未来决策的发展回到人类的常识. 由于集群任务决策的复杂过程, 使用单一术语并不能完整决策, 造成术语与决策结果不匹配. 因此, 决策过程将允许多个语义术语, 这就导致了复杂语言表达的使用, 这些术语以人工语言或自然语言为特征, 包括语言模糊限制语、连接词和语言术语. 因此, 有必要处理更丰富、限制更少的自然语言表达, 从而不仅能详细准确地对决策的备选方案和标准进行评估, 还能准确描述这些方案和标准之间的相互关系.
未来集群任务决策形态将按照“人为主导的规则决策”到“人在回路的有限思维决策”到“机器为主导的认知智能决策”进行演化. 早期专家知识库多依赖人类经验建立, 决策结果固化, 是知识驱动的规则型决策. 现今集群任务决策向着数据驱动的自主化、智能化、认知型的趋势发展, 基于深度学习神经网络对海量样本数据的训练结果, 涌现出超越现有作战经验和战术意图的全新策略, 实现决策知识库体系的自发育, 为决策提供充分的支持. 认知型智能决策具有较强的适应能力和学习能力, 在未来, 随着人工智能技术和以6G 为代表的通信技术的进一步发展, 以脑机协同思维模式为主的认知型智能将成为集群任务自主决策的核心, 建立空中任务动态基站, 以收集复杂战场环境信息, 从环境中学习, 快速适应动态环境, 实现集群的灵活部署, 充分发挥集群应用优势,驱动集群智能作战技术迈入高级阶段.
本文针对未来无人机集群协同作战典型任务场景, 建立集群自主决策CDPC 架构, 基于通信拓扑分别给出了集中式、完全分布式和混合式决策架构. 根据自主决策任务的不同, 对7 种集群任务决策类型进行了详细描述, 并完成集群自主决策任务流程的设计. 分别对基于专家知识、模糊认知图、微分决策、数值优化方法、群体智能算法和深度强化学习求解决策问题进行了分析和研究, 建立集群任务自主决策求解框架. 最后提出了集群未来的发展趋势及面对的技术挑战, 为后续研究基于本文的无人机集群自主决策框架, 以算法优势主导决策优势为目标建立具体方案解决集群决策问题提供了新的发展思路.