曾隽芳 牟佳 刘禹
人工智能技术的升级发展及应用普及,正在推动未来战争作战环境的复杂性和作战样式的多样性,许多国家把智能化无人作战技术列为其军事科技的重要发展方向[1-2].对于状态空间趋于无限的陆海空天战场态势而言,如何最大化地获取战场信息,并针对不完全博弈对抗信息进行有效态势分析,从而快速自主制定作战方案尤为重要.随着任务复杂性和多样性,单个无人作战单元难以满足任务需求,通过多个智能体作战单元协调工作构成集群系统,可以更好地适用不同任务的要求.多个智能体集结而成的系统,不仅仅是无人作战单元数量上的扩充和功能上的简单相加,而是在统筹协调下有机地集成到一个系统之中,高度融合、整体联动,实现群智感知、群智认知、群智决策和作战协同.
在多智能体系统(Multi-Agent System,MAS)如导弹集群、无人机群的协同作战场景中,运用智能博弈方法,构建多种武器装备协同作战体系,可以提高在复杂战场环境中的自适应任务规划以及群智决策能力.军事博弈对抗具有多场景、多目标、多层次、多要素的特点,而且战场信息不完全,基于深度强化学习(Deep Reinforcement Learning,DRL),能够有效解决高动态、不确定性及复杂战场环境下的多智能决策问题[3],目前在感知、认知、决策、控制等领域得到了广泛关注[4].智能体之间的交互分合作和对抗两种,比如对于导群群智决策,研究导弹间的飞行协同和任务协同,从多智能体对抗的角度来研究飞行器间的实时博弈[5-6].
AlphaGo 在棋类游戏中战胜了人类选手,这标志着人工智能技术取得重大突破[7].它所采用的深度学习技术能够在棋类游戏中取得成功,一是棋类属于完全信息博弈,环境和状态的准确信息已知,二是有效利用了监督学习方法,基于模型和先验知识,提升训练效率.而军事博弈对抗是非完全信息博弈对抗,信息的不透明,无法进行有效空间搜索和决策,且在对抗过程中需要远期计划,同时需要保证极高的实时性,这对深度学习技术提出了新的挑战.由于信息的不确定性,无法使用深度学习方法进行端对端有效的监督学习,针对非完全信息博弈对抗特点,使用强化学习方法是目前的最优选择.而强化学习无法像监督学习一样针对明确目标和有用信息进行快速学习,其学习效率较慢.
多智能体博弈对抗中,智能体和环境一次交互过程称为一个回合,智能体首先通过感知手段对其所处的环境进行观测(Observation,O),然后对多源观测信息进行综合处理得到态势估计(Orientation,O),再根据综合态势进行决策(Decision,D),最后按照决策策略采取相应行动(Action,A).此时一次完整的OODA 过程结束.智能体又开始新的一轮循环,依此迭代下去,当到达终止状态(达到目标状态、累积收益最大等)时,对抗过程就认为结束了.
从指挥决策OODA 循环的过程关键点来看,智能体决策能力要素包括:观测O,通过感知得到客观状态结果(战场态势图、情报、报告等);判断O,通过认知判断态势趋势(判断、预测、趋势等);决策D,运用理性知识(指挥机制、作战流程、条例条令、经验等)和感性直觉(灵感、创造、性格、直觉等)分析决策;行动A,根据决策策略执行行动(快速响应、灵活应对、动态重构、协作).
博弈对抗策略算法的设计和验证多是在推演平台仿真环境上运行,为将博弈算法反复验证后能够移植到智能作战平台、武器装备等无人系统上应用部署,有必要研究效率更高、开销更小的轻量级智能博弈算法.本文从多智能体群智决策存在的挑战出发,提出了基于深度网络的强化学习群智决策模型,讨论了其中涉及的关键技术,创新地从OODA 决策循环4 个关键环节对群智博弈算法提出轻量化思路,包括引入注意力机制的态势感知、基于长短期记忆网络(Long-Short Term Memory,LTSM)的态势认知、最优Q 值函数求解和分层强化学习的决策策略、基于行为树跳转的动态任务重组.
强化学习(Reinforcement Learning,RL)是以马尔科夫决策过程(Markov Decision Processes,MDP)为基础模型进行建模,智能体根据环境反馈决策其下一步的行动策略.这里的策略就是智能体在何种状态下采取何种行为,得到环境奖励,并发生状态转移.基于深度网络的强化学习框架如图1所示.智能体在与环境的交互中学习,不断迭代进化,从而获取智能提升.不完全信息的博弈对抗与强化学习原理一致,均属于在不同步骤(状态)下的动作序列和事件调配[8-9].
提出一种多智能体基于深度网络的强化学习群智决策模型,如图2所示.在构建的博弈对抗仿真环境中,多个智能体分别进行学习训练,每个智能体行为决策生成最优子策略,再通过多目标的群智决策优化模型,“协商”得到多智能体系统的最终决策.多智能体作用于环境和改变状态,通过效用评价函数,环境反馈即时奖励和累积奖励给MAS.
图1 深度强化学习框架Fig.1 Deep reinforcement learning framework
将深度神经网络和强化学习博弈优化决策理论和作战指挥行为知识相结合,结合数据驱动和知识驱动的学习,进行对抗空间特征提取、态势认知和策略优化,并利用生成对抗网络自动生成大量高质量对抗数据,AI(智能体)在对抗过程中也不断地进行数据学习和迭代进化,通过强化学习自我博弈提高对弈水平.
监督学习容易取得突破是因为它较为容易训练,监督数据自带正确答案,智能体可以快速抽象提取有用信号,每分钟都在学到有用的信息.而强化学习没有正确答案知道,无法保证都能提取到有用信息,难以实现初期的快速训练和对抗水平提高.为了保证训练效果和训练速度,使智能体快速达到较高对抗水平,首先让神经网络学习历史对抗数据和人类经验,通过监督学习方法缩短初期训练时间,训练出一个具备初始智能的AI 智能体.然后智能体利用强化学习的自监督学习能力,自主地与环境进行交互,在不断地试错和环境反馈中实现进步和提高.
模型中AI 的回报函数设计直接决定了算法的收敛性,它不需要标注好的数据集,而是根据基础规则利用自博弈产生数据,再通过海量“试错”(trailand-error)的方法优化产生行为的模型.模型的工作流程如图3所示.
图2 基于深度网络的强化学习群智决策模型结构Fig.2 Structure of deep network based RL swarm intelligence decision making model
博弈对抗是一个动态环境下的连续决策过程,很适合用强化学习机制实现智能体的自学习和自进化.智能体利用神经网络从战场态势中提取作战要素,在与环境的交互中学习,选择使值函数最大的动作来不断更新行为策略,生成最优策略.多智能体的博弈对抗比单智能体更加复杂,涉及的关键技术[10-11]分析如下:
1)复杂对抗空间的多层次态势感知.态势感知的目标是根据对抗空间现有状态,给出双方最终战果的概率预测.对多层次局部态势作出判断,结合战场高层次语义理解,给智能体决策提供更多信息;设计一个有效结合复杂静态数据和动态序列数据的感知模型和相应的学习算法,实现多层次态势感知.
图3 基于深度网络的强化学习群智决策模型工作流程Fig.3 Workfl w of deep network based RL swarm intelligence decision making model
2)基于动力学模型的多分枝态势分析.根据无人作战单元的动力学特性,建立智能体行为特征模型;AI 接收实时态势数据,结合装备特征库对敌方目标分群;以执行任务过程中遇到事件为分枝节点,生成主分枝和旁路分枝,输出多分枝态势图.AI 基于多分枝态势分析不断随机“试错”以训练出适应环境的决策网络模型.
3)基于多算子策略的网络监督学习与强化学习协调优化方法.利用神经网络模型进行端到端的训练,输出算子协同行动最优策略;基于智能体协调优化技术从单一算子的行动决策实现多算子的协同行动决策,实现多目标智能化快速匹配与融合处理的自主决策.
1972年天津手表厂在国内批量销售的“东风牌”手表基础上,专门生产了“海燕牌”手表用于出口国外市场。由于“海燕”一词的含义不受西方文化认可,1973年表厂将“海燕牌”更名为“海鸥牌”(SEA-GULL),并批量出口到国外市场。至1978年天津手表厂共出口“海鸥牌”手表1296万只,从而成就了“海鸥牌”手表的在国际市场上的品牌地位,也使“海鸥牌”(包括其前身“海燕牌”)手表成为我国第一款出口国外市场的手表(图17)。
4)多智能体协同任务规划决策方法.强博弈对抗需要对多层次、多平台、多武器、多目标的火力打击分配任务进行合理建模和求解.根据当前感知信息进行态势判断,制定最优行为决策策略,作出多层级任务规划;采用行为树跳转的方法实现多智能体任务动态重组;按照作战能力和目标特性,制定作战单元和目标分配方案.
从指挥决策OODA 循环的关键环节,给出多智能体博弈对抗策略轻量化思路.
在多智能体协同作战场景中,环境的变化并不是由某个智能体单独作用的结果,而是所有智能体共同作用的结果,而且环境的状态往往随着智能体个数的增加而剧增,而深度强化学习算法是在与环境交互的数据中进行学习,导致在以原始战场态势数据作为输入的DRL 算法中,算法的学习速度慢,而且环境出现新的状态,需要重新学习.为更加有效地利用环境信息和智能体状态信息,提出引入注意力机制的价值网络模型,如图4所示.
在价值网络中加入自注意力机制(Selfattention),将环境中的状态动作对,作为注意力模块输入,计算注意力分数并进行权重的归一化,得到注意力机制的值,引导智能体作出更好的决策[6].比如,在兵棋中从对抗序列(战场态势)中提取态势特征,将注意力聚焦在关键特征上,对不同特征计算出不同注意力值,用于训练态势分析网络;根据态势估计进行任务重组,将注意力聚焦在关键任务上,对不同任务计算出不同注意力值,用于训练博弈策略网络.
在多智能体的行为决策中引入注意力机制,能够使智能体在态势分析中聚焦到关键区域、关键时节和关键帧上,在任务规划中更加有效地关注到关键智能体的状态和行为,聚焦到关键任务上,从而学到对自己的行为有益的重要信息,进而优化自己的行为策略.博弈对抗中多智能体存在着合作和对抗两种形式的交互,区别对待各智能体对决策的影响,此外信息通信对多智能体行为决策是非常重要的[13],而当前智能体与其他智能体之间的注意力值就是重要的通信内容.
图4 引入注意力机制的价值网络模型Fig.4 Value network model with attention mechanism
非完全信息博弈过程中由于战争迷雾的存在,无法了解全部信息,所以在进行决策时,需要对未知区域、未知对抗单元进行有效的预估,从而制定较为合理、准确的决策[14-15].由于对抗博弈是连续性的,在态势判断时需要综合过去和现在的信息,通过信息综合处理,估计未来态势.人类指挥员对战场态势和威胁的整体判断,依靠直觉和先验知识,经过思维分析而作出的快速反应,是一种“直觉决策”,或者说是大脑无意识存储在长时记忆中的信息被某种外部刺激突然激活所带来的即时反馈.借鉴人类的直觉认知机制,我们提出基于LTSM 长时记忆的态势认知机制,对态势数据进行特征抽取和高层级语义理解,这样在约简的空间智能体进行态势判断,可以有效地减少计算量.
循环神经网络RNN(Recurrent Neural Network),可以实现信息的时间转移,传递当下的信息到下一刻的状态,这个传递过程中包含了记忆,可以把过去的信息往将来不停地迭代,于是神经网络细胞当中就含有过去很多时刻的记忆,可以有效实现信息的综合利用,为博弈对抗决策提供依据.长短时记忆网络LSTM 在RNN 的基础上增加了一记忆细胞层(Cell),基于当前得到的特征来更新其记忆单元,可以学习长期依赖信息.LSTM 的重复模块结构如图5所示,在t时刻,LSTM 的输入包括当前时刻网络的输入值Xt、上一时刻的输出值ht-1和细胞状态Ct-1;而输出包括当前时刻的输出值ht和细胞状态Ct.LSTM 凭借这种结构,会选择一些当前状态的信息传递下去,能够利用已经学习到的东西,同时遗忘一些信息,因而AI 对战场态势的认知变得更聪明、更高效.
1)最优Q值函数求解.利用最优Q值函数的上界保证启发式搜索到最优解,结合启发式搜索的精确性和蒙特卡洛方法随机抽样的一般性,有效地联合历史信息、动作,进行扩展搜索树获得联合观测结果,得到整合最优的Q值函数.避免保存所有值函数,只按需求解,在时间和内存占用上得到改进.
2)分布式策略训练.针对非完全信息博弈对抗的智能体训练不仅要实现信息综合处理和长时记忆处理,同时由于对抗单元较多,对抗任务复杂,无法利用统一函数进行策略训练.采用“分而治之”的方法,针对不同单元、不同对抗任务设置不同的奖励函数进行分别训练,生成子策略,增加训练速度和训练针对性.
3)分层协调优化.把整体任务分解为不同层次的子任务,在高层任务里确定最优的策略更快可以收敛,在每个回合的博弈中,使每个子任务的决策在规模较小的空间求解.将动作集和动作序列进行分组,减小决策次数,实现决策的分层协调优化,降低决策的维度.这种分层决策机制与军事指挥层级也有契合度.
图5 LSTM 的重复模块结构Fig.5 Repeat module structure of LSTM
面向复杂多变的战场环境,多智能体系统作为一个协同作战单元,应具备任务规划和任务重组能力,提出基于行为树跳转的任务动态重组方法,如图6所示.针对任务分解构建行为树,动态平衡不同任务或任务组合的复杂度,实现任务的可重组和跳转;设计具有多层级任务可重组能力的AI 框架,解决可重组任务在学习空间中的平衡问题;研究可重组任务的回报函数与决策风格之间的关系,以及对AI 任务规划能力的影响.
行为树(Behavior Tree)是一种包含了层级节点的树结构,通过逻辑分离、逻辑关联、逻辑抽象,可以有效地管理行为逻辑,协同多智能体决策行为.AI 的上层是一系列的行为树,每个行为树表示一个作战任务,如侦查、机动、夺控、攻击等.多个行为树可以按策略重组,组合成能满足不同需求的AI.树的叶子节点就是AI 实际上要执行的动作,中间节点决定了AI 如何从根节点根据不同的情况沿着不同的路径到达叶子节点的过程.行为树是多层级的,通过调用不同功能的子行为树,可以创建相互连接的子行为树库来构造出一个复杂的AI.由多个AI 组合而成的多智能体系统也可以看成是一个超级AI.
通过规则任务编辑器构建陆、海、空、联合等不同作战场景下的对抗任务,基于行为树跳转的方法,将原子级任务层次化地动态重组为分队级任务和群队级复杂作战任务,既可按预置的条件进行任务节点跳转,也可按机器学习得到的概率进行更灵活的跳转.AI 根据决策策略进行任务重组,并为整个作战过程选择合理的规则AI 或学习AI,子任务AI 执行分解后的任务.规则AI 是战术原则运用,使用更精确的原子行为模型或搜索实现对经验战法的仿真,学习AI 是在与环境交互中学习进化,使用不同的初始参数实现对新战法的探索,同时利用不同噪声水平生成不同难度级别.不同作战能力、多种指挥风格、不同难度等级的智能体集群,则构成了一个复杂的多智能体系统MAS.
图6 基于行为树跳转的任务动态重组方法Fig.6 Mission dynamic reorganization method based on behavior tree jump
未来战争将是强博弈对抗环境,作战空间较大,作战环境极为复杂,进行实时策略指挥决策相当复杂.在博弈对抗中智能体需要完成复杂的智能行为,对战场中的各种突发事件或事件组合作出符合人类模式的处理和决策.针对多智能体无人系统计算资源有限、高实时性、内存空间小、数据传输受限等问题,本文在分析多智能体群智博弈对抗的关键技术基础上,提出了基于深度网络的强化学习群智决策模型,并从指挥决策OODA 循环的关键环节给出多智能体博弈对抗策略轻量化思路.在构建的动态场景中进行多智能体作战推演,保留所有训练中产生的历史版本,并在其之间进行对战,建立博弈对抗池.而环境的不稳定性使得博弈对抗池中的经验失效,智能体需要不断对抗进化,可以利用某些个体学到的有效信息,有效地运用在博弈里,同时选择出那些最强的策略,最终的训练结果是一个达到纳什均衡状态的最强策略池.多智能体系统通过行为树跳转动态重构任务,应对不同场景和事件,有效地挖掘战场信息,高效地生成作战策略,以最小的代价完成作战任务,实现在复杂战场环境中自主快速地群智决策和作战协同.