马 悦 吴 琳 郭圣明
现代战争无疑是一场激烈博弈,随着信息化程度不断提高,作战空间由物理域、信息域向认知域拓展[1],快变的战场态势、紧凑的作战节奏以及跨域军事力量运用对作战指挥的时效性和精确性提出了更高要求.敌方意图判断、行动威胁评估、指挥决策与控制的难度不断增加,迫切需要利用智能技术延伸人脑,以提高军事决策的自动化和自主化水平,决策智能成为军事领域研究热点之一.
近年来,诸多游戏博弈系统在边界和规则确定的对抗中取得了显著成绩,不仅极大推动了认知智能发展,更为军事决策智能研究指明了探索方向[2].智能博弈也称为机器博弈(computer game),主要研究如何让机器像人一样在竞争环境下进行对抗,属于认知智能范畴.众多知名学者很早便开始涉足该领域研究,如冯·诺依曼、香农、图灵和塞缪等[3].随着计算机硬件不断升级,智能博弈理论和技术迅猛发展.IBM 于1997 年开发“深蓝(deep blue)”系统,以绝对优势战胜了卡斯帕罗夫,成为智能博弈系统“叫板”人类的历史性里程碑[4].Deep Mind 于2016 年至2017 年相继推出围棋AlphaGo 系列AI 系统,成功解决了有限状态零和完全信息两人博弈问题[5-7];美国卡耐基梅隆大学分别于2017 年和2019 年开发了Libratus 系统和Pluribus 系统[8-9],突破了多人游戏智能博弈的壁垒.继以围棋、德州扑克等序贯博弈之后,以实时策略游戏为代表的同步博弈问题成为新的研究热点,Deep Mind 在2019 年公布的AlphaStar 系统的底层技术[10],对未来开发具有安全性、鲁棒性和实用性的通用AI 系统具有重要意义.然而军事对抗不同于游戏博弈,两者存在显著区别[11],难以直接借鉴应用.
本文阐述了军事智能博弈的概念及应用前景,提出在博弈论框架下利用AI 技术应寻找策略均衡解,而非传统求解最优解.通过比较完全信息、不完全信息和即时战略类游戏的特点,深入剖析不同智能博弈技术框架的原理,梳理美军智能决策项目的最新发展情况,而后根据战争复杂性特征,分析军事博弈面临的主要困难以及智能技术军事应用的挑战.有助于把握智能博弈最新进展,为军事决策智能发展储备必要的理论与技术,进而为利用AI 技术突破复杂战场环境下高动态不确定的决策问题提供借鉴.
军事智能博弈(military intelligence game,MIG),是指将军事问题转化为博弈问题,综合利用博弈论(game theory)和AI 技术寻求军事对抗中的策略均衡解.博弈论为解决军事问题提供了理论框架,AI 技术为策略求解提供了高效方法.随着智能理论与技术的迅猛发展,博弈论和AI 技术在现实应用中结合的更加紧密,为突破军事决策智能发展瓶颈提供了新思路.
军事智能博弈具有广阔的应用场景,如图1 所示.利用智能博弈技术构建虚拟蓝军,为作战方案分析、武器装备检验和人员技能训练提供逼真的作战对手,可获得更好的客观真实性;智能博弈系统可充当“决策大脑”或“智能参谋”,面向动态战场环境快速生成博弈策略,辅助指挥员开展对抗推演,并在训练中与人类共同学习,不断提升指挥决策能力;构建智能博弈对抗平台,作战模拟仿真系统虽然大大降低了实兵对抗训练组织难、消耗大的弊端,但大规模联合作战推演仍需上百人员协作,智能博弈平台上双方“智能体”自主对抗,不仅能对作战方案进行快速验证,还能通过分析智能体行为发现新战法.
图1 军事智能博弈应用场景Fig.1 The application scenario of military intelligent game
军事智能博弈主要有两大研究内容:一是军事博弈规则构建.局中人为最大化自身利益进行决策,不同的规则设计将会导致策略选择的不同,如何设计博弈规则以使最终均衡解达到整体利益最大化成为首要问题.二是博弈策略求解,博弈论提供了问题建模框架,纳什定理证明了均衡解的存在性,但现实问题的求解通常面临状态决策空间大、信息不完备等问题,如何利用高效算法搜索最优策略成为关键问题.
由纳什定理可知,若局中人及其策略集合有限,且收益函数为实值函数,则博弈对抗必存在混合策略意义下的纳什均衡.如果所有局中人拥有绝对理性思维,则逼近纳什均衡的策略就是最优策略;如果对手不是总能理性选择最优策略,则纳什均衡点不一定保证己方每局都赢,但从长远来看有极大概率会赢.由于合作博弈比非合作博弈复杂程度高,大多数研究集中在非合作博弈领域,其分类及求解方法如图2 所示.
图2 非合作博弈分类及求解Fig.2 Classification and solution of non-cooperative games
传统意义上的最优解并非均衡解.机器学习利用训练数据拟合最优模型,关注的是平均利益最大化,而博弈论中的均衡解关注的是最有利于局中人的局势,可适用于不同场合.例如围棋游戏中,若用历史棋谱来寻找最优策略,必能获得历史上胜率最高的方案,但面对新棋局或对手采取新策略时,“最优解”便失去意义.现实问题中,达成均衡解的策略才是真正需要寻找的[13].
简单博弈问题,可以通过数学解析或空间搜索算法进行求解,如线性/非线性规划、极大极小值算法等.现实问题通常面临巨大的状态决策空间,简单计算或穷尽式搜索已难以解决.AI 算法为寻找策略均衡解提供了高效途径,并成功应用于围棋、德州扑克、星际争霸等游戏博弈中,相关的技术和算法也成为研究热点.
梳理游戏智能博弈最新成果和美军智能决策项目发展情况,深入剖析所用理论方法和技术框架,有助于把握领域的研究进展和方向.
研究人员一直热衷于将游戏作为测试和评估AI算法的平台,从最初的Atari 游戏到后来的围棋、德州扑克和星际争霸等,人类攻克了越来越复杂的游戏堡垒,其技术方法为解决现实问题和实现通用人工智能奠定了基础.
2.1.1 完全信息博弈游戏
完全信息博弈中,局中人可获取即时完整的决策信息,双方行动有先后顺序,并能在有限步后得到结果,是研究成果最显著的领域,如围棋、国际象棋.该类问题通常采用博弈树搜素算法,将博弈过程转化为树的扩展过程.博弈树的根节点为初始状态,子节点表示在根节点选择动作后达到的新状态(state),从一个节点通向其他节点的边表示动作(action),通过评估叶节点来判断博弈结果.树中每一层代表了双方的状态,同层中的所有边为局中人在状态下所有可选动作,局中人在不同层间交替执行动作,允许一次执行若干动作但只看作是一个动作.博弈目的就是寻找博弈树根节点的最优子节点,而通往最优子节点的动作即为最优动作.
现实问题的博弈树过于庞大,众多学者致力于特征深度和分支因子的优化方法,如“深蓝”综合利用极大极小值搜索、α-β 剪枝和局势评估函数实现穷尽式搜索[4].而对于具有巨大搜索空间的围棋游戏,AlphaGo 将深度神经网络融合于蒙特卡洛树搜索(Monte Carlo tree search,MCTS),实现了宏观“深思熟虑”[14].MCTS 通过蒙特卡洛模拟估计节点值,每步行动前都会模仿人类思考方式进行多次模拟,从而展望未来并选择下一步行动.其基本步骤为选择、扩展、模拟和回馈[15],如图3 所示.随着模拟进行,博弈树规模逐渐变大而节点值更加精确,使得策略偏向于选择具有最优值的动作,从而将最高值节点扩展到最深处,形成一棵极不对称的树.
图3 蒙特卡洛树搜索Fig.3 Monte-Carlo tree search
为了在有限时间内获得更高胜率,既需要探索不同策略以避免陷入局部最优,又要保证回报值高的策略获得更多尝试,平衡探索(exploration)和利用(exploitation)成为关键.将MCTS 与置信上限(upper confidence bound,UCB)公式相结合可得到置信上限树(UCB for trees,UCT)算法,每次选择“价值”最大的动作,而“价值”定义为回馈得到的平均价值Q 与置信上界U 之和,如式(1)所示.
其中,Q(vi)和N(vi)表示节点vi的模拟奖励和总访问次数,可将Q(vi)/N(vi)理解为选择该节点的获胜概率.若贪婪地优先遍历具有最高胜率的节点会陷入局部最优,exploration 部分提高了未被充分探索节点被访问的概率,引导进行更充分的探索,并随着访问次数的增加而递减.为减少分支选择,通常会预先考虑一个先验概率分布来确定每步行动,求解该概率的函数被称为“策略函数”.AlphaGo 使用卷积神经网络(convolutional neural networks,CNN)构建了“策略网络”,实现了在一个局面下能够估计整个概率分布,并通过自我博弈生成“强化策略网络”[5].
针对特征深度优化问题,通常采用“Rollout 策略”或“估值函数”来对状态进行评分.Rollout 策略采用相对简单的方式快速模拟到底,并使用终局结果来近似状态评分,而估值函数直接估计状态的评分而无需搜索到终局.如果将估值函数记为,节点状态及评分分别为s 和,若能寻找到最佳参数使得很好拟合,即:
按照“表示学习”的思想,局面的“高级表示”既可以用来判断价值,也可以用来选择策略.因此,AlphaGo-Zero 使用同一个CNN 网络来进行价值估计和策略输出,该网络主要由3 部分组成:Residual Block 为共享的多层卷积神经网络,将棋面图像经卷积操作进行特征抽取;Policy Header 用于将中间特征转化为输出策略,通过全连接层得到稳定性较好的Logit 概率分布,再使用Softmax 函数转化为一般意义上的概率分布;Value Header 用于将中间特征转化为价值的估值,利用卷积层将特征压扁后相继输入两个全连接层,而后利用Tanh 激活函数得到最终估值[6].此后,Deep Mind 开发了AlphaZero 系统,可以同时解决围棋、国际象棋和日本将棋问题,为实现通用AI算法提供了借鉴[7].
2.1.2 不完全信息博弈游戏
不完全信息博弈中,局中人行动顺序虽有先后,但无法完全获取其他局中人的特征、收益及策略空间等决策信息,如德州扑克、麻将等.不完全信息博弈更符合现实场景,但求解纳什均衡解的复杂度和难度也更大.由于信息的非完备性和局势的动态变化,需对其他局中人的未知信息进行推理和猜测,同一状态下采取的行动可能有多种,甚至可以利用信息迷雾进行欺骗,通常需要根据局势缩小博弈搜索空间,如图4 所示.
图4 不完全信息博弈空间抽象Fig.4 Space abstraction of incomplete information game
该类问题最常用的是自博弈反事实遗憾最小化算法(counterfactual regret minimization,CFR).CFR不依赖于神经网络或其他措施来计算动作概率/记录动作价值,而是通过自我博弈的方法从零学习,总结每对特定“状态-动作”的遗憾值,而后通过将遗憾值归一化之后的动作概率生成决策[16].所谓遗憾值,是指策略与历史博弈中同一局势下采取的其他策略的收益之差的累加.此外,2016 年,HEINRICH 提出神经虚拟自博弈(neural fictitious self-play,NFSP),在无先验知识条件下,结合强化学习让模型在自我对局中达到纳什均衡[17];2019 年,浙江大学研究人员提出异步神经虚拟自博弈,通过在若干虚拟环境中进行自我博弈,显著提高了训练速度和效果,并成功应用于德州扑克和多人FPS 射击游戏[18].
在CFR 算法基础上,阿尔伯塔大学和卡耐基梅隆大学在德州扑克游戏中取得了瞩目成绩.2016 年,加拿大阿尔伯塔大学研制了DeepStack 系统,综合CFR 算法和深度神经网络进行决策求解,利用递归推理处理信息不对称[19].2017 年,卡耐基梅隆大学研制了Libratus 智能系统,该系统采用基于纳什均衡逼近的技术框架,以随机生成牌局、尝试性动作以及游戏结果作为训练数据,通过纳什均衡近似、残局解算和持续自我强化3 个步骤,不断平衡风险与收益使其达到纳什均衡[8],如图5 所示.2019 年,卡耐基梅隆大学再度研发出新型Pluribus 扑克智能系统,在原始版本基础上增加了在线搜索算法来评估下一步策略,更新自玩算法以获取更快的训练速度,成功突破了多人博弈游戏的局限[9].
图5 Libratus 的组成部分Fig.5 The component part of Libratus
2.1.3 即时战略博弈
即时战略游戏(real time strategy,RTS)具有以下特点:局中人需同时决策是否采取行动以及采取何种行动,而非轮流决策;局中人需在短时间内进行一系列决策并付诸实施,以满足实时对抗要求,而动作可能需要持续一段时间,完全不同于棋牌类游戏“决策的交替性和间断性、动作的瞬时性和突发性”;游戏中存在各种功能角色,如何发挥各角色作用和协作效果,是制定最优策略的关键问题;游戏中多角色多任务、高度不确定性和不完备不完美信息等问题,导致状态空间规模和决策可选动作十分巨大;由于无法准确预测对手行为,游戏并不存在理论上的最优解.因此,RTS 游戏研究对解决具有实时对抗、长远规划、多角色多任务和信息不完备不完美等特点的问题更具借鉴意义,如军事决策、应急规划等.
“星际争霸”(star craft)是典型RTS 游戏,自2010 年起,阿尔伯塔大学大力推进StarCraft AI 研究,但受限于经典模式而缺少学习进化能力.2016 年,阿里巴巴联手伦敦大学开始对相关算法进行了新尝试.2019 年,Deep Mind 研发了AlphaStar 系统,其底层技术对开发具有安全性、鲁棒性和实用性的通用AI系统具有重要意义,极大促进了博弈论、机器学习和多智能体协作等理论的发展.
AlphaStar 采用了双向协作网络模型和端到端训练方法[10].策略网络自下向上对环境进行抽象形成共享状态,经过双向RNN 网络输出每个智能体的执行动作;价值网络根据策略网络的输出动作及抽象状态进行评估,从而预判价值大小.当所有智能体采取动作后,环境会给出相应反馈,然后反向传播以更新网络参数.网络参数共享保证了模型的稳定性,而双向协作降低了计算量.在网络训练方面,构建了“有监督学习+强化学习”框架.基于多智能体集中强化学习思路设计了虚拟竞技场(AlphaStar league),并使用高水平人类比赛数据进行模仿学习,使得智能体能够在给定状态下预测下一步动作.进行自我对弈,在虚拟竞技场中始终保存和更新多个不同版本的策略网络.不同策略网络具有不同学习目标,从而维持了群体多样性,策略网络之间相互竞争从而不断提升对战水平,整个群体保证了持续稳定地提升.持续学习,同时训练3 个策略集合:main agents 从3 个策略集合中选择对手,以确定能够对抗历史上某个分布的策略;main exploiters 将main agents 作为对手,以寻找策略集合的弱点;league exploiters 将历史main agents 作为对手以发现系统弱点.main exploiters 和league exploiters 策略集合每隔一段时间重置为有监督学习得到的智能体,以增加对抗稳定性,从而保证新策略不会遗忘如何击败历史中的旧策略.虚拟竞技场中的个体形成了明显的策略分布,当需要输出一个策略网络作为训练结果时,通过纳什分布进行采样,可得到已经发现的多种策略的综合最优策略.
美军早已预见智能技术在军事领域的应用前景,力求在“第三次抵消战略”中凭借智能技术形成绝对军事优势.美军提出“马赛克战”概念,希望构建一个具有超强适应能力的弹性杀伤网络,实现要素的快速聚合与分解,重塑在大国博弈中的竞争力[20].智能博弈技术,必将成为未来智能化战争条件下进行指挥决策的基础.
“深绿计划”(deep green),由美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPAR)于2007 年启动,旨在将基于实时态势的自主对抗兵棋推演、态势及关键节点预测、作战方案排序等智能模块嵌入指挥控制系统,保证指挥官集中精力进行决策.主体由3 部分组成:指挥官助手提供智能化人机接口;闪电战支持自主式兵棋推演,不断预测和辨识未来多种态势及决策分支;水晶球控制生成未来态势并持续更新发生概率,向指挥员提供优选方案[21].
空战模拟AlphaAI 系统,由辛辛那提大学与美空军实验室于2016 年合作研发,其核心技术是遗传模糊树(genetic fuzzy trees,GFT).GFT 借鉴人类模糊决策思维方式约减问题复杂度,使用遗传算法不断训练优化新战术,使用模糊推理形成逻辑思维,从而模拟人类认知中的“直觉思维”和“逻辑推理”[22].模型经训练后,可具有超过人类250 倍的认知决策速度和超强的默契配合能力,完成各种攻防战术策略选择和动作协同.
指挥官虚拟参谋(commander’s virtual staff,CVS),由美国陆军装备司令部通信电子研究开发与工程中心于2016 年启动,旨在综合运用AI 技术处理战场海量数据,为制定战术决策提供人机交互、态势预判、决策评估及其他复杂分析等能力,解决营级指挥层缺少信息分析和辅助决策人员的问题[1].
终身学习机器(lifelong learning machines,L2M)项目,由DARPA 于2017 年启动,旨在研究并借鉴生物自主训练和学习机理,构建新一代具备自适应能力的人工智能学习框架,实现基于现实情景的在线式学习方式和基于经验进行决策的能力.计划中,L2M 系统能持续根据“经验教训”和现实环境进行自主学习,可在无预编程和线下训练情况下通过知识积累对全新环境作出适应性调整,如图6 所示.
图6 L2M 的核心能力Fig.6 The core ability of L2M
“罗盘”项目(collection and monitoring via planning for active situational scenarios,COMPASS),由DARPA战略技术办公室于2018 年对外宣布,旨在针对“灰色地带”作战的模糊性,综合利用人工智能、博弈论、建模仿真与评估等技术,辨识对手意图和预测行动计划,从而辅助指挥官进行精确、高效的决策,如图7 所示.“灰色地带”介于和平与常规战争之间,可通过采用暴力、社交、网络、心理、宗教等各种手段达到目标,因此,难以根据复杂环境中的稀疏信息捕捉对手的意图及行动.“罗盘”系统能够规划态势监测和收集策略,通过衡量对手对各种外界刺激的反应来识别其真实意图,辅助决策者权衡每种方案的利弊,为复杂模糊的灰色地带环境的观察-判断-决策-行动(object-orient-design-act,OODA)循环增加自适应元素.
“针对敌方战术的建设性机器学习作战”(constructive machine learning battle for enemy tactics,COMBAT)项目,源于DARPA 在2020 年发布的公告,旨在开发敌军旅级自适应人工智能系统,在模拟对抗仿真环境中提供出人意料的敌军行动策略,以辅助美军快速推演作战方案并实施计划拟制.各国军队在作战推演中通常由己方部队扮演敌军,导致“对手不像对手,自己对抗自己”的局面.COMBAT 项目利用实体行为建模,构建敌军旅、混合连以及连级单位模型和作战旅内部的指挥控制模型;利用自然语言处理、非结构化文本提取等技术,从相关外军研究文献和美军作战条令等文件中提取知识规则,挖掘敌军任务、实体以及相互间的依赖关系,用于生成敌军行动基线;使用博弈论和强化学习算法,在不确定复杂环境中不断学习应对美军行动的方案策略,从而能够在实际对抗中迅速生成多种敌军COA 并进行优化,如图8 所示.该项目是美军将最新人工智能技术应用到复杂决策的一种探索,以促进新型“技术、战术和流程”的开发.
图8 COMBAT 技术核心Fig.8 The technology core of COMBAT
“打破游戏规则的人工智能探索”(gamebreaker artificial intelligence exploration)项目,由DARPA 在2020 年5 月提出并组织实施,旨在研发通用人工智能算法并应用于公开视频游戏,定量评估游戏平衡性并确定显著影响游戏平衡的参数,探索打破游戏平衡性的新战术与新规则.合作团队将以两种游戏为实验场景,第1 种游戏用于实现人工智能算法,并在第2 种游戏中验证.实时策略视频游戏普遍涉及宏观策略制定、战役长程规划和指挥控制等问题,这与现实战争息息相关.该项目虽然是针对公开视频游戏的探索,但实际目的是寻找通用智能算法来评估和操作真实战争的平衡性.美军期望在未来军事冲突中,能够最大化战争不平衡以创造优势,或能够在敌方占优势时寻求平衡,如图9 所示.
图9 打破游戏规则的人工智能探索项目展望Fig.9 The prospect of gamebreaker artificial intelligence exploration
MCTS 适用于规模适中且信息完全的有限离散博弈,当状态决策空间规模较大时,需采用高效的剪枝算法来约减空间,模型的抽象简化会降低求解结果的可信度,模型的运行需依靠透明的规则,不适用于现实世界中动态持续和同步决策问题.Libratus 采用的纳什均衡逼近技术框架,具有较好的可解释性和通用性,但“纳什均衡”解的求解难度会随着局中人数量的增加而呈指数增加.GFT 算法通过结合模糊数学与进化算法大大降低了计算复杂度,其策略集合与支付的不对称性十分符合军事应用场景.但该方法的表征能力和自我改善能力有限,对领域知识依赖程度高,需要人工建模完成对问题的模糊抽象和分解;对策略空间的模糊聚类,可能会将差别细微的策略归为一类,这极有可能导致大相径庭的博弈结果.深度强化学习具有强大的非线性表示能力,利用深度神经网络能从海量数据中学习经验知识、逐层抽象策略模型.但深度神经网络训练需要大量样本数据,有限的训练数据将难以覆盖策略空间,导致策略模型泛化性和适应性较差,同时模型的可解释性不强.
战争具有非线性和不确定性,军事博弈是一个典型的面向不完美不完备信息的序贯决策和同步博弈问题,必须兼顾宏观策略规划和微观战术选择,平衡短期利益、长期目标以及意外情况处置能力.现有智能博弈技术难以直接利用,主要因为军事博弈具有以下突出特点.
3.1.1 战争充满“迷雾”和不确定性
在完全信息博弈中,双方可以完全掌握棋局状态,即使是在德州扑克等非完全信息博弈中,未知的牌局信息也只发生在一定概率区间内,通过多轮博弈可进行概率判断.而在真实战场中,由于预警范围和侦察注意力受限,只能从战场环境中获取部分信息,而且敌方行动策略和作战企图无法完全知晓,基于部分可观察的态势估计是不可回避的.指挥员需要在一个非完全信息环境下进行决策,必须具备高效准确的侦察、探索、记忆和推测能力,信息的缺失导致以求解局部最优来获取全局最优的方式无法完成策略回溯.
战场各类侦察系统获取的信息可能是随机模糊的,敌我双方为隐藏企图而采取各种欺骗行为和佯装动作,导致获取的信息不一定准确,产生“信息获取的不确定性”;信息在各层级传播和融合过程中,会出现衰减、丢失和出错等现象,产生“信息融合的不确定性”;事物的描述和表示会因知识表示方法不同而不同,产生“知识表示的不确定性”;利用证据信息与军事知识进行战场态势和敌方策略行动推理时,不同的推理算法会产生不同的估计结果,产生“推理结果的不确定性”.战争信息的高度不确定性,导致基于先验知识推理未知领域的方式难以奏效.
3.1.2 军事博弈对抗激烈、连续且非零和
战争博弈日趋激烈.无论战前还是战中,博弈发生在时时刻刻、方方面面,双方意图互为对抗且此消彼长.战争节奏紧张,战场态势剧变,双方需要更快速更准确地进行决策.决策过程不仅要考虑作战目的和战场态势,还要持续判断敌方可能采取的战法和行动,更需要在交战过程中反复迭代更新策略,以掌握战争主动权.为保证自身方案计划顺利实施,达成“出其不意攻其不备”的效果,还要巧妙地利用佯装行动诱骗敌方;相反,为避免被敌方牵着鼻子走,也需通过有效的信息推理来识别和预测敌方的真实意图.
军事决策是动态连续的.与棋牌类游戏的轮次博弈不同,战争态势连续演进,交战双方决策无顺序约束,任何时刻既要决策是否采取行动,还需决策采取哪些行动,决策的速度和准确度共同决定了指挥效率.从理论上讲,可将动态连续决策过程离散为更精细的时间片段,而后采用轮次博弈的静态解决方法.但战争系统具有整体性和不确定性,以离散方式进行抽象建模,必然需要解决时间尺度、模型精确度和问题求解复杂度三者之间的关系.
军事博弈具有典型的“非零和”特性.战争开始及结束时机,需要综合考虑政治意图、战略目的、敌我能力变化和国际环境等,以实现国家利益最大化.达成国家利益最大化时,有可能是双方军事作战在某一阶段的“双输”/“双赢”局势,也可能是在实现政治、经济等目的后的“僵持”局势.这种模糊、复杂、稀疏及非零和的博弈收益,无法依靠单一指标的价值网络来评价.
3.1.3 策略空间巨大且难以达成均衡解
军事博弈具有异常庞大的状态策略空间,难以依靠遍历求解或模拟仿真等传统方法进行求解.指挥员每次决策都会涉及任务类型、执行单位、空间和时间的选择,不同作战单位和作战行动之间的时间协同、效果协同和任务协同进一步增大了策略空间.棋牌类游戏的状态空间复杂度均是有限的,星际争霸游戏的状态空间仍在现有算法算力解决范围内.而解决拥有巨大状态策略空间的军事博弈问题,不仅对构建战争抽象模型提出了挑战,更对软硬件运算能力提出了要求.
军事博弈策略求解面临三大难题.一是多方博弈增大了达成纳什均衡的难度.在当今全球一体化现状下,各国在政治、经济、文化和军事等多方面密切相连,战争不仅仅是两国之事,更多情况下会涉及多国利益.在多方博弈问题中,纳什均衡求解的复杂度随着局中人数量的增加呈指数上升.二是多军兵种参战增加了协同难度.作战力量多元化是联合作战一大特征,不同领域作战力量的合理利用和协同互补是拟制作战方案计划的重要内容,这也是实现决策智能无法回避的内容.三是不存在最优策略能稳定胜过其他策略.在策略学习与探索过程中,策略之间相互克制和历史遗忘的特性十分明显,单纯采用自博弈训练方式,可能会陷入在不同策略间游移但水平停滞不前的境地.由于难以推理敌方策略行动,需要在不同子博弈之间寻找平衡.
战争规则的多样性、创新性和复杂性,进一步增大了状态策略空间的规模和纳什均衡的求解难度.战争参与者都试图通过作战行动来达成作战目的,策略会因战场态势的不断更新而时刻变化,出奇制胜和另辟蹊径的战法创新为各方所推崇追寻.面对同一战场态势,各方可能采取不同的响应动作,而指挥员的决策风格也不尽相同.
3.1.4 面向任务使命的长程规划难以实现
现代作战已从传统的由外及内逐层消灭敌人的线性作战,转变为集中全域力量进行全纵深整体打击的非线性作战.战争事件因果关系复杂,通常难以在短时间内呈现,作战行动的执行效果可能在长时间后才会有所体现.方案计划的制定要始终围绕使命任务进行主动筹划和战争设计,研究作战行动与作战效果之间的非线性关系.
这种长远且全局的规划视野,体现了人类指挥员的指挥艺术和大局观.美军率先提出基于效果作战(effect based operation,EBO)概念,通过逆向规划将目标分解为具体预期效果.EBO 理论从逻辑上讲难以实现,因为在不确定环境中无法确定某一行动的结果,同时也忽视了对抗性这一战争本质[23].中外学者通常使用影响网进行研究,结合博弈论实现对抗条件下作战方案计划的生成[24].强化学习天生具有“行动-效果”的探索能力,为解决EBO 提供了新思路.
长程规划应能够体现战争设计的前瞻性、各领域各层级的协同性以及指挥艺术性.一是主动筹划行动以掌握战场主动权,瞄准作战目的,确保作战进程朝着终止态势发展而不“走偏”,优先完成“观察-判断-决策-行动”循环;二是适应性调整方案以应对战场中的不确定干扰,确保己方作战过程持续进行而不会“中断”,具有较强的学习能力和泛化性.为此,策略学习应具有记忆功能,以判断什么样的行动产生了好的效果、什么样的策略更具有获胜的可能性.正如AlphaStar 使用长短时记忆网络捕捉历史信息,构建虚拟竞技场保持策略稳定,并采用持续强化学习实现策略不断更新进化.
3.2.1 基于知识规则的智能技术
知识来源于实践,人类在解决问题时更倾向于遵循成熟规则.机器还难以模仿人类大脑的复杂学习能力,智能博弈水平需要漫长的成长过程.传统基于知识的专家系统,利用人类经验和专家知识,便可解决各领域复杂问题.在深度学习盛行之后,基于知识规则的智能技术依旧取得了不凡成绩.例如,东京大学日麻AI 系统利用9.6 万多条规则进行监督学习,达到了专业六段水平;韩国三星的SAIDA 系统完全凭借职业玩家总结的规则知识,在2018 年IEEE 举办的星际争霸比赛中获得第一.即便是融合了深层神经网络的AlphaGo 和AlphaStar,依然需要在预训练中使用大量人类对局数据进行模仿学习.
虽然AlphaZero 和Muzero 能够完全通过自主学习实现成长[25],但围棋游戏与战争对抗存在天壤之别,难以直接应用于军事领域.强化学习算法还难以实现从基本策略中总结出高层策略,现有的条令条例、规划流程、作战规则等大量知识可转化为知识网络以引导AI 系统决策.
3.2.2 人机融合实现决策智能
战争的非透明性和不确定性,使得作战筹划及指挥控制过程极其复杂,单纯依靠人类大脑难以满足决策速度和精度要求,而完全依赖机器又难以满足决策的可解释性.人机融合决策具有两个明显特性,如图10 所示.一是层次性,指挥决策具有科学性和艺术性,科学性随指挥层次提升而降低,艺术性与之相反.低层级指挥决策可采用传统运筹学、贝叶斯网络、机器学习等科学方法,这是实现决策智能的基础;中间层级指挥决策采用不同程度的人机协作决策,重点研究人机协作的时机、场合和方式等;而高层级指挥决策需要由指挥员及参谋机构拟制.二是交替性,传统的OODA 环已转化为具有学习机制的OODA 螺旋[11],指挥决策成为一个滚动迭代、不断优化的过程.人与机器在各环节都有擅长与不足之处,例如:态势理解环节,机器善于处理海量数据、提取态势特征和简单战斗战术级态势理解,人来负责复杂战术战役级态势理解及意图判断;行动决策环节,机器善于快速运筹计算和基于数据挖掘关联关系,人来负责基于因果关系进行非即时反馈决策.在OODA 循环中,人与机器交替进行智能决策,并推进其螺旋上升.
图10 人机协作决策Fig.10 Man-machine cooperation to make decision-making
3.2.3 混合技术突破军事智能瓶颈
军事博弈的复杂性决定了需要依靠多种技术手段,AlphaStar 结合了神经网络、多智能体、强化学习、模仿学习、联盟机制以及各种网络结构和参数的巧妙设计,才实现了最终效果.ONTANON 等总结了多智能体RTS 游戏的难点及应对措施[26],为军事智能博弈研究发展提供了很好借鉴.如图11 所示,军事智能博弈需重点关注以下几点:
图11 军事智能博弈难点及措施Fig.11 The difficulties and measures of MIG
1)任务分解.采用分层任务网络、影响网络和影响图等技术,将战役任务按时间、因果和逻辑等关系进行分解,降低整体求解难度.
2)策略分层.模拟人类思维流程进行分层决策和多尺度规划,上层策略为下层规划目标,而下层策略的执行支撑了上层策略,如高层策略关注战役全局问题、底层策略聚焦短期利益、即时策略控制反应式动作.
3)规划方法.灵活运用多种规划方法:低层次局部任务规划与高层次全局作战规划的一致性耦合;复杂多目标问题求解的优化与效率的均衡;在理论和技术条件下,若能基于知识规则进行规划,则应避免使用强化学习.
4)策略学习.一是基于历史或仿真数据的策略模仿学习,解决复杂问题从零学习的困境;二是基于联盟机制的策略持续学习,解决策略持续优化、避免陷入死循环的困境;三是基于通用AI 技术的策略迁移学习,解决知识经验和学习机制在不同场景下的共享问题.
5)不确定性推理.针对战场信息不完全性增加侦察策略,构建预测模型对战场态势、敌方意图及行动策略进行推理;针对广阔战场空间和作战单位功能各异,需要合理安排力量跨域作战、资源空间转移和行动空间协同等问题,进行空间不确定性推理;针对战争非即时反馈特点,既需要解决当前危机,又要长远地规划资源利用和策略转换等问题,进行时间不确定推理.
6)知识图谱.以图谱形式组织军事领域知识,构建基础知识图谱;基于历史数据及专家经验,构建敌方意图图谱;针对不同决策场景,结合指挥员经验总结,构建我方行动推荐图谱.
3.2.4 对抗博弈用于强化训练和战法研究
战争谋略是长期作战实践的经验总结.通过对抗博弈,机器学习人类已有经验知识,人类从机器行为表现中得到启发,实现人类决策能力与机器智能水平的共同提升.以战役级计算机兵棋系统为训练平台,基于敌军战法规则构建智能对手,通过人机博弈对抗进行战法研究和方案检验,持续提升指挥员的决策能力和战场大局观.借鉴AlphaStar 的虚拟竞技场思路,通过机器自博弈探索不同行动方案并进行评估,从而克服指挥员传统思维禁锢,寻找好招、奇招与妙招.面向未来无人作战领域,大力发展多智能体博弈策略生成的关键技术[27].
通过梳理经典智能博弈理论方法和军事博弈特征,得出以下结论:1)军事博弈与游戏存在显著区别,战争注重指挥艺术性和决策科学性的结合,强调战争设计和“运筹帷幄”;2)军事博弈更加强调面向战役使命进行长远规划,而非游戏的反应式规划,必须兼顾宏观策略规划和微观战术选择;3)军事博弈问题规模远远大于游戏场景,种种不确定性因素和动态连续的激烈对抗,增大了均衡策略的求解难度.因此,智能博弈相关技术方法还难以完全用于解决战争问题.面对复杂的战争系统,长期积累的军事知识和作战经验能够引导机器减少盲目搜索,并避免犯下违背军事常识的错误;人机交互式决策在保证速度和精度的同时,还可通过“人在回路”提高决策的适应性;如何利用已有技术手段解决现有复杂问题,聚焦于智能技术混合使用方式,是亟需研究的内容.