聂 凯,曾科军,孟庆海,魏 超
(中国人民解放军91550部队, 辽宁 大连 116023)
人工智能先后经历了计算智能、感知智能和认知智能等3个阶段。近年来,随着以深度学习为代表的机器学习技术的快速发展,在图像识别、文本翻译、语音处理等感知智能方面取得了成功应用[1-3]。人工智能从诞生起就以对抗人类智能为衡量标准(例如图灵测试),随着计算机硬件和软件技术的不断发展,通过人-机或者机-机对弈,不断推动认知智能技术的进步[4]。AlphaGo的成功激起了人们对人机博弈技术的再次广泛关注,目前谷歌已推出了AlphaStar、AlphaGo Zero等多个版本[5]。在德州扑克AI算法方面,已经从1对1无限注德州扑克拓展到6人无限注德州扑克,实现了不完整信息博弈突破[6]。不完整信息、多智能体博弈方面,Deep Mind和暴雪联合开发了基于StarCraft II的学习环境SC2LE[7]、微软亚洲研究院推出超级麻将AI Suphx[8]、腾讯推出了王者荣耀AI“绝悟”[9],在多项职业比赛中碾压人类选手。
但下棋、游戏和作战打仗还有很多不同,战场态势决不仅仅是兵力的布局,各种相互关系、能势大小、趋势方向都应反映出来,战场抽象建模更难;战争是连续演进的,是非轮次博弈;输赢并非战争的单一目标,评估一个作战方案还有很多其他指标,如预期效能的达标性、损失代价的可接受性、资源占用条件的满足性、应对各种变化的灵活性等造成人机对抗智能技术在军事领域应用面临很多挑战[10]。在人机对抗技术进展综述方面,文献[1]提出了人机对抗智能理论研究框架,总结了其关键模型和技术;文献[11]全面总结了基于深度强化学习的博弈对抗技术进展;文献[12]分析了典型智能博弈系统技术,指出了人机对抗技术应用于智能指挥控制系统面临的挑战,还有相关的文献[13-15]。这些综述虽然很全面,但一些最新进展如6人无限注德州扑克、超级麻将AI Suphx等没有及时更新,文献[12]和文献[14]仅关注了人机对抗技术在指挥控制系统方面的应用,还有更多方面的可能军事应用前景亟待挖掘。
本文在人机对抗机理定义的基础上,梳理了人机对抗智能技术涉及的核心技术;接着将人机对抗智能技术分为完整信息博弈、不完整信息博弈和不完整信息、多智能体博弈等3种,阐述了其最新进展;最后指出了人机对抗智能技术应用于军事领域面临的挑战,分4种情况阐述了可能的军事应用前景。
人机对抗是指在强对抗博弈环境下,研究机器战胜人类的方法,挖掘战胜人类的内在机理和技术原理,通过人、机和环境之间的交互学习,探索复杂、高动态和不确定等对抗环境下机器智能快速增长的途径,最终通过机器智能的提升服务人类在认知与决策等方面的需求,具体机理如图1所示。
图1 人机对抗机理图
人机对抗涉及的要素:人、机器和环境(包括对抗规则、条件等),对于人来说,可基于“OODA”环[10]将其与机器对抗的过程,看作对机器(游戏态势)进行观察、判断、决策和行动的过程,对应于态势感知、理解、预测、决策与行动。如将游戏态势图片或视频进行特征提取和识别,把识别数据作为输入,玩家对态势感知和理解后形成高级认知,基于态势预测结果、已有经验和对抗规则,产生行动方案和输出动作序列,使游戏向更有利于玩家的方向进行,然后多次迭代直至获胜。
人机对抗根据任务或游戏的不同可建模为完整信息博弈、不完整信息博弈和不完整信息、多智能体博弈等三类,分析这三类对抗情况,综合人机对抗的发展历史,人机对抗智能技术涉及博弈论和机器学习等两大类。
中等规模完整信息博弈可以采用alpha-beta剪枝、极小化极大算法等技术[16],大规模完整信息博弈则需要深度神经网络、蒙特卡洛树搜索(Monte Carlo tree search,MCTS)和自我博弈等,如AlphaGo[17]和AlphaGo Zero[5]。MCTS是将蒙特卡洛算法应用于博弈树搜索,用模拟环境跑出来的结果替换根据预估函数估计出来的结果。
不完整信息博弈存在玩家不能完全观测自己所处状态的情况,其解决方法为求解博弈树的纳什均衡。但面对博弈树规模大的情况,通常采用博弈抽象对博弈树进行压缩,扑克机器人Libratus[18]和Pluribus[6]就是采用这种思路。
不完整信息、多智能体博弈面对巨大的搜索空间、强不确定性和实时对抗时,主要采用深度学习和强化学习相结合的智能体自主学习方法[19-22],并发展出了多智能体强化学习[23]、分层强化学习[24]及元深度强化学习[25]等,这方面的代表为多智能体游戏StarCraft II、王者荣耀AI“绝悟”等。
以上人机对抗智能技术都以认知决策为重点,随着研究的深入,这些技术将挑战更复杂的环境、更多的信息不完整、拥有更多隐藏空间的问题,这样的对抗更接近人类真实生活中的决策过程。
人机对抗智能技术的历史几乎和人工智能的历史一样长,很多关于人工智能的研究,都源于如何构建能够完成对抗任务的智能体。人机对抗智能技术的演进,始终与AI研究相生相伴。下面以人机对抗中信息是否完整及智能体的个数为依据,梳理人机对抗智能技术的最新进展。
完整信息博弈是人机对抗智能技术研究的起点,主要选择棋牌类游戏作为实验对象,这些棋牌类游戏都遵守简单而清晰的规则,有明确的胜负判定条件和行动准则,和它们对抗的输赢情况能够在一定程度上反映人类智力的高低。
人工智能技术在双陆棋、国际跳棋、国际象棋、五子棋、围棋等完整信息博弈棋类游戏中相继取得突破,在多项职业比赛中战胜人类选手。深蓝Deep Blue于1997年以3.5:2.5击败国际象棋世界冠军Garry Kasparov,成为首个在标准比赛时限内击败人类世界冠军的计算机系统[26]。在上述棋类游戏中,围棋的状态最为复杂,下棋的策略十分依赖于对于牌局的评估,各类游戏的状态空间复杂度和游戏树复杂度如表1所示[27]。
表1 游戏的状态空间复杂度和游戏树复杂度
2015年以来,Deep Mind团队开发的基于深度强化学习的AlphaGo频频战胜人类顶级高手,引起了人们的极大关注。Deep Mind不断书写传奇、促进算法更新,接连创造了AlphaGo Zero、AlphaZero和MuZero。MuZero的算法通用性更强,在57款不同的Atari游戏上达到了超越人类的水平[28]。MuZero融合了蒙特卡洛树搜索和基于搜索的策略迭代算法,且将学习好的模型整合到了训练步骤中,具体原理如图2所示,(a)为基于树的规划部分,(b)为在环境中的动作,(c)为模型训练过程。
图2 MuZero原理示意图[28]
不完整信息博弈游戏中玩家往往信息是不对称的,如德州扑克、桥牌、麻将等,更具挑战,拥有更多隐藏空间。把无法区分的游戏状态称为一个信息集,采用信息集数目和平均大小来衡量不完整信息博弈游戏的难度[27]。4种不完整信息博弈游戏的信息集数目和信息集平均大小如表2所示。
表2 游戏的信息集数目和信息集平均大小
德州扑克玩家可以通过诈唬(Bluff)来误导对手,主要采用强化学习、蒙特卡洛反事实遗憾最小化算法CFR(Counterfactual Regret Minimization)等,以阿尔伯特大学、卡耐基梅隆大学等研究人员为主,在2015年发布了 Cepheus,2017年相继发布了Libratus和DeepStack,2019 年卡耐基梅隆大学又联合 Facebook AI发布了Pluribus,成功在六人不限注扑克上打败了职业扑克玩家,被Science评选为当年的十大科学突破之一。
桥牌分为叫牌阶段和打牌阶段,游戏规则相对复杂,使得基于树搜索和CFR 算法的系统计算复杂度更大。主要采用双明手算法和蒙特卡洛抽样模拟。双明手算法的突破是目前解决桥牌机器博弈的基础,它把不确定性的问题转换为基于不确定性的猜想进行确定性的计算。先后出现过GIB、Jack和Wbridge 5等系统,并轮番取得桥牌比赛冠军。
麻将作为多人非完整信息博弈的一种,人工智能技术应用时面临以下挑战:计分规则通常都非常复杂;打法也比较复杂,需要考虑多种决策类型,规则的博弈树非常庞大且分支很多,导致MCTS、蒙特卡洛反事实遗憾最小化算法等都无法直接被应用。日本东京大学2015年开发了名为“爆打”的AI程序,Dwango公司也于2018年开发了基于深度学习的NAGA025。微软亚洲研究院开发了麻将AI系统Suphx,于2019年3月登陆天凤平台,成为首个达到天凤十段的AI系统。
麻将AI系统Suphx主要基于深度强化学习技术,具体如图3所示,它基于“先知教练”利用完美信息加速训练过程,利用游戏层次结构进行奖励分配实现全盘预测,使Suphx具有一些大局观,使用动态调整策略适应本轮环境实现自适应决策[8]。
图3 Suphx主要挑战及应对技术
多人在线战术竞技类游戏成为测试和检验前沿人工智能的复杂决策、行动、协作与预测能力的重要平台,如使用人工智能技术对抗StarCraft II、Dota2、王者荣耀、雷神之锤III等都属于不完整信息、多智能体博弈。
StarCraft II是一款由暴雪娱乐公司开发的多角色即时策略类游戏,与棋牌类游戏相比,复杂程度更高,技术挑战更大,也吸引了很多职业选手,举办过各种级别和类型的国际性赛事。Deep Mind和暴雪娱乐公司在2017年联合推出了基于StarCraft II的学习环境 SC2LE,2019年1月基于此环境AlphaStar分别以2个5∶0击败人类职业选手。同时众多科研团队如Facebook、阿尔伯塔大学、牛津大学、伦敦大学、阿里巴巴、腾讯及中国科学院自动化所等都基于环境 SC2LE开展了深入研究,形成了很多成果[22]。
Dota 2是Valve公司于2013年发行的一款多人实时战略游戏,其一局时间较长、部分可观测性以及高维度的观察和动作空间,都给深度强化学习带来了挑战。为此OpenAI先后开发了OpenAI Five和Rerun,取得了不错的战绩,OpenAI Five的模型结构如图4所示。
图4 OpenAI Five的模型结构框图[29]
OpenAI Five将策略π定义为从观察历史映射到动作的概率分布的函数,并将其参数化为了一个有约1.59亿个参数的循环神经网络,该神经网络主要由单层的4 096单元的LSTM(Long-Short Term Memory)构成。对于策略的训练则使用了近端策略优化(PPO)。
腾讯AI Lab与王者荣耀联合研发的策略协作型AI“绝悟”[9]架构由4个模块组成:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。它支持5对5的集体类游戏,整个团队需要有宏观的策略,也需要微观的精细执行。
雷神之锤III也是一款多人游戏,涉及策略、战术、团队配合。Deep Mind的科学家也将AI智能体应用于挑战雷神之锤III,智能体直接从原始像素中学习以产生动作,然后采用多智能体强化学习实现目标[30]。
人机博弈具有天然对抗特质,这和军事行动的本质很相似,可以将人机对抗智能技术的最新成果应用于军事领域,提高军事智能化水平。但从第3节的分析可以看出,虽然人机对抗智能技术能够在不完整信息、多智能体博弈中战胜人类专业选手,具有策略、战术、团队配合能力,但下棋、游戏和作战打仗还有很多不同,作战打仗是在动态开放环境下的决策问题,有自己的决策特点和结果评价指标。人机对抗智能技术应用于军事领域具有以下挑战[12]:战场环境的不透明性远远大于不完整信息博弈;战争局面状态具有高复杂性和多尺度性;对抗目标呈现非零和、非轮次博弈;行动进程具有强动态性和突发性;行为规则具有不确定性。但人们还是从以下几个方面推动人机对抗智能技术在军事领域的应用,展现了光明的前景。
3.1.1构建人机对抗智能系统,提高对手模拟和训练水平
军事仿真推演可以通过多次训练和评估提高指挥员能力和水平,其中对手行为的模拟十分重要,红方指挥员只有和逼真而强大的对手对抗训练,才能达到训练效果。这方面最成功的案例是美国辛辛那提大学与美国空军研究实验室合作开发的Alpha AI空战模拟系统[31]。2016年6月,Alpha AI机器飞行员在空战模拟器上完胜著名空军战术教官李上校。Alpha AI运用模糊推理技术生成战术策略,躲避攻击,还能协调队友、观察学习敌人等。
在国内,中国电子科学研究院于2019年发布了多智能体对抗仿真环境MaCA(Multi-agent Combat Arena),是国内首个可模拟军事作战的轻量级多智能体对抗与训练平台,并基于此平台开展了异构多智能体对抗赛,推动了国内人机对抗智能在军事上的应用研究。中国指挥与控制学会从2017年开始组织全国兵棋推演大赛,目前已举办三届,其中2019年比赛使用的兵棋AI智能体“战颅”由国防科技大学系统工程学院研制,推动了人机对抗智能技术从实验室走向实践应用。
3.1.2构建博弈试验平台,通过自我博弈生成数据、创新战法
AlphaGo与AlphaZero在训练过程中的一个区别就是由依靠人类下棋经验转变为无需先验知识的自我博弈,这为解决缺少实际作战样本数据问题提供了新思路。博弈试验平台是积累对抗样本数据的最佳方式,国内中电28所提出了打造智能博弈试验平台的构想[32],并分析了其关键技术。文献[33]以空中对战为背景,研究了智能自博弈平台。文献[34]构建了支持强化学习多智能体的网电博弈平台,设计了博弈平台的主要功能、组成和逻辑架构等。所有这些都是初步尝试,还需要进一步深入研究。
同时还可以开展自我博弈试验,对一些创新战法与思考开展仿真推演与评估,依据评估结果检验新思路,改进新战法。博弈试验的导演方可任意设定对抗场景和对抗规则,导调试验过程,创新战争研究与预实践方式。这种博弈试验平台也是对传统仿真推演系统的改进,它可以最大可能地模拟敌方可能做出的行为决策,提高仿真推演的智能化水平。
3.1.3通过人机对抗智能技术提升辅助决策能力
现代战争环境复杂、动态、多变,战场信息变得多源、异构,而指挥员的认知能力有限,迫切需要人机对抗智能技术的辅助以提升决策水平。首先,人机对抗智能技术能够实现对抗策略生成与优化,StarCraft II、Dota2等多人即时策略游戏使用多层次任务分解与协同,将博弈游戏分解为多个子任务,降低求解难度;其次,当战场环境忽然改变时,人机对抗智能技术能够通过不确定性认知等,给出临机处置建议。美军2016年启动的指挥官虚拟参谋(Commander’ s Virtual Staff,CVS)就是提升辅助决策能力的军事AI系统代表,它依托人机对抗智能技术能够实现规划、准备、行动到过程复盘等全流程的决策支持,但主要面对战术决策。“深绿”系统的“指挥官助理”模块以草图或语音的方式快速制定方案,“水晶球”模块能够为指挥员提供优先选项[37]。
MaCA是多智能体对抗算法研究、训练、测试和评估的环境,可支持作战场景和规模自定义,智能体数量和种类自定义,MaCA 2.0提供了一个飞行器攻防对抗的多智能体实验环境,环境中预设了2种智能体类型:探测单元和攻击单元,探测单元可模拟L、S波段雷达进行全向探测;攻击单元具备侦察、探测、干扰、打击等功能。飞行器攻防对抗推演工作流程如图5所示。
图5 飞行器攻防对抗推演工作流程框图
作战想定:红蓝对抗双方可以是指挥员或基于强化学习的多智能体模型,智能体通过多次仿真推演训练,在与战场环境的交互中获得最优攻防决策建议。红方攻击时蓝方进行探测、识别与拦截,反之亦然。
推演过程:实验中的数据来自于实际演训和飞行器攻防对抗智能博弈平台的仿真推演。实际演训数据包含了飞行器攻防对抗产生的多维度、全要素数据,也含有人的认知和指控行为、多方博弈产生的对抗数据,是最接近实战的作战数据,但受限于演训次数,数据量有限;飞行器攻防对抗推演通过设置想定背景、关键行动及通过控制仿真时钟速度来加快仿真速度,获取海量多次对抗仿真推演数据。当红方飞行器被拦截或突防成功命中目标时,仿真结束。
结果评估:为了评估对抗结果,使用对抗获胜率进行评价,对抗获胜率越大,该算法优势越明显,具体定义为[21]
(1)
其中:VR为对抗获胜率;N为测试轮数,在这里ar和ab分别指红方指挥员和蓝方对抗算法;Vi(ar,ab)为第i轮ar方和ab方对抗获胜指标。
在飞行器攻防对抗任务中,利用深度强化学习算法对蓝方飞行器的突防策略进行学习,红方飞行器则由指挥员亲自参与对抗训练或采用智能体模型。进行5 000次攻防对抗训练,每个仿真步长为0.1 s,在对当前对抗态势图像裁剪和压缩后,将其特征作为一次观测,存入训练数据集合{episode={(xt,at,xt+1,rt+1,dt+1)}}中,xt包含红蓝双方的特征,红蓝对抗结果如表3所示。
表3 多智能体模型与指挥员对抗获胜率VR%
针对人机对抗智能技术最新成果应用于军事领域的迫切需求,在对人机对抗机理进行定义的基础上,梳理了当前人机对抗的核心智能技术。接着将人机对抗智能技术分为完整信息博弈、不完整信息博弈和不完整信息、多智能体博弈等3种,阐述了其最新研究进展。最后指出了人机对抗智能技术应用于军事领域面临的挑战,以飞行器攻防红蓝对抗为例阐述了可能的军事应用前景。可以看出:人机对抗智能技术在模拟训练系统、创新战法、态势智能认知和辅助决策等方面应用前景广阔,需要进一步加强人工智能前沿理论的落地应用研究。