金欣 毛少杰 李青山
伴随着人工智能技术的发展,作战指挥也一直在智能化的道路上探索前行,虽然以深度学习为代表的新一代人工智能技术最近几年才取得突破,但广义的人工智能技术已经历了近70年的发展历程.指挥信息系统从诞生以来,辅助决策就是一项重要的功能.将广义智能化技术用在辅助决策领域,相关研究很早就开始了,老一辈的技术人员尝试过运筹学、专家系统、概率论等经典的方法,应用在控制工程方面并取得了长足的进步.但在作战指挥层面,博弈对抗、跨领域综合性的特点更加突出,艺术的成分更多,经典方法难以奏效.
近年来,随着自然语言处理、计算机视觉、知识图谱、智能博弈等新兴人工智能技术的快速发展,年轻的技术人员开始尝试新的方法,期望机器可以从巨量的样本数据和探索试错中自主学习产生指挥智能,美军以DARPA为代表,启动了KAIROS、MCS、SI3-CMD、Gamebreaker 等一系列项目开展研究.国内学者紧随其后,也开展了一些探索性的研究,并取得了一些阶段性成果[1−2],但由于真实战争的复杂性,以及作战指挥应用领域的高可靠性要求和和小样本学性,这些方法在短期内还难以达到实用化水平,眼下属于作战指挥智能化发展的一个瓶颈期.在通用人工智能技术突破之前,作战指挥智能该如何发展,依旧是困扰我们的一大难题.
本文从“培育”作战指挥智能的视角出发,类比人在成长过程中所采用的学习方式,对传统方法和新兴技术的优点和问题进行了分析.并在此基础上,提出了一种基于混合智能的作战指挥智能培育方式,从知识学习、博弈学习两条技术路线,分别提出了解决思路,指出了其中亟需突破的关键技术难题,对发展作战指挥智能化具有一定指导意义.
从20世纪90年代开始,老一辈的作战指挥领域技术人员就已经在寻求作战指挥智能化的技术方法.数十年来研究开发的计算模型包括海空目标航迹融合、导弹落点预测、卫星轨道预测、目标威胁估计、探测/火力范围计算、机动航行路线规划、截击引导规划、导弹弹道规划、弹目匹配规划、行动耗时估算、导弹诸元规划等,大多是解决武器装备控制层面的问题.所采用的方法主要包括运筹学、专家系统、概率论等[3−9].
运筹学的方法在工业控制领域获得了广泛的应用,武器装备控制层面的问题与工业控制十分相似,因此运筹学的方法也得到了较好的应用,但是到了作战指挥层面,博弈对抗带来的强非线性特征很难用数学理论进行有效的建模,导致传统的运筹学方法难以奏效,经典的蓝彻斯特方程也主要适用于冷兵器时代的消耗型战争,随着现代化装备的发展逐渐淡出了历史舞台,专家系统在20世纪末21世纪初获得了极大的发展,代表性项目如美军的“高性能知识库(HPKB)”、“知识快速生成(RKF)”等,但最终都销声匿迹,猜测除了专家系统技术自身的问题以外,作战指挥领域的知识难以有效提炼也是根本原因之一.概率论的方法在威胁估计、效能评估等领域应用较多,经典的方法如贝叶斯网络等,但这些应用也大多数停留在理论层面,作战指挥领域突出的“小样本”特性使得概率论的方法失去了统计学的根基.
综合来看,传统的方法比较类似于人类学习过程中的中小学教育阶段,即灌输式教育.不论是运筹学、专家系统还是概率论的方法,都倾向于将人类的经验知识,通过“硬编码”的方式灌输给机器,但最终发现,这种教育方式很难培养出合格的“学生”.首先,人类能否把自己的经验知识说得很清楚、完备、一致、成体系,就是一个问题.“教科书”本身存在各种各样的错误、矛盾、缺漏,自然教不出合格的学生,尤其是那种“变通能力”较弱的学生.以专家系统为例,人类试图构建一套通用的、完备的知识体系来解决各种问题,是不太现实的,其次,按照灌输式的教育模式,机器的智力水平永远超不过人类,只能在运算速度、精度上取得优势.
21世纪初,在“深蓝”、“沃森” 等事件的推动下,作战指挥智能化获得了新一轮的发展,DARPA在其启发下,先后启动了“深绿(DG)”[10−11]、“指挥官虚拟参谋(CVS)”[12]等计划,期望机器不仅仅能为参谋人员提高效率,也能为指挥员增强认知和决策能力,然而,这些计划都以经费不足等原因被中止了,近几年,在“AlphaGo”[13]、“AlphaStar”[14]等事件的推动下,DARPA 又启动了“知识导向的推理模式(KAIROS)”、“机器常识(MCS)”、“SI3-CMD”、“Gamebreaker” 等项目,旨在探索将知识学习与推理、智能博弈等技术应用于军事领域,目标很可能是为解决战场认知、指挥决策等智能化难题打基础,国内也在这方面开展了大量探索,包括在装备建设领域开展了知识图谱构建研究[15−18],在智能兵棋领域开展了智能博弈技术研究[19−20]等.
新兴技术带来新希望的同时,也带来了新的挑战.一是小样本的挑战.知识图谱的自主学习构建是建立在大数据基础上的,军事方面只有情报处理、运维保障等领域存在大数据积累,而在作战指挥领域,态势研判报告、作战方案计划之类的数据由于保密原因,极少能够被记录下来,而战法规则之类的知识主要以文字形式记载在各类条令、教程之中,描述粒度过于宏观、抽象,很难为机器所理解,二是复杂性的挑战.游戏毕竟是游戏,与真实战争的复杂度不可同日而语.兵棋是相对贴近战争的游戏,但同时也做了大幅简化,目前在兵棋领域,智能博弈技术主要在营级规模能够战胜人类选手,再往高层级发展,就很难取得突破,此外,在单机或分队级空战领域,机器也能够战胜人类选手,但主要还是依靠机器的速度和精度优势取胜,并非真正在策略运用上胜过人类.三是高可靠性要求的挑战,可解释性是目前人工智能技术领域的一大难题,尤其是深度神经网络为主的智能算法,以智能博弈技术为例,指挥员需要的是行动前给出方案,而机器只能在行动中走一步看一步,给出的策略建议又不具备可解释的理由,没有指挥员敢冒这样的风险,同时机器又无法按照指挥员的作战思路去探索试错,只能自己从零开始摸索,期待有一天能超越人类,不能够给出足够的可靠性保障,同时又与指挥员构成了一种“替代”而“非协作”的关系,是这项技术难以走向实用化的主要原因.总体来看,新兴人工智能技术目前主要在情报处理方面应用较为广泛,而在作战指挥领域极少.
综合来看,新兴技术的方法有点类似于人类学习过程中的大学阶段,即自学式教育.通过提供足够丰富的数据资源,类似于“图书馆”,让机器完全自学;通过提供足够逼真的虚拟战场环境,类似于“社会实践”,让机器自己去探索发现,这种学习方式有其自身的优点,假以时日,有望超过人类,但这种学习方式对“智商” 要求极高,对“经历” 要求极丰富,目前的人工智能水平还难以胜任.
其实在人类的学习过程中,除了中小学和大学教育外,还有一种重要的教学模式,即学徒式教育,就是导师带徒弟,边做边学.这种教育模式主要出现在毕业之后的工作过程中,并且,这种教育模式相比中小学的灌输式教育和大学的自学式教育而言,都更有效率.尤其在将新人引进门,让其快速上手方面,这种教育模式是最常用的,那么这种教育模式能否用在作战指挥领域呢?以下仍从知识学习、博弈学习两条技术路线入手,探索这方面的可能性.
如前所述,专家系统在作战指挥领域难以应用的一个重要原因,是知识难以有效提炼,让指挥员准确在知识体系中描述出来,是一件非常困难的事情.再有经验的指挥员,也只能说一些宏观的、抽象的概念,很难落实到具体的应用中,然而,针对一个特定的任务场景,结合一个特定的战场情况,几乎任何一个指挥员都可以说出他为什么会做出这样的判断或决策,会将他是如何考虑的过程分析得头头是道,因为这是一个具体的问题,一旦结合具体问题,事情的分析过程就会简单、明了,其中用到的知识也比较容易描述成具体的规则.
这一类知识不同于专家系统中通用的、完备的知识体系,而是一些针对具体问题具体分析的知识片段,不妨称之为“具体问题知识”,具体问题知识在一个较小的范围内是可以提炼成通用知识的,例如指挥员可能会说“我设计这种打法是因为···,只要是符合这些条件,这种打法都适用,但如果··· 几个条件不满足,或出现···等情况,可能就不适用了,”大部分具体问题知识都可以泛化成一个模板,在小范围内具有通用性,但是,如果没有这样的任务背景,要让指挥员提炼出这样的知识,是极其困难的.
另一方面,因为缺乏巨量数据积累导致知识自主学习的方式难以实用化的问题,也可以通过具体问题知识的采集积累来解决,虽然处于和平时期,但军方平时也在不停地开展各种演习训练,如果能够在指挥信息系统中嵌入一种知识采集模块,利用当下发展较快的人机对话技术,或许能够像“徒弟”问“师傅”那样,一边观看指挥员处理具体任务的过程,一边主动向指挥员询问其分析推理的思路,就有可能将他在处理这个具体问题时的知识推理过程采集记录下来,虽然这样做有可能会在一定程度上干扰指挥员的思维过程,影响他的工作,但采集下来的知识是弥足珍贵的,此外,技术人员因为保密原因难以观看到指挥员的真实作业过程,而机器“徒弟”则少了这方面的顾虑,采集知识会更加便利.
积累具体问题知识,一个难点在于如何最大限度地降低对指挥员的干扰,同时又能够尽可能多地采集知识,例如,系统可以在指挥员忙的时候选择静默,将指挥员的操作完整地记录下来,等到指挥员闲暇的时候再向其询问,这时候“师徒” 间的交流就会成为一种轻松的闲聊,利用谷歌Siri、微软“小冰”、“小娜”中使用的技术,机器可以学会各种话术,在指挥员不厌烦的情况下把知识“套”出来,例如:
机器:“打扰您一下!您刚才做出了打击敌方XX目标的决定,请问您是如何考虑的?”
指挥员:“很简单,现在敌方明显是想要···.”
机器:“您怎么看出来的?”
指挥员:“你看他派出的兵力···,还有它的队形···,一般这种情况下他都是想要···,而我刚才下达···的指令,就是要通过···,让他的计划化为泡影.”
机器:“我能否理解为:只要对手采用了这种兵力构成和队形,就代表它想采取这种战法,作为应对,我方就应该采取您刚才的那些行动?”
指挥员“不是的,你还要考虑···.”
通过这种多轮对话,能够逐渐引导指挥员将他的知识表达清楚,在积累具体问题知识的同时,也在完善指挥员自身的知识构成,引发其更深入的思考.
实现具体问题知识的积累,涉及到诸多关键技术需要研究,例如人机对话、个性学习、场景建模、知识抽取、知识模板提炼等,在此基础上,机器在采集大量具体问题知识之后,能否像人一样从中提炼出共性的知识,建立更大范围内通用的知识模板,从而以一种自底向上的方式逐渐提炼出一套知识体系,也是一个探索的方向.这其中还涉及到知识关联、知识融合等方面的关键技术需要研究.
如前所述,智能博弈技术难以应用于作战指挥决策领域,一个重要原因在于真实作战的高复杂度.从“深蓝”的穷举式暴力搜索,到“AlphaGo”的深度强化学习引导下的蒙特卡洛树搜索,搜索方法出现了本质区别,因此胜任的复杂度也出现了指数级增长,但归根结底,它们用的都是搜索的方法,只是后者的搜索相对“聪明”一些,是有导向性的搜索,其建立这种导向性模型的方法是深度强化学习,作战指挥相比围棋和星际争霸而言,复杂度又出现了指数级增长,尤其在战役级以上,纯靠深度强化学习的方式建立导向性模型的难度太大.
另一个问题,是智能博弈训练出来的AI,如何与指挥员共存、共生、共同协作.深度强化学习+蒙特卡洛树搜索给出的结果,可作为一个参考,但无法将其分析过程解剖出来让指挥员理解,只能用人机对抗的胜率证明其结果的最优性,不具备充分的说服力,而指挥员的思路又无法加入到机器搜索的过程中去,机器只相信自己学习建立的导向性模型,例如指挥员说:“这场仗我觉得该这么打:先派个小股力量引诱他的主力部队跑到这里,立即开干扰致盲,利用这个短暂的契机,我方先头部队···去打掉它的那几个后援,对它形成包围,然后再全力出击···,但是具体多少兵力够用、打击阵位设在哪里最好、什么时机最适合动手,你帮我探索一下,” 但是目前的智能博弈技术做不到这一点,现有的仿真系统可以支持用户设定一些参数,进行蒙特卡洛式仿真,但其行动计划是固定的,一旦情况变化,机器仍会按照预定计划行动,无法做到灵活应变.
针对上述问题,一种解决方案就是混合智能博弈学习,首先,是让机器接受指挥员的指导,指挥员都是接受过专业训练的,对于“这场仗该怎么打”有他自己的思考,对于机器而言,这种思考也可以认为是一种具体问题知识,但是指挥员的思考通常是比较宏观的、整体性的行动策略,通常不会考虑到每一个细节,除了非常关键的行动外,指挥员通常对细节不会做过多的限定,从人机共生的角度,最好能让机器遵循指挥员设计的行动策略;从机器自主探索试错的角度,指挥员设计的行动策略恰好为其限定了搜索空间,如同一个框架,避免了其漫无目的的搜索;而从指挥员的角度,细节问题恰恰不是他最关心的,同时又是机器探索试错最擅长的,指挥员完全可以放手让机器去试.
在指挥员行动策略框架的指导下,机器通过深度强化学习+蒙特卡洛树搜索的方式进行局部范围的自主探索试错,可以帮助指挥员确定一些细节的最佳设定,比如执行诱敌战术的最佳兵力构成、最佳出动时机、最佳阵位设置等,从而将指挥员设计的战术效果发挥到极致,通过集成经强化学习训练的战术层智能算法,可以让机器具备一些基本的应变能力,能够像士兵一样应对各种变化,通过大量探索试错的统计数据分析,机器还可以告诉指挥员为什么这些设置是最佳的,它们对胜率、收益、代价、风险等性能是如何起到提升作用的,从而让指挥员相信机器的建议.
这是将指挥员的艺术与机器的算力相结合的一种可能途径,能够形成优势互补,同时也能拉近指挥员和机器之间的距离,指挥员的行动策略框架对机器而言是一种可供学习的具体问题知识,而机器通过探索试错发现的最佳细节设定,对指挥员而言也是一种宝贵经验,在指挥员与机器的长期磨合中,他们之间相互学习、相互提升,形成人机共生、共成长.
以上提出的是一种人机协作式的博弈对抗探索模式,要实现这种模式,涉及到诸多关键技术需要研究.例如,指挥员行动策略框架如何形式化表征建模,机器如何在策略框架限定范围内开展自主探索试错,如何基于海量探索推演样本数据对方案的效能进行可视化分析,以及如何实现人与机器在共同的探索中互相学习等.
基于对传统方法和新兴技术在发展指挥智能化方面的优缺点分析,借鉴人类学习过程中常见的学习方式,提出基于混合智能的“学徒式教育”模式,并从知识学习、博弈学习两条技术路线,分别提出了混合智能学习的思路,指出了其中需要研究突破的关键技术,作为当下一段时间内“培育”作战指挥智能的一种可行途径,具有一定参考意义.