谭玉玺,王洪军,侯 俊
(陆军指挥学院,江苏 南京 210045)
随着人工智能、无人化等技术的创新发展及在作战中的逐步运用,如何适应未来智能化战争需要,对现代指挥方式和指挥手段进行建模,成为新时期陆军作战仿真领域的一项重要任务,也是对当前我军军事斗争准备提出的一项十分紧迫的要求。探寻陆军作战指挥决策活动内在的规律性,深化对陆军作战指挥决策活动的认识,运用新技术研究构建陆军作战指挥决策模型,是实现“逼真”陆军作战仿真系统的先决条件,也是各国军队模拟系统发展至今的热点问题[1]。
目前基于Agent等理论的智能决策系统研究很多,但能解决陆军复杂作战的智能指挥决策模型还比较少[2-5]。本文面向新条件下对陆军作战仿真系统的功能需求,基于系统建模理论和人工智能理论,运用组件化建模方法,研究陆军作战指挥决策模型构建,并考虑了指挥员个性对指挥决策的影响,解决了陆军作战仿真系统“人不在回路”模式下的指挥决策问题。
指挥决策模型的构建,主要解决以下三个方面问题。
1)如何建立一个仿真系统,可以在没有用户干预的情况下保证系统运行的准确性、真实性。这就需要对战场情况即战场态势进行准确、真实地描述,并考虑相关的大规模军事行动、领导艺术、文化背景等信息。
2)如何将指挥规则、指挥规则集应用于多变的军事行动中,根据战场态势选择合理的作战行动,包括规则的建立、规则集的建立、行动选择器的构建。
3)如何根据指挥员的个性特点构建指挥员性格模型,指挥员性格模型如何影响行动选择。
为了解决上述三个方面问题,指挥决策模型总体设计如图1所示。
图1 指挥决策模型总体设计
图1展示了指挥决策模型通过任务、敌情、我情和战场环境等信息对态势进行评估,基于规则集对陆军作战行动进行决策。任务通常由上级单位制定,并通过命令或指令形式下达。我情信息可以直接由上级指定,实时变化的状态通过收集获取,并由决策模型进行解释说明。敌情和战场环境信息是不确定的,通过情报感知获取,对它们的感知有可能是不完全的、延迟的,或是不正确的。最终,通过行动选择器的预测能力,选择行动方案。指挥员性格模型根据指挥员的个性影响决策模型对行动的选择。
规则集(知识库)是指挥决策的基础[6]。规则的构建采用“事件(条件)+行动”的方法,即首先将各种作战行动的执行过程划分为若干阶段,阶段之间的过渡点为事件发生点,任务执行的异常也作为事件输入。目前可将条件分为四类:时间条件、空间条件、情报条件、情况条件。各个条件可以单独作为决策触发因素,也可以通过逻辑组合模式进行构建,完成复杂决策条件(规则)制定。
1)时间条件。描述作战过程中以时间为条件的决策点,解决“在什么时间干什么事”的问题,类似于计划行动。
2)空间条件。描述在作战过程中以指定空间区域中双方兵力情况为条件的决策点,解决“根据所关注区域情况,决定干什么事”的问题。
3)情报条件。描述在作战过程中以本方上、下级及友邻单位产生的情报信息为条件的决策,解决“根据决策者接收情报,决定干什么事”的问题。
4)情况条件。描述在作战过程中以敌我作战单位作战状态变化为条件的决策,解决“根据关注单位状况,决定干什么事”的问题。
规则集的构建是通过将行动划分为正常事件(条件)和异常事件(条件),每个事件都按照优先级注明了几种指挥规则。通过采用这种方式,可以构建军事人员直接维护的规则集。
行动选择器是决策模型的核心。指挥决策模型使用行动选择器来决定作战过程中的行动,进而完成作战任务。行动选择器在对实时战场态势进行判读的基础上工作,包括对自身态势的了解和对敌方态势的感知与理解。态势的属性主要包括兵力规模,初始补给水平、补给消耗、再补给率,机动性,方向,位置,单位的纵深和正面宽度,战场地理环境等。
行动选择器获取初始态势,并为敌我双方选择一个默认的作战行动,例如攻击、防守、撤退等。我们可以把敌我的行动和态势的细节信息用一个类似博弈的“棋盘”进行描述。决策模型在一个规定的时间段内,通过博弈“棋盘”推演完成每一个交战活动,直到“棋盘”上的一个单位已经达到了它的目标。决策模型选择不同的行动在“棋盘”上推演交战过程,经过一定的裁决周期,对敌我双方的毁伤进行裁决。
不同行动的选择有不同的优先级,这些优先级的确定可以基于不同的因素如双方战损、与目标的距离以及可用的补给等。优先级的大小依赖于决策模型使用的计算方法的类型。可选的有:最大增益计算法,它将选择最可能导致最好效果的行动;最小损失计算法,选择避免最大损失的行动;最大期望计算方法,它权衡所有相对可能的结果,计算出能够产生最好结果的行动。每一种计算方法基于指挥的规则集进行选择。当一方选择了作战行动,并且对手也选择了相应的行动,这样我们就可以用一个博弈“棋盘”描述作战双方一系列行动的组合过程,推演出每一方的行动计划。
例如:两个作战实力相当的敌我单位,他们都有一个占领的任务,他们离自己要占领目标的距离相同。这两个单位之间唯一的不同是我方作战力量的机动速度是对手的两倍,如图2所示。
图2 行动选择示例,初始态势
推演的第一个回合,我方单位(红方)和敌方单位(蓝方)都在朝着目标机动。由于我方单位机动速度快,第一回合推演结束时,我方单位就到达了目标,此时已经过去了12小时(推演周期)。敌方力量在第二次机动时才到达目标,这时已经过去了24小时,如图3所示。
图3 行动选择示例,24小时态势
敌我双方的战斗力毁伤计算如下:
dF/dt=-Ke*α/t/u*E
dE/dt=-Kf*β/t/u*F
其中,F、E分别为我方和敌方的战斗力,Kf、Ke分别为我方和敌方的杀伤力,α、β分别为地形等对敌我双方杀伤力的修正值,t、u分别为单位时间和单位战斗力。
当我方单位先到达目标后,所属部队在交战地域完成了防守部署,由于占据了有利地形,交战时将拥有优势。当敌方单位意识到这样下去所属作战力量将很快消耗殆尽时,敌方单位开始撤退。我方在机动速度上的优势(或者是在初始位置上的优势)将使其先到达目的地,因而,首先进行防御部署,在交战中就会获得有利条件,所以,在交战过程中敌方单位将会首先丧失战斗力,并被迫撤退,如图4所示。在拥有相同感知能力的前提下,敌方单位选择这一行动是不太可能的。
图4 行动选择示例,96小时态势
兵法云“知己知彼,百战不殆”,行动选择器中,每一个指挥员相当于一个智能体,都拥有一个模拟对手如何认知他的模型。如图5所示。当一个指挥员通过其态势评估规则进行一次态势评估时,自己的思维中会建立多个博弈“棋盘”,每一个“棋盘”对应一个根据敌我双方态势做出反应而形成的对峙。我们称之为指挥员的感知“棋盘”,这些“棋盘”通过敌方态势评估规则发送给对手的“棋盘”。使用哪一个规则集,取决于指挥员认为谁是自己的对手。指挥员关于敌方的经验(知识)越丰富,这种判断做得越准确。对于每一个指挥员的感知“棋盘”,会有多个“棋盘”按照敌方感知态势的判断规则来创建。它们所表达的是对手可能会做出的判断。我们称它们为对手的感知“棋盘”。
图5 行动选择树的创建
每一个指挥员的感知“棋盘”通过应对规则发送给敌方,敌方每一个针对我方的感知“棋盘”通过敌方应对规则模型发送给我方。这些感知“棋盘”的每一个组合都要在行动选择树父节点的感知“棋盘”上列出,并且这些子节点将成为树的下一级。一层中获胜的“棋盘”成为下一个层次“棋盘”的起始状态,在下一个层次中它将按照敌方的感知规则被再一次发送给敌方。
指挥员性格模型描述了一个特定指挥员的指挥特点对决策模型的影响,通过对指挥员性格特点的描述,把个人特性与对各种军事问题的态度、处理方法和结果评估联系起来,最终影响指挥决策结果。该模型把指挥员的性格和个性根据他们的习惯和处事方式分为不同等级。可以用4对相反的数据对个性进行描述。分别是性格的内向与外向、处理事情靠直觉与靠实感、决策靠思维与靠感情、做事有规划与无规划。
例如,5名指挥员记为x1~x5,论域:
U={x1,x2,x3,x4,x5}
分别对这5名指挥员的性格内向程度打分,按百分制给分,再都除以100,指挥员的内向程度得分将是0到1的某个数,这就给出了U到[0,1]闭区间的映射,这样就确定了一个模糊子集A,它表示指挥员对“性格内向”这个模糊概念的符合程度[7]。这些不同的取值并不代表好或不好,只是不同。如果每一组之中选择一个的话,4组数据确定了16种可能的类型。这16种个性类型可以用来描述各指挥员之间的差异性。对抗双方指挥员按照4个轴取值的结果输入指挥员行为模型中,并将这些个性转化为对相关战场态势的态度,这些态度被规范化成为适当的概率值,影响行动的选择。
当指挥员行为模型激活时,行动选择器的行动选择将有可能发生偏离,就不会单纯依靠“最大期望值”的标准进行选择。例如,一个理性的指挥员,他的态度是作战中使己方伤亡最小,那么他的性格模型将会影响行动选择器寻求最为稳妥的解决方案。
本文提出的陆军作战指挥决策仿真模型,构建了一个行动选择器,用来选择许多由指挥员和假定的敌方指挥员产生的行动结果,并通过一个简单聚合的“棋盘”来描述指挥员的博弈模型,该“棋盘”像下棋一样描述了指挥员之间的对抗思维过程。
同时,遵循指挥员的个性构建指挥员性格模型,按照4种不同的性格数据进行量化,并直接影响决策模型行动选择的结果。
通过本文的研究,构建的指挥决策模型将有助于国内陆军作战仿真系统的研制与开发,具有较强的借鉴意义与参考价值。