一种作战模拟训练效能自动评估方法

2020-06-28 07:47刘金梅
火力与指挥控制 2020年5期
关键词:模拟训练主观效能

徐 刚,刘金梅

(空军勤务学院作战保障实验与模拟训练中心,江苏 徐州 221000)

0 引言

未来战争将是信息化条件下的一体化联合作战,是体系对抗,作战样式、作战协同越来越复杂[1]。战训一致要求背景下,模拟训练将由单纯的操作技能训练向联合对抗转变,由单兵种模拟训练到多军兵种合成作战对抗模拟训练转变[2],使作战模拟训练内容和组织实施变得越来越复杂。这对作战模拟训练高效、准确评估提出了更高要求,促使自动评估将成为作战模拟训练效能评估主要发展方向之一。

作战模拟训练评估是运用系统分析的方法,对影响作战模拟训练的因素进行分析,揭示这些因素和训练效果之间的关系,进而对作战模拟训练的全部构成要素进行评价与评估,寻求获得最佳训练效能的方法[3]。因为训练科目目的和任务不同,评估既可以对单个个体岗位能力评价,如文献[4]对导弹射手使用的便携式防空导弹装备模拟训练的成绩评定,和文献[5]的指挥员作战指挥能力模拟训练的成绩评估,也可以对分队、团队或群体协同作战质量评价,如文献[6]对陆军机械化步兵团的对抗模拟训练的成绩评定。无论是个体能力评定还是群体训练效能评估,都首先依据考核评估的指标体系标准评定,但其评估体系有可能会部分依赖主观指标,如文献[5]的“作战方案的合理性”、文献[6]的“实施阶段的顺畅性、战斗配置合理性”等。这使得客观与主观评定交织在一起,当主观评定凭借评估专家经验打分时,组织实施评定需要动用大量人员(导调、领域专家、组织者等),势必给组织施训的筹措、调配、评价环节带来一定工作量和复杂性,存在训练效能反馈不及时、前后衔接不顺畅等问题。为了实现作战模拟训练效能自动评估,本文引入人工智能的机器学习技术作为解决自动评估的途径,从重新构建客观指标体系和评估模型上着眼,用基于训练集评分数据而构建的统计模型为新的评估指标进行效果自动评分。

1 模拟训练效能自动评估方法原理

若想实现作战模拟训练效能评估的自动化,需要满足3 个方面的要求:一是评估体系指标可以量化,二是指标数据能够自动获取,三是评估(数学)模型能够自动计算成绩。其中指标自动量化是作战模拟训练效能自动评估的基础和前提。例如文献[7]是典型模拟训练自动评估应用,它根据飞行训练中记录的飞行参数,按照评分标准自动对飞行员的飞行品质进行评估,其中评估体系指标都能量化,如“飞机位置、速度、姿态、态角速度、航向角、迎角”等,这些指标数据利用飞参识别系统自动采集,并通过对比飞行姿态标准,按照不同偏差大小进行自动成绩评估。

对于“难于量化、不可量化”的指标,文献[8]通过找到可量化特征数据或根据评判规则,借助隶属度函数对指标量化处理,比如它的难以量化指标“规避过程”通过“航向与航速的幅度变化数据”确定隶属度值,不能量化的指标“号灯号型显示”通过“避碰规则”的相关条款确定隶属度值,实现对指标的评分。但一旦找不到可量化特征数据或评判规则时需要借助主观评定,如同一船舶模拟训练内容,文献[9]中的“船舶操纵熟练程度及合理性”需要通过培训教员进行主观评价。对于难以量化的主观指标量化问题研究方面,在其他领域有相关解决方法,比如学生作文自动批改,针对学生作文教师评阅存在任务重、效率低、反馈不及时、主观性强等诸多问题,国内外对作文尤其英语作文自动评估进行了相关研究,比较先进的“IntelliMet-ricTM、Holt Online Essay Scoring”英语作文自动评分系统[10],通过挖掘作文特征指标(遣词造句、内容体裁、语体语法等),并将训练集作文而构建的评估模型用来为新的作文进行自动评分,其本质是利用人工智能技术“学习”教师评阅作文经验。

基于作文自动评估系统的启示,利用机器学习技术解决一些最优化问题,其目标是训练模型的参数使得该模型能够拟合数据样本。在作战模拟训练效能评估中,希望通过挖掘可量化客观指标替换掉原指标体系的主观指标,构建一个与原指标体系近似的客观可度量的指标体系,但又期望指标的选择、替换操作尽可能地避免较大的信息损失,那么这种操作可以根据指标之间的线性相关性判断:对于任意两个高度线性相关的指标,可以用一个指标表示另一个指标,其综合评定误差与两个指标的线性相关系数有关,尤其共线指标,两个指标可以相互表示,不会影响综合评定结果,证明如下:

设评估指标集UA={a1,a2,…,an}有n 个指标,每个指标有m 个无量纲评估数据,即ai={ai1,ai2,…,aim}(i=1,2,…,n),于是得到指标体系的评估数据矩阵A=(aij)n×m,设指标体系的评估模型为:

根据最小二乘法[11],求参数偏导,并偏导为0,不难推导出为:

又由于指标x、y 线性相关系数为:

因此,希望重新构建一个评估模型减小评定误差,并能适用新的指标体系,那么构建模型的过程实质是对原评定结果数据预测或回归的过程,即构建的新回归模型或预测模型能够在新指标体系下有效减少误差,而且不再依赖主观经验评定,实现模拟训练效能自动评定。

2 方法的步骤

根据上述原理,若想实现作战模拟训练效能自动评定,关键是构建新的评估体系和新的评估模型,要求新的评估体系指标不再依赖主观评定,新的评估模型能够准确预测原训练成绩。具体实现步骤为:

2.1 分析与构建新的评估指标体系

分析原指标数据样本之间线性相关性,以及挖掘外部特征数据与指标体系线性相关性,依据选择、替换特征指标原理,并根据需要设定ρxy阈值,构建与原指标体系近似的指标体系,使每一项指标成绩不再依赖专家或考官评定,且容易采集或获取;但若替换指标较多和相关系数ρxy阈值设置较小时,很可能导致新的评估体系不能正确评定成绩,因此,新的指标体系是否有效,还要根据最终模型实验测试效果,在不满足精度要求下需要重新修订评估指标体系。

2.2 基于机器学习技术构建新的效能评定模型

当在原评估模型不再适用的情况下,可以考虑基于机器学习技术构建新的成绩评定模型,如多项式模型、决策回归树和BP 神经网络等,当通用机器学习模型或算法不满足要求时,可以根据数据形态构建专用评估模型。

2.3 测试评估模型的有效性

通过实验测试,判断效果是否满足评定精度,其有效程度可以依据拟合优度R2判断,如表达式(6),考察模型在新的指标体系下是否能有效判定模拟训练效能,最后将有效的评估模型应用于作战模拟训练效能自动评估。

3 方法应用实例及效果

3.1 实例概述

以某装备技术保障模拟训练效能评估为例,保障活动是以保障分队为单位,成员间实施协同作业,保障人员在不熟练掌握装备技术规范情况下不能进行保障活动,需要先单兵学习、训练,后进行分队训练及效能评估。对于单兵训练,主要侧重个人的技能训练,掌握和熟练操作规范流程,对于分队训练,主要训练成员间协同配合,发挥最大装备技术保障效能。对于单兵模拟训练效能评估比较简单,通过模拟训练系统对单兵保障流程正误自动判断,累加正确步骤分值计算评定结果。而对于分队装备保障模拟训练效能评估,相对于单兵模拟训练要考虑较多评估因素,如:人员配置合理性、组织指挥能力、分队协同作业能力等。由于多数评估指标借助专家和考官主观评定,主观评定结果靠手工录入系统,最终综合评估结果通过“加权和”[3]计算,即:

式(12)中的Z 表示分队模拟训练的综合评估结果,xi表示指标成绩,ωi表示该指标对应的权重。实施训练时,以分布式模拟训练系统作为训练手段,如图1所示。

图1 某装备技术保障模拟训练系统部分界面

图1(a)是训练成员扮演各个角色使用的客户端,图1(b)是指挥员使用的服务端,协同客户端角色完成作业,并将协同技术保障活动状态投影到考官演练大厅屏幕上进行评估,最后主观评价成绩录入系统,综合评估效能按式(12)由软件系统计算,图2 所示是各个分队模拟训练综合计算记录。

图2 模拟训练综合评估结果

从评估结果抽取5 条记录,如表1 所示(百分制):

在表1 中第1 行表示评估指标项,“指标项”下面“数字”表示该指标的权重值,其中“完成时间(分钟)”虽然不纳入综合评分计算,但用于考官主观评估的参考数据。“人员配置”指标结果按照表2 配置数据主观评估:

表1 综合评估结果的5 条记录

表2 人员配置评估的5 条记录

“人员配置”由学员在模拟训练开始前登陆系统选择“角色”自动生成,其数量由分队成员事先计划安排好,可以看成客观数据,而评价结果由考官依据经验和训练标准要求确定。另外,值得注意的是模拟训练也有检验和研究战法、训法的效用[3],在参考训练标准同时考虑了实际情况,比如在表2中第3、4 条记录“指挥员”兼顾了“电脑操作员”角色,节省了人员配置数量和提高了指挥员信息能力素质,得到了考官认可,而第2 条记录试图用“操作手”兼顾“安全员”角色,却没被考官认可。

总之,上述对装备技术保障分队模拟训练评价过程有诸多主观评价,实施训练评估效率低,导调过程复杂,模拟训练没有充分发挥计算机技术自动化优势。

3.2 分析与重构近似评估指标体系

该模拟训练评估指标体系如图3 所示。

图3 保障分队模拟训练效能评估指标层级结构图

在图3 的评估指标体系中,大部分指标需要借助专家经验主观打分,只有少部分指标能够客观评定。各个指标权重系数由考评专家给出,也可采用层次分析法[3,13]来确定,其中主观指标评定根据专家或考官经验打分,逐渐形成一定规模的模拟训练成绩样本空间,作为后期预测模型的拟合数据。其中“保障方案合理性”在科目给定情况下装备数量已经确定,“装备数量合理性”在此例中不作评价。另外,通过查看“完成任务时间”与评估体系指标关系,确实发现与个别指标有较强的线性关系,如图4(a)“完成任务时间”与“作业协同性”散点分布关系,而与有些指标线性相关关系就不大,如图4(b)“完成任务时间”与“操作步骤正确率”散点分布关系。

图4 完成任务时间-指标数据关系散点分布

根据式(8)分别计算指标间ρxy绝对值,其线性相关系数分布情况如图5 所示:

图5 指标数据的相关系数分布

图5 中的坐标数字代表:0:完成任务时间、1:人员配置、2:指挥时机、3:资源调度、4:作业协同性、5:作业流程性、6:步骤正确率;不难发现,相关系数|ρ23| 和|ρ45| 值基本接近1,而且|ρ02|、|ρ03|、|ρ04|和|ρ05| 数值在0.85 左右,明显高于|ρ01|=0.76 和|ρ06|=0.68,其中“2、3、4、5”指标与“0”存在较大程度线性相关性。根据上节的原理,若取|ρxy|>0.8 作为选择或替换特征指标标准,那么主观特征指标相关系数符合条件从大到小顺序为|ρ23|、|ρ45|、|ρ12|或|ρ13|,从中可筛选指标特征有a1、a3和a4。又由于客观特征指标“完成任务时间a0”与“人员调配a3和作业协同性a4”也有较强的相关性,即|ρ03|、|ρ04|>0.8,因此,可用a0替换a3和a4。综上分析,根据指标间的线性相关系数,重新构建近似可量化的指标体系如下页图6 所示。

图6 保障分队模拟训练近似评估体系

在图6 中,“保障方案合理性”成绩可以通过客观数据“资源配置数量”回归或预测评定,“指挥时机、资源调度、作业协同性和作业流程性”主观指标被外部客观特征指标“完成任务时间”替换,形成近似的评估指标体系,其指标数据能够通过模拟训练系统客观获取和度量。

3.3 重构效能评估计算模型和算法

重新构建评估指标体系后,新指标体系是原评估指标体系的近似,产生一定误差,指标数据已经不适合在原评估模型直接引用,如“完成任务时间”指标,为了减小误差和提高评估模型适应性,需要重新构建计算模型和算法。

为了减小评估模型误差,选择梯度渐进回归树(Gradient Boosting Regression Trees,GBRT)[14]作为综合效能预测模型,GBRT 是一种常见且有效的集成学习技术,具有模型预测精度高、运行速度快、模型的解释性较强等特点,对于噪声数据具有很好的鲁棒性。具体实现步骤为:

设训练数据集S= {(x1,y1),(x2,y2),…,(xN,yN)},设定损失函数L(y,f(x)),设定回归树的最大深度为D。

1)首先初始化,根据式(13)估计一个使损失函数最小化的常数值c,此时它只有一个节点的回归树。

2)迭代建立M 棵回归树,即m=1,2,…,M

对于i=1,2,…,N 样本,根据式(14)计算损失函数的负梯度在当前模型的值,并将它作为残差的估计值。

利用线性搜索求得模型的权重βm,使损失函数最小化:

根据式(16)对模型进行更新,其中α 是更新步长(或学习率)。

3)迭代结束,输出最终模型:

根据以上过程,总结得到的模拟训练自动评估流程如图7 所示:

图7 模拟训练自动评估算法流程

3.4 自动评估效果

从装备保障分队模拟训练某科目评分数据库中抽取80 个样本,分成两组,其中一组60 个样本作为训练集,另一组20 个样本作为测试集,自动评估效果如下:

首先将评分指标“人员配置合理性、装备数量合理性、完成任务时间、操作步骤正确率、装备操作规范性”无量纲数据作为GBRT 模型输入集合。然后通过枚举办法,对60 个样本数据进行交叉验证,选择最优组合参数。比如,根据经验选取最有可能较优参数,回归树深度D= {2,3,5}、步长α={0.05,0.1,0.5,1}和M={30,50,80,200},通过遍历所有组合,如参数组合{D=5,α=1,M=100},计算各个组合参数的模型拟合优度,找出最大拟合优度值对应的组合参数,经过算法步骤计算,得到最优参数为:D=3,α=0.05,M=80。

接下来对60 个样本进行GBRT 模型训练,训练后模型对测试集20 个成绩样本测试,迭代精度采用均方根误差衡量,如式(19):

图8 迭代过程中的分数预测误差变化

在图8 中,虽然训练集RMSE 误差在迭代80次时还有继续下降趋势,但已经不十分明显,而且测试集RMSE 误差很接近训练集误差,说明训练集RMSE 误差的降低没有发生过拟合而导致预测值不准确现象。同时绘制测试集分数预测散点分布图,如图9 所示。

图9 实际成绩和预测成绩散点分布

图9 直观描述了实际评估分数与GBRT 模型计算分数误差距离情况,两个综合成绩分数多数基本接近;根据式(6)计算拟合优度R2=0.967,此时结果显示模型计算精度能够满足模拟训练自动评定需求。

3.5 自动评估模型的可靠性实验与测试

由于样本空间不同,使训练自动评估结果准确程度会有差别,因此,为了考察评估模型是否足够稳定在较精准水平,还需要进一步实验和测试。这里采用交叉验证方式考察模型的稳定性,将抽取的80 个样本平均分成4 等份(每20 个样本1 份),其中一份20 个样本作为交叉验证集,其他样本作为交叉训练集,那么就有4 组测试结果,然后对80 个样本重新“洗牌”,再进行交叉验证,这样重复50 次实验,形成200 个测试结果,交叉验证集拟合优度值,如图10 所示。

图10 模型的可靠性实验与测试

在图8 中,平均交叉验证集拟合优度值为0.952(图10 虚线所示),最大拟合优度值为0.985,最小拟合优度值为0.861,标准差为0.021 4,计算变异系数(标准差/均值)为0.022 5,有2.25%发生变异,即约有2.25%几率效果不理想,绝大多数情况是以很小方差稳定在较高预测精度附近。因此,可以认为参数为{D=3,α=0.05,M=80}的GBRT 自动评估模型在此例中是可靠有效的。

4 结论

效能评估是作战模拟训练的一个重要内容,尤其在复杂作战模拟训练中,它的高效利用可以确保训练实施环节的前后衔接顺畅,及时反馈作战训练效果和受训人员能力水平。为了实现作战模拟训练效能评估自动化,将人工智能的机器学习技术作为解决自动评估的途径,其核心方法是利用算法模型“学习”(拟合)主观经验数据,形成智能评估环境,无需再依靠主观实施效能评定,达到自动评估的目的。本研究通过详细实例给出方法的步骤、原理和相关算法,通过实验与测试证明了研究方法的可行性和有效性,为作战模拟训练效能自动评估提供了可行思路。

猜你喜欢
模拟训练主观效能
立足优化设计提高作业效能
提升水域救援装备应用效能的思考
基于排队论的信息系统装备维修保障效能分析
加一点儿主观感受的调料
后印象
挣多少钱,才可以买到快乐
模拟训练(二)
模拟训练(十一)
模拟训练(十)
对立与存在