赵 辰 王寿鹏,2 梁甲慧
(1.国防大学联合作战学院 石家庄 050084)(2.陆军勤务学院 重庆 401331)
演训数据作为对演训活动实时态势的描述,完整地记录了演训活动的全过程、全要素、全流程,不仅可用于复现演训过程,在经过数据分析和挖掘后生成提炼的作战行动标准和认知数据,还可为检验认证方案计划、装备效能、人员能力和水平提供决策依据[1]。关联挖掘是利用数据挖掘的思想,在不同种类的海量数据中发现有关联性的、有价值但不明显的有效信息,这种从数据中挖掘提取信息的过程就是在进行一种探索性的数据分析[2]。在装甲分队演训中进行嵌入式数据采集,能够在实装上生成数量庞大、丰富多元的演训数据。对这些数据,需要使用科学的方法加以挖掘分析,以定量描述和定性描述结合的方式反映作战行动的质量[3],达到对演训效果的准确评估。
数据挖掘涉及数据库技术、机器学习、统计学、高性能计算、神经网络、模式识别、数据可视化、信息检索等多学科的技术集成[4]。其最常用的分析方法主要包括分类、聚类、回归分析、关联规则挖掘和数据特征分析等[5]。其中,利用关联规则对数据进行挖掘是发现其隐含的有用内容的重要手段。
关联挖掘前,通常需要在对数据探索性分析[6]的基础上进行清洗,从而为数据分析和构建模型做准备[7]。主要是对缺失值、异常值(离群点)、重复值以及噪音数据的处理。
单变量分析是关联挖掘的基础,其目的是对变量分布的特征和规律进行刻画和描述。1)单变量描述统计,主要是用最简单的概括去反映大量数据中的基本信息,可以确定频数、频率分布,从而进行集中趋势、离散趋势分析。2)单变量推论统计,主要是通样本的数据资料对总体的参数值进行推断。主要从区间估计和假设检验两个方向进行。
进行多变量分析要在单变量分析的基础上,主要目的是查找相同类别变量之间的关联。常用的方法有聚类分析[8]、回归分析、判别分析[9~10]、主成分分析[11]等。
关联分析是在大量数据集中去发现有关联性或相关性的数据,从而描述事物中不同属性之间联系的规律和模式。Apriori算法和FP-Tree算都是较为经典的关联挖掘算法,其核心思想是通过迭代生成频繁项集。当前,已经有很多工具包集成了各种分析功能,可以进行大数据环境中的关联分析,如Mahout工具包可实现分类、聚类、关联挖掘、回归等操作。
演训数据关联挖掘流程如图1所示,分为数据采集、数据预处理、判别分析、关联规则挖掘、可视化动态展示、形成结论六个步骤。
图1 演训数据关联挖掘流程图
演训数据一般分为基础数据、人工采集数据和传感器采集数据。随着我军信息化条件下实战化训练的深入开展,各级部队“靠数据打仗”“用数据说话”意识逐渐增强,各种数据资源渐趋丰富。这些数据具有不同类别属性、层次结构、互相之间存在复杂的映射、计算关系,这就导致了数据的数量和类型大大增加。因此,应遵循实用性、高效性、完备性、安全性的原则进行采集。
受战场环境、仪器精度等客观原因影响,采集到的数据具有结构不统一、无效数据多、能够直接提供的价值有限等特点。需要通过清洗、去噪等操作得到完整、清晰的数据表格。
在进行清洗、去噪得到清晰数据的基础上,要做进一步的变量分析。对得到的一批采集数据,需要按照一定的判别准则,建立一个或多个判别函数,计算判别指标,从而确定该批数据的归属问题。例如,对装甲车运动状态的判断,如果单纯利用采集到的速度数据来判断,可能会产生误判,需要综合考虑各种影响运动状态的因素,建立判别函数,对数据进行归类。
演训数据关联挖掘是在分布式存储和并行运算技术基础上采用关联规则方法构建模型,对演训数据各要素间的关联关系、发展趋势进行全面分析,精确判断,从中找出可以为决策者提供帮助的隐藏条件、未知的相关关系以及其他难以预测的有用信息的过程。
关联挖掘得到的规则中可能会包含一些无实际意义甚至不符合逻辑的错误规则,因此,我们还需要结合演训的实际情况对冗余规则做剔除处理。之后再进行规则解读,将其转化为演训现象,使所得结论更加精确量化,对演训实际更具指导意义。
为提高演训数据的可读性,要基于数据可视化技术,直观展示采集到的行动数据,还原机动路线和部队行动。对各种战术行动进行可视化动态展示可以更直观、更准确的按照战术要求对行动进行深入分析,为后续的定量评估提供有力依据。
现以某部的一次装甲分队突击行动演练为案例,根据本文提出的应用架构和逻辑对行动数据进行关联挖掘和分析,进而对突击行动组织效果进行评价。
蓝军某机步旅在A地区组织防御,企图以既设坚固阵地为依托阻滞红军攻击行动,进而屏护T岛中部安全。红军由一个机步连担任前沿突击分队,其主要任务是打开通路,破坏A地区前沿火力点,尔后就地转入防御,进而保障后续部队发展进攻。演练行动共分为集结部署、形成战斗队形、地面突击行动三个阶段。
数据来源是现场采集或者各类传感器采集的多源异构数据,如从车辆上安装的数据记录仪可以采集到车辆装甲有关信息,从各监控点的视频监控获取的视频数据,从现场工作人员和导调员处获取人工采集的数据。现选取安装在车辆上的数据记录仪采集到的数据进行分析,包括时间、经度、纬度、速度、高程、方位角六个维度。
数据记录仪从行动开始每隔10s记录一次装甲车辆的相关数据,考虑到数据记录仪的误差(当ν<10km/h,采集的速度数据可能为0),需要对采集到的数据进行入库整编,其采集分析系统结构组织以及工作流程图2所示。
图2 装甲分队演训数据采集分析流程图
通过大数据的分析挖掘,将所得结论与视频数据和人工记录数据分析结论相比较,验证关联挖掘的可行性和有效性,对装甲分队突击行动组织效果进行定量评估,以指导部队训练,提高部队战斗力。
1)实验数据预处理。由于战场环境的复杂性、部队行动的实时性、仪器自有精度等原因,演练产生的大数据中存在部分无效数据,结构格式也不能直接使用,需进行数据合理化分析和清洗去噪。
通过整理,可以得到表1每辆装甲车的有效序列数据,形如{UID,T,R}。其中UID表示装甲车辆实体,T为数据采集时间,R表示实体属性值列表,包括经纬度、速度、高程、方位角等时序数据。
表1 装甲车辆序列数据信息描述
2)运动状态判别分析。由于数据记录仪存在误差(当ν<10km/h时,采集速度数据可能为0),我们应考虑在诸如转向、掉头、原地转弯等非静止状态的采集速度可能为0。因此,不能仅以速度指标来判定,需综合考虑经纬度、方位角等变化。这就需要通过建立判别函数进行分析、判定。
判别条件1:
表示车辆在一段时间内vt=0。
通过计算,在不考虑高程和其余条件的情况下,经纬度对距离的影响见表2。
表2 经纬度变化与距离的关系表
判别条件2:
当s<0.1×10-4m 时,车辆位置不发生变化。
判别条件3:如果v=0,且10s内方位角增量:
判别过程如图3所示。
图3 运动状态判别流程图
当条件1成立,进一步验证条件2,如果式(2)不成立,说明车辆处在运动状态。如果式(1)、(2)同时成立,进一步验证条件3,如果式(3)成立,车辆处于运动状态,否则可以判断为静止状态。
通过上述判断函数,可对装甲车辆进行判别分类,区分静止运动两个状态,作为UID的第7个属性,得到整体出发时间和各车位置及经纬度随时间变化图,以便于下一步的关联挖掘。
3)对数据进行关联挖掘[12]及解读。在准确判断车辆运动状态之后,可以进一步对数据进行关联挖掘从而得到每个实体的时序数据,如车间距、行进速度、队形展开时间、机动效率、突击效率等若干因素有关的时序数据。这些数据能真实地还原分队行动的实际情况,但要想提高数据的参考价值还应当酌情考虑战场环境,需进行关联挖掘分析。
首先,进行关联规则挖掘。可得到表3所示的一系列关联规则和信息。
表3 演训数据关联规则
对挖掘到的关联规则进行筛选解读,将其转化为可理解的知识,用来评估装甲分队此次突击行动的组织效果。以表3前三条规则为例进行解读。
第一条:根据1号装甲车辆的速度和时间属性可得到加速度,将相关偏差因素考虑入内,其置信度为0.75。
第二条:根据1号装甲车角度随时间的变化,可以得到其车辆在任一时刻的角速度,其置信度为1。
第三条:根据1号装甲车经纬度随时间的变化,可得到其在某段时间内的水平位移。
以上为从1号车的{UID,T,R}序列可得到的部分关联信息,根据装甲分队演训科目及要评估的内容,制定不同关联规则分析可挖掘到更多信息。
4)形成结论。分阶段对突击效果进行分析可得如下结论。
一是前沿攻击队从展开地区发起冲击至通过通路阶段。冲击距离约1.5km~3.5km,分队可以采取乘车冲击与下车冲击相结合的方式进行,而通道地形上乘车冲击平均速度要求25km/h左右,下车冲击平均速度10km/h左右,考虑到敌炮火拦阻、前沿阵地火力威胁和分队实施火力打击等因素,实际冲击速度应降为正常速度的三分之一左右,该装甲分队平均速度达到24.7km/h,基本能达到该标准。
二是前沿攻击队从通过通路至夺占敌一线排阵地阶段。依据敌抵抗程度及敌防守阵地的地形情况,大约需要0.7h~1h,达到了大纲规定标准和要求。
三是后续阶段。前沿攻击队夺占一线排阵地后向敌纵深阵地发展进攻至机动攻击队加入战斗完成营的后续战斗任务、抗击敌反冲击和保障上级纵深攻击群进入战斗阶段,此阶段依据敌纵深阵地敌兵力部署及地形情况,通常需要0.5h~1h左右,该装甲分队需时0.6h左右,符合需求。总体来看,该装甲分队地面突击行动组织效果良好,基本完成预期战斗目的。
5)可视化展示。利用软件仿真模拟可得图4装甲分队各车位置随时间变化图。
图4 装甲分队各车位置随时间变化图
贴近实战的演训活动是检验部队训练水平的重要方式,对各类演训活动进行定量分析评价,是军事训练和评估最新发展趋势,关联挖掘在其中的作用日益凸显。综合运用数据分析技术对演训数据进行关联挖掘和可视化利用,既能实现“用数据来说话”,又能实现“用数据来管理”,更能基于广阔战场的信息网络数据分析与指挥员高超指挥艺术的有机融合,实现“用数据来决策”,为军事训练效果评估工作提供可靠的数据支撑[13]。