(国防大学联合作战学院 石家庄 050084)
人类社会已经进入大数据时代,海量数据信息的出现让身处信息汪洋的我们更加难以看清事物的本质,而大数据技术的发展为信息时代的数据处理提供了有力支撑。未来信息化战争,全域多维的海量数据信息爆发,透过信息迷雾掌握战争脉动的一方将占据信息制高点,夺取制信息权进而控制战场态势并赢得战争。大数据挖掘技术为我们提供了一种可能途径,将军事领域的海量信息进行挖掘利用,掌握其中的规律并加以利用,必将改变未来战争的面貌。
随着以云计算、物联网为代表的新一代信息技术的快速发展,信息渗透到战场的各个领域和环节,现代战场的信息流量成几何级数剧增,数据量十分庞大[1]。这些数据当中,部分属于冗余数据,部分则属于不相关数据,还有部分属于噪音数据[2]。如何对大数据进行系统的处理和分析,挖掘隐藏在数据背后的深层次军事知识和含义,得出科学、可信的结论,成为一个紧迫而又全新的战略课题。数据挖掘是一门面向应用的技术,不仅是面向特定数据库的简单检索、查询和调用,而且要对这些数据进行微观乃至宏观的统计、分析和推理,挖掘大量数据背后的知识[3]。
大数据挖掘是从大量数据中有效地发现有价值的、不明显的信息,这种涉及从数据中提取信息的过程也是一种探索性数据分析[4]。大数据挖掘是从存储在数据库、数据仓库或其他信息库中的大量数据中发现有趣的信息,如模式、关联、变化、异常和重要结构的过程[5]。大数据挖掘通常用于非常大的数据库,由于数据库的复杂性和容量庞大,使得它通常是不能被解读或分析。大数据挖掘的目的是从这些大型数据库中发现有用的信息,这种过程被称为数据库知识发现(Knowledge Discovery in Databases,KDD)[6]。大数据挖掘涉及数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索等多学科的技术集成[7~8]。总而言之,大数据挖掘是从海量数据信息中发现规律性现象的数据处理技术,已经成为信息时代处理数据信息的主要手段。
大数据挖掘涉及数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索等多学科的技术集成[9]。其常用的分析方法包括分类、聚类、回归分析、关联规则和特征分析等[10]。
对采集到大数据进行分析、挖掘前,通常会在探索性分析[11]的基础上对数据进行清洗,为数据分析和模型构建做准备[12]。主要对四类异常数据进行处理。分别是缺失值、异常值(离群点)、去重处理以及噪音数据的处理。
1)缺失值。在大多数数据集中缺失值都普遍会存在,而对于缺失值的处理好坏会直接影响到模型的最终结果。常用处理方法有均值法、中位数法、插补法与建模法。插补法主要有随即插补法、多重插补法、热平台插补法以及拉格朗日插补法与牛顿插补法。建模法可以用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。
2)异常值。分为异常点和离群点。异常点处理方法为直接删除法、基于距离计算算法(包括K-means,KNN之类)、平均值替代法等。离群点常用处理方法有3δ法、模型检测法、邻近性法等。
3)去重处理。对于重复项的判断,基本思想是“排序与合并”,主要用duplicated方法进行判断,然后将重复的样本进行简单的删除处理。
4)噪音处理。噪音是被测变量的随机误差或者方差,包括错误值或偏离期望的孤立点值,对于噪音的处理主要采用分箱法和回归法(包括线性回归和使用回归)。
单变量分析又称“单变量统计分析”,就是在一个时间点上对单一变量所进行的描述和统计,目的是通过对数据的整理、加工、组织和展示,计算反应数据的集中趋势和离散程度的指标,对变量分布的特征和规律进行刻画和描述。主要分为单变量描述统计和单变量推论统计两种方式。其中单变量描述统计可以确定频数分布与频率分布、进行集中趋势分析、进行离散趋势分析,单变量推论统计可通过样本调查中所得到的数据资料,从区间估计和假设检验两个方面对总体的状况进行推断。
多变量分析是对多个变量(或称因素、指标)同时存在时的统计分析,其内容很多,但从实际应用角度看,主要包括回归分析、判别分析、因子分析、聚类分析、主成分分析、生存分析六大分支。其中数据挖掘中常用的为以下四种。
1)聚类分析。聚类是将数据对象分类成一组不相交类的过程[13],其基本思想是找出一些能够度量样品或指标之间相似程度的统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,直到把所有的样品(或指标)聚合完毕。其结果对参数十分敏感,许多聚类算法要求用户以输入参数形式提供领域知识[17]。常用的方法有:直接聚类法、最短距离聚类法、最远距离聚类法。
2)回归分析。回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。通常用于预测分析时间序列模型及发现变量之间的因果关系。
3)判别分析。分类是大数据挖掘领域的经典课题之一[15]。判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。常用的方法有:最大似然法、费歇(FISHER)判别思想、贝叶斯(BAYES)判别思想[16]、距离判别思想等。
4)主成分分析。主成分分析(PCA),是一种把离散信息归至指定指标的统计分析方法[17],也是一种降维的统计方法。主要是研究如何把彼此相关的变量综合成一个(或少数几个)综合指标(或称主成分),使得在研究复杂问题时更容易抓住主要矛盾,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发。
关联分析又称关联挖掘,是一种简单、实用的分析技术,用于发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时存在的规律和模式。比较经典的关联规则挖掘算法有Apriori算法和FP-Tree算法,核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。当前,对于大数据环境中的关联分析,已经有很多集成各种分析功能的工具包,如Mahout工具包可实现关联挖掘、聚类、分类、回归等操作。
1)提供高效准确的情报。大数据思想最早应用于军事领域是军事情报分析[18],其应用非常广泛。一是卫星仿真数据分析与评估。李清毅[3]利用数传评估算法对卫星仿真柔性平台的结果数据进行深层次的数据挖掘,进行事后分析和处理,根据应用需求从仿真数据中提炼有用的结果,并以曲线和图表等多种形式予以保存和显示。二是军事情报信息挖掘。武开有[19]建立了数据挖掘模型,利用时间序列算法、关联规则算法和聚类分析算法对海洋军事情报信息进行挖掘,可获得更加准确和时效性强的指挥决策支持信息。王荣生等[20]指出利用大数据采集分析技术和智能化应用技术,能及时处理海量、非结构化、全维性的侦察情报信息,确保信息处理的时效性和准确性。三是空间数据挖掘。江兵等[1]分析了空间数据的特征,将分类分析、聚类分析、关联规则分析和决策论等方法技术运用到战场环境分析、空间信息情报处理和战场态势挖掘上,从空间数据中提取出具有决策意义的信息,为战场指挥员正确决策提供了数据支持。丁佐杉等[21]指出利用模糊数据开采方法(FDM)可进行战场环境仿真与分析,将地理信息系统(GIS)中的数据进行挖掘,可得到目标之间最短路径、最优规划等有用知识,还可实现战场气候信息数据挖掘。同时指出利用此方法还可解决情报信息的融合处理问题。
2)辅助分析决策。大数据挖掘对军事决策支持有着重要的支撑作用。郑泽席[22]把DM(Data Mining)和 KDD(Knowledge Discovery in Database)技术引入了军事决策支持系统,建立了知识向量集的拓扑空间概念并提出了基于拓扑空间向量集的不确定性知识表示方法,进一步提高了军事决策支持信息的准确性和可靠性,为首长定下决心提供了必要的决策信息和数据支持。丁佐杉等[21]指出运用基于知识发现的模糊专家系统、统计决策理论、人工神经网络等多属性决策技术,可对兵力运用、火力运用、兵力机动、敌方威胁等进行深入分析,形成有效的辅助决策方法。
3)提供全域控制战场能力。一是对战场进行自主控制。刘彪等[23]提出面对战场上的海量信息,大数据挖掘一方面可以实现各级指挥机构对战场的自主控制能力,主动对战场情况做出有利于全局的组织领导活动。另一方面可以将情报信息、指挥控制、火力打击、信息共享等要素进行联动,确保围绕同一目标的快速、精确进行协调一致的行动。二是电磁频谱管理。邵震洪等[24]从分析我军电磁频谱数据来源和特点出发,提出了电磁频谱数据挖掘体系框架,可从废弃的和不重要的数据中提取有价值的知识和信息为电磁频谱管理决策提供支持,有助于提升电磁频谱管理的水平。
1)演训数据分析。军事训练中会产生大量训练大数据[25],如何对其有效分析利用是需要研究的问题。一是军事演习数据分析。刘天勇[26]对军事演习中产生的大量初始数据、过程数据、结果数据和参演人员数据进行分析整理和深入挖掘,高效提炼出决策和执行人员所需要的“知识”,将演习大数据转化为可供决策的知识,最终为决策所用。二是军事训练数据分析。韩曜权等[27]提出了运用主成分分析(PCA)算法对军事训练的大数据量、多科目、高维度的数据进行降维,然后基于传统层次聚类算法对训练数据进行分析的方法,能直观反映出各类训练人员的成绩特点,对军事训练计划制定与实施提供了参考。程果等[28]针对当前军事定向越野教学训练的特点,运用大数据思想对长期训练中积累的大量控制点数据、任务点数据、学员横向数据和学员纵向数据进行挖掘,发现并总结了一些具有普遍推广价值的指导规律。
2)作战仿真模拟。作战仿真是有效的作战辅助手段,会产生大量仿真大数据[29],大数据挖掘在此方面有重要用途。一是作战毁伤仿真。李华等[30]基于坦克分队战术综合演练仿真系统,运用数据挖掘技术对坦克分队作战过程中的毁伤概率模型进行研究,利用决策权对模型进行分析,较好地满足了坦克分队作战毁伤研究的需要,为分队作战智能化仿真研究提供了一定借鉴。二是作战仿真数据挖掘。薛青等[31]从作战仿真数据构成分析入手,提出了面向数据挖掘的作战数据仓库构建方法,将系统数据、基础仿真数据、作业仿真数据、仿真结果数据和仿真管理数据纳入其中,对于从现实世界中搜集、获取数据具有积极的参考价值。三是辅助兵棋推演。刘长亮[32]在分析总结现代作战高性能兵棋推演特点要求的基础上,按照可拓知识库构建、可拓变换、基于可拓变换的数据挖掘和可拓数据挖掘推理4个环节阐述了可拓数据挖掘在兵棋推演系统中的实现并分析验证了其实用性。
3)演训效能评价。当前我军演训活动组织较多,产生大量数据,大数据挖掘可用来量化对演训的评价。一是作战实验事后分析。王峰山等[33]在分布式存储和并行运算技术基础上,通过关联挖掘算法对非结构化、多源异构的作战实验数据进行全面深入挖掘,为作战实验事后分析提供了一种新思路。二是演训效能评估。马新志等[34]充分借助大数据及其技术,直视演训评估中数据浪费和数据缺失等问题,着力解决了数据整编、存储、分析、展示、再生产等难题,使评估结论更加准确、实时、高效,带动了评估效率质的飞跃。
1)在军事通信网络中的应用。一是软件测试管理。苏赛[35]等在训练集上建立分类模型,首先对测试人员特点进行分析,然后对测试过程中QA或质量监督员发现的问题进行梳理统计,找出薄弱性寻找对策加以解决改进,提高了软件开发的可靠性。二是辅助通信规划。李克等[36]在分析数据仓库特点的基础上,结合数据挖掘工具,构筑了信息战中军事通信网络的数据仓库模型,提出了应用数据仓库技术来挖掘军事通信网络信息数据的设想,以期为战场规划和目标预测提供帮助。
2)确保军事网络安全。一是在网络入侵检测中的应用。蓝永发[37]结合多种数据挖掘技术的算法,提出了一种数据挖掘的网络入侵检测模型,在Snort入侵检测系统中运用DBSAN算法和K-Means算法提高了入侵检测的正确率,增加了网络数据传输安全性。二是在网络病毒监测中的应用。黄应红等[38]将数据挖掘技术运用到网络病毒监测中,运用分类分析、聚类分析和序列模式分析等算法,有效地从病毒监测审计数据中提取出有用的信息,提高了病毒检测能力。三是在网络病毒防御中的应用。李嘉嘉[39]针对计算机网络病毒传播快、种类多、破坏性强的特点,通过数据源抓包、数据预处理、建立规则库,运用关联规则、异类分析和聚类分析来发现和查找病毒特殊数据,可有效保护网络系统安全。
3)确保军事网络数据安全。军事网络中异常数据的处理一直是较难解决的问题,董本清等[40]针对传统算法缺陷,提出一种采用优化遗传算法的复杂网络数据流中的异常数据方法,利用遗传算法获得抽样样本集的聚类中心,对其进行遗传操作使其自适应调整,可提高复杂网络数据流中异常数据挖掘的准确率。
1)提高信息化工作效率。李悦等[41]通过对目前我国信息化的发展现状及问题进行详细分析,找到基于关联规则的数据挖掘技术与单位信息管理中的契合点,提出了基于关联规则的数据挖掘技术系统的设计方案。该方案有助于单位优化资源配置,促进领导决策合理性。
2)提高档案管理效率。陈小莉[42]提出了一种基于大数据并行闭频繁项集挖掘的档案管理数据挖掘技术,在关联规则特征提取的基础上建立档案信息管理的闭频繁项集后缀表,进行大数据并行挖掘,将其应用在档案管理系统的数据信息检索中,提高了档案管理系统中的数据快速查阅和检索性能。
3)增强部队管理能力。高磊等[43]提出将不打招呼检查信息转换为标准化数据,构建以检查记录表为主的数据库,找出高频项目进行最小支持度和最小置信度分析,通过关联规则描述与解释进行成因调查研究进而辅助决策提高管理效率。并指出该方法在安全风险评估、兵员数质量分析、组织编制演变规律研究等领域有广阔应用前景。
1)加强工程质量审计管理。一是军事工程成本管理。王武新等[44]通过建立军队后勤云计算中心,实现了基于云计算的军事工程成本管理,通过云计算挖掘技术,为破解军队建设项目成本管理中长期存在的“分散”、“虚置”、“繁混”等现象提供了契机,破解了军事工程成本管理中的困局。二是电气工程故障分析。吴嵘[45]将全局信息引入电力系统中,采用聚类分析技术,从大型数据库信息中自动提取有效的、新颖的、潜在有用的信息,快速准确的检测出故障分量和故障区断,为电机工程研究提出了一种新的解决方案。三是用电信息优化。尹成波[46]提出了基于大数据分析的用电信息采集运维优化方法,建立电网采集运维优化的目标函数,利用约束条件构建优化模型。通过粒子群算法和搜索能力及动态重组能力进行求解,有效地缩短了用电信息采集电音,提高了用电信息采集统计量。四是提高军队事业审计效率。王蕾[47]在分析军队事业审计中运用数据挖掘技术的基础上,结合法规特殊性规定、数据勾稽关系、业务处理逻辑、外源印证和审计经验构建个体分析模型,利用数据分析软件进行审计数据的分析处理(OLAP)及趋势预测分析,能进一步判断被审计单位存在的问题并指出改进方法和思路。
2)物流仓储中的应用。为提高后方仓库指挥管理的效率,石胜庆等[48]针对后方仓库大量“孤岛”数据库无法得到深层次利用的问题,通过建立基本框架、确定核心内容、明确技术手段、统一集成标准的步骤构建了后方仓库指挥管理模型,在物资保障辅助决策、库存物资质量管理、智能化安防方面进行应用,提高了后方仓库保障决策和日常管理服务水平。
3)装备检测和质量管理。一是航天型号产品质量管理。吴丹等[49]在航天型号产品质量信息数据仓库上,利用决策树、聚类分析技术、关联发现和时间序列发现技术以及ID3算法、BP算法等方法,建立了时间序列预测模型、分析分析模型和关联分析模型。通过质量数据查找出了某类质量问题产生的根本原因,给出了在研型号的质量水平和可能存在的质量风险的置信区间,实现了对型号质量风险的预测,对产品质量及管理的快速科学决策。二是航空发动机状态监控与故障诊断。旷典等[50]在分析多元多维度大数据来源的基础上,建立了大数据模型的构架,利用全参数关联规则挖掘、状态量关联度分析和状态量加权分析的方法,使发动机的诊断精度得到提升,提高了飞行的安全性和维修保障的经济性。三是运载火箭测发故障分析。程龙[51]等研究了基于仿真与数据挖掘的测试发射故障分析方法,对仿真系统得到的大量数据信息进行处理、分类和挖掘,获取了所关心的故障知识,提高了相关故障分析工作的效率与质量。四是海军直升机装备应用。汪智超等[52]将数据挖掘技术应用到海军直升机装备中,利用预测算法对航电系统进行故障诊断和预测,确保了海军直升机在护航和航母编队任务中的飞行安全。
如今,大数据挖掘技术在军事领域中的应用日益广泛,也已经取得了一定的成果。但是,在挖掘技术和实现手段等方面还存在不足,需要进一步的研究完善。首先,挖掘工具标准不一,缺少通用性。目前,挖掘工具都是针对某一具体的信息系统,不同的挖掘工具操作方法各异,而没有统一规范化的具有普遍适用性的数据挖掘工具,不便于使用者更好更快地掌握数据挖掘操作方法,给挖掘工具的推广工作增加了难度。其次,挖掘工具操作复杂,只有专门从事数据信息工作方面的人员才能使用自如,对广大普通管理者和从事信息管理的人员来说掌握起来需要花费的时间较长。所以,研究一种简单、友好、方便快捷,并且通用性强的挖掘工具是目前大数据挖掘研究的重点。为将其更好地应用于军事领域,我们要统一思想,树立大数据意识,对演习、训练和日常工作中的数据信息进行收集建库,为大数据挖掘技术提供应用的平台和空间。