郭瑞 贺筱媛
摘要
现代战场信息大数据产生的战争迷雾对指挥员的战场态势认知产生了强烈干扰,这些都会增加指挥员的指挥决策的难度,针对某计算机兵棋系统具有高度模拟真实战场的能力,本文依据对兵棋模拟数据研究的基础上,选择其中侦查相关数据作为处理对象,通过数据的清洗与集成能更清晰的认知战场模拟态势环境,为认识真实战场提供一种模拟数据预处理方法,为战场态势认知的研究打下基础。
【关键词】模拟战场 仿真数据 数据预处理
1 引言
在信息技术和战争实践的推动下,联合作战和体系对抗己成为了现代战争的基本特征,现代战争与以往不同,战争的节奏越来越快,产生的战场信息呈现几何级增长,所以战场态势认知的研究势在必行。
在一次对抗演习中,数据是兵棋演习的基础支撑部分,一般意义上来讲,数据可以对应、有序、准确的显示出演习中的一切行动和特征,贯穿于演习的整个过程。在演习数据分类中,运行数据由系统自动产生,基础想定数据则是根据演习的环境和实体参数在演习前设定完成,存放于对应的兵棋演习数据库中,兵棋演习数据绝大部分是实时的、准确的,但是也会有部分数据存在内容不完整、格式不一致、存放重复、信息缺失等情况,这些会对之后的数据处理和信息分析产生影响,甚至有可能对模型算法造成偏差,所以数据的预处理是非常必要的。
2 数据的预处理研究
2.1 选择侦查预警数据为预处理目标
根据演习模型的规则和所得出数据的参数特征要求,计划先选择出相应有价值的数据,对之进行两次清洗,然后再集成出我们需要的格式数据。一次演习可能会产生海量的数据,而研究工作可能要针对多次不同的演习情况,如果对这些数据都要加以处理的话,工作量的巨大程度无法评估,而且我们采用的算法的精确度也会受到一定的影响,所以我们要抽取出其中一部分有代表性意义而且对实验有帮助的数据进行处理,这里选用侦查预警的相关态势数据进行举例说明整个数据预处理过程。
2.2 对所选侦查预警数据进行首次清洗
现实侦查预警任务中发生的一些突发问题,会产生相关预想不到的情况,对应演习数据有时难免会发生一些错误,另外在数据传输和采集的过程中已经规则设定偏差等原因,都会产生一些异常,这些不仅仅影响数据库的准确性,而且会对后续研究造成不利影响。
为了提升己选数据的精确性和研究价值,需要对一些突出的错误进行修正,这作为第一步的数据清洗,用来纠正偏差,重新录入残缺部分,清除偏离数据,提高这些备用数据的可用性。具体清洗办法如下所示。
2.2.1 异常检测方法
通过模式识别、聚类、基于邻近性、关联规则等方式实现兵棋演习数据异常的自动检测,并能够将数据异常进行分类,为确定数据清洗方法提供依据。
2.2.2 缺失值填充方法
通过忽略元组、全局常量填充、数据的中心度量填充以及特殊情况下的人工填写等方法填充缺失值。
2.2.3错误纠正方法
对形式和内容不符合要求的数据进行纠正,对错误难以改正且不重要的数据采取删除整条记录的方法处理。
2.2.4 冗余消除方法
采取近邻排序法对重复记录进行识别、比较和排序,删除低价值的重复冗余数据。
2.2.5 光滑噪声方法
分箱、回归、离群点分析等。
现今阶段,数据的这一方面清洗技术已经比较完备,本研究打算以成熟工具为基础,例如WEKA,作为一个公共数据挖掘平台,它集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类、回归、聚类,针对WEKA中的AddID、Remove、AddCluster、NumericCleaner、StringToWordVector等数据过滤器的具体特点,具体流程如下所示。
(1)检测偏差,通过对输入数据的检验,抽出其中出现错误、重复、缺失的数据,并对其进行记录,并对原始数据进行分析,确定是否需要下一步的清洗。
(2)确定方法,根据原始数据的异常类型,选择确定清洗方案。
(3)检验方法,调用检验模块检验选取的清洗方法是否适用于处理该类问题,如果适用,则执行下一步,如果不适用,则进入手工清洗模式。
(4)执行清洗,调用清洗模块、标记异常数据、填补缺失数据、修改错误数据、删除冗余數据。
(5)数据归档,调用加载模块,将清洗后的目标数据归档到目的数据库中。
2.3 对研究数据的最后集成
在演习中,根据模型的规则以及数据本身的特点,相应的会把数据分类存放在几个数据库以及文件中,这样对模型本身的结构会有很好的适应性,但对于研究数据来说,会带来一定的困难,因为有些数据会根据不同要求而重复存在,如果集成过程是简单的把数据库叠加在一起的话,可能会带来一些数据的冗余甚至自相矛盾,另外还可能会产生相同数据的命名不一样的问题等。所以要把所需的数据集成为一个结构相同、适合研究的集成文件中,这次集成是数据库内部的另一次清洗过程,这里用到的是数据仓库的相关技术。
所以这里采用Oracle grid和Oracle database来组建所需要的数据仓库,Oracle作为一款普遍使用的数据库软件,具有强大的数据处理能力。
由于所选数据的类型有对实体进行描述性的静态数据,也有在演习中进行交互的动态数据,而这些数据是相关的,所以这次集成是要从不同的来源根据相互之间的关系进行挑选与合成。
3 结束语
本文的是在认知战场的目的下,从模拟战场环境的兵棋数据入手,从数据来源到数据的结构以及存储与采集方式,初步研究对战场实时侦查预警模拟数据的处理方法,对数据预处理是为了进一步更好的研究战场认知打下基础,通过对数据的清洗和集成可以更清晰明了的呈现战场态势。
参考文献
[1]胡晓峰,范嘉宾.兵棋对抗演习概论[M].北京:国防大学出版社,2012.
[2]徐宁.计算机兵棋的关键技术研究与实现[D].东北大学,2009.
[3]彭春光,赵鑫业,刘宝宏等.兵棋推演技术综述[J].系统仿真技术及其应用,11:366-370.
[4]彭希文.兵棋-从实验室走向战场[M].北京:国防大学出版社,2013.
[5]陶雪娇.基于仿真大数据的指挥效能分析方法研究[D].国防大学,2014.
[6]李晓菲.数据预处理算法的研究与应用[D].西南交通大学,2003.