摘 要:迈入信息时代,大数据建设逐渐成为各领域研究的热点。大数据建设层次的高低,直接关系到信息产业的发展。新形势下,加快推大数据建设与发展,能够助力各行业信息化建设的提高。本文主要从数据获取、数据清洗、数据集成、数据归约、数据变换等方面,重点提出作战数据预处理的方法步骤,为作战大数据建设发展提供支撑。
关键词:数据预处理;数据清洗;数据归约
1.数据获取
在特定领域中,参与单位多元、参与行动多样、协同关系复杂,数据需求种类繁多。如现场环境数据,主要包括:地形地貌、气象水文、空气质量、重力场、电磁环境、交通、建筑物、防御工程设施、网络环境等[1]。传感器、采集器以及相关部门提供的数据都需要系统地、有规律地进行整合。
1.1采集要求
(1)完整性:保证采集的数据信息不存在缺失现象,不完整的信息数据可能会使整个实例数据失效。(2)唯一性:每一个实例只能对应一条记录,不允许出现两个以上相同的实例。(3)一致性:不同的系统设备或者人员采集相同的实例应当是相同的信息,同一实例在不同系统中应当是相同的表达。(4)精准性:采集的数据信息能够准确描述现实事件的特征。(5)时效性:数据在所需时间段内及时可用,如果数据过于陈旧,会使该数据分析获得的结论失去参考价值。同时在作战数据的采集时,还需要获得上级领导的批准或者指示。
1.2采集方法
(1)日志采集:日志采集属于对非结构化数据的采集,分为浏览器页面日志采集和客户端日志采集。①浏览器页面日志采集:可以通过网络爬虫等方法对网页信息进行获取,将获取的信息储存为本地数据文件。②客户端日志采集:通常是采用软件开发工具包(SDK)用于APP等客户端的数据采集,从事件的角度来采集数据,比如业务操作事件、点击事件、登录事件等。(2)数据源数据同步:根据同步的方式可分为直接数据源同步、生成数据文件同步、数据库日志同步。①直接数据源同步:通过特定的接口,直接读取目标数据库的数据。②生成数据文件同步:将数据源系统生成的数据文件,通过文件系统同步到别的数据库中。这种方式需要对文件进行适当加密和压缩,可以提高数据效率和保证数据安全。③数据库日志同步:数据库日志文件记录着数据库所有数据的修改信息,防止意外情况导致数据库出问题,可以通过数据库日志进行数据恢复。因此可以通过这个数据库日志文件来进行增量同步,从而获得数据。
2.大数据预处理
2.1缺失值处理
(1)删除法。此方法是最简单、原始的方法,如果一条数据有缺失,直接将此有缺失的数据实例删除以解决数据缺失的问题。
(2)插补法。作战数据通常数据量庞大、属性繁多,如果因为一个属性数据的缺失而删除一整条数据,会造成数据浪费。因此,利用一些方法把缺失的数据补上即可。常见的方法有:①均值插补:数据分为数值类型和非数值类型,当缺失值是数值类型时,将缺失这类属性的其他所有值求平均,将平均值填入缺失的位置。当缺失值是非数值类型时,将这类属性其他所有值求众数,也就是将这类属性中出现最频繁的数据填入缺失的位置。②回归插补:将缺少数据的属性看作因变量,与其相关联的其他属性看作自变量,利用他们之间的关联建立回归模型进行预测,将预测的值填入缺失的位置。③极大似然估计:极大似然估计实际上是概率论在统计分析中的应用,通过已有的数据分布情况去推测缺失值。
2.2噪声过滤
噪声数据是真实存在的数据,但是存在误差。随机误差产生的噪声数据看起来是正常的,却影响变量真值,所以噪声数据也会影响最终数据分析结果,需要对其进行去噪。去噪的方法通常有回归法,均值平滑法,离群点分析法及小波去噪法。
(1)回归法:回归法是利用一个函数或者回归模型拟合数据,对数据进行光滑处理,利用回归得到的数据值代替原来的噪声值,从而避免了噪声数据的干扰,但是必须要求大部分数据符合线性回归的趋势,才可以用此方法解决噪声数据。通常可以先将数据可视化后,人为观察数据的变化趋势,如果符合线性回归趋势,则可用此方法去噪。
(2)均值平滑法:将具有序列特征的变量用临近的若干数据均值来代替先前的噪声数据。
(3)离群点分析:通常是运用某种算法,检测出异常点,然后将其删除。通常是采用聚类的算法,然后进行聚类分析,多组实例数据聚集为同类称之为蔟,同一蔟的数据相似程度高,而离群点的数据实例会独立出来,不属于任何一个蔟,这个时候就删除这些离群点,达到去噪的效果。
(4)小波法:小波去噪属于音频处理[2],具有较好的时频特性。主要是用于对图像或信号去噪。从数学角度分析,小波去噪本质是函数逼近问题,根据衡量标准找出对原信号的最佳逼近,区别原信号与噪声信号,找到实际信号空间到小波函数空间的最佳映射,便于恢复最佳的原信号[3]。从信号学角度分析,小波去噪是信号滤波问题,虽然小波去噪很大程度上可看作低通滤波,但它优于传统低通滤波的地方是去噪后还能保留信号特征。小波去噪可看作是特征提取和低通滤波功能的综合,输入带噪信号后,经过特征提取与低通滤波可得到重建信号。
2.3重复值处理
重复的数据是相同信息的数据重复出现,形成重复数据实例,造成数据信息冗余,并且会造成该样本在整体数据中占比提升,最终可能导致数据分析时出现偏差。通常情况下运用算法进行匹配,找出重复多余的數据进行删除即可。
2.4数据集成
数据集成的一般方法:①联邦数据库:这是早期的一种通用方法,在这个数据库中,数据源与数据源之间可以共享自己的一部分数据模式,从而形成一个联邦模式,从数据集成的效果来看可以分为紧密藕合联邦数据库和松散藕合联邦数据库。紧密藕合集成度比较高,解决了数据集间的异构性,但是构建的全局数据模式扩展性差且算法复杂。松散藕合集成度低,没有全局模式,但其数据集成的自治性好、动态性能好。②中间件集成:该集成方法同样使用全局数据模式,其特点是不仅能够集成结构化的数据信息,还可以集成半结构化或者非结构化数据信息。这种集成系统中包括中间件和包装器,包装器是对数据进行包装(包装器和一个特定的数据信息进行对应)。中间件就可以通过包装器进行数据交流。操作者通过全局数据模式向中间件发出数据信息请求,中间件收到请求并处理。
2.5数据归约
对于海量的数据信息,数据样本实例太多,维度过高会引起数据超负荷,使得数据挖掘的算法不适用且运算量大,因此执行数据归约是必要的。数据归约的基本操作是删除行列和减少列中值的数量。例如用一列的特征去表示两列或多列的特征从而删除列达到减少数据量的效果。数据维度归约可以对海量的数据进行降维处理,主要是利用主成分分析和小波变换将原始的数据映射到较小的空间,从而降低数据大小但不降低数据特征质量,同时不降低数据分析结果质量。总之,数据归约的目的就是对数据信息进行细化处理,尽可能压缩数据,并且不降低数据分析结果的准确度。
结语:本文对特定领域用途大数据技术中数据预处理相关概念进行介绍,对处理的流程进行梳理,并详细介绍每一个流程的作用和方法。通过数据清洗,可以删除冗余数据,填补空缺数据,处理偏差数据,再通过数据集成,使得数据格式相同,表达相同,最后经过数据归约和变换完成数据预处理。作战所需的数据综合性强,需要多部门、多领域合作,对作战数据进行预处理可以更好地为指挥员及时掌握战场态势,高效科学决策提供数据支撑。
参考文献:
[1]赵一凡,卞良,丛昕.数据清洗方法研究综述[J].软件导刊,2017,16(12):222-224.
作者简介:
王晓品,男(1988-),汉族,云南省马关县人,毕业于国防科技大学,计算机科学与技术专业硕士研究生,现任武警河南省总队综合信息保障中心助理工程师。
(武警河南省总队,河南 郑州 450000)