数据清洗方法研究综述

2018-01-09 13:51赵一凡卞良丛昕

软件导刊 2017年12期

赵一凡+卞良+丛昕

摘要：数据是数据挖掘和应用的重要保证，“脏数据”会导致不可靠输出，这种输出导致的结果有可能难以弥补。因此，数据清洗方法研究意义重大。阐述了数据预处理过程中的数据清洗方法，介绍了缺失值填充及去除数据噪声的常用方法，总结了数据挖掘的应用前景，展望了数据清洗研究方向。

关键词：数据预处理；数据清洗；数据质量；缺失值

DOIDOI：10.11907/rjdk.172093

中图分类号：TP301

文献标识码：A 文章编号：1672-7800（2017）012-0222-03

Abstract：Data is an important guarantee for data mining and application， “Dirty Data” can lead to unreliable output， the result of this output may be difficult to make up， therefore， the data cleaning method has important research significance. Aiming at the data preprocessing process data cleaning is surveyed in this paper， clarifying the missing values and removing the noise in the data method， comparison of the advantage and disadvantage of commonly used methods， summarize the shortcoming of data cleaning research and the application of data mining.

Key Words：data preprocessing；data cleaning；data quality； missing value

0 引言

不同的數据清洗方法有各自的优缺点。大数据开发、挖掘和应用越来越广泛，但脏数据却普遍存在。脏数据指源系统中的数据不在给定的范围内，或对于业务毫无意义，或是数据格式非法，以及在源系统中存在不规范的编码或含糊的业务逻辑[1]。挖掘的数据基本上是来自生产、生活、商业中的实际数据，各种原因都可能导致缺失某些重要数据、采集到的数据不正确或含有噪声、不一致等问题。数据质量是数据挖掘效果的重要保证，因此，数据清洗方法研究意义重大，也面临很多亟待解决的问题。

1 数据预处理

数据预处理技术可以改进数据质量，提高挖掘过程的准确率和效率。数据预处理分为数据清洗、数据集成、数据规约、数据变换[2]几方面。数据清洗是通过填写缺失值、光滑噪声数据、识别或删除离群点等方法，解决不一致性问题[3]。本文主要阐述了数据预处理过程中数据的清洗方法，数据清洗的主要任务就是填充缺失值和去除数据噪声。

2 缺失值处理

（1）缺失值处理最原始的方法就是删除法，数据在数据库中以表的形式存在，将存在缺失值的记录删除，解决数据缺失问题。

（2）插补法。通常数据挖掘为大型数据库，属性成百上千，因一个值的缺失而舍弃一条记录，会造成极大浪费。因此，一般用最可能的值来填补缺失值，常用的插补方法如下：①均值插补。数据分数值型与非数值型，当缺失值为数值型（可进行加减运算的数据），就用平均值插补缺失值，当缺失值是非数值型时，就用众数插补缺失值，如果数据符合较规范的分布规律，还可用中值插补；②回归插补。回归法可以用于数据缺失问题，Rubin[4]用贝叶斯Logistic回归法进行多重插补。于力超、金勇进[5]利用回归插补法对缺失数据进行插补。戴明锋等[6]在分析数据缺失机制前提下，通过二分类Logistic回归插补法，根据发生概率大小确定插补值。刘燕[7]提出了基于Logistic回归的近邻择优补差法。通过模拟比较发现，基于回归的近邻择优插补法的均方误差最小，波动性最小，插补效果较好；③极大似然估计。极大似然估计（Max Likelihood）是指在缺失类型为随机缺失条件下，通过观测数据的边际分布推出未知参数，此方法又称忽略缺失值的极大似然估计。极大似然估计实际上是一种数学期望，已知某参数能使样本出现的概率最大，就当然会忽略小概率的样本。因此，实际中常采用期望值最大化EM（Expectation Maximization）的计算方法；④其它插补方法。关联规则插补：Ragel等[8]提出RAR（Robust Association Rules）方法，充分利用有效数据，减少数据信息的浪费； MVC（Missing Value Completion）方法，首次提到用关联规则对缺失数据进行插补[9]。Shen等[10]提出了 FRCAR（Fast Recycle Combined Association Rules）方法，结合非频繁项信息对缺失值进行插补，解决了生成规则少、不足以对所有缺失值进行插补的情况。Leila等[11-12]提出GBARMVC（Generic Basis of Association Rules），解决了存在多条规则时对同一缺失值进行插补问题。于力超等[13]提出了基于最近邻插补法和关联规则法，采用属性之间关联规则的支持度和提升度，计算样本单元间加权距离，用加权距离最小确定唯一插补值。

3 噪声过滤

噪声是数据中存在的随机误差，由于随机误差产生的噪声数据是正常的，影响变量真值，所以也需要对这些噪声数据进行过滤。常用的噪声过滤法有回归法、均值平滑法、离群点分析及小波去噪法。

（1）回归法。回归法是用一个函数拟合数据来光滑数据，去除数据中的噪声，即用回归后的函数值代替原始数据，从而避免噪声数据的干扰。回归法依赖数据趋势的判断，符合线性趋势的才用回归法，所以往往需要先对数据进行可视化，判断数据的趋势及规律，然后再确定是否可用回归法进行去噪。endprint

（2）均值平滑法。均值平滑法是對具有序列特征的变量，用邻近的若干数据均值来替换原始数据，对于具有正弦时序特征的数据，利用均值平滑法对其噪声进行过滤，去噪效果显著。

（3）离群点分析。离群点分析是用聚类等方法来检测离群点。由聚类生成一组数据对象集合称为簇，同一簇中的数据对象相似程度较高，其它簇中的数据对象相似程度较低（常用距离来度量相似度），落在簇集合之外的值称为离群点，将其删除，从而实现去噪。

（4）小波法。小波去噪属于音频处理，具有较好的时频特性。从数学角度分析，小波去噪本质是函数逼近问题，根据衡量标准找出对原信号的“最佳”逼近，区别原信号与噪声信号，找到实际信号空间到小波函数空间的最佳映射，便于恢复最佳的原信号[14]。从信号学角度分析，小波去噪是信号滤波问题，虽然小波去噪很大程度上可看作低通滤波，但它优于传统低通滤波器的地方是去噪后还能成功保留信号特征，小波去噪可看作是特征提取和低通滤波功能的综合。输入带噪信号后，经过特征提取与低通滤波可得到重建信号。

4 常用方法优缺点比较

目前，数据预处理过程中的数据清洗方法很多，且不同数据清洗方法都有优点与局限性：删除或忽略缺失值虽简单易行，但小样本时会损失样本量，统计功效弱，且当每个属性缺失值百分比变化巨大时性能较差；相比删除法，插补法产生的信息丢失要少很多。常用的缺失值处理方法如表1所示。

常用的噪声过滤方法有回归、均值平滑、离群点分析、小波法。常用的去噪处理方法如表2所示。

在某些情况下，缺失值并不代表数据有误。数据库中，有些属性值允许为空值NULL，得到这样的数据后要尽力清洗数据。在数据库输入设计阶段给出空值应如何处理或转换的说明，就能大大降低缺失值或错误的数量，降低数据清洗难度。

5 结语

数据挖掘技术广泛应用于医疗、能源、零售、汽车、金融等诸多领域，通过挖掘有价值的信息，提供决策和建议。对医学数据的挖掘能给患者提供有针对性的指导意见，预测身体健康状况的改变及发展趋势，防患于未然。精准分析能减少过度治疗及治疗不足；利用大数据分析能源购买量，从而预测能源消费，通过管理能源用户来提高能源效率、降低成本；对于零售企业，数据挖掘技术能很好地整合各类信息，帮助企业掌握客户需求，实现精准营销和个性化服务；借助数据挖掘技术能帮助保险公司全面了解驾驶者的驾驶习惯和驾驶行为，提供不同类型的保险产品，等等。脏数据的普遍存在，导致数据挖掘过程中可利用数据有限，数据清洗显得尤为重要，不同的数据清洗方法各有优缺点，对数据清洗方法的研究也将更加深入。

参考文献：

[1] 张兴华.数据清洗方法在电力企业数据中心的应用研究[D].兰州：兰州理工大学，2011.

[2] 罗艳霞，王庭熙，骆绍晔.数据预处理在图书借阅中的应用[J].莆田学院学报，2016（2）：50-53.

[3] 周健昌，刘波.一种条件函数依赖挖掘算法的分析与实现[J].计算机与数字工程，2012（9）：8-11.

[4] RUBIN D B. Statistical analysis with missing data[M].New York： John Wiley & Sons，2002：59-75.

[5] 于力超，金勇进.美国纵向调查中缺失数据的应对方法及对我国的启示[J].现代管理科学，2015（9）：33-35.

[6] 戴明锋，金勇进，查奇芬，等.二分类Logistic回归插补法及其应用[J].数学的实践与认识，2013（21）：162-167.

[7] 刘燕.基于Logistic回归的近邻择优插补法[D].天津：天津财经大学， 2013.

[8] RAGEL A， CREMILLEUX B. Treatment of missing values for association rules[C]. Proceedings of the Second Pacific-Asia Conference on Knowledge Discovery and Data Mining（PAKDD-98）， Melbourne， Australia， Lecture Notes in Artificial Intelligence 1394， Berlin： Springer， 1998.

[9] RAGEL A， CREMILLEUX B. MVC-A reprocessing method to deal with missing values[J]. Knowledge-Based System Journal， 1999，12（5/6）：158-163.

[10] SHEN J J， CHANG C C， LI Y C. Combined association rules for dealing with missing values[J]. Journal of Information Science， 2007，33（4）：246-254.

[11] LEILA BEN OTHMAN， SADOK BEN YAHIA. GBARMVC： generic basis of association rules based approach for missing values completion[J]. International Journal of Computing & Information Sciences， 2011，9（1）：16-22.

[12] LEILA BEN OTHMAN， SADOK BEN YAHIA. Yet another approach for completing missing values[C]. Springer-Verlag Berlin Heidelberg， CLA 2006， LNAI 4923， 2008.

[13] 于力超，金勇进，王俊.缺失数据插补方法探讨-基于最近领插补法和关联规则法[J].统计与信息论坛，2015（1）：35-39.

[14] 王艺龙，杨守志.基于连续阈值函数的小波去噪方法[J].汕头大学学报：自然科学版，2014（4）：66-67.

（责任编辑：杜能钢）endprint