统计调查中数据清洗的应用探讨

2019-02-19 21:05瑶/文
市场研究 2019年7期
关键词:数据类型数据源错误

魏 瑶/文

现代社会中,数据是构成信息的基本形式,特别是统计调查中的数据。如何从海量数据中提取有价值信息,数据清洗就显得尤为重要。数据清洗是研究如何检测并消除数据中的错误、不一致等问题的一种手段,也是提升数据质量的有效途径。从数据来源、数据库系统结构与特点来看,高质量的数据所产生的价值越来越大。为此,本文针对数据的采集、整理、存储、分析,就数据清洗环节进行重点探讨,并对数据清洗流程、数据清洗中的问题提出应对建议。

一、数据清洗及一般流程

数据清洗,从概念上讲是基于目标数据,通过采用不同的数据检测、审查、处理、校验方法,实现对数据的纠错,清除原数据中“脏”的信息,如一些统计调查中的无效值、缺失值、重复数据、异常数据等。数据清洗在海量数据信息挖掘中具有重要的应用价值,借助对“脏数据”的清洗提升数据质量,可以为各类分析决策提供科学、准确的评判依据,提升统计调查结果的公信力。从数据清洗的对象来看,由于不同类型、不同规模的数据差异性,可以归纳为单数据源、多数据源两类。在数据采集方式上,有手工录入的问卷调查数据,也有网络调查系统数据、计算机辅助电话调查设计以及PDA 等移动终端采集的数据等。单数据源中,因缺失完整性约束条件,而出现数据差错、缺失等问题;多数据源中,因字段名称冲突、属性值、数据结构冲突等,也会出现统计逻辑错误等。无论是单数据源还是多数据源,数据质量是评价数据效用的重要指标。

从提升数据质量维度来看,数据清洗是最有效的解决方法。对于数据清洗,考虑到数据分析的可靠性与一致性,需要对数据源进行预“清洗”或预“修复”,便于提升后续清洗环节的效率。从数据清洗过程来看,主要分为:一是对原数据进行备份,并做好清洗前准备。通常,面对一项统计调查所采集的数据信息,需要结合数据采集方式进行提前合并和预处理。如电话回访、网络调查、面谈等方式所获取的数据,需要做好数据信息的录入、整理和存储。同时,面对不同来源的数据信息,在进行合并时,还需要结合数据格式、变量名称、数据类型等进行一致性处理。在对数据进行清洗作业前,一定要先对原始数据进行备份,避免因数据清洗而带来数据丢失或损坏。二是对数据进行审核处理。根据数据量的实际规模,在数据审核中可采用人工审核、计算机软件审核或者两者相结合方式对数据中的“脏数据”进行校验、处理。三是数据验证与评估。对数据进行清洗后,需要进行科学验证和评估,如果评估后出现偏差,则需要重新优化清洗方案,进行再次清洗。四是对清洗后的数据建立新的数据源备份,便于后续数据挖掘与处理。

二、数据清洗的实际内容及常见问题的处置方法

(一)数据清洗的实际内容

从数据清洗环节来看,主要的清洗技术有人工清洗、计算机清洗、两者联合清洗等。通常,面对非标数据源或者数据量相对较少的情况,可以借助于人工检测方式来进行人工清洗。但对于数据库庞大、数据结构复杂的数据源,可以引入计算机清洗。利用SPSS、SAS、Python 等软件,通过设置校验规则,对数据源中的不同字段的取值范围、缺失值、数据类型、拼写错误检查等进行识别,对离散程度不大的数据源,可以通过数据分布特征或箱线图来进行处理。需要强调的是,在数据清洗过程中,准确性、完整度、现时度、一致度等都是衡量数据清洗质量的重要指标。如某数据以<e,a,v>方式进行描述,e 表示实体,a 表示属性,v 表示具体值。准确度就表示为v 值与真实值v'的接近程度。若v=v',则被认为是准确的,否则,这个值是不准确的。完整度表示为对一切实体的所有属性,其对应值是否完整的程度。现时度是与数据源中的数据信息是否会随着时间的变化而改变,如人的年龄、体重等信息,并非静态的。现时度就是衡量时态数据的一个维度,如果某数据在t 时刻是准确的,如果在t时刻是过期的,则数据的值是不准确的。一致度是衡量数据的值是否与数据模型所定义的约束条件保持一致。在一些商业调查中,数据库中的数据在不同环境下被设计成不同模型,而同一数据在不同数据模型中的表现形式也不尽相同,这就需要对数据进行抽取、整合,来解决数据一致性问题。如某人收入信息字段,一些数据库是以人民币为结算单位,一些数据以美元为结算单位,这就需要对该字段数据一致性进行处理。最后,对于数据清洗,还需要结合数据质量要求,进行数据审核与评估,来提升数据清洗的准确性、完整性、现时度、一致度。

(二)数据清洗常见问题的处理

数据清洗中常见问题主要有异常值、缺失值、样本重复或其他数据类型错误等。通常,在异常值处理中,面对数据样本中的个别值与样本属性值之间存在较大或明显的偏差,从而表现出异常值现象。数据清洗时,可以通过设置箱形图方式,对一些异常值的范围进行设置,通过阈值方式来规避大于或小于箱形图上下界的数值,都给予异常值处理。在处理异常值问题时,一种方式是将异常值转变为缺失值,再进行填补缺失值;另一种方式是直接删除,不做统计分析。一般而言,对调查数据的删除操作要谨慎,因为一些被删除数据可能也是对某种情况的反映,如果盲目删除异常值数据,可能带来调查统计结果的失真。如在对某吸烟群体进行统计调查中,吸烟量中的个别异常数据,可能与烟民所在地区、年龄、职业等有较大关系。如果将这些异常值进行删除,可能会影响分析结果。因此,在数据清洗过程中,对于异常值的处理要审慎,要结合具体的字段、数据类型及调查实际,对相关异常值进行判断分析。异常值数据是否为录入错误,可以通过查看纸质问卷、访谈录音,或者电话联系受访者等方式进行复核。针对录入错误在核实后可以进行直接修改;对于真实的异常值,还应该作为调查统计的一部分。

调查统计中的数据出现缺失值时,其处理方法有以下几种:

1.将空缺样本数据提交给调查机构复核,并补充完整。

2.当样本数量足够大时,可以直接删除,对总体数据影响不大。

3.采用特殊填充方法。结合数据调查内容、属性值类型,根据样本均值、中位数、众数等方式进行填充。当然,特殊填充法本身就对数据带来了影响,因此要合理综合,避免填充值给数据调查带来严重偏差。

4.根据变量间的关系进行推算。如根据行政区划码,填写对应城市信息等。

另外,一些大型统计调查项目在调查中可能会有备用样本,针对一些有异常值、缺失值的数据样本,还可以直接从备用样本中进行补充。针对调查样本中的重复问题,如利用SAS 软件对数据字段进行处理时,可以通过设置比对条件来检查样本是否重复。同样,在对数据进行清洗时,一些变量本身具有重复性,如地区、姓名、电话等存在重复时,可以进行原始数据核查、确认后给予删除处理。针对统计调查中数据清洗时的其他错误问题,如一些字段数据类型不匹配,数据存储格式不合理,拼写错误,单个字段存在多个值,或者数据间存在矛盾性等。对于该类问题,通常需要结合数据样本原始数据,就可能存在的录入错误进行核查,是否存在录入错误、受访者信息是否失真等等。数据清洗时,对一些变量值出现的异常问题,要根据描述性统计信息,分析各个变量的合理取值范围,对于不符合逻辑或存在矛盾的数据进行检测,并进行处理。

三、建议

实际操作中,根据统计调查数据源的规模及数据质量要求,需要对“脏数据”进行分析,并对出现的数据偏差进行处理。总体而言,为提升数据清洗质量和效率,建议做好以下工作:

1.重视数据清洗环节,结合统计调查数据,设置合理、科学的数据清洗方案,提升数据清洗质量。

2.注重对数据清洗人力结构与专业能力的提升。统计调查涉及的数据量大、人员多,对相关人员的专业化水平要求更高。如果不懂统计业务,可能会带来数据录入错误。一些数据在进行清洗时,需要从数据逻辑关系上进行判断,对重要数据进行检验,提升数据清洗科学效度。

3.做好数据清洗流程安排。根据数据清洗要求,细化岗位职责,充分发挥计算机、人工辅助数据清洗优势,保障数据清洗质量。

4.构建统一的数据管理平台,积极引入现代网络、大数据、云平台等技术,对相关数据统一收集、存储、审核、处理,确保数据统计分析质量。

猜你喜欢
数据类型数据源错误
在错误中成长
如何理解数据结构中的抽象数据类型
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于SeisBase模型的地震勘探成果数据管理系统设计
线上众筹产品的特征分析与研究
相似度计算及其在数据挖掘中的应用
基于真值发现的冲突数据源质量评价算法
不犯同样错误
《错误》:怎一个“美”字了得