统计调查中数据清洗的应用探讨

2019-02-19 21:05魏瑶/文

市场研究 2019年7期

魏瑶/文

现代社会中，数据是构成信息的基本形式，特别是统计调查中的数据。如何从海量数据中提取有价值信息，数据清洗就显得尤为重要。数据清洗是研究如何检测并消除数据中的错误、不一致等问题的一种手段，也是提升数据质量的有效途径。从数据来源、数据库系统结构与特点来看，高质量的数据所产生的价值越来越大。为此，本文针对数据的采集、整理、存储、分析，就数据清洗环节进行重点探讨，并对数据清洗流程、数据清洗中的问题提出应对建议。

一、数据清洗及一般流程

数据清洗，从概念上讲是基于目标数据，通过采用不同的数据检测、审查、处理、校验方法，实现对数据的纠错，清除原数据中“脏”的信息，如一些统计调查中的无效值、缺失值、重复数据、异常数据等。数据清洗在海量数据信息挖掘中具有重要的应用价值，借助对“脏数据”的清洗提升数据质量，可以为各类分析决策提供科学、准确的评判依据，提升统计调查结果的公信力。从数据清洗的对象来看，由于不同类型、不同规模的数据差异性，可以归纳为单数据源、多数据源两类。在数据采集方式上，有手工录入的问卷调查数据，也有网络调查系统数据、计算机辅助电话调查设计以及PDA 等移动终端采集的数据等。单数据源中，因缺失完整性约束条件，而出现数据差错、缺失等问题；多数据源中，因字段名称冲突、属性值、数据结构冲突等，也会出现统计逻辑错误等。无论是单数据源还是多数据源，数据质量是评价数据效用的重要指标。

从提升数据质量维度来看，数据清洗是最有效的解决方法。对于数据清洗，考虑到数据分析的可靠性与一致性，需要对数据源进行预“清洗”或预“修复”，便于提升后续清洗环节的效率。从数据清洗过程来看，主要分为：一是对原数据进行备份，并做好清洗前准备。通常，面对一项统计调查所采集的数据信息，需要结合数据采集方式进行提前合并和预处理。如电话回访、网络调查、面谈等方式所获取的数据，需要做好数据信息的录入、整理和存储。同时，面对不同来源的数据信息，在进行合并时，还需要结合数据格式、变量名称、数据类型等进行一致性处理。在对数据进行清洗作业前，一定要先对原始数据进行备份，避免因数据清洗而带来数据丢失或损坏。二是对数据进行审核处理。根据数据量的实际规模，在数据审核中可采用人工审核、计算机软件审核或者两者相结合方式对数据中的“脏数据”进行校验、处理。三是数据验证与评估。对数据进行清洗后，需要进行科学验证和评估，如果评估后出现偏差，则需要重新优化清洗方案，进行再次清洗。四是对清洗后的数据建立新的数据源备份，便于后续数据挖掘与处理。

二、数据清洗的实际内容及常见问题的处置方法

（一）数据清洗的实际内容

从数据清洗环节来看，主要的清洗技术有人工清洗、计算机清洗、两者联合清洗等。通常，面对非标数据源或者数据量相对较少的情况，可以借助于人工检测方式来进行人工清洗。但对于数据库庞大、数据结构复杂的数据源，可以引入计算机清洗。利用SPSS、SAS、Python 等软件，通过设置校验规则，对数据源中的不同字段的取值范围、缺失值、数据类型、拼写错误检查等进行识别，对离散程度不大的数据源，可以通过数据分布特征或箱线图来进行处理。需要强调的是，在数据清洗过程中，准确性、完整度、现时度、一致度等都是衡量数据清洗质量的重要指标。如某数据以＜e，a，v＞方式进行描述，e 表示实体，a 表示属性，v 表示具体值。准确度就表示为v 值与真实值v'的接近程度。若v=v'，则被认为是准确的，否则，这个值是不准确的。完整度表示为对一切实体的所有属性，其对应值是否完整的程度。现时度是与数据源中的数据信息是否会随着时间的变化而改变，如人的年龄、体重等信息，并非静态的。现时度就是衡量时态数据的一个维度，如果某数据在t 时刻是准确的，如果在t时刻是过期的，则数据的值是不准确的。一致度是衡量数据的值是否与数据模型所定义的约束条件保持一致。在一些商业调查中，数据库中的数据在不同环境下被设计成不同模型，而同一数据在不同数据模型中的表现形式也不尽相同，这就需要对数据进行抽取、整合，来解决数据一致性问题。如某人收入信息字段，一些数据库是以人民币为结算单位，一些数据以美元为结算单位，这就需要对该字段数据一致性进行处理。最后，对于数据清洗，还需要结合数据质量要求，进行数据审核与评估，来提升数据清洗的准确性、完整性、现时度、一致度。

（二）数据清洗常见问题的处理

数据清洗中常见问题主要有异常值、缺失值、样本重复或其他数据类型错误等。通常，在异常值处理中，面对数据样本中的个别值与样本属性值之间存在较大或明显的偏差，从而表现出异常值现象。数据清洗时，可以通过设置箱形图方式，对一些异常值的范围进行设置，通过阈值方式来规避大于或小于箱形图上下界的数值，都给予异常值处理。在处理异常值问题时，一种方式是将异常值转变为缺失值，再进行填补缺失值；另一种方式是直接删除，不做统计分析。一般而言，对调查数据的删除操作要谨慎，因为一些被删除数据可能也是对某种情况的反映，如果盲目删除异常值数据，可能带来调查统计结果的失真。如在对某吸烟群体进行统计调查中，吸烟量中的个别异常数据，可能与烟民所在地区、年龄、职业等有较大关系。如果将这些异常值进行删除，可能会影响分析结果。因此，在数据清洗过程中，对于异常值的处理要审慎，要结合具体的字段、数据类型及调查实际，对相关异常值进行判断分析。异常值数据是否为录入错误，可以通过查看纸质问卷、访谈录音，或者电话联系受访者等方式进行复核。针对录入错误在核实后可以进行直接修改；对于真实的异常值，还应该作为调查统计的一部分。

调查统计中的数据出现缺失值时，其处理方法有以下几种：

1.将空缺样本数据提交给调查机构复核，并补充完整。

2.当样本数量足够大时，可以直接删除，对总体数据影响不大。

3.采用特殊填充方法。结合数据调查内容、属性值类型，根据样本均值、中位数、众数等方式进行填充。当然，特殊填充法本身就对数据带来了影响，因此要合理综合，避免填充值给数据调查带来严重偏差。

4.根据变量间的关系进行推算。如根据行政区划码，填写对应城市信息等。

另外，一些大型统计调查项目在调查中可能会有备用样本，针对一些有异常值、缺失值的数据样本，还可以直接从备用样本中进行补充。针对调查样本中的重复问题，如利用SAS 软件对数据字段进行处理时，可以通过设置比对条件来检查样本是否重复。同样，在对数据进行清洗时，一些变量本身具有重复性，如地区、姓名、电话等存在重复时，可以进行原始数据核查、确认后给予删除处理。针对统计调查中数据清洗时的其他错误问题，如一些字段数据类型不匹配，数据存储格式不合理，拼写错误，单个字段存在多个值，或者数据间存在矛盾性等。对于该类问题，通常需要结合数据样本原始数据，就可能存在的录入错误进行核查，是否存在录入错误、受访者信息是否失真等等。数据清洗时，对一些变量值出现的异常问题，要根据描述性统计信息，分析各个变量的合理取值范围，对于不符合逻辑或存在矛盾的数据进行检测，并进行处理。

三、建议

实际操作中，根据统计调查数据源的规模及数据质量要求，需要对“脏数据”进行分析，并对出现的数据偏差进行处理。总体而言，为提升数据清洗质量和效率，建议做好以下工作：

1.重视数据清洗环节，结合统计调查数据，设置合理、科学的数据清洗方案，提升数据清洗质量。

2.注重对数据清洗人力结构与专业能力的提升。统计调查涉及的数据量大、人员多，对相关人员的专业化水平要求更高。如果不懂统计业务，可能会带来数据录入错误。一些数据在进行清洗时，需要从数据逻辑关系上进行判断，对重要数据进行检验，提升数据清洗科学效度。

3.做好数据清洗流程安排。根据数据清洗要求，细化岗位职责，充分发挥计算机、人工辅助数据清洗优势，保障数据清洗质量。

4.构建统一的数据管理平台，积极引入现代网络、大数据、云平台等技术，对相关数据统一收集、存储、审核、处理，确保数据统计分析质量。