基于EpiData与SAS系统的纸版问卷数据录入质量控制技巧*

2012-03-11 14:01孙玉环
中国卫生统计 2012年4期
关键词:对话框核查标签

孙玉环

传统的纸版问卷调查与CATI、CAPI等计算机辅助调查手段相比较,具有简单方便、成本低廉的优点,目前仍是应用最为普遍的一种调查手段。由于纸版问卷是由访问员手工填写,录入员依照问卷的填写内容直接录入,参与人员任何形式的理解偏误或疏忽,都有可能会产生登记性错误或跳转错误。因此,在数据录入阶段,采取恰当有效的措施,及时防止、发现和纠正数据采集和数据录入环节产生的错误,是提高纸版问卷调查数据质量的重要保证。而EpiData Association开发的EpiData作为一个免费的专业数据录入和数据管理软件,具有界面友好、简单实用、录入效率高、录入质量好等优点〔1〕,SAS系统也因具有完备的数据存取、数据管理、数据分析和展现功能以及高效、灵活的处理海量数据的能力〔2〕,在调研领域有着广泛的应用。笔者在调查实践中处理纸版问卷数据的一般做法是,先利用EpiData程序录入数据,然后导出为SAS格式数据集,再基于SAS系统进行数据清理和数据库的规范整理。

本文将基于EpiData 3.02与SAS 9.2系统,具体探讨纸版问卷数据录入中常用的一些质量控制过程和技巧。具体可以分为数据录入前的准备、数据录入过程中的质量核查和数据录入后的整理三个环节。

数据录入前的准备工作

1.问卷数据的完备性及初级逻辑性审核

在数据录入工作开始之前,首先需要对每一份所回收问卷数据的完备性进行核查,如果发现问卷中存在必填项空缺、字迹模糊、潦草难以辨认、逻辑错误等问题,就需要联系相关督导或访员加以确认,尽可能消除调查环节中的错填和漏填现象,保证所回收调查问卷填写内容的规范、完整和准确,为下一步的数据核查和录入工作做好准备。

2.程序准备

EpiData程序的设计思路是,首先通过简单的文本来定义数据库结构,然后将其转化为录入文件,最后通过设置录入条件来进行质量控制〔3〕。在EpiData中设计数据录入条件时,可以运用以下几个方面的技巧:

(1)基本核对命令的设置 EpiData程序为用户提供了一个基本的“添加核对命令”对话框(后缀为chk),可以直接输入最常用的核查和限定条件。以某调查项目的数据录入程序为例,为变量HHNO(问卷编码)添加核对命令的对话框如图1所示。其中,Range,Legal对话框用于为变量定义一组允许录入的数值,Jumps对话框用于定义逻辑跳转关系,Must enter对话框用于设定当前变量是否必须录入。

图1 “添加核对命令”对话框

虽然EpiData程序为用户提供了添加基本核对命令的对话窗口,但为了实现某些特殊要求,有时还需要打开编辑窗口,直接编写相应的限定录入条件。

(2)问卷编码的唯一性保证 问卷编码的唯一性,是避免问卷重复录入以及进行后续数据处理和分析的必要保证。在打开的“对该字段编辑核对项”的窗口中,为变量 HHNO(问卷编码)增加“KEY UNIQUE 1”限定条件,即可将其设置为关键变量,并根据它为每一条记录创建唯一的索引,确保一份问卷只录入一次(如图2所示)。

(3)特殊变量值的设定 由于问卷调查的复杂性,不可避免地会存在受访者表示不知道、拒绝回答、不适用以及漏填等情况,为了在数据录入时能够灵活应对各种特殊情况,可以对这些特殊变量值做统一规定,用“-1”表示不知道、“-2”表示拒绝回答、“-8”表示不适用、“-9”表示未填答。另外,除开放问题外,字符型变量最好事先转化为离散型数值变量,以数值的形式录入,在数据整理阶段再辅之以值标签的形式表示,这样可以大大提高数据录入的速度。

图2 保证问卷编码唯一性的编辑核对项对话框

(4)规范填充两个跳转变量之间的变量值JUMPS命令的作用是设置有条件的跳转,在JUMPS和END之间,用户通过指定一个合法值,实现在该特定值下跳转到相应的目标字段。一般情况下,两个跳转变量之间的变量值会被自动设定为空或缺失值,此种情况的缺失应为“不适用”情况,但如果事先不做设定,就会与访员漏填、录入员漏录等原因造成的缺失相混淆,给后期的数据清理工作带来麻烦。这时,可以利用“JUMPS RESET-8”命令,把两个跳转变量之间的全部变量值自动填充为“-8”(即不适用)。

数据录入过程中的质量核查

数据录入过程中的质量核查,主要包括对双人录入结果的核查与更正以及变量间的逻辑一致性核查与更正。

1.双录入结果的核查

经验表明,一份包含300个左右选项、难易程度中等的纸版调查问卷,单次录入的错误率约为1%。为了保证数据录入质量,在经费允许的条件下,最好实行双人录入,然后再对双录入结果进行比对。对发现的双录入结果不一致的信息,组织核查员查找原始纸版问卷,依据问卷实际填答情况,更正录入错误的信息。进行双录入核对的前提条件是两个数据库所用关键变量必须唯一,只要其中一个数据库中的关键变量有重复值,就不能进行数据比较〔4〕。双录入结果的核查过程,既可以在EpiData程序中实现,也可以利用SAS程序中的compare过程实现。

(1)基于EpiData程序的双录入结果核查过程的实现。在准备双录入时,利用菜单中的“工具”→“复制数据文件结构”,将已经建立好的数据库的结构拷贝、另存为一个新的数据库,而其中已经录入的数据并不会被拷贝到新的数据库中。双录入完毕后,再进入菜单“其他功能”→“对两个相同数据文件进行有效性检验”,选择要进行比较的两个数据库的文件名,然后设置核查过程中的一些参数。

(2)基于SAS程序的双录入结果核查过程的实现。下面这段SAS程序代码实现的是两次录入结果(one和two两个数据集)基于关键变量hhno的匹配核对过程。运行程序后所查找出来的不一致信息,通过SAS的ODS系统〔5〕,被存储在名为“双录入不一致信息汇总”的excel数据集中。

ods listing exclude all;ods html file=“d:双录入不一致信息汇总.xls”;

data one;set sunny.one;proc sort;by hhno;run;data two;set sunny.two;proc sort;by hhno;run;

proc compare base=one compare=two listall outdif transpose out=clean maxprint=(32700,32700);

id hhno;run;

ods html close;ods listing exclude none;

2.逻辑一致性核查

EpiData程序中所建立的chk核查文件,主要是在数据录入过程中交互式地影响数据的录入,在一定程度上保证了录入数据的合理性和正确性。而逻辑一致性核查,则是在数据录入完毕后,依据问卷各条记录的逻辑关系,通过一次性设置一批核查命令(条件语句),检查数据库中数据的逻辑一致性。逻辑一致性核查既可以在EpiData程序中实现,也可以利用SAS程序实现。对核查程序发现的所有不符合一致性要求的记录,需要通过查找原始问卷、联系访问员或受访者进行确认,如果为录入错误就给予纠正。

数据录入后的整理工作

为方便数据使用者,对已经录入完毕并通过质量核查的问卷数据,还需要进行补充和替换变量值、核查野码、添加变量标签和变量值标签等数据清理和规范整理工作。该过程基于SAS系统完成的效率和质量要远高于EpiData系统和其他统计分析软件。

1.变量值的补充和替换

依据纸版问卷录入数据,即使对“不知道”、“拒绝回答”、“不适用”、“未填答”等情况,都要求访员和录入员分别相应填写“-1”、“-2”、“-8”和“-9”等特殊值,但由于疏忽等种种原因,有时某些数据点依然会显示为缺失(数值变量为“.”,字符变量为空格)。数据清理时,需要针对缺失值产生的不同原因,逐一或逐类进行补充和更正。对能够判断为不适用的情况,可以利用SAS程序统一赋值为-8(不适用);对能够判断为应填未填的情况,可以利用SAS程序统一赋值为-9(缺失值)。如果在数据录入时,事先并没有在EpiData程序中把两个跳转变量之间的全部变量值自动填充为“-8”,那么选项跳转涉及到的变量值也会显示为缺失,这时也需要统一将其赋值为-8。

2.核查野码

由于调查执行过程的复杂性,对汇总后的调查数据,还需要通过查看所有变量的频数分布和描述性分析结果,查找并更正各变量可能存在的野码以及过大或过小的奇异值,比如父亲的性别为女、住房面积超过1000平方米等,这种错误基本上是由于访问员的填写错误造成的。

3.添加变量标签和变量值标签

由于从EpiData程序中导出的数据只存储了变量的简单描述,为方便数据使用者,可以为全部变量添加完整的标签进行说明,标签的一般设定格式为“变量名+问题完整描述”;对于离散型数值变量,还应为变量添加值标签。

1.胡静.EpiData软件的特点及使用简介,疾病监测,2006,21(5),273-275.

2.姚志勇编著.SAS编程与数据挖掘商业案例.北京:机械工业出版社,2010,1-2.

3.郭海涛,张泽,解宏伟.EpiData软件与Stata软件数据文件的转接,软件导刊,2010,9(3),15-16.

4.郑文新,汪文新.EpiData软件在流行病学调查中建立数据库的应用,数理医药学杂志,2005,18(5):486-497.

5.修良昌,丁元林.SAS中网页格式输出的实现,中国卫生统计,2009,26(2):210-211.

猜你喜欢
对话框核查标签
关于设计保证系统适航独立核查的思考
基于无人机影像的营造林核查应用研究
正常恢复虚拟机
Bootlace Worms’Secret etc.
What Is Beauty?
无惧标签 Alfa Romeo Giulia 200HP
自动化事实核查的前景及局限性
不害怕撕掉标签的人,都活出了真正的漂亮
浅谈VB的通用对话框《CommonDialog》控件的使用
让衣柜摆脱“杂乱无章”的标签