基于并行数据的调查质量管理

2016-02-10 18:06丁华任莉颖严洁
统计与决策 2016年20期
关键词:校验录音受访者

丁华,任莉颖,严洁

(北京大学a.中国社会科学调查中心;b.政府管理学院,北京100871)

基于并行数据的调查质量管理

丁华a,任莉颖a,严洁b

(北京大学a.中国社会科学调查中心;b.政府管理学院,北京100871)

计算机辅助调查方法(Computer一assisted Personal Interview,CAI)的应用产生了一类传统纸笔调查方法无法采集到的并行数据,该类数据对于调查实施的监控、调查质量的提高和调查方法的改进起到了非常重要的作用。文章着重分析并行数据的类型、采集方法及其在调查质量管理中的作用。

并行数据;计算机辅助调查;调查质量管理

0 引言

并行数据在国外调查领域的研究和应用已经有数十年的历史,并越来越受到研究者和调查管理者的重视。随着学者对并行数据的开发和挖掘,许多有价值的研究结果已被应用到社会调查质量管理中,如使用访员观察记录评估由于拒访造成的数据误差[1],使用网络调查客户端设计收集的并行数据研究页面设计对受访者回答问题方式的影响[2];在调查过程中利用并行数据对拒访行为进行研究并动态调整调查策略,提高调查覆盖人群的人口学代表性[3];利用并行数据研究并预测访问联系的最佳时间以提高应答率[4,5]。研究表明,并行数据的采集和应用对于调查过程中数据质量的监控、调查策略的及时调整、以及数据质量的科学评估和误差的有效校正具有非常重要的作用。

近年来,国内政府相关部门和学术调查研究机构积极探索与国际调查先进水平接轨的途径,开始在大型调查中引进国外成熟的计算机辅助调查技术并结合国内调查特点进行自主研发,成功进行了多个全国规模的大样本计算机辅助入户面访调查。如“中国家庭动态跟踪调查(以下简称CFPS)”,“中国健康与养老追踪调查”(CHARLS),“中国家庭金融调查”(CHFS)等。

并行数据伴随着问卷数据采集的过程而产生,此类数据的应用促进了调查管理方法的改进,对调查效率和数据质量的改善产生了较为重要的影响。近年来,随着学者对并行数据的开发和挖掘,越来越多的研究结果被应用到调查质量的评估和改善中。本文将以采用计算机辅助面访模式的全国大型跟踪调查CFPS为例,对CAPI模式中并行数据的采集及其对调查质量的改善作用进行分析,以期对此类数据在调查领域的推广和潜在价值开发做初步探讨。

CFPS项目是中国首个在家庭、个人和社区三个层面上收集数据的长期跟踪调查项目,也是国内首个使用计算机辅助调查系统进行全国规模大样本调查项目,在数据调查领域具有重要地位。在获得大量问卷数据的同时,CFPS自2009年开始设计并收集了丰富的并行数据,已经逐步在调查质量管理中进行应用。CFPS设计并采集的并行数据类型主要包括:(1)联系和观察数据;(2)访问过程中的录音文件数据;(3)键盘操作痕迹数据; (4)访问场景控制数据;(5)整份问卷访问时长和每题访问时长数据。本文将就这五种并行数据在调查数据质量改善和提高方面发挥的应用进行详细分析。

1 联系和观察数据

联系数据的内容涉及到联系方式、联系时间和联系结果三方面,联系数据的采集大都设计在调查问卷开始之前以及问卷中断时。根据CFPS项目设计要求,访员会将每次与受访者联系的方式(如面访、电访、信件沟通)、联系时间(精确到年、月、日、分钟)以及联系结果在计算机访问系统中作登记。联系结果的记录是采用选择一系列联系结果代码的方式进行,如未联系到受访者(包括敲门/按门铃无人应答、无法进入单元楼/小区、无法通过电话取得联系等),联系到受访者(包括预约访问时间、拒访、受访者身体原因无法访问等),以及最终联系结果代码选择。在子代码下还可以进行下一级信息选择和填写,如约访时间选择、拒访原因选择等。通过此类数据的采集,可以在两个方面对调查管理和数据质量起到改善作用:

(1)通过与受访者联系方式、时间和结果数据分析,可以研究联系方式和时间段对应答率的影响,并可以进一步跟受访者城乡、年龄、性别属性做相关分析,获得针对不同人群的最佳联系方式和联系时间段的分析结果,对访员的联系行为进行指导,提高接触率和应答率。

(2)通过联系结果的记录和实时回传,可以及时对受访者接受访问的意愿进行干预,如给不同类型的拒访者寄送项目宣传册、基于项目数据的出版物、礼品等,对受访者拒访的意愿进行逆转,降低拒访率。此外,在访问过程中中断的问卷,通过插入联系记录,可以帮助项目管理者了解中断的原因,并指导访员采取恰当的措施继续完成访问。

(3)通过对联系结果的实时分析,可以全面了解访员在工作现场接触样本的情况和努力程度,帮助项目管理者及时对访员的行为进行指导,促使访员更有效的接触并劝说受访者接受访问。

除了联系记录外,在访问过程中还可以采集观察数据,观察内容包括受访者社区环境、家庭环境、受访者参与访问的兴趣、理解能力和配合程度、受访者对调查的疑虑和回答可信性等方面。通过此类并行数据的采集和分析,可以了解受访者参与调查的态度并对问卷数据的可信性进行评估。

2 访问过程中的录音数据

在计算机辅助的调查中,可以非常方便的在系统中嵌入录音程序,随着技术的不断升级改进,在CFPS项目访问系统中还能够实现定题录音和定题回放。在访问过程中,在征得受访者同意并请受访者签署知情同意书后,可以开启计算机录音程序并获得清晰的录音文件。录音数据的采集和利用对于调查质量的改进及评估研究非常重要,主要在四个方面发挥作用:

(1)监测访员的臆答行为。臆答行为是指访员在访问过程中有意不提问某些题目而自行填答的访问行为。这种在调查过程中普遍存在的作弊问题在传统纸笔调查中很难被发现,在CAPI模式下,通过对录音数据进行及时核查可以监测到访员的臆答行为并进行针对性的干预,改进访问数据质量。研究结果显示,根据并行数据分析结果对访员进行干预后,臆答问卷的比例会显著降低[6]。此外,还可以分析臆答发生的题目特征,对于问卷题目设计的改进起到参考作用。

(2)监测访员的诱导访问行为。为了节省访问时间、不引起受访者反感或因为访员对题目理解不清,访员在访问过程中会发生扭曲题意、简化题意或催促受访者快速作出回答的各种诱导访问行为。通过录音文件的回放和并行数据分析,能够发现访员发生诱导行为的程度、研究诱导行为对数据质量的影响并对此类行为进行及时干预。

(3)监测访员的捷径跳转行为。在访员对问卷有足够的熟悉程度之后,会发生在关键跳转题目上的故意漏问、错误记录答案及诱导行为,以达到跳走大量题目,快速完成问卷的目的。通过录音文件的监听和并行数据分析,可以及时发现访员的此类行为并进行干预,同时对调查数据的质量进行评估和修正。

(4)录音率数据。访员是否努力劝说受访者接受录音、访员的问卷平均录音率、各初级抽样4位的整体录音率等数据的分析,能够较为客观的反映访员访问的认真程度和采集问卷数据的真实性。在跟踪调查中,还可以比较分析不同访员在同一抽样单位的录音率差异,发现因访员因素造成的数据质量问题。

3 操作痕迹数据

在传统纸笔调查中,是采用将问卷中涉及到的专有名词、关键概念或术语的解释印制成访员使用手册的方式,供访员在访问中查看。但在实际访问过程中,在访员手册中查找某一名词解释非常浪费时间,也容易引起受访者的反感和不信任感。事实上,由于操作的不方便性造成很多访员并不会在访问中使用此类手册。在CAPI系统中,可以在需要术语/概念解释的页面加入F1键并进行标识,在调查过程中,访员可以非常便捷地通过按F1键打开定义描述的小对话框获得相关信息并对受访者做出正确的解释。在CAPI系统中,访员是否调用F1访问帮助以及调用的频率等相关数据可以通过键盘回放的方式获得。此类数据的采集和研究,一方面可以帮助调查管理者考察访员访问的认真程度,掌握F1调用频率随调查问卷份数增加而减少的一般趋势,并进一步对数据质量进行评估。另一方面,从问卷设计的角度看,F1被使用的频率、借助F1是否可以增加受访者对题意的理解,能够从一定程度上反映问卷题目设计的科学性和易操作性,有助于问卷设计和F1设计的改善。此外,结合录音数据,能够判断访员是否能在不借助于F1的情况下对专有名词和术语进行恰当的解释,以此判断培训效果并针对性的对培训课程进行改进。

除F1外,CAPI系统中可以通过键盘回放手段获取的另外一个操作痕迹数据是提示性校验(SoftCheck)和强制性校验(Hard Check)的使用频率和方式。“提示性校验”的主要目的是对访员录入的异常值进行提醒性的检验,如受访者家庭住址距离公交车站的距离超过100公里,系统会根据答案值域的事先设计跳出对话框对访员的录入进行提醒,访员可以选择强制通过检验进入下一题,或者回到原题对错误的录入进行修改。“强制性校验”的主要目的则是对常识性错误答案或前后题目填答逻辑不一致的答案进行提示,如CFPS家庭问卷中询问“您过去一年住院总共住了多少天”,如果输入400,系统会跳出强制性校验对话框,在该种校验模式下,访员必须要对录入的答案进行修改才能跳至下一题。通过键盘回放对两类校验出现的频率和访员操作痕迹数据的采集和研究,可以对校验手段对修正错误数据、改善数据质量的作用进行评估并对校验设计改进。从CFPS的调查经验来看,过多的校验设计会引起访员操作的不便,在访员熟悉问卷流程之后,提示性校验较容易被访员习惯性地强制跳过,无法达到提醒访员修改错误的目的。但如果不做校验设计或校验设计不足,又会导致过多逻辑错误或常识错误的出现。因此,充分利用和挖掘操作痕迹数据,在必要的题目上设计合理的校验提示类型和内容,对调查数据质量的提高和改善将有重要价值。

4 访问场景控制数据

在面访调查中,应答率的下降已经成为各类调查机构普遍面临的问题。如果无回答是在非随机情况下发生的,会导致误差产生并削弱调查数据的质量。如何通过各种方式减少无回答或者调查结束后进行无回答误差修正越来越成为调查研究方法领域内关注的热点。在诸多方法中,利用访问场景控制减少无回答并对无回答误差进行估计和调整已备受研究方法学者关注。相关的设计和研究在大型调查中实施和讨论,如欧洲社会调查(European Social Survey,ESS)、全国健康访问调查(National Health Interview Survey,NHIS),美国家庭成长的全国调查(National Survey of Family Growth,NSFG)等。通过对此类辅助性的并行数据的采集,可以从两个方面对访问质量的提高起到重要作用:(1)分析访问场景对受访者回答敏感题、困难题、态度题的影响,研究提高问题应答率的方式方法;(2)使用访问场景控制数据对无回答误差进行估计和修正。

2010年CFPS全国初访调查中在所有问卷中设计了访员观察题目,这些题目包括对村居环境、受访者状态和对调查的态度、访问时在场他人的观察。在此基础上, 2011年的跟踪调查进一步在问卷设计上做了改进,增加了无回答率较高的敏感题、困难题、态度题的情境类观察,如他人在场、访问地点、访问时机、回答真实性判断等。对该部分的并行数据分析结果显示,访问过程中的他人在场会导致受访者在敏感题目上会有更多的无回答。在开放场所中,受访者在敏感题目上会有更多的无回答,说明公共场所会增加受访者对此类题目的敏感性。因此,在敏感题、态度题和困难题的访问过程中,应尽量避免他人在场,避免在不适合的场所,以减少访问环境压力对访问结果的影响,提高应答率。此外,除了有效控制访问物理环境外,应该构建适合的访问软环境,如对受访者的回答状态进行敏锐观察,对于访问时机不合适导致受访者产生不耐烦情绪的要及时结束调查另约访问时间。同时,应通过访问技巧提高其对调查的兴趣,减少其对访问的疑虑,并选择合适的访问时机。同时,对访员的甄选应该更加严格,挑选能够有效控制访问环境、可以引导受访者在适当的氛围下接受访问并给予访问配合的访员,以提高回答率。

通过对访员观察数据和访问数据的关联性分析,能够深入了解访问情境对受访者接受访问意愿以及回答敏感题、困难题、态度题意愿的影响,并通过改进访问策略提高访问质量和数据质量。

5 访问时长数据

在CAPI模式中,计算机能够记录每份问卷开始的时间、问卷中断的时间以及问卷结束的时间。除此之外,计算机系统还能记录访员在每一个问题上停留的时间,由此获得的并行数据在CFPS项目中被称为TIEQ(Time of each questions)[7]。在执行过程中,通过事先编制的程序,调查管理者可以每天看到访员的采访时长和TIEQ数据,该两类并行数据的采集,对于评估数据质量,改进问卷设计,及时干预访问行为将起到非常重要的作用:

(1)通过计算每位访员整份问卷的平均采访时长与所有访员的采访时长数据的差值,可以及时发现某些访员可能存在的作弊行为,在进一步通过电话核查或录音核查进行验证后,给予相关访员相应的干预措施,保证调查质量。此外,通过分析问卷整体时长随着调查问卷份数增加而减少的趋势,并参考质量核查数据,可以研究访员熟练程度对调查时长和调查质量的影响,并制定有效的执行管理方案和重要节点干预方案,提高数据调查质量。

(2)TIEQ数据核查在CFPS项目中被设计为所有核查的起点,即所有问卷都要先进入TIEQ核查程序,由于TIEQ核查对问题问卷具有非常高的敏感性,能够准确的判断访员臆答和提问不规范、不完整等作弊行为,这对于问题问卷的有效筛选和核查效率的提高,有非常大的帮助。

(3)通过TIEQ数据的分析,可以筛选出问卷中耗时时间最长和最短的题目,对该类题目进行分析,通常能够发现问卷设计的问题,这对于研究者及时改进问题提问方式,获得更高质量的数据有重要价值。

从某种程度上,时长并行数据是监测访员行为最有效的、最敏感的工具。尤其是TIEQ数据,能够非常直观地发现访员易产生臆答、虚假访问、捷径跳转的问题题目,并进行有效的干预。从另一方面看,分析大多数访员易发生TIEQ问题的题目,可以反映问卷设计和调查执行设计中存在的问题,并对问卷相关题目和执行流程设计进行针对性的改善。

6 结语

数据质量是调查数据的生命线,如何提高数据质量,如何对调查数据质量进行评估成为调查领域关心的热点问题。在计算机辅助的调查中,先进科学技术的应用使得并行数据的采集成为可能。从CFPS项目的全国调查经验看,对并行数据的及时分析和有效利用能够在调查执行流程各环节对调查质量的改善起到积极的作用,也能够对该项目下一波跟踪调查或其他项目调查的问卷设计、调查方案设计、核查方案设计等方面提供有效的改进建议。

在充分挖掘现有并行数据使用价值的基础上,应该根据各类调查项目的共性,并结合不同调查项目的独特特性对并行数据采集的类型和方式进行整合设计,以更好地发挥并行数据在评估和改善调查数据质量以及提高调查管理水平方面的重要作用。

[1]Groves R M,Couper M.Non一Response in Household Interview Surveys.New york.1998.

[2]Stern M.J.The Use of Client一side Paradata in Analyzing the Effects of v isual Layouton Changing Responses inw eb Surveys.Field Methods,2008,20(4).

[3]Axinn w G,Link CF,&Groves RM.Responsive Survey Design,Demographic Data Collection,and Models of Demographic Behavior[J]. Demography,2011,48.

[4]Durrant GB,D'Arrigo J,Steele F.Using Paradata to Predict Best Times of Contact,Conditioning on Household and Interviewer Influences[J].Journal of the Royal Statistical Society.Series A,Statistics in Society,2011,174,1029.

[5]Oliver L.A Note on Improving Contact Times in Panel Surveys[J]. Field Methods,2012,24(1).

[6]严洁,邱泽奇,任莉颖,丁华,孙妍.社会调查质量研究:访员臆答与干预效果[J].社会学研究,2012,2.

[7]李力,丁华,任莉颖,孙玉环.浅谈计算机辅助调查中采访用时数据的利用[J].中国统计,2012,9.

(责任编辑/易永生)

O212

A

1002-6487(2016)20-0032-03

教育部人文社科基金资助项目(13y JC840006)

丁华(1979—),女,山东日照人,博士,副研究员,研究方向:社会调查研究方法。任莉颖(1973—),女,河北三河人,博士,副研究员,研究方向:社会调查方法与数据挖掘。严洁(1973—),女,吉林通化人,博士,副教授,研究方向:社会调查方法与数据挖掘。

猜你喜欢
校验录音受访者
今天,你休闲了吗?
关于安全,需要注意的几件小事
低碳生活从我做起
使用Excel朗读功能校验工作表中的数据
五成受访者认为自己未养成好的阅读习惯
Funny Phonics
funny phonics
Listen and Choose
Listen and Color
炉温均匀性校验在铸锻企业的应用

统计与决策2016年20期

统计与决策的其它文章
本期导读