杨飞
(浙江省统计局民生民意调查中心,浙江杭州 310012)
研究探索
移动电话抽样在CATI调查中的应用与实践
杨飞
(浙江省统计局民生民意调查中心,浙江杭州310012)
本文在理论和实践相结合的基础上,结合2014-2015年多个政府满意度调查实例,从定性和定量的角度对当前的CATI调查抽样技术进行较为初步的总结,对移动电话抽样技术在CATI调查中的实践与应用做了归纳,并对CATI中存在的误差问题进行了分析。
移动电话抽样;CATI;实践
在政府决策过程中积极开展民意调查工作,倾听民众呼声,吸纳民意,积极引导人民群众参与政府决策和公共服务管理,充分发挥人民群众在建设中国特色社会主义事业中的主体地位和作用,是当前推进服务型政府建设、不断改进政务工作的重要途径;是提高政府决策科学化、民主化程度的重要环节;同时又是提高政府决策透明度和民众参与度的重要举措。近年来,随着居民隐私保护和安全防范意识的增强,入户调查访问的配合程度一直呈下降趋势,特别是城市市区的入户调查,小区保安制度越来越严格,居民楼门禁系统的应用越来越多,居民户的防范意识越来越强,调查员入户难度也越来越大,由此带来了较大的调查样本分布误差。面对入户难问题,各地的统计调查员普遍采用由社区干部或地方工作人员陪同入户的方法来降低拒访率,提高入户成功率。但由此带来的问题是,对于涉及到地方政绩考核的敏感性指标,受访者由于顾虑到有当地政府工作人员在调查现场,往往不敢作出真实意愿的表达,从而影响到调查结果的可信度。
CATI调查是新兴事物,就目前来看,其主要优点是:调查成本低,调查效率高,而且调查全过程由计算机主导,能较好地避免人为因素对调查数据的影响,调查结果客观公正。但电话调查由于自身的特殊性,存在问题内容不能过于深入、问题数量不宜过多等限制,而且从近年来的调查实践来看,还面临拒访率增加、样本代表性变差等问题,亟待解决。
当前,大多数CATI调查出于调查样本定位(通常要求定位到县一级,移动电话抽样定位上暂不支持)和调查样本代表性(通常要求访问者为本地常住居民回答)的考虑,多仅采用固定电话局号抽样的方法。近年来,随着移动电话的快速普及,固定电话普及率一直呈逐年降低趋势,据国家统计局2016年2月发布的《2015年国民经济和社会发展统计公报》显示,2015年末全国电话用户总数达到153673万户,其中移动电话用户130574万户,固定电话用户23099万户,移动电话普及率上升至95.5部/百人,固定电话普及率下降至16.9部/百人。浙江省统计局、国家统计局浙江调查总队同月发布的《2015年浙江省国民经济和社会发展统计公报》显示:2015年末浙江省移动电话用户7466万户,比上年增加95万户,移动电话普及率为135.6部/百人;固定电话用户1500万户,减少142万户,固定电话普及率27.2部/百人。而近十年的统计数据也显示:浙江省的固定电话普及率已由2006年的48.0部/百人减少到2015年的27.2部/百人,全国的固定电话普及率由2006年的28.1部/百人减少到2015年的16.9部/百人;另一方面,浙江省的移动电话普及率由2006年的60.5部/百人增加到2015年的135.6部/百人,全国移动电话普及率由2006年的35.3部/百人增加到2015年的95.5部/百人。由此不难看出,固定电话的抽样人群代表性误差正逐年增大,当前仅使用固定电话局号抽样已很难满足CATI调查发展的需求,在CATI抽样中引入移动电话抽样是当前CATI调查的必然趋势。
图1 2006-2015年固定电话及移动电话普及率变化情况(部/百人)
(一)CATI调查中常用的抽样方法
根据CATI调查的特点,抽样方法既可以是概率抽样也可以是非概率抽样,然而在实际操作中,严格意义上的概率抽样几乎无法进行,所以非概率抽样一般更具有实践意义。常用的CATI电话号码的抽取方式有以下几种,每种方式的限制条件不同,各有利弊。
1.电话全码抽样。电话全码抽样又称电话号码本抽样(sampling telephone directory),是把合适的、包括完整的电话名录作为抽样框,采用随机抽样或系统抽样的方式随机抽取电话号码。采用该抽样方式,出现所拨号码为空号、停机、传真电话等无效号码的情形比较少。如湖南省统计局联合本地移动运营商建立了覆盖全省的移动电话全码资源;浙江省台州市统计局联合台州电信建立了覆盖全市全体电信用户的固定电话全码资源。采用全码抽样方式具有空号率低、执行效率高、样本代表性好等优点,但需要注意的是,当前固定电话和移动电话的普及率正处于快速变化的阶段,如不能及时更新样本框,则会出现新入网的用户因未纳入样本框无法被抽取,停机减少的用户无法在样本框中被剔除而造成抽样效率下降等现象。以浙江省为例,《2015年浙江省国民经济和社会发展统计公报》显示:2015年底移动电话用户比上年增加95万户,平均每月增加7.9万户;而固定电话用户比2014年底减少142万户,平均每月减少11.8万户。如果样本框更新不及时,抽取样本的代表性和抽样的执行效率就会受到影响。因此,如果要利用电话全码进行抽样,为保证抽样人群的代表性、科学性,必须及时更新作为抽样框的电话号码目录,如协调相关通信管理部门或运营商,按半年度或年度更新一次。
需要指出,由于中华人民共和国工业和信息化部2013年公布的《电话用户真实身份信息登记规定》中规定“电信业务经营者及其工作人员对在提供服务过程中登记的用户真实身份信息应当严格保密,不得泄露、篡改或者毁损,不得出售或者非法向他人提供,不得用于提供服务之外的目的。”即便是政府部门出于公益性要求的调查需求,真正能从通信管理部门或者运营商处拿到一个地区完整的电话名录的情况并不多。因此,实际中很少采用这种方法。
2.固定电话局号随机抽样法。目前,我国的固定电话号码是由区号、局号(四位或三位数字)加后四位数字构成的,如浙江省内的杭州、宁波和温州等城市,区号为四位0571、0574和0577,这三个市内电话号码为八位,局号为四位,后四位是局号后数字;另外还有一些城市如浙江的湖州、舟山和丽水,区号分别为0572、0580和0578,这三个市内电话号码为七位,局号为三位,后四位是局号后数字。就每个地区而言,区号是唯一的、固定的,而局号抽样框可通过与电信部门联系或查找有关资料找到,局号后的四位数字则可通过计算机软件自动随机生成。这种抽样方法的随机性很强,样本的代表性与实际相对较吻合,在国内外的民意调查实践中经常被采用。目前全国统计系统普遍采用的就是这种后四位号码随机生成的抽样方法。浙江省统计局民生民意调查中心自2008年开始探索6位电话局号抽样方法,从全省统计系统基本单位名录库中提取6位电话局号作为调查样本框,并按年度进行更新,目前6位样本框中全省共有不重复局号段28.86万条,覆盖全省11个设区市、90个县(市、区)。与4位电话局号相比,6位电话局号具有以下特点:(1)定位信息全。目前6位电话局号理论上已可支持定位到社区(村)一级,但定位差错率还较高,但对于定位街道(乡镇)的要求已能较好满足。(2)定位效率高。监测数据显示,目前6位电话局号定位县(市、区)差错率相对较低,定位准确率更高。(3)空号率低。采用后四位(或两位)号码随机生成的抽样方法随机性非常强,不可避免地出现了较高的空号率,但通过CATI系统自带的智能预拨号和空号过滤系统,可以将系统随机生成的空号等无效号码快速过滤,提高执行效率。目前6位电话局号抽样抽中的空号率相对低些,相应的抽样执行效率也更高一些。
3.移动电话局号随机抽样法。目前移动电话号码组成是由局号(前七位数字)加后四位数字构成的,通过七位的移动电话局号已可确定号码归属地、运营商名称等信息,如“1370571”的局号段,定义为杭州市移动通信公司的全球通卡。因此,在配置了全省7位移动电话局号样本框后,再采用后四位号码随机生成的方法也能对移动电话用户进行CATI抽样访问。在移动电话样本框配置方面,2014年5月,浙江省统计局民生民意调查中心在省通信管理局的大力协助下,建立了包含三大移动运营商(移动、联通、电信)覆盖全省11个设区市的移动电话号码局号段,并按年度进行更新。目前在用的7位样本框中全省共有局号段16747条,覆盖全省11个设区市、90个县(市、区)移动电话用户。需要特别注意的是,移动电话局号随机抽样法与固定电话局号随机抽样法相比,目前7位移动电话局号只支持定位到设区市一级,如果需要定位到县(市、区)或者街道(乡镇),必须通过访问员人工询问受访者来进行确定。
需要指出,局号后可排列出来的四位数字并不都是有效电话号码,通信管理部门或运营商在发放号码时不会一次把所有电话号码都分配出去,通常考虑到未来的发展,会预留一定的号码;另外由于所处地理位置的不同,每个局号下的电话的数目也是不同,如商业区局号下办公电话多,住宅电话少;而处于居民区的局号,则是住宅电话多,办公电话少。由于每个局号下所包含的电话数目是不同的,所以不同局号下的电话号码被抽中的机会不同,比如以135、136、137、138、139等开头的移动电话局号肯定比147、157、177、187开头的局号所包含的有效号码要多。因此,为保证抽样样本近似于自加权样本,理论上此阶段要事后加权,事后加权系数等于每个局号下电话数目占全部电话号码数目的比例,但实际上这个数据没有办法得到,只能利用拨打电话时获得的有关记录(如每个局号下有人接听电话的比例)去估计,并在今后的调查实践中不断完善样本框。
全国社情民意调查系统对移动电话抽样的官方实践探索起源于2014年。2014年6月,国家统计局社情民意调查中心在其组织的2014年上半年全国安全感调查中首次使用了移动电话抽样调查。调查中对移动电话的抽样采用全码抽样方式,即根据有关部门提供的移动电话号码库(非全体样本库,是按照设区市样本配额1比10提供的部分样本库),按照分层随机抽样的方法完成规定的样本数量。为保证调查数据前后年度的可比性,2014年上半年全国安全感调查移动电话样本占全体样本的比例为12%,下半年为18%,2015年上半年为23%,下半年为30%,移动电话样本比例占总体样本的比例呈现递增趋势。
浙江省统计系统对移动电话抽样的探索也开始于2014年,浙江省统计局民生民意调查中心在自主组织的全省民生改善居民感知度调查中首次尝试使用了移动电话抽样调查,调查采用的是移动电话局号随机抽样调查方法,通过分层抽取移动电话局号,后四位由CATI系统随机生成的方式,在定位受访者居住地时,采用人工询问确定的方法。调查中移动电话样本占总样本量的比例为25%左右。此后,还在多个省委省政府及其相关部门的委托调查和自主调查中尝试使用了移动电话抽样,如2015年3月的全省法治建设群众满意度调查,移动电话占社会公众样本量的10%;2015年5月的全省社会道德环境和公共文化服务公众满意度调查,移动电话占总样本量的15%;2015年11月的平安浙江群众安全感电话调查,移动电话占总样本量的20%等等。
作为一种调查方法和技术,CATI已在欧美发达国家使用了30多个年头,目前国际上90%以上的社情民意调查是采用计算机辅助电话调查系统(CATI)开展的。现如今,CATI理论及技术已经相当成熟,并广泛地应用于多种调查研究领域,如政府公共服务的满意度调查、政府政策的成效评估、企业品牌知名度研究、服务质量跟踪调查及选举支持率民意测验等等。虽然CATI调查具有其他传统民意调查所不具有的许多优点,但限于CATI调查是通过电话进行的,存在访问主题不宜过于深入、访问时间不宜过长等不足。另外,CATI调查在抽样过程中还存在一些问题,主要是误差问题,应该引起重视。
在CATI调查的执行过程中,主要存在两类误差:抽样误差和非抽样误差。抽样误差在统计学上已经有一套比较成熟的理论与方法,这种误差是不可避免的,它会随着抽样规模的增加而减少,并可以根据一定的置信水平来估计抽样误差。而与之相比的非抽样误差就很难测定和评价。实际上,CATI调查的质量控制主要就是对非抽样误差的控制。非抽样误差包括样本设计误差和计量误差。样本设计误差是在样本设计或样本抽样中而产生的误差,如空号误差,每个CATI调查中都会存在相当数量的空号或无效号码,这些号码可能是系统随机生成的空号,也可能是近期才停机的号码,如果这部分号码所对应的个体分布与调查总体分布存在显著差异,则必然出现调查的系统性偏差,但这并不是CATI调查误差的主要来源,CATI调查的误差主要是来自于计量误差。计量误差是所得到的计量结果与原始真实信息不符而引起的差异。与传统的调查方法相比,由于CATI调查全过程的智能化设置,可以大大减少调查员由于工作疏忽造成的计量误差和登记、汇总等过程中产生的计量误差,CATI调查的计量误差主要包括:拒访误差和回答误差等。
1.拒访误差。拒访误差是指由于被调查中部分个体不愿意或者无法完成调查或者被调查者有能力回答而未回答而产生的误差,目前拒访现象一直存在并保持在较高的水平,并且拒访个体具有相对同质性,从而又导致样本的代表性问题。拒访的原因一般包括:如由于监管缺位,当前电话诈骗、电话营销等不良现象比较猖獗,受访者在接到电话访问后容易对电话访问产生强烈的防备心理,被调查者很容易把这种情绪转嫁到调查上,从而拒绝配合进行调查;另外对于一些综合性复杂性比较高的调查主题、或者指标设置不合理,指标、选项过长过多的调查,被调查者认为回答问题比较麻烦,不愿意接受调查等等。
2.回答误差。如果被调查者在某一特定问题的回答中有特定的偏向,就容易产生回答误差。回答误差的产生有两种基本形式:有意识误差和无意识误差。有意识的误差产生是由于被调查者故意对所提问题做出不真实的回答。他们可能是隐瞒他们认为属于个人隐私的内容,比如,在一个有关政府办事窗口的满意度调查中,被调查者对于过去3个月内去过几次办事大厅,他可能记不清了,但对于这类问题,他们可能宁愿进行简单的推断,也不愿意写上“不知道”。无意识误差是指被调查者希望能够给出真实准确的回答,但却给了不正确的答案,这种类型的误差可能是由于问题的格式、内容或概念偏差所造成的。
对于在CATI调查过程中存在的误差问题,根本措施还是在于完善调查方案设计的科学性。合理设计调查问卷对于CATI调查起到至关重要的作用。为了减少回答误差,对问卷的要求就更为严格,问卷力求能够更易于理解,来保证被调查者填写准确而真实的回答;问卷的内容也需要简明扼要,答题形式要力求简单,方便操作,最好全部使用选择式答题,避免出现开放性问题。同时,要努力争取被调查者的合作,给予被调查者适当的奖励和答谢,比如赠送话费、积分兑换等,这将有利于被调查者参与CATI调查的积极性。
(责任编辑:牛域宁)