张 华
(山西财经大学 统计学院,山西 太原 030006)
调查误差是指抽样调查指标结果与总体指标真实值之间的离差。抽样调查与调查误差如影随形,抽样技术的更新过程常常伴随着调查误差的减小。一项调查的好坏往往与成本、难易程度和质量相联系,其中调查质量主要通过误差衡量。不同于成本与难易程度这类显性因素,误差在调查中无法直观判断但是又贯穿在整个调查流程中,因此可将调查误差形容为隐秘的、细节化的但是起决定性作用的质量因素。
数字化信息技术的发展衍生出“大数据”(Big Data)概念,对该概念的直观解读为海量的、盈千累万的数字信息,从直观含义可引申出其定义,即“大数据”是指呈指数型爆发式增长的、内部结构复杂的有机数据。Groves(2011)[1]指出有机数据是与设计数据相对应的概念,前者是在不受控制的自然条件下产生的,后者则是通过向被调查者提出基于预先设定的目的和用途的问题收集而来的、由调查行业创造的数据,相比之下,有机数据中冗余数据比较多,而设计数据的信息与数据比率则比较高。基于调查的设计数据如何在有机数据丰富的背景下发挥作用,是目前学者们研究的热点话题。
网络调查形式的推广为有机数据与设计数据的结合提供了载体。网络调查获取数据的作用机理是通过抽丝剥茧的方式将潜在的有机数据转化为设计数据,通过这种调查形式获得的数据既拥有有机数据成本低、易获取的优点,也符合调查数据信息与数据比率高的特点。研究人员对信息的出现是敏锐的,网络硬件设施的建设和软件的发展推动了网络普及化,设计数据的获取逐渐由线下调查转移到线上,网络调查成为了调查界的“新星”。网络调查形式区别于传统的概率调查形式,实践中常用的网络调查属于非概率调查,传统概率调查已经具备一套相对成熟的调查质量衡量标准,而非概率调查尤其是新兴的网络调查,由于出现时间较短、发展较快,其调查质量衡量体系的构建速度追不上调查形式的更新速度。针对调查误差的讨论是抽样调查统计推断亘古不变的话题,无论是概率抽样还是非概率抽样,不论是传统调查形式还是新兴调查形式,评价调查模式的好坏主要依靠质量衡量体系,因此在网络调查快速发展的今天,针对其误差的讨论迫在眉睫。本研究以开放式Web调查为例,提出新形势下网络抽样样本选择机制,依据样本的选择过程给出网络调查的非抽样误差构成,以期为非概率网络调查数据质量指标体系构建与统计推断问题提供解决思路。
对网络调查误差进行讨论前,需对网络调查概念及分类进行界定。相关研究指出,现阶段有关网络调查概念的使用情况较为混乱,不同行业、不同领域的研究人员对网络调查内涵的理解不同(Bethlehem and Biffignandi,2012;牛成英,2019;Kiera,2020)[2-4],根据具体应用场景和研究领域将网络调查的概念分为两种。一种是通讯信息领域针对互联网使用情况的调查。这类调查一般只做描述性统计,主要任务是通过收集调查数据了解互联网当期使用情况,测量网站流量,统计分析用户的数量和特征。例如,中国互联网络信息中心每年发布的《中国互联网络发展状况统计报告》统计了网络使用者(或称网民)的来源、人口学信息等。另一种是将互联网络作为调查信息发布与数据收集的平台,这种网络调查形式改变了传统调查的统计工具,将之前的线下纸笔问卷调查转化为线上自填式问卷调查,这类调查数据不仅可用于描述性分析,部分还适用于统计推断研究,主要是为实际项目服务,目前已在生物、医药、教育、社会等领域得到了广泛应用。
根据文章主题,本研究是以互联网络为媒介,借助网络平台发布调查信息和收集数据,主要为社会民生及市场调查项目服务,因此,本文将在第二种网络调查范畴下进行研究和分析。
根据调查模式的不同,调查可分为两种,一种是访谈者管理模式,另外一种是自我管理模式。前者是传统纸笔调查所属的调查模式,在调查中调查管理者主导整个访问过程,包括寻访样本单元、口述问卷问题以期获取答案信息、对问卷问题的释义答疑等;后者则是以互联网络为媒介的网络调查所属的调查模式,这种模式的调查过程不需要调查管理者的存在,没有相应的访问员的口头释义和填写引导,整个数据收集过程基本依靠被调查者自己完成。
根据调查抽样方式不同,具体的抽样方式分为两种,即概率抽样与非概率抽样。概率抽样的抽样机制更为严格,以随机理论为基础,符合随机原则,统计推断理论符合大数定律,总体中的每个样本单元都有一个已知的入样概率,并且概率抽样的抽样误差是可控的。理论发展较为成熟的概率抽样方式有简单随机抽样、分层抽样、系统抽样、整群抽样等。非概率抽样是调查者依据主观判断或者方便原则获取样本,与概率抽样相比抽样机制显得较为随意,且样本的入样概率未知,不能精确计算、控制抽样误差,这种抽样方式不符合大数定律存在的假设前提,无法进行统计推断。较为常用的非概率抽样方式有方便抽样、滚雪球抽样、配额抽样等。
以互联网为媒介的网络调查也可分为概率网络调查与非概率网络调查(Couper,2000)[5]。概率网络调查方式主要为预先招募互联网用户小组(离线招募),具体是指调查管理者提前在线下选择出需要被调查的样本单元,前期阶段的招聘可以采用面对面、邮寄或发送电子邮件的方式,并要求这些单元在互联网上对调查做出响应,必要时调查者需要为这些样本单元提供上网设备,后续还需不定期对这些样本单元进行维护避免流失。这种网络调查方式对现实条件要求较为苛刻,招募阶段所需成本较高,但其保证了网络调查的持续性和概率性。前期招聘阶段的样本单元属于概率抽样,是从给定的抽样框中选择的,每个单元都有一个已知的非零入样概率,凭借调查管理者掌握的抽样框、招聘方式等信息使其能够测量无响应误差,可在推断过程中用来加权或调整数据参数。
非概率网络调查方式主要有三种,即娱乐性网络调查、志愿者小组调查和开放式Web调查。首先是娱乐性网络调查。浦国华和徐金强(2003)[6]将其描述为,为了娱乐目的而在网络上进行的调查。调查只是将问卷简单地发布在网络上,并不对响应人群做任何限制,这种调查通常不追求科学性与代表性,仅仅是将调查作为一个交换意见的平台。最具代表性的娱乐性网络调查当属美国有线电视新闻网(简称“CNN”)进行的快速调查,该调查的结果只反映了参与调查的上网者的意见,不具有推断性,不能推广到全体网民与全体人民。其次是志愿者小组调查,又称志愿固定样本调查、网络访问固定样本调查等(刘展和金勇进,2017)[7]。调查管理者通过在热门网站上发布调查信息招募网络调查小组成员,通过注册环节收集成员个人特征信息(一般为人口学信息),为日后调查提供一个大型的网络潜在样本数据库。若要参与以后的调查需要是受到邀请的个体,并且若被选中参与调查,他们一般愿意参与并积极响应,这些小组成员通常参与过多项调查。小组成员招募的群体属于上网且自愿响应并加入调查的人群,并不是调查的目标总体,即使从中抽选样本,样本各单元的入样概率同样不可知,本质上属于非概率调查,并不能通过传统的概率方法直接进行总体推断研究。最著名的采用此方法的机构是美国民意调查机构Harris Poll Online。最后是开放式Web调查,又称自选式网络调查或不严格的自选调查,具体指在没有任何限制的条件下,调查问卷依托载体发布在网络上,常用载体一般是专门的调查公司、社交网络用户、门户网站等,浏览到该问卷的上网者自主选择是否参与此次调查,选择过程并不受调查管理者控制,因此这种调查方式并没有选择样本的过程,所有自愿响应调查的单元共同组成一个样本。此时,由于该样本中各单元的入样概率不可知,从概率的角度看,开放式Web调查获得的样本属于非概率样本,同样不能直接进行统计推断。
在网络普及率提高和传统调查响应率不断下降的双重影响下,网络调查开始走进人们的视野,逐渐成为市场调研、商业调查等领域的首选调查方式。米子川(2001)[8]在其文章中指出,网络调查受到市场调查者的厚爱不仅因为其时髦,更是因为这种调查方式具有快捷、低成本、高反馈率等优势。本文仅针对非概率网络调查的一种基础形式即开放式Web调查的误差展开研究,在网络快速发展的新形势下根据样本选择机制讨论网络调查非抽样误差的来源与分类,以期为解决非概率形式的开放式Web调查数据可推断问题提供思路。
统计调查误差分为抽样误差和非抽样误差,抽样调查毕竟不是对目标总体所有个体的调查,难免会产生因选择的代表性样本不同而产生调查偏差,因此抽样误差是调查本身自有的、因抽样方法产生的随机性误差。关于抽样误差,已有大量的权威研究理论与方法,本文重点讨论以开放式Web调查为例的网络调查的非抽样误差。
计算机最早作为调查的辅助工具被使用,主要通过计算机辅助电话采访(CATI)作用在数据收集阶段,Freeman和Shanks(1983)[9]表示这种辅助方式最早应用在商业调查领域。随着电信技术的发展,人们似乎开始追求“不被打扰”的生活方式,电话答录机、电话来电显示、电话自动屏蔽等功能的出现为CATI带来了很大的挑战,使本就降低的响应率越发低迷,为调查带来一系列困难,造成调查成本上升。之后,随着移动电话的普及和固定电话逐渐被淘汰,以居民固定电话为抽样框的调查逐渐产生抽样框覆盖误差。在Couper(2000)[5]有关网络调查的综述中曾提到,由于互联网普及率有限和低回复率而造成的覆盖率不足是互联网调查的主要缺点。Grandcolas等(2003)[10]认为与传统调查一样,网络调查也可分为概率网络调查与非概率网络调查,因此网络调查的误差与传统调查应一致,分为覆盖误差、抽样误差、无响应误差和测量误差。同样,Kalton(2019)[11]认为网络抽样可分为概率和非概率两种类型,针对每种类型的网络非抽样误差来源也不尽相同。Bozman等(2005)[12]表示人们最初将网络调查非抽样误差的目光集中在完整的、准确的抽样框与目标总体的确定上,并表示电子邮件地址不能作为一项确定的依据。在此之前就有研究如Cobanoglu等(2011)[13]指出,互联网用户的概况越来越符合美国和一些国家的人口特征,因此人们对互联网调查方法的关注开始转向回复率。Bozman等(2005)[12]的观点是准确理解与在线调查方法相关的总误差是困难的。总调查误差由抽样误差和非抽样误差组成。抽样误差显式明显,控制其大小的方法也较为简单,即增加样本量和(或)严谨地遵循抽样设计。非抽样误差却很难预测,同时也是总调查误差的主要来源。非抽样误差由响应误差和无响应误差共同组成,响应误差包括不规范的响应情况等,无响应误差是指无响应样本单元的缺失导致总的响应单元不代表目标群体,调查研究人员通常无法联系无响应者,因此没有办法评估响应单元是否与无响应单元或目标人群的响应行为一致。因此无响应误差的经典定义是:无响应者的答案在某些方面可能与完成问卷的响应者提供的答案不同。文章中还举出了一个通俗易懂的例子,如饮料购买调查,不购买饮料的消费者并没有响应调查,此时响应调查的人群可能大部分是消费饮料的群体,这导致对人均饮料消费量的过高估计。Kunz和Fuchs(2019)[14]指出网络调查的误差可能来自被调查者本身、调查工具或其相关因素之间的相互作用,认为测量误差的重要性仅次于无响应误差,但测量误差可采取手段将其减小。与之看法相同的还有Kolbas(2019)[15],其同样认为在研究网络调查的非抽样误差过程中不可忽视被调查者、设计和设备的作用。
Bethlehem(2009)[16]在《应用调查方法》一书中将网络误差总结为覆盖误差、选择误差和无响应误差三部分。覆盖误差主要是指欠覆盖引起的误差,当目标总体中的单元在抽样框中没有相对应的单元时,就会发生欠覆盖,这些单元可能永远不会被联系到,如果使用互联网作为抽样框,而目标人群中却包含了无法接入互联网的人,那么欠覆盖将是一个很严重的问题,因为存在部分永远不可能被选中参加调查的单元。当样本是基于自我选择时,网络在线调查就可能出现选择误差,调查问卷只是简单地放在网上,被调查者是那些碰巧有互联网接入、访问网站并决定参与调查的人,调查研究者并不控制响应者的选择过程,因此选择概率是未知的,传统的无偏估计几乎不能获得。网络在线调查中也会出现无响应情况。原因之一是在线调查问卷是一种自我管理的问卷,因此在线调查也可能出现较高的无响应率;另一个原因是被调查者必须与互联网互动的技术问题,缓慢的网络速度、不可靠的连接、低端的浏览器和不明确的导航指令都有可能让被调查者感到沮丧,从而放弃参与调查。与Bethlehem(2009)[16]的观点略有不同的是Wetzel(2010)[17],其直接描述了网络调查的三种非抽样误差,即覆盖误差、无响应误差和测量误差。随后Fan和zhao(2011)[18]综合了Bethlehem和Wetzel的观点,认为网络调查属于调查的一种特殊形式,因此非抽样误差包含四种,分别为覆盖误差、选择误差、无响应误差和测量误差。Edith(2013)[19]在其文章中详细阐明了网络调查非抽样误差产生的根本原因,皮尤互联网和美国生活项目分析显示,在2010年79%的美国成年人使用互联网,然而,互联网的使用并不是平均分布在所有群体中,非西班牙裔黑人、老年人和收入较低、受教育程度较低、生活在农村地区的人的代表不足。
除了传统的覆盖误差、选择误差、无响应误差和测量误差四种外,随着智能移动设备的发展,研究的一部分关注点开始转向网络调查的设备效应。Mavletova(2013)[20]认为智能移动设备数量的增长为调查研究人员带来了新的挑战,其研究采用网络志愿者小组调查,通过对比PC端与Mobile端两种调查模式的数据质量认为,与预期一致,Mobile Web调查与较低的完成率、较强的响应顺序效应以及较短的开放式问题的答案相关。Toninelli和Revilla(2016)[21]对Mavletova的试验进行了复现,Mavletova通过两波实验比较了俄罗斯志愿者小组调查中相同被调查者的PC和Mobile结果,Toninelli和Revilla则专注于西班牙的志愿者小组调查,涉及1 800名小组成员,其结果支持Mavletova和Couper的大部分发现,并证实了它们对两个国家研究的稳健性。Christopher等(2017)[22]的研究表明,同样是网络调查,Mobile Web调查数据质量可能优于PC Web,因此网络调查非抽样误差的来源可能包括模式效应。但也有部分学者对此持不同意见,Tourangeau等(2018)[23]通过在美国八个县进行的一项实地试验,比较了智能手机、平板电脑和笔记本电脑获得的响应数据质量,研究结果表明设备类型对数据质量的影响很小。Ha和Zhang(2019)[24]通过整群抽样的方法对美国公立大学所有学生进行了两次实地试验,结果发现仅在使用计算机辅助自我访谈时设备对响应质量具有影响,并且Mobile端的优点表现在即时响应速度方面,因此建议使用Mobile Web端展开调查。
在网络调查非抽样误差的研究范式方面,最近的一些研究都建议在总误差框架下展开。Plutzer(2019)[25]认为在网络调查中敏感性问题和被调查者同意作答的过程都会造成代表性误差和测量误差,不仅如此,相同被调查者对同一调查的多次参与也是造成非抽样误差的重要原因,并强调网络调查质量研究也应该在总调查误差(TSE)框架下展开。Mcclain等(2019)[26]在其最新研究中表明,有并行数据参与的网络调查也应在总误差(TSE)范式下进行。虽然TSE范式尚未直接应用于网络调查并行数据的分类,但这种范式能够刺激调查方法的分析和创新,它定义了可能被引入调查估计的误差,同时认识到误差和成本之间具有重要关系。
国内的网络调查起步较晚,但发展十分迅速。王菲和曾五一(2003)[27]、曾五一等(2008)[28]认为在互联网时代进行网上调查存在的非调查误差主要分为以下三类:一是抽样框误差,二是无回答误差,三是测量误差。抽样框误差是指目标总体与抽样框不一致,尽管我国互联网发展速度极快,但中国互联网络信息中心(以下简称CNNIC)的调查报告显示,截至2021年6月我国网络覆盖率还未达到100%,因此不能直接用网络抽样调查的结果对全国总体特征值进行推断。经验研究表明网络调查同样具有不可忽略的无响应率,网络调查中的无响应产生原因是多方面的,包括因无接触产生的激励手段失效、网络技术问题、网络调查方式等。在网络环境中,访问员的缺失和问卷的模糊表达往往会产生调查内容与被调查者理解偏差,从而形成测量误差。孙伶莉(2003)[29]同样将误差分为抽样框误差、无回答误差和测量误差,但是误差内容更加细化。抽样框误差细化为三种,即欠覆盖、过覆盖和复合联接;无回答误差概括为两种,一种是有意识无回答,另一种是无意识无回答;传统纸笔调查在统计中的登记、汇总和计算过程产生的误差被统称为测量误差,在网络调查中计算机代替了人工,在强大的科技面前这种误差几乎可以忽略不计,但在新形式下测量误差被赋予了新的内涵,即调查者误差和被调查者误差,也可以称之为问卷误差和顾虑误差。杜婷(2006)[30]则认为网络调查的非抽样误差多形成于对问卷的重复作答。方国斌和陈年红(2009)[31]认为网络调查给予了被调查者最大的自由度,因此非抽样误差主要来源于被调查者的回答和无回答。马慧敏(2011)[32]将网络调查非抽样误差按照调查的各个阶段进行划分,如调查设计阶段的抽样框误差、数据收集阶段的回答和无回答误差以及调查处理阶段产生的误差。王华民(2014)[33]将网络调查非抽样误差的来源分为登记性误差和代表性误差两方面。传统调查的登记性误差主要来源于调查组织设计者、调查访问者、被调查者和其他参与者,在网络调查形式下,计算机的存在使得调查访问者和其他参与者造成的登记性误差可以忽略不计,但是问卷设计和被调查者造成的误差依旧存在,由代表性产生的非调查误差则是抽样框误差和无回答误差。余富强等(2019)[34]从问卷设计、抽样、数据收集、资料处理等维度集中探讨了非抽样误差的来源和控制措施。
综上所述,国内外对网络非抽样误差的研究主要围绕信息技术的应用和调查实际的发展情况两方面展开。国外针对网络调查非抽样误差的研究重点主要集中在覆盖误差、响应误差、测量误差和选择误差四个方面,这与网络技术的发展息息相关。最开始使用网络调查时,居民网络接入率很低,此时使用网络调查最严重的误差是覆盖误差。随着网络技术的发展,网络覆盖率逐步提高,后来学者将研究重点转移到网络调查的响应误差。在通过科学手段提升响应率之后,非概率网络调查的样本选择误差开始进入研究视野。网络调查作为一种典型的“自我管理模式”调查,测量误差贯穿整个误差研究的始终,随着智能设备应用的普及,学者开始思考调查设备或模式对网络调查数据质量的影响,最新研究开始建议网络调查的非抽样误差研究应该在总误差(TSE)范式下展开。国内针对网络调查非抽样误差的研究起步较晚,但研究内容呈现多样化,除了将网络调查非抽样误差分为覆盖误差、响应误差、测量误差和选择误差这四种经典类型外,部分学者开始分阶段分解网络调查的非抽样误差以及分角色讨论网络调查非抽样误差的来源。通过对国内外相关经典文献的阅读不难总结出,网络调查非抽样误差的来源是随着网络发展进程和被调查者行为变化而变化的,不同时代、不同科技程度和被调查者性格都会影响调查非抽样误差的大小。
本文在网络快速普及的新形势下,以开放式Web调查为例对网络调查的非抽样误差展开研究,研究内容区别于传统非抽样误差之处在于:(1)以开放式Web调查为例,从样本选择机制角度给出网络调查非抽样误差的分类及内涵;(2)在满足假设前提下给出开放式Web调查的参数估计;(3)在非抽样误差分类研究基础上提出开放式Web调查的研究展望。
研究调查误差来源的前提是对调查步骤的清晰认识,传统的概率调查已经形成了统一的调查步骤,各步骤都有明确的定义。
第一步,确定调查主题,明确调查所要达到的目的。
第二步,明确定义目标总体,根据调查目的确定相对应的特定人群。
第三步,问卷设计。问卷质量直接关系到调查数据的质量,应遵循基本的设计原则(李林梅,2000)[35]。
第四步,抽样设计。这一步是调查过程中的核心内容,主要包括确定抽样框、选择抽样方法、计算样本量。
第五步,收集数据。该过程中可能存在拒绝响应、不能响应、失去联系等无法收集目标样本数据的情况。
第六步,评估响应数据质量。响应率具体是指配合调查的相对样本数量,在严格的概率抽样调查过程中任何一个目标单元无响应都可能会使最终结果产生偏差。
第七步,分析数据并形成调查报告。根据第一步中确定的调查目的,分析调查所收集到的数据,根据分析需要采用适当的加权或模型调整响应数据,最后可直接利用量化模型解释因果关系和影响因素,达到市场调查、商业调查目的或揭示社会现象背后隐藏的问题。
同传统概率调查不同,开放式Web调查属于典型的非概率调查,调查样本是自愿响应样本,调查问卷是自填式问卷,整个调查模式属于自我管理模式,目标总体的信息收集过程完全依靠互联网络,不存在由辅助信息构成的抽样框,全程无访问员的参与。因此,开放式Web调查的步骤与传统概率抽样调查的步骤并不完全相同,区别之处主要体现在抽样设计方面。
作为典型的非概率网络调查,抽样框不明确与入样概率未知是开放式Web调查最鲜明的特点,因此在抽样设计方面,开放式Web调查并没有调查管理者选择目标样本的过程,调查问卷仅仅是简单地放在网络上,任何得知调查信息且愿意参与调查的上网单元都有可能成为调查样本中的一员。在这种单元入样背景下,任何依靠调查管理者来实现的传统概率抽样方法都无法发挥作用,这时同样不存在提前设定好的样本量阈值,因此传统的概率抽样设计流程在开放式Web调查中被推翻,不存在严格的入样样本选择,在没有任何限制的前提下自愿响应调查的单元最终都会成为调查的样本成员,最终样本量的大小取决于调查数据收集截止的时间。
假设调查对目标总体没有任何限制,即调查总体是所有上网者,样本是所有响应者,样本响应调查的形式是自我管理模式,样本自主根据调查信息响应调查问卷,全过程没有访问员参与,样本的响应概率未知,这时所有上网者(或称网民)为调查的潜在样本,浏览到调查信息的网民才有可能转化为调查响应者。
图1 样本转化关系图
全部网民、浏览者集合、响应者集合三者关系如图1所示,网络潜在目标总体等同于所有网民,即调查总体,其中阴影部分表示网民总体中接收到调查信息的人群,这部分网民又被称为浏览者集合。调查信息简单地挂放在网络上,即使在很多个大流量网站同时挂放,浏览率也很难达到100%,换句话说,并不是所有网民都会浏览到调查信息。信息在网络上的传播是一个随时间增长的增量过程,理想状态下,随着曝光时间的增长,浏览率无限趋近于1,但现实社会中不限时间的调查数据收集项目很少,且调查信息的曝光率同热点事件的生命周期模型一致,呈现尖峰厚尾分布特征,所以在实际调查项目中,只有部分网络潜在目标单元会浏览到调查信息,从而转化为浏览者集合中的一员。浏览者集合中自愿响应调查的阴影部分为网络调查的最终样本,称为响应者集合。同样,在理想状态下浏览者集合向响应者集合转化的比例为100%,但在实际调查项目中浏览者集合中的单元并不会全部响应调查。原因包含两个方面:一是不可抗力因素,二是浏览单元的行为、心理特征。前者主要包括设备不支持(如网络接入不良)、时间不允许(如网络同线程)等,后者主要表现为浏览到调查信息的上网者不愿意响应调查、对调查主题不感兴趣或因调查主题较为敏感从而放弃响应等。因此,浏览者集合中只有部分单元会转化成为响应者集合中的一员,三者的转化展示了开放式Web调查样本的获取机制。
目前学术界公认的网络调查非抽样误差根据其来源主要分为覆盖误差、无响应误差和测量误差三种,这里的网络抽样是广义的,既包括概率网络抽样也包含非概率网络抽样,所以三种非抽样误差也是与广义网络抽样相对应的,来源较为复杂和模糊。
本文仅在开放式Web调查框架下,对非抽样误差来源及分类进行分析。近年来,网络普及率的提高、社会开放性的增强和人们认知视野的拓展,使得民众对于调查的接受程度也在逐渐发生改变。网络调查的各个环节是联系的,也是发展的,任何一环发生改变都会产生牵一发而动全身的作用,在新形势下本文根据开放式Web调查中样本的转化关系来定义非抽样误差的来源及分类。如图2所示,根据新形势下网络样本转化关系和误差来源主体的不同,本文将网络调查误差分为三类,分别为覆盖误差、调查者误差和被调查者误差,且三者的内涵与传统调查定义的概念有所区别。
图2 开放式Web调查误差分类
第一类覆盖误差。在传统概率抽样调查中,抽样框与目标总体并不是一一对应关系,从而产生覆盖误差。这种非一一对应关系主要包括三种形式:一是欠覆盖,即抽样框丢失部分目标单元;二是过覆盖,即抽样框包含非目标单元;三是复合联接,即部分目标单元重复入样。在开放式Web调查过程中也会产生覆盖误差,但该覆盖误差非彼覆盖误差,其内容与传统含义大相径庭。
第48次《中国互联网络发展状况统计报告》数据显示,截至2021年6月,我国网民规模首超10亿,占人口总数的71.6%,较10年前同比增长87.87%,环比增长7.53%,实现了快速稳定增长。
开放式Web调查存在的覆盖误差主要有两种。其一,网民总体与社会居民总体之间的差异,如图3所示,网民数量不断攀升,但网民总数与总人口数的比例并没有达到100%,这表明利用网络调查推断社会总体指标存在一定偏差,网民总体不能代表社会总体。其二,根据图1样本转换关系图可知网络潜在总体与浏览者集合并不重合,浏览者集合与响应者集合也并不完全重叠,这表明并不是所有网民都有机会接触调查信息,没有机会浏览到调查信息的部分网民对调查做出响应的概率为0,即使接触到调查信息的网民单元也不会全部响应调查,这时出现的覆盖误差主要是由于浏览者的选择造成的,因此,这两部分网民的缺失也是网络调查存在覆盖误差的原因之一。
图3 网民总数占总人口数比例
第二类调查者误差。传统的由调查者引起的误差主要有以下两种:一是访问员造成的误差,体现在调查流程当中,如访问员访问地址错误、问答引导性误差、数据录入误差等;二是问卷设计误差,如问题诱导性误差、问卷过长产生的疲劳误差、问卷概念定义模糊误差等。
在开放式Web调查过程中,调查收集的是自愿响应样本,不存在访问员,所以第一种传统调查者误差在网络调查中将不复存在,但第二种问卷设计误差依旧影响调查结果甚至更为严重。访问员在调查中的存在似一把双刃剑,虽然会产生误差,但是也会避免其他类型的误差,如问卷概念模糊时访问员可对其进行口头释义,然而在网络调查过程中访问员的作用并不是不可替代的,可借助现代技术产生与访问员相近的作用。
第三类被调查者误差。传统的由被调查者(也称受访者)产生的非抽样误差分为回答误差和无回答误差两种。回答误差是指入样单元提供的信息与真实情况不相符,如被调查者故意提供虚假信息或针对敏感信息提供虚假数据。当无法获得入样单元的信息时就会产生无回答误差,如样本单元无法联系、样本单元由于生病等原因无法提供信息或该单元拒访等。
开放式Web调查属于自我管理模式调查,由于访问员的缺失,被调查者成为控制调查的主体。当调查的外部或内部环境发生变化时,所有调查参与者都会受到影响,首当其冲的便是被调查者。调查过程中样本自愿响应,不受任何限制,因此不存在传统意义上的样本无响应误差。但是,响应误差的来源十分广泛。首先是敏感性误差,相关研究表明敏感问题回答率在网络调查中的表现优于传统调查(面对面、电话访问、邮寄调查等),但针对一些敏感级别比较高的问题(如吸毒、违法行为),即使是在网络环境下进行调查,结果也会产生很大的不确定性。其次是非理性误差,网络是一个既开放又隐秘的矛盾“场所”,开放之处在于其兼容性,任何人随时随地都可以在设备支持下进入网络,隐秘是因为网络依靠在线交流,两个网民可以在不知对方“长相”等信息下成为既陌生又熟悉的“好友”。网络调查的目的是获得样本单元的特征,即只需要知道“什么样的人参与了调查”,并不在乎“参与调查的人是谁”,因此网络调查无法对样本的不真实响应行为进行“追责”,进而无法避免自愿响应样本提供“不负责任”的信息。通俗来讲,样本单元“胡乱作答”“恶作剧行为”都可归结为非理性行为。
黄光和符力思(2014)[36]在对市场调查公司提高网络调查可信度方面给出如下建议:一是正确界定网络调查的适用范围,不仅包括目标总体的适用范围,还包括调查项目的适用范围;二是与抽样技术相结合,建议对样本库中的样本进行一些筛选和限制;三是建立合适的抽样框,适用于采用志愿者小组调查的项目或在经费充足的条件下直接采用概率网络调查;四是科学设计调查方案,以减少无回答误差和测量误差,包括对信誉、流量高的投放网站的选择和科学的问卷设计;五是对网络调查结果进行校正。其研究结论涉及多种类型的网络调查,包括概率性质的网络调查和非概率性质的网络调查,其主要思想是将网络调查规范化,用以提高分析结论的可靠性。本研究在前人研究结论的基础上,以减小开放式Web调查的非抽样误差为例,根据每类误差产生的原因并结合现有的科技手段,给出适当的预防措施。
调查的目标总体是指所要研究对象的全体,在网络调查发展迅速的今天必须区分社会总体和网络总体两个概念。在网络覆盖率没有达到100%的情况下,不可直接利用网络调查结果推断社会总体指标值,在此背景下开放式Web调查的目标总体只能是全体网民。
针对网络潜在目标总体与浏览者集合并不重合的情况,调查者首先要明确需要调查的网络目标人群。开放式Web调查收集自愿响应样本的前提是存在载体即网络连接,调查信息的传播主要靠Web网络的开放性和社交网络的连通性,因此可以利用网络的这些属性有针对性地投放和传播信息,以增加调查信息在目标网民中的曝光率,进而增加潜在目标总体向浏览者集合的转化率。
刘建平和罗薇(2005)[37]针对网络调查响应率问题建议设计一份好的调查问卷,即问卷设计除了要遵循抽样原则外,还需考虑到被调查者的行为与心理特点。上网者一般对新事物比较感兴趣,阅读速度非常快,容易对一段很长的文字描述产生厌烦感,而且一部分用户上网是为了获取知识,抓住上网者的这些特质,就容易设计出一份合格的问卷。开放式Web调查也可以借鉴此方法,抓住被调查者的一些特征,“投其所好”设计出一份预期响应率较高的调查问卷。针对浏览者集合向响应者集合转化过程中存在的不愿意响应、放弃响应等问题,问卷设计应包含必要的问答技巧,题目的设置需富有吸引力。无论是何种形式的调查,调查问卷都是获取信息必不可少的工具,因此传统调查形式中存在的基于问卷的非抽样误差在开放式Web调查中同样存在。“好问卷”的设计须得从问题与技巧两方面入手,问题是指问卷设计过程中容易导致调查误差出现的提问误区,技巧是指问卷设计过程中针对敏感性问题应尽量避免平铺直叙的提问方式,转而使用略显含蓄的表达,提高被调查者对问题的可接受程度,进一步提高响应率。
问卷设计过程中易出现的误区主要包括三种。第一种,问卷中问题的提问方式很容易产生诱导性误差。例如针对大学生消费问题,若提问“您也觉得大学生月消费3 000元是合理的吗?”,则很容易诱导被调查者,令其认为“大学生月消费3 000元”是合理行为,从而使其失去原有的判断能力,这时收集到的数据选择“是”的占比大概率会超过实际值。第二种,基于问卷产生的误差是因问卷题目过多、调查时间过长产生的疲劳误差。人们对一件事情的热度随时间呈递减趋势,被调查者响应调查时对问题的专注程度也是如此。因此针对此类问题,要结合调查需要,对于可精简的调查只需将问卷长度控制在合理范围内,针对多目的大型调查可采用问卷分割技术,有关测试类问卷则可采用动态问题排序设计方法。第三种,问卷概念定义模糊。在传统的纸笔调查中因访问员的存在,此类问题较容易解决,访问员与被调查者在沟通过程中,访问员可直接释义表达模糊不清的名词和问题。在开放式Web调查中由于访问员的缺失,传统方法不再适用,但网络调查是通过网络设备间接连接调查者和被调查者,因此在技术支持下完全可利用设备代替访问员,静态的镶嵌式名词解释和动态的动画展示说明都可以代替访问员完成释义任务。
“好问卷”需要设计技巧,如合理的个性化反馈机制。个性化反馈分为即时反馈和延迟反馈,两者的主要区别在于反馈时刻在当下还是未来。Conrad等(2005)[38]的一项研究表示,即时反馈的响应速度比延迟反馈更快,网络可以相对较小的开发成本为被调查者提供有用的信息,从而使面试官和自我管理结合起来成为可能,这些信息的呈现越强,对调查就越有帮助。Kühne和Kroh(2018)[39]的研究表明网络调查的个性化反馈可能会增加被调查者的动机,同时提高回答的准确性。该研究利用2014年柏林老龄化研究II(BASE-II)展开了一项随机试验,试验向样本的一个子组提供了关于被调查者人格测试(五大人格量表)的反馈,试验结果显示实验组与对照组之间的响应行为具有中度差异,并发现收到个性化、即时反馈的被调查者对调查的满意度更高,因此在问卷设计过程中可嵌入个性化反馈机制,提高调查的响应率和数据质量。
一份合格的调查问卷要综合考虑出现各种非抽样误差的可能性,网络的匿名性改变了人们对敏感问题的应激反应,网络调查对被调查者“是谁”的忽略,使得被调查者的隐私得到了保护,互联网改变了调查获取敏感性问题相关信息的方式。针对敏感性问题要注意随机化问答技术的应用,开门见山的询问方式可能永远比不上有设计的随机化问答,这时敏感性问题与非敏感性问题的结合将会是很好的解决方法。
非理性误差是调查数据收集过程中不可避免的误差,在传统的调查过程中这类误差很难识别且无法控制,但在网络调查过程中,调查问卷的数据搜集完全依靠算法系统的控制,计算机的逻辑性能和计算速度能够在被调查者响应瞬间识别出其逻辑是否有误,从而判断其是否具有不负责任行为,并根据判断结果对是否终止该响应单元答题做出决策。算法系统即逻辑问题的设置是计算机做出决策的核心,因此在设计问卷时应考虑必要的逻辑问题设置,如若出现问题回答前后矛盾的响应者则考虑释放该响应单元。
有效的假设是科学研究的前提,网络是一个开放的载体,活跃网民具有强流动性和强不确定性。在开放式Web的实际调研中,捕获的信息由自愿响应样本提供,因而会存在这样一部分网民,即在网络中得知调查信息,却对该调查不感兴趣,这时由于这部分网民不会提供与调查有关的任何信息,因此其与未浏览者集合中的网民没有本质区别。
为简化研究流程,明确研究概念,本文提出浏览者假设。调查问卷由两部分组成:第一部分为属性调查问卷,用来捕获响应者自然属性、社会属性等一系列属性信息;第二部分是主题调查,用来获得响应样本的各种目标指标信息。若单元响应第一部分属性调查则将其定义为浏览者集合中的一员,若不响应则定义为未浏览者集合中的一员,若两部分调查皆响应则该单元为响应者集合中的一员。
图4 开放式Web调查的样本捕获机制
基于浏览者假设,开放式Web调查的样本捕获机制可分成两大部分。如图4所示,左侧虚线框内集合为在开放式Web环境中自愿响应调查并提供目标指标信息的单元,右侧虚线框内为最终未提供目标指标信息的单元。开放式Web调查属于非概率调查,不存在入样概率等概念,即使无响应者集合中的单元提供了属性信息,但其最终未提供目标指标信息,因此从响应倾向角度来讲未浏览者集合与无响应者集合作用一样,都不会对最终调查指标数值结果产生影响。
基于上述分析,本文给出开放式Web调查的参数估计。假设目标网民总体U由N个单元组成,记为1,2,3,…,N,目标总体表示为U={1,2,3,…,N},总体中每个单元i的目标变量值为Yi。根据前文对开放式Web调查的样本捕获机制的定义,可将目标总体看作由NB个浏览单元和No个未浏览单元组成,浏览者集合中包含nB个响应单元,即:
根据图4开放式Web调查的样本捕获机制和前文对浏览者假设的分析,目标总体中的未浏览者与浏览者集合中的非响应者性质相同,都未提供目标指标信息,因此不妨弱化目标总体与浏览者集合关系的传递边界,直接定义示性变量Ii。如果浏览者集合中的目标网民属于响应者集合,则Ii=1,否则Ii=0,即:
若用nB个响应样本单元对浏览者集合中的目标网民的目标变量均值进行估计,则估计量为:
证明:
开放式Web调查样本目标变量均值为:
由于变量Ii表示浏览者集合中的目标网民属于响应者集合中的一员,即目标网民中得知调查信息且响应问卷第一部分留下属性信息后继续响应主题问卷的单元,所以:
证毕。
当且仅当Pi=nB/NB时,即浏览者集合中目标网民每个单元的响应概率相等,且概率值都为nB/NB时,是的无偏估计量。
此时浏览者集合中估计量的方差为:
证明:
大小为NB的浏览者总体中共有nB个单元响应第二部分主题调查问卷成为响应者集合中的一员,其中单元i的响应概率为Pi,单元j的响应概率为Pj,假设单元响应概率相互独立,则单元i和单元j同时响应的概率为PiPj,i≠j,则有:
证毕。
若全部网民都能浏览到调查,即调查信息浏览率达到理想状态100%,此时不存在未浏览者集合,则目标总体可直接分为两类,一类是响应样本,另一类是无响应样本,此时估计量为:
估计量方差为:
其中,W为无响应者的比重,SR为响应层的方差,SNR为无响应层的方差,NR、NNR分别表示响应单元数量与无响应单元数量。
综上,在开放式Web调查中,若目标总体不响应调查则调查管理者无法得知无响应目标单元的任何信息,同理,目前很难检测到目标单元是否浏览到调查信息,因此在估计过程中可直接利用可观测到的浏览者集合中的样本进行非概率推断,但值得注意的是,浏览者集合中的总目标单元不能代表目标总体。
纵观统计调查发展历史,调查新形式的应用对象出现趋同,同抽样调查形式的应用背景一致,网络调查最先应用于商业调查而不是社会调查。由于网络调查的非概率性,调查部门本着审慎的原则,无法开展大规模网络社会调查,而商业调查则恰好相反,一般的商业调查预算有限,对时效性要求较高且调查的目标群体定义清晰,即某商品或某需求的受众人群,网络调查恰好符合这些要求,因此网络调查在商业调查领域被广泛应用。
开放式Web调查是商业调查最常用的网络调查方式之一,这种网络调查形式的样本边际成本很小,而且根据网络聚集性特点,商业公司很容易找到目标群体。因不受时空限制,再加上合理的问卷设计,调查会在较短时间内收获大量非概率样本。根据开放式Web调查本身的特点以及中国网络覆盖现状,网络调查应主要针对以网民为研究对象的项目,如电子商务调查、企业网络服务对象调查、网民消费市场调查等。随着开放式Web调查推断方法的发展,这种调查方式将在不久的未来实现调查目标的定量研究。
随着网络普及率的上升和网络调查潜在市场的出现,快餐式网络调查将会成为一种流行趋势,快速、精准将会成为网络调查的代名词。
新时代的网络调查抛开社交网络将是无意义的。根据中华人民共和国工业和信息化部数据显示,我国移动电话普及率连续5年超过100部/百人(如图5所示),表明大部分网民人均一部手机,中国网民的社交网络基本靠手机APP联系,如微博、微信、知乎、QQ、抖音、快手等,并且手机社交的存在使网络调查真正打破时间空间限制,使目标群体可以随时随地响应调查。
图5 移动电话与移动互联网的普及
手机网络的存在催生了一种新形式的调查,在开放式Web调查基础上可利用活跃的手机用户达到精准投放调查的目的,增加调查的曝光率,促进目标网民总体向浏览单元转化,例如,利用微信公众号向所有受众发布调查。这时开放式Web调查可直接向手机端用户开放,必要时可通过筛选问题的设置,达到收集目标总体信息的目的。
根据中国社会科学院社会学研究所发布的《中国社会心态研究报告》(社会心态蓝皮书)显示,2013年中国社会信任指标低于60分及格线,2016年中国社会对陌生人信任度仅为5.6%。在这种社会背景下,入户形式的面对面调查响应率逐年降低,传统概率调查的数据质量受响应率影响颇深,概率推断的质量保证是数据的完整性,因此传统概率调查正面临严峻考验,而大数据时代的来临、网络覆盖率的逐步上升和网络设备普及化程度的不断加深为调查行业的发展带来了新的转机。
然而,成本低廉、快捷的网络调查大都属于非概率调查,这无疑为调查样本的统计推断带来了巨大不便。以开放式Web调查为例,网民的流动性、调查信息的曝光率和浏览单元响应调查的倾向等问题使得样本的入样概率难以计算,所以以真实入样概率推断总体可行性较低。Couper和Miller(2008)[40]认为解决非概率推断主要有两种方法:第一种方法是基于设计(design based)的方法,即建立起基于概率的网络小组,小组成员通过使用其他抽样方法(如RDD)进行抽样和招募,并在必要时为无法进入互联网的人提供互联网接入条件;第二种方法是基于模型(model-based)的方法,即建立网络用户志愿小组,并通过模型(如倾向得分)来调整偏差。目前有关非概率调查推断方法的研究成果较少,大多集中在模型调整方向,因基于设计的方法操作困难且成本较高,故可将研究重点集中在设计的“准随机”方面。有研究表明,在数据收集之前控制数据的质量优于数据的事后调整,因此在开放式Web调查中可对自愿响应样本进行限制,通过方法研究使最终样本分布符合概率样本的分布特征,此时得到的数据质量可能优于不设限的自愿响应样本,具体的控制方法仍有待进一步研究。