邵国松 谢珺
[摘 要] 随着信息传播技术的飞速发展,网络问卷调查业已成为相对主流的调查研究方法之一,被众多行业调研机构者和学术研究人员所采用。在简要介绍了网络问卷调查的发展历史及在我国的发展现状之后,通过参与式观察,我们剖析了国内网络问卷调查中存在的两大问题,即数据质量和个人信息安全,以期引起社会的关注和反思,针对这些问题,最后试图提出可行性解决方案,以期推动网络问卷调查行业的良性发展。
[关键词] 网络问卷调查;数据质量;信息安全
[中图分类号] G20 [文献标识码] A [文章编号] 1008—1763(2021)04—0149—07
Abstract:With the rapid development of Internet information technologies, online survey has become one of the mainstream research methods in China. First, we briefly introduced the historical development of online survey in the world, and evaluated its current state in China. Then, through participant observation, we analyzed two major problems with online survey practiced in China, i.e., quality of data and security of personal information. Finally, we put forward some feasible solutions to those problems in order to facilitate the healthy development of online survey industry.
Key words: online survey; data quality; information security
随着信息传播技术的飞速发展,问卷调查经历了一场与技术同步的变革。无论是为公共或商业决策提供支持,还是为了方便科学研究乃至私人生活,通过网络进行的问卷调查已成为时下主流的调查方法,发展至今,已涌现出数个用户体量庞大的网络调查公司,比如腾讯问卷、问卷星、问卷网等,其对外宣称的用户量常以千万计。然而,面对业已普及的网络问卷调查,鲜有研究者在应用之余对其进行反思,尤其是审视其发展过程中存在的问题和挑战,这不仅影响了网络调查行业本身的发展,也给用户带来了难以估测的风险和损失。有鉴于此,本研究先大致介绍网络问卷调查的发展脉络,之后对我国目前主流的网络问卷调查平台进行考察,阐释其所存在的问题,在此基础上提出改进思路,以期推動我国网络问卷调查朝着更为严谨和规范的方向发展。
一 网络问卷调查的发展脉络
问卷调查指的是借助结构化问卷,从一定数量的个体样本或人口单位中回收信息的方法[1]。借助问卷这一工具,调研人员能够对社会活动过程进行系统、具体的测量,并运用统计手段对结果进行量化描述和分析。关于问卷调查的起源,学者尚未达成共识。有学者认为,问卷调查可追溯至古代社会的人口普查,它由政府基于政治、军事等方面的原因组织开展,对特定区域的人口进行统计分析[2]。这或许可视为人口统计的起源,但和问卷调查还是存在一定区别。也有学者认为,英国社会学家布司(Charles Booth)1889年启动的名为“伦敦民众的生活和劳动”的研究,可视为现代调查研究的起源[3]。然而,在调查过程当中,布司并未明确其采用的抽样方法,而主要依赖观察和推断得出结论,因而将其视为问卷调查滥觞的观点遭到不少人质疑。
在进行历史性回顾时,格罗夫斯(Roger Groves)等学者依据专业调查机构的出现、行业协会的发展及新技术手段的应用等指标,将问卷调查的发展分为三个阶段,即开创阶段(20世纪20年代至60年代)、拓展阶段(20世纪60年代至90年代),以及网络信息与调查数据相结合的阶段(20世纪90年代至今)[4]。这个划分得到不少专家的认可,阐述如下:
在开创阶段,社会心理学家李克特(Rensis Likert)于1932年提出了李克特五级量表,促进了结构化数据和量表在调查研究中的应用。统计学家斯巴拉瓦-内耳曼(Jerzy Splawa-Neyman)在1934年首次运用概率抽样进行调研,标志着抽样调查的开端。在政府需求和商业利益的驱动下,一批声名卓著的专业调查机构应运而生,包括1935年盖洛普(George Gallup)在新泽西创立的盖洛普调查公司(Gallup Inc.)、1946年罗珀(Elmo Roper)在威廉姆斯学院创立的罗珀公众舆论研究中心(Roper Center for Public Opinion Research),以及1941年菲尔德(Harry Field)在丹佛大学创立的国家舆情研究中心(National Opinion Research Center)等。他们主要采取面对面的纸质问卷填写或邮寄问卷调查的形式,不难想象其调查的成本比较高昂,很多订单大都来自政府或非盈利组织,针对的大都是事关国计民生的重要议题。与问卷调查相关的行业协会在本阶段也陆续成立,包括美国舆论研究协会 (AAPOR)、世界舆论研究协会 (WAPOR)、欧洲舆论与市场研究协会 (ESOMAR) 等,这些协会在本行业依然发挥重要作用。
在拓展阶段,不断迭代的电子通信技术成为问卷调查的主要手段,先后出现了电话调查、电子邮件调查等形式。与政府开展合作的专业调查公司和基于调查数据提供咨询的私营机构陆续成立,譬如维思达特 (Westat)、美国三角研究所 (RTI International) 等。这一阶段中,问卷调查的商业属性渐趋突出。为洞悉消费者对产品和服务的感知与态度,越来越多的商业组织委托专业的调查机构进行市场调查,为其商业决策优化提供参考。除此之外,以皮尤调查中心(Pew Research Center)为代表的独立调查机构开始兴起。发展至今,皮尤调查中心已成为世界上最具公信力和影响力的民意调查机构。该机构基本上不开展商业活动,只接受政府机构和非盈利组织的资助,主要采取电话调查的手段,进行全美及全世界范围内的舆情调查。
在第三个阶段,新的技术手段进一步助力调查研究的发展。尤其是自20世纪90年代后期起,互联网技术飞速发展,为调查研究创造了新的手段。电话调查、电子邮件调查等方式逐渐式微,便捷、即时、灵活的网络调查发展迅猛。而且,相较于其他调查手段,网络问卷调查的成本大幅降低,数据记录和反馈迅速,因而逐渐成为时下主流的调查手段。一大批优质的网络调查公司应运而生,重要的包括Qualtrics, YouGov, SuerveyMonkey等。它们不仅深刻革新了先前的问卷调查手段,也对全世界的同行产生了示范作用。
二 我国网络问卷调查的发展现状
进入21世纪以来,伴随着经济的快速发展,网络问卷调查在我国也蓬勃发展起来。按照其调查目的,大致可分为三类:一类是政府、媒体、科研院所等公共机构发动的针对公共事务和公共政策的调查;一类是私营组织按照客户需求进行的市场调查;还有一类就是混合了前两种业务的调查机构,常常以私营为主。由于投入资源和专业技能存在差异,网络调查机构的发展也参差不齐。发展至今,涌现出几家用户体量较大的网络调查平台,具体信息如表1。
这些网络调查平台的运行原理大致如下:遵循基本的网络信息浏览原理,客户端主要通过超文本传输协议(HTTP),借助互联网将请求发送到服务器端,并将HTML页面信息分发、传递到用户所使用的页面(客户端)上。在服务器端,网页服务器主要通过CGI、JSP、ASP等脚本将动态信息输出到应用程序(如数据库、程序、问卷应用等)中,相关应用程序对该信息进行操作并将应用程序的消息发送回网页服务器,从而实现数据的存储或处理(见图1)。
网络调查平台具有相对智能化的编辑、发布和回收功能,以及相对标准、统一的数据處理方式,这些特点和优势使其受到越来越多的公共机构、私营组织乃至个体用户和小团体的青睐。即便如此,在调查研究方式中日益占据主导地位的网络问卷,却存在诸多潜在的问题和风险,主要有两点:一是受商业利益驱使,不少网络调查平台存在明显的“刷单”现象,直接影响了数据回收的质量和调查结果的可信度;二是由于没有采取严格意义上的保护措施,网络调查平台在收集和处理用户数据的时候,存在泄漏用户信息的风险。这也是不少网络调查平台声称拥有数以千万计的用户体量,但其调查的公信力尚未得到用户普遍认可的重要原因,值得我们进一步深思。
三 网络问卷调查中的“刷单”问题
通过对国内的主要网络调查平台进行参与式观察,我们发现数据质量存疑很大程度上源自“刷单”现象。刷单原本指的是店家雇人假扮顾客,用以假乱真的购买方式制造虚高销量和好评,从而吸引更多顾客的一种不良商业手段。随着电子商务的迅速发展,刷单逐渐成为网购交易中普遍存在的现象,参与刷单的假顾客则被称为刷客。当前,众多网络问卷的发放与回收过程中存在相当数量的问卷服务代理,后者通过无意识、无意义的问卷批量填写,提升问卷回收率从而从中获利。由于其运作方式与电商刷单有相似之处,我们借用“刷单”这一概念来概括网络问卷调查中批量生产问题问卷的现象。
(一)“刷单”的方式
问卷刷单大致涉及四类玩家,即具有问卷调查需求的客户;提供问卷调查服务的网络平台;协助网络平台收集问卷的代理机构;填写问卷的用户/刷客。它们环环相扣,形成一个较为完整的生态体系(如图2所示)。
提供资金的客户可能是个人,也有可能是组织。进行问卷调查的目的可能是个人性的或商业性的,也有可能是为了公共决策或科学研究。提供问卷调查服务的平台主要包括三类:社交媒体、电商平台,以及专门的问卷调查平台。其中,社交媒体以QQ、微信群为主,同时包括豆瓣、贴吧等社交小组,有问卷调查需求的客户可通过此类社交媒体中的广告信息联系问卷收集代理。电商平台主要包括淘宝和闲鱼等交易平台,在线店主可以上架“问卷数据收集”“真人代填问卷”之类的服务类商品。同时,一品威客、猪八戒网等部分线上交易网站也存在“问卷调查”“问卷填写”的商品交易,客户可直接与相关电商沟通交流,展开交易。此外,部分网络问卷平台在问卷发布页面也开设了专门的样本服务。譬如,问卷星平台客户可遵循“需求登记-需求评估及报价-支付订单”的交易原则,委托问卷星平台从其“样本库”中发放和回收问卷。
客户与问卷收集代理之间达成委托协议后,后者就会动员众多刷客遵循特定的规则填写问卷。具体动员和任务布置主要在社交媒体群组(比如问卷收集代理组建的QQ群和微信群)中开展。填写规则常常涉及填写对象、具体题项要求、填写时间等方面,其中一些规则也是网络问卷平台筛选无效答卷的主要方式(如表2所示)。
刷客是刷单行为的执行者。他们多聚集在前述社交媒体、电商平台中。部分问卷调查网站还会成立专门的“样本库”或刷客团队,以满足客户对问卷回收数量和时间的要求。以QQ群为例,笔者通过群名称搜索的方式发现了40个以上的千人规模“问卷互填群”“问卷兼职群”。刷单效率与刷客的刷题能力和问卷代理的技术水平有关。刷客刷题遵循“多填多得,少填少得”的原则,个体刷客可能利用问卷填写过程中的时间间隔,或通过切换Wi-Fi、流量,或更换手机、电脑、平板等终端设备的方式重复作答,以获取更多酬劳。问卷代理的技巧主要体现在相关技术人员编写代码的能力上,问卷代理可借助代码开发、计算机编程实现问卷的自动重复填写。
就刷单行为而言,问卷收集代理常将获取刷单收入的大头,刷客所得佣金基本按工作量计算酬劳,作答单份问卷的收益极为低廉。值得指出的是,问卷收集代理之间目前存在恶性竞争问题,不同代理之间存在互相干扰问卷回收质量的情况。比如,部分代理机构及其刷客会通过生产大量无效问卷影响其他代理的问卷回收质量。然而,问卷回收代理通常只负责回收事前协商好的“有效问卷”数量,不会对因恶性竞争导致的无效数据负责。因此,在上述情况中,客户通常难以对相关问卷回收代理进行追责。
(二)“刷单”的影响
受访者出于个人偏好、动机和意愿等原因,可能没有认真对待在线调研,常常导致数据质量参差不齐[5]。依据皮尤研究中心发布的数据,在线民意调查中的虚假数据可能占到了4%-7%[6]。就“刷单”场景而言,虚假数据的问题只会更加严重。如前所述,刷客可以通过各种“作弊”手段,针对同份问卷提交多份答案,从而故意干扰数据结果。倘若问卷收集代理或网络调查平台采取机器人答卷,并进行恶意操控,问卷回收质量将进一步恶化。
除了虚假数据,网络问卷调查存在的另一问题是涵盖误差(coverage error),它严重威胁了网络问卷调查的样本代表性。互联网发展初期,涵盖误差主要源自网络覆盖率,因为不是所有研究对象都有机会接触网络[7] ;发展至今,互联网在我国的渗透率已大幅提高,但其中的个体差异依然有可能导致涵盖误差。比如说,问卷填写者与目标调查对象群体间出现偏差,便会出现涵盖误差,而“刷客”群体大规模的存在则使这个问题愈发严峻。另外,网络问卷调查对象的获取本身就具有相当大的随机性,研究者常常难以控制研究对象的选择过程及选择概率,网络问卷调查过程中无偏差的数据分析因而也难以得到保证。
问卷调查平台不是没有意识到问卷刷单对数据质量的威胁,也采取了一些措施来加以应对,但效果甚微,甚至成了形式主义般的摆设。以问卷星为例,其保证数据质量的主要方式是对答题时间的监控。时间设置包括开始时间、结束时间、填写时间,不满足时长要求的问卷将被视为无效问卷或问题问卷。然而,答题时间仅仅是衡量数据质量的一个参考标准,无法保证答题质量,刷客群中的时长间隔策略则使得此种检测方法形同虚设。除了监测答题时长外,问卷星还通过“限制填写设备”“限制IP地址”“指定验证方式”等措施来提升答题质量(见图3),但这些方式均存在一定的漏洞。其一,设备数量可以调控;其二,移动網络环境下的IP和Wi-Fi环境下的IP可能不同,通过技术手段搭建IP代理池也可突破IP限制,而同一网络环境中IP地址相同,限制IP反而造成样本缺失;其三,限定手机号验证码或微信账号,可能造成对用户信息的不当或过度使用,增加用户个人信息的泄漏风险;其四,受利益驱使,一些程序员或网站开发机构借助编程技术实现问卷自动填写,或开发各种能绕开平台监控的技术手段,使得问卷星的上述限制手段失效。
总而言之,在传统的问卷调查环境中,调研者常常是训练有素的社会科学家,他们通常会遵照行规采取各种手段最小化调查误差,从而有能力提供一份有说服力的调查报告。然而,不少网络平台为了获取短期收益,有意或无意、直接或间接将问卷交付刷客填写,且缺乏有效的甄别无效问卷的技术,使得数据质量存在很大的问题,也难以为客户提供有价值的、可信赖的数据分析。
四 网络问卷调查中的信息安全问题
除了问卷刷单造成的数据质量问题,网络问卷调查还存在严重的信息安全隐患。我国业已通过了包括《网络安全法》在内的众多法律法规来保证个人信息安全,并要求包括网络问卷调查平台在内的网络服务提供商加以遵守。但在实际操作过程中,不少网络问卷调查平台关于个人信息的采集和使用的规范相对笼统,也并没有采取切实措施来保证受访者个人信息的安全。具体来说,网络问卷调查中的信息安全主要涉及以下几个方面:
首先,网络问卷调查存在关联性信息泄露的系统性风险。譬如,问卷的IP地址能够暴露受访者位置信息;身份验证方式可能关联受访者电话号码、身份证信息或社交账号信息;人口学题项答案可能涉及个人身份信息、教育信息、财产信息等。因此,每一份问卷中题项所关联的内容是否会被局部或全部披露,以及问卷填写设备中的云端记录是否会被关联乃至调取,都给网络问卷调查参与者的信息安全保护工作带来了不确定性和风险。不少参与过网络问卷调查的用户发现,自己在填写问卷后常会收到骚扰短信、推销电话、垃圾邮件或钓鱼网站链接,也反映了关联性信息泄漏风险的系统性存在。
其次,在利用网络平台进行调研时,研究人员可以规避信息保护的相关程序或义务。在开展问卷调查之前,研究人员应当将信息采集内容、信息采集方式、信息披露范畴、研究人员联系方式、参与者权利、隐私和安全保护声明等充分告知受访者[8]。但实际情况是,在未经提醒的情况下,大多数受访者在参与调查前不会验证相关告知内容是否缺失,也难以了解后续的个人信息使用过程。而且,信息披露、使用和泄露问题暴露之间的时间隔断,容易让受访者忽视问卷调查与信息泄露之间的关系,因而也让受访者收集维权证据变得十分困难。
最后,嵌入或隐藏在问卷调查平台的广告、插件、木马、病毒日益增多,对受访者的个人信息安全构成实质威胁。以刊登广告为例,不少网络调查平台会选择与第三方机构进行商业合作。由于缺乏明晰的信息披露和保护机制,网络调查平台可以通过难以及时识别、难以追责的方式将受访者置于信息风险当中,甚至与第三方机构进行个人信息交易。以问卷星为例,当受访者完成问卷填写后,页面会自动弹出一个抽奖互动框(如图4所示),抽中相关奖品后,受访者又将面临从手机信息填写或App注册到商品购买链接的页面跳转。此类以“红包”“返利”为噱头的商业操作,除了有诱导消费的嫌疑外,也是获取受访者个人信息的重要手段。
五 可能的解决方案
数据质量和信息安全隐患已构成我国网络问卷调查发展的两大障碍,也是我们不得不加以解决的问题。就数据质量而言,除去问卷设计过程中可能存在的抽样和测量偏差,当前影响我国问卷调查质量的主要原因是刷单现象。有鉴于此,我们可考虑从几个方面着手解决。首先,网络调查平台应当增强对受访者身份审核环节的控制和管理。当前的设备审核、IP审核、指定账户及验证码审核等方式都存在程度不等的漏洞,网络平台在保障用户个人信息安全的前提下,应探索和开发更有效的身份核实系统。其次,网络调查平台应当及时修改、更新风险防控规则。此前经验表明,刷客群体炮制无效问卷的手段非常机动和迅速,且具有越来越多的技术含量。网络调查平台应加强对刷客群体的监控,预判他们的规避技术和手段,并通过技术或规制手段将漏洞补上。最后,相关政府机构应加强对问卷调查平台衍生的灰色业务的监管,可考虑通过行政或法律手段对涉及商业欺诈的刷单行为进行打击,以保护相关消费者的权益。
網络调查中的信息安全隐患也必须引起我们足够的重视。除了不断完善我们的个人信息保护立法,加强行业自治可成为解决此问题的优先选项。就网络问卷调查平台而言,个人信息的保护主要涉及前期信息告知、中期信息采集和后期信息使用三个方面。在问卷调查之前,应明确告知受访者个人信息收集的内容和方式、个人信息使用的方式、参与问卷调查的风险,以及相关隐私保护政策和措施等。在问卷调查进行期间,应分析受访者所填写内容是否是敏感、私密性信息,如何对这些敏感、私密性信息进行匿名化处理,以及如何防治终端设备上的留存信息被关联使用等。在问卷调查结束后,网络平台要采取适当的措施确保个人信息的保存和使用是合法合理的,不会损害受访者的权益。
另外,我们可以发动相关调查行业协会(如中国市场信息调查业协会)的力量,鼓励其积极配合国家法律政策,统筹、制定更加明晰的信息安全保护规范和行业执行标准,在行业内部达成企业关于用户信息安全保护的共识;在保持网络平台合法的商业利益基础上,将保障受访者信息安全内化为符合企业发展目标的关键举措,从而形成行业自律的完美闭环。
[参 考 文 献][1] Gault R H. A history of the questionnaire method of research in psychology[J]. The Pedagogical Seminary, 1907(3):366-383.
[2] Anderson H J. Survey identifies trends in equipment acquisitions [J]. Hospitals, 1990(18):30.
[3] Converse J. Survey research in the united states[M]. Berkeley: University of California Press,1987.
[4] Groves R M, Fowler F J, Couper J M,et al. Survey methodology[M]. 2nd ed. New Jersey: John Wiley & Sons, Inc., 2009.
[5] Zhifeng Gao, Lisa A,House, Jing Xie. Online survey data quality and its implication for willingness-to-pay: A cross-country comparison[J]. Canadian Agricultural Economics Society,2016(2):199-221.
[6] Pew Research Center. Assessing the risks to online polls from bogus respondents[R/OL].(2020-02-18).[2020-02-20].https://www.pewresearch.org/methods/2020/02/18/assessing-the-risks-to-online-polls-from-bogus-respondents/.
[7] Couper M P. Web surveys: A review of issues and approaches[J]. Public Opinion Quarterly, 2000(4):464-494.
[8] Lavrakas P J. Encyclopedia of survey research methods[M]. Thousand Oaks, CA: Sage Publications, Inc,2008.