社会调查质量:调查误差、结果适用性及质量控制*

2022-08-22 02:43臧雷振
江海学刊 2022年4期
关键词:调查者研究者受访者

臧雷振 王 栋

引 言

在社会科学研究中,调查是数据采集和学术分析的事实根据,首肯心折的研究成果与一丝不苟的社会调查相辅相成。可以说,社会调查是复写宏观世界的微缩艺术,借用日常生活中的“观察者之眼”,来为研究者、政策实践者、社会公众认知和改造世界的行动提供佐证。不过,并非所有社会调查都值此殊荣,其质量差异将影响人们走出信息迷宫、步入真理殿堂的概率。因此,保证社会调查的质量是研究深化的基础和前提。然而,不同于产品和服务的质量可由国际标准化组织(ISO)来评估认证,社会调查质量的内涵和衡量标准尚未在学术界达成共识。

当前,根据研究者在社会调查中的多元身份,可以从三个层次来理解社会调查质量。(1)对于一般的数据生产型研究者来说,即大多数社会调查的发起人和调查数据的提供者,社会调查质量是用最低成本减少整体性调查误差,并使调查结果最接近社会真实,其关注的重点是各种误差来源和表现。(2)对于从政府统计公报、商业调查报告和科研院所数据库等直接获取社会信息的消费型研究者来说,社会调查质量意味着适合预期用途,其首要考虑的是调查结果的准确性、完整性、及时性、可解释性等。(3)对于关照消费型研究者需求的生产型研究者来说,社会调查质量指全面调查质量,其除了留意结果质量(误差大小和适用性)外,还要将调查全流程纳入质量控制,使社会调查全员、全过程、全方位的评价都令人满意。

全面社会调查质量概念的提出同社会科学研究所面临的两场信任危机不无关联。一方面,事关社会科学研究的可靠性和纯洁性。自“数据密集型”范式进入社会科学研究以来,社会调查产生的小数据的影响力和应用范围亦被不断强化,并在数据集成的趋势下,同大数据加深融合。但这也意味着如果不对社会调查质量提出更高的控制要求,其将以前所未有的可能性摧毁任何数据驱动型或数据关联研究的根基。另一方面,事关社会科学研究的可复制性和透明度。普遍存在且更易被发表和引用的不可复制研究,(1)Marta Serra-Garcia, Uri Gneezy,“Nonreplicable Publications are Cited more than Replicable Ones”, Science Advances, Vol.7, No.21, 2021.虽然不能与学术不端和欺骗画等号,但很可能会使研究者被迫放弃不够“有趣”但结果可复制的研究,这样既无法达成初学者借助复制来习得研究方法的目的,也更难从复制过程中偶得学术创新。不过,全面社会调查质量的数据生产和管理思路,或许能提高实现数据归档的可能性,从而确保数据的二次分析和研究的可复制性,并增强社会科学研究的透明度。(2)Alexander Jedinger, Oliver Watteler, André Förster,“Improving the Quality of Survey Data Documentation: A Total Survey Error Perspective”, Data, Vol.3, No.4, 2018, p.45.

然而,不容乐观的是,社会调查质量的保证之路并非一帆风顺。一方面,由于社会发展不确定性增加,致使个体主观意识复杂化,这造成了更多新兴的、隐蔽的调查误差;另一方面,在不同质量进路下,方法设计者对配套工具的“火力不足综合症”,同方法应用者对手段技术的“选择困难症”之间存在矛盾。在此多重压力下,本文将融合提高社会调查质量的多元路径,以减少整体性调查误差为目标,以增强调查结果的适用性为宗旨,以加强对调查全流程的质量控制为手段,制定全面社会调查质量保证框架,从而应对潜在的社会科学研究的信任危机。

社会调查误差:识别、分析与归类

自社会调查诞生之日起,调查误差就伴随其左右,并表现为降低社会调查信度和效度的各种偏误。研究者对调查误差的关注,经历了从对具体现象的观察归纳,到抽象化的类型学划分,(3)W.Edwards Deming,“On Errors in Surveys”, American Sociological Review, Vol.9, No.4, 1944, pp.359-369.再到一种注重平衡成本与效果的整体全面观,即减少整体性调查误差。尽管此质量进路不太关照用户需求,造成了过重的调查设计负担,(4)Robert M.Groves, Lars Lyberg,“Total Survey Error: Past, Present, and Future”, Public Opinion Quarterly, Vol.74, No.5, 2010, pp.849-879.但仍为本文汇编误差清单尤其是非随机误差清单,提供了完备的视角和资料。本文将在此路径的指导下,按照社会调查流程(组织、过程和结果)对无所不在又避影匿行的调查误差进行识别、分析和归类,以配合后续其他质量进路的良好运行。

在社会调查的组织环节,调查误差表现为无效的团队和漏洞百出的方案。组建调查团队时,生产型研究者受到柠檬效应(Lemon Effect)心理的影响,宁可招募廉价成员也不愿意被高价成员偶尔的低质行为欺骗;而廉价成员往往会通过牺牲调查质量,来弥补其预期收入同实际收益间的差距;再加上资历审核与岗前培训环节的缺失,使本就不会调查的成员更加手足无措;于是,彼此不信任甚至低士气的调查团队早已失去完成高质量社会调查的可能。更不要说,还有一套漏洞百出的调查方案:样本选择不合理,在抽样框编制、样本量确定和抽样实操等方面存在误差;问卷设计不科学,问题表述抽象、含糊、有倾向,(5)风笑天:《社会调查中的问卷设计》,中国人民大学出版社2014年版,第137—143页。问卷过长(6)Mirta Galesic, Michael Bosnjak,“Effects of Questionnaire Length on Participation and Indicators of Response Quality in a Web Survey”, Public Opinion Quarterly, Vol.73, No.2, 2009, pp.349-360.等;调查方式不匹配,如在原始部落使用智能调查工具;缺少对意外事件的应对措施,如无法及时召回在恶劣天气中工作的调查者。

在社会调查的过程环节,调查误差表现为调查者欺骗和受访者敷衍。其中,调查者欺骗分为三个等级:全部捏造、部分编造和违背调查程序。(7)Joerg-Peter Schraepler, Gert G.Wagner,“Characteristics and Impact of Faked Interviews in Surveys—An Analysis of Genuine Fakes in the Raw Data of SOEP”, Allgemeines Statistisches Archiv, Vol.89, No.1, 2005, pp.7-20.全部捏造指调查者根本没有接触受访者而自我完成问卷的调查行为;部分编造,指调查记录中虽然有受访者的真实回答,但也掺杂着调查者假造的信息。至于违背调查程序则更加包罗万象:将调查任务外包;按照主观偏见选择受访者;在开放式问题中,只记录寥寥几笔。

受访者敷衍由应答率低和应答真实性差共同构成。在面对调查时,受访者会借占用时间、侵犯隐私等说辞直接拒访;也会因应答负担重和问题敏感而中途断访。不过,这远没有受访者虚假作答对调查质量造成的危害大。比如,受访者在意见识别类型选项中全选同意,猜测调查期望而不是按照真相回答,或只选择问卷中最极端的选项,或因社会期许而美化自身形象。同时,受访者可能因调查者的外貌、性别、种族、态度等因素区别回答;或缺乏专注力,产生不准确的答案。此外,受意识形态或文化差异的影响,一个看似普通的问题可能是使调查不欢而散的导火索,比如向信奉锡克教的印度裔旁遮普族男性询问是否支持社区供应酒类(锡克教禁酒,而旁遮普族文化却鼓励饮酒)。(8)Gary Manders, Sarah Galvani,“Learning from the Research Process: Discussing Sensitive Topics as a Cultural Outsider”, Social Work Education, Vol.34, No.2, 2015, pp.199-212.

在社会调查的结果环节,调查误差表现为可疑的数据和不透明的成果。客观来说,脏数据(9)Justin A.DeSimone, P.D.Harms,“Dirty Data: The Effects of Screening Respondents Who Provide Low-Quality Data in Survey Research”, J Bus Psychol, Vol.33, 2018, pp.559-577.可能源于不规范的操作、硬件条件的限制以及数据本身的不可获得性;但也不能排除主观因素,如研究者故意捏造、篡改、删除、剽窃调查数据。这些可疑的数据本身,也成为研究成果“不能透明”的原因之一。再加上只有少数期刊才要求公开研究细节,研究者在“不必透明”的环境下,自然“不愿透明”,即不上传原始数据、不提供可复制的分析过程、不回应同行及读者质疑等。

社会调查适用性:契机、联通和质控点

社会科学研究对调查适用性的关注是弥补减少整体性调查误差路径缺乏用户视角的结果,其既涵盖了后者重视的准确性,又拓展了更为多维的调查质量评价标准,如可比性、连贯性、关联性、及时性、可访问性、可解释性等。这种质量内涵定义方式也被诸多社会调查质量保证框架所参考,如联合国《官方统计国家质量保证框架手册》(NQAF)(10)United Nations National Quality Assurance Frameworks Manual for Official Statistics: Including Recommendations, the Framework and Implementation Guidance, UN, 2019.等。但调查适用性只能算是超越减少整体性调查误差的质量衡量体系,而没有提供任何提高社会调查质量的方法范式。不过,这也为联通减少整体性调查误差与质量控制提供了契机。

受20世纪80年代全面质量管理浪潮的影响,质量控制的思路被引入社会调查之中。(11)Lars Lyberg,“Survey Quality”, Survey Methodology, Vol.38, No.2, 2012, pp.107-130.该路径关注社会调查全流程的质量,即组织、过程和产品(结果)质量。并在持续改进的观念下,为达到监测和评估的目的,陆续设计了诸多配套方案、工具和技术。然而,社会调查毕竟不是工业生产和企业管理,缺乏恒定的、客观的、现成的质量标准和根据,这严重阻碍了质量控制在社会调查质量保证中的发展。在此背景下,师出同根的调查适用性进入质量控制路径,并为其设置了最低标准(准确性,即减少整体性调查误差)和最高要求(满足用户的多维度需求)。如此一来,缺乏方法支持的适用性同缺少准则的质量控制相互弥补,也通过适用性这个中介将减少整体性调查误差与质量控制相串联。

一千个消费型研究者就有一千种对社会调查适用性的具体解释,所以生产型研究者只能在确保其准确性的基础上不断精进。为此,本文参考其他领域全面质量管理的经验,提出了一种更好地联通减少整体性调查误差与质量控制的思路,即设置质量控制点(简称“质控点”)。(12)李玲、王春:《学科发展态势分析的工作流程及质量控制点研究》,《图书馆理论与实践》2012年第3期。所谓质控点,是社会调查全流程中的重点控制对象、关键部位和薄弱环节,也是后续质量控制的施用目标。在对调查误差进行识别、分析和归类后,按照“问题—目标”的传导逻辑,将其转化为质控点,并通过由低阶向高阶的细化,使其清楚全面地反映出社会调查中的检验重点,让质量控制工具更能有的放矢。具体操作见图1。

图1 调查误差与质量控制点

从以上分析归纳的误差清单(“无效的团队”“漏洞百出的方案”“欺骗敷衍的过程”“可疑的数据”“不透明的成果”)中,我们可以提炼一阶质控点为:团队、方案、过程、数据、成果。从上述误差的具体表现中总结出二阶质控点:“团队”的资质、章程、成员、物料、建设等;“方案”的样本、问卷、流程、设备、帮助手册等;“过程”的调查者言行、受访者言行等;“数据”的介质、软件、操作等;“成果”的内容、形式等。以“‘过程’的调查者言行”为例,三阶质控点为:地理位置、知情同意书、时长、图像、声音、提问、记录等。在此基础上更为细致的四阶质控点有:“地理位置”的起始点、终止点、活动范围、异常点等;“知情同意书”的出示、阅读、回收等;“时长”的总时长、分题时长、有效时长、无效时长等;“提问”的音量、语速、完整度、规范度、准确度、噪声、重复次数等。最后,五阶质控点,如:“‘知情同意书’出示”顺序(在提问前、中、后)、形式(口头、纸质、电子)等。不过,受篇幅所限,此处只是部分举例,更为全面的质控点设置情况有待于学术界共同从社会调查实践中总结和积累。

社会调查质量控制:检验、提升与再检验

受质量管理领域奠基人休哈特(Shewhart)提出的“计划—执行—检查—处理”循环启发,本文提出社会调查质量控制的行动逻辑,即对上节设置的质控点进行“检验—提升—再检验”,以使其满足减少整体性调查误差或提高适用性的质量标准(见图2)。就此,本文将通过比较不同质量检验、提升工具(或手段)的选择思路、优劣或适宜应用的情境,以完成提高全面社会调查质量的最后一步工序——质量控制。

图2 质量控制程序

(一)团队质量

对团队质量的检验分为内部、外部和全行业三个维度。内部评估适宜所有生产型研究者,主要使用自我评估工具和组织评估调查表等量表。如鲍德里奇国家质量计划(Baldrige National Quality Program, BNQP)自我评估问卷,(13)中国质量协会、卓越国际质量研究中心编译:《追求卓越的旅程——美国鲍德里奇国家质量奖自评报告》,中国标准出版社2005年版。欧洲质量管理基金会(European Foundation for Quality Management, EFQM)组织绩效评估模型等。而用户反馈、同行评议等外部评价主要针对关照消费型研究者的生产型研究者。此外,还应鼓励学术界共同制定社会调查组织质量黑白名单备忘录,作为数据库间交流合作、聘用(借调)工作人员的信任凭据。

与之对应的团队质量提升工具,则更接近于企业质量管理手段。如官僚手段,运用规定、权威和协约等将团队置于机械框架下。虽然这种方法较为常见且易于操作,但会导致组织僵化、成员逆反。相反,市场手段提供了一种更为能动的驭人之术,巧用供求、价值和竞争等经济规律来调动团队持久的执行力。不过,即使这种方法能发挥最佳的催化效果,但也会走向另一个极端——由过度竞争引发的内耗和浮躁。当然,还可以使用团体手段,即通过营造健康的团队文化氛围起到人道的精神感召作用。(14)Arthur Kennickell, “Curbstoning and Culture”, Statistical Journal of the IAOS, Vol.31, No.2, 2015, pp.237-240.不过,尽管该方法能够弥合团队与个人间的利益冲突,但往往见效慢、投入大、难操作,只能作为补充工具。

(二)方案质量

对方案质量的检验,一般采用预调查(Pilot Survey,又称“试点调查”)的方法,即在正式调查开始前,选取调查范围内的某一局部,进行小规模的预演性调查。通过预调查,可以及时发现那些仅通过理论推导难以注意到的实际问题和实践中不可预料的各种突发状况,以及调查方案中的遗漏环节和薄弱点等。只是,额外的调查也意味着额外的成本投入,如果预调查过程没有尽可能模拟正式调查流程,或对预调查的经验总结没能与正式调查挂钩,都将流于形式而浪费资源和时间。此外,从计算机科学结对编程(Pair Programming)演变而来的结对控制法(Pair Control)也能起到一定的检验效果。在方案设计时,一人负责输入,另一人负责审查,输入者只考虑工作进度,审查者则要发现不足和问题,再通过互换角色,实现双重复核。结对控制能充分调用团队成员的知识储备,在互相监督中,降低设计缺陷率,提高工作效率,但成员也可能因为长时间高压工作,而将理念冲突扩大为内部矛盾。

显然,提高方案质量没有捷径和工具可以依赖,也非朝夕间就能速成,需要方案设计者经年累月地沉淀知识和阅历,并对每一份方案都保持审慎和虔诚的态度。当然,长此以往也能体悟出独到的辅助技巧。比如,在调查问卷设计时加入陷阱问题,这类问题并不考验受访者的知识水平,但可以甄别受访者是否目标人群、是否如实应答、有无敷衍走神等。需要谨慎的是,有些聪敏的受访者可能轻易识别陷阱所在,并为迎合研究目的而歪曲应答,还可能通过胡乱作答来报复调查者暴露出的不信任感。再比如,使用间接提问技术作为敏感性问题的调查工具,可以降低受访者的警惕性。

(三)过程质量

对过程质量的检验一直秉持两个发展方向——再接触与监测,即使科技进步日新月异,改变的也只是这两者的名称和具体达成手段,而非其核心用意。其中,再接触法,(15)Bob Groves,“Interviewer Falsification in Survey Research: Current Best Methods for Prevention, Detection, and Repair of Its Effects”, Survey Research, Vol.35, No.1, 2004, pp.1-5.是指由质控员(亦称“监督者”)对受访者展开二次调查,以核实调查者工作的可靠性和受访者应答结果前后的一致性。从最早的当面回访、寄派信件,到此后的电话、电邮问询,再接触法始终保持着低门槛、易操作的优势。不过,再接触法需要重复“打扰”受访者,这就意味着难以保障的再回复率和高成本低效率的非对称结果。而且,企图通过局部二次调查“重现”全部初次调查的原始情境,也并不可行。于是,以“亲临”调查为特色的监测法,开始逐渐受到研究者的青睐。

所谓监测法,从最小定义来看,就是质控员可以看到或听到调查过程。如此一来,不仅能够发现每一份调查背后的异动,还能起到提醒(威慑)调查者诚信工作、受访者诚实作答的作用。一般来说,监测的内容包括调查发生的地理位置,调查过程的音频、视频,调查参与主体的行为数据等。当然,得益于科技发展,这一监测过程不是发动人海战术,进行一对一实地跟踪,而是利用日趋多元和智能的远程工具及技术。比如,只针对单一监测元素的初级监测法,像计算机录音采访技术,和利用卫星定位系统收集调查发生在规定时间地点证据的地理信息标记法(Geotagging)。(16)M.Rita Thissen, Susan K.Myers,“Systems and Processes for Detecting Interviewer Falsification and Assuring Data Collection Quality”, Statistical Journal of the IAOS, Vol.32, No.3, 2016, pp.339-347.另外,还有综合多种监测元素的中级监测法,如国内外应用较为广泛的计算机辅助面访(Computer Assistant Personal Interviewing, CAPI)技术。该技术除了可以同时记录地理位置、调查对话和图像等,还具备应答路径自动跳转和应答结果一致性检验等辅助功能。

近年来,在拓宽监测内容范围和增强监测判断自动化的基础上,诞生了许多前沿的高级监测法。如过程数据分析法(Paradata Analysis Methods),(17)Joe Murphy, Paul Biemer,et al.,“Interviewer Falsification: Current and Best Practices for Prevention, Detection, and Mitigation”, Statistical Journal of the IAOS, Vol.32, No.3, 2016, pp.313-326.通过量化分析有关调查过程的跟踪数据,来评估验证其真实性和可靠性。常见的跟踪数据有各小节调查时间与总调查时间比例、每小时的工作产出、关键问题的应答情况等。类似的还有,基于调查参与主体行为数据的机器学习。(18)Benjamin Birnbaum, Gaetano Borriello,et al.,“Using Behavioral Data to Identify Interviewer Fabrication in Surveys”, Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 2013, p.2911.详细来看,就是在智能化调查工具(智能手机、平板等)中植入开放数据工具包(Open Data Kit),用于记录调查参与主体(多是调查者)产生的行为数据日志,并生成数据库,这些数据甚至包括精细到毫秒级别的鼠标滑动与点击等。再采用随机森林算法实现特征提取,建立行为数据与低质量调查过程的联系。随后使用这些特征数据对一个监测分类器进行训练,让其具备监测调查者行为,并判断其是否违规的能力。未来还可以连接其他传感器,如测速器、光感器、麦克风、相机、GPS等辅助测量和记录调查者行为,以便提高监测分类器的检测精度。

无论是再接触法还是监测法,在对调查过程进行质量检验的同时,也起到了一定的质量提升作用。质控员可以对被发现问题的调查过程,实施剔除、替换、覆盖或修补等诸多提纯措施。除此以外,还可以根据对调查过程参与主体(调查者和受访者)的两种不同倾向来分别选择工具。一种是“调查者善论”,认为更可能通过调查者之手来提升质量。那么,就要寄希望于调查者能与受访者达成某种要约或承诺,比如通过宣读知情同意书,简述调查目的和匿名保密原则,向受访者征询参与意愿。尽管这是一种君子之约,其约束力有限,但在一定程度上也可以消解受访者的戒备心理。再比如,利用应答奖励向受访者发出调查请求,受访者则通过完成调查来交换。虽然这种“交易”效果显著,但应答奖励的边际递减效应、发放奖励时机、现金与实物奖励的选择以及受访人群的特征都会影响其实际效用。(19)Klaus Pforr, Michael Blohm, Annelies G.Blom,et al.,“Are Incentive Effects on Response Rates and Nonresponse Bias in Large-Scale, Face-to-Face Surveys Generalizable to Germany? Evidence from Ten Experiments”, Public Opinion Quarterly, Vol.79, No.3, 2015, pp.740-768.同时,这种方法还存在调查伦理、应答客观性等争议。

另一种倾向就是“受访者善论”,认为与其同调查者斗智斗勇,不如相信绝大多数的受访者。在此原则下,调查者会被技术工具逐步取代,呈现一种“去调查者化”的趋势。如半自助化(定向受访者)的计算机辅助自助面访(Computer Assisted Self Interviewing, CASI)技术、(20)Judith T.Lessler, James M.O’ Reilly,“Mode of Interview and Reporting of Sensitive Issues: Design and Implementation of Audio Computer-Assisted Self-Interviewing”, NIDA Res Monogr, Vol.167, 1997, pp.366-382.计算机化自我管理问卷(Computerized Self-Administered Questionnaires, CSAQ)技术、(21)Malachy Corrigan,et al.,“A Computerized, Self-Administered Questionnaire to Evaluate Posttraumatic Stress among Firefighters after the World Trade Center Collapse”, American Journal of Public Health, Vol.99, No.S3, 2009, pp.S702-S709.交互式语音应答(Interactive Voice Response,IVR)(22)Ross Corkrey, Lynne Parkinson,“Interactive Voice Response: Review of Studies 1989-2000”, Behavior Research Methods, Instruments & Computers, Vol.34, No.3, 2002, pp.342-353.等。还有全自助化(非定向受访者)的,一般网络调查、(23)Mick P.Couper,“New Developments in Survey Data Collection”, Annual Review of Sociology, Vol.43, 2017, pp.121-145.众包平台调查和社交媒体平台调查(24)Daniel Schneider, Kristen Harknett,“What’s to Like? Facebook as a Tool for Survey Data Collection”, Sociological Methods & Research, Vol.51, No.1, 2019, pp.108-140.等。不过,在绝对消除调查者误差的同时,也必须认识到,不仅没有人能再帮你控制调查节奏、保障受访者的参与度,你还要面临因技术使用的筛选性而导致的样本代表性质疑和低覆盖率问题。(25)Samuel J.Best, Brian Krueger, Clark Hubbard, Andrew Smith,“An Assessment of the Generalizability of Internet Surveys”, Social Science Computer Review, Vol.19, No.2, 2001, pp.131-145; Jelke Bethlehem,“Selection Bias in Web Surveys”, International Statistical Review, Vol.78, No.2, 2010, pp.161-188.

(四)数据质量

本部分所述的数据质量控制,更准确地说,应该是对调查结果数据整理工序的控制,或称为数据清洗(Data Cleaning)。这是在调查结果用于研究、共享前,纠正调查中可识别误差的最后一道程序。除了对存储、传输、分析数据的硬件设备进行检验,质控员更为关心数据的完整性、规范性、一致性、唯一性、关联性等。不同于对调查过程实行质量控制的实时数据清洗(也称单次数据清洗、静态数据清洗),本部分是以更宏大、动态的视角执行深度清洗。(26)丁华、石田依:《计算机辅助调查数据清理的新方法》,《中国统计》2020年第4期。具体的清洗方法有:准确性高却效率低的人工手动清洗,受限于数据依赖关系的函数依赖法,适用于数字型数据的分箱法,受制于规则性数据的简单规则库法,用于检测属性错误值的统计法、聚类法,适于检测空值的代表性函数值填充法,基于字段检测的编辑距离(Levenshtein Distance)算法、余弦相似度算法,基于记录检测的N-Grams算法、SNM算法、MPN算法,面向异常值检测的接近度算法、密度算法等。

虽然数据清洗的筛选、消除、去重、填充、整合等功能,已经兼具了质量检验和提升的作用。但在此基础上,还可以选择另外一种提升方式——数据预测。一方面,数据预测是在已完成实地调查后,弥补数据缺失遗憾的替代方案;另一方面,能最大限度发挥调查数据的潜力价值,给予研究者成为“先知”的能力。对于专业知识储备薄弱或中小等级数据规模的研究者,使用现成的商业智能(Business Intelligence, BI)分析工具就可以完成简单的数据预测,尽管这样的预测结果并不一定稳健。而对于有一定技术支撑且数据规模较大的研究者,可以通过深度学习(Deep Learning)自建预测模型。此外,如果有对特定变量的预测需求,可以采用因果关系预测法;如果数据库中历史数据更为丰富,可以选用时间序列预测法。值得一提的是,受贝叶斯分析的影响,曾被认为主观随意性大的定性预测(经验判断)法未来也许能发挥更精准的预测效果。

(五)成果质量

对成果发表的质量控制,也就是对研究者利用隐蔽的“自由裁量”手段创造有利于发表的假阳性结果的限制。(27)Gabriel S.Lenz, Alexander Sahn,“Achieving Statistical Significance with Control Variables and Without Transparency”, Political Analysis, Vol.29, No.3, 2021, pp.356-369.尽管近些年来,国内外社会对研究不端行为、学术透明度等的关注有所增加,但仍然缺乏完备的质量检验方法和工具。像查重、审理等后验手段,和同行、编辑、读者等外部监督源,都无法充分激发研究者对高质量调查和诚信研究的学术自觉。如果没有严厉的惩处标准和禁入制度,研究者难免因为人性的弱点而不主动遵守规则。因此,日后更应考虑的是如何使用先验的方法引导研究者自发检验和提升成果发表的真实性、透明度。眼下正流行的预注册(Pre-register)法(28)臧雷振、潘晨雨:《社会科学研究透明度:内涵,价值及其实现路径》,《国外理论动态》2020年第5期。就是对此问题的创新回应。该方法兼具监督和鼓励效用:预先登记在册的研究计划,有参考价值的事前对话,以及对阴性结果发表的宽容度,都给了研究者去伪存真的理由和信心。

为了让读者更好地了解和识别全面社会调查质量控制的关键节点,以及每一部分对应的操作工具,本文将上述质量控制方法简化为表1。

表1 质量控制方法

结 语

受社会科学研究可靠性危机与可复制性危机的影响,学术界对社会调查质量,更准确地说,是全面社会调查质量,赋予了更多关切与责任。同时,社会调查质量又面临着误差侵蚀与方法误用的困境。因此,如何有效提高社会调查质量是当前社会科学研究者的核心关切之一。本文正是在此背景下,对社会调查质量问题作出了学术回应。首先,融合三条质量进路共同形成一个系统的全面社会调查质量保证框架,并以减少整体性调查误差为目标,以增强调查适用性为宗旨,以加强对调查全流程的质量控制为手段。其次,在减少整体性调查误差路径指导下,以整体视角,对社会调查的误差进行识别、分析和归类。第三,以适用性为中介,联通减少整体性调查误差与质量控制,并引入质量控制点,使质量保证工作有的放矢。第四,在休哈特循环的启发下,设计“检验—提升—再检验”的质量控制程序,并比较了不同工具的优劣和适用情境。

与此同时,本文也发现了一些值得学术界共同探讨的问题。首先,随着提高社会调查质量的新兴工具的发展,原本社会调查低门槛、低成本的优势正逐渐消逝。一个人、一支笔、一份问卷的传统调查被日益强调学科互涉和知识越界的新型调查所取代。换句话说,研究者若想如以前那样揭示现实社会的深刻本质,就必须不断增强其研究的复杂性(Complexity Science)和对质量的关注度。这也意味着,学术后来者的准入门槛被大大提高,要么投入无法估算的机会成本提升自身研究软实力,要么栖身于既定方向的科研团队共同完成。这并不利于社会科学研究的知识溢出。

其次,在实际社会调查中,调查质量并不是绝对的非黑即白。是否存在一个灰色的安全区域?在其中,只要调查误差没有超过规定限度,仍可以通过技术手段弥补,从而不影响调查结果的适用性。也就是说,“坏”数据依然能产生好的研究成果。比如,吉伯特(Gibbert)等利用异常值同样可以进行理论构建。(29)Michael Gibbert, Lakshmi Balachandran Nair, Matthias Weiss, Martin Hoegl,“Using Outliers for Theory Building”, Organizational Research Methods, Vol.24, No.1, 2021, pp.172-181.目前,部分研究者因追求绝对完美的调查研究而焦虑不安,从而忽视了研究投入对调查质量的影响同样遵循边际效益递减的规律。如此一来,不仅浪费了研究资源,也降低了做出好研究的效率。未来,研究者可以重点关注如何划定科学的安全区域,如赫德林就证明了应答率远没有人们想的那么重要。(30)Dan Hedlin,“Is There a ‘Safe Area’ Where the Nonresponse Rate Has Only a Modest Effect on Bias Despite Non-Ignorable Nonresponse?”, International Statistical Review, Vol.88, No.3, 2020, pp.642-657.

最后,社会调查的高质量是否一定要通过大数量来表达?对于“纯粹”(就像物理学假设的“光滑”一样理想)的社会调查来说,其误差表现只有一种,即随机误差,这是样本与总体之间的绝对离差。根据大数定律或更具体的蒙特卡洛方法(Monte Carlo Method),似乎只要样本规模足够大,就必然能够无限接近真实情况。即便回到现实世界,这种对质量随数量同向变动的认知也大有市场。比如,所谓的“大数据技术优于社会调查”的底层逻辑,就是假设海量的、普适的、详尽的大数据已经做到了将世界放在面前(N=The World)。(31)Matthew Jones,“What We Talk about When We Talk about(Big)Data”, The Journal of Strategic Information Systems, Vol.28, No.1, 2019, pp.3-16.不过,大数量并不一定等于高质量,比如,1936年《文摘》杂志对选举预测的失败。同样,小数量也不代表低质量,比如,孟晓犁的统计推论,(32)Xiao-Li Meng,“A Trio of Inference Problems that could Win You a Nobel Prize in Statistics(If You Help Fund It)”, in Xihong Lin, Christian Genest, et al., eds., Past, Present, and Future of Statistical Science, Boca Raton, FL: CRC Press, 2014, pp.537-562.揭示了小数据集令人惊讶的力量。(33)Julian J.Faraway, Nicole H.Augustin,“When Small Data Beats Big Data”,Statistics & Probability Letters, Vol.136, 2018, pp.142-145.当然,数量与质量本就不在同一探讨维度,对数量大小的争论是观察性研究与因果推断的范式之别,而两者都可能被冠以高质量或低质量的称呼。但从新鲜感来说,社会调查的小数量在全面社会调查质量的指引下,或将有助于社会调查在未来有更高的关注度。

猜你喜欢
调查者研究者受访者
今天,你休闲了吗?
关于安全,需要注意的几件小事
低碳生活从我做起
五成受访者认为自己未养成好的阅读习惯
高等教育中的学生成为研究者及其启示
慢性肾衰竭合并冠心病患者血浆氧化型低密度脂蛋白水平变化及临床意义
高校经营性健身房的作用与现状调查
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
医生注定是研究者