在线审计实验方法的发展及应用∗

2023-12-26 07:41:54何浩然夏静文

经济科学 2023年4期

何浩然夏静文

一、引言

实验作为一种重要且经典的科学研究范式，在经济学各领域中已得到广泛应用。自Smith (1962)采用规范的受控实验研究了竞争市场中个体的经济行为，伴随着博弈论和行为经济理论的深入发展，基于实验的理论探索和实证研究发展迅速，越来越多经济学者采用实验方法检验经济理论、探究新的经济规律。实验所具有的可控制性常被用于处理现实中因个体自选择、遗漏变量等带来的内生性挑战，有助于更准确地探究事物间的因果关系，从而也能更有效地指导政策的制定、评估和改进等重要实践。实验的基本类型分为实验室实验和实地实验。前者一般具有更强的可控制性，内部有效性更高，但因其样本代表性和场景真实性不足以及实验参与者的被审查感等原因，其外部有效性常常受到质疑；后者则能够在保证内部有效性的基础上，有力地提高外部有效性。审计实验是实地实验的一种重要类型(Harrison 和List，2004)，其特点是通过将拥有一个或多个干预特征的真实或虚拟个体随机指派到诸如劳动力市场、零售市场、医疗市场等特定的现实情境，来识别这些特征对市场各方所受待遇以及后续结果的因果影响。审计实验能够在确保被审计者在对被审计不知情的现实情境下开展实验干预和数据收集，避免被审计者因知情而产生有关自身利益、社会形象等额外考量从而有意或无意采取非自然或欺骗行为应对审计而导致的数据失真，故能够观察到被审计者真实可信的行为反应。鉴于审计实验的上述核心优势，该方法常常被用于研究歧视、委托—代理等具有较高私密性和敏感性的经济学核心议题。

以广泛存在于劳动力市场及零售、租赁、婚恋等各类市场和经济活动中的歧视问题为例，自从加里•贝克尔(Gary Becker)的开创性研究至今(Becker，1957)，歧视问题已成为过去半个多世纪经济学研究的核心领域之一。其中，劳动力市场中的歧视特别受到经济学家的关注，他们尝试从经济学视角解释劳动力市场中许多群体遭受不平等待遇的原因，并提出相关政策建议，以改善劳动力市场中求职者由于性别、种族、性取向、残疾等因素而遭受雇主歧视的现象。早期有关歧视的研究主要基于观测数据估计市场歧视程度，探究各类歧视所产生的影响等(Madden，1987；Oaxaca 和Ransom，1994；Lang和Manove，2011)。鉴于采用观测数据的研究常常难以完全处理诸如遗漏变量、反向因果、样本选择等原因所带来的内生性，基于实验方法探究歧视的研究因具有清晰识别因果关系的优势而得以迅速发展。近年来，有学者采用实验室实验，通过雇主或雇员的角色模拟 (Lippens 等，2021；Lahey 和Oxley，2021)、公共品博弈 (Castillo 和Petrie，2010)、信任博弈(Fershtman 和Gneezy，2001)和最后通牒博弈(Ferraro 和Cummings，2007)等各类博弈互动来研究人们的歧视和偏见行为。而相比于实验室实验，在各种现实情境下的审计实验能够在被审计者不知情的情况下获取其自然且真实的行为，从而具备提高研究结果外部有效性的独特优势。目前，审计实验已成为研究歧视的主流方法。

根据实验所采取的审计形式，现有文献常将现有审计实验研究分为采用真人进行审计的现场审计(in-person audit)和基于通信媒介如邮寄信件、电子邮件、电话、传真等进行审计实验的通信审计(correspondence study)两种类型(Gaddis，2018)，但并未对近年来依托互联网技术开展的在线审计实验及其应用研究进行明确界定和讨论。本文根据实验所采取的审计渠道是否依托互联网技术，将审计实验划分为传统审计实验和在线审计实验。具体而言，传统审计实验是通过让训练有素的真人扮演求职者、消费者和患者等角色进行当面应聘、消费、就诊或投递除干预条件外其余信息等价的书面信件的方式，引出被审计者对种族、民族和性别等特征不同个体的行为反应，进而对不同干预条件下的结果进行观察比较以识别歧视的研究方法(Lahey 和Beasley，2009)。在线审计实验则是由传统审计实验为适应现代互联网环境发展而来，属于在线实地实验(online field experiment)，是结合了审计和在线实地实验特征的一种方法，既具有在线实地实验干预随机性强、成本低、数据准确性高等优势(翁茜和李栋，2020)，也在审计渠道、审计材料制作等方面与传统审计实验存在显著区别。传统审计实验以现场审计和基于书面信件邮寄的通信审计为主；在线审计实验则作为通信审计实验的新形态，以基于电子邮件、互联网在线平台或在线社区等渠道开展的线上审计为主。

二、传统审计实验发展

早期的审计实验以传统审计实验为主，实证上可追溯至20 世纪60 年代。为避免基于调查和访谈法所获取的观测数据因内生性而难以准确反映社会中真实的歧视程度，Daniel (1968)在英国种族关系委员会和英联邦移民委员会的委托下，首次采用大规模审计实验方法检验了在英国就业和住房市场中人们对黑人和移民群体的歧视程度，该研究直接促使英国在同年修订的《种族关系法》中明确规定了禁止在就业和住房市场中的种族歧视行为。随后，美国住房政府部门采取同样的方法发现了美国住房市场上人们对非黑人少数族裔(墨西哥裔)的种族歧视问题(Hakken，1979)。这些由住房政府部门主导的审计实验吸引了大批学者的兴趣，他们将审计实验这种方法推行应用至其他各类市场，比如劳动力市场、出租车市场和专家服务市场等。在研究主题上，审计实验研究也不再局限于种族歧视，还关注了性别、年龄和性取向等各类歧视问题以及委托—代理问题，并且在审计渠道上做出改进，由直接采用面对面的审计转向通过书信邮寄开展审计，在保留审计实验随机控制优势的同时，降低了实验员审计时间的投入和来自审计员的偏差。

理论上，自20 世纪90 年代以来，詹姆斯•赫克曼(James Heckman)及其合作者对传统审计实验提出了两点主要质疑: 一是审计实验无法确保审计员的不可观测特征均值在不同实验组间相等，因此无法确保其与可观测特征所共同决定的审计员的生产率均值在组间相等，从而无法确定通过审计实验识别出的歧视是来源于统计性歧视和偏好性歧视的加总还是只是来源于偏好性歧视；二是即使放宽假设，审计员的不可观测特征均值在组间相等且无须考虑识别歧视的来源，仅有审计员的不可观测特征在不同组间存在方差上的差异，也依然可能导致审计实验对歧视的估计偏误，即无法有效识别歧视(Heckman 和Siegelman，1993；Heckman，1998)。Neumark(2012)发展了基于h-probit 模型(heteroskedastic-probit model)的估计方法来应对上述质疑，并从理论上证明该方法在满足一定假设下可以修正因方差组间差异所导致的估计偏误，确保审计实验对歧视的准确识别。

下面结合前述传统审计实验简要的发展脉络，我们对现有传统审计实验应用研究进行介绍，并总结其不足。

(一)传统审计实验的应用研究

传统审计实验多以现场审计形式开展，主要关注住房市场、劳动力市场、零售和服务市场中的歧视和委托—代理问题。例如，Feins 和Bratt (1983)让经过培训后在职业、收入、性别和家庭规模等各方面相匹配的一名白人和一名黑人对来自波士顿的149 家房地产公司进行了274 次有关住房销售和租赁的现场审计——先后向房地产公司要求推荐相同条件的住房，以探究波士顿住房市场的种族歧视状况。他们的研究发现，波士顿住房市场普遍存在种族歧视——房地产经纪公司向白人提供了更多的信息和帮助，且黑人受到歧视的概率随着咨询次数的增加不断提高。Pager 等(2009)在纽约的低工资劳动力市场中开展的现场审计实验同样发现了种族歧视的存在。他们将在人口学特征和人际交往能力上相匹配的白人、黑人和拉丁裔训练后随机派送到低工资劳动力市场，对雇主进行审计并记录审计过程。他们的研究发现，在所有年轻男性求职者中，雇主往往优先选择白人求职者，然后是拉丁裔求职者，最后是黑人求职者，黑人求职者获得工作机会的可能性只有与其同等条件白人求职者的一半；而且相比于白人求职者，黑人和拉丁裔求职者通常被雇主安排到需要体力劳动、更少接触客户的职位。Gneezy 等(2012)则以汽车经销商给不同种族顾客同一汽车的报价差异作为衡量其种族歧视的主要指标，通过在芝加哥汽车经销市场上随机指派10 对匹配的美国黑人和白人对高价或低价汽车进行讨价还价的审计发现，白人在对高价汽车的讨价还价中获得了优待——其所获得的初始报价和最终报价分别比黑人低630 美元和1 010 美元。除种族歧视外，学者们采用现场审计开展的实验研究还关注由性别(Ayres 和Siegelman，1995；Neumark 等，1996)、犯罪记录(Pager，2003)和性取向(Hebl 等，2002)等因素所形成的歧视。此外，基于医疗服务、维修服务等信任品市场①现实中，信任品市场十分常见，比如医疗服务、律师服务、设备维修、金融投资咨询等。该类市场的典型特征在于: 卖方不仅提供服务，也同时作为决定买方具体需求的专家(Gottschalk，2018)。所开展的现场审计实验则主要关注研究委托—代理关系及其所导致的专家欺诈问题。比如，Balafoutas 等(2013)在希腊出租车市场上通过让审计员假扮本地人或外地人，采用便携式GPS 数据计算特定行程的合理路程和票价，再通过与实际路程和票价进行比较，识别两者间差别所衡量的出租车司机的欺诈水平。该研究发现，司机利用其相对于外地人在最优路线信息和收费系统信息上的优势，对他们比对本地人采取更多绕行和收取附加费的行为；而且相比穿着普通的低收入乘客，司机对穿着考究的高收入乘客也会采取类似的歧视行为。Currie 等(2011)在中国进行了一项审计研究，让两个具有相同流感症状的标准患者(standard patient)去看同一名医生，探究患者是否展示出其知道要适当使用抗生素这一知识特征信号对医生治疗行为的影响。他们发现，患者拥有慎重使用抗生素知识这一特征信号减少了医生抗生素处方率和药物支出。Das 等(2016)同样基于标准化患者方法开展现场审计实验，探究了医生在公共和私营医疗服务机构中的问诊行为及其医疗服务质量的差异。研究发现，医生在私营医疗机构会比其在公共医疗机构问诊时付出更多努力，诊断的正确性也相对较高，但增加了更多不必要的治疗手段。Lu (2014)则基于参与审计的患者是否参加了医疗保险分摊诊疗支出以及是否计划从该就诊医生处买药这两个干预条件开展现场审计实验，研究结果表明医生对有医疗保险的患者所开的处方药的金额要比没有保险的患者高43%，但这一结论的前提是患者计划从该医生处买药。

还有一些传统审计实验研究采用邮寄书面信件的形式开展(Jowell 和Prescott-Clarke，1970；Riach 和Rich，1987)，该形式接近于早期的通信审计。例如，Riach 和Rich(1987)采取配对审计(paired testing)的方式，先从维多利亚州《每日早报》上刊登的招聘广告中选取需要书面申请且存在稳定招聘需求的七类职位，然后基于这些空缺职位广告中的雇主地址，向其邮寄除性别之外其他特征均相匹配的书面申请信件，以探究维多利亚州劳动力市场的性别歧视程度。研究发现，配对的求职者中仅女性未被邀请面试的比例要比仅男性未被邀请面试的比例高出40%。

(二)传统审计实验的不足

与基于观测数据研究的识别策略相比，传统审计实验为缓解内生性提供了重要途径，但在实际操作中仍存在一系列问题。第一，用于实验的审计员或通信审计材料在不同干预条件之间很难具有完美的可比性，也难以确保其能够完全反映现实中所对应的真实群体。第二，传统审计实验特别是采用真人作为审计员的现场审计，需要花费大量人力物力去培训审计员、撰写及邮寄书面信件等，因此实验成本高，且研究样本往往源自某个社区或特定地区，代表性不足。例如，Grossman 和Honig (2017)仅在尼日利亚拉各斯大学附近的一个社区开展现场审计以探究种族及社会经济特征歧视问题，然而该社区中的卖家很可能与其他地区如住宅区附近市场中的卖家存在系统性差异，进而使得其研究结论难以代表整个尼日利亚零售市场中的种族及社会经济特征歧视水平。第三，真人作为审计员很难避免实验者偏差问题。一方面，难以确保不同干预条件下所指派的审计员的不可观测特征分布对于被审计者而言完全一致，且由于个体能力、经验、偏好等方面的差异被审计者对同一审计员的不可观测特征的估计也可能不同，进而导致干预条件外的估计偏差(Heckman，1998)。另一方面，由于传统审计实验难以做到对审计员的双盲设计，会导致审计员因了解研究目的而造成实验者需求效应(Turner 等，1991)。例如，审计员可能有意识或在潜意识下引导被审计者的行为，导致研究者对歧视水平的高估。第四，基于邮寄书面信件开展的传统审计实验研究难以观察到被审计者接受审计及其做出决策的过程，比如研究人员无法观测到被审计者何时接收、查阅信件，在决策阶段是否独立决策，是否可能受到其他因素的影响等。第五，审计实验存在欺骗被审计者的伦理问题(Zschirnt，2019)。特别是在常用的配对审计的设计下，向同一个被审计者派送两个或多个审计员或审计材料，很可能导致被审计者怀疑审计员或材料的真实性，进而无法准确引导出他们真实的行为反馈(Gaddis，2018)。

综上，直到21 世纪初，现场审计实验仍是经济学审计方法的主流，主要应用于研究各市场领域的种族、性别等歧视问题，考察歧视是否存在，以及估计各类歧视水平的高低。传统审计实验因其能够随机控制干预因素的特征，有助于识别有关歧视的因果关系，实地进行审计的方式也能够使其研究结论相比于实验室实验具有更高的外部有效性，但该方法仍存在审计员或审计材料与真实群体完全匹配困难、运行成本高、实验者偏差和需求效应、审计过程不透明以及伦理欺骗等不足之处。为了应对这些挑战，后续有研究开始结合计算机算法和互联网技术优势，发展在线审计实验。一方面，互联网为虚拟简历的构造及大样本实验提供更有利的条件，虚拟审计员及其资料的随机化设计和大样本下更容易实现h-probit 模型的有效估计，以应对来自前述学者的质疑 (Neumark 等，2019)；另一方面，在线审计实验也有助于改进传统审计实验所面临的包括审计材料可比性低、实验成本高等不足，具体改进将在下一部分进行介绍。

三、在线审计实验发展

21 世纪以来，随着互联网的快速发展，就业申请、住房租售或商品服务的消费等均可远程在线完成。在互联网技术和在线平台的辅助下，在线审计实验在传统的现场审计和邮寄书面信件审计的基础上应运而生，为适应当今通信技术变革而不断发展深化。例如，在线审计实验主要通过电子邮件或在线平台发送如简历等审计材料，来研究劳动力市场中种族(Nunley 等，2015)、年龄(Neumark 等，2019)、性别(葛玉好等，2018)、性取向(Ahmed 等，2013)、犯罪记录(Agan 和Starr，2018)、残疾(Baert，2016)、失业(Birkelund 等，2017)和教育程度(Deming 等，2016；李彬和白岩，2020)等因素导致的招聘歧视。其中，电子邮件的应用较为广泛，方便快捷，极大降低了审计实验的成本。Crabtree (2018)将基于电子邮件的在线审计实验总结为八步: 第一，根据研究目的进行实验设计，确定实验流程；第二，选择样本，根据样本的所在市场环境制作具有真实群体特征的审计材料如虚假简历，并明确发送电子邮件的时间和标准化回复内容；第三，收集样本的电子邮箱信息；第四，收集样本相关协变量；第五，将样本随机分派至各实验局，确保各实验局样本的主要相关协变量均通过平衡性检验；第六，通过手动或编码程序自动向各实验局中的样本发送电子邮件；第七，收集实验数据；第八，分析实验数据，得到研究结论。

除电子邮件外，近年来利用互联网在线平台直接进行大样本审计的研究也有不少。基于不同市场平台开展的在线审计实验研究所关注的问题有所不同。例如，基于招聘平台的在线审计实验研究大多关注雇主对求职者种族、性别等特征的反应，或求职者对不同工作条件的选择；基于租房平台的在线审计实验研究除关注种族、性别等经典歧视问题外，也关注人们的短期租赁行为(short-term rentals)及其与房屋租金之间的联系(Hoffman 和Heisler，2020)；而基于婚恋平台的在线审计实验研究则更多关注诸如收入、教育程度等个体的人口学及经济特征如何影响其婚恋匹配。

我们首先对在线审计实验为适应互联网发展所具有的技术改进特征进行介绍，然后再基于不同市场类型，对现有在线审计实验应用研究进行述评。

(一)在线审计实验的技术改进

现今互联网和计算机技术的发展让在线审计实验研究具备获取大数据和大样本以及实现自动化审计的可能性。具体而言，第一，在设计在线审计实验时，利用计算机爬虫或与在线平台合作的方式获取海量行政记录数据，既可通过大数据分析和随机化处理，制作出更贴近现实且具可比性的审计材料，也可对关键干预条件的设计提供指导。例如，Neumark 等(2019)采用在线求职平台上超过25 000 份简历作为样本库，创建能够随机分配多个可控制简历特征信息以及简历分组的应用程序VBA(Visual Basic for Applications)，以制作更为真实的虚构简历。He 等(2021)则依据招聘平台上数千个真实招聘广告的工资范围和工作时间要求，设计其在线审计实验中的工作职位所具有的工资和工作时间的弹性范围，以探究工作时间和地点弹性条件的变化对求职者申请的影响。第二，在线审计实验的样本获取具有低边际成本的优势，因此比较容易实现大样本审计。大样本审计不仅可获得较高的统计效力，还有益于开展基于被试者间设计(between-subjects design)的在线审计实验研究。该类设计能比被试者内设计(within-subject design)更为有效地降低被审计者怀疑或发现审计材料为虚构的风险，提高对歧视水平估计的准确性和外部有效性。第三，通过编程自动化录入和发送审计材料，不仅简化了审计实验的部分审计步骤(Lahey 和Beasley，2009)，而且能够降低人工处理审计材料、记录审计过程中出错的概率。

(二)在线审计实验应用进展

在线审计实验方法已被广泛应用到对多个类别市场的研究中。下面我们介绍该方法重点应用的劳动力市场，以及其他市场的应用研究进展。

1.劳动力市场的应用研究

(1)雇主的招聘决策。大量劳动经济学研究采用了在线审计实验方法，涵盖劳动力市场歧视的多个方面，包括种族、族裔、性别、年龄、失业状况、残疾和宗教等(Riach和Rich，2002；Bertrand 和Duflo，2017；Neumark，2018)。基于劳动力市场的在线审计研究多将雇主作为被审计对象，通过改变工作申请者简历中的种族、年龄、性别等一个或多个特定特征条件，采用电子邮件或在线招聘平台向雇主投递虚构简历的方式开展实验，以检验雇主在其招聘决策上的歧视行为，取得了一系列重要研究成果。例如，Bertrand 和Mullainathan(2004)以求职者名字作为非裔美国人和白人种族的特征构建虚构简历，通过电子邮件向波士顿和芝加哥地区的劳动力市场投递了近5 000 份简历，以考察劳动力市场的种族歧视现象。其研究发现，白人求职者获得面试反馈率要比非裔美国人高出50%，劳动力市场种族歧视情况严峻。而后，大量基于审计实验方法的研究在多个劳动力市场同样发现了雇主对黑人和少数族裔存在明显歧视(Jacquemet 和Yannelis，2012；Zschirnt，2020；Gorzig 和Rho，2022)。Albert 等(2011)则通过求职网站向西班牙马德里劳动力市场的雇主提交了10 620 份在年龄、性别和婚育状况三个维度上存在差异的求职申请，以探究招聘阶段有关年龄、性别和婚育状况的潜在歧视。他们的研究发现，相比于24 岁或28 岁的求职者，雇主对38 岁求职者存在歧视倾向，且雇主存在女性更适合从事如文秘等特定类别工作的刻板印象，但未发现雇主在招聘初期的简历筛选阶段对已婚已育女性表现出歧视行为。He 等(2023a)在中国2016 年二孩政策调整前后分别进行的两轮在线审计实验研究发现，由于雇主对男性和女性求职者存在不同的家庭责任预期，其存在对女性特别是育龄女性的明显歧视行为。当生育可能性随着年龄而增加，女性所受到的歧视加剧，但无证据表明男性受到此类歧视。Farber 等(2016)同样以向一个大型招聘网站上的空缺岗位投递虚构简历的方式考察雇主在简历筛选阶段的决策行为，但该研究所采用的虚构求职者均为女性，其仅在失业时间、年龄及是否做过临时工这三个维度存在差异。该研究通过在线投递6 072 份虚构简历的实验结果表明，雇主对年长和做过临时工的求职者的回复率分别显著低于年轻和未做过临时工的求职者。

(2)雇员的求职决策。以劳动力市场中的雇员作为被审计对象的在线审计实验研究正逐步兴起，主要通过在招聘广告上强调物质激励或非物质激励条件，探究激励条件变化对求职者申请决策的影响，进而识别其求职偏好。在物质激励方面，通过改变招聘广告上的工资水平或工资结构来实现对其物质激励的干预，探究雇主方所给出的工资对求职申请行为的影响(Dal Bo 等，2013；Flory 等，2015；He 等，2023b；Belot 等，2022)。一方面，提高工资有助于提高应聘该工作求职者的质量。比如，Dal Bo 等(2013)在墨西哥某招聘网站上随机发布不同工资但同是公共部门工作的招聘广告，以探究经济激励的作用。他们的研究发现，较高的工资吸引了更有能力的求职者。另一方面，提高工资也有助于提高应聘求职者的数量。比如，He 等(2023b)在中国某招聘网站上开展支付不同工资水平的相同工作对求职者申请行为影响的在线审计实验，发现在控制求职者保留工资的前提下，较高的工资提高了求职者的申请率，该发现为指向性搜寻理论提供了有力的支持性证据。在非物质激励上，主要包括弹性工作条件、平权政策、企业社会责任等，通过改变在线招聘广告或应聘申请表上职位相关的非物质激励信息，来探究非物质激励条件对求职者或雇员行为的影响。例如，He 等(2021)通过在工作招聘网站上外生操控相同招聘职位的工作地点和工作时间的弹性条件及工资水平，探究工人对弹性工作条件的支付意愿。他们的研究发现，求职者重视工作的弹性——平均愿意接受20%—30%的工资损失以换取同时具有地点和时间弹性的工作条件。Ibañez 和Riener(2018)为考察平权行动对女性求职者可能产生的激励作用，随机指派求职者在填写应聘申请表之前是否被告知其所应聘的企业或单位采取的平权政策声明①Ibañez 和Riener (2018)实验所采取的平权政策声明包括两类内容，一是为女性保留固定比例的职位，二是对于同等资格的求职者，优先考虑女性。，以回答“平权政策能否被用来促进女性就业” 这一现实问题。该研究发现，平权政策的干预提高了女性申请率，消除了申请率的性别差距，且并不会影响男性申请者的质量。Hedblom 等(2019)结合在线审计实验数据和结构估计方法，将具有不同工资和企业社会责任的招聘广告发送给平台上对该工作感兴趣的求职者，并追踪应聘成功成为雇员后的绩效，以探究工资、企业社会责任信息对求职者申请率和工作生产率的影响。该研究发现对企业社会责任信息的强调以及工资的提高均会提高求职者的申请率，而且披露社会责任信息的企业所吸引的求职者工作生产率更高，具有更高的工作质量。同样是研究雇主的亲社会特征对求职者的影响，Burbano (2021)则采用在招聘广告中是否披露雇主慈善捐赠信息的设置，使用在线劳动力市场平台招募雇员，发现雇员更愿意为有过慈善捐赠的雇主完成无薪酬的额外工作。

2.其他市场的应用研究

除劳动力市场外，在线审计实验在其他市场领域也有所应用。我们进一步介绍在线审计实验在零售市场、租房市场和婚恋市场的应用研究进展。

(1)零售市场。应用于在线零售商品市场的在线审计研究多关注买卖双方对彼此的歧视行为。例如，Doleac 和Stein(2013)在美国各地的广告网站上随机发布带有由黑皮肤、白皮肤、白皮肤但手腕有文身的三类卖家手拿商品展示图片的广告，买家可以通过广告留有的电子邮箱同卖家联系，卖家基于标准议价文本与买家邮件互动，咨询其对该商品的报价，通过考察买家的回复率、报价在不同种族及有无文身卖家之间的差异，探究买家对卖家的歧视行为。他们的研究发现，相比于无文身的白人卖家，无文身的黑人卖家收到的回复减少了13%，报价减少了18%，但手腕有文身的白人卖家与无文身的黑人卖家受到的歧视程度无显著差异。Zussman(2013)则通过让署名为犹太人和阿拉伯人特征的8 000 对虚拟买家向以色列在线二手车市场的犹太人卖家发送买车咨询邮件，以犹太人卖家的回复率衡量其对阿拉伯人买家的歧视水平。其研究发现，犹太人卖家在交易中存在种族歧视行为——犹太人卖家对犹太人买家的邮件回复率比对阿拉伯买家高22%。

(2)租房市场。现依托租房市场在线平台的审计研究主要关注针对种族和移民歧视。例如，Hogan 和Berry(2011)通过加拿大多伦多在线租房网站获取房东电子邮件地址，而后他们通过电子邮件向这些房东发送5 620 封具有不同种族特征名字的咨询邮件，基于邮件回复率及邮件回复内容的文本分析探究租房市场的种族歧视问题。其研究表明，穆斯林/阿拉伯裔男性最可能受到房东的歧视，其次是亚裔男性，最后是黑人和穆斯林/阿拉伯裔女性。Hanson 和Santas(2014)同样基于在线租房网站获得电子邮件地址，以名字和信件内容有无英语常见语法错误分别展现种族和同化程度差异，向美国房东发送白人、同化后的西班牙裔和新移民的西班牙裔三种租客的租房咨询邮件，同样基于邮件回复率探究房东对租客的歧视行为。该研究发现，房东对同化后的西班牙裔与白人租客的行为无显著差异，但对新移民的西班牙裔存在明显歧视。Datta 和Pathania (2016)则在印度租房网站上开展在线审计实验，以探究房东对不同种姓和宗教信仰租客的歧视行为。他们发现，穆斯林租客在印度在线租房市场上也受到房东严重歧视，相比于穆斯林租客，高种姓印度教租客收到房东回复联系的概率更高；而且当高种姓印度教租客和穆斯林租客均收到房东回复时，房东更有可能先给高种姓印度教租客打电话，但房东对非高种姓印度教租客回复率并未显著低于高种姓印度教租客。

(3)婚恋市场。在线审计实验在婚恋市场上的研究主要关注婚恋网站上不同种族、社会经济条件下的婚恋匹配问题。例如，Ong 和Wang(2015)在中国一个大型婚恋网站上设置多个具有不同收入水平的虚拟男性账号，通过网站女性对男性账户的个人资料页面的访问量来衡量女性的择偶偏好。他们的研究表明，女性更喜欢收入比自己高的男性。而后，Ong(2016)基于婚恋在线平台开展审计实验考察了不同性别或/和受教育程度对人们择偶偏好的影响。其研究发现，女性访问男性个人资料页面的次数随着男性受教育程度的增加而增加，但男性访问女性个人资料页面的次数则不受女性受教育程度的影响。Evans 和Vega(2021)则通过在婚恋约会网站上设置虚拟男性账户档案，基于在线审计实验探究被监禁经历对不同种族男性在线约会成功率的影响。他们的研究发现，被监禁经历的披露减少了黑人男性约会成功的概率，对拉丁裔男性的约会成功率无显著影响，但增加了白人男性约会成功的概率。造成该现象的可能原因是一些年轻女性主观认为有被监禁经历的白人男性更偏好风险，从而更可能与其发展浪漫关系。

综上，相比于传统审计实验，基于电子邮件和网络平台开展的在线审计实验通常成本更低、审计规模更大、审计渠道更为便捷、所涵盖的主题更广泛，基于大数据制作的审计材料更贴近实际，减少了实验者偏差和被审计者怀疑的可能性，从而提高了实验的可控制性和估计精度，进而提高了研究结果的外部有效性。

四、在线审计实验的研究局限与展望

(一)在线审计实验的研究局限

第一，干预特征信号引致的混淆影响。在线审计实验中通过文字表达的干预条件未必能够完全等价于研究者所关注的条件本身。例如，Bertrand 和Mullainathan (2004)在简历上采用具有种族特征的名字来展现求职者的种族，但这种做法可能混淆了种族和阶级的影响。这是因为非裔美国人的社会经济地位往往较低，即种族特征署名所传达的信号不仅包括种族本身，还包括与种族相关的潜在社会环境因素的干扰(Pager，2007)。这种干扰导致的混淆影响甚至可能会导致在线审计实验研究丧失其原有的随机控制优势，无法得到所关注的条件本身对结果的准确因果影响。

第二，抽样范围、结果变量和应用主题有限。现有的在线审计实验研究多集中于检验各市场中种族、性别等方面的歧视是否存在，而对歧视产生的过程及其作用机理的分析尚不够深入。这主要是由于在线审计实验往往以某个平台为基础样本池，其所抽取的样本仅以平台用户为主，范围有限。较少有研究能够与平台达成合作从而获取并充分利用平台的大数据，从而导致所能探究的结果变量有限，且往往局限于求职、议价、交往等交互过程的初步阶段。以劳动力市场为例，研究者往往只能收集到诸如“是否提供面试机会” 这类雇主在招聘初期的简历筛选阶段的行为决策数据，而无法对歧视过程的作用机制，以及其作用于雇员绩效、企业人员结构等方面的影响分别进行深入研究。此外，在劳动力市场中，在线审计实验对劳动需求方的雇主决策行为的研究应用较为广泛，但对劳动提供方的雇员决策行为的研究应用还比较初步，而且在线审计实验在其他类型市场上的应用更为有限。抽样范围、结果变量和应用主题的局限在很大程度上限制了在线审计实验研究的广度和深度。

第三，审计实验的伦理问题。尽管在线审计实验能够有效缓解传统审计实验存在的审计材料无法完美贴近实际以及高成本、审计过程不透明和实验者偏差问题，但由于审计研究要求被审计者在不知情的情况下接受审计避免实验员需求效应，进而确保实验结果的外部有效性，因此在线审计实验仍然存在欺骗被审计者、浪费其时间和精力等降低社会资源利用效率的伦理问题。

(二)在线审计实验的改进方向

第一，增加特征信号补充干预方式，提高信号传递特征的准确性。除直接明确地展示干预特征本身这一种方式外，还可考虑利用互联网信息获取渠道多样化、多种渠道间联系方便快捷的优势，通过网页链接等多渠道提供给被审计者有关审计员或材料的更加完整详细的信息①被审计者会关注审计员的相关网上信息。比如，Manant 等(2019)在对雇主招聘决策的一项在线审计实验研究表明，对于大多数雇主/招聘人员，社交媒体上的个人资料已成为其了解求职者信息的一种新的、可靠的、非正式的渠道。，以避免被审计者对干预信息的不准确判断和过度引申解读。

第二，结合大数据信息，深入机制分析。利用互联网获取和记录信息便捷的优势，结合诸如企业人力资源大数据、招聘平台大数据等各类数据，拓宽获取被审计者个体特征、行为数据的渠道，提高结果变量的涵盖深度，扩大在线审计实验可考察的时间范围，将静态审计研究向动态审计研究推进，从而有助于深入挖掘、分析影响机制及其作用机理。此外，考虑关注如雇主、雇员和招聘中介机构等多方市场主体，引入对其他市场相关问题的分析，拓展在线审计实验方法应用的领域。

第三，采取多种替代设计方案，缓解审计研究的伦理问题。最近的研究开始尝试考虑多种替代研究方案，可望有效缓解审计研究中的伦理问题。第一种方案是允许被审计者知情但同时为其提供真实激励。该激励设计既能够避免审计研究所需的欺骗，又能够让被审计者有动机做出与真实情境相一致的决策。例如，以为雇主提供与其要求匹配的真实求职者作为激励，要求雇主在知情其被审计的情况下对虚构或真实简历进行评价(Kessler 等，2019)。第二种方案是寻找或创造机遇，在与企业或平台合作的真实环境下开展真实版本的审计实验，例如让雇佣双方真实完成求职应聘的全过程、让租客能够真实入住等(Cullen 等，2022)。第三种方案可考虑采用双边审计实验设计。在双边审计实验设计下，将提供有偿服务的相关中介服务机构作为被审计者，并让其获得与在真实市场中一致的经济激励，以补偿其在接受审计过程中所花费的时间与精力成本(Cowgill 和Perkowski，2020)。

(三)对国内研究的发展展望

基于互联网的购物、房屋租售、招聘和医疗服务咨询等领域在中国发展迅猛，兴起了一系列影响人民生活方方面面的超大型在线交易平台。这些在线市场的兴起会为在线审计实验的应运而起提供较好的试验场，可以克服传统审计实验高成本、审计材料对现实群体的代表性弱、审计过程不透明等不足，具有广泛的应用基础和广阔的研究前景，为探索中国现有的劳动力市场性别歧视、婚恋市场匹配、零售和服务市场的专家欺诈等社会实际问题的应对方案提供有效的研究路径。例如，有别于西方国家对种族问题的关注，性别歧视是中国劳动力市场的重点关切。尽管国家早已推出相关法律法规，要求除国家规定的不适合女性的工种或岗位外，雇主在招聘时不得设置性别门槛或者男性优先特权，但仍然无法避免现实中雇主对女性求职者的隐性歧视。鉴于雇主或招聘人员因利益相关或考虑到自身社会形象，其通常不会直接向公众透露其对性别歧视的真实行为反应，所以采取调查问卷或访谈的方法，往往难以了解劳动力市场性别歧视的真实状况。在线审计实验则是在被审计的雇主或招聘者不知情的情况下获取他们真实自然的显示性行为数据，且因互联网平台的便利，能够以较低成本实现样本规模的扩大，较之早期集中对局部地区某些企业开展的审计研究，样本更具代表性。此外，基于各种在线平台的维修市场、医疗服务市场、婚恋市场等也都适合采用在线审计实验开展研究，以深入理解如何防止专家欺诈、如何缓解过度医疗、如何提高婚恋匹配效率等学界、政府和社会大众共同关心的重要现实问题。

需要注意的是，若在某段时间内于同一个市场开展大量审计实验，可能会给该市场带来干扰，不利于该市场的健康发展和可信研究数据的获取。因此，建议实验的干预不要时间过长或频率过于密集。此外，最好可以获取到在线平台的行政记录数据，比如个体搜寻、购买等行为数据以及匹配、交易等结果数据，以便深化分析，为理解相关问题和制订应对方案提供更为科学、可行的政策建议。在线审计实验为研究诸如歧视、委托—代理等导致市场低效的重要社会经济问题以及探索应对这些挑战的可行措施提供了有效手段。开展更多高质量的在线审计研究，既有助于“互联网＋” 新业态本身制度的完善，也有利于人民福祉的提升，能够进一步促进社会经济的蓬勃发展。