辛宝贵,寇福平
(山东科技大学 经济管理学院,山东 青岛 266590)
人类与腐败现象的斗争是长期的历史性难题,对于腐败问题的研究一直以来也是学术研究的热点。在过去的30年里,理论和实证研究已经就腐败对社会的负面影响产生了广泛共识。由于腐败的隐蔽性和非法性,在实证研究中很难得到真实的关于腐败水平的数据[1]113,实验方法的兴起为人们研究腐败问题提供了一个新思路。与实证研究相比,实验室创造了一个可控的环境,可以更清晰测量各种变量,避免了遗漏可变偏差和反向因果关系等问题;也可以帮助我们从个体层面发现腐败的深层原因。Abbink, Irlenbusch和Renner[2]开创性地建立了AIR腐败实验模型——包括两种角色类型:官员和行贿者。第一阶段,行贿者决定是否向官员转移禀赋以及禀赋的数额,以此来获取有利于自身的决策,如果选择不转移,则实验结束;如果选择转移,需支付“转移费”,进入下一阶段。第二阶段,官员决定是否接受行贿者转移的禀赋,如果拒绝,则实验结束。如果接受,官员需要决定是否提供腐败服务,若不提供,则实验结束;若提供,则行贿者获得其转移禀赋三倍的报酬。这是第一个研究贿赂行为的实验框架,较好地刻画出腐败双方的互惠关系。Abbink又将AIR实验模型扩展到研究人员轮换制度、语言框架、不对称责任[3]17等因素对腐败行为的影响。研究者们还对该模型进行了不断的改进和完善,进一步丰富了腐败问题研究。国内外对腐败问题的实验研究已经形成一定规模,涵盖性别、专业、教育程度等微观层面及政策、文化、薪资、监督、惩罚等宏观层面。但由于招募的被试数量有限,样本代表性不够广泛,现实中的实验也没办法完全避免误差与干扰,便出现了部分研究文献结论不一致的情况。如Abbink和Hennig-Schmidt[4]的研究发现腐败语言框架与中性语言框架下,被试之间的腐败情况并没有显著差异。Brra和Serra[5]488则证实在负外部效应较高的情形下,存在框架效应;在没有负外部效应的情况下,不存在框架效应。中国学者张新超[6]进行的实验证明,中性语言框架下个体选择接受腐败的概率显著高于腐败语言框架,也即,受贿者的腐败决策中存在明显的框架效应。针对诸多研究结论有所偏差的情况,本文梳理了近50篇腐败行为研究文献,对其中28篇行为实验论文进行了元分析。
元分析是医学、心理学的常用技术,在客观性和严谨性方面优于文献综述。该统计方法是针对众多现有文献的再次统计,利用相关的统计公式对相关文献中的指标进行再一次的分析处理,从而获得更加明显的统计显著性来分析变量之间的关系。近年来,有学者将元分析引入到实验经济学中,如Oosterbeek等对75篇最后通牒博弈实验结果进行了元分析;Lane对使用实验室实验和田野实验方法进行歧视研究的文章做了元分析等。这些研究的优势在于通过收集大量实验数据,利用研究之间的自然设计差异,更精确地发现行为规律并找出造成这些差异的原因。本文旨在对使用行为实验方法,探究腐败影响因素的文献进行梳理;明确实验设计之间的差异,搜集实验数据并对数据进行元分析,发现造成研究结论不同的原因;最后得出结论并提出相应建议。
腐败是世界上许多国家经济发展和社会稳定的主要威胁,打击腐败是联合国十七个可持续发展目标之一,因此,众多研究都对腐败的成因和治理进行了分析。Enste和Heldman[7]全面概述了近20年的主要腐败实证文献,就腐败成因方面列举出:政府规模和结构、政治体制、机构质量、经济开放度、公务员薪资、信息曝光度、文化因素、女性领导比例、殖民遗留以及自然资源禀赋值等因素。腐败后果方面列举出:减少总体投资、增加社会不公和政府支出等负面影响。为我们提供了一部腐败相关研究发展进程的参考手册。Abbink和Serra[8]以“反腐败政策——来自实验室的证据”为题综述了腐败行为实验研究文献,分析了惩罚、监督与薪酬、举报与宽大制度、信息透明、四眼原则,以及工作轮换等政策及制度对腐败行为的影响。这些文章主要是对已有文献的综述,依然没有解决部分研究结论相悖的问题。在进行元分析前,本文首先从个体特征和外部制度两个方面对个体腐败决策的主要影响因素进行文献梳理。
个体特征变量包括:国籍、性别和道德考虑三个变量。
国籍与腐败的关系,学者们有普遍的共识:无论在哪里进行腐败实验,来自不同国家的被试的腐败程度与其所属国家的腐败感知指数密切相关(Cameron等[9];Salmon和Serra[10])。但腐败在某种程度上是一种文化现象,会受到环境的影响。2005年,Brra和Serra[11]招募了不同国籍的刚到英国学习的学生参加腐败实验,记录他们的腐败倾向。两年后他们又招募这些学生重复了同一实验,发现这些学生在英国生活一段时间后,腐败倾向呈明显下降趋势。个体参与腐败行为的决定,在很大程度上是由社会上其他行为者的行为所决定的。
Frank和Schulze[12]完成的第一个腐败实验便得出性别会影响腐败的结论,但这个结论并未通过显著性检验。此后,大量的研究工作(Andreoni和Vesterlund[13];Lambsdorff和Frank[14])探索了男性和女性在各种经济交易中的行为差异,得出的结论较为一致:男性有更强的互惠感,而女性有更强的公平感;强互惠感使得参与者在博弈过程中的信任关系更稳固,从而提高了腐败的发生频率。强公平感使得参与者更关注腐败行为产生的负面影响,从而降低了腐败的发生频率。这可能是腐败行为存在性别差异的原因。文化是一种特殊意识,它的引入可能造成实验结果的大相径庭。Alatas等[15]就发现不同文化背景下的腐败行为性别差异是不同的。Chaudhuri[16]综述了大量性别与腐败的文献,提出影响这种性别差异的关键环境因素是特定政治和经济文化,女性腐败程度较低的证据主要来自发达国家,但在腐败问题较严重的发展中国家中并没有显著的性别腐败倾向差异。集体决策中的性别影响更为复杂,Frank等[17]207就四眼原则在德国和中国进行的实验结果显示:在德国,最腐败的是纯男性的组合,最廉洁的是纯女性的组合;而在中国,最腐败的是男女混合的组合。
负外部性是腐败的显著特征之一,涉及腐败的个人是否会关心这些负外部性?个体是否会出于道德考虑而改变决策?Büchner等[18]在重复的采购实验中没有发现外部效应的证据,被试意识到腐败对社会有害,但并没有改变其腐败行为。Barr和Serra[5]501通过操纵负外部性的大小来检验道德考虑的作用,当负外部性较高时,参与者行贿、受贿的倾向都显著降低,这表明道德考虑对腐败行为产生显著的威慑作用。
外部制度变量包括:语言框架、惩罚与监督、自我检举制度、四眼原则、信息透明度、不对称责任、高薪养廉及其他。
1.语言框架
对腐败实验的一个质疑是,语言框架可能触发被试的道德考虑,从而对实验结果产生干扰。Banerjee[19]对比了腐败语言框架实验、最后通牒实验和中性语言框架实验三种实验模型中的被试行为,他认为被试腐败决策的变化并非来自语言框架,而是实验框架引起的被试权利意识的变化。Chaudhuri和Paichayontvijit[20]将一次性腐败实验扩展成重复的实验,博弈次数的改变使得语言框架的腐败治理作用显现出来。
2.惩罚与监督
腐败治理中应用最为广泛的措施就是惩罚与监督。AIR腐败实验模型中的“突然死亡”惩罚机制对腐败行为有强大的威慑作用,Banerjee和Mitra[21]进一步论证,代价高昂的惩罚其反腐效力更强。
常见的三种监督方式:传统的自上而下的监督(Azfar和Nelson[22];Olken[23])在减少腐败方面效果显著;自下而上的监督与自上而下的审计相结合的问责制度也可有效地遏制腐败(Serra[24]);但纯粹的自下而上监督方式的反腐效果却不尽人意(Ryvkin和Serra[25])。
3.自我检举制度
Schikora[26]、Abbink和Kevin[27]探讨了贿赂博弈实验中自我检举制度对腐败双方行为的影响,当行贿者与受贿者都拥有自我检举权利时,双方的贿赂往来明显减少;但只有一方有自我检举权利时,对腐败的抑制力就很微弱。
4.四眼原则
打击腐败的另一个较为普遍的举措是四眼原则,即两人或多人决策。但这一政策的合理性面临考验,Schikora[28]的研究结果显示四眼原则并不是对抗腐败的有利手段,甚至会助长腐败的滋生。Frank等[17]207的结论与其不谋而合,集体决策比个体决策的腐败率更高。直到最近,Bodenschatz和Irlenbusch[29]通过实验方法证明,虽然四眼原则机制在一次博弈中没有显著的反腐效果,但在重复博弈中,该机制确实减少了腐败。
5.信息透明度
Peisakhin[30]通过一个田野实验证明即使在等级森严的印度社会,增加信息透明度也能够提高公共服务的效率,降低腐败。Berninghaus等[31]的研究可以给出解释,腐败双方交易行为被披露的可能性增大,个体预期决策后果的不确定性增加,从而腐败现象减少。
6.不对称责任
不对称责任可能会破坏行贿者和受贿者之间的信任关系,Lambsdorff和Nell[32]认为双重交易、告密和勒索会给腐败交易的参与者带来巨大的不确定性,从而降低参与者一次性互动的可能性。这项研究引起了相当大的政治和学术讨论,Basu甚至建议完全免除对行贿者的惩罚。Abbink和Dasgupta[3]17通过实验室实验进一步论证Basu的结论,他们观察到,对公务员的不对称责任政策确实可以减少贿赂需求,但是当经济刺激程度较弱时,这种效果不明显。
另一方面,有学者聚焦于惩罚措施的不对称性研究上,Verma和Sengupta[33]建立的随机演化博弈论模型中,不对称的惩罚方案减少了腐败事件的发生。Engel等[34]在波恩(德国)和上海(中国)运行了设计完全相同的实验室实验,就对称和非对称惩罚制度进行更精细的研究。结论之一是:对称惩罚制度下,受贿者腐败频率更高;非对称惩罚制度下,行贿者贿赂频率更高。更有趣的是,这是一种普遍效应,在中国和德国都存在。另一个结论是,虽然不对称惩罚制度对扰动腐败有抑制作用,但对共谋腐败却有反效果。
7.高薪养廉
高薪养廉制度的效力存在争议,Lindelow和Serneels[35]在埃塞俄比亚进行以公共卫生为情景的实验,当支付更高的薪酬时,服务提供者的表现并没有更好。但Armantier和Boly[36]、Van Veldhuizen[37]却发现提高公职人员的工资可以降低他们的腐败程度。陈莹、周耿等[38]结合中国的现实情景使用实验方法探讨高薪养廉政策的反腐效力,发现提高薪酬只能在一定程度上降低官员腐败的概率。但如同Van Rijckeghem和Weder[39]的观点,即使公共部门工资的增加确实减少了腐败,其成本也太过高昂。
8.其他
Ryvkin和Serra[40]认为社会腐败是公民和政府官员之间博弈的结果,当潜在行贿者和潜在受贿者具有不对称的议价能力并且对彼此的“腐败性”不确定时,腐败程度最低。这为公职人员轮岗这一反腐政策提供了理论支持。Ryvkin和Serra[41]测试了在服务提供者之间引入竞争、降低公民搜索公共服务的成本与公职人员腐败需求间的关系,结果显示:当公民搜索公共服务的成本较高时,增加公职人员数量并不会影响公职人员的腐败需求;当搜索公共服务的成本较低时,增加公职人员数量却使得公职人员的腐败需求增加了。总体而言,减少搜索成本比增加公职人员数量的反腐败政策更可取。Jiang[42]试图寻找不同腐败程度的国家中信任与贿赂的关系,在相对廉洁的国家(日本、荷兰)中,信任增加了共谋腐败,在高腐败国家(中国、意大利)中,信任并没有增加腐败。
根据以上文献分析,我们可以提出如下三个假设。
假设1:语言框架通过触发被试的内在动机影响其腐败行为,腐败语言框架下的腐败水平低于中性语言框架。
假设2:腐败行为具有性别差异性,男性比女性更腐败。
假设3:外部制度变量中,惩罚、监督、自我检举、不对称责任、信息透明度等变量与腐败接受率的相关关系更强,对应政策的腐败治理效力也更强。
搜索腐败实验相关文献的流程如图1,在收集、筛选相关文献后,我们首先调查了文献中腐败的强度,然后确定它如何根据具体实验特征进行变化。
图1 相关研究的搜索流程图
收集用于元分析的文献需注意以下几点:
(1)文献使用实验室实验的研究方法;
(2)检查是否有清晰的腐败衡量数据,是否反映出腐败程度;
(3)需要足够的统计信息,包括实验说明、实验数据和可转化为组间效应值的结果统计。
除了收集与腐败实验相关的文献,还阅读每一篇相关文章的介绍,寻找其他相关文章的参考资料。遴选近20年符合上述三种纳入标准的文献,联系作者,询问实验数据及是否还有与元分析相关的未发表的研究。在可能的情况下,搜索包括已发表的文章、书籍章节、论文和未发表的研究,符合标准的论文酌情引用,以避免文件抽屉效应。这些排除措施将参考文献具体到28篇文章和几篇单独的分析文献。鉴于样本数量并不大,我们将线性概率模型作为最优修正模型。分析连续变量时,使用标准随机效应元分析来确定全样本各个特征类型的平均效应大小。
本元分析所涉及的影响腐败的因素主要分为:个体特征变量和外部制度变量两类。这样分类的依据是,个体特征变量是被试的自然特性,通过调查问卷获得,包括性别、国籍、道德考虑等。外部制度变量主要指外部环境因素特征,通过不同的实验设计获得,包括语言框架、监督与惩罚、薪资、负外部效应、随机匹配、自我检举制度、四眼原则、信息透明度和不对称责任等。
第一步:确定元分析文献范围。
(1)在Web of Science、EBSCO、ScienceDirect、Scopus、中国知网等数据库和百度学术网站搜索关键词“腐败实验”“bribery game”“corruption game”,总共获得5758条学术文献;(2)通过排除重复数据并对标题和摘要进行初步筛选,得到78篇学术文献;(3)通过审查全文内容后,符合纳入标准的仅有28篇。
第二步:确定实验对象范围。
(1)纳入分析的文献大都使用经典腐败实验模型,直接从文献中提取或与作者联系获取实验数据;(2)共获得涉及8552名被试的179项实验,包括170项腐败实验、5项最后通牒实验和项田野实验。没有重叠的参与者,所有的样本都用于元分析。
第三步:样本差异说明。
上述179项实验中的腐败实验与最后通牒实验的差别是语言框架,与田野实验的差别是实验地点和参与者身份不同,Croson[43]总结了近30篇用学生和非学生样本作为被试的同一个实验结论的差异问题,发现非学生样本其行为与学生样本并没有典型差别。故样本身份对实验的影响是极其微弱的,作为控制手段将所有参与者视为学生样本。
本文使用Stata15.0对数据进行汇总、整理和分析。由于纳入文献存在实验设计异质性、方法学异质性和统计学异质性,所以在对结果数据进行统计合并之前,首先进行异质性检验,I2>50%,故纳入文献被认为是异质的,采用随机效应元回归模型。
被试的腐败接受率为效应值,随机效应元分析的样本总体聚合效应估计值为0.663(95%的置信区间为:0.627-0.699),即平均而言,在95%的置信区间上被试接受贿赂的百分比约为65%。表1展示了随机效应元分析中统计的各个变量的样本集的效应值,因为选取腐败接受率为效应值,故效应值越高,对应变量的反腐效果越低。忽略实验设置条件(分配方式与博弈次数)后,自我检举(0.509)、四眼原则(0.603)与不对称责任(0.500)三项的平均效应值低于总体效应值,表示这些变量对腐败的抑制效果较好,可能在降低腐败发生率方面有一定作用。然而有些实验同时包含几个变量,所以存在数据交叠现象,部分变量的效应值很接近,完全清晰地分离各个变量比较困难,为识别变量之间的相互作用对腐败的影响,表2对表1进行了深入扩展。
表1 各变量的描述性统计数据
表2 线性概率回归和元回归分析
表2包括两种回归分析:第一种是线性回归模型(LPM),测试的是各变量和腐败与否(数值为0或1)的关系。第二种是元回归模型(Metareg),测试的是各变量与腐败接受率(数值在0-1之间)的关系。如表2所示,无论是线性回归模型还是元回归模型,性别变量、负外部效应、信息透明度都是与腐败接受率最强烈相关的因素,LPM在5%的水平上比其他因素都具有更高的识别率。Metareg在1%的水平上相关度显著。为了调整这种偏差,对各虚拟变量进行线性约束检验,见表3。
表3 虚拟变量集线性约束检验结果
1.腐败语言框架与中性语言框架的腐败效应值相近,框架效应相比其他因素对腐败水平的影响很小。
腐败一直以来都为法律和社会所禁止,是要面临严重后果的违法行为,除此之外,还会带来心理上的内疚感、负罪感。人们脑海中普遍存有警戒的“红线”,实验中设置的语言框架便用来测试这条“红线”的作用。Balafoutas[44]就使用博弈模型论证了腐败的内疚感可以影响官员的决策,但实验中的框架效应是否存在说法不一,我们对此进行元分析的结果是:总体样本腐败语言框架下的效应值为0.686(95%置信区间:0.638-0.734),略大于整体样本平均效应值0.663(95%置信区间:0.627-0.699)和中性语言框架下的效应值0.634(95%置信区间:0.579-0.690),说明腐败语言框架下的腐败水平并非明显低于中性语言框架。线性回归分析结果不相关,元回归分析显著正相关,但未通过线性约束检验,说明相比其他变量,语言框架的影响是微弱的,腐败实验中几乎不存在框架效应。因而,假设1不成立。
2.男性与女性的腐败效应值差值较小,男性并非一定比女性更腐败。
本文着眼于大样本,在LPM中,性别变量的系数在5%的水平上与是否腐败显著相关;Metareg中,在1%的水平上与腐败接受率显著相关。再分别对男性和女性两组数据回归分析,男性决策者的效应值0.882(95%置信区间:0.713-1.052)腐败效应值略高于女性决策者的效应值0.838(95% 置信区间:0.668-1.007),但二者差值较小,男性决策者与女性决策者腐败水平相近。因而,假设2不成立。
3.信息透明度、不对称责任、自我检举、监督四个变量与腐败接受率呈负相关,与之对应的四种反腐政策具有一定的腐败治理效力,加强监督、明确责任机制和增加工作透明度可能会显著较少贪污。
LPM和Metareg中,当特征变量是信息透明度时,其显著性要比其他变量强得多。线性约束检验还显示,信息透明度比其他变量更有可能与腐败行为相关,在两种模型下,差异在1%的水平上总是显著的。值得注意的是,元回归分析的相关系数的大小为-0.205——表明在实验中,信息透明度的影响系数非常大,平均有两个以上的标准差。不对称责任(Coef.=-0.060)、自我检举(Coef.=-0.065)、监督(Coef.=-0.039)三个变量在Metareg中都是1%水平上与腐败接受率呈负相关,虚拟变量集线性约束检验的相关程度为:不对称责任>自我检举>监督>其他变量。因而,假设3成立。
本文通过线性概率回归、随机效应元回归对相关文献中的指标进行再一次的分析处理,从而获得更加明显的统计显著性来分析各变量与腐败接受率的关系,并进行变量集线性约束检验,验证反腐败措施的有效性。得出的主要结论归结如下。
第一,腐败实验中几乎不存在框架效应。正如Levati等[45]所说,实验成立的重要前提是:参与者脑中的情境模型与实验者的模型相匹配,参与者和实验者对实验中的元素赋予相同的含义。当参与者理解了腐败实验的真正目的,可能会自发进行角色扮演,从而放弃不道德的、腐败的行为,这时便出现了不同语言框架下被试的不同行为,这也可能是部分研究肯定存在框架效应的原因。另有部分学者认为腐败实验中框架效应微弱,证据来源于“学习效应”——在重复博弈中,被试会从每轮实验中积累经验,根据其他玩家所作决策的反馈以及自身对于实验情况的感觉作出反应。这样语言框架的影响自然就削弱了。由于大部分的实验室实验都是重复博弈,被试的“学习效应”可能抑制了框架效应。故元分析的结果显示腐败语言框架与中性语言框架的腐败效应值相近,框架效应相比其他因素对腐败水平的影响很小。
第二,男性与女性的腐败效应值差值较小,男性并非一定比女性更腐败。虽然固有思维里女性比男性更廉洁,从整体的大样本元分析结果来看,人类整体腐败水平上的性别差异还是很微弱的。梳理相关实验研究也没有发现一致的证据证明男性一定比女性更腐败,风险偏好、社会偏好、竞争性等因素都对性别因素有所干扰[46]。周业安等[47]采用实验室实验的方法,探讨了在不同的性别被试风险偏好和社会偏好的差异。与国外大多数研究结果发现“男女偏好在各方面存在显著差异”不同的是,我国被试风险偏好不存在显著差异,社会偏好方面的差异也比较小。可见个体的不同表现不能简单的以性别变量解释,姜树广、何浩然[1]113也认为性别不会是造成整体腐败水平差异的主要原因。虽然针对某一国家或地区的研究可能发现腐败行为的性别差异,但扩展到更多国家和文化背景下,性别差异就变得微弱了。
第三,我们在LPM和Metareg中对比了各个外部制度变量与腐败接受率的相关关系,信息透明度、不对称责任、自我检举、监督四个变量的效应值低于总体平均效应值,检验结果在5%的水平上与腐败接受率呈显著负相关。这表明,这四种反腐政策相比其他政策具有更强的反腐败效力。诚然,每一项反腐政策的效力应该由实践来检验与认证,本篇元分析只是在数据上为这四种政策的提供支持。
实验经济学方法不仅具有可控性和可重复性,还可以直接比较不同反腐政策的效果。以行为实验方法对腐败问题进行分析和探讨的研究越来越多,得到了大量的经验证据。本文旨在分析、比较各反腐制度的效力,并对某些具有争议的实验结论进行再研究。通过梳理近二十年来的腐败实验文献,搜集实验数据;从个体特征变量与外部制度变量两个视角对数据进行元分析;发现造成研究结论不同的原因;最后得出结论并提出相应建议。
实验有效性方面,几乎不存在框架效应和性别差异;实验结果方面,信息透明度、不对称责任、自我检举和监督四个变量与腐败接受率呈显著负相关,其所对应的制度较其他制度可能具有更优秀的反腐表现。因而,建立完善合理的监督机制、多种监督方式结合,明确责任、保证惩罚措施的清晰度和执行力,增加施政透明度等都是打击腐败的有效举措。
经济学实验兴起之初,腐败实验主要被用于检验反腐措施的有效性或尝试比较不同措施的反腐效果。从制度反腐角度来看,完善各种社会机制可以约束甚至预防腐败[48],我们的元分析结果发现传统的监督惩罚制度反腐效果较好且作用比较稳健。当然制度是存在缺陷的,如何弥补缺陷、充分发挥制度反腐的优势是反腐工作的一项重点工作。宏观上,建立和完善反腐败和廉政建设法律法规制度体系,继续保持高压的反腐态势;建立健全权力制约和监督体系,明确各反腐机构的职能权力,各司其职,权责明确,通过体制改革和制度创新防治腐败;增加施政透明度,保证公民接触信息的渠道畅通,建立多种监督方式;精准追究责任并实施相应惩罚,权利与监督并行,惩罚与执行同步。
腐败决策常常是外在动机和内在动机相互作用的结果。近年来的研究更多地致力于挖掘腐败行为背后的深层次动机和人性的影响。腐败行为主要是行贿者与受贿者之间基于信任的博弈和互惠关系,由此衍生出的反腐政策旨在破坏这种信任。增加博弈中信息的不确定性,提高贿赂行为被发现的风险;强化不对称的责任制度,构建行贿者与受贿者责任成本的差值,破坏他们的腐败信任关系;在公职人员之间引入竞争,降低公民搜索成本;建立举报与自我检举机制,增大腐败行为曝光的可能性等,都是经过实验验证的有效腐败治理措施。
长期来看,反腐工作还需要广泛开展廉政教育和廉政文化建设,形成反腐倡廉的文化氛围和共同认知,强化相关人员拒腐防变的思想防线,激发公众的反腐意识,发挥公众与社会舆论的监督能力。