[德]罗伯特·诺依曼,[德]彼得·格雷夫著,阙天舒,蔡 鑫编译
(1.德累斯顿工业大学社会学系,德累斯顿01062;2.慕尼黑联邦国防军大学社会学系,慕尼黑85579;3.华东政法大学政治学研究院,上海201600)
在过去20年间,有许多学者尝试将一个国家的政府治理水平指数化,其目的是能够对国家治理能力进行量化研究。我们认为,这是一项艰巨的任务,因为此类研究必须要从这个国家的微观经济和宏观经济两条途径分别出发,才能够发掘出影响国家治理的潜在因素。以前的研究在这一点上或多或少存在一定的问题,比如,在国家治理问题中使用的单因变量分析可能会使学者忽略指数中的部分解释变量;而时序分析方法虽然会产生一些比较新颖的结果,但对国家治理这类宏大议题来说依旧缺乏足够的说服力。因此,学者们研究一国治理问题,尤其是腐败问题的时候会面临非常大的挑战,原因就在于此[1]。
尽管所有研究者都试图从能够得到的首要数据、次要数据、多维数据或是聚合数据中寻找相关证据,进而建立指数模型,然而腐败类的相关数据却总是潜藏其中而难以捉摸。这是因为腐败分子的暗箱操作使其腐败行为难以暴露在大庭广众之下[1]。因此,只有(1)国家公共部门,(2)独立调查机构,(3)专家评估所得到的3类数据可以用于调查腐败的源头。换言之,如果要设计一个评估某个国家腐败程度的指数,那么经常被用到的就是这3类数据。
社会科学的学者们所熟知的世界上专门用于评估一国腐败程度的指数有很多,比如透明国际的清廉指数(CPI),还有考夫曼[2]等人研发的腐败指数,等等。在20世纪90年代,相关学者从这些指数中发掘出了大量有价值的成果——尤其是腐败潜在的结构性原因及其后果。不过,这类指数大多数仅仅运用了不包含时间序列在内的跨国信息作为分析材料,意味着这些指数会产生宏观层面跨部门分析的典型缺陷,如内生性问题或样本选择问题,等等。除此之外,也有证据表明对不同腐败指数的研究和使用可能会导致不同结论的产生,这取决于所要分析的指数模型。尽管可以通过调整主要模型使得研究具有可比性,但对两个不同的腐败指数之间的比较会使得某个指数测量工具失去其具有的测量效力。
目前,对于腐败指数效度的验证研究尚属空白,我们所做的就是运用多元特性-多重方法(Multitrait-Multimethod,MTMM)来填补这项空白。MTMM分析方法常常用于评估社会科学中的建构效度问题,以往研究主要解决心理或教育领域的微观数据,从未用来解决过国家之间指数一类的宏观数据。我们主要使用MTMM分析法中先进的结构方程模型来解决传统宏观层次中的数据分析问题。
从指数的角度来说,测量手段的效度不能仅仅集中于指数本身。建构效度指的是在与其他测量工具相比,测量工具所能测量到的理论建构和特性的程度,它的获取是由预先的建构理论进行建构测量,并从后续系列测试所验证的其他基本假设中推导得出。如果一个理论能够被不同的独立方法或路径所证实的话,那么它就会获得建构效度。建构效度包括收敛效度和判别效度。如果一个指数是有效的,则会拥有收敛性,而当其旨在评估被测量的底层建构时,该指数就会将其建构从中区别出来。对于宏观指数而言,它可以假设在这两类建构效度之间有一定的权衡,而这种权衡取决于该指数所在的维度(如图1所示)。如果指数中的建构只有一个特征,它也许就会同时表现出较高的收敛效度和判别效度,因为该指数只在一个方面需求获得效度。反之,一个涉及自身不同方面的宏观建构由于自身或其他建构相互关联的可能性增加,所以可能会显示出低水平的判别效度。
图1 建构效度和收敛、判别效度之间的特性
关于建构效度的问题主要集中在定义层面,比如如何确立一个建构的大小,如何判定一个建构是否该被排除,以及如何发掘一个使用建构的机会,等等。它们都反映了建构的定义及其本身的效度。尤其是在多因变量分析中,解释变量需要具有一定的独立性。目前的研究中,建构常常可以用于代表一组比多因分析的目标更多的变量。不仅如此,这些建构的变量甚至还可以同时对其进行操控。
我们通过对以往研究的梳理,发现治理指数相关数据的收敛效度和判别效度出现了很大的异常。在此之中,希尔和赫利首次提出了“数据质量”,试图在充足的方法论框架内对前人所做的政治测量进行二次描述性分析;坎彭[3]的研究重点则是在治理议题调查中所存在的潜在偏见。通过对政府机构进行信任测试,他发现,这类议题的调查模式和调查环境可以同时影响特定调查结果。按照我们在多维建构中的假设,调查模式和调查环境既定情形下,调查中所存在的偏见向治理测量数据中的偏见转化的可能性应该会增加。坎彭所得出的这一结论既适用于定量维数(即多少调查可以被包含在综合测量中),也适用于单个调查的定性维数(通过特定调查评估方面的数量)。
在这部分,我们评估了腐败、影子经济以及民主在理论意义上作为潜在建构的不同特征。第一个潜在建构是腐败。对于相关指数来说,腐败研究主要有两个方面的困难。首先是理论层面的困难,即有关腐败这一名词该如何正确定义的问题。从事腐败产生的社会机制研究的研究者可能不会用这个术语来分析诸如勒索或盘剥现象,因此此类机制显然不适用于一个国家的腐败现状。研究公共领域犯罪现象的政治学者却会毫不犹豫地将这些概念混杂在一起,导致概念的模糊不清。但对于大多数的腐败定义,如“为一己私利而滥用公共职权”在犯罪学和政治学两个领域都适用。透明国际或世界银行这类非政府组织都采用类似的概念,即“盗用职责之权以满足私利”。这个定义其实也相当宽泛。而特瑞斯曼和兰凯斯特等人在对比了不同的定义以后,认为上述定义既忽视了一个国家的具体法律,也忽视了国家所公认的道德标准。他们更倾向于在不同系统的语境下使用腐败一词,并且所做的工作是为了能够从中提炼出更加具有普遍性意义的腐败现象。但是在具体的操作和实施的意义上,他们的定义依旧存在严重的问题。相比而言,莫坎用了一个与众不同的方法来定义腐败,即着眼于腐败行为的两个维度:腐败行为的广度和深度。其中,对腐败的广度定义为一个国家中腐败行为的普遍程度,而深度则是收受的贿赂大小。
其次是共识层面的困难,即有关腐败因素从理论层面到行为层面的区分很难达成共识。因为在社会科学中,腐败被视为评估行为,所以有学者可能会通过评估一个腐败行为来获得3类资料:一是在调查资料中,腐败资料涉及被告或其他人(也许抽象化的个人)的回答;二是由微观层面的资料组成的宏观层面资料——它们集中反映了一个地区或一个国家的平均状况;三是宏观评估中专家对于一个国家“平均腐败行为”的判断。那些允许对评估行为进行解释的微观数据组成了多个维度的腐败建构,而对于每一个来源于这些微观数据的方法来说也是由此得来的。贪腐印象的测量在揭示了其多维特性的同时,也指出了专家评定的宏观数据(或是公共部门统计的真实数据)并不一定会反映腐败的多维特性,甚至在相关准则或法律清楚阐释了腐败核心性质的情况下亦是如此。
第二个潜在建构是影子经济。影子经济的定义是“官方经济以外的各种经济活动或经济行为”,也就是林林总总的“地下经济”现象。经济合作与发展组织[5]在2002年的时候针对此类问题有过概述。施耐德[6]对影子经济的定义是“客观存在的、避免缴纳直接或间接税收以及社保款项的经济活动”。此外,劳动法规违约和行政责任也属于影子经济的范畴。这个定义基本遵从了谭兹的描述:影子活动所产生的收入和产出并不纳入国民核算报告。施耐德研发了一套指标测量一国影子经济的大小。他在一项动态多维指标多因素的方法中应用了货币需求的方法,从而能够囊括造成影子经济的原因的各种变量。这些原因有税收和社会保障缴款的负担强弱,监管的力度大小,失业比重以及人均国内生产总值的高低等。其中,影子经济所占GDP比值的绝对值大小通过使用当前研究中确立的非官方基准值大小计算得出。在用这个方法计算出110个国家影子经济占其官方GDP的比重之后,施耐德对数据进行标准化并转换成排名形式。这样,它的权重范围相应地从高分到低分就变成了0~100分以内的任意数值。施耐德发现,影子经济规模最小的国家按顺序排分别是美国和日本,分别得分91.3和90.6。而玻利维亚、格鲁吉亚和巴哈马分数位列倒数前3名,分别得分31.1、32.4和34.9。
第三个潜在建构是民主。虽然民主的状况应该与制度安排的性质相联系,但是也有学者认为可以假设民主状况在某种程度上独立于可观察到的腐败水平。就像特瑞斯曼所指出的,一个国家的治理状况是否民主并不重要,它的政治遗产是否得到审慎的重视才是关键。民主并不是由制度中的细枝末节或某种政治形式来界定。但是,还是存在普遍意义上的能够被学者们所接受的民主条件。比如,巴格瓦蒂描述了民主、公民权利和制度安排所需要的“三驾马车”——选举权和政府换届、出版自由以及司法独立。这些基本权利确立了一个特定的政治理念,也就是主权在民原则。基于此所建立起的政治制度,可以被定义为拥有民主的政治结构。
在大多数案例中,民主一般是通过搜集一个国家民主存在的证据和民主机构的活力来进行测量,这意味着某些“客观的”尺度将被用于记录一个国家的民主活动。民主化通常被视作为政治参与而进行的制度创设:民主的政治决策过程是在民选的议会中产生,这个决策过程取决于公民的呼吁以及政治观点的付诸实施。这意味着民主制度可以更好地表达公民的政治偏好,也意味着公民的自由必须由能够得到信任的政治力量来加以保障。关于民主和其他两个特征之间的关系,正如前面所提到的,持久的民主社会往往会要求本国公民遵守相应的规范和制度安排。
当腐败作为一个考量因素时,一般可以用来反映一个国家中的个人自由状况。它包括政治权利和公民自由两个方面。前者着眼于公民自由参与政治进程的可能性,而后者更加侧重于人的基本权利,如个人自主性和言论自由。从概念上讲,腐败指数包括了与一个国家公民地位有关的政府评估,它由一组专家和顾问通过分析涵盖了各种因素对上述两类问题的清单判断打分而成。该指数从1到7级,代表上述标准中政治自由和公民自由的平均分数。一个国家如果得分较低则反映了这个国家公民较少的个人自由,或是政府运作的不正常。7分则表示这个国家中的个人可以在自身的政治环境中自由行动。
尽管腐败与公务人员在行政级别上的行为有关,影子经济活动却是源于某些过度的行政安排造成的私人代理使然。这意味着腐败在宏观研究中存在着较为宽泛的定义。整体而言,腐败行为和影子经济中的代表策略行为是由于某些机构的刺激所导致。在公共领域,腐败指的是这样一个事实,即公职人员利用其所在的位置为自己或他的“客户”(如他的同事或其他人)谋求不当利益的行为。在此之中,代理人为了能够顺利输送自己或客户的利益,打破了由委托人或法律给出的既定规则。这类现象既包括官员滥用政府权力或公共职位的权限以便谋取私利,也包括他们仅仅通过地下私人委托形式进行,而自己却进行相应的回避。因此,在设计指数时,假如要包含民主的变量在内的话,就要有关于所有国家在内的这些潜在现象的一个普遍假设的存在,并放弃在定量分析中建立变量之间独立性的要求。
对于腐败和影子经济来说,它们的客观标准,如被定罪的人的绝对数量并不能提供各国之间效度和测量的可比性。因为这些数据取决于该国当局的数据收集能力,并且两者的关键在于一国的基础设施(如监狱等)的收容能力。换言之,相对较高的罪犯数量同样是政府当局腐败程度的集中体现,但是本身并不能体现腐败。而对于较低数量的罪犯而言,可能就无法推导得出腐败行为的频率较低这一结论,因为其中可能会存在失业未纳税的状况。但是,从较低数量的罪犯能够推断出政府当局是否记录了他们的罪行。这几种考量因素的结合,促成了我们所熟知的那几个腐败指数的发展,它们都没有陷入一个国家官方对于贪腐数据的不严谨之中。
我们讨论的第一个指数是本文开头所提到的透明国际所发布的清廉指数。透明国际在1993年的时候开始构建这个指数,并在之后一段时间内逐渐搜集到了世界上几乎所有国家的数据。如果在一个研究小组中编制了至少3个不同类型的调查用于建构国家的腐败评分,那么这个国家就会被纳入指数之中。如果可能的话,透明国际对于某个特定国家的评级将是3年得分的平均分。在这里,不同的调查类型包括访谈、商务人士的问卷调查以及那些对特定国家拥有深刻研究的专家(不管他们是本国还是外国)评估得出。2002年的清廉指数就来自于9家不同机构的15项投票和调查。而到了2005年,透明国际已经对世界上159个国家进行了15项调查,搜集到了这些国家的清廉度数据。这两年指数的主要区别在于,2002年的调查排除了诸如普华永道所做的不透明指数的单项调查,并且引入了其他风险评级,如商人国际所做的“灰色地带动态”评级,或是由联合国或世界市场研究中心所做的非洲施政报告,等等。
透明国际得分的编制程序包含两个标准化步骤。第一步,先将这些独立调查排序的百分比操作和这些指标结合起来。第二步,为了降低分数的多样性,他们将其进行β-变换。这两个步骤得出的平均分即为各个受评估国家的清廉指数。该指数范围从0~10,分数越高表示其腐败程度越低,而越低的清廉指数得分表示国家的腐败问题越严重。2002年最高得分的国家是芬兰,得到了9.8分,而最低的国家是孟加拉国,仅有1.2分。
我们讨论的第二个指数是世界银行研发的CCOR指数,它是一项国际治理调查计划的一部分。该指数源于一系列的数据搜集和考夫曼等人的研究成果。除了使用亚洲情报调查以外,2002年CCOR的数据与透明国际的清廉指数非常相似,使用了外部和内部研究小组的数据确定了160个国家。世界银行使用了一个未知的模型来推导出自己的分数。该指数得分跨度从-2.5到+2.5,腐败程度越低的国家得分越高,相反,得分越低的国家腐败程度也越高。在2002年,CCOR指数中得分最高的是也是芬兰,得到了2.39分,最低的国家是赤道几内亚,得分-1.89。
我们讨论的第三个指数是政治风险服务集团(PRS)发布的政治风险服务指数,其中包括了3项腐败指标。这个指数使用的是与前文所提到的腐败指数CPI和CCOR不同的方法,是基于柯普林和奥莱利的“柯普林-奥莱利国家风险评级体系”编制而成,而不是简单地使用某个国家具体的数据来计算。PRS的排名也包括了三种不同类型的风险状况。这些风险状况一方面是对政治动荡的评估,另一方面是可能会导致制度障碍的几种不同形式的政治干预。该指数不仅针对腐败是一个重要的参照指标,而且对于一国的对外贸易来说也是如此,因为指标体现了最可能的一些政治场景。PRS的得分范围从0~6分,腐败和犯罪行为越少的国家可以得到越高的得分。芬兰得最高的6分,津巴布韦则得到了最低的0分。
上述所介绍的3个与腐败有关的潜在建构将是我们使用MTMM分析的对象。MTMM分析法的概念化起初源于坎贝尔和菲斯克在心理建构研究中用于评估收敛效度和判别效度的手段。从那时起,它被应用到社会科学的各个领域。在坎贝尔和菲斯克看来,该方法能够从特定的测量性状的方法中分离若干特性测定方差,具有较强的客观性。MTMM分析法首先需要创建一个模型,其中的每个所述性状是由每种不同的方法进行测定;其次,观测变量的组合之后推导出MTMM矩阵的结构;最后可以通过相关特性及其相关性之间的异同进行比较分析。如果用不同的方法测量出同一性状之间的相关性极高,那么就可以进行进一步的研究。为了确认一个指数的建构效度,研究者必须确认是否用不同方法测定性状会出现相同的矩阵形状。相比而言,用相同方法测定不同性状的相关性应大于通过不同的方法测量同一性状(也就是“判别效度”)的相关性。此外,已经用不同方法测定不同性状之间的相关性也应该会大于通过不同的方法测量同一特征之间的相关性。
这些标准最初是由坎贝尔和菲斯克所设立,但也不乏各路批评者。例如有批评者认为,坎贝尔和费斯克的方法不允许对特定方差的数据进行量化,这是MTMM的缺陷。而这类缺陷将用MTMM方法以外的统计学方法加以弥补,其中具有代表性的就是结构方程模型。此方法不仅是对相关性进行比较和描述,而且是一种比之更复杂的统计方法。该方法使用的是协方差而非MTMM中的相关矩阵。
将腐败指数之间及其指标3个特征之间的统计相互关系纳入其中,可以建构起一个观测变量的协方差矩阵。它假设了每一个腐败指标都由其自身无特性的一个完美的测量方法得出(处于该矩阵中的三角地带)。比如,下表1就表示一个MTMM样本协方差矩阵。其中的数字表示了腐败指数CCOR,CPI和PRS的腐败(C)、影子经济(S)和民主(D)3个测量数量之间的协同变化。其中主对角线的值代表的不同的指标的具体变化。
表1 MTMM分析的样本协方差矩阵
CCOR、CPI和PRS,这三者的MTMM数据分析方法为验证性因素分析(CFA)。通过在CFA中对一组观察到的变量(MTMM协方差矩阵)和一组潜在建构(特性)之间的关系进行分析,研究者可以建立起与潜在建构的预定数量和先验定义之间关系的模型,并可确认经验上的假想关系和观察到的变量关系之间的相互关系。
通常一个验证性因素分析是通过执行特定的顺序步骤进行的。首先,设置一个模型的假想结构(通常由一个相关路线图标示出)。其次,研究人员必须检验其标示并测试模型的规范,这是为了能够加强评估过程。最后,参数估计和模型契合度的评价可以通过改变模型的特殊结构从而获得一个更适合的模型表现(不过需要注意,没有探索数据的最佳模式)。尽管在其他因素预想的结构分析结果中的关系源自它们的理论基础,如第一个步骤中具体模式和方法是从MTMM分析所得来的,它们却可以在可观察到的和不可观察到的变量中拥有更少或更多的预定建构关系。其中,3个潜在的特性因子加载在一组变量中,可以表现出九种特性方法与该模型的组合。这其中的模型建构如图2所示。
图2 3个潜在变量的路径示意图
在以上步骤之后,研究者便可以在3个不同的参数矩阵中界定CFA的模型,并将这个模型记录在线性结构关系模型(LISREL)的程序包中。在使用CFA分析该模型的方法中,可观测到的变量R的方差—协方差矩阵等于潜在因子(KSI)的方差—协方差矩阵PHI(即Φ),也就是载入的因子矩阵“Λ”及其倒置,并加上误差矩阵“Θ-Δ”,形成计算R的协方差方程,即:R=ΛΦΛ′+Θ
3个潜在的特性因子为腐败C(xi_{1}),影子经济S(xi_{2})与民主D(xi_{3})。观测变量Xi(ⅰ=1,…,9)是用一定方法测量各种具有代表性的特性组合而成。它们是由测量误差ΔI所影响。它们不具备单一的分数作为MTMM协方差矩阵R的相互关系的一部分。所有Λ、Φ以及Θ的元素只能够通过线性结构关系模型执行的迭代方法来估算模型的识别程度。如果有足够的信息来获取该模型的参数估值,就会得出唯一解。除了测量自由度的正值以外,其他值都会由项目的数据规模来确定。这可以通过一个潜在因子和观测变量赋值1或设置潜在因子的变化幅度为1来实现。除此之外,样本矩阵R必须是一个正定矩阵。这是研究的关键——一些研究者没有对线性结构关系模型做可受理性检验,所以往往会忽略了它。我们点明了这点,并指出腐败指数分析样本的非确定性是在线性结构关系模型与脊常数的协助下自动解决的。最后,为了估算出最后的R值,我们使用了最大似然法和最小二乘法。
在阐释了MTMM分析方法以后,我们通过不同指标的拟合优度指数评估它们的计算结果。这里适配指标的标准源于所选择的样本信息,人口信息和其他的相关信息。由于适配指标往往能够与逐渐增多的已估参数同时形成更好的权重,因此可以促成被称为简约适配指标的发展。这一指标的目的是建立测量指标拟合度的方法,从而可以通过它来测量指数中的参数数量及其相应的自由度的模型。不过,所有的拟合优度指数(AGFI)都具有一定的缺点,就是只有对数个适配指标进行评估才能够保证模型拟合度的可用性。为了评估模型适当性的卡方统计使用了均方根值的近似指数(RMSEA)调整后的拟合优度指数,以及非范拟合指数(NFI)。此外,所有的待估参数通过t值的权重来分别控制。由此得到的结果如图3所示。
图3 已估参数(标准化)与拟合优度指数的路径图
从图3中可以看出:第一,整体模型的拟合度一般。卡方值,RMSEA值以及NFI值的统计表明,隐含的模型结构具有较好的代表性,而AGFI值显示模型拟合度比较而言则相差在0.9以下。第二,可以从所有的模型中看出指数的参数得到了识别,并且所有评估的t值拥有统计意义上的重要性。这就使得估计值的实质性解释成为了可能——因子载荷量显示出了其合理值并且可以被用于效度的评估。
CFA中的效度标准是由观测变量和潜在变量之间因子载荷量的大小进行评估的。收敛效度可以通过因子载荷量平方的标准化来反映。第一,3个指标的方差在解释腐败的建构共同性方面有足够的说服力,只有PRS的结果在解释其真方差方面力度较弱,仅有73.1%的权重值可以解释。第二,以上结果证实了腐败指标可以用于反映国家结构中的影子经济。虽然所有指标特性一半以上的方差不能够被解释,与总体的因子载荷量0.71比起来更小,但是它们能够区分出其中的建构大小。第三,所有的腐败指标确实衡量出了一个国家的民主结构,不过不能完全区分出其民主的特性。例如CCOR指数中的方差竟然高达36%,这显然是不能作为民主的衡量依据的——极高的特性因素使得腐败指数是否具有识别国家建构的效果有待商榷。尽管如此,这依旧是有别于传统国家治理研究的一条新颖路径。第四,理论所确认的潜在特性之间的相互关系不足以由经验分析得出。腐败和影子经济的程度之间在验证中具有很强的相关性,甚至高于从理论基础得出的结果。反观民主的建构和其他两个特性之间的关系却是有待进一步研究的。第五,通过直接比较腐败指数,我们认为,虽然PRS中的腐败特性的效度系数在三个指数中最低,但是PRS在区别其他建构的方面做得最好;CPI能够掌控影子经济的大部分程度,却相对较为欠缺;世界银行的CCOR指数亦是如此。
总体来说,一方面部分CFA分析的测量结果对所有指标的收敛效度来说都存在高度的因子载荷量,因此是合理的。清廉指数在解释腐败结构的真方差方面优于其他两个指数。另一方面清廉指数和CCOR指数却在区别外部建构——影子经济和民主方面要逊于PRS指数。不过,当整体指标(与腐败相关联时)的可靠性被证实的时候,该建构的部分系数反映了潜在特性因素之间的关系,却没有与理论的结果相符合。总体模型拟合程度也表明MTMM模型的样本数据最终结果充其量只能算是正常而已。
参考文献:
[1]Graeff,P.Why should one trust in corruption?The linkage between corruption,trust,norms,and socialcapital.In:Graf Lambsdorff,J.,Taube,M.,Schramm,M.(eds.).The New Institutional Economics of Corruption,pp.21-42.Routledge,London(2005).
[2]Kaufmann,D.,Kraay,A.,Mastruzzi,M.Governance Indicators:Aggregate and Individual Governance Indicator for 1996-2005.The World Bank,Washington(2006).
[3]Kampen,J.K.The impact of survey methodology and context on central tendency,nonresponse and associationsof subjective indicators of government performance.Qual.Quant.41,793-813(2007).
[4]Friedman,E.,Johnson,S.,Kaufmann,D.,Zoido-Lobaton,P.:Dodging the grabbing hand:determinants of unofficial activity in 69 countries.J.Public Econ.76,459-493(2000).
[5]OECD Measuring the Non-Observed Economy-A Handbook.OECD Publications,Paris(2002).
[6]Schneider,F.Shadow economies of 145 countries all over the world:What do we really know?Departmentof Economics,University of Linz,Discussion Paper(2006).