法治测量中的误区

2016-02-28 17:31汤姆金斯伯格TomGinsburg芝加哥大学法学院美国严行健编译华东政法大学政治学研究院上海201620

学习与探索 2016年2期

［美］汤姆·金斯伯格( Tom Ginsburg )(芝加哥大学法学院，美国)严行健编译(华东政法大学政治学研究院，上海201620)

法治测量中的误区

［美］汤姆·金斯伯格( Tom Ginsburg )
(芝加哥大学法学院，美国)
严行健编译
(华东政法大学政治学研究院，上海201620)

摘要:利用指标体系对法治水平进行测量是法治研究中的一个新兴领域。在设定指标体系的过程中，研究者往往会面临抽象概念的概念化、测量方法以及指标体系功能导向等三个方面存在的问题。这些问题的背后是三组存在一定冲突性的指标体系功能预期，包括指标的全面性与代表性、数据的主观性与客观性以及指标导向性与信度。在指标体系的具体设计过程中，研究者一方面需要对其功能预期有清晰的认识，另一方面需要借助一些方法来避免或减少上述问题。

关键词:法治;法治测量;法治水平;指标体系

社会科学研究的科学化和数量化为一些传统研究领域提供了机遇和空间。在西方学界，围绕法治的研究主要是一种规范性研究，传统上，相关研究主要围绕法治思想和宪制框架设计等内容展开。但近十几年来，社会测量及评估方法开始被应用到这一领域，由此产生了一些在世界范围内具有相当影响的法治评测指标体系。

社会科学研究对科学化和数量化的追求不可避免地带来各种方法论上的风险。这些风险有的会造成测量不准而导致一些数据误差，有的还可能由此使做出的结论和判断出现问题。一些指标体系在设计之初即带有一些功能上的缺陷，法治指标的设计和测量同样面临这些风险。本文所做的工作主要是归纳和梳理这些问题，分析其产生的原因，并提出一定的改进策略。现有的法治测量指标体系主要在概念化、测量方法和指标体系功能导向等三个方面存在问题，本文以此为线索展开相关讨论。

一、法治概念的概念化问题

概念化( conceptualization)是指在一定层次上对经验事物进行归纳，从而形成概念的过程［1］。在对法治进行测量时，研究者必须对大量与法治有关的具体制度、程序(如诉讼程序)乃至观念(如民众法治意识)进行归纳，从中抽离出法治的内核，并围绕这一内核对相关指标进行测量。作者认为，一个好的社会科学概念应具有连贯、简洁及实用三个特性，它与相关概念间应有清晰的边界，并有利于进行测量［2］。

一般来说，一个概念越是包含广泛，对其进行度量就越困难。以民主这一概念为例，由于民主是一个非常抽象的概念，将这一抽象概念具体化的过程可能产生新的问题。为了方便测量，学者们往往选择将其发展为一系列可观测的具体过程(例如，选举是否有序、公平且具有竞争性)。此外，还有一些学者将民主的概念发展为法治、少数族裔保护及平等等一些可度量的具体元素。然而笔者认为，恰恰是对抽象概念的具体化过程提升了对民主质量进行测量的难度:这些研究需要对每一个分支指标进行测量，并通过一个模型将这些分项统合，以此得出抽象概念的整体性特征。

抽象概念被过度复杂化的问题经常出现在一些较有影响力的社会科学指标体系中。世界银行的“世界治理指标”( Worldwide Governance Indicators)就是一个典型的例子。该指数在对“法治”概念进行概念化时，试图将一些互不相关的元素装入一个单一且过度膨胀( overreaching)的概念中。具体来说，世界银行的定义既包含了契约履行的质量( quality of contract enforcement)、警察及法庭的素质等内容，又包括了犯罪和暴力行为发生的可能性等内容，这种定义实际上是将程序性元素与实质性元素(如人的安全)装进了同一个框架。同时，该定义中的一些元素(如犯罪率)不是政府可以直接控制或改进的，这些元素的变化通常取决于当地的社会和经济状况。

对抽象概念进行概念化的过程还有可能产生另一个问题，即法治概念的定义与其他相关概念的定义在外延上出现重合。同样以世界银行的世界治理指数为例，有研究指出该指数对法治的度量与对政府绩效的度量实际上并无太大差异，两个体系中各指标的相关度高达95%。此外，法治概念与“规制质量”( regulatory quality)概念间的相关性也达到91%［3］。作者认为，导致这种外延重合问题的重要原因是法治概念内涵( underlying concept)的复杂性。简言之，法治乃是一个由结构、社会态度乃至传统所组成的一个复杂架构( configuration)，而非某些具体制度安排。这种复杂性导致概念的边界变得相对模糊。此外，作者特别指出，与法治相对应的具体制度安排并不具有确定性。例如，像司法独立这样一个在西方被视为必然的制度原则，在一些国家中却可能导致司法霸权［4］。在这种情况下，司法独立反而不利于法治的加强。这种具体制度的不确定性使得描述法治概念变得更加困难。

对法治进行概念化的过程本身就涉及法治的价值问题。作者认为，虽然法治的正面价值不可否认，但构成法治的诸要素并不一定具有绝对的正面价值。这解释了为何一些国家虽然缺乏法治的一个或数个要素，却能够具有法治的全部特征。司法独立程度并不高的日本就是一个典型例子。从这个逻辑出发，作者指出，法治指标通用的加总记分法(即通过加总分项得分获得总分)存在方法论上的缺陷。举例来说，假设一个指标体系以司法独立程度和法律体系完善程度两个分项指标来衡量法治程度，那么如果一个国家在司法独立方面得分极高以至超过合理范围，但它却在法律体系完善程度方面得分极低，那么加总两项得分后的总分仍然会显示该国具有较高的法治程度。显然，这种结果与该国实际情况是不相符合的。

法治概念化方面的相关问题还包括法治指标的目的。作者认为，对法治进行测量时，应当有目的性地选取指标。以腐败为例，反腐制度通常被看作是法治概念的重要内涵，也通常是相关指标体系关注的重点领域。然而，在国家发展的某些阶段和特定条件下，腐败却可能具有一些正面价值。此外，作者还指出，腐败问题乃是公共物品分配不公问题的表现，人们对腐败问题的关注，其背后是对公共物品分配问题的关注。因此，后者才是法治测量应当关注的对象，而前者只是一个中介概念( intervening concept)。

二、法治测量过程中的问题

作者认为，一个指标体系的质量主要取决于三方面因素:其一是效度，即指标需要度量其所试图度量的东西;其二是信度，即度量标准需要一以贯之;其三是偏度，即度量结果应真实反映实际情况。从这三个方面出发，作者指出了法治测量过程中存在的一些问题。

第一，度量体系的客观性问题。作者以常见商业风险评估体系对各国治理情况的评估为例，指出营利性评估组织对于各国治理情况的度量往往存在严重的客观性问题。例如，此类评估往往将海外投资者作为受访对象，由此造成样本来源上的误差。同时，一些国家可能在环境领域出台了严格而有效的治理措施，但海外投资人可能并不欢迎此类措施。如果以此人群作为主要的受访对象，相关国家就不会因采取这些措施而获得较高的分数。某些商业评估公司甚至会利用一些国家的腐败漏洞获得利益，这使较为正直和可信赖的评估公司无法生存。当然，学界已经对减少此类误差做出了一些尝试。例如，“世界正义工程”( World Justice Project)的样本来源同时包含精英和一般民众，通过参照此类评估结果，学界可以更好地检验商业评估结果的公正性。

第二，如何测量那些难以测量的变量。作者指出，对于法律这种难以直接度量的概念，使用替代变量( proxy variable)是一个有效的办法。替代变量主要用来替代那些不可观察或不可测量的变量。这种变量本身并不对结果产生直接的重要影响，但其必须与被替代的变量有紧密关系(但不必须是线性或正相关关系)。例如，统计分析中通常采用“人均国民生产总值”替代“生活水平”或“生活质量”这种较难度量的变量。在作者看来，运用该方法的一个成功案例是使用“契约密集型货币”( contract－intensive money)来衡量制度的质量。“契约密集型货币”这一变量旨在衡量由银行等正式组织所提供的货币量占总货币供给量的比例。由于只有在政府能够进行高效管理，且税收体系廉洁透明的社会中民众才会信任银行等正式组织，因此该变量是“制度的质量”这一变量的理想替代变量［5］。

第三，如何看待度量误差。作者指出，与法律相关的各类指标体系经常面临数据测量误差的威胁。例如，拉波塔等四名学者曾对法律体系质量的长期性社会影响进行评估(简称LLSV体系)。作者认为，该指标体系对“法源”( legal origin)的测量出现了典型的测量误差问题。该体系的结论认为，英国法法源国家比法国法法源国家拥有更完善的法律制度，并由此得出结论:普通法系更有利于提升治理质量。该研究的最主要问题是未能准确区分法源地制度与其他制度对殖民地的影响。例如，有研究发现，法殖民地国家的发展好于仅有法国法源的国家，而英殖民地国家无论法源如何，都发展良好。这一研究说明，法源并不能解释发展的质量问题。此外，还有研究指出，LLSV体系存在系统化的数据编码误差［6］。然而在作者看来，该体系最严重的问题在于其对各国法源的判断上:该体系以各国在民事领域的立法为依据判断其法源，然而许多根本性的法律体系和规则实际上是通过国家宪法确定的。例如，拉美国家在宪法法源上实际受到北美(普通法)的强烈影响，如果不将这种影响考虑进去，结论就会出现重大缺陷。

三、指标的导向性问题

法治指标体系结论的导向性问题此前一直被学界所忽略。作者指出，在某些情况下，法治相关指标结果的出炉反而会对法治的发展造成危害，其典型案例是透明国际的清廉指数。该指数排名采取的是一种“点名羞辱”( name and shame)策略。由于清廉指数在国际社会上拥有较强的影响力，因此那些排名较靠前的国家，当地媒体会不遗余力地对其进行宣传，而排名较靠后的国家，当地媒体同样会高度关注该排名。“点名羞辱”策略的初衷是通过引起排名靠后国家媒体和社会的重视，来促使这些国家改善其腐败状况。

然而，作者指出，这样一种策略非但不会促进排名靠后国家的法治发展，反而会加剧腐败问题。造成这一现象的原因在于腐败行为背后的集体行动困境:大规模的腐败行为会促使不行贿的人也加入行贿者的队伍，以此确保自己的利益不受损害。而一国在清廉指数中排名靠后，无疑会促使原本不行贿的人得出结论，认为该地存在大规模腐败行为，并因此加入行贿者队伍。同时，一国在该体系内较低的排名会降低国外投资者的投资热情，由此导致市场竞争程度的下降和国内腐败网的加固。此外，清廉指数排名靠后会导致民众进一步对司法体系失去信心，使其倾向于绕过司法，寻求其他途径解决问题。

尽管指标数据可能带来一些负面效应，但这并不意味着指标数据应当被保密，作者认为，解决导向性问题的关键是增强数据的准确性。透明国际数据以问卷方式形成，但由于历史或文化原因，一些国家的民众偏好批评政府，在这些地区，主观数据往往造成其排名低于实际情况，而一旦这种情况出现，上述负面的暗示效应就会出现，从而有可能导致腐败加剧。

作者在结论部分指出，本文所描述的法治测量问题在社会科学研究中普遍存在，这些问题限制了人们对法治这样的抽象概念进行测量。然而，作者并不认为学者们应当放弃对法治进行测量的努力，相反，学者们应当致力于新指标体系的建立。新的指标体系应具有较高的信度和效度，并尽可能降低测量偏误。“世界正义工程”已经为实现该目标做出了努力，但其效果还有待观察。

作者最后指出，人们不应过分强调社会科学指标体系具有“自证预言”( self－fulfilling prophecies)的功能。①自证预言，是指那些会直接或间接导致预言实现的预言，其背后是理念与行为间的正反馈过程。简言之，即受到预期影响的行为更有可能导致预期实现。这里的“自证预言”意指指标体系具有对发展的导向性功能。这种认识实际上高估了社会科学测量复杂工程的影响力，但指标体系在一定程度上所具有的导向性功能至少表明，善治目标的最终实现的确需要民众共同的努力。

四、进一步思考:法治指标体系设计中的三个争议

本文归纳和梳理的各类法治指数相关问题，实际上普遍存在于当前社会科学领域内各类指标体系之中。上文所提到的指标概念化问题、度量问题和结论导向性问题在社会科学指标体系设计中经常出现。一般来说，研究者在制定指标体系过程中会面临三组在一定程度上存在冲突的指标体系功能预期——指标的全面性与代表性之争、数据的主观性与客观性之争以及指标导向性与信度之争。

1．指标的全面性与代表性

在理想状态下，一个指标体系能够将某个概念或领域所涉及的全部内涵都囊括在内，此时指标体系具有最全面的覆盖度。然而，这种情况往往仅存在于理想状态中，这是由两个原因造成的。其一，概念的复杂性所导致的概念边界模糊。如上文所述，法治的概念往往与治理等内容有所重合，但一味地追求指标体系在覆盖度上的全面性，有可能使其度量范围跨入其他概念领域中，这反而会造成争议和测度不准的情况。其二，对法治的测量可以从不同的视角切入。虽然法治的概念简单来说就是“以法而治”或“法律主治”，但对这一概念的衡量既可以包含程序性内容(如通过前立法评估和后立法评估程序来考察立法过程是否审慎及民主)，也可以包含制度性内容(如通过人事及制度安排来考察司法独立的程度)，甚至还可以是结果导向的(如针对民众或国外投资者开展的地区法律保障程度的问卷或访谈)。但是，仅关注其中一部分内容的指标体系并不能够覆盖法治的全部内涵，在有些情况下，甚至可能导致严重的测量偏误。文中提到的加总记分问题就是一个很好的例子。

可见，法治指标体系在设计之时，研究者就必须考虑通过选取合适且具有代表性的指标来度量法治的质量。在一个优秀的法治指标体系中，每一个分支指标都应当具有很高的代表性。只有这样，这些分支指标所组成的法治指标体系才能够实现全面性与代表性之间的统一。分支指标较高代表性的实现需要研究者在选取指标时注意四个方面的问题。其一，分支指标间本身在概念外延上不能重合，否则会导致重合部分在体系中的权重被间接调高。例如，如果已经将立法机构内立法者的法学教育程度作为一项考察指标，再去考察司法机构内法官的法学教育程度，将会使相关领域从业人员法学教育程度的重要性被人为地放大一倍。同理，具有相关性或相似性的指标如果同时出现，虽然不会造成概念外延上的重合，却会降低指标的代表性。其二，指标应当对法治的程序、制度和结果(或称绩效)三方面展开考察，以防止单纯考察某一方面内容所导致的偏误。其三，各分项指标应当关注法治的核心内涵。研究者在勾勒法治概念的核心内涵时，往往面临本文所提到的“概念化”问题。结合本文所提到的一些概念化误区可以发现，如果从程序、制度和结果三方面入手对法治进行概念化，那么最容易引起争议的是从制度方面入手对法治进行的概念化。例如，文中作者多次提到，司法独立这一制度设计并不一定是法治的必要组成部分，通过制度设计对法治进行度量之所以容易引起争议，一方面是由于各国制度设计本身具有较大差异性，从而难以衡量;另一方面也是由于制度设计与制度绩效之间存在复杂的对应关系——司法独立的制度设计有时并不利于法治发展就是一个典型的例子。相反，从程序和结果两方面出发的概念化过程引发的争议较小。例如，为公民的财产和自由权等基本权利设置保障性程序，使其免受权力的不当侵害，已经是公认的法治核心理念［7］。文中提到的通过“契约密集型货币”来考察一国治理水平的例子，就是从结果入手对抽象概念展开度量。其四，各分支指标应当能够将法治的内涵填满，避免出现明显的漏洞。可以想象，在充分考虑上述四个问题后，由相关分支指标所组成的指标体系将能够勾勒出法治概念的清晰边界，其目标的实现有赖研究者在设计指标体系时开展足够丰富的文献梳理工作，以此确定法治的内涵，并选择相应的变量开展测量。

2．数据来源的主观性与客观性

在数据性质方面，指标体系的设计者往往需要在主观数据和客观数据间做出选择。指标体系数据的主客观之争是社会科学度量中一个持续争议性的议题。英国海外发展署( Overseas Development Institute)于2007年发布的报告就分析了世界范围内与治理评估相关的评估体系［8］。该报告表明，世界范围内大多数具有影响力的治理评估体系主要采用的是主观数据，即依赖访谈及专家评估等方式对治理情况进行评估。例如，联合国开发计划署的治理指标项目( Governance Indicators Project)及经合组织的Metagora项目主要依据的是访谈数据，世界银行的世界治理指标部分依赖访谈数据;全球清廉指数( Global Integrity Index)、国际民主与选举援助机构的民主测评( Democracy Assessment)、贝特斯曼转型指标( BTI)以及时常受到质疑的透明国际指数都是依赖专家及同行评估的方式做出的。

当前，许多指标体系设计者推崇主观数据和客观数据相结合的指标数据构建方法。一些研究指出，这种结合可以发挥两种方法的优势，并弥补各自的不足［9］。主观数据存在可重复性和客观性方面的问题，但可以衡量一些即使通过替代指标仍不能很好加以客观度量的指标。并且，一些涉及相关人群态度和评价的指标必然是主观性数据。定量研究虽然可以带来较高的信度，但却面临数据缺项甚至数据失真等风险(如中国基层数据的注水问题)。

需要指出的是，如果仅仅简单地在一个指标体系中同时引入两类数据，实际上并不能发挥各自的优势，两类数据的不足仍然会在指标体系中表现出来。要发挥两类数据的优势以提高指标体系的信度，研究者可以尝试两种方法:其一，指标体系主要使用其中一类数据得出结果，而用另一类数据来检测结果。例如，研究者可以主要通过访谈和专家评估的方法，测量中国各省法治发展情况;然后，使用各省律师数量等客观性数据检验并在一定程度上修正第一类数据得出的结果。这种使用不同数据检验和修正结论的方法在社会科学研究中已经被广泛使用，甚至已经被看作是提高社会科学研究结论科学性的一种基本方法［10］。其二，指标体系可以以客观性数据来构筑、而以主观性数据来判断各分项指标间的权重。这种方法既保证了基本数据的客观性，又使得指标体系得以兼顾人们主观判断所产生的偏好。

3．指标体系的导向性与信度

指标体系的构建需要考虑导向性与信度的统一问题。本文作者所提出的透明国际指数的“点名羞辱”效应有可能加剧排名靠后国家的腐败程度是具有一定道理的，因为透明国际的宗旨就是“发起世界范围内的联合行动，以消除腐败对世界人民的巨大影响”，其指标体系的功能也应当能够服务于这一宗旨。然而，该指标所造成的“点名羞辱”效应明显与其功能定位不符。如果指标体系的目的是为了客观地反映某方面事实，从而为决策者或相关研究者提供决策或研究依据，那么指标体系的客观性就是研究者应当关注的首要问题。此时，过多地考虑指标体系的导向性往往会导致研究者人为地筛选具体测量指标或干预指标权重，这些做法必然导致测量误差，并降低结果的信度。

同时需要指出的是，本文作者可能过分强调了指数客观性可能导致的负面导向性问题。具体而言，作者对透明国际指数的讨论存在三个方面的问题。其一，对于“民众认识到其所在的地区存在严重腐败问题后会更容易采取行贿手段”这一说法，作者虽然找到文献加以佐证，但并不能说明民众的这种认识是由阅读透明国际的排名所产生的。事实上，民众对腐败程度的评价主要还是基于其日常生活中的感受。其二，作者的论证颠倒了因果关系。透明国际的评分有很大一部分是依赖公众调查得出的。因此，某地区之所以排名低，恰恰是因为民众对腐败的感受程度所致。从这个意义上来说，民众对腐败行为的感受程度是导致该地区排名低的原因，而非如作者所言，是透明国际的低排名导致民众对腐败产生强烈感受。其三，即使民众通过阅读报告意识到该地区存在较为严重的腐败问题，并进而刺激其行贿行为，也不意味着民众的这种感受不会同时对当地执政者造成压力，并迫使其采取措施遏制腐败现象。从这个意义上来说，“点名羞辱”现象虽然可能带来一些负面效应，但绝不是否定其正面效应的理由。反之，以指标导向性为理由，对指标进行过多的人为干预和筛选，反而会造成数据的扭曲，并有可能带来更大的危害。

参考文献:

［1］GOERTZ G．Social Science Concepts: A User’s Guide ［M］．Princeton: Princeton University Press，2006: 28．

［2］GINSBURG T．Pitfalls of Measuring the Rule of Law ［J］．Hague Journal on the Rule of Law，2011，( 3) : 270．

［3］THOMAS M．What Do the Worldwide Governance Indicators Measure?［J］．European Journal of Development Research，2010，( 22) : 31－54．

［4］HIRSCHL R．Towards Juristocracy: the Origins and Consequences of the New Constitutionalism［M］．Cambridge MA: Harvard University Press，2004: 12．

［5］CLAGUE C．Contract－Intensive Money: Contract Enforcement，Property Rights，and Economic Performance［J］．Journal of Economic Growth，1999，( 4) :185 －187．

［6］SPAMANN H．Antidirector Rights Index Revisited ［J］．The review of Financial Studies，2009，( 23) : 470．

［7］BINGHAM T．The rule of Law［M］．London: Allen Lane，2010: 6．

［8］周红云．国际治理评估体系评述［C］/ /俞可平．国家治理评估:中国与世界．北京:中央编译出版社，2009: 62－64．

［9］卓越．政府绩效评估指标设计的类型和方法［J］．中国行政管理，2007，( 2)．

［10］TARROW S．Bridging the Quantitative－Qualitative Divide in Political Science［J］．American Political Science Review，1995，( 89) : 471－474．

［责任编辑:巩村磊］

作者简介:汤姆·金斯伯格，男，政治科学教授，从事比较法和国际法研究。严行健( 1986—)，男，助理研究员，政治学博士，从事人大及议会研究。

基金项目:国家社会科学基金重点项目“全面推进依法治国与国家治理现代化研究”( 14AZD133) ;华东政法大学政治学研究所“华与罗世界文明与比较政治研究项目”;中国博士后科学基金资助项目( 2015M571533)

收稿日期:2015－11－08

中图分类号:D0

文献标志码:A

文章编号:1002－462X( 2016)02－0043－05