国际比较指标的统计口径与适用范围

2018-11-01 02:32谢宜泽

当代经济科学 2018年4期

谢宜泽

摘要：数据是实证研究的基础，但运用数据的前提是对其构建理论、统计口径、适用范围等基本问题具有全面而深刻的认识。购买力平价、世界治理指数、全球清廉指数是国际比较的常用指标，研究和探讨其理论基础、统计方法存在的某些局限，根据数据性质指出其适用范围，并分析可能的认知偏差和量化误用，可以廓清对数据的某些错误认识和消解一些不必要的表面争论，为更进一步的实证研究数据选择及运用提供警示和参考。

关键词：统计口径；适用范围；购买力平价；世界治理指数；全球清廉指数

文献标识码：A 文章编号：1002-2848-2018（04）-0029-10

一、引言

数据资料是实证研究的基础。在实证方法日渐风靡的社会科学领域，出现了一种庸俗的实用主义倾向，即是罔顾历史背景和社会现实，在理论结构和数据内涵尚未明晰的条件下，匆匆地将一堆数据代入至计量软件，然后简单地得出研究结论和政策建议。回归模型仿佛成了数据加工的黑匣子，西方舶来的一些分析框架如狗皮膏药一样随处乱贴在已经变化的中国事实上[1]。因而，如今的学术研究在艰涩难懂的学术化包装下，树立了技术主义权威，蒙上了一层神秘的面纱，不仅隔绝了一般人的进入，也边缘化了自身。《21世纪资本论》作者皮凯蒂[2]指出，经济学家往往沉浸于琐碎的、只有自己感兴趣的数学问题中；这种对数学的痴迷是获取科学表象的一个捷径，因为这样不需要回答世界中那些更复杂的问题。或也如列昂惕夫[3]所言，虚弱而且缓慢成长的经验基础，已经无法支撑纯经济理论激增的上层建筑。

本文无意贬低数据、模型、理论的价值，而是深切体会到，正是因为数据的概括性、直观性、简单性养成了研究者深入观察了解经济社会的学术惰性，不假思索的数据“拿来主义”虽然轻松高效却会毁掉定量研究的根基；也正是因为对数据、模型、理论的暗含逻辑和运用边界存在认知偏差，衍生了许多既无法推动理论创新又无助解释现实世界的应用研究。此类研究不仅耗费了学者的心血，还无助于社会科学的建设，可视作智力资源和物质资源的极大浪费。可见，数据是研究的一把双刃剑，在大数据时代，更应当注重数据的基本问题研究，应当避免在尚未深刻理解的数据、模型、理论的情况下包装研究成果[4]。有鉴于此，本文试图以社会科学国际比较中的常用指标，购买力平价（Purchasing Power Parity，PPP）、世界治理指数（World Governance Indicators，WGI）、全球清廉指数（Corruption Perceptions Index，CPI）为例，研究其统计口径与适用范围，以期廓清某些错误认识和消解一些不必要的表面争论，以为更进一步的实证研究数据选择及运用提供警示和参考。

二、购买力平价（PPP）的理论基础、统计方法与适用范围

国民经济核算体系（System of National Accounts，SNA）被认为是二十世纪最伟大的发明之一，是宏观经济分析刻画与衡量的基础。国内生产总值（Gross Domestic Product，GDP）是其中的核心总量指标。汇率法和购买力平价法是GDP国际比较的两种常用方法，二者本质上都是一种综合比价指数。

（一）GDP国际比较的理论基础

GDP国际比较的目的在于判断各个国家和地区的真实经济规模，除了剔除价格因素之外，还需要确定空间物量指数，即比价指数。因此，GDP国际比较的主要技术问题，几乎全部集中在如何获得一个合理的综合比价指数

需要解释的是，比价指数是不同质的商品类别，因各自价格水平变动所引起的相互交换能力发生變化的趋势和程度的相对数。比如，A国和B国生产同等产量的钢铁和服装，钢铁和服装在A国和B国的价格分别为：2000元/吨，100元/件；4000元/吨，200元/件。那么两国的钢铁和服装的相对价格关系均为20：1，因而A国和B国的综合比价指数为1：2，在进行GDP国际比较时，仅需将A国本国货币计价GDP乘以2，即可得出两国经济规模相等的结论。如果钢铁和服装在A国和B国的价格分别为：2000元/吨，100元/件；4000元/吨，100元/件，由于A、B两国两种产品的相对比价关系不同，则无法直观地获取GDP国际比较的综合比价指数。现实世界中，由于各国产品丰富多元，获取一个合理的综合比价指数更为复杂。[5]。汇率和购买力平价就是当今GDP国际比较常用的综合比价指数，其理论基础是一价定律和购买力平价理论。

GDP具有三种不同的表现形态，即产品形态、价值形态和收入形态。在国际比较中，需要将各国千差万别的产品物量关系转换为直接可比较的综合数值。然而，世界各国货币纷繁复杂，信用货币缺乏公认的衡量标尺。于是，价值形态的GDP比较最终回归至货币的本质，即其背后所代表的购买力。购买力平价理论认为，不同货币之间的兑换比率取决于其购买力之比。如果两国货币的汇率偏离了购买力平价，则会发生套利行为，直至达到均衡为止。而购买力平价理论背后更深层次所蕴含的机制则是一价定律（Law of One Price），即认为同一种商品在所有地方均会以同样的价格销售。

值得一提的是，一价定律和购买力平价理论成立的前提条件通常有三点：首先，商品是同质的，任何商品的质量在不同地区是无差别的；其次，运输费用为零，商品跨国间流动不存在限制，也不存在交通、物流、关税等运输成本以及运输过程中的变质和损耗；再次，交易成本为零，商品价格不存在粘性，可以根据市场供求自由浮动，同时不存在搜寻成本、议价成本、决策成本等交易费用。以上三点，意味着同一商品在生产、运输、交换三个环节均是无差异的。除此之外，一价定律暗含的假定是，人作为消费者是可以自由移动和自由选择的，而购买力平价理论则要求所有商品和服务均具有自由竞争和可自由贸易的属性。

（二）汇率法的理论缺陷与现实佐证

如果不深刻了解汇率法的缺陷，就无法真正了解购买力平价法的精髓。以汇率作为GDP国际比较的综合比价指数，最大的好处是简单易操作，然而，其缺陷也是显而易见的，最大的缺陷即是汇率与购买力平价始终存在偏离。产生偏离的原因通常可以总结为以下三个：一是汇率的决定并非完全取决于购买力平价，同时也受利率差异和国际收支影响，尤其是短期汇率的决定；二是汇率无法反映全部商品的综合比价关系，尤其是市场化程度很低的商品和无法进行国际贸易的服务；三是汇率无法根据各国要素禀赋差异而调整，进而更加偏离购买力平价。当然，固定汇率、管理浮动汇率等汇率制度也人为扭曲了汇率与购买力平价之间的关系。

巴拉萨萨缪尔森效应（BalassaSamuelson Effect）从劳动生产率差异视角，指出市场汇率与购买力平价存在系统性偏差，发展中国家货币币值相对于购买力平价被低估，发达国家货币币值相对于购买力平价则被高估[6]。具体可由式（1）—（2）表达：

假定购买力平价法测算结果更加接近实际GDP，那么利用购买力平价法GDP除以汇率法GDP，得到汇率法偏差指数，可以发现偏差指数与人均GDP呈现负相关关系。汇率法偏差指数小于1，表明汇率法高估了真实GDP，反之则低估。根据世界银行2016年汇率法GDP（2010年为基年）、购买力平价法总量及人均GDP（PPP，2011国际美元）数据汇率法偏差指数的计算当以相同基年为准，以剔除价格因素影响，限于数据的可获得性，本文选取了2010年为基年的汇率法GDP，以及以2011年第八轮国际比较项目为基年的购买力平价法总量和人均GDP，有效数据总共涵盖188个国家和地区。，汇率法偏差指数小于1的绝大多数是发达国家，前五位分别是挪威（0.71）、瑞士（0.75）、丹麦（0.76）、澳大利亚（0.80）、日本（0.80），汇率法偏差指数大于1的几乎全是发展中国家，后五位的分别是也门（3.42）、老挝（3.49）、缅甸（3.77）、埃及（3.79）、巴基斯坦（4.12），美国为1.02，中国为2.09。由此说明，利用汇率法判别世界各国的真实经济规模，确如巴拉萨—萨缪尔森效应所预测，存在系统性偏差，容易高估发达国家真实GDP而低估发展中国家真实GDP徐滇庆还间接验证了汇率法低估中国GDP的事实，其验证方法虽不够严谨，但是仍然具有非常强的说服力，可以推广至验证一般发展中国家。[7]

（三）购买力平价法的统计方法与适用范围

正是因为汇率法GDP国际比较的种种缺陷，才催生出构造购买力平价指数估算各国GDP的设想。PPP指数测算肇始于1968年宾夕法尼亚大学国际比较项目组（International Comparison Program，ICP）。此项目的牵头方由宾夕法尼亚大学到联合国统计司再到世界银行，几经更迭，2016年被正式定为永久性全球统计项目。ICP自1970年第一轮开始，截至目前，已经开展了八轮基准年份分别为1970年、1973年、1975年、1980年、1985年、1993年、2005年、2011年。，每轮间隔年数长短不一，2017年正式开展第九轮。ICP数据统计分为三个层次，国家、区域、全球，逐级汇总。2011年第八轮将参与ICP的199个国家和地区归为八大区域，分别为亚太、非洲、独联体、拉美、西亚、加勒比海、太平洋岛国、欧盟OECD，中国属于亚太区域，该区域以中国香港为比较基准。

PPP法的基本思想源自于购买力平价理论，即保证1美元在任何国家均具有相同的购买力。因而，在ICP实践中，测算PPP的方法就是比较世界范围内购买相同一篮子商品和服务所需的本国货币。具体步骤就是，首先，确定用以比较的商品和服务（代表性规格品），并收集其价格与销售量；其次，选择指数形式和产品权数，以计算得到PPP指数。在现实操作中，根据支出法GDP核算，可得的数据只有规格品价格和细类支出支出法GDP分类体系总共有总量、大类、综合类、细类、代表规格品五个层次，比如，面包（代表规格品）属于面包及主食（细类），又属于食品（综合类），而食品又属于居民消费支出（大类），居民消费支出、政府消费支出、总资本形成三大类构成了GDP总量。，因此需要根据式（3）将代表规格品價格比综合成细类价格比。

以国家层面为例，GEKSm，n表示m国相对于n国的购买力平价指数，PPPm，l，PPPn，l分别表示m国与n国相对于l国的购买力平价指数。可见，GEKS方法其实也是利用多边比较结果以修正两两比较结果，使其更加稳健，以此方法可以得到国家、区域、全球层面的综合购买力平价。

相比于汇率法的理论缺陷，PPP法最大的缺陷在于基础数据。就方法论本身而言，PPP法更能反映一国GDP的真实情况，因此PPP法的问题不在方法，而在数据是否准确[8]。可以认为，ICP项目仍带有试验、探索和研究的性质，其比较结果的可靠性还存有较大争议和分歧[9]，因而其适用范围尚有一定局限，需要谨慎对待。

第一，PPP法GDP是统计物量意义上的，不具有市场可支付的购买能力。世界银行[10]指出，PPP方法主要用于各国产值的比较，而不是用于各国进出口贸易、对外直接投资、对外发展援助等货币流或贸易流的比较。相反，根据汇率法测算的GDP是具有国际可支付购买力的，在可贸易品的国际比较中，运用汇率法是更加简单适宜的。由于PPP法和汇率法研究目的的差异，不能因为汇率法在国际比较中缺乏理论基础，而全盘否定其意义或者主张用PPP法GDP替代汇率法GDP。

第二，PPP指数不同于实际均衡汇率，不能用于指导选择合理的汇率政策。根据购买力平价思想，实际汇率应是不变动的，然而现实并非如此。由于决定因素不同，PPP指数与均衡汇率之间甚至没有必然联系[11]。因此，以PPP指数作为标准衡量汇率是否高估或者低估，是不恰当的，或者认为PPP指数代表了汇率的长期走势，以此为参考选择合理的汇率政策，是具有误导性的，因为即使超长期有效对于选择汇率政策也是远远不够的[12]，更何况汇率与PPP的背离是必然而普遍的现象。

第三，PPP结果主要用于横向比较，不能直接用于跨基年的历史比较。每轮ICP是以对应基年为基础的，然后推算出非基准年的数据，以形成完整的时间序列非基准年的PPP数据推算方法有总量外推法（IMF与世界银行）、分类项目外推法（欧盟）、滚动基准年推算法（欧盟与OECD）、缩减信息法（亚洲开发银行与非洲开发银行）。[13]，但是，在ICP尚未完全成熟之前，由于每轮参与的国家数量、计算方法以及介入深度不同，导致PPP结果丧失了跨基年比较的基础。比如2005年第七轮ICP共有146个参与国，而2011年第八轮ICP则有199个，2005年中国仅有11个城市参与2005年第七轮ICP国际比较，中国在1999年7个城市（北京、上海、重庆、哈尔滨、武汉、广州、西安）参与的基础上再增加了大连、宁波、厦门、青岛4个城市。，而2011年中国则宣布全面参与第八轮ICP测量，调查范围则涵盖30个省级单位。

第四，PPP结果主要用于总量比较，不能用于分部门产出的国际比较。PPP指数是一个加权的综合价格指数，具有不可加性，只有在总量层面才是有意义的。分部门产出不能直接除以PPP指数进行国际比较，因而也就无法进行支出结构的国际比较。比如，以PPP指数为折算因子，测算研发部门或者军事部门的实际支出水平，以此结果作为衡量创新能力或者军事实力的指标，其实是对PPP方法的一种误用。

第五，PPP比较最好用于经济结构相似的国家和地区，否则误差太大。由于PPP估算严格受到原始数据质量的影响，因而PPP法总量比较最好两国经济结构差别不要太大。因为有时发展中国家的服务价格相比于发达国家更加低廉，并非其价值被低估，而是其本身服务的质量更低，严格意义上都可划分为两种不同的服务，因而不具备可比性。因为经济结构不同，中国与美国之间的PPP法GDP标准误就要远大于加拿大与美国之间的标准误[14]。

第六，PPP结果作为一项研究成果，应当谨慎用于行政领域。由于数据采集和更新的困难，PPP测算结果往往具有滞后性，无法指导短期变化了的现实。而且，PPP法总量数据更具有存量意义，无法变现为市场购买力，不宜用作联合国会费分摊[15]或世界银行贷款额度等的依据。除此之外，根据PPP估值结果，认为中国超越美国成为世界第一大经济体，或者得出“中国世纪”开始的结论，也是对PPP探索性研究成果的片面解读。

三、世界治理指标（WGI）的数据背景、聚合方法与运用商榷

“治理”概念最早可以追溯至亚里士多德时期，如今被重视得益于新制度主义的兴起，随之，治理评估及其指标体系也应运而生，世界治理指标（WGI）即是对“治理”抽象概念的量化测度。由于世界治理指标的全面性、延续性、公开性，其已被公认为最具影响力的综合指标之一，并成为国际投资和国际援助的重要参考。世界治理指标由世界银行1996年创建，2003年之前每两年发布一次，之后数据每年更新，统计范围不断扩展，目前已经涵盖了全球215个国家和地区，其包含六项分指标，分别是话语权与问责（Voice and Accountability，VA）、政治稳定与无暴力或恐怖主义（Political Stability and Absence of Violence/Terrorism，PV）、政府效率（Government Effectiveness，GE）、监管质量（Regulatory Quality，RQ）、法治程度（Rule of Law，RL）、腐败控制（Control of Corruption，CC）。

（一）世界治理指標的数据背景与聚合方法

世界治理指标作为一项综合指标，其原始数据并非来自于世界银行的一手调研资料，而是来自于33个国际组织所建立的35个数据库，其中包括自由之家、世界民意调查、世界法治指数、民主动态调查、经济学人智库、全球竞争力报告、贝塔斯曼基金会、全球透视业务状况和风险指数等。世界治理指标的原始数据绝大部分是基于调查问卷的主观数据，调查问卷的发起方多是欧美发达国家的大学、智库、企业、政府以及NGO组织，由于原始数据的得分范围不一致，在指数聚合时通常需要进行多次标准化处理。

世界治理指标的聚合方法为未观测组合模型（Unobserved Components Model，UCM），其基本原理如下：

世界治理指标每一项分指标的估计值取值范围都在-2.5至2.5之间，负分并不是数学意义上的，而是标准化处理之后的，并公布指标聚合的数据库来源数量，该国所处的百分位及其90%置信区间的百分位上限和下限，以及估计值的标准差，一般来源数据库越多，估计值标准差越小。以中国为例，2015年WGI六项分指标CC、GE、PV、RQ、RL、VA的估计值分别为：-0.27、0.42、-0.56、-0.27、0.33、-1.58；来源数据库数量分别为：11、10、9、11、13、11；所处的百分位分别为：50%、68%、27%、44%、44%、5%。如图2所示，1996—2015年间，世界治理指标各项分指标，中国在政府效率（GE）一项表现最好，基本处于世界前50%，话语权与问责（VA）一项表现最差，基本处于世界后10%。

（二）世界治理指标的理论局限与运用商榷

世界治理指标最核心的在于对“治理”概念的理解，世界银行将“治理”理解为一国权力运作的传统和制度，依靠它们政府得以开展并提供公共产品。基于此，世界治理指标衡量的是以政府为中心的治理水平，六项分指标分别涵盖了政府的选举、执行、监督。世界银行定义背后暗含的假设是，各个国家和地区存在普世的治理标准，通过WGI可以分辨好的治理与坏的治理，并引导治理不力的国家和地区见贤思齐、择善从之。然而，纵观“治理”概念的解读，远未达到共识的地步，世界银行的定义只是代表了一种狭义理解，忽略了治理主体、治理模式、治理传统等的多元性及其路径依赖。WGI的六个维度，比如法治、话语权、反腐败等，虽然用的是同一个词表达，而且都不否认其对完善治理的重要性，但是在不同的文化背景、政治体制、发展水平下又有不同的含义，比如在民主体制如美国和威权体制如新加坡，法治概念的细节和实践是不同的。

理论框架的缺乏是治理指数模糊而不准确的原因之一[16]，世界治理指标依赖过多未经理论论证的假定，可能会使指标变成错误的数据[17]。除了概念的分歧之外，数据来源的主观性、治理指标的道德性等也是世界治理指标有失公允的重要因素。2015年WGI分指标的来源数据库数量，多的可以达到15个，少的只有1个，因而估计值的标准差大小也相距甚远，严重影响了WGI的可信度。WGI的一手数据来源，多是西方资本主义国家机构主导的以专家学者为调查对象的主观性问卷，那么，就可以认为，WGI的基础数据主要反映的不是世界各国真实的治理状况，而是少部分人以西方标准对世界各国治理水平的认知甚至偏见，最终WGI就是一堆看法和偏见的集合。考夫曼等[18]指出，我们评估的是什么？我们应当关注谁的观点？对治理评估是至关重要的。周红云[19]认为，多数治理评估都是西方发达国家以自身立场为出发点对发展中国家治理质量的评估，是西方发达国家以外部观察家和决策者的身份对发展中国家国内治理质量的评估。也即是说，世界治理指标背后不可避免地存在道德指向性和价值非中立，它存在较强的西方价值偏好，隐蔽地建构国际制度性话语权[20]，忽略各个国家和地区的区域性、行业性差异，而塑造对某些国家的刻板印象。或如卢春龙[21]等的观点，WGI是在市场失灵和政府失效的双重背景下关于公共事务治理当前模式的简单概括，远非对其自身或人类历史经验的总结。

在社会科学定量研究中，世界治理指标使用广泛，通常被认为是制度因素的代名词，作为解释变量考察国际投资区位选择的制度偏好，或者作为控制变量以保证样本国家处于相似的制度背景。然而，关于WGI的研究结论往往有悖于学理常识和现实直觉，比如，一些WGI得分靠后的东亚、南亚国家却获得了较快的经济社会发展，中国对外直接投资偏好于制度质量较差而非较好的国家和地区[2224]，治理能力落后的发展中国家却比治理能力排名靠前的发达经济体吸引了更多的外商投资[25]。在直接使用WGI得分绝对值不符合国际主流发展理论和投资理论时，相关研究创新了WGI的使用方法，比如，姚凯[26]等结合世界治理指标与美国传统基金会经济自由指标创造了新的政治风险指数；蒋冠宏[27]等利用世界治理指标的绝对值之差构造了制度距离的概念；杨娇辉[28]等利用世界治理指标的一阶主成分衡量总体制度质量并构建了相对制度质量指数；杨宏恩[29]等则使用世界治理指标六个维度的均值衡量制度环境；也有研究利用双边投资协定[30]、双边政治关系[31]作为东道国制度缺位的有效补充以解释前文所述的反常现象。由此可见，世界治理指标的使用不仅广泛而且深入，甚至过度，一方面反映了研究者由于缺乏合适的宏观指标而不得不委曲求全的无奈，另一方面也反映了研究者存在利用现有数据套用计量模型和成熟理论的投机倾向。WGI各项指标本身已是二手主观数据的一次综合，若在此基础上进行加减乘除运算的二度综合，无异于将制度质量视作单位统一、等距等比的“一般等价物”，不仅损失了有效信息以致于构造的数据丧失意义，而且曲解了世界治理指标的内涵以致于造成指标的误用。

因此，在使用WGI数据时，首先应当意识到其是综合指标而非专项指标，是模糊指标而非精确指标，因其性质而有一定的适用范围，所以关注其估计值的同时也应该关注其标准差，其描述了一般性的制度背景但却无法对特定领域进行诊断，其反映了现代正式制度的表现但却隐匿了传统非正式制度的作用。其次应当认识到其原始资料、聚合方法、理论基础的局限性，它是基于主观感觉和评价的“软指标”而非类似于GDP等的“硬指标”[32]，它是世界银行基于“治理”概念狭义理解的量化表达而非对人类“治理”智慧的全面概括，因而只能作为验证研究假设的重要参考而不能作为唯一标准；最后应当谨慎对其进行复杂构造和过度使用，数据为我所用的前提是深刻理解数据背后的逻辑，没有理论而任意構造不仅损失了信息而且不易于解释，世界治理指标如果过度包装，就会远离其欲刻画的现实，最终使得新构造数据失去效度、毫无意义，进一步使得实证研究结果站不住脚。

四、全球清廉指数（CPI）的数据来源、争论焦点与评价局限

腐败的定量刻画是近年来腐败问题研究的主流趋势[33]，全球清廉指数（CPI）是反腐败领域目前使用最多[34]、具有广泛影响力的定量指标。1993年世界银行董事彼得·艾根有感于腐败的危害性，在德国柏林创立了非营利、非党派、以反腐败为使命的国际性非政府组织——透明国际（Transparency International，TI），并于1995年开始每年发布全球清廉指数及排名。2016年全球清廉指数176个国家和地区中，前五位分别是丹麦（90）、新西兰（90）、芬兰（89）、瑞典（88）、瑞士（86），后五位分别是也门（14）、叙利亚（13）、朝鲜（12）、南苏丹（11）、索马里（10）。总体而言，北欧地区发达国家表现良好，非洲地区发展中国家表现较差，亚洲地区中，新加坡（84）、中国香港（77）、日本（72）表现较好，排名均位于前20，中国得分为40，排名第79，与白俄罗斯、巴西、印度等国处于同一水平，属于比较腐败的国家行列。

（一）全球清廉指数的数据来源与计算方法

与购买力平价、世界治理指数相比，全球清廉指数的数据搜集和计算方法更加简单。透明国际不参与一手数据的编制，CPI的测算基础源自于13个独立的主观调查机构，分别是以各国专家为调查对象的世界银行国家政策和制度评估指数、亚洲开发银行国家绩效评估等级指数、非洲开发银行国家政策和制度评估指数、美国自由之家转型指数、美国环球透视国际风险评级、美国PRS集团国际国家风险指南、德国贝塔斯曼基金会转型指数、德国贝塔斯曼基金会可持续发展指数、英国《经济学人》国家风险服务和国家预测指数，以企业管理层为调查对象的世界经济论坛全球竞争力报告、瑞士洛桑国际管理学院世界竞争力报告、中国香港政治与经济风险咨询公司亚洲情报通讯，以普通民众为调查对象的世界公正项目法治指数。CPI数据源总体保持不变，但每年也多少会有出入，被排名的国家和地区，平均有6个数据源，多的可达到9个，为了减少测量误差，每个国家唯有保证3个及以上数据源方才列入CPI计算与排位行列，由此也导致每年参与的国家数量有所变动。

经过2012年改革后，目前CPI的计算方法已经非常简单了，由于之前百分比匹配法的不可比性，2012年之后CPI计算采用的是简单平均法，即在标准化原始数据的基础上，再将各个国家数据进行算术平均。以饱受争议的2014年中国CPI计算为例，8个原始数据库标准化处理后得分分别为27.5、36.5、31.1、47.3、40.5、37.6、31.9、36.7，

2014年中国CPI数据源分别来自德国贝塔斯曼基金会转型指数（27.5）、瑞士洛桑国际管理学院世界竞争力报告（36.5）、美国PRS集团国际国家风险指南（31.1）、世界经济论坛全球竞争力报告（47.3）、世界公正项目法治指数（40.5）、英国《经济学人》国家风险服务和国家预测指数（37.6）、美国环球透视国际风险评级（31.9）、中国香港政治与经济风险咨询公司亚洲情报通讯（36.7）。平均之后得分约为36.1。2012年除了在CPI计算方法改动之外，数据源的选取标准也更加严格，得分由十分制改为百分制，而且改革后的结果与之前结果不能进行比较。中国自1995年CPI创设以来，历次为其测评对象（如表1所示），得分总体不高但趋势大致向好，随着CPI覆盖的国家和地区逐渐增多以致趋于稳定，中国基本保持在中位数水平上下。

（二）全球清廉指数的争论焦点与评价局限

全球清廉指数的产生无疑是意义重大的，不仅吸引世界关注腐败和反腐问题，同时也促进了关于腐败和反腐败的经验研究[35]，腐败与政治体制、经济发展、社会公正等的关系成为实证研究的热点[36]。然而，关于全球清廉指数的争议也一直未曾停歇，尤其是十八大之后反腐成效举世瞩目的情况下，中国CPI得分和排位不但没有显著提升，反而在2014年出现急剧下降，世界排位较之2013年下降了20名，随之，CPI的准确性、科学性受到更大的质疑。不过，值得澄清的是，Corruption Perceptions Index普遍被译成“清廉指数”是不妥当的，根据字面意思，应为“腐败感知指数”或“腐败印象指数”，度量的是主观感知的而非客观实际的腐败印象。腐败的感知度并不等同于真实的腐败情况[37]，公众的腐败感知存在一定的非理性，在威权体制国家，单纯地加大反腐败力度，并不必然换来公众清廉感知水平的提升，反而有可能会导致更高程度的腐败感知水平[38]。因此，苛求主观指标的绝对客观性是对CPI创设初衷的误解，但CPI数据来源是否具有代表性、比较参照是否具有统一性、统计方法的科学性是值得讨论的。

首先，由于透明国际不参与CPI一手数据的调查，也没有设置统一的委托调查方案，因而CPI的数据质量非常依赖于数据来源的代表性。根据前文可知，CPI数据来源主要反映的是各国专家和企业管理层的感知水平，各国专家的观点附带很强的内生性问题，也即是专家对各国的腐败印象很大程度来自于对应的调研报告；企业管理层的感知则主要体现在商业领域，而没有涵盖执法、司法、行政等方面，比如美国环球透视国际风险评级重点关注的是腐败对企业获得商业许可证、优惠政策和制定计划等方面的经济影响。除此之外，透明国际公布CPI的同时并没有公布一手数据的样本数量和调研规模，也影响了该指数的公信力。所以，CPI反映的是少部分人对特定领域的腐败认知，不等同于一国全面的廉洁状况。

其次，主观评价的特征是相对性，参照标准不同，感知水平也不同，CPI的原始数据均是主观调查，因而比较参照系的统一性非常重要。CPI的编制基于13个标准不一的数据来源，腐败定义不一、问卷设计不一、调研人群不一、评分标准不一，由于文化背景、社会历史、知识水平、个人偏好等的差异，对同一个评价客体的感知也相差甚远。除此之外，同一原始数据每年或定期更换评估者也会影响CPI最基本的可比性。因此，CPI作为一个感知指数，很多时候是由错误的人，在错误的时间做出的错误判断[39]。

最后，CPI本质是二手数据的加工综合，因而统计方法的科学性也至关重要。事实上，统计方法科学与否并不在于其简单或者复杂，而在于能否根据数据特点减少误差，所以，CPI采用的是百分比匹配法还是简单平均法不是问题争论的核心。CPI统计方法的争论焦点是其对极端值缺乏有效过滤、对系统性偏差缺乏有效避免、对不同数据源资料等权处理。过勇[40]等研究指出，CPI参考的报告在时间、样本以及准确性等方面差异非常显著，赋予相同的权重显然是不合理的，CPI在统计方法上仍有改进的空间。

当然，也应当认识到，腐败的测量是非常困难的，任何一种方法都有其局限性，完全准确地测量一国或一地区的腐败程度几乎是不可能的。更清楚地了解CPI因各种主客观条件限制所产生的固有缺陷，才能更冷静地对待CPI得分与排位结果及其对中国的评价。2014年中国CPI测评的8个原始数据中，美国环球透视国际风险评级下降幅度最大，得分由2013年的42.0降至2014年的31.9，其次是世界公正项目法治指数，得分由2013年的45.0降至2014年的40.5。然而，环球透视报告旨在为客户提供某一市场的商业活动风险预测，并不涉及对某项政策的好坏评估。中国的高压反腐造成地方官员对待外商投资更加谨慎保守，由此导致投资前景充满潜在风险和不确定性，方才使得环球透视对中国的国家风险评估稍有调高

美国环球透视国际风险评级为5分制，最小单位是0.5分，数值越高表明风险越高。2013年中国为3.5分，2014年则为4.0分，相差只有0.5分，经过CPI标准化处理之后差距变成百分制的10.1分。世界公正项目主要关注政府官员以权谋私的程度及受访者评价，中国强硬的反腐斗争暴露了更多腐败官员与贪腐案件，使得世界公正项目调整了对中国的评估认识和参照标准，随之降低了对中国的评分。由此可知，就CPI对中国的测评而言，其評价能力的局限性是显而易见的，既存在于原始数据的参照标准变动，也存在于透明国际对原始数据的解读应用。CPI虽然提供了认识一国或一地区腐败状况的定量和国际视角，但盲目地将其作为认识世界和指导实践的风向标，或者以其否定中国的反腐努力和用于反腐败实证研究是存在问题且有失于严谨的。

参考文献：

[1] 王绍光. 中国公共政策议程设置的模式 [J]. 中国社会科学， 2006（5）： 8699.

[2] 托马斯·皮凯蒂. 21世纪资本论 [M]. 巴曙松，等，译. 北京：中信出版社， 2014： 3233.

[3] 瓦里西·列昂惕夫. 经济学论文集：理论、事实与政策 [M]. 陈冰，等，译. 北京：北京经济学院出版社， 1991： 2332.

[4] 臧雷振. 政治学研究中的数据：不深刻的理解与困境消解 [J]. 马克思主义与现实， 2015（5）： 8490.

[5] 高敏雪，李静萍，许健. 国民经济核算原理与中国实践（第三版） [M]. 北京：中国人民大学出版社， 2013.

[6] 姜波克. 国际金融新编（第五版） [M]. 上海：复旦大学出版社， 2014.

[7] 徐滇庆. 世界格局与中国经济发展策略——世纪之交的理论思考 [M]. 北京：经济科学出版社， 1998.

[8] 李翀. 国内生产总值的国际比较方法研究 [J]. 学术研究， 2015（2）： 6368.

[9] 余芳东. 从ICP结果引发“统计地震”说起 [J]. 调研世界， 2015（9）： 6164.

[10] World Bank Group. Purchasing power parities and the real size of world economies： a comprehensive report of the 2011 international comparison program [R]. Washington， DC： World Bank. 2015： 167170.

[11] George J. Gilboy，钟宁桦. 度量中国经济：购买力平价的适当应用 [J]. 经济研究， 2010（1）： 2738.

[12] 张晓朴. 购买力平价思想的最新演变及其在人民币汇率中的应用 [J]. 世界经济， 2000（9）： 1018.

[13] 余芳东. 国际上非基准年购买力平价推算方法评价 [J]. 统计研究， 2013（3）： 2529.

[14] 王岩. 世界银行ICP2011的方法、指标与数据问题研究 [J]. 东北财经大学学报， 2016（4）： 6571.

[15] 余芳东. 世界银行2011年国际比较项目方法、结果及局限 [J]. 统计研究， 2015（1）： 1119.

[16] 马特·安德鲁斯，罗杰·哈伊，杰利特·迈尔斯. 治理指标有意义吗？——关于特定领域治理测量的新路径 [J]. 吉磊，编译. 探索， 2016（2）： 149157.

[17] 臧雷振. 治理定量研究：理论演进及反思——以世界治理指数（WGI）为例 [J]. 国外社会科学， 2012（4）： 1116.

[18] 丹尼尔·考夫曼，阿尔特·克拉著. 治理指标：我们在哪儿，我们应去向何方？ [J]. 庞娟，闫健，摘译. 国家行政学院学报， 2008（6）： 100103.

[19] 周红云. 国际治理评估指标体系研究述评 [J]. 经济社会体制比较， 2008（6）： 2336.

[20] 游腾飞. 西方如何隐蔽性建构国际制度性话语权 ——“世界治理指数”的剖析及其启示 [J]. 探索， 2017（3）： 164172.

[21] 卢春龙，张华. 国家治理指数的国际比较：发展、民主与文化——兼评世界银行“世界治理指数” [J]. 江苏行政学院学报， 2017（2）： 9097.

[22] Buckley P J， Clegg L J， Cross A R， Liu Xin， Voss H， Zheng Ping. The determinants of Chinese outward foreign direct investment [J]. Journal of International Business Studies， 2007， 38（4）： 499518.

[23] Ramasamy B， Yeung M， Laforet S. Chinas outward foreign direct investment： location choice and firm ownership [J]. Journal of World Business， 2012， 47（1）： 1725.

[24] Kolstad I， Wiig A. What determines Chinese outward FDI？ [J]. Journal of World Business， 2012， 47（1）： 2634.

[25] 吴白乙，史沛然. 社会安全与贸易投资环境：现有研究与新可能性 [J]. 国际经济评论， 2015（3）： 7995.

[26] 姚凯，张萍. 中国企业对外投资的政治风险及量化评估模型 [J]. 经济理论与经济管理， 2012（5）： 103111.

[27] 蒋冠宏，蒋殿春. 中国对发展中国家的投资——东道国制度重要吗？ [J]. 管理世界， 2012（11）： 4556.

[28] 杨娇辉，王伟，谭娜. 破解中国对外直接投资区位分布的“制度风险偏好”之谜 [J]. 世界经济， 2016（11）： 327.

[29] 杨宏恩，孟庆强，王晶，李浩. 双边投资协定对中国对外直接投资的影响：基于投资协定异质性的视角 [J]. 管理世界， 2016（4）： 2436.

[30] 宗芳宇，路江涌，武常岐. 双边投资协定、制度环境和企业对外直接投资区位选择 [J]. 经济研究， 2012（5）： 7182.

[31] 潘镇，金中坤. 双边政治关系、东道国制度风险与中国对外直接投资 [J]. 财贸经济， 2015（6）： 8597.

[32] 马得勇，张蕾. 测量治理：國外的研究及其对中国的启示 [J]. 公共管理学报， 2008（4）： 101108.

[33] 徐静. 国内外腐败指数及其对比研究 [J]. 中国行政管理， 2012（5）： 110114.

[34] [ZK（]聂辉华. 腐败对效率的影响：一个文献综述 [J]. 金[LL]融评论， 2014（1）： 1323.

[35] 斯达芬·安德森，保罗·海伍德. 感知的政治学：透明国际腐败测量方法的运用和滥用 [J]. 肖俊奇，编译. 经济社会体制比较， 2010（4）： 8291.

[36] 肖汉宇，公婷. 腐败研究中的若干理论问题——基于2009—2013年526篇SSCI文献的综述 [J]. 经济社会体制比较， 2016（2）： 4860.

[37] Melgar N， Rossi M， Smith W. The perception of corruption [J]. International Journal of Public Opinion Research， 2010， 22（1）： 120131.

[38] 孙宗锋，杨丽天晴. “打老虎”如何影响公众腐败感知差异？——基于广东省的准实验研究 [J]. 公共行政评论， 2016（3）： 89107.

[39] 宋旭光. “国家清廉指数”的统计学批判 [J]. 中国统计， 2005（9）： 53.

[40] 过勇，宋伟. 清廉指数的腐败测评方法与局限性 [J]. 经济社会体制比较， 2013（5）： 151160.

责任编辑、校对：郑雅妮