CVM有效性和可靠性的研究与争论：范围问题的探讨

2020-12-10 08:53肖建红

中国地质大学学报（社会科学版） 2020年6期

肖建红

一、引言

条件价值评估法 (Contingent Valuation Method，CVM)是最重要的非市场经济价值 (Non-market Economic Valuation)评估方法，被广泛应用于环境经济、健康经济、文化经济、旅游经济、交通安全、生物多样性保护、生态系统服务等多个领域，研究区域几乎涵盖了世界上每一个国家[1][2]。CVM通过调查，建立一个公共物品数量或质量变化的假想市场，引导受访者在这些假想市场中做出选择；CVM最常用的调查询问受访者的格式是陈述他们对公共物品供给水平增加或避免供给水平减少的支付意愿 (Willingness to Pay，WTP)[1]。范围问题 (The Issue of Scope)包括两个方面：一是范围反应敏感性 (The Sensitivity of Response to Scope)问题，分为范围敏感 (Scope Sensitivity)和范围不敏感(Scope Insensitivity)；二是范围反应充分性 (The Adequacy of Response to Scope)问题，分为充分反应(Adequate Response)和不充分反应 (Inadequate Response)。Randall等[3]在研究芝加哥居民对空气质量改善的WTP中首次报告了范围 (不敏感)问题。他们推测范围问题能通过替代效应、预算约束等予以解释。Kahneman[4]在进行加拿大安大略省湖泊渔业资源保护估值比较研究时，也较早地发现了范围 (不敏感)问题。接着，Kahneman等[5]研究发现，公共物品作为更具包容性公共物品的组成部分，被估值的WTP比其单独被估值的 WTP低。Desvousges等[6]研究发现，保护2 000、20 000或200 000只同种类的迁徙水鸟，WTP差异不大。Kahneman等[5]、Desvousges等[6]一些著名而有争议性研究成果的发表和埃克森—瓦尔迪兹油轮泄漏事件 (The Exxon-Valdez Oil Spill)[7]，改变了学者们对范围问题的 “冷漠”，标志着对CVM有效性 (Validity)和可靠性 (Reliability)持续争论的开始[8][9]。这场争论涉及四个核心理论问题：(1)受访者通过CVM表达的选择是符合经济理论预期 (Economictheoretic Expectations)还是心理学选择模型 (Psychological Choice Models)。如果响应模式被发现符合经济理论预期，将有利于把CVM的评估结果纳入公共政策的成本—收益分析中；如果响应模式主要突出动机，无关提问的公共物品变化，则不能被纳入成本—收益分析决策框架[1]。(2)CVM揭示的消费者偏好是否符合新古典经济学关于偏好是定义完好的和不变的基本假设[10]。(3)CVM评估结果是否能通过内部一致性检验 (Internal Consistency Tests)[11]。(4)如何判断WTP变化对范围反应的经济显著性 (Economic Significance)[12]。

当CVM被应用到使用价值 (Use Value)占主导的熟悉公共物品估值时，能够产生结构有效性 (Construct Validity)估计[8][13][14]；但是当CVM被应用到非使用价值 (Non-use Value)占主导的公共物品估值时，通常受访者没有待估公共物品的选择经验和认知，则产生了众多冲突的观点[11][14][15][16]。其中有几项研究得出，CVM调查的受访者对于不同范围的公共物品或者更具包容性的公共物品陈述几乎相同的WTP[4][5][10][17]。这些研究成果的出现，引起了关于范围问题的激烈辩论，其中辩论的核心主要集中在道德满足/温情效应 (Moral Satisfaction/Warm Glow)和更传统的经济商品价值动机 (Economic-commodity Value Motivations)的相对重要性[18][19]上。范围问题被美国国家海洋和大气管理局 (The National Oceanic and Atmospheric Administration，NOAA)专家小组称为 “反对CVM可靠性的最重要内部论据”[20][21]。

二、范围问题相关概念和文献检索分析

(一)范围问题相关概念

范围问题被不同学者称为范围效应 (Scope Effect)[16]、嵌入效应 (Embedding Effect)[5]、顺序效应 (Sequence Effect)[22]、次可加效应 (Sub-additivity Effect)[23]、象征偏差 (Symbolic Bias)[24]、部分—整体偏差 (Part-whole Bias)[10]、分解偏差 (Disaggregation Bias)[15]、规则嵌入 (Regular Embedding)和完全嵌入 (Perfect Embedding)[25]。它是指相同公共物品作为更具包容性公共物品一部分被估值的WTP比其单独被估值的WTP低[5]，或相同公共物品不同调查得到广泛变动的WTP[11]，或公共物品与更具包容性公共物品被估值的WTP差异不大[26]，或WTP变化的程度与待估公共物品范围变化的程度不一致[16]，或待估公共物品的WTP取决于估值问题顺序[22]，或待估公共物品整体变化的WTP比个体变化独立估值再加总的WTP低[16]，或受访者对待估公共物品一般象征意义而不是具体供给水平的WTP[24]。尽管上述这些概念略有差异，但都是指CVM对待估公共物品进行估值时出现了范围问题。公共物品估值范围 (Scope)通常分为数量 (Quantitative)范围、分类/定性 (Categorical/Qualitative)范围和地理 (Geographical)范围[5][18][19][24]。目前，范围问题研究已涉及森林[27]、河流[28]、湖泊[1]、湿地[29]、海岛[30]、自然公园[21]、荒野区域[31]、水质[32]、生物多样性[33]、环境物品组合[25]、可再生能源[34]、交通碳减排[35]、健康风险[36]、疫苗[37]、食品[38]等多个领域。

(二)范围问题文献检索分析

在Web of Science数据库中，通过检索相关主题词，获取国际文献对范围问题相关研究的基本信息；同时，以此为基础进一步检索，获取中国学者发表的国际文献对范围问题相关研究的基本信息。在中国知网(CNKI)数据库中，通过检索相关主题词，获取中文文献对范围问题相关研究的基本信息。检索发现，研究有以下特点 (如表1所示)：

表1 文献检索结果

1.在Web of Science数据库中，英文国际文献量已超过6 000篇；在中国知网(CNKI)数据库中，中文期刊文献量已超过600篇。

2.在两个数据库中，中国学者中英文文献量已超过1 000篇；但成果主要是关于CVM的案例应用，研究很少涉及CVM方法有效性和可靠性的验证与改进，如有效性或可靠性检验、范围反应敏感性或充分性等。

3.范围问题相关研究主要包括：范围问题相关概念、有效性或可靠性检验、范围反应敏感性或充分性、范围问题各种视角 (经济学视角、心理学视角、设计与执行视角)研究与解释等。

三、结构效度检验

(一)范围检验和加总检验的含义

NOAA专家小组建议，CVM研究应进行内部一致性检验，评估结果与新古典经济理论预期的一致性，推荐范围检验 (Scope Test)作为评估CVM结果内部一致性的标准方法[20]。NOAA专家小组建议的范围检验是一种结构效度检验 (Construct Validity Test)，基于 “物品多优于少”的消费理论基本原则[20][39]。范围检验分为内部范围检验 (Internal Scope Test)和外部范围检验 (External Scope Test)[24]。内部范围检验与配对样本 (Paired Sample)对应，被CVM的批评者描述为弱检验 (Weak Test)，是衡量相同受访者在待估公共物品不同范围下的WTP变化。外部范围检验与分样本 (Split Sample)对应，被描述为强检验 (Strong Test)，是衡量不同受访者在待估公共物品不同范围下的WTP变化[9][18]。内部范围检验和外部范围检验是一种互为补充的关系[35][40]。Diamond等[11][31]也建议，CVM研究应设计并执行内部一致性检验来评估结果的有效性和可靠性，特别是在非使用价值占主导地位的经济计量中尤其重要，但他们推荐加总检验 (Adding-up Test)方法。Diamond等[17]提出的加总检验也是一种结构效度检验[12]，认为标准效用理论 (Standard Utility Theory)隐含着一种被称为 “加总条件”(Adding-up Condition)的关系，即第一件物品的WTP加上第二件物品在受访者已经支付并得到第一件物品后的WTP，必须等于受访者对两件物品结合的WTP；并明确规定，加总检验是针对增量的收益 (Incremental Benefits)，在一定范围内存在的边际效用递减和替代效应被包含在估值中。Desvousges等[41]统计分析了CVM实施范围检验的109个案例，其中40个范围检验通过、17个范围检验没有通过、47个范围检验结果混合、5个没有报告结果。Whitehead[12]指出，鲜有研究者选择使用加总检验。国际文献检索结果也验证了这一点(如表1所示)。正如Desvousges等[41]分析的109个案例，仅有3个设计了增量加总检验，其中1个加总检验没有通过、1个加总检验结果混合、1个没有报告结果。目前，结构效度检验 (范围检验或加总检验)面临的主要挑战是：如何判断对范围的反应是充分的 (Adequate)或合理的(Plausible)，即经济显著性 (Economic Significance)问题，也就是如何判断统计显著性差异与经济直觉 (Economic Intuition)的一致性问题[12]。

(二)范围检验和加总检验的经济学基础

假设待估公共物品的最初供给水平和可支配收入分别为X0和y，待估公共物品的第一增加部分、第二增加部分分别为b和c，待估公共物品的整体为a＝b＋c；在独立估值时，受访者对待估公共物品整体、第一增加部分和第二增加部分a、b和c的支付意愿分别为WTP a、WTP b和WTP c；在已拥有待估公共物品第一增加部分b的情况下，对待估公共物品第二增加部分c的支付意愿为WTP c|b；个体偏好效用函数为U。根据消费理论，对待估公共物品第一增加部分b的WTP b有：U(X0，y)＝U(X0＋b，y－WTP b)；在已拥有待估公共物品第一增加部分b的情况下，考虑存在替代效应和/或收入效应，对待估公共物品第二增加部分c的WTP c|b有：U(X0＋b，y－WTP b)＝U(X0＋b＋c，y－WTP b－WTP c|b)；在田野实验中，通常不能调整收入效应，所以：U(X0＋b，y)＝U(X0＋b＋c，y－WTP c|b)；对待估公共物品整体a的WTP a有：U(X0，y)＝U(X0＋a，y－WTP a)。加总检验是验证是否：WTP a＝WTP b＋WTP c|b；范围检验是验证是否：WTP c|b＝WTP a－WTP b＝WTP c，或WTP b＜WTP a。如果出现下述三种情况之一，则表明存在范围问题[12][42][43]：

1.WTP a＜WTP b＋WTP c|b，即待估公共物品各增加部分被估值的WTP之和超过其整体被估值的WTP。

2.WTP c|b＝WTP a－WTP b＜WTP c，即待估特定公共物品作为更具包容性公共物品的组成部分被估值的WTP比其独立被估值的WTP低。

3.WTP b≈WTP a，即待估公共物品部分被独立估值的WTP与其整体被估值的WTP相差不大。

四、范围反应敏感性问题

(一)经济学视角

许多学者从替代效应 (Substitution Effect)、边际效用递减 (Diminishing Marginal Utility)、饱和程度 (The Degree of Satiation)、收入效应/预算限制 (Income Effect/Budget Constraint)及补偿效应 (Complementarity Effect)等经济学相关理论视角，研究范围反应敏感性问题[29][44][45][46][47][48][49]。

1.单一效应。(1)替代效应。因为公共物品的额外增加边际效用递减，替代品改变了待估公共物品的稀缺条件，进而会影响WTP[49]。受访者对替代品信息相当敏感，替代品信息多的受访者比信息少的受访者对估值的WTP更敏感，所以，合理的表达替代品信息非常重要[23][50]。(2)边际效用递减。受访者对待估公共物品的低水平供给范围敏感，而对高水平供给缺乏范围敏感。这种边际效用递减规律也解释了高的存在价值 (High Existence Values)范围不敏感问题[45]。(3)饱和程度。对于一个相对较大范围待估公共物品的WTP是否增加，将依靠受访者关于待估公共物品的供给水平是否饱和[51]。如果边际效用接近于零，范围之间的偏好趋近于水平[10]，个体效用趋于饱和，增加待估公共物品的供给水平将不再增加个体效用[47]，所以，范围检验考虑边际WTP曲线上的位置非常重要[52]。如Rollins等[45]研究发现，受访者在保护四个公园后已接近于饱和 (Nearing Satiation)，边际WTP非常低。(4)收入效应/预算限制。受访者的WTP通常只占收入的一小部分，收入效应较小，但是由于多数家庭的收入已被预先锁定 (Committed)，真正可获得的任意可支配收入很小，尤其是如果被要求短期支付[9]，所以，收入效应/预算限制的影响可能相当大[44]，也会引起范围问题[37]。同时，待估公共物品的部分若免费提供将影响加总属性[53]，导致可能偏离精确的加总[11]。

2.复合效应。(1)边际效用递减和替代效应的交互作用。由于边际效用递减和替代效应存在，待估公共物品非增量部分的经济合理值加总不一定等于它们的组合值[46]。待估公共物品范围扩大的低增加值，也反映了公共物品间的替代效应和边际效用递减[41]。替代效应和边际效用递减的存在，限制了范围效应的大小，可能导致标准范围检验失败。这一观点被Desvousges等[48]称为是自从引入范围检验以来出现的最重要的认识之一。(2)替代效应和收入效应的交互作用。如果提供多种待估公共物品的收益在局部均衡框架 (A Partial Equilibrium Framework)中被独立估值后再加总，其估值结果将被高估[54]。这一观点已经被延伸到解释范围问题[24]。替代效应和收入效应的存在，意味着不能简单地将部分加总[47]。忽略替代效应和收入效应，将高估待估公共物品的总收益[55]。同时，这也意味着部分加总后的WTP被高估符合经济理论[13][24][42][56]。(3)替代效应和补偿效应的交互作用。如果考虑替代效应和补偿效应，一些出现范围问题的案例可能与传统希克斯消费理论一致[42]。同时，替代效应和补偿效应的存在，容易导致拒绝加总检验[29]。

(二)心理学视角

许多学者从温情效应/道德满足 (Warm Glow/Moral Satisfaction)、社会心理学理论 (Social Psychological Theory)、联合产品心理模型 (Mental Models of Joint Products)、不确定性 (Uncertainty)、旗舰物种效应 (Flagship Species Effect)及标签效应 (Label Effect)等心理学视角，研究范围反应敏感性问题[5][46][48][55][57][58][59][60][61]。

1.温情效应。(1)温情效应与CVM。Kahneman等[5]首次将温情效应与CVM联系在一起，指出如果存在温情效应动机 (Warm Glow Motivations)，WTP代表通常意义的向慈善机构捐赠，无关描述的待估公共物品的变化，不是与所描述变化相关的个体偏好价值。通过CVM引出的价值不是真正的经济价值，而是产生于个体的购买道德满足感 (Purchase of Moral Satisfaction)[62]。购买道德满足作为解释不能被私人购买的待估公共物品的WTP尤其合理，即使这些待估公共物品具有使用价值[5]。(2)贡献模型和购买模型。Kahneman等认为，有两个竞争模型 (Competing Models)可以用于分析个体如何回答价值问题。贡献模型 (Contribution Model)被认为更好地描述了受访者如何回答CVM的问题。从心理学视角来看，贡献模型假设个体把待估公共物品供给视为需要支持的原因，WTP陈述表达对待估公共物品的一般态度或起因。表达一般态度的估值反应本身可能是内在满足 (Intrinsic Satisfaction)和温情效应 (Warm Glow Effects)的源泉，因此意味着对范围变化的敏感性普遍较低[5][63]。购买模型 (Purchase Model)被认为是多数传统CVM文献的基础，陈述的WTP被解释为福利变化的有效衡量。购买模型强调获得精确划分的待估公共物品[5][63]。(3)温情效应测度。Nunes等[46]认为，受访者的捐赠行为源于自身的道德满足，温情效应对WTP有显著影响；范围问题并不一定意味着矛盾的行为，它能通过个体偏好中存在的稳定的和可度量的温情效应成分解释。CVM的温情效应是可以容忍的事实[46]，即便个体偏好源于自利或者道德判断，也并不意味着CVM无效[64]；且温情效应可以被测量[46][65]。(4)温情效应与WTP。Kahneman等[5]认为，范围问题源于购买道德满足。温情效应的边际效用递减迅速[46][55]，经常被用来解释范围问题[29][46]。Chilton等[51][66]从私人提供公共物品的捐赠理论视角，研究了WTP中没有温情效应 (No Warm Glow)动机、部分温情效应 (Partial Warm Glow)动机或完全温情效应(Complete Warm Glow)动机，将影响WTP的范围敏感性。Bishop[60]则认为，温情效应只有在极端情况下才产生范围问题 (嵌入效应)。

2.社会心理学理论。(1)经济范围的扩展。Heberlein等[57]批评传统的范围检验只对比分样本的WTP均值/中位数，没有考虑超出经济范围 (Beyond Economic Scope)，从而经常忽略情感的(Affective)、认知的/态度的 (Cognitive/Attitudinal)和行为的 (Behavioral)范围。他们利用社会心理学理论 (Social Psychological Theory)扩展了范围的定义。新范围包含两个维度的情感范围(Affective Scopes)和两个维度的认知范围 (Cognitive Scopes)，通过案例研究得出两条重要结论：当受访者对待估公共物品的部分了解 (Know)更多、喜欢 (Like)更多和体验更多 (Experience)，他们则很可能赋予待估公共物品的部分比整体更高的经济价值；当受访者对待估公共物品的整体和部分有知识 (Knowledge)、体验 (Experience)和良好的态度 (Well-formed Attitudes)，WTP的估值则更可能是有效的 (无论显示范围敏感或不敏感)[57]。这些研究结论为从新的视角解释范围问题提供了依据。(2)社会心理学因素与WTP。受访者持有心理的和情感的信念 (Psychological and Emotional Beliefs)能解释一些范围问题，态度影响 (Attitudinal Influences)甚至可以解释负的范围效应 (Negative Scope Effects)或过度嵌入效应 (Over-embedding)，但它们不会使CVM估计无效[57]。如狼再引进计划出现了降低的 WTP，这种负范围可能与情感的和认知的范围 (Affective and Cognitive Scopes)有关，反映人们的真实偏好[33][57]。许多研究试图将情感的、认知的、态度的和行为的等社会心理学因素变量与WTP的测度联系起来，提高实践中CVM的有效性和可靠性，探索解释范围问题[33][40][59][67]。

3.联合产品心理模型。Schulze等[55]给出了联合产品心理模型思想的例子：挽救一个物种的唯一方法是通过挽救栖息地来挽救所有物种，这不仅提供了所有物种的价值，也提供了物种栖息地的价值。这一观点被心理学家称为心理模型 (Mental Models)。受访者提供挽救一个物种的WTP，事实上已经提供了挽救栖息地所有物种的WTP。当再询问受访者挽救另一个物种WTP的增加值时，受访者的WTP增加值是零，因为他们已经为挽救第二个物种支付了。联合产品心理模型的联合性将导致范围问题[55]。联合产品假设 (The Joint Product Hypothesis)为解释存在的完全嵌入效应 (公共物品与更具包容性公共物品被估值的WTP差异不大)提供了依据[55]。

4.受访者和CVM方案不确定性。受访者不确定性是指受访者愿意为待估公共物品支付数额犹豫不决的状态 (State of Indecisiveness)[35]。受访者不确定性会降低范围敏感性，引起范围问题[35]。另外，有一些学者从受访者对不同CVM方案是否可能被实施的现实性感知 (Perceived Realism)视角，来研究范围问题[47]。当受访者考虑待估公共物品更大的方案比更小的方案不现实时，将出现范围问题[24][47]。陈述的方案是否将被执行影响调查结果[34][48]，考虑调查方案将随之发生的受访者WTP高于没考虑的受访者[68]。

5.旗舰物种效应和标签效应。Kontoleon等[69]研究考察了一种有魅力或旗舰物种在多大程度上能被用于促进更广泛的生物多样性保护，认为旗舰物种方法是生物多样性保护的一种重要工具。相对于大量不著名的物种，受访者对少数有魅力物种 (Charismatic Species)存在偏好。公众熟知的特定旗舰物种可能影响预算分配[61]。在现实中，政府机构也分配了不同比例的保护基金给一小部分受欢迎的物种[21]。受访者使用CVM赋予一组物种的WTP，与赋予其中的旗舰物种的WTP大致相同。这种旗舰物种效应的存在将会导致CVM估值出现范围问题[70]。Czajkowski等[58]研究发现，相对于一个包含相同保护水平但没有标签的待估公共物品，受访者对认可的、含有标签的待估公共物品将提供一个相对高的WTP。这种标签效应的存在将会导致CVM估值出现范围问题。

(三)调查设计与执行视角

许多学者从CVM传统调查设计与执行 (Design and Implementation)、CVM嵌入公共物品调查设计与执行及属性缺席 (Attribute Nonattendance，ANA)、设备效应 (Device Effects)、统计分布假设 (The Statistical Distribution Assumption)等视角，研究范围反应敏感性问题[9][13][27][39][47][71][72]。

1.CVM传统调查设计与执行。许多研究由于没有遵循NOAA准则来设计和执行可靠的CVM方案而受到质疑[20]，其存在的问题主要包括：无效构建假想市场[9][24][58]、调查执行和抽样方法不正确、统计能力和信息提供质量不足、受访者不能理解调查问题等[64][71][73]。针对传统调查设计与执行问题，学者们提出的处理方法包括：描述更大和更小的物品请受访者集中注意在更小的物品上、使用地图和照片描述情景、简短说明、允许受访者修正投标值、使用绝对范围、调查中包含感知方案现实性问题等[15][20][33][47][55]。

2.CVM嵌入公共物品调查设计与执行。(1)自下而上方法和自上而下方法与WTP。执行一次CVM调查研究同时评估嵌入公共物品 (不同范围的公共物品)时，经常出现范围问题，而执行多次CVM调查研究成本又较高，更有效的选择是探索执行一次CVM调查研究同时评估嵌入公共物品的方法[23]。Carson等[24]提出能同时评估嵌入公共物品所有组成部分的两种基本WTP引导策略：自下而上方法 (Bottom-up Approach)和自上而下方法 (Top-down Approach)。自上而下方法又分为整体、部分分别独立估值和先对整体估值、再分配到每一个部分两种子方法。研究发现：部分独立估值的WTP与整体先估值、部分再估值的WTP一致。自上而下法的整体、部分分别独立估值方法提供了有效和可靠的估计[56][74]。(2)预先披露设计和逐步披露设计与WTP。Powe等[75]提出了嵌入公共物品CVM同时估值的四个特征：数量范围或分类范围、包含列表 (Inclusive List)或独立列表 (Exclusive List)、自下而上列表 (Bottom-up List)方向或自上而下列表 (Top-down List)方向和预先披露 (Advance Disclosure)设计或逐步披露 (Stepwise Disclosure)设计等四个方面。Bateman等[18][19]认为，嵌入公共物品同时估值时，CVM调查设计的列表方向 (List Direction)和可见选择集 (Visible Choice Set)变化可能对范围敏感性有显著的影响。他们指出，Kahneman等[5](引起范围问题争论的标志性文献)报告的检验是不完全的，因为其没有考察列表方向和可见选择集变化对范围敏感性的作用。Bateman等[18][19]通过实验室实验和田野实验深入研究了分类嵌入公共物品采用独立列表估值，列表方向 (自下而上列表或自上而下列表)和可见选择集(预先披露设计或逐步披露设计)对WTP的影响。实验结果表明：采用预先披露设计时，嵌入公共物品自下而上或自上而下列表方向的WTP估值结果均展现出了范围敏感性，符合理论预期；但采用逐步披露设计时，嵌入公共物品自下而上或自上而下列表方向对观察的范围敏感性影响非常大。

3.CVM调查设计与执行最新成果。(1)属性缺席 (ANA)。由于多种原因，当受访者忽略一个或多个选择属性会产生ANA[76]。Giguere等[27]通过研究考察生态、社会和处理方法 (Treatment Method)三个属性，将ANA作为一个识别CVM受访者核心群体的因素，研究得出：当检验范围敏感性时，ANA是一个重要因素，存在ANA可能引起范围 (不敏感)问题。(2)设备效应。随着技术设备的发展，除了计算机外，智能手机和平板电脑被广泛应用，设备效应 (Device Effects)将影响对范围反应的判断[72]。Skeie等[72]研究发现，与计算机相比，智能手机和平板电脑内部范围敏感程度更低一些；智能手机受访者对四个顺序估值问题中的第一个WTP显著较高，而平板电脑没有任何差异。(3)统计分布假设。WTP估值对统计分布假设敏感是普遍被认可的，WTP估值的统计分布假设对范围敏感性影响很大[39]。对于小样本量的CVM研究，非参数分析、Spike模型或开放式格式 (Open-ended Format)比经典参数二元选择分析更适合揭示范围效应。Borzykowski等[39]建议，应系统应用多个WTP统计分布假设检验范围效应和估值结果的合理性。

五、范围反应充分性/合理性问题争论

(一)NOAA专家小组及其部分成员的观点

NOAA专家小组指出，WTP估值应对范围变化作出充分反应 (Adequate Responsive)[20]。最初6名NOAA专家小组中的4名专家提交了后续评论，澄清 “充分反应”的含义，并对 “充分的(Adequate)”和 “合理的 (Plausible)”予以解释。充分的 (Adequate)包含充足的 (Sufficient)，而同义词合理的 (Plausible)包含可信的 (Believable)[77]。Arrow等[77]注意到，统计显著性差异与 “合理反应”(Plausible Responsive)有明显不同，这不仅仅是简单孤立的统计上显著性差异，也要求差异与经济直觉 (Economic Intuition)一致。他们明确指出：统计显著性反应不是我们准则中的充分反应检验，如果产生了对范围难以置信的反应迟钝 (Implausibly Unresponsive)，CVM调查研究则被判断为不可靠[77]。

(二)范围检验面临的挑战

范围检验面临的主要问题是事先确定何种程度的敏感性是适当的[36]，因为不清楚什么是正确回答的先验预期，所以所有的结果都可能是合理的[78]。尽管CVM的大多数支持者和批评者均赞同将范围敏感性作为接受WTP评估有效性的一个基本条件，但范围敏感性标准仍然存在争议[79]。在边际WTP显著递减的情况下，WTP变化与待估公共物品范围变化可能不是简单的线性关系[1]，所以，面临的问题不是CVM估值结果是否通过了范围检验，而是证明CVM估值结果对范围充分反应[41]或经济学意义上显著[80]。考虑范围充分性 (Adequacy)或合理性 (Plausibility)类似于在经济学所有领域中，除了考虑统计显著性 (Statistical Significance)外，还应考虑经济显著性(Economic Significance)[12]。对范围充分反应是一个经济显著性问题，范围反应不充分代表结果不可靠[80]。NOAA专家小组担心存在对范围反应不充分的可能性，而标准的范围检验并没有解决这一问题，因为它检验的是显著性大小而不是充分性大小[41][48]。通过范围检验并不意味着反应是充分的，而仅仅是指它不是零；而且，对范围反应很小是有合理解释的 (如边际效用递减和替代效应)，所以范围检验失败可能并不表示估计反应不充足[41][81]。如Amiran等[80]运用方向有界的(Directionally Bounded)新古典效应函数，评估传统的范围检验得出：不满足范围检验不应该作为拒绝CVM研究的依据，范围检验的结果应该更仔细地考虑，范围敏感度非常低可能是合理的。所以，反对简单的解释和过度依赖范围检验作为CVM研究有效性的唯一判断标准[8][57]。

(三)加总检验面临的挑战

Desvousges等[41]考虑加总检验是一个充分性检验 (Adequacy Test)，它提供了关于范围反应充分性的信息。为了回应NOAA专家组对范围变化充分反应的关切，在未来研究中，Desvousges等[48][81]推荐Diamond等[17]的加总检验，但是，无论对于公共物品还是私人物品加总检验都很难通过[17][42][81]。已有研究得出，增量部分WTP估值之和远大于整体WTP估值，甚至大3倍[81][82]。Whitehead[12]提出，对范围合理性反应是一个经济显著性问题，对合理性反应的检验是对经济显著性的检验，应该评估WTP变化的大小相对于范围变量变化的大小，这一思想与比例标准/理论相同。强比例标准 (Strong Proportionality Criterion)和弱比例标准 (Weak Proportionality Criterion)的争论，始于著名的埃克森—瓦尔迪兹漏油事件对自然资产损害评估。一些支持对范围反应强比例标准的专家认为，WTP变化的大小应该高于范围变化的大小，或WTP的增长应该与范围的增长同比例[83]。而支持对范围反应弱比例标准的专家则认为，WTP应该随着范围的增长而增长，但不必同比例[8][79]。弱比例标准基于边际收益递减理论[79]，NOAA专家小组支持弱比例标准[20]。Whitehead[12]认为，加总检验对确定是否范围效应是合理的少有价值，并提出将范围弹性 (Scope Elasticity)作为直接衡量经济显著性的方法，替代加总检验。

六、再论范围反应充分性/合理性问题

(一)近期争论

近期，Bishop等[84]在《Science》上发表了英国石油公司泄漏事件 (The BP Oil Spill)对自然资产损害评估的研究成果，通过设置避免更小的损害集合 (The Smaller Set of Injuries)(第一个损害集合)和避免更大的损害集合 (The Larger Set of Injuries)(包含第一个损害集合和第二个损害集合)两个范围，发现了为避免深水地平线石油泄漏 (Deepwater Horizon Oil Spill)的WTP对范围充分敏感的证据。Baron[43]在《Science》上发文对Bishop等[84]宣称的证明 WTP对范围充分敏感 (Adequate Sensitivity to Scope)的观点提出质疑：为什么第二个损害集合不单独估值?他指出，已有研究发现：一个部分独立估值的WTP或两个部分作为一个整体估值的WTP远小于两个部分分别独立估值的WTP之和，运用Bishop等[84]的方法，第二个损害集合的WTP低到了令人难以置信 (Implausible)的17美元 (第一个损害集合的WTP为136美元，第一个损害集合＋第二个损害集合的WTP为153美元)。Baron[43]认为，Bishop等[84]关于2010年墨西哥湾石油泄漏的研究，只考虑了范围检验而没有考虑加总检验，进而对其研究方法和结论提出质疑。Bishop等[85]在《Science》上发文回应，认为他们运用的方法是NOAA专家小组推荐的方法，能够判断受访者是否注意正在估值 (变化)的细节，而Baron[43]推荐的加总检验不在NOAA专家小组确定的一系列检验中。Bishop等[85]认为，Baron[43]讨论这一检验的逻辑实际上与经济理论不相符，其关于研究调查如何修改的建议似乎既不现实可行，也不具有科学价值。

(二)争论背后的实质性问题

Bishop等[84][85]与Baron[43]之间的争论，事实上反映了范围检验和加总检验两种方法用于判断WTP估值变化对范围变化反应的充分性或合理性方面存在缺陷。避免更大的损害集合范围与避免更小的损害集合范围相差很大 (详见Bishop等[84])，边际WTP仅为17美元；WTP估值变化相对于损害集合范围变化非常小，这就引起了Baron[43]对Bishop等[84]基于范围检验方法的对范围充分敏感结论的质疑。Baron[43]建议Bishop等[84]研究中补充的加总检验，因没有考虑物品间的互补效应、预算限制等因素[85]，同样面临无法用于判断WTP估值变化对范围变化反应的充分性或合理性问题。这场争论引出了目前范围问题研究的核心：随着待估公共物品范围的变化，WTP应该变化多大[84]?范围反应充分性或合理性持续存在争论[86][87]，学者们尚未对 “充分的”或 “合理的”范围反应问题达成共识[39]。

七、结论与未来研究建议

(一)结论

范围问题是CVM有效性和可靠性持续研究与争论的核心问题之一，包括范围反应敏感性问题和范围反应充分性问题两个方面。目前关于范围问题的研究主要集中在范围问题相关概念、有效性或可靠性检验、范围反应敏感性或充分性、范围问题各种视角 (经济学视角、心理学视角、设计与执行视角)研究与解释等方面；并且研究群体主要以国外学者为主，中国学者关于范围问题的相关研究成果较少。

范围反应充分性或合理性持续争论的实质性问题是范围检验、加总检验等结构效度检验面临着挑战。未来应根据CVM应用的不同领域，发展具有差异性的范围反应充分性或合理性的范围检验方法。同时，国内学者应加强范围问题研究工作，在CVM估值中避免简单地对待估公共物品进行组合或拆分。

(二)未来研究建议

1.提出面向领域差异性的判断标准。范围问题非常复杂，真实交易市场的私人商品、CVM背景之外的决策研究 (属性拆分效应、事件拆分效应)，均发现了范围问题存在的案例，但目前研究主要集中在CVM领域[38]。CVM在许多领域被广泛应用，不同领域之间存在较大差异，如安全风险健康领域 (公共或个人安全、交通事故、健康疾病等)与资源生态环境领域 (自然资源、环境资源、生态资源、生物多样性等)，所以很难提出一个适合各领域判断CVM范围反应充分性或合理性问题的统一标准。建议未来考虑不同领域之间存在的差异性，分别研究确定相应的判断标准。

2.拓展涵盖多因素的范围检验。CVM是由两位诺贝尔经济学奖获得者Arrow和Solow领衔的NOAA专家小组推荐的方法。他们提出了执行可靠的CVM研究准则。NOAA专家小组提出应论证CVM研究对范围反应的充分性，并提出对范围充分反应是CVM研究可靠性的一个重要标准。但是，NOAA专家小组推荐的范围检验及其他学者推荐的加总检验等方法，在判断范围反应充分性或合理性方面均存在争论与不足；同时，存在负范围、零范围[21]和微小范围反应[80]仍可能与现实相符，所以，范围检验等传统的只考虑经济范围的方法很难解释和解决这些现实中存在的范围问题。建议未来扩展传统的经济范围，研究如何使新的范围涵盖经济范围、社会心理学各因素 (情感、态度、认知或行为)范围及如何综合考虑其他心理学因素，建立判断范围反应充分性或合理性的新标准。

3.改进嵌入公共物品的调查设计与执行方案。具有嵌入关系 (或嵌套关系)的公共物品在现实中非常普遍。公共物品的整体或部分均不是孤立存在的，它的整体与部分之间或整体与周围物品、环境之间经常存在一种嵌入关系。嵌入公共物品调查设计与执行方案对其估值非常关键，但目前只有少量研究专门涉及嵌入公共物品的调查设计与执行。建议未来研究应重点关注：范围嵌入方式、各部分属性信息描述策略、嵌入问卷投标值选取和间距、嵌入问卷调查方式、嵌入多估值问题(替代品、互补品、预算限制等)相关信息供给等。

4.探索CVM与CE优势互补的研究方法。更好地提供待估公共物品的属性信息，将更有利于受访者感知待估公共物品范围的变化。近几年，与CVM相比，选择实验 (Choice Experiment，CE)呈现出更受欢迎的趋势[88]，CE比CVM具有的优势是能够提供更多的关于待估公共物品的属性信息。待估公共物品的属性信息是其重要的核心参数，属性缺席会引起范围问题[27]。具有嵌入关系的待估公共物品较为复杂，不易准确描述各部分的属性信息。建议未来研究思考如何将CVM与CE两种陈述性偏好方法的优势互补，探索建立准确描述嵌入公共物品属性信息的新方法，为更好地研究范围问题提供新思路。

国内运用CVM文献已达到1 073篇，但关于CVM主要是案例应用研究，而对CVM有效性和可靠性研究较为欠缺。如NOAA建议CVM研究应进行范围检验，验证其结果与新古典经济理论预期的一致性，但国内研究基本没有进行这项工作。涉及CVM有效性和可靠性的其他核心问题，国内研究也鲜有涉及。国内学者未来应加强CVM有效性和可靠性方面的研究，探索判断范围反应充分性或合理性的新方法。目前，更为重要的是在公共物品估值中，要充分考虑公共物品内部之间及公共物品与周围物品、环境之间的 (数量或分类或地理)范围嵌入关系，详细研究制定待估公共物品估值的调查设计与执行方案，不能只是对存在的待估公共物品范围嵌入关系进行简单处理，仅将待估公共物品部分估值作为其整体估值，或将待估公共物品整体估值拆分成部分估值。