杨 武,陆巧玲,周 婷
浙江大学环境与资源学院, 杭州 310058
自20世纪90年代以来,以各种形式的生态补偿政策和工程为代表的生态保护项目在全球广泛实施。随着大量保护资金的投入,这些项目产生的生态、经济和社会效益备受重视,对生态保护项目开展实地评估的呼吁也越来越强烈[1]。21世纪初期,研究者开始对全球各地的生态保护项目进行绩效评估。Sierra和 Russman[2]对哥斯达黎加森林生态补偿项目的短期生态效果进行了评估,结果显示短期效果不明显,可能存在时滞效应。Ferraro 和 Hanauer[3]基于1973—2000年长期地理和社会经济数据,采用准实验设计的评估间接佐证了时滞效应的推测,显示哥斯达黎加的保护地网络显著减少了森林退化和促进了森林恢复,并通过促进旅游起到了扶贫的作用。Blackman等[4]对墨西哥保护地的评估显示保护地对减少森林退化的效应呈现显著的空间差异性。不过,Wendland 等[5]通过准实验设计的评估显示俄罗斯的保护地在1985—2010年间对减少森林干扰没有显著作用。Ferraro等[6]比较波利维利亚、哥斯达黎加、印度尼西亚和泰国的研究显示监管更严格的保护地并没有起到更好的保护效果。鉴于已有研究中实验设计和评估方法严密性水平差异较大,导致评估结果缺少可靠性和可比性,Baylis 等[7]撰文呼吁大力推进生态保护项目的绩效评估,并采用严密的实验设计或准实验设计,严谨地进行因果推理。
图1 政策绩效评估流程图 Fig.1 Procedures of impact evaluation for ecological compensation programs
自1998年长江大洪水以来,我国陆续实施了天然林保护工程、退耕还林还草工程、京津风沙源治理工程、森林生态效益补偿基金、退田还湖还湿工程、生态转移支付等一系列生态保护项目[8]。国内外学者对我国生态保护项目的成效也非常关注,并开展了一些案例研究。譬如,Zheng 等[9]量化了北京河北跨流域“稻改旱”项目的成本和收益,显示项目取得了良好的生态效果和经济效益。Li等[10]的评估显示退耕还林显著增加了陕西省周至县农户的家庭收入并降低了贫富差距。但是,Yang 等[11]在卧龙自然保护区的研究显示其他生态、社会和经济一样的情况下,每退耕还林和退耕还竹一亩地,农户分别损失634元和194元。Ouyang 等[12]在全国2000—2010年生态系统评估的结果显示,我国一系列的生态保护项目(包括天然林保护工程和退耕还林还草工程等)总体上增强了重要的生态系统调节服务。
然而,笔者2018年[8]对Web of Science和中国知网检索的7299篇生态补偿文献的系统梳理显示,定量的评估案例仅有105篇,而其中只有27篇研究符合绩效评估研究设计和统计分析的基本要求。总体上,国内生态保护项目绩效评估还处于起步阶段,主要体现在定量化不足、研究设计不严密、基准线选取不规范、评估方法过于简易、因果推理证据不足以及评估结果可信度较差。与此同时,2016年《关于健全生态保护补偿机制的意见》中明确指出 “到2020年实现重要区域生态保护补偿全覆盖,基本建立符合我国国情的生态保护补偿制度体系”[13]。2018年9月中共中央、国务院《关于全面实施预算绩效管理的意见》提出“将政策和项目全面纳入绩效管理,从数量、质量、时效、成本、效益等方面,综合衡量政策和项目预算资金使用效果”、 “对重大项目的责任人实行绩效终身责任追究制,切实做到花钱必问效、无效必问责”。因此,迫切需要识别出政策真正的作用,保证评估的合理性与公平性,才能真正用于政策绩效管理。
综上所述,不管是从学术研究、国家战略,还是实际生态管理的角度,都亟待从技术上推动和完善我国生态保护项目的绩效评估,提高评估结果可靠性。因此,本文结合过去十多年的理论和案例研究经验,对绩效评估的技术流程进行了系统地归纳与梳理,以期为进一步开展生态保护项目绩效评估提供技术参考。总体上,系统而严密的政策绩效评估技术流程一般可以分为五大部分(图1):(1)问题的确立;(2)研究设计;(3)基准线的选取;(4)模型构建、验证、校正和因果推理分析;(5)模型结果评估和应用。其中,问题的确立包括确定评估的政策、评估的目的(如生态效果、经济效率、社会公平)、评估的范围(如某县的退耕还林区域)、评估的尺度(如像元、农户)和评估的周期(如2000—2015年)。问题确立后,需结合实际情况选择合适的研究设计、选取政策绩效评估的基准线(即不实施政策的对照组),然后筛选评估指标进行模型的构建、验证、校正和因果推理分析,最后对模型结果进行评估和应用(如果需要,返回上一步继续对模型进行调试)。本文将对研究设计、基准线选取和评估方法展开介绍,并讨论评估分析中常见的问题及解决方式。
生态保护项目绩效评估的研究设计可以分为3种:非实验设计,实验设计和准实验设计,参见示意图2。非实验设计通常就是将政策实施前后的效果差异作为政策的效应。实验设计也就是通常所说的随机控制试验,除了有实验组之外,还需要设计完全随机空白对照组。政策绩效研究中几乎很难达到实验设计的要求,因此退而其次是选择准实验设计。准实验设计又称半实验设计或类实验设计,是借鉴实验设计的思路,通过统计学的方法找到尽可能近似的匹配对照组,然后比较实验组和匹配对照组的差异作为政策效应。事实上,正是因为实际的政策绩效评估中几乎无法找到完全随机空白对照,所以需要更复杂更严密的统计方法来分析政策效果。
图2 研究设计类型示意图Fig.2 Research design types
图3 不同类型基准线及其政策效果示意图Fig.3 Different types of baselines and corresponding policy effects
在非实验设计的情况下,研究的政策应该是影响生态效果的主导性驱动力;否则,非实验设计的偏差就会很大,评估结果可信度会大幅降低。通常,研究者会选择政策刚刚实施前的状态作为评估的基准线(图3)。这种基准线是一种静态的基准线,潜在的假设条件是如果不实施政策,研究样本在评估终期的状态与评估起始点的状态是一样的。显然,这一假设条件在很多时候也是不成立的;所以,在实际的评估中,研究者会对这一静态的基准线进行修正,采用动态的基准线,包括下降基准线和上升基准线。譬如,可以根据历史趋势线进行外推[14],把外推得到的研究样本在评估终期的状态作为基准线(图3)。如果研究区域的历史趋势线难以获得,实际操作时可以采用邻近相似区域的历史趋势线代替[15]。举例来说,如果A县的历史森林变化趋势线难以获得,可以采用社会经济情况类似的邻近B县(或者A县所隶属的地级市C市)的历史森林变化趋势线代替。
在实验设计的情况下,政策评估的基准线就是随机选取的未实施政策的样本(即空白对照组)在评估终期的状态。这种基准线选取的潜在假设条件是认为实验设计已经控制了所有影响政策效应的变量。显然,在实际案例中这个假设条件是很难满足的,实际的研究最多只能够控制研究者能够收集到数据的主要变量。
在准实验设计的情况下,政策评估的基准线是通过统计分析选取的政策实施前初始状态最接近实验组的样本(即匹配的空白对照组)在评估终期的状态。这种基准线的选取采用的是一种数值逼近思维,认为既然找不到完全随机控制的空白对照组,那么就列出一组可能影响政策实施效果的主要指标,通过统计分析找到与实验组初始状态最相似的样本作为对照组。
考虑到现有的文献、教材和专著中缺乏对生态保护项目绩效评估方法的系统梳理与归纳,本节系统介绍了绩效评估中常用的分析方法,并总结了各方法的使用情况和相关参考案例,旨在拓宽研究者的分析思路,在方法选择和使用上拥有更多的理论基础和参考依据。
简单差值法是指绩效评估时用后一个时间点的数值减去前一个时间点的数值的方法。在生态保护项目绩效评估中,当政策是最大的主导性驱动力时,运用简单差值法可以简易明了地近似获得评估时间段内政策的作用效应,如公式(1)所示:
Δy=yt1-yt0
(1)
式中,Δy是政策的作用效应,yt1和yt0分别表示评估终点和起点时政策效果指标的状态值。
事实上,无论政策实施与否,我们所关心的效果指标在一定时间段内很难是静态的状态,因此若能获得政策实施前的历史趋势进而获得动态基准线,将会大大提高评估的准确度,相关案例如笔者对四川卧龙天然林保护工程恢复效果的研究[11]
多元线性回归是指研究某一个因变量(或响应变量)与其余多个自变量的相互依赖关系的线性回归方法[16]。多元线性回归是政策绩效评估中常用的分析方法,包括:一般多元线性回归[17- 21]、双重差分法[22- 24]和空间自相关回归[25- 27]等。进行政策绩效评估时,只需要在自变量中加入一个政策的哑变量;譬如,政策实施和不实施的分析单元的值分别设定为1和0。一般多元线性回归的公式为:
y=Xβ+b+ε
(2)
式中,y为因变量矢量;X为自变量矢量;β为回归系数矢量;b为截距;ε为误差项,服从标准正态分布。
双重差分法(Difference in Difference method, DID)作为估计处理效应的工具方法,常被用来评估政策实施的跨期效果。双重差分模型的一般公式为:
yit=α+β(Gi×Dt)+γGi+δDt+εit
(3)
式中,Gi为分组虚拟变量(实验组=1,对照组=0);Dt为分期虚拟变量(政策实施后=1,政策实施前=0);交互项Gi×Dt表示处理组在政策实施后的效应,其系数即为双重差分模型的处理效应。
根据Tobler 的地理学第一定律,世界上的一切事物都是相互关联的,距离越近的事物之间的相关性越大。地理学中这种潜在的相互依赖关系就是我们所说的空间相关性。举例来说,越靠近森林边界的荒地越有可能恢复为森林,交通越便利的森林越容易被盗伐[28]。当回归模型中存在空间相关性时,残差就与自变量或因变量存在相关性,因而违背一般多元线性回归的假设。所以,在对有明显空间分布特征的事物进行多元线性回归分析时,需要检验其是否存在空间相关性。当空间相关性检验显著时,一般多元线性回归模型就不适用了,需要构建空间自相关模型。空间自相关模型的一般性混合模型公式:
y=ρWy+Xβ+μ
(4)
μ=λWμ+ε
(5)
式中,y是n×1的依变量矢量;n是研究单元数量;ρ是y的空间滞后变量的系数;W是n×n的空间权重矩阵;X是n×k的自变量和截距的矩阵;k等于自变量数量加1(1指截距的维度);β是k×1的系数矢量;μ是n×1的误差项矢量;λ是空间误差项的相关性系数;ε是n×1的误差项矢量。
工具变量分析法和中介分析法本质上都属于分步回归,模型中可以有一个或多个工具变量或中介变量。在统计分析中,某一个外生变量与模型中内生自变量高度相关,但与随机误差项不相关,那么我们可以用此变量与相应的回归系数替代与之高度相关的内生自变量,这个变量就称为工具变量,这种方法称之为工具变量分析法[29]。以两个工具变量为例的一般回归方程如下:
x=γ0+Z1γ1+Z2γ2+v
(6)
(7)
工具变量的识别是该方法的一个难点,相关研究利用地理隔离找到有效的工具变量[30- 31],如 Kathryn Graddy在研究纽约鱼市需求曲线时,以富尔顿渔场的天气为工具变量(影响鱼市供给量,且与远在纽约的需求量无关),解决了鱼的价格的内生性问题[30]。
中介分析法是指通过构建中介变量(也称中间变量)来识别或者解释自变量和因变量的内在关系和作用机理的方法。当政策通过某一个或多个因素间接作用于结果时可用此法更大限度地识别政策作用效应。中介分析法需要引入中介变量,在考虑自变量X对因变量Y的影响时,如果X通过影响变量M来影响Y,那么M为中介变量。
中介变量和自变量X与因变量Y之前的关系可以表示为:
Y=Xc+e1
(8)
M=Xa+e2
(9)
Y=Xc′+Mb+e3
(10)
在公式(8),(9),(10)中,中介效应等于系数ab的乘积,它与总效应和间接效应有如下关系:
c=c′+ab
(11)
式中,Y为因变量;X为自变量;M为中介变量;c为自变量对因变量的总效应;a为自变量对中介变量的效应;b为中介变量对因变量的效应;c′为自变量对因变量的直接效应;e1、e2、e3为误差项。
匹配法的基本思路是找到与实验组个体在可测变量取值方面尽可能相似的控制组个体,以作为实验的空白对照;进而计算平均处理效应(Average Treatment Effect, ATE)或参与者处理效应(Average Treatment Effect on the Treated, ATE)。因此,该方法的重点与难点在于找到匹配的对照组。常用的方法有最近邻匹配法(Nearest Neighbor Matching, NNM)与倾向得分匹配法(Propensity Score Matching, PSM)。最近邻匹配法可采用马氏距离(Mahalanobis distance)来衡量实验组与对照组个体间的距离,即相似度,并根据距离最近原则进行匹配:
(12)
倾向得分匹配法一般先用logit回归得到倾向得分,再根据得分采用一定的法则进行匹配。常用的匹配法则有:k近邻匹配[32](k=1, 2, …,n)、卡尺匹配[33- 34]、核匹配[35- 37]等。
得到匹配样本后计算平均处理效应(ATE)或者参与者处理效应(ATT):
(13)
(14)
该方法在政策绩效评估中的运用较为广泛[9, 38- 39],如徐大伟和李斌[39]利用核匹配法评估了辽东山区生态补偿财政项目的生态经济效果。部分学者将匹配法与双重差分法结合以解决双重差分法中存在系统误差的问题,如北京河北跨流域“稻改旱”项目评估中采用双重差分法的同时,利用倾向得分匹配法去除了项目参与户与非参与户由于自身差异造成的不同响应的干扰[9]。
结构方程法(是一种验证性多元统计分析技术。一个典型的结构方程包括结构模型和测量模型两部分;其中结构模型表征外生变量与内生变量之间关系,测量模型表征多个内生变量之间的关系。结构方程的一般公式(Bollen & Noble 2011)可以表达如下:
结构模型:
ηj=αη+BηJ+ΓξJ+ζJ
(15)
测量模型:
yj=αy+Λyηj+τj
(16)
Xj=αx+Λxξj+δj
(17)
式中,ηj是潜在内生性变量矢量;B是潜在内生性变量之间相关系数的矩阵;Γ是潜在外生性变量影响潜在内生性变量的回归系数矩阵;ξJ是第j个分析单元的潜在外生性变量矢量;yj是对应ηj的一系列测量指标的矢量;Λy是ηj对yj的回归系数矩阵;Xj是对应ηj的一系列测量指标的矢量;Λx是ξJ对Xj的回归系数矩阵;αη、αy、αx是截距矢量;ζJ、τj、δj是误差项。当只有结构模型,没有测量模型时,结构方程就退化为路径分析法(Path analysis)。当没有结构模型,只有一个测量模型时,结构方程就退化为因子分析法(Factor analysis)。
贝叶斯网络(Bayesian networks)又称为信念网络、因果网络或有向无环图模型,由Judea Pearl于1985年[40]提出,是贝叶斯定理的扩展,是一种基于概率推理的图形化网络,可以用于模拟人类推理过程中的因果关系。贝叶斯网络的拓扑结构是一个有向无环图。有向无环图的节点表示随机变量(可以是观测变量,也可以是潜在变量或未知参数),有因果关系的变量则用单向箭头连接在一起,表示其中一个节点是因,另一个节点是果,两个节点之间就会产生一个条件概率值。把一个研究系统中所涉及的随机变量根据因果关系绘制在一个有向无环图中,就形成了贝叶斯网络,与结构方程获得的路径图(Path diagram)殊途同归。只不过贝叶斯网络是非参数方法而结构方程是参数法。
一个贝叶斯网络BN可以定义为:BN=(G,θ),其中G是X上联合概率分布的有向非循环图,θ表示贝叶斯网络的参数,X上的联合概率分布可以定义为:
(18)
图4是基于结构方程或贝叶斯网络的原理构建的生态保护项目作用效应和机理的广义概念框架。在实际评估案例中,可能只有一种政策,也可能同时存在多项政策,不同政策之间也可能存在交互效应;可能既有自然中介因子,又有人类中介因子,也可能只有其中一种。
图4 生态政策作用效应和机理的广义概念框架Fig.4 General conceptual framework of effects and mechanisms for ecological policies
干扰因子是与模型中因变量和自变量同时相关的外源性的因素。自然和人类中介因子各自内部和之间也可能产生影响。因果效应是对应某一特定的时间段的,不同的时间段上可能产生作用与反作用从而形成反馈。为简化示意图,图中未标出反馈路径。
结构方程法和贝叶斯网络分析法都可以相对全面、精确地分析政策的作用效应和作用机理,为政策调控提供可靠的依据,但它们对于样本的数量要求较高,一般需100个以上,因果关系越复杂,需要的样本量也越大。在生态保护项目绩效分析中这两个方法也有诸多案例,如在分析吴起县退耕还林对农户收入的影响时,Lin和Yao用结构方程法有效识别了政策对农户收入的间接影响,发现退耕还林主要通过转移农户劳动力的方式间接影响着他们的收入[41]; Sun和Müller用贝叶斯网络分析法探讨了退耕还林对丽江的土地利用和家庭生计的潜在影响[42]。Yang等[11]运用结构方程揭示了退耕还林和退耕还竹两项政策同时实施时对卧龙自然保护区农户生计活动和社会经济收入的作用效应和机理。
除了评估的项目对评估的效果指标会产生影响,许多其他因子也会影响评估的效果指标或者中介因子,从而对绩效评估结果造成误差。这些因子被称为干扰因子,包括地理因子(如海拔、坡度、坡向、湿度)、生态因子(如初始的植被覆盖率)、人口因子(如人口数、户数、年龄、受教育程度、性别比例)、社会经济因子(如收入、城市化程度、社交网络)、以及其他政策等。以评估退耕还林工程对农户家庭收入的影响为例,退耕还林释放了参与农户的劳动力,这些农户除了保留一部分劳动力继续从事传统的农业生产,还可以利用释放出来的劳动力打工或者开农家乐赚取额外的收入。这个时候,农业生产、打工和开农家乐都是退耕还林影响农户家庭收入的中介因子。户主或者户主配偶的受教育程度或社会关系既可能影响该农户的打工收入,也可能同时影响其农业收入、农家乐收入或家庭总收入,从而成为评估模型中必须考虑的干扰因子[11]。这种情况下可考虑用中介分析法、匹配法、结构方程法或贝叶斯网络分析法将干扰因子纳入到评估模型。
生态保护项目设计时本身可能会对实施对象或目标区域等有筛选要求,进而造成实验组与对照组间的选择误差。这类干扰比较隐蔽,容易被忽略,因而在评估中尤其要注意。以评估自然保护区对动植物栖息地的影响为例,相对于保护区外的区域,保护区往往在被划为保护区之前就具有一些鲜明不同的特征(如植被覆盖率高、偏远、受人类活动影响小)。如果评估时直接比较保护区内与保护区外栖息地的变化,可能轻而易举就得到保护区非常有效地保护了动植物栖息地的结论。但是,事实可能只是保护区的底子要比保护区外好,更有利于栖息地的自然恢复,并非建立保护区的政策产生了作用。再以退牧还草工程为例,被选为退牧还草实施区域的地方正是因为多年的过度放牧导致草场快速退化。如果评估时直接比较退牧还草工程区与工程区外草场恢复的效果,可能工程区外草场恢复的效果更好,进而得出退牧还草工程抑制了草场恢复的结论。但是,事实可能只是工程区在政策实施前草场质量本来就很差,原本就比工程区外需要更长的时间恢复。以上两个例子说明选择误差可能造成评估结果偏高,也可能偏低。如果忽略选择误差,甚至可能得出完全相反的错误结论。因此,当判断可能存在选择误差时,需要在模型中对项目设计时的筛选条件进行控制,以消除选择误差。
空间依赖性在生态保护项目绩效评估中也是一个不可忽略的因素。空间依赖性主要表现在三个方面:一是选择合适的空间尺度;二是空间相关性;三是溢出效应。选择合适的空间尺度比较好理解,因为在不同尺度上的生态和社会经济效益可能是不同的。以生态旅游开发政策对自然保护区的经济效益为例,当地农户获得的经济效益往往非常有限,大部分的收益通常都被旅游开发公司和地方政府攫取了[43- 44]。因此,在农户尺度和自然保护区尺度上的经济效益是完全不同的,实际操作中往往需要在多个尺度上评估对不同分析单元的影响[45]。空间相关性的实质是生态系统本身的动态变化呈现空间异质性。举例来说,离森林越近的地方可能越容易恢复成森林。溢出效应则是因为对生态系统的影响可能跨越所评估系统的边界。譬如,森林涵养的水会从上游流到下游,固定的二氧化碳可能来自系统外。空间相关性和溢出效应的处理比较复杂,需要根据实际案例和具体情况对评估模型进行修正。如果已知造成空间相关性和溢出效应的原因,可以在模型中加入相应的变量(如每个像元到最近森林或河流的距离,每个农户到最近公路的距离)。如果不知道造成空间相关性和溢出效应的原因,可以假设不同的空间相关性情景(如几何邻近关系、像元中心点的距离、到最近的k个邻居的距离),构建空间自相关模型[28, 46]。
污染问题也是造成绩效评估误差的一个重要因素。污染问题产生的原因可能是除评估政策之外的任何影响评估效果的政策、事件或其他外部因素。譬如,在四川大熊猫卧龙自然保护区,除了实施退耕还林工程,保护区管理局还实施了退耕还竹工程,这两个项目高度相似,势必有显著的交互效应,在开展绩效评估时就需要同时纳入模型[11]。在评估天然林保护工程生态效益时,个别林斑由于公路改造或建旅游基础设施被破坏了,就需要作为离群值被剔除从而避免造成不可控的非系统性误差。此外,溢出效应也可能造成污染。如实验组产生的溢出效应可能波及对照组,从而影响评估的基准线和评估结果。在实际评估中,当存在污染问题时,需尽可能进行排除以获得更准确可靠的政策或工程效应。
生态保护项目绩效评估最大的挑战可能来自于目前缺乏普适性的作用机理理论,这进一步增加了评估误差的来源。一方面,生态保护项目的影响是多维度(如生态、社会和经济效益)、多尺度的(如像元、农户和乡镇)、甚至跨越多个人与自然耦合系统(如迁徙的鸟类繁殖和越冬的栖息地可能属于相隔千里的不同生态系统)[47]。另一方面,生态保护项目的作用机理并不是单一的,而是存在多条作用路径。同一个项目在不同的实施区域,或者不同的项目在同一个实施区域作用的机理都可能不一样。研究者在开展绩效评估时需要熟悉当地的实际情况,反复琢磨和核实是否存在遗漏的中介因子和作用路径,或替代性路径[3, 28]。
尽管系统而严密的生态保护项目绩效评估存在以上诸多难点,而目前我国的研究才处于起步阶段,但是随着国际上对生态保护项目绩效评估主流化的呼吁[7],以及我国一系列相关项目的实施,对重大生态保护项目开展系统的绩效评估已经成为国家与地方的战略需求。相信未来这一研究方向会越来越受到重视,理论基础和技术方法也会逐步完善。