科技政策绩效评估理论方法与模型综述

2021-06-21 02:31陈云伟
农业图书情报学刊 2021年6期
关键词:差分法控制组评估

张 敏,陈云伟*

(1.中国科学院成都文献情报中心,成都 610041;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190)

1 引言

政策绩效评估作为政府绩效评估体系中重要的一环之一[1],近年来得到广泛关注。所谓政策绩效评估,是指以结果为导向,借助科学的评估方法、规范的评估流程、统一的指标和标准,对政策的投入产出作出全面测量和分析的活动[2]。其目的在于测算政策的科学性、完整性、可操作性,以及实施所带来的直接结果,即实现了什么效果,产生了哪些影响,还存在什么不足。在此过程中,科技政策绩效评估备受关注,近年来关于科技政策绩效评估的理论和方法研究层出不穷,相关研究者产出了大量研究成果。本文对现有科技政策绩效评估的相关文献进行汇集分析,梳理主要国家科技政策绩效评估的起源与发展历程;并按发展阶段梳理政策绩效评估的理论、方法及模型应用;对在科技政策绩效评估中计量学方法的应用进行对比分析;最后总结现有研究中存在的问题,并对未来发展进行展望。以期为我国组织开展科技政策绩效评估工作,完善科技政策评价体系提供参考依据。

2 科技政策绩效评估阶段划分

根据世界主要国家在科技政策绩效评估方面颁布政策、法规的数量变化和内容特点,借鉴赵蓉英等对中国科技评价阶段的划分[3],可将科技政策绩效评估划分为3 个阶段:20 世纪60 年代至70 年代末的萌芽期、20 世纪80 年代至21 世纪初的广泛发展期、21 世纪初至今的创新发展期。

科技政策绩效评估的萌芽期,主要是在美国和欧盟牵头下,政策绩效评估的兴起以及初步探索,直至1978 年在理论和方法上有了较多发展,定性与定量研究更多的结合并应用于科技政策绩效评估。以世界多国重要立法节点为主的广泛发展期,最突出的就是世界多个国家相继出台成文的政策法规,逐渐建立或完善国家层面的评估体系,在这一阶段,理论、方法、模型等的发展和应用更加广泛,主要包括提出了一些科技政策绩效评估的标准和原则等;建立了更多的测度指标;构建了大量的模型;借鉴了来自经济学、计量学等学科的更多方法。科技政策绩效评估的创新发展期,各国科技政策绩效评估体系更加成熟,涌现出更多的研究者和高校硕博论文,计量方法的使用上更加深入,政策绩效评估与时代前沿技术知识接轨,在以后的发展中,有望紧跟时代步伐,实现政策绩效评估与前沿技术、知识等的融合发展,促进科技政策绩效评估方法多样化发展、评估过程智能化发展,以推动科技政策绩效评估发展向更加成熟的阶段迈进,如图1 所示。

图1 科技政策绩效评估阶段划分图Fig.1 Stage division chart of science and technology policy performance evaluation

2.1 科技政策绩效评估的萌芽期

政策评估工作兴起于20 世纪60 年代的美国,并在80 年代成为社会科学研究的前沿热点领域[4]。这一阶段在理论建设方面有了更多规范,如1978 年POLSTER 提出政策绩效评估工作应遵循效率、效能、执行力、反应度、适当性、充分性和公平性等7 个评估标准[5];在方法层面上引入经济学与运筹学相关知识,从定量的角度丰富和完善了政策评估,1978 年LIBECAP将经济模型运用于政策量化,构建了基于法律变革指数的计量模型,并用于研究政策对资源的影响效应[6]。同年,运筹学家CHARNES 等提出数据包络分析法(Data Envelopment Analysis,DEA)。该方法常用来进行决策单元绩效的比较评估,后逐渐应用于各种绩效评估及政策评估[7]。2018 年张永安等使用改进的两阶段动态网络DEA 模型,结合中国科技创新政策和31个省市的科技创新成果及效率,研究了中国科技创新政策绩效的提升路径[8]。可见,在萌芽期,科技政策绩效评估工作已经开始利用定性和定量的方法。

2.2 以世界多国重要立法节点为主的广泛发展期

进入20 世纪80 年代,系统的理论体系发展问题日益得到关注。1985 年,PAPPAS 等在分析定性和定量研究指标的基础上,提出应对不同类型的科技政策采用不同的评估方法[9]。1987 年,FREEMAN 提出国家创新体系理论,并认为科技领域的政策对促进创新起积极效果[10]。1997 年,COOK 等通过文献回顾和案例研究,讨论了科技研发绩效的评估问题,设计了主要的指标体系,并指出评估政策对科技投入的影响,应遵循系统性、可行性和经济有效性3 个原则[11]。方法模型方面,引入数学思想,构建了更多定量模型。1996 年WARDA 提出B 指数,用于评估税收优惠程度[12]。1997 年,POTTELSBERGHE 等提出了矩阵评估模型,用于对科技政策进行效果评估[13]。同年BONNAL 等使用时间持续模型(Duration Models)来评估法国19 世纪80 年代为改善青年工人的就业市场前景而制定的公共就业政策,以研究这些政策对个人劳动力市场前景的影响[14]。1998 年,VAN TONGEREN 在全球经济框架内对企业行为构建微模拟模型,用于调查荷兰投资补贴对工业企业的影响效应[15]。在政策法规颁布方面,世界多国有了广泛发展,法国在1985 年、美国在1993年、英国在1999 年、日本和韩国在2001 年分别出台科技政策绩效评估相关法令,从立法角度对科技政策绩效评估进行规范[16]。中国在2000 年出台的 《科技评估管理暂行办法》 中,也将科技政策作为重点评估对象[17]。图2 梳理了法、美、英、中、日、韩有关科技政策评估立法的重要时间节点,以揭示科技政策绩效评估相关立法的发展历程。

图2 多国重要立法节点时间发展历程图Fig.2 Time development chart of important legislative nodes in many countries

2.3 科技政策绩效评估的创新发展期

继世界多国相继颁布科技政策绩效评估的相关法规后,全球迎来了科技政策绩效评估的创新发展期。该阶段研究的焦点在于企业研发补贴的绩效评估方面。2004 年,TZELEPIS 等研究了希腊的资本补贴对企业业绩的影响,主要从效率、增长情况、盈利能力和资本结构4 个方面进行考量[27]。2006 年CZARNITZKI 等使用微观计量评估法(Microeconometric Evaluation Methods)比较德国西部和东部公共研发补贴政策对企业研发创新的影响,发现公共研发补贴政策可能会提高经济的创新产出[28]。2007 年,CZARNITZKI 等使用计量经济学方法研究德国和芬兰的科技创新政策和研发合作对研发创新绩效的影响,结果显示合作具有积极的影响[29]。2007 年,RUEGG 等在有关科技政策绩效评估报告中提出不同政策阶段应该使用与之相适的评估方法,并介绍了监测与数据汇编、数据挖掘、网络分析、文献计量、案例分析和技术商业化跟踪等方法[30]。2009 年,CZARNITZKI 等使用信用评级指数反映评级公司的融资机会,应用混合截面模型(Pooled Cross-Section Model)和随机效应面 板模型(Random-Effects Panel Model)两种计量经济学模型研究中小企业研发投资与资本投资的限制因素,并指出需要制定创新政策解决小企业的研发融资问题[31]。2011 年,CATOZZELLA 等对意大利社区创新的公司数据使用双变量内生转换模型(Bivariate Endogenous Switching Model),研究公众支持对创新销售与创新支出之间比值的影响效果[32]。2012 年,KAZUYUKI 等在对日本专利信息定量分析的基础上,研究20 世纪90 年代末大学-产业合作(University-Industry Collaborations,UIC)政策颁布后对日本大学与产业合作的影响[33]。同年,ELPIDA 等运用系统动力学方法开发建立了国家创新体系(NIS)模型,从而研究国家创新政策对该体系绩效的影响效果[34]。2013 年,马海群和吕红采用动态综合模糊评估模型研究了高校信息公开政策的效果[35]。2015 年,FRANZ 等基于欧洲247 所大学和40 家研究机构的相关调查数据,使用负二项模型(Zero-Inflated Negative Binomial,ZINB)对变量进行计数,来研究知识转让政策对转让绩效4 个指标的影响[36]。

可见21 世纪初至今的创新发展期,对于科技政策绩效评估的研究,在广泛借鉴其他学科知识构建模型方面有了更多的创新,其中以经济学、计量学相关模型的使用最为常见,同时也有其他学科的交叉使用。值得关注的是数据挖掘、网络分析等方法的引入,不仅丰富了评估方法的多样性,还将科技政策绩效评估与信息科技发展前沿对接,有望推动大数据环境下科技政策绩效评估向自动化、智能化方向发展。

3 科技政策绩效评估的计量方法

作为“五计学”七大研究主题之一[37],科技政策绩效评估广泛使用了计量学相关方法。例如,对于文献计量学方法的使用,体现在对政策数量、关键词等的统计[38,39];信息计量学的使用集中在聚类、相关性分析等,常见于政策主题分析及演化的研究[40]。本文借鉴赵婷茹等基于实验设计的计量方法,对科技政策绩效评估中应用到的定量方法进行梳理[41](表1)。

表1 科技政策绩效评估计量方法对比表Table 1 Comparison table of metrological methods for performance evaluation of science and technology policy

3.1 断点回归法

断点回归法(Regression Discontinuity,RD)是一种拟随机实验的计量方法。分为精确断点回归(Sharp Regression Discontinuity,SRD)和模糊断点回归(Fuzzy Regression Discontinuity,FRD)。精确断点回归是指在断点处,样本数据得到处理的概率仅有0 或1两种可能。模糊断点回归是指在断点处,样本数据被处理的概率从a 跳跃至b,其中0<a<b<1。

1960 年THISTLETHWAITE 等在研究公众认可的影响效应时首次提出使用断点回归法,研究表明,公众认可会增加学生获得奖学金的可能性,但并不影响学生的职业规划[42]。2019 年王钊等针对产业技术创新,在研究税收优惠政策的影响效应时运用该方法,研究结果显示具有显著正影响[43]。

3.2 双重差分法

双重差分法也叫做双重差分模型(Difference-in-Differences,DID),主要用来对社会学中政策的实施效果进行评估,操作原理为:将样本分为处理组和控制组,处理组在发展过程受到政策影响,控制组不受政策影响,处理组与控制组在政策实施后两组变化量的差值即为政策影响。

1978 年ASHENFELTER 将双重差分法应用于经济学领域[44],并在1984 年BLOOM 将其用于研究政府补贴对收入的影响[45],1985 年HECKMAN 等将该方法应用于政策绩效评估。1994 年CARD 等应用该方法,将美国新泽西州使用法律来提高最低工资作为处理组,将没有使用法律改变最低工资的宾夕法尼亚州作为控制组,来评估最低工资对就业的影响[46]。该方法还被用于研究工伤补贴、就业培训、失业救济和最低工资等政策的影响效果[47-50]。需要注意的是,使用不同的数据来源或研究方法可能会得到截然相反的结果,这启示研究者们研究方法和数据的有效性直接影响研究结果的可信度。

3.3 双重差分倾向得分匹配法

倾向得分匹配法(Propensity Score Matching,PSM)最早由PAUL 等在1983 年提出,是经济学界用来缓解自选择偏误的一种方法。该方法经常和双重差分法组合使用,即双重差分倾向得分匹配(Propensity Score Matching-Difference-in-Difference,PSM-DID),其原理为:假设有两期面板数据,根据处理变量和协变量计算倾向得分值,根据倾向得分值为每一个处理组中的个体,匹配控制组个体,这就使得匹配过后的个体除是否接受处理外再无显著差异,匹配后可结合双重差分法使用,即计算处理组每个个体前后变化量,以及与其匹配的全部控制组个体前后变化量。该方法是1997 年HECKMAN 等在双重差分法的基础上提出的一个非参数条件差异扩展的匹配方法,并用来对职业培训计划政策的有效性进行研究[51]。2011 年CARBONI 使用非参数估计的倾向得分匹配法调查政府研发补贴支持对企业私人融资研发支出的影响[52]。2020 年陈玲等使用基于该方法研究了中国政务大数据政策的技术创新效应[53]。

3.4 三重差分法

在基于自然实验的研究中,由于双重差分法必须满足控制组与处理组的时间变化趋势一致,否则无法得到一致的实验估计量,基于此,在对双重差分法改进的基础上出现了三重差分法(Difference-in-Difference-in-Differences,DDD),即在两个地区或两个方面分别设置处理组和控制组,在一组中估算出因为时间趋势不同带来的偏差量,在另一组中估算出时间趋势不同和政策影响两个因素带来的偏差量,两个偏差量的差值即为三重差分估计量。近年来中国学者也逐渐使用三重差分法来研究政策效应。2020 年赵振华等运用三重差分法来研究大气污染协同治理对污染物减排的影响效应[54]。童玉芬等使用该方法研究2015 年以来北京市人口调控政策颁布后的政策效果[55]。

3.5 合成控制法

合成控制法(Synthetic Control Method,SCM),是在双重差分法的基础上发展起来的一种非参数方法,该方法很好地解决了时间趋势不一致的问题,通过设置多个控制组,并进行加权,从而构造出一个虚拟的时间趋势一样的控制组。该模型是基于数据导向的,处理组的实际观察结果与构造的虚拟控制组的观察结果的差量即为政策效应[56]。以“合成控制法”为关键词在中国知网检索,发现该方法已广泛应用于各领域的政策评估,其中2021 年杨秀汪等使用该方法研究碳交易试点政策对碳减排的影响效应,研究显示碳交易试点政策起到了显著减排效果[57]。

3.6 回归控制法

2012 年HSIAO 等在研究中国香港回归对中国大陆政治经济整合的影响效应时提出回归控制法(Regression Control Method,RCM)。该方法与合成控制法相似,但使用回归法来构造出虚拟的控制组,比合成控制法更为简单[58]。2020 年郜栋玺对2010—2016 年相关面板数据使用该方法,研究存款保险制度与市场约束的相互作用,对银行风险承担的影响,并依此来评估政策效应[59]。

通过对比现有常见的6 种计量方法,发现总体思路都是通过设置处理组与控制组,计算政策实施前后产生的差量,来评估政策绩效。除断点回归法以外,其他5 种方法主要是基于双重差分法的思想,对其逐步发展和改进的,其中双重差分倾向得分匹配法解决了选择性问题,在一定程度上缓解了自选择偏误;三重差分法可用于时间趋势不同的问题;合成控制法和回归控制法通过构造虚拟控制组,也可用于时间趋势不同的问题。几种方法各有优势与不足,可根据具体政策绩效评估选择合适的方法。综上6 种方法主要是针对面板数据来研究政策绩效的影响效应,使用范围相对较狭窄和单一,有待从多角度应用和展开评估,且通常一篇文章只使用一种方法,可信度有待进一步探讨。

4 讨论与展望

前文通过对科技政策绩效评估相关的政策法规、理论、测度指标和方法模型应用的梳理,将科技政策绩效评估的发展阶段划分为萌芽期、广泛发展期和创新发展期,同时对计量学相关方法应用的优势与不足进行了对比。发现现有研究在方法模型使用方面多为计量学相关方法,并结合政策评估特点进行改进,重点在于定量方法的使用和模型的构建。鉴于科技政策绩效评估相关理论方法还存在的问题,本文尝试提出以下几点建议。

4.1 科技政策绩效评估的角度有待多元化发展

现有研究中,尤其是计量学方法的使用,多是应用面板数据进行科技政策绩效评估,选取的评估角度相对单一,然而对科技政策绩效的评估不应是单一方面的,而应该是多元的、综合的,应扩展评估的角度,从政策的社会影响性、引导性、实用性等各个角度展开评估。

4.2 科技政策绩效评估方法有待多样化拓展

通过梳理现有研究,发现科技政策绩效评估方法主要分为指标测度研究和计量学等相关方法研究。关于指标测度的研究缺乏统一的、系统的研究体系,计量学相关方法的研究从20 世纪90 年代发展至今,虽有迭代更新,但相对较慢,应该引进更多学科的研究方法,多样化拓展科技政策绩效评估。对此,2007 年RUEGG 等提到的数据挖掘、网络分析等方法值得借鉴和深入探究。

4.3 科技政策绩效评估过程有待智能化发展

现有研究对政策评估的过程无论是通过建立指标体系还是使用计量方法等,都相对复杂,不便于政策制定者和非研究人员及时了解政策效果,在今后的发展中,应结合大数据的时代背景,促进在科技政策绩效评估中信息化手段的运用。应借助当下人工智能等数字技术,实现自动化、智能化的科技政策绩效评估。提高评估的精确性,更全面、快速地揭示出政策效果。同时很多数据的不易获得性,在一定程度上也阻碍了科技政策绩效评估研究的发展,应建立政策相关数据的公布平台,或对现有已经公布数据进行整合,更有利于该研究的发展。

4.4 科技政策绩效评估结果可信度有待提高

现有政策绩效评估研究实践工作通常只用一种方法来得出结论,这样的评估结果是否准确,可信度尚有待考量。是否可以尝试使用多种方法相结合的方式,从定性与定量甚至更多方面来评估,得到一个综合化的评估结果,将得到的结果进行比较,来客观评估科技政策绩效,这在未来开展科技政策绩效评估相关研究工作需要格外给予关注。

猜你喜欢
差分法控制组评估
不同评估方法在T2DM心血管病风险评估中的应用
第四代评估理论对我国学科评估的启示
给商品起名字
马来西亚华文小学识字教学的字理识字研究
基于有限差分法的边坡治理数值分析
基于有限差分法的边坡治理数值分析
七年级外来务工子女负性情绪调查与团体心理辅导干预研究
系数退化的拟线性拋物方程解的存在性
多模态听力教学模式对英语综合能力的影响
浅谈有限差分法在求梁变形时的应用