公共研发计划三角评价模型研究*
——基于发达国家/地区评价案例分析

2022-09-07 06:05陶蕊

世界科技研究与发展 2022年4期

陶蕊

（科技部科技评估中心战略研究部，北京 100081）

党的十九届四中全会提出“改进科技评价体系”的要求，加强对公共研发计划的监测与评价是落实改革要求、提升科技治理能力的重要抓手。随着我国科研经费大幅增长，科研经费的使用绩效备受关注，对国家公共研发计划进行系统评价也是保障公共资金绩效、回应重大关切的必然要求。《中央财政科技计划（专项、基金等）监督工作暂行规定》《科技评估工作规定（试行）》《科技监督和评估体系建设方案》等文件中均对公共研发计划的评价进行了规定。

近年来，我国公共研发计划的评价实践不断丰富，先后开展了国家自然科学基金年度绩效评价、重点研发计划绩效评价、国家科技重大专项监督评估等工作，公共研发计划评价成为我国科技评价体系的核心内容之一。针对公共研发计划的评价，我国评价人员总结出一些经验做法，如魏海燕［1］结合国家重点基础研究发展计划的综合评价，提出评价指标包括计划目标与定位、计划管理与实施、计划效果与影响三方面。杨志江等［2］认为可从经济、效益、效率和资源四个方面来探讨科技计划评价指标的构建问题。田德录［3］探讨了面向结果的科技计划绩效评价模型，并以国家高技术研究发展计划为例，提出了科技计划绩效评价的基本框架。王金花［4］系统介绍了德国政府科技计划的评估制度。蔡志刚等［5］将我国科技计划评估的现状与国外做法进行比较，提出科技计划评价的“一二五”模式等。上述研究反映了我国评价人员在公共研发计划评价方面的探索和思考，但相比于项目层面的评价研究，计划层面的评价研究仍属少数，现有研究以综述国内外做法以及提出思路框架为主，对评价的理论基础和方法论涉及较少，对评价实践的指导功能有限。本研究基于国际公认的评估理论树模型，围绕“应用（Use）、方法（Method）、估值（Valuing）”三个评估核心方向，提出公共研发计划评价的三角模型。研究收集美国、欧盟等国家与地区的十余个代表性研发计划案例（案例涉及美国国家科学基金会、国立卫生研究院、能源部、国家标准技术研究院的计划评价实践；也包括欧盟框架计划、澳大利亚商业化计划、德国联邦教研部国家生物经济研究战略等典型研发计划的评价实践），对三角模型进一步丰富和验证。在分析借鉴国外案例基础上，提出公共研发计划评价的一套方法论（包括31个评价问题、10种评价方法以及典型的评价证据），以期为我国运用评价模型及国外评价经验支撑公共研发计划评价，改进科技评价体系提供参考。

1 基于评估理论树的三角评价模型

1.1 概述

阿尔金评估理论树是美国理论学家马芬·C阿尔金（Marvin·C Alkin）提出，并在西方评估界得到认可的评估基本理论之一。该理论将评估理论及其代表性学者进行了树状分类，提出评估的根基包括社会责任（Social Accountability）、社会调查（Social Inquiry）和认识论（Epistemology），评估的研究和实践围绕三个分支发展，分别是应用（Use）、方法（Methods）、估值（Valuing）［6］（图1）。应用分支主要关注评估信息的应用、应用对象和支撑决策。方法分支的研究者以评估方法作为研究对象，关注如何更好地获取信息和知识。估值分支确立了评估人员在评估中的重要作用，关注如何运用评估获得的证据对评估对象进行价值判断。

图1 阿尔金评估理论树［6］Fig.1 Alkin Evaluation Theory Tree［6］

本研究从评估理论树出发，提出包含评价问题、评价方法、评价证据三元素的三角模型（图2）。三角模型与评估理论树的关系可以概述为：1）评价问题是从应用分支出发，连接决策者、评估者和评估对象的桥梁，提出并回答适宜的评价问题有助于评估活动的聚焦和结果应用。2）评价方法是从方法分支出发，探索公共研发计划评价的多元化方法，以提供更好的评价信息和数据。3）评价证据是从估值分支出发，探索如何对评估获得的数据、观点等信息进行加工和分析，形成证据，用于对评估对象的价值判断。基于对国外公共研发计划的案例研究认为，在公共研发计划的评价实践中，评价问题、评价方法和评价证据三个要素是完成一项高质量评价工作的关键，也验证了评估理论树的核心要义。三角模型基于公共研发计划评价的理论根基和实证经验，对评价实践工作具有指导意义。

图2 问题—方法—证据三角评价模型Fig.2 Question-Method-Evidence Triangle Evaluation Model

1.2 评价问题

评价问题是针对评价目标提出、需要通过评价回答的问题，也是对评价目标的细化和落实。评价问题包括描述性问题，对标性问题以及影响问题［7］。描述性问题是关于计划是什么（What）、为什么（Why）、谁（Who）、过程（How）、多少（How many）等的问题。例如计划总共投入了多少经费，计划如何管理，计划资助下发表多少论文等。对标性问题是关于回答标准、目标、指标的实现情况的问题。例如计划的满意程度是否达到了85%的目标，计划的经费执行率是否达到100%等。影响问题是关于计划效果归因的问题，需要解释因果关系，例如计划开发的新型发动机对能效提升是否发挥了作用，计划实施是否提升了该领域的竞争力。

在我国的评价实践中，比较常用的是评价指标，而国外的计划评价则使用评价问题居多。评价问题与评价指标存在一定的联系，可以结合使用。评价问题一般较为宏观，可以下设层级不等（一般1～3级）、数量不等的评价指标，评价指标则更为具体。二者也存在一定差异，评价问题以提问的形式更加聚焦评价的目的，可以为评价对象量身定制评价问题。评价指标由于标准化和归一化程度更好，更加适用于需要打分、排序、择优的评价场景，支撑大规模评价工作的开展，如一组项目、机构的评价。分析认为，公共研发计划评价的目的通常是为了支撑计划改进，评价的定制化程度较高，与其他计划进行比较和排序的可能性较低，因此在公共研发计划的评价中使用关键评价问题较为适宜。

1.3 评价方法

目前学界对于科技评价方法的分类和认识存在不同标准。结合相关文献的分类［8，9］，除了以定性方法和定量方法的标准区分以外，还可以将其分为科技评价方法（Method）和信息采集工具（Information Collection Tool）。科技评价方法是偏向于指导整个评价活动开展及评价结论形成的方法，如指数法、同行评议、成本效益分析法、随机对照试验、网络分析法、技术预测法等。信息采集工具主要包括数据统计、文献计量、问卷调查、面访、案例研究等。实践当中科技评价方法与信息采集工具既存在边界，又有所交叉，经常统称为评价方法。

每一种评价方法都有其优势与局限性，根据其应用的条件，用于回答不同的评价问题。例如同行评议方法成本相对较低，但是主观性较强；文献计量方法在评价研究产出方面具有优势，但是单独使用该方法容易造成评价结论的片面性。正是由于每种方法都有其局限性，越来越多的评价倡导多种方法的综合使用和互相印证，以提升客观性。评价方法的选取决策需要综合考虑多种因素，包括评价要回答的问题、可用的数据、成本、时间、技术难度、公开程度等，评价活动的技术难度和协调难度随评价方法种类的增加而增加。

1.4 评价证据

评价证据是采用一种或多种评价方法，获得的观点、数据、事实等用于回答评价问题的“信息”。实际操作中，评价人员往往面对大量的计划数据等信息，如何有效地利用这些信息来回答评价问题，并得出评价结论是评价人员面临的一项挑战。评价证据与评价中搜集到的信息内涵不完全一致，研究认为评价证据具有四个特点。首先，证据具有针对性，是针对评价问题，回答评价问题的专属信息，尤其对于精准的评价问题，需要证据来回答“是”“否”或者“程度”。其次，证据是通过严格的方法设计得到的信息，而不是随意搜集、不加处理的信息，证据往往是经过加工的信息，具有科学性和严谨性。第三，证据具有坐标系特征，不是单纯的数字或者信息，而是带有解释性的一组信息，例如距离、比例、时间轴变化、结构变化等，能够揭示程度、趋势和变化等。第四，证据需要交叉印证并加以辨析。评价证据是从不同渠道获得的信息，具有多维性。证据在使用时需要予以辨析并综合使用，对评价对象做出接近真实情况的判断。

2 关键评价问题与评价方法矩阵

评价问题与评价方法往往具有对应性，例如回答公共研发计划的影响，经济学分析是最佳方法，如果加上随机对照试验和案例研究等可以更好地对影响进行评价。再例如判断计划是否实现了目标，运用专家同行评议较好，技术预测、文献计量方法也可以辅助回答问题。数据的完备性对评价方法使用至关重要，例如经济学分析高度依赖经济收入、销售、成本等商业数据，有时评价要开展有无对比和前后对比，如果缺少历史基线数据，评价则难以开展。历史回溯方法、网络分析、调查研究等成本较高，所需时间较长；同行评议、文献计量、指标框架法的成本较低，所需时间较短。2002年，芬兰技术创新局曾在美国组织召开一次国际会议，将公共研发计划评价的方法与实践作为主题，交流研讨了美国国家科学基金会、国立卫生研究院、能源部科学办公室、能源部能效与可再生能源办公室、国家标准与技术研究院、加拿大国家研究理事会、以色列创新局、芬兰技术创新局等资助机构在政府研发计划评估中使用的方法［7］。美国能源部于2007年开展研究总结了其资助研发计划的系列评价问题与方法［7］。本研究在上述基础上，补充欧盟框架计划、美国纳米技术计划、美国制造业计划等近年来国际上具有代表性的研发计划评估案例，进一步归纳和完善了相关评价问题和方法（表1）。公共研发计划的共性评价问题贯穿计划设立、计划过程、计划产出、计划成效和计划影响五个阶段，研究对象不仅指向科学研究，也覆盖了技术开发与应用，共包括31个问题（及若干子问题），每个评价问题对应适宜的评价方法。表2则探讨了每种方法的评价焦点。

表1 国外公共研发计划共性评价问题及对应评价方法Tab.1 Common Evaluation Questions of Foreign Public R&D Programs and Corresponding Evaluation Methods

表2 公共研发计划评价方法的适用范围和评价焦点Tab.2 The Application and Focus of Public R&D Program Evaluation Methods

（续表1）

3 评价方法与证据示例

以下结合国外公共研发计划评价的若干实践案例，阐述上述评价方法在实际操作中的优势与不足，以及在使用中需注意的事项，并列举典型的评价证据。

3.1 同行评议

同行评议或专家评议适合于评价计划（项目）的相关性和产出质量，能够为委托者提供有关资助、延续、终止等决策建议，是科技评价中广为使用的一种定性方法，成本较低，但是客观性不足，专家的选取对评价结论影响较大。一般情况下，专家根据评价人员设计的指标对评价对象进行打分，给出支持与否（或完成与否）的建议。同行专家如何选取，专家所回答的问题以及专家意见如何应用都需要精心设计。同行评议方法针对微观评价对象，如科技成果、科技项目、技术路线等具有优势；但对于宏观评价，如研发计划的评价则存在一定局限性。在公共研发计划中使用同行评议方法，往往利用同行专家的知识和经验对计划设立的必要性、过程进展、产出情况等局部问题进行判断，但需要辅助其他工具如文献计量方法予以判断，应避免专家意见的泛化应用造成计划评价结论的支撑证据不足。

3.2 监测评价指标

对于庞大的评价对象，如大型项目、计划、规划等，设计绩效监测与评价指标框架是常见的做法。绩效指标通常是定量指标，包括阶段性目标值和最终目标值，绩效指标可以涵盖投入、活动、产出、成效的不同层面。采用绩效监测和评价指标的优势是有利于提高评价效率，减少人力成本，易于说明和展示绩效。应用监测评价指标也可以实现某一类计划、项目等对象的比较分析，但是需平衡好定量指标和定性证据的关系，过度关注监测评价指标，可能忽略掉显示“影响”和“过程”的定性证据。此外，套用监测评价指标也容易产生个性化评价不足的缺点。

美国国立卫生研究院采用的计划绩效监测系统（Program Performance Monitoring System，PPMS），涵盖年度计划、绩效、管理信息、绩效目标、进展和预算信息，也包括每个项目的绩效信息，可以实现对领域、进度、目标实现程度等信息的检索，对项目风险的预报以及检索结果的可视化［10］。美国能源部Joule计划的绩效跟踪系统（Joule Program Performance Tracking System），用于跟踪计划目标以及重要进展，跟踪结果向国家预算管理局和国会报告。跟踪指标围绕项目或项目群设置，包括年度产出、中期成效等，该系统对项目或者项目群进行评级，绿色代表100%完成目标，黄色代表80%～99%完成目标，红色代表未完成或者完成80%以下目标。能源部的计划须定期提供相关指标数据，能源部的独立办公室对计划的进展情况进行监测。表3是美国能源部能效和可再生能源办公室（Office of Energy Efficiency and Renewable Energy）组织实施的太阳能计划光伏研发项目监测结果［7］。

表3 美国能源部太阳能光伏能源研究的绩效指标［7］Tab.3 Performance Indicators for the U.S.Department of Energy Solar Photovoltaic Energy Research［7］

3.3 文献计量

文献计量方法是典型的科技评价方法。文献计量方法对于评价计划和项目的产出十分方便，且具有可比性，但是难以说明计划的成效和影响。文献计量方法也有多种应用的策略，在一般情况下可以统计计划、项目的论文和专利产出数量，复杂的文献计量（又称战略性文献计量）方法通过分析论文的引用情况、专利树等来评价计划的溢出效应、区域影响、合作关系等。例如，美国标准技术研究院对先进技术计划（Advanced Technology Program，ATP计划）专利树分析显示，ATP计划资助钻石半导体集团项目产生的两个专利得到了多代专利的广泛引用，证明了ATP计划在知识产生和扩散方面的效果［11］。加拿大社会科学与人文研究理事会完成的加拿大卓越研究领军人才计划和加拿大150研究领军人才计划评估［12］，运用文献计量指标比较了150计划成功申报者与其他同类计划研究人员的出版物相关指标，发现计划成功申报者无论从出版物数量、引用频次或是高被引出版物方面的表现均优于同类计划的研究人员，说明计划成功吸引到了更高水平的研究人员，见表4所示。

表4 加拿大C150计划成功申报者和CRC计划领军人才资助前科学绩效1）［12］Tab.4 Scientific Performance of Successful C150 Applicants and Matched Foreign and Canadian CRC Chairholders Pre-Award1）［12］

3.4 案例研究

根据罗伯特·K·殷（Robert·K·Yin）的分类，案例主要包括描述性案例、解释性案例和探索性案例。案例研究的成本较高，但是对于计划的过程、效果和影响等具有较好的例证作用，能够弥补定量研究的缺陷。例如，ATP计划评价中利用案例来描述公共资助项目的效果。具体做法是，在ATP资助项目完工后4年开展案例研究，每个案例提交4～5页的报告，讲述技术的发展、ATP的角色、技术和商业上的成就以及未来的展望。根据美国标准技术研究院网站信息显示，ATP计划从多个角度完成了上百个案例研究，还曾将案例研究结果出版成册［11］，为科技评价中开展案例研究提供了经典范例。

3.5 调查

调查包括问卷调查、统计调查、访谈等，可以获取被调查者的观点、绩效、事实等信息。调查方法的成本较低，便于开展大样本的信息搜集，覆盖面较广，证据也具有较高的说服力，缺点是回复率可能较低，而且有时无法进行面对面的沟通，难以深入了解相关信息。美国国家科学院对小型商业创新研究计划（Small Business Innovation Research Program）支持研发项目产生的专利、版权、商标、论文情况进行调查统计［13］。德国国家生物经济研究战略2030评估中针对被资助者和专家开展在线调查，了解项目资助对他们产生的影响以及对生物经济发展的建议；对专家开展16场深入访谈，了解专家对国际比较结果以及资助措施的看法［4］。ATP计划也对被资助者进行调查，了解如果没有计划资助，项目受影响的程度（表5）［11］。

表5 ATP计划对反事实问题的调查问卷回复结果［11］Tab.5 Results of ATP Program Questionnaire Responses to Counter-Factual Questions［11］

3.6 网络分析

网络分析方法是以一种量化的方式研究社会关系的结构。在研发计划评价中，合作网络图谱可以揭示合作网络的复杂程度、中心度、历史变化、合作集群、合作区域、溢出效应等信息。例如欧盟框架计划有关网络关系的研究［14］显示：计划参与者中合作最频繁的机构包括中国科学院、德国弗朗霍夫学会、意大利国家研究委员会（Consiglio Nazionale Delle Ricerche，CNR）和欧洲联合研究中心（European Joint Research Center，JRC）。在机构间合作强度方面，中国科学院和德国弗朗霍夫学会合作紧密，西班牙国家研究委员会（Consejo Superior de Investigaciones Científicas，CSIC）以及JRC与中国科学院也有较为密切的关系（图3）。德勤公司为美国制造业计划开展的第三方评估中对该计划促进政府、产业界、学界合作的状况进行了全面分析，并使用可视化网络予以呈现。评估显示，计划为机构提供了灵活的机会，机构可根据其需求参与一个或多个研究所。约1200家机构，包括公司、政府机构、非政府组织以及学术机构等受益于计划建立的网络，计划建立起9424项机构间合作关系［15］。

图3 欧盟框架计划参与机构合作网络图［14］Fig.3 Map of the Cooperation Network of Participating Institutions in the EU Framework Programme［14］

3.7 对标分析

对标分析法将计划的主要参数与国内外同类计划进行比较，为评价提供了更广阔的视野。该方法的优点是通过比较能够得到其他方法无法获得的证据，缺点是难以找到合适的对标对象，而不同对象的特征差异使得对标分析存在不准确性，因此对标分析的适用性有限。对标分析通常在某一领域进行，以论文、专利等基于全球数据库的指标为标准。美国总统科技咨询委员会（President's Council of Advisors on Science and Technology，PCAST）对美国纳米技术计划的评价中多次用对标方法揭示美国纳米科技在全球的地位。例如，2010年评价中发现，美国在纳米科技领域论文等各项指标上保持全球领先地位，中国、韩国和欧盟对美国领先地位形成挑战［16］。2020年，美国国家科学、工程和医学院对纳米计划的评估特别指出欧洲微电子研究中心、日本筑波科学城以及中国苏州纳米城在纳米科技商业化方面效果较美国更为突出［17］。德国生物经济研究战略2030评估中，将法国、荷兰、瑞典、美国和日本五国的生物经济战略与德国进行比较支撑评估结论［4］。

3.8 经济学分析

经济学分析包括成本—效益分析、计量经济学分析以及经济模型分析等，也有研究将成本—效益分析单独作为一类方法提出。国外研发计划评价的实践显示，经济学分析实质上是一项研究活动，研究人员针对公共研发计划，利用经济学方法开展了很多探索性研究。例如美国国家研究理事会开发的收益—成本矩阵（Benefit-Cost Matrix）对39个能源计划进行回溯分析，包括22个化石能源计划和17个能效计划。研究结果显示，联邦政府在应用能源研发投入方面的总体收益超过了同期的支出［18］，表6显示了先进冰箱制冷压缩机计划的收益—成本矩阵。计量经济学方法则通过对技术的净现值、内部收益率等参数进行测算来估算计划带来的经济效益。ATP计划曾运用生产函数衡量研究机构得到政府资助对其生产率的影响，其中将专利数据作为生产率的指标。经济学模型研究发现，参与ATP计划资助的机构，其得到资助与研究产出的关系是正相关的［19］。

表6 美国能源部先进冰箱制冷压缩机计划收益/成本矩阵［18］Tab.6 U.S.Department of Energy Advanced Refrigerator Refrigeration Compressor Program Benefit-Cost Matrix［18］

3.9 溢出效应分析

溢出效应是指新的产品、技术、服务带来的更加广泛的正面或者负面、经济上的或者非经济上的效益，包括知识溢出效应、市场溢出效应和网络溢出效应等。溢出效应可以回答计划长期的、广泛的影响问题，在分析方法上可能与经济学方法、统计学方法、网络分析方法等有所交叉。例如在ATP计划评价中，评价人员对微电子制造系统和光学记录两种新技术的研究网络图谱进行了研究［20］，发现美国和日本是微电子制造系统溢出效应的主要来源和接受者；旧金山、洛杉矶和波士顿地区是微电子制造系统在美国的主要来源和接受者，技术扩散主要的推动者是麻省理工学院。再如，一个典型的市场溢出效应案例是ATP计划资助的非晶硅探测器低成本制造技术。该技术研发项目是由ATP计划于1995年资助的。新技术在2004年引进后，降低了25%的制造成本，在每年330万例乳腺检查和680万例胸部X射线检查中，ATP计划每投入1美元，就会收到125～193美元的社会收益。社会收益包括提高诊疗率、避免不必要的医疗程序、提高乳腺癌的诊断率、降低病人的辐射，以及减少诊疗时间等［21］。澳大利亚工业、创新与科学部首席经济学家办公室对澳大利亚商业化计划的影响进行评估［22］。该计划支持研究者和中小企业将想法转化为成功的商业项目。评估采用逆向倾向加权（Inverse Propensity Weighting）方法，通过构建对照组来分析参与计划引起企业营业额、研发支出、知识产权等参数的变化，发现参与计划的企业具有更高的研发资金投入、更高的营业额增长，在出口、专利和商标申请等活动中也更为活跃。

3.10 历史回溯

美国国防部和国家科学基金会是在科技评价中运用历史追溯方法的代表。20世纪60年代美国国防部开展了“研究项目的事后认识项目”（Project Hindsight），重点选择了20个国防部支持的主要武器系统，追溯了每个系统20年来的技术发展，并找出每一个技术实现过程中关键的基础性科学研究成果［23］。美国国家科学基金会运用历史追溯法衡量在6项技术创新工程中基金会的作用和影响，这6项代表性创新分别是互联网、核磁共振成像、反应注塑成形、计算机辅助制图、电信光纤以及模拟手机技术。评价中成立了一个技术小组，来确定6项代表性创新，并分析每项创新的核心技术，然后通过数据检索、面访、讨论等方式确定在这一技术领域发挥作用的公司、实验室、联邦机构、大学以及其他机构，进而对他们开展深入面访，了解技术发展的历史以及基金会的角色。评价发现，基金会在6个创新领域的作用不一，在互联网和计算机辅助制图创新中的作用等级为“高”，在核磁共振成像、反应注塑成形、电信光纤技术中的作用为“中等”，在模拟手机技术中的作用为“低”。总体上，基金会在教育、知识、设施、机构领导力、促进交流和互动方面为创新发挥了作用［24］。

4 结论与启示

4.1 三角评价模型为我国提升公共研发计划评价水平提供参考

首先，三角模型对我国科技评价的理论研究是一种探索。从国际公认的评估理论树模型出发，三角评价模型在探索我国公共研发计划评价的方法论方面向前迈出了一步，以期使我国的公共研发计划评价在理论指导下更好地开展。基于三角模型开展评估实践对于提升我国公共研发计划评价的规范性、科学性具有指导意义，此外也为我国评估人员开展国际交流合作，在国际评估界发声提供了一种理念上的引导和沟通的语言，有助于我国更好地融入国际评估界。

其次，提出精准的评价问题是高水平评价的第一步。长期以来，我国的科技评价活动善于使用评价标准和指标，而国外的评价活动则习惯使用评价问题。研究认为，评价问题可以更好地发挥描述、解释以及归因的优势，评价指标往往是一组抽象的目标点，适合反映计划的状态。对于计划评价这类宏观评价而言，应兼具描述、解释、对标等功能，因此可考虑将评价问题更多引入评价方案，将评价问题和指标结合使用，更好地发挥评价的功能。提出精准的评价问题，有助于选择合适的评价方法。如果评价问题过于笼统（如计划产生了哪些效果？），评价方法的选择将缺少导向，评价证据的指向性较差，评价容易流于总结形式。通过前期研究和沟通，提出精准的评价问题是评价方法选择和证据获取的基础，也是对评价人员的考验。由于计划评价的阶段性和评价需求差异，在单次的计划评价中，可以参考31个关键问题中的部分问题予以回答。

第三，公共研发计划的评价应突出多元化方法特征。回答每个关键问题，基本都可以综合多种方法。其中调查、文献计量、同行评议、指标框架等方法的使用较多，而经济学方法、溢出效应分析等方法的应用较少，主要针对面向产业和商业化的研发计划。有些方法适用于前评价，有些适用于过程评价，有些适用于后评价和影响评价。多元化评价方法并用是科技评价的趋势之一，综合评价有利于避免单一方法的缺点，提高评价的客观性和公正性。随着大数据等新方法、新工具的出现，将有更多评价方法供选择。评价方法的选择以及评价证据的采用等需要根据评价对象的特点以及评价的成本、可操作性等因素来决定，这也是评价人员面临的一项挑战。

第四，三角评价模型的局限性需要从理论和实践两方面进行完善。三角评价模型尝试从评估理论树的基点出发，架构起评估理论和评估实践之间的桥梁，但存在理论深度不足和实践普遍性不足的局限性。一方面，三角评价模型所扎根的评估理论流派是实证主义，对于建构主义评估理论与三角模型的关系尚未进行探讨。实证主义理论所支撑的第一代评估（测量）、第二代评估（描述）、第三代评估（判断）与三角模型的关系也未展开研究。另一方面，基于国外计划评估案例所归纳的共性问题和方法并非完全适用于我国研发计划，一些新的方式方法也可能超出经验归纳的范畴之外。因此，三角评价模型在评估理论与实践之间的架构还需要更多工作来深化和改进。

4.2 三角评价模型为“三评”改革及破“四唯”行动提供思路与方法

2018年，中共中央办公厅、国务院办公厅印发了《关于深化项目评审、人才评价、机构评估改革的意见》，将优化科研项目评审管理机制、改进科技人才评价方式、完善科研机构评估制度作为推进科技评价制度改革的重要举措。2018年10月，科技部、教育部等部门开展关于清理“唯论文、唯职称、唯学历、唯奖项”的专项行动。2020年2月，教育部、科技部联合发布《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》，科技部会同财政部发布《关于破除科技评价中“唯论文”不良导向的若干措施（试行）》。三角评价模型对改革文件中聚焦的评价方式方法问题可以提供一些参考。评价问题—方法—证据的三角模型不仅适用于公共研发计划评价，也可应用于其他公共或准公共评价活动，如科研机构评价、项目评价、政策评价等。三角模型强调针对评价对象的特征、评价的阶段属性和需求提出评价问题，根据所需回答的问题灵活应用各种方法，通过证据来支撑评价结论。本研究也显示出评价的“系统化”“多元化”特征，若能综合运用多种方法、以证据为基础对评价对象进行价值判断，“唯论文、唯职称”等贴标签的做法则不攻自破。科技评价改革中的“立”也宜围绕方法、证据和规则来设计，而非树立新的指标。

4.3 中外公共研发计划评价的差异对我国改进科技评价体系提供启发

我国公共研发计划评价的公开资料较少，因此以国外研发计划的评价资料为基础进行研究。本文归纳了国外公共研发计划评价中一些共性的评价问题、评价方法和代表性工作。分析认为，国内外研发计划评价具有不少共性特征，如关注计划的相关性、知识产出、管理运行等。但国外研发计划也具有的一些特点，例如对产品和技术的商业化程度以及应用实效的关注和评价。我国的研发计划评价比较重视计划的设立、产出和中间效果，对于计划的效率、影响、归因评价较少涉及。这也可以解释为何我国科技计划评价中同行评议、调查、文献计量等传统方法使用较多，经济学方法、溢出效应分析、历史回溯等方法使用较少，这与评价问题的选择直接相关。中外公共研发计划评价活动的差异一方面与中外研发计划的功能定位、组织实施机制差异有关；另一方面也与中外在评价的整体能力、计划管理基础、计划评价的规模化实践程度差异有关。

4.4 把握好评价的基本要素是应对科技评价机遇与挑战的重要原则

本文介绍的国外公共研发计划评价方法与案例是基于国外过去几十年的研究和实践积累。当前，科学技术正在经历飞速的变化，以信息技术为代表的新一轮科技革命将深刻影响科学技术发展的格局和范式，公共研发计划的资助对象、资助模式等也将随之变化（例如美国纳米技术计划采用的跨部门协调资助与管理模式）。这些变化趋势都将对新时期的科技评价工作产生影响，传统的科技评价方法如何适应新时期的科学技术活动是科技评价人员面临的新挑战。随着全社会科技投入的不断增加以及科技活动日益复杂，监测指标的运用将更加广泛，监测与评价的关系也将更为紧密；基于大数据的分析和调查将显示出评价优势；社会网络分析、经济学分析等研究科学技术广泛影响的方法将受到更多重视；人工智能、区块链等新兴技术有助于推动评价方式的变革。科技评价面临前所未有的机遇与挑战，掌握好评价问题、方法和证据三项关键要素将有助于评价人员遵循评价规律，应对机遇与挑战。

公共研发计划三角评价模型研究*——基于发达国家/地区评价案例分析