如何开展科研元评价：来自英澳的启示

2022-10-14 05:49:36杨佳乐

科技管理研究 2022年17期

杨佳乐

（中国社会科学评价研究院，北京 100732）

如何评价高等教育机构科研绩效是一个全球性难题。不同国家结合各自科研体系特征开展科研评价，如英国的科研卓越框架（Research Excellence Framework,REF）、澳大利亚的卓越科研（Excellence in Research for Australia,ERA）和参与和影响评价（Engagement and Impact Assessment,EI）等。英国对高等教育机构进行科研评价可追溯至20 世纪80年代，经过不断调试完善，2014 年启动首轮REF，2021 年最新一轮REF 落下帷幕。21 世纪初澳大利亚也宣布面向本国高等教育机构实行科研评价。2009 年试行ERA，目前已完成2010、2012、2015、2018 和2021 五轮评估工作，下一轮预计将于2023年进行。2018 年EI 和ERA 共同推出，旨在评价科研人员与行业、政府、社区等科研最终用户的互动，以及大学如何将研究成果转化为经济、社会、环境、文化或其他影响。EI 要求参评大学提供影响案例，由评估组专家对影响力（即科研成果带来的各种影响）和影响方式（即大学将科研成果转化为影响力的方式）作出高中低三档评级。每轮评估结束后两国都会对科研评价本身进行再评价（即科研元评价），以保证新一轮科研评价能够不断适应科研新发展环境与新组织模式，及时回应高等教育部门、政府和社会公众等利益相关者诉求，可以说科研元评价是英澳科研评价体系保持与时俱进的重要治理机制。

在中国，高等教育机构科研评价也日益成为政府关注、学界关心和社会关切的焦点问题，“双一流”建设成效评价、学科评估、学位点评估等均涉及科研评价，并尝试构建具有中国特色、世界水平的科研评价体系。围绕他国历次科研评价的组织实施［1］、指标体系［2-3］、评价流程［4］、评价方法［5-6］、演变逻辑等［7］，国内已有诸多文献予以介绍，为优化我国科研评价实践提供了宝贵经验参考，但对于科研元评价却鲜有涉及。科研元评价作为一种治理手段，发挥着监测科研评价目标达成、完善科研评价方案制定、发现科研评价执行偏差、优化科研评价实施方式、改进科研评价结果使用等重要功能，是构建高质量评价体系，实现以评促建的必要一环，不过目前我国尚未建立完善的科研元评价制度。而英澳两国开展的科研元评价对我国具有借鉴意义：从时间上看，英国和澳大利亚于2020 年正式启动最新一轮科研元评价，能够体现两国科研元评价的最新动向；从内容上看，英澳两国已在跨学科评价、非学术影响评价等热点难点问题上作出先期探索，其科研元评价中总结的经验以及风险点可以为他国建立健全科研元评价制度贡献行动指南和风险前瞻。因此本研究将采取平视视角，在总结英国和澳大利亚科研元评价成功经验的同时也客观呈现其不足之处，继而提出我国开展科研元评价的可行之策。

1 分析框架

元评价最早是由Scriven［8］在20 世纪60 年代末评估教育产出时创造的术语，意指评价的评价。Stufflebeam［9］将元评价定义为描述一项评价活动，并对其是否为一项好评价进行价值判断的过程。他提出元评价的8 个假设：（1）评价是对价值的判断，因此元评价就是对评价活动的价值判断；（2）评价服务于决策和问责，因此元评价既要提供服务于评价活动的前瞻性决策信息，也要提供服务于评价活动问责的回溯性信息；（3）评价应对目标、设计、执行和结果做出判断，因此元评价应该对评价目标的重要性、评价设计的适当性、评价执行的充分性和评价结果的质量作出判断；（4）评价应提供描述信息、评判信息和适当建议，因此元评价应描述和评判评价活动，并就如何改进评价与合理利用评价结果提出建议；（5）评价应服务于全部评价对象，因此元评价应服务于全部评价者及对评价活动感兴趣者；（6）评价通常（但不总是）由局内人进行形成性评价，由局外人进行总结性评价，因此元评价应由评价者进行形成性元评价，同时接受来自外部的总结性元评价；（7）评价过程包括描述问题、收集和分析数据、使用数据来决策和问责，元评价过程也应遵循上述步骤；（8）评价必须满足技术可行性、有用性和有效性，元评价必须满足相同标准。从类型看，元评价分为总结性元评价（summative meta evaluation）和形成性元评价（formative meta evaluation），前者关注评价绩效对评价标准的完成度；后者则侧重考察评价方案设计以及评价实施流程情况，并通过提供持续反馈不断优化评价实践［10］，已成为保障评价质量的重要手段［11］。

元评价滥觞于美国教育评价领域，后逐步扩散至其他领域。我国在20 世纪90 年代即有学者探讨教育元评价的原则与应用［12］，学术元评价［13］、学科元评价和科研元评价也纷至沓来［14-16］。开展元评价需要明确谁来评价、评价什么、如何评价以及怎样使用评价结果4 个关键问题，因而本研究围绕主体维、内容维、方法维和结果维4 个维度构建科研元评价分析框架。其中，内容维参考弗兰克·费希尔［17］提出的公共政策评估综合框架，根据实证评估与规范评估相统一原则，不仅从操作层面评估科研评价制度的执行情况，而且注重对科研评价制度进行价值判断。该框架涵盖两个层面，第一个层面评价政策结果和出现这些结果的情景，弗兰克·费希尔［17］将之概括为专业验证和情景确认两部分内容。专业验证多通过实证量化手段重点评价政策是否完成既定目标，以及还带来哪些未曾预料的后果；情境确认则通过访谈、现场观察和案例研究等方法确认政策目标之外的情况。第二个层面转换到更大的社会系统之中,评价政策对社会系统的影响,以及社会秩序背后的价值判断，可概括为社会论证和社会选择。社会论证借助社会系统分析或结构功能分析考察政策目标对社会整体的贡献和价值，以及所导致的意想不到的社会后果；社会选择则使用构建理想型、哲学思辨、逻辑推理等方法评价维持社会秩序的意识形态是否为公平合理地解决价值冲突奠定基础（见图1）。

图1 科研元评价分析框架

本研究基于英澳两国发布的《理解英国科研人员对REF 的看法：REF 实时评估》（Understanding Perceptions of the Research Excellence Framework Among UK Researchers: The Real-Time REF Review）、《对澳大利亚研究理事会2018 年EI 中影响力部分的评估：发现和观察》（An Evaluation of the Impact component of the Australian Research Council's 2018 Engagement and Impact Assessment:Findings and Observations)、《2020 年ERA 和EI 评估咨询报告》（ERA EI Review Consultation Paper 2020）等科研元评价报告，遵循“主体—内容—方法—结果”四维框架剖析英国和澳大利亚科研元评价经验启示，同时也对他国经验的适用性予以必要反思。

2 英澳科研元评价

2.1 元评价主体

英国REF 元评价分为预评价和正式评价两个阶段。预评价在谢菲尔德大学、卡迪夫大学、苏塞克斯大学和林肯大学4所大学中进行评价可行性试点，正式评价委托第三方兰德公司以及卡迪夫大学和谢菲尔德大学共同实施，兰德公司属于第三方评估机构，卡迪夫大学和谢菲尔德大学因其参与过预评估，已经积累了一定经验，所以可以一定程度保证科研元评价的顺利进行。

澳大利亚委托第三方专家咨询委员会对ERA 和EI 实施元评价。该咨询委员会成员由四方面专家组成。一是政府部门专家，包括：澳大利亚联邦科学与工业研究组织战略主管，教育、技能和就业部高等教育处一等助理秘书，国家卫生和医学研究理事会首席执行官，澳大利亚国际农业研究中心专员，工业、科学、能源和资源部科学和商业化政策司司长等；二是大学及其他组织专家，大学中人文与社会科学、自然科学领域专家均有涉及，并且特别邀请高等教育领域以及本土研究领域（针对澳大利亚原住民和托雷斯海峡岛民的系列研究）专家参与评价，其他组织专家包括澳大利亚国家博物馆主管以及工业集团首席执行官；三是澳大利亚首席科学家；四是科研评价专家，如高等教育标准专家组主席等。

除组建专家咨询委员会外，ERA 和EI 元评价还设有公开咨询、专家工作组咨询和利益相关者咨询环节，就具体问题向专家咨询委员会提供意见建议。公开咨询的反馈意见来自大学、科研人员个人、学会和引文数据供应商。3 个专家工作组分别就ERA评估方法、参与叙述和本土研究提供专业意见。ERA 评估方法工作组由2018 年ERA 8 个科研评估委员会主席组成，职责是回应各界对于科研评估学科差异的顾虑，确保新一轮科研评估能够符合人文和社会科学，以及STEM 学科各自特点。参与叙述工作组成员来自2018 年EI 评估专家组，职责是就如何评价科研参与、EI 定义等核心问题提供建议。本土研究工作组由从事原住民研究或具有相关文化背景的人员构成，职责是保证科研评价能够兼顾本土研究。其他利益相关者咨询针对的问题更加聚焦，集中解决如何评价科研影响力、如何提高科研评价结果的使用价值、其他科研体系评价参与和影响的经验借鉴，以及数据收集方式、评价基准和等级设定等技术细节。

2.2 元评价内容

借鉴弗兰克·费希尔的公共政策评估综合框架，REF、ERA 和EI 元评价可归纳为项目验证、情景确认、社会论证和社会选择四部分内容，各项评价的内容分布见表1。

表1 英澳科研元评价内容分布情况

（1）项目验证。英国REF 元评价通过问卷调查评估科研人员视角下REF2021 的目标达成情况，以及REF 对所属科研共同体、英国科研人员群体和科研人员个人的积极或消极影响。题项设置为-3 至3 的7 级量表，-3 代表极大降低，0 代表没有影响，3 代表极大提高。鉴于本轮REF 受到新冠肺炎疫情冲击，问卷同时还考察新冠肺炎疫情对科研人员个人及所在机构的影响。为了解处于不同职业发展阶段科研人员对REF 的体验有何异同，REF 元评价问卷也调查了科研人员的职业发展情况，问题涵盖：获得最高学位的年份；是否正式参与REF；全职还是兼职；固定合同还是临时合同；所在机构名称；分配在科研活动上的时间占比；研究领域在REF 中的归属；是否处于职业生涯早期。

澳大利亚ERA 元评价调查问卷关注ERA 的目标达成情况、评价过程、评价指标、评价方法和评价影响。在评价过程方面，聚焦数据收集周期和收集方式的合理性，数据公开范围，评价等级设置，以及科研产出统计口径。在评价指标方面，考察科研产出数量、科研经费收入、科研成果转化等指标是否纳入下一轮评估。在评价方法方面，比较引文分析法和同行评议法各自的优劣势，评价不同方法的适用性、评价结果的稳健性和可比性，重点调查目前的评价方法是否能够满足ERA 的评价目标，以及如何改进评价方法，特别是如何用好先进技术和现有数据简化评价流程。EI 元评价共设计两套调查问卷：大学代表问卷和评估组成员问卷。前者面向大学高级主管、大学行政管理人员、青年科研人员和资深科研人员等群体，主要调查EI 的评价过程、评价方法与评价影响。评价过程模块询问影响力定义及范畴，案例提交要求、评价指南、案例模板、评价单元的合理性。评价方法模块询问以叙述方式呈现案例、影响评价时间范围设定的合理性。评价影响模块则涵盖对科研人员行为的影响与对组织文化的影响两个层面。后者围绕EI 评价目标达成情况，影响力和影响途径分级评价的合理性，案例提交要求的合理性，EI 评价的积极和消极影响，以及改进建议设计相应题项。

（2）情景确认。作为问卷调查的补充，英国REF 元评价还通过访谈形式深度了解科研人员的个性化情况，如对REF 的态度、REF2021 的准备情况、对REF2021 新变化的看法、REF 未来的改进方向等主观性、开放性题目，并且详细询问问卷调查中暴露出的典型问题，如REF 是否损害科研质量、参评机构是否采取策略性包装、填报评估数据是否带来负担、是否影响科研人员的心理健康等。

澳大利亚EI 元评价分别对评估组专家、大学代表、国际专家和澳大利亚科研理事会代表组织访谈，访谈内容均涉及对EI 的总结性评价，但在分项评价上各有侧重。面向评估组专家的访谈在评价方法上侧重询问目前方法的优缺点，对评估组角色、构成、规模、工作量、专业技能、学术视角和非学术视角各自价值等的看法；在评价过程上侧重询问对评级标准、影响案例模板、案例提交要求、案例指南、影响叙述方式、未来潜在可用于评价影响的技术与定量指标等的看法。面向大学代表的访谈侧重下述内容：机构识别和案例遴选、评估过程的合理性；对之后科研工作和与科研最终用户沟通的影响，以及这种影响是否存在学科差异；准备影响案例的时间、精力和经济成本；在此过程中科研人员、科研辅助人员、管理人员和校外人员各自的角色；在何种程度以及通过何种方式改变所在大学的行为；对科研人员个体乃至研究生的影响；未来改进建议。面向国际专家和澳大利亚科研理事会代表的访谈侧重询问分别评价参与和影响的合理性；影响力评价在方法和理论方面有何新进展。

（3）社会论证。EI 的目标之一即通过评估促进澳大利亚高等教育系统与更广泛的科研最终用户加强联系，并不断产出发挥积极社会、经济、环境和文化影响的科研成果。因此，考察EI 目标达成情况相当于观测科研评价对高等教育外部系统的影响。

（4）社会选择。REF 元评价通过设置调查问卷题项采集调研样本人口统计学信息，据此分析科研评价过程中是否存在年龄、性别、种族、婚姻、健康和家庭社会经济地位的歧视现象，从而实现科研元评价的价值判断。

2.3 元评价方法

REF 元评价采用混合方法，一方面面向科研人员开展线上问卷调查，预调查（146 份回复）与正式调查（2 934 份回复）共回收问卷3 080 份；另一方面面向机构领导、科研主管及科研人员组织一对一访谈和焦点小组访谈，共计访谈126 人。

EI 元评价于2017 开展预评估并向有关专家征求意见，正式评估也采用混合方法，合计访谈大学代表12 人，评估组成员15 人，来自英国、澳大利亚、欧盟和北美的国际专家8 人，澳大利亚科研理事会工作人员5 人。EI 共分为5 个评估组：社会科学组、创意艺术和人文组、科学与技术组、健康和生命科学组、原住民和托雷斯海峡岛民研究组。同时通过邮件向参与EI2018 的12 所大学代表、评估组成员发放调查问卷131 份，回收97 份。大学抽样综合考虑地理位置、院校定位和院校规模，从院校定位看，样本包括4 所G8 联盟高校 (Group of Eight)、澳大利亚技术联盟高校（Australian Technology Network）、创新研究高校（Innovative Research Universities）、区域大学联盟高校（Regional Universities Network）和其他高校各2 所。院校规模根据累积全时当量和向ERA 提交的科研产出比例判断，占比前50%属于大规模高校，占比51%～80%属于中等规模高校；占比后20%属于小规模高校。

由此可见，英国和澳大利亚的科研元评价方法仍以传统的问卷调查与利益相关者访谈为主，元评价方法的规范性、丰富性不足也形成若干潜在风险。首先，问卷设计上的缺陷致使调查数据质量并不高，只能满足简单的描述性统计需求，并不能支撑深入的数据挖掘需要，所得到的评价结论中因果关系是否真实可信，会不会存在样本选择偏误、反向因果、遗漏变量等内生性问题，凡此种种其实都要打上问号。其次，元评价方法的单一也严重制约了发现新颖评价结论的可能性。尽管已有学者尝试在元评价中使用文献计量［18］、模糊逻辑（fuzzy logic）等方法［19］，但英澳目前开展的科研元评价中并未涉及。

2.4 元评价结果及使用

（1）评价目标达成度。元评价的首要目的是考察科研评价对既定目标的达成度。REF、ERA 和EI元评价结果显示，两国科研评价较好达成促进卓越、辅助决策、展示质量和方便比较4 项目标。其一，由于严格评价科研质量，引导两国高等教育系统更加注重科研质量而非数量。其二，评价结果提供了关于高等教育系统科研活动的丰富信息，能够有力支撑大学、行业、政府和社区利益相关者决策。其三，特别是向政府和公众呈现本国高等教育系统科研质量的证据，为政府选择性分配科研经费以及公众投资科研提供问责依据。其四，树立科研绩效标杆，使得国际国内比较成为可能。

（2）评价影响。除既定目标外，元评价结果还表明科研评价会带来意料之外的影响。如大多数科研人员认为REF 虽然促进了科研繁荣，加强了科研活动的公共联系，并且增加了研究开放性，使得科研成果，研究方法或研究数据更广泛可得，但在跨学科研究方面，REF 的影响并不显著。同时被评价机构为最大化科研评价绩效会采取操纵教师招聘或包装科研影响力等策略，而这些策略行为还可能给科研诚信及科研倾向造成负面影响，特别是反映科研人员知识兴趣的自主性研究以及原创性研究比例有所降低，REF 损害科研自主权已然引起学界反思［20］。此外，大部分受访者认为REF 对其个人几乎没有影响［21］（见表2）。不过科研评价影响也存在院校与学科差异，研究型大学感受到的负面影响高于非研究型大学，艺术和人文学者感受到的负面影响高于自然科学学者。

表2 REF 对科研共同体及科研人员个体的影响

（3）评价不足及改进。透过元评价，英澳科研评价至少在3 个方面存在不足，亟待改进。第一，评价数据填报负担压力大。REF 等科研评价普遍要求参评机构填报数据，繁琐的填报流程可能干扰正常的学术工作［22］，尤其是在新冠肺炎疫情背景下，英澳大学普遍面临财政预算收紧以及国际学生减少的双重挑战，在此背景下特别需要减轻大学填报评估数据的负担。元评价中提出4 点改进建议。一是和已有填报数据合并。如使用Researchfish、教育、技能和就业部收集的高等教育科研数据合集（Higher Education Research Data Collection）和高等教育师资数据合集（Higher Education Staff Data Collection）以及其他既有科研数据。二是借助技术手段。有研究发现机器学习预测结果与REF 以同行评议为主的实际评价结果具有较高一致度，因而可以考虑引入机器学习等技术手段辅助评价［23］。三是管理高峰工作量。2018 年首轮EI 和ERA 同时进行导致科研评价高峰工作骤增，因而元评价建议ERA 和EI 继续作为单独项目以每3 年评估一次的频率运行，二者安排在连续的历年。四是删除不必要的评估指标。例如元评价发现在绝大多数情况下，ERA 中的科研应用指标并不影响评价单元的评价结果，因而这类指标可能由于不再具有评估价值而被取消，这类指标具体包括科研商业化收入、专利和注册设计等。对REF 的元评价也显示，产出、影响和环境3 个评价指标高度正相关，即使删除其中一个指标高等教育机构的排名也不会发生太大变化［24］。

科研评价等级设置不合理。目前ERA 采取五级评分，最高分5 分表示被评价对象的科研绩效突出，远高于世界标准；3 分表示符合世界标准，1 分表示远低于世界标准。但随着澳大利亚大学科研质量近年来的快速提高，2018 年ERA 评价结果显示，90%的大学科研绩效达到3 分及以上，致使ERA 无法有效区分高绩效组，这一现象被形象地称为“不断膨胀的舒芙蕾”（souffle keeps on rising）［25］。EI 三级评分的等级设置则存在无法精确区分两端大学科研表现的问题，因而元评价结果建议采用更细粒度的评级，同时提升评价基准。这就需要召集专家工作组与利益相关方合作，共同修订科研评价量表、引文和同行评议基准、世界标准的定义和适用性，以及相关评价指南。

参评资料收集方式易操纵。2018 年ERA 使用人口普查日期（census date）的方法确定科研人员及其产出的参评资格。在这种方法下，如果一所大学于ERA 评价支撑资料收集截止日期前聘用一名高水平科研人员，那么该科研人员即使在另一所大学取得科研产出也有资格参评，这就留有操纵ERA 的风险。因此，元评价认为根据附在科研成果上的大学来确定参评资格是一种更公平的评价方式。

3 启示与反思

3.1 元评价主体：学术同行与最终用户相结合

生产原创知识是科研活动的核心旨归，科研评价通常围绕科研成果及其学术影响展开。伴随知识生产方式从模式1 向模式2 转型，科研评价除捕捉学术影响外还需考量更广泛的经济、社会、文化、环境等非学术影响，英国REF 已将科研影响作为3个评价指标之一（其余两个分别为科研成果和科研环境），澳大利亚则在ERA 之外单设EI 专门评价科研影响力。在EI 中，澳大利亚引入科研最终用户的概念，意指学术界外直接使用或直接受益于科研成果的个人、团体或组织。典型的科研最终用户包括政府、企业、非政府组织、社区和社区组织［26］。作为对科研评价的评价，科研元评价一方面依赖学术同行从专业视角判断科研成果及学术影响力的评价过程是否合理以及评价结果可靠与否，另一方面也需要最终用户从体验视角审视非学术影响力是否得到有效评价以及科研评价活动本身的成本收益。因此学术同行与最终用户相结合的多主体模式无疑成为我国开展科研元评价的占优策略。考虑到跨界合作可能面临思维方式与行动风格的大相径庭，由学术同行与最终用户组成专家组协同开展科研元评价必须建立顺畅的沟通机制。在科研元评价开始前，由委托方组织专家组成员协商评价标准、熟悉评价流程、确定评价分工。在科研元评价过程中，设立沟通联络专员负责协调专家意见，促进共识达成。

3.2 元评价内容：实证评价与价值评价相结合

理论是实践的灯塔，相比数据驱动，理论驱动下制定的科研元评价内容逻辑性、系统性更强。英澳两国科研元评价以弗兰克·费希尔的公共政策评估综合框架为理论基础，覆盖项目验证、情景确认、社会论证和社会选择四部分内容，既从操作层面对REF、ERA 和EI 的执行情况展开实证评价，又从价值层面判断REF、ERA 和EI 与更庞大社会系统的互动，以及科研评价环节潜在的公平风险。中国在设计科研元评价内容时，弗兰克·费希尔的公共政策评估综合框架同样值得借鉴。从该理论框架的视域观之，科研元评价的维度选取可分为两类4 种：实证评价类指标具体包括验证科研评价执行情况的客观指标，以及确认科研评价情境差异的主观指标；价值评价类指标具体包括反映与社会系统耦合关系，以及社会伦理道德规范的相关指标。其中，验证科研评价执行情况的客观指标可对照评价目标逐级设定，确认科研评价情境差异的主观指标可在评价目标基础上适当延伸，深度了解评价目标实现的前因后果，以及目标之外的衍生影响。价值评价类指标可考察科研评价活动的社会舆情、价值导向、公平与效率等。

3.3 元评价方法：定量评价与定性评价相结合

评价方法的科学性决定评价结果的可靠性，方法不恰当不但难以实现预计评价目标，甚至得到错误结论，将科研评价引入歧途。从国际经验看，科研元评价采取定量与定性相结合的混合评价方法已成大势所趋。问卷调查、利益相关者访谈是常用的元评价数据收集手段，目前评价设计与后续数据分析技术均较为成熟。但仍需注意的是，混合评价法绝不是定量评价与定性评价的简单组合，而在于根据不同的评价内容选择适合的评价方法，元评价内容的丰富性决定了评价方法的混合性。通常而言，实证类评价内容中客观部分采用定量评价更合适，主观部分和价值类评价内容则更适合使用定性评价，且无论是定量评价还是定性评价都必须遵循规范步骤以保证数据质量。此外，中国在科学规范使用传统评价方法的基础上还需不断创新评价方法工具箱，可尝试引入大数据、模糊逻辑、人工智能、机器学习、神经网络等数智手段全方位、全要素、全流程开展科研元评价，提升元评价专业化程度。

3.4 元评价结果使用：总结性评价与形成性评价相结合

从评价阶段看，元评价主体、内容和方法主要对应评价前端，顺利实现元评价根本目标还有赖评价后端元评价结果的合理使用。按照性质不同，科研元评价结果可大致归为两类：一类是围绕科研评价目标达成度的总结性结果；另一类是围绕科研评价外溢影响、不足之处与改进建议的形成性结果。不同类型的评价结果所承载的功能各异、缺一不可。英澳科研元评价中无一例外囊括两类结果，总结性评价结果肯定了REF、ERA 和EI 基本达成质量导向、支撑决策、问责循证和标杆比较的既定目标，相当于为各项科研评价继续存在的合理性背书；形成性评价结果则提醒委托方科研评价在发挥正面作用的同时也可能引致逆向激励策略包装参评材料、损害科研诚信、科研原创性和自主性等负面影响，REF、ERA 和EI 在实施过程中暴露的评价数据填报负担重、评价等级设置不合理和参评资料收集易操纵问题为下一轮科研评价改革指明了方向。全面覆盖两类评价结果，以及充分发挥不同性质评价结果的比较优势也是中国开展科研元评价必须突破的重点问题。科研元评价首先需对照科研评价活动的既定目标，总体判断其实现程度，这是开展科研元评价的核心任务，总结性评价结果将作为科研评价问责依据。但目标导向的评价属于封闭式评价，难以揭示目标之外的非预期影响，因而必须结合开放式的影响评价，尽可能全面呈现科研评价活动对个人、组织、系统等不同层面评价对象的异质性影响。同时，科研元评价的根本目的仍在于发现科研评价活动存在的典型问题，所以还需要通过形成性评价结果明确科研评价的改进方向。

3.5 反思

最后，英澳两国与中国国情存在较大差异，评价情境的不同决定了中国不能照搬英澳经验，必须在参考借鉴基础上探索适合中国国情的科研元评价制度。英国和澳大利亚的高等教育规模远小于中国，2020 年英国高等教育在学总规模275.19 万人［27］；澳大利亚高等教育在学总规模162.29 万人［28］，而根据中国教育部公布的数据，同年全国（未包括香港特别行政区、澳门特别行政区和台湾省。）在学总规模达到4 002 万人［29］。科研评价活动本身已然占用不少的人力物力财力，鉴于中国超大规模的科研系统体量，科研元评价可能进一步加剧评价成本，干扰科研工作正常运行，造成资源效率双重浪费，评价异质性和复杂性也随评价规模扩大成指数级增长，简单移植他国实践具有南橘北枳风险。另外，英澳科研元评价也并非无可挑剔的金科玉律，其局限性同样值得反思。除元评价方法有待进一步丰富完善外，元评价结果中指出的不足之处与改进建议也更多停留在操作层面，未能触及更深层次的评价理念、评价文化问题。事实上英澳两国科研元评价兴起背后有其特定的社会思潮根源，深受新自由主义、新公共管理主义催化，这也从另一角度表明必须批判借鉴两国科研元评价经验。