定量分析支持的医学科研项目代表作评价

2022-05-31 17:34单连慧安新颖

科技管理研究 2022年8期

钟华，肖畅，单连慧，安新颖

（中国医学科学院医学信息研究所医学科技评价研究室，北京 100020）

科研项目的代表性成果是判断学术质量的主要依据，也是项目科研学术价值和社会经济价值的本源。近年来国家多个部委发文要求建立正确合理的中国科技评价体系，积极推进学术评价改革，如2016 年中共中央、国务院印发的《“健康中国2030”规划纲要》提出建立更好的医学创新激励机制和以应用为导向的成果评价机制；2021 年《国务院办公厅关于完善科技成果评价机制的指导意见》提出健全完善科技成果分类评价体系，基础研究成果应推行代表作制度，实行定量评价与定性评价相结合。在国家的积极倡导下，代表作评价制度已成为创新型国家建设过程中提高科研成果质量和影响力的重要方式，是我国深化科技评价制度改革的关键举措［1］。代表性成果评价作为评判科研项目学术及社会价值的准则，在科学研究中发挥着示范和导向作用，对学术活动有着至关重要的影响，但如何科学、准确、客观地开展科研成果代表作评价，以及如何创新代表作评价方法和工具仍然是学术难题。本研究梳理国内外科研项目评价的研究和实践，针对医学科学研究特点，基于定量数据和客观证据支持构建并优化量化数据和方法支持的代表性成果评价体系，为更好地识别和揭示项目代表性成果的质量、贡献和影响提供参考。

1 研究现状

在各国持续推动和完善科研项目代表作评价制度的背景下，各类科研机构及科技管理部门不断开展学术评价改革的研究和实践，在科研项目评价方法和工具上进行探索和改进，并持续完善科研项目评价体系和流程［2］。各国有关研究和实践的特点具体分析如下。

1.1 在科研评价中推行并完善代表作评价

各国积极推进学术代表作评价实践。如，英国科研卓越框架（REF）［3］利用同行评议和代表作制度对论文、著作、知识产权、技术性报告等成果的影响力和质量进行评价；我国教育部［4］在《第五轮学科评估工作方案》中提出科研评价将聚焦标志性学术成果，采用计量评价与专家评价相结合、中国期刊与国外期刊相结合的代表作评价方法，通过定量数据和客观证据的专家融合评价方法实现多元评价；我国的国家重点研发计划项目评价也要求凸显成果质量，突出代表性成果和项目实施效果评价［5］。目前，实施代表作评价的作用和意义在国际科技评价中已得到较为普遍的认可［6］，但还没有形成具有普遍参考意义的代表作评价制度［7］。

1.2 充分利用定性和定量相结合的综合评价方式

各国将定量分析和同行评价作为判断学术质量的重要工具和手段。通过定量分析，可以更充分地对研究工作和成果进行观察和描绘，为专家判断提供更多的依据，在信息集成基础上形成更科学的意见。在学术评价中，知情同行评议（informed peer review）的评价模式在英国、美国也有多年实践，是将科技成果的定量信息（如成果数量、引用情况、后期认可和影响程度等）提供给专家，辅助和支持专家的评价决策［8］。2018 年澳大利亚第四次全国卓越研究评估（ERA）的评价指标既包括定量指标，如引文分析数据、出版物情况、专利指南等研究应用数量和科研收入等，也包括ERA同行评议的定性指标，并依据科研评价量表进行评级［9］。英国医学研究理事会（MRC）［10］的项目评审在采取同行评议机制的同时，也利用定量方法对包括论文、报告、书籍、知识产权、数据库与模型等科研成果产出情况进行分析。REF［3］的各学科评审专家借助定量指标辅助判断，对科研成果按质量高低分为5 个星级，赋予不同权重。

1.3 重视科学计量方法和工具的改进和优化

各国持续研发和改进各类科学计量方法，并将之应用于科研基金资助和项目的影响评估。如，英国国家卫生研究院(NIHR)将科学计量分析结果作为项目整体信息的组成部分，项目申请人的科学计量学表现作为支持评审过程的重要证据，提交给项目评审专家组［11］。但在NIHR 的不同项目类型中，科学计量数据在项目专家评审过程中的重要程度不一样，例如NIHR-CLAHRC 项目指南中提到，申请人提交的出版物清单将进行独立的文献计量分析，并进行分析和审查，以验证完整性和与拟申请项目主题的相关性，以及与计划目标的相关性。REF［3］在评估英国高等教育机构学科的研究质量时也利用科学计量学数据，要求最多提交4 项研究成果（例如期刊文章、专著、章节等），同行评审从原创性、重要性和严谨性方面评估产出质量，并在一些学科评估中使用了引文信息，将引文作为具有学术意义的积极指标。

1.4 设计以质量为导向、分层分类的项目评价工具

科学高效的评价工具和方法在各类科技项目管理中发挥重要作用，各国根据自身国情和科技发展现状不断优化完善评价方法，通过构建科学高效的项目评价工具和方法，有效识别和揭示各类项目成果的质量、贡献和影响，为医学发展和学科建设提供支持和服务。例如，欧盟［12］提出的“地平线2020 计划”评价体系包括逻辑模型、影响路径分析和评价方法3 个核心部分，同时采用了文本挖掘等新的大数据分析技术手段；加拿大健康科学院（CAHS）［13］设计的科技评价框架是为医学研究资助者开发一种用于捕获医学研究影响的稳健方法和相关指标体系，是CAHS 开展科学评估遵循的基本框架；英国国家卫生研究院设计的Dashboard 框架用于监测和评估科研活动和实施绩效，相关指标包括整个逻辑模型的各阶段并覆盖平衡计分卡的各领域［14］；爱尔兰卫生研究委员会采用Payback 模型将社会和经济影响分为五大类因素开展项目事后评价［15］；日本医学研究与开发署开展的项目事后评价分为基本方案（ACT-M）和应用方案（ACT-MS）两种类型，并设计10级评价量表，为研究领域和内容多样化的资助项目提供了较为统一的测度方式［16］。

2 代表作评价的内涵和特点

在科研项目评价中，代表作指在所从事学科领域内能够体现项目成果学术水平、创新性和影响力，最能得到同行认可的成果。科研项目实施代表性成果评价，一方面突出的是“成果质量和影响”，需凝练出最能体现项目研究水平的科研产出作为代表性成果，并以代表作作为支撑；另一方面突出的是“代表性”，通过限制提交的成果数量，在项目内对产出成果进行初步遴选，从而降低单纯量化方式带来的负面作用［17］。科研项目代表性成果评价主要有项目自评、同行评价、定量评价3 种方式，项目自评是项目团队对实施和执行的成果水平和影响进行的评价，同行评价是小同行专家来评议项目成果水平，定量评价可依据定量数据和客观证据对成果在领域内的水平进行描述分析、为专家同行评价提供数据支持［18］。

近年来，我国各级科技管理部门、高校和科研院所不断推行代表作评价制度，代表作评价的意义和作用已经在科学项目管理、科技奖励、职称评审中逐步被认可和推行，但是目前国际上还未在科研项目代表作评价方面形成能被普遍参考的体系，特别是我国的代表性成果评价制度还处于研究和探索阶段，缺乏具有推广基础的示范应用，因此在科研项目代表作评价指标和体系、方法和工具等方面还需进一步研究。

3 基于定量数据和客观证据开展代表作评价的应用示例

3.1 研究目的

利用定量数据和客观证据的支持，结合专家综合评判的代表作评价模式是一种综合、多源、客观的科技成果评价方式。它有别于单纯以论文数量、代表作数量、影响因子等作为单一量化评价来源的传统方式，基于各类统计数据和学术资源，利用科学计量方法和评价分析工具，设计并构建系统、科学的科研项目代表作评价体系，通过提供能够反映代表作质量、学术影响力、应用效果和价值的量化评估数据，为专家同行评议提供数据和证据支持，特别是在专家个体间因知识结构或研究范式容易产生非共识认知等问题时，能有效减少专家同行评议的主观性［19］。同时，多元化评价手段也可在成果评议过程管理和决策方面构建起较为全面、科学、规范的评价质量规范流程和体系，进一步确保评价公正性和客观性。

3.2 研究对象和过程

以某医学院校20 个已经结题的科研项目作为实证对象，纳入评价范围的每个项目提供一项代表性成果，每项代表性成果提供不超过10 个代表作支撑材料，代表作支撑材料包括但不限于论文、专利、标准、报告等形式，根据各项目提供的代表性成果，重点对高质量论文、高价值专利、指南、标准、研究报告、临床试验项目及新药、医疗器械证书等代表作进行分析。纳入评价范围的20 个科研项目（以下简称“样本项目”）类型包括医学基础前沿、疾病防治、药械研发等类型，不同类型项目的代表作各有侧重，如医学基础前沿类项目的基本定位是鼓励从医学基础研究中挖掘和凝练深层次科学问题，代表性成果主要侧重考查具有重要科学价值的，在新理论、新技术、新方法等方面最具代表性的成果水平；药械研发类项目旨在鼓励针对医药产业发展需求培育具有自主技术和产品优势的研究，代表性成果主要考查项目在新理论、新技术、新方法、创新性药物及医疗器械等方面最具代表性的成果水平；疾病防治类项目鼓励针对各类疾病预防和诊疗的突破性研究，代表性成果主要考查临床术式、诊疗方案、临床指南、标准等方面的成果及水平。

3.3 评价体系及指标计算

基于文献研究和专家意见建立量化支持部分的项目代表作评价体系（见表1），依次分级计算投入和产出指标数据。在投入指标方面，考虑不同项目资助金额、实施周期和团队人员投入因素。在产出指标方面，根据每个项目提交代表性成果的支撑材料实施细化分级计算，例如对于高质量中英文论文，分别根据中国科学院文献情报中心［20］制定的《中国科学院文献情报中心期刊分区表》和“中国科技期刊卓越行动计划”入选期刊目录进行逐级赋权；对于高价值发明专利，按照三方授权发明专利、在海外有同族专利权的发明专利、国内发明专利授权、《专利合作条约》（PCT）的发明专利申请、国内发明专利申请进行逐级赋权；对于获后续课题资助项目数量和转化合同金额，按照项目级别和实际合同金额进行逐级赋权。

表1 科研项目代表作定量分析指标

对样本项目数据进行预处理后，采用数据包络分析方法（DEA）进行科研项目代表作评价。数据包络分析是一种构造生产前沿面函数的非参数计量方法，通过分析决策单元投入与产出指标数据，从相对有效性角度出发，可以有效地评估多投入多产出决策单元的相对效率情况［21］。数据包络分析方法主要用来评价同类型单位之间的相对有效性，其中基于VRS 假设的BCC 模型方程如下：

式（1）中：j为决策单元；i和r分别为投入指标和产出指标；S为松弛变量。

BBC 模型研究规模报酬可变情况时投入产出效率情况，综合效益（OE）分为技术效益（TE）和规模效益（KE）。技术效益反映技术因素带来的效率，该值等于1 则说明要素合理使用；反之，该值小于1 说明要素技术效率还有提升空间。规模效益反映规模带来的效率，该值等于1 则说明规模收益不变（最优状态）；该值小于1 说明规模收益递增（规模过小可扩大规模增加效益）；该值大于1 说明规模收益递减（规模过大可减少规模增加效益）。综合效益反映决策单元DMU 要素的效率情况，为技术效益与规模效益的乘积。松弛变量表示为减少多少投入时可达到目标效率，S+即代表为增加多少产出时达到目标效率，S-即代表为减少多少产出时达到目标效率。结合综合效益指标、S-和S+这3 个指标可判断DEA 有效性：综合效益为1 且S-和S+均为0，则DEA 强有效；综合效益为1 但S-和S+大于0，则DEA 弱有效；如果综合效益小于1，则为非DEA有效。

运用MaxDEA 软件计算各样本项目代表性成果的综合效率值，对各项目产出代表性成果进行效率分析，计算结果如表2 所示。

表2 样本项目代表性成果评价结果

3.4 计算结果及应用情况

从项目综合效益值来看，20 个样本项目的综合效率值为0.530，其中DEA 有效的数量为6 个，约占代表性成果总数的1/3。综合考虑项目资金、人员投入及研究期限，DEA 有效的6 个项目代表性成果在质量和影响方面的量化分析数据值更高，以DMU3 为例，该项目资助金额相对不多，规模中等，但有较高影响力的产出，其代表性成果所提交的10项代表作支撑材料中包括5 篇一区论文和1 篇二区论文，并有国家发明专利授权1 项、国家发明专利申请3 项，该项目基于这些代表性成果开展了系列连贯性研究，建设药物技术平台，在全方位解决药物耐受和治疗问题方面发挥重要作用。

将样本项目代表性成果的基本统计数据、科学计量数据、效率分析数据及数据使用说明等整合后，作为项目同行评议的支撑材料提供给专家，用于辅助专家定性判断；在项目评价结束后，将定量评价结果和同行评议结果进行对比，发现两者呈正相关关系。可见利用科学计量统计和数据包络分析方法综合计算得到的科研项目代表性成果的量化分析结果，可在一定程度上反映学术成果的质量和影响力，可作为专家定性评价的参考和依据，也在一定程度上对同行评议结果进行了印证，能更好地控制同行评议中主观判断因素的负面影响。

4 思考与建议

代表作评价制度是我国逐步完善科技评价机制的重要举措，在科研项目成果评价中，坚持以创新质量、绩效、贡献为核心的评价导向，推行代表作评价机制，能有效破解“唯论文”“唯数量”等问题。本研究在对国内外科研项目成果评价方法和体系进行分析的基础上，提出基于定量数据和客观证据支持的科研项目代表性成果评价方法，选取20 个科研项目的代表性成果进行实证分析，依次分级计算投入和产出指标数据，利用数据包络分析模型计算项目效率，将定量分析结果用于支持专家评价，实证分析结果能在一定程度上反映和测算出科研项目在既定投入基础上所产出代表性成果的质量和影响力，能较为有效地对同行评议提供支持。本研究是对科研项目代表性成果评价的初步探索，未来在代表作评价方法体系研究、评价指标构建、分层分类实施等方面还将进一步完善和细化。

基于以上研究结果，对我国医学科研项目代表性成果评价的实施和发展提出如下建议：

一是强调代表作形式的多样性，建立分层分类的项目成果评价体系。医学科研项目产出代表性成果形式可多样化，应包括论文、专利、指南、标准、药械、报告等多种类型；此外，医学科学研究的复杂性对科技评价工作是巨大的考验［22］，医学基础、临床、口腔、公共卫生、药学等各学科都各具特点，科技评价标准也应随之进行分类设置，根据不同项目类型的定位与产出特征设置差异化的评价体系及评价指标权重。

二是提倡代表作评价方式的多元性，正确发挥量化评价在学术评价中的作用。科技评价方法从技术层面上可分为定量评价、定性评价和综合评价三大类，单一的定性或定量方法已经很难满足科技评价活动需求，世界主要国家都在破立并举中不断探索和优化科技评价方法和实践，使定性和定量评价方法在科技评价实践中得以不断综合交融，因此在代表作评价过程中，不应将单纯的论文数量作为唯一的硬性评价指标，也不能仅采用传统的定性评价方法从而放弃了对定量评价方法的探索和应用，定量评价依然是学术评价中不可缺少的判定依据，应结合科技成果产出类型，以及在完善专家信用和专家评价体系基础之上的学术同行评议，建立起量与质有机结合的多元化综合评价体系，避免形成单一的评价模式。

三是利用新的方法和技术改进传统评价方法，持续改善科研成果评价效率和质量。医学科技评价工作具有海量评价数据处理特点和深度精准分析的需求，应建立嵌入集成化工具库和方法库的评价系统，将云计算、数据挖掘、机器学习、人工智能和区块链等为代表的信息技术逐步用于科研项目评价中，以动态监测的高质量立体集成数据为基础，深入剖析医学科技发展规律，发挥定量评价客观、精确和可操作的优势，将能更好地解决评价效率和精度问题。