医学研究影响评价进展与启示

2021-10-20 09:13胥美美

科技管理研究 2021年18期

胥美美

（中国医学科学院医学信息研究所，北京 100020）

1 研究背景

在欧洲、北美、澳大利亚等国家和地区，研究影响评价已被用作科学决策的实用工具，并已在国家研究和创新系统中制度化，如欧盟［1］2017 年开展的“地平线2020”中期评价凸显影响评价，基于影响评价证据提出有关如何最大程度地提高未来研究和创新影响的建议；研究英格兰（Research England）［2］的研究卓越框架（Research Excellence Framework，REF）将影响纳入评价维度，2014 年英国高等教育机构提交了6 975 个影响案例证明了其研究产生的更广泛的社会影响，目的是为投入研究中的公共资金提供问责，为有效地分配研究经费提供依据；2018 年，澳大利亚研究委员会［3］启动参与度和影响评价（Engagement and Impact Assessment），评价了研究人员与研究最终用户的互动程度，并展示了大学如何将其研究转化为经济、社会、环境、文化和其他影响；美国国家科学基金会［4］提出了“广泛影响力标准”（broader impacts criteria），依据学术价值（intellectual merit）和更广泛的影响（broader impacts）两个主要标准作出项目资助与否的决定。国际上对衡量研究影响的关注与日俱增，是由于倡导（帮助获得资助机构及政府等支持）、问责（研究经费的投资回报）、分析（找出提升研究价值的最有效方式）和分配（研究资源的合理分配）4 种行为的驱动［5］。

国内对于如何开展研究影响评价的实践目前还停留在初步阶段，缺乏成熟可用的评价框架和方法。我国科技奖励、科技计划、机构的评价也有涉及研究影响的评价，但更多的是聚焦于学术影响，如在科技奖励申报时，参评对象提交研究影响相关素材，由于缺乏标准化的评价框架，所提交素材基本是依赖于科研人员自身对研究影响的认知，导致相关素材体现的研究影响不够系统全面，而且难以在不同项目间进行比较。近年来，国内学者开始探索研究影响评价，如白波等［6］基于回报模型提出科技计划经济社会影响评价的建议，王茜等［7］和苏娜［8］对科学研究的社会影响评价进行综述，但目前还处于对国外研究影响评价的经验总结阶段。

21 世纪是医学和生命科学的世纪。2020 年新冠肺炎疫情给全球人类健康以及社会和经济发展带来巨大冲击，相关医学研究的迅速开展对了解新冠肺炎疾病本质及其传播规律、防控方案、诊断检测技术、疫苗、治疗技术和药物等提供了重要的科学基础，充分体现了医学研究的重要价值。“面向人民生命健康”的提出，为我国科技事业发展增添新方向，奠定了医学在我国科技发展中的重要位置。相对社会科学，医学研究影响范围更广，除了社会影响之外还有健康相关影响。因此，本研究着眼于医学领域，对国际上研究影响的定义、研究影响评价框架、影响指标以及评价方法进行介绍，并分析目前研究影响评价存在的问题以及趋势，为我国开展医学影响评价理论与实践研究提供一定的参考。

2 研究影响定义

原英国研究理事会（Research Councils UK，RCUK）［9］将研究影响定义为卓越研究对社会和经济作出的明显贡献。在这个定义中，影响仅限于研究对社会和经济领域的贡献，未明确提及政策影响，而是将政策影响归到社会贡献范围内。研究英格兰［10］的REF 将研究影响定义为对学术界以外的经济、社会、文化、公共政策或服务、健康、环境或生活质量的影响或改变。REF 对研究影响的定义比RCUK更为细致，因为它强调了更广泛的影响领域，已有多项研究已使用了REF 这一定义。澳大利亚研究理事会(Australian Research Council, ARC）［11］对研究影响的定义是REF 和RCUK 定义的混合体，指研究对经济、社会、文化、国家安全、公共政策或服务、健康、环境或生活质量的可证实的贡献，是学术界之外的贡献。对国家安全的影响是ARC 对研究影响定义中的独特之处。澳大利亚国立健康与医学研究理事会(National Health and Medical Research Council, NHMRC）［12］将研究的影响定义为研究对知识、健康、经济和/或社会产生的可证实的影响，而不是预期影响。该定义考虑了研究对知识的影响。

而学者普遍采用文献计量方式定义研究影响，即以量化数据衡量研究影响，例如Tonta 等［13］将研究影响定义为文献中的引用频率；伦敦政治经济学院公共政策小组［14］通过咨询、讨论、引用或使用某项研究的记录来证明影响；Hannemann-Weber等［15］将研究活动和科学出版物之间建立直接联系，即通过研究成果的质量、知名度和声誉来证明研究影响，其与RCUK 定义的共同之处在于将研究影响与研究质量相结合；Moed 等［16］认为研究影响是研究成果对周围研究活动的实际影响。以上定义多是采用引用或知识产权被购买和许可等方式来衡量研究影响，范围相对狭窄。

综上，可见目前关于研究影响的定义未达成共识。研究影响有狭义和广义之分，狭义的研究影响主要是指学术影响，而广义的研究影响是除了学术影响还包括对政策、健康、社会和经济等方面的非学术影响。

3 研究影响评价框架

研究影响评价框架开发过程各不相同，但有一些常用方法。其中，大多数包括文献综述以及使用调查、面对面访谈、电话访谈、焦点小组访谈等方法咨询利益相关者（主要研究者、研究用户、专家、资助方、项目协调员等），形成初步研究影响评价框架；部分研究采用案例研究、模型对比、利益相关者信息反馈以及评价工具对框架进行试用以进行完善。目前国际上有多种研究影响评价框架，本研究中主要介绍目前常用的医学研究影响框架，包括回报模型（payback model）、研究影响框架（research impact framework，RIF）和加拿大健康科学院（Canadian Academy of Health Sciences，CAHS）框架。

3.1 回报模型

回报模型由英国布鲁奈尔大学的Buxton 和Hanney［17］于1996 年开发，起初是用于临床研究或卫生服务研究，现已扩展到整个生物医学及其他研究领域。该框架是目前应用最为广泛的评价框架，已被英美等发达国家用于评价主要研究资助计划，如英国卫生技术评估、美国NIH 的健康与身心互动计划评价、澳大利亚国家乳腺癌基金会的评价等。

回报模型中的影响包括：（1）知识生产（如期刊论文、学术会议报告、著作、研究报告等学术出版物）；（2）对未来研究的益处（如引导未来研究、发展研究技能以及人员科研能力、提升人员发展和教育水平）；（3）对政策和产品研发的益处（例如，改善政策如临床决策的信息库、研发药物和治疗技术）；（4）对健康和卫生系统的益处（包括改善健康、节约当前服务成本、改善服务供给的公平性）；（5）更广泛的经济效益（如从商业创新获得更广泛的经济效益、劳动力健康状况改善和减少矿工次数损失带来的经济效益）。通过将对研究人员的访谈与文件分析法相结合，形成包含定性和定量信息的详细案例研究，由专家核实影响得出评价结果。研究产生的影响可能是短期的也可能是长期的，如生物医学研究产生影响的时间达2 年～30 年［18］，因此需根据研究项目的特点决定数据收集所覆盖的时间窗。

回报模型的潜在局限性是，它通常以项目为中心开展评价，特别是在评价整个科技计划时是用项目层面的影响来判断整个科技计划的影响。由于经济和智力上的协同作用，研究计划的影响可能大于其各个项目的总和，因此，以项目为中心的影响模型可能会低估影响。回报模型可以纳入其他方法进行补充，如有针对性地访谈利益相关者，充分捕捉不同项目的协同效应［19］。

3.2 研究影响框架

RIF 是由Kuruvilla 等［20］基于有关健康研究影响评价模型的文献得出的健康研究影响框架，并通过对伦敦卫生与热带医学学院研究人员的访谈测试和修改该框架，使其可应用于各种健康研究主题。该框架呈现了一系列影响指标，可帮助研究人员系统地思考并描述其研究工作的影响，是影响评价中第二广泛使用的方法，但它大多与回报模型等其他框架联合使用。

RIF 中的影响包括：（1）科研相关影响（知识类型、研究方法、出版物与论文、产品和专利、研究网构建、领导力和奖项、研究管理、学术交流）；（2）政策和实践影响（决策水平、政策类型、政策影响性质、政策网络、政治资本）；（3）服务（包括健康）影响（服务类型、循证时间、护理质量、信息系统、服务管理、成本控制和成本效益）；（4）社会影响（知识、态度和行为，健康素养，健康状况，平等和人权，宏观经济或与经济相关，社会资本与权力，文化和艺术，可持续发展结局）。因为研究影响框架平衡了全面性和实用性，相比于回报模型，不是为第三方的影响评价而设计，而是帮助研究人员识别和描述其研究的影响，事实证明这种方法被应用者高度接受。

3.3 加拿大健康科学院框架

CAHS 框架是对回报模型进行改进，由国际专家小组（学者、政策制定者、高校管理者）构建，获得加拿大28 个利益相关者小组（包括研究资助者、政策制定者、专业组织和政府）的认可，并通过咨询公众进行完善［21］。该框架考虑了更多的非线性影响，将影响分为5 类：（1）推动知识产生（揭示研究的质量、活动度、扩散范围和机构等）；（2）能力建设（培养研究人员能力和研究基础设施的建设）；（3）为决策提供信息（关于健康和医疗保健的决策，包括公共卫生和社会保障、关于未来研究投资的决策、一般公共决策）；（4）健康影响（包括健康状况，健康影响因素如个人风险因素和环境、社会因素和卫生系统变化）；（5）经济和社会效益（包括商业化和文化成效、社会经济影响和公众对科学的理解）。

CAHS 框架总共有66 个指标，通过选择适当的指标集，CAHS 框架可被用于捕捉健康研究（生物医学、临床医学、卫生服务、人口与公共卫生研究以及医学交叉学科）在各层级（个人、机构、地方、国家或国际）的影响。因而，CAHS 框架的突出特点是可在不同层级以及不同医学研究领域使用，但需针对不同的评价目的，从指标集中选取指标和方法组合来对健康研究影响进行评价。CAHS 评价框架综合文献计量法、问卷调查法、逻辑模型法、经济分析法、数据挖掘法、可视化方法等，主要优点是可推广性好，通过逻辑模型的应用可实现评价目的，具有巨大的潜在应用价值；主要不足是资助者需要了解该评价框架的使用方法，审度他们曾有的评价框架，并考虑参照CAHS 评价框架进行修改，加强与其他资助项目或计划评价的可比性。

回报模型和CAHS 框架尽管有差异，但在影响界定以及影响指标类别等方面有很多共同点［22］。虽然CAHS 框架的范围更广，并强调“复杂系统”要素，但两个框架的设计都是遵循从研究到实践这一逻辑模型而进行的，主要区别是：CAHS 框架中为决策提供信息影响类别同时包含了政策级决策和临床医生的决策行为，而回报模型则是针对两方面分别收集数据，将改变临床医生决策纳入改善健康类别。与回报模型一样，CAHS 框架的应用较复杂，耗时耗力，因此在某些应用情况下成本过高。

3.4 研究影响框架的共性和差异

从上述介绍和分析可发现，RIF 包含测度指标最多，对回报模型的使用最广泛。其中，捕捉与科研有关的影响是各种方法框架中最广泛倡导的概念，说明了短期影响的重要性，因此，通过出版物的数量和引用来衡量影响是最常见的；对政策制定的影响是主要的中期影响类别，用于衡量改变立法、法规和政府政策，影响和参与决策过程，改变临床或医疗培训、实践或指南，在长期的影响测量中主要评价医疗质量的变化。

当前，关于最佳影响评价框架尚未达成共识，对于既定研究最合适的方法框架将取决于利益相关者的需要。不同学科的研究影响评价框架会有所不同，即使在医学领域，基础医学、临床医学、公共卫生等所采用的研究影响框架也有所差别，研究人员可根据自身研究特点，改进某个现有方法框架以形成评价工具，实现评价研究影响目的。

4 研究影响分类

本研究以广义的研究影响为分析对象，参考Cruz 等［23］综述文献中关于医学研究影响评价所采用的指标，分为科研相关影响、对政策制定的影响、对卫生和医疗系统的影响、与健康相关的社会影响以及更广泛的经济影响，具体如表1 所示。

表1 医学研究影响指标

5 研究影响评价方法

4 种常用的评价研究影响的方法包括文献计量学、案例研究、同行评议和经济学分析，具体如表2 所示；对应的数据采集技术包括书目数据库、文件审查、访谈、专利分析、实地考察、调查，其中书目和专利信息提供文献计量分析的数据，访谈、调查和文件审查提供案例研究的数据［24］。

近年来出现了大量新方法和技术，如数据挖掘是依靠各种爬虫技术来获取网络信息，也可与数据可视化技术相结合。数据挖掘方法的优势是利用已采集信息减轻研究人员收集数据的负担；劣势是它依赖于现有数据的可用性和质量，而且开发有效的数据挖掘流程需要大量成本，可能非常复杂且耗时。但为了了解研究影响的性质和程度，需要开发更智能和更可靠的方法。伴随着社交网络的发展替代计量学（Altmetrics），现已成为基于社会网络评价研究影响的方法［25］。该方法利用Altmetrics 工具收集文献管理系统和社交网络中关于某一研究成果的相关信息，如下载量、引用次数、浏览次数、评论、转发等，通过对这些数据进行聚类分析和统计计算，评价该研究成果的学术影响。国外较成熟的Altmetrics 工具包括Altmetric.com、ImpactStory、Plum Analytics 以及PLoS ALMs。Altmetrics 为了解传统学术领域之外研究的影响提供了另一种途径，它的优势是具有即时响应、指标全面、评价对象多元等特点［26］，能够更有效地追踪研究产生的更广泛影响；但该方法尚存在一些问题，如指标覆盖率低、有偏、数据易受操控和指标异质的问题［27］。

6 研究影响评价面临的问题与挑战

6.1 尚无最佳研究影响框架

当前，围绕最佳影响框架和构建评价框架的最佳方法尚未达成共识，例如，回报模型是基于文献综述并通过案例研究方法进行完善，尽管目前多个研究影响评价均是采用回报模型，但该方法被认为未通过利益相关者广泛参与进行论证。因此，对于特定研究最合适的评价框架将取决于利益相关者的需要。研究人员可以根据研究特点，依据现有文献综述的影响评价指标定制评价框架，例如，研究人员评价他们的研究对政策制定的影响，可从多个方法框架中提取一系列适当指标，包括现有的定性和定量指标，形成评估框架，但还需要案例研究以及利益相关者参与以确定评估框架的有效性。

6.2 研究产生影响的滞后时间长

衡量研究影响（包括医学研究影响）的最大实际问题之一是影响显现所需时间长。据报道，从研究开始到进入研究综述和教科书平均需要6 年以上的时间，而将其付诸实践则需要9 年以上的时间［28］。因此，要依据学科或项目特点合理确定影响评价的时间点，以确保被评价的研究已有足够的时间产生影响，如仅评价已完成24 个月以上的研究；但研究完成的时间也不能太长，以防止参与研究产出和使用研究成果的利益相关者无法证明这些影响。

6.3 研究影响归因有难度

投入、活动、产出和影响之间的联系对于我们理解研究如何转化为影响至关重要，然而，在研究影响评价中这很难确定，因为需要有证据证明。研究影响评价的一大挑战是确保我们对研究投入和活动的产出和影响的贡献及归因要了解。归因是指研究团队从开展研究到产生影响所作出的分步或成比例的努力；而贡献反映了研究成果产生影响的能力，而不管贡献数量。这两个术语经常互换使用，但实际是有区别的。此外，根据评价目的，突出贡献和归因的方式会有所不同，若目的是宣传或问责，则对贡献的判断将比归因更重要；然而，在实践中，研究往往是渐进的和迭代的，因此，将某一特定研究的贡献和归因与一组给定的产出、成效和影响相分离是很有挑战性的，不可避免地依赖于某种形式的判断。反事实分析法是一种解决方式，但并不能适用于所有情况，可以通过对单个研究进行独立证明并让最终用户参与评价来提高对效果归因的可靠性，而不是仅仅依靠研究人员对影响的描述。

7 结论与启示

研究影响评价是科技评价的一个新领域，是一个快速发展的跨学科领域，涵盖了情报学、管理学、科学社会学、高等教育学、经济学和循证医学等，国际上通常使用混合方法来评价医学研究影响，包括文献计量、同行评议、案例研究和经济学分析等，通过使研究的最终用户参与访谈和评价过程，可以确保影响评价的准确度，但目前尚未形成统一的评价框架，研究资助者和学术机构在实践中广泛使用多维指标形成评价框架，但需要采用利益相关者访谈验证自制评价框架的有效性。结合我国实际，针对我国医学研究影响评价提出如下建议：

（1）评价范式由绩效评价转向影响评价。程津培等［29］提出我国科技评价导向未来既要注重科学质量与卓越，又要重视国家经济社会影响，充分体现了今后科学技术研究影响的重要性。目前我国政府相关部门的科技评价旨在强化政府科技投入的问责机制、改进管理决策、提高研发活动的整体绩效［30］，其中绩效评价主要还是关注科技投入是否完成了短期的、预期的绩效目标。因此，应从国家层面改变科技评价范式，由强调绩效评价转向影响评价，推动科技投入最终提高人民生命健康、推动社会经济发展等，真正实现科技投入的价值。这也能肃清目前学术不端，扭转研究人员的学术价值导向，引导其由追求SCI 论文转向注重科研成果在经济社会发展中的实际影响。

（2）提高科研人员创造、捕捉研究影响的能力。自2014 年英国REF 提出以来，许多国家已将评价重点转移到研究影响，随着研究影响评价趋势在全球范围的逐渐流行，除国家顶层设计，科研人员也需提高认识并建立创造、捕捉研究影响的能力。目前我国相关研究影响评价理论与实践不足，在科技奖励等涉及研究影响的评价中基本采用的是研究人员提交案例和佐证材料的方式，但由于缺乏统一的研究影响评价框架，科研人员对研究影响具体内涵认识不足，所提交的研究影响更多是聚焦在专利授权、国家或部门标准、人才培养等方面［31］，缺少诸如研究被临床指南引用情况、对政策制定的影响等更广泛的影响，未将自身研究的影响全面体现出来。因此，需提高研究人员对影响评价的充分认识，设定系统全面的影响评价框架，强化提交影响评价材料的水平，真正体现研究影响。此外，在影响评价的导引下，科研人员未来开展研究要注重影响特别是中长期影响，以及了解如何提高研究的影响力，诸如与政策制定者互动、与工业界合作等，进一步提升研究的价值与意义。

（3）开展符合中国国情的医学研究影响评价理论研究。我国研究影响评价理论与实践较少，即使在当前涉及研究影响的科技奖励或科技项目绩效评价中，难以实现对不同项目或不同时期的影响进行比较分析。研究影响评价具有学科特色，如医学与社会科学的影响有所区别［32］。因此，需借鉴国外研究影响评价理论与方法，结合当前我国实际以及医学学科发展规律，开展符合我国国情的医学研究影响内涵、评价框架的相关研究，为今后我国医学研究影响评价奠定方法学基础。如研究影响框架的确立可以帮助研究人员即使在无专业的科技评价能力的情况下，相对系统地识别其研究的影响。此外，依据统一的评价框架，研究人员对影响的描述可采用标准化的结构促进了跨项目或跨学科的分析，从而为以后的研究管理、实践和评价提供信息。

（4）构建资源库，提供数据支撑。研究影响力评价的数据包括文献数据、专利数据、网络数据等定量数据以及调查和访谈等定性数据。文献数据和专利数据库的利用已经比较成熟，定性数据需要根据具体要求进行调查或访谈获取。网络数据包括指替代计量指标所涉及的数据，国际上已有较成熟的替代计量指标聚合平台如Altmetric.com 和Plum Analytics 等，但缺少覆盖国内数据源的替代计量指标聚合平台，因此急需开发构建本土化的替代计量指标平台［33］，以满足国内研究影响力评价的需求。医学研究特别是临床研究的一项重要影响力是关于研究是否被临床指南等所引用，而目前国内外均缺少相似数据库，临床指南引用数据库的构建将为研究人员了解自身研究的影响力提供一种途径。