孔祥辉 陈卓
(1. 锦州医科大学图书馆,锦州 121001;2. 锦州医科大学护理学院,锦州 121001)
“可重复性”可定义为使用与原始研究相同的数据和代码、方法或程序,通过独立研究获得一致的结果[1]。可重复性是确保研究成果具备可信度的最低要求。然而目前许多已发表的科研成果都经不起可重复性验证,科研领域正逐步陷入可重复性危机。其中,生物医学领域更是饱受危机困扰的重灾区,无论国内还是国外,每年都会发生关键数据或结论无法重复而导致的大规模论文撤稿事件,不仅严重损害学术公信力,降低知识累积与技术转化的速率,还会造成重大的经济效益和社会效益损失。而正是这场危机带来的危害,引起了包括生物医学领域学术期刊、出版商、科研院校、学术团体、行业管理机构等在内的各类科研利益方的广泛重视,纷纷从制度、政策、服务、资源、法规等角度提出应对策略。
针对科研主体加强教育引导,使其树立危机意识,掌握必要的知识和技能来提升科研工作的可重复性,逐渐成为危机语境下各方共同关注的焦点问题。由于此类教育活动没有统一称谓,存在“研究可重复性(Research Reproducibility)”“可重复的研究(Reproducible Research)”“可重复性与严谨性(Reproducibility and Rigor)”教育等多种表达,为便于专指,本文统称为可重复性研究(Reproducibility Research,RR)教育(以下简称“RR教育”)。
目前关于RR教育问题的研究成果较少且大多分布于国外,内容聚焦在4个方面。①教育的重要性与价值探讨。如Janero[2]认为,对博士群体开展科研数据可复制性教育,是解决可重复性危机的关键举措,在提高临床前研究成果质量以推动药物发现上具有重要价值。高校教师与管理者应转变思维方式,对数据负责并积极致力于RR教育发展。Meid[3]认为,针对临床研究人员的所有课程都应统一包含可重复性与严谨性原则,建立良好的科研方式以确保科研人员自身、合作伙伴、科学界、广大公众都能从中受益。Mohan等[4]分析了现有动物研究实验过程中存在的缺陷和对人类疾病新疗法开发的影响,重点讨论了RR教育在克服实验缺陷、提高研究效率方面的核心作用。②教育框架研究。Azevedo等[5]分析了将开放和可重复研究培训框架(FORRT)纳入高校人员科研培训的必要性和实施策略。Weggemans等[6]基于德尔菲法,为转化医学科研人员构建了用于可重复性培训和能力评估的置信职业行为框架(EPA)。③RR教育案例分析。Toelch等[7]为本校学生设计了可重复性入门课程,以引导学生走向可重复的科学工作流程。概述课程核心与拓展内容,分析课程在实施过程中遇到的挑战,并讨论了将此类课程整合到现有专业课程的方法。Auer等[8]对“人人可重复性”(R4E)组织的RR研讨会从设计到实施过程进行详细介绍,为后续不同类型的RR培训提供参考。④RR教学评价。Kalichman等[9]利用“课前-课后”评价法对加州大学圣地亚哥分校的RR研讨会教学效果进行评估,发现研讨会能够显著地促进受训人员采纳各类有助于RR实践的措施及行为。
作为面向生物医学领域的重要信息服务部门,医学院校图书馆(以下简称“医学馆”)开展RR教育是在新时期拓展其教育职能的必然要求。虽然医学馆RR教育的理论研究尚待起步,但实践上早已有探索。特别是近几年美国众多医学馆已涌现出一大批具有开创性、示范性、引领性的教育成果。通过调查分析美国医学馆的RR教育实践情况,将有助于把握RR教育最新进展、发展特点和规律,进而为我国医学馆开展相关教育提供参考。
由于美国医学院校主要以学院形式附属于综合性大学,本研究主要根据世界大学排名榜U. S. NEWS 2023[10],按照“美国-医学-研究”条件筛选出美国排名前50位的医学院校,再登录所属图书馆网站主页获取相关RR教育信息,并利用必应、百度等搜索引擎对信息做进一步拓展求证。调查时间为2022年4—8月。最后对调研信息进行整理、提炼,从教育形式、内容、实施策略角度展开总结分析。
美国医学馆RR教育面向对象广泛,涵盖生物医学研究领域的所有潜在群体。但考虑到可重复性是早期科研工作就应确立的核心行为准则,因此将校园内的研究生、博士后、早期职业研究人员列为教育的重点人群。在教育的开展形式上可归纳为以下5种。
绝大部分的美国医学馆(42所,占比84%)会组织本馆用户进行专题培训。按照连续性可分为2种。①临时性培训。由馆员主持,邀请外界机构人士到馆内开展面对面研讨会、讲座报告、圆桌会议、下午茶分享会等活动。这类培训活动周期较短、培训主题灵活、开展日期不固定,通常会在图书馆网站上提前发布通知预告,标注课前准备事项、适用人群等信息,用户可结合个人需求提前预约学习。例如,加州大学圣地亚哥分校图书馆举办的为期4天的2022 Carpentries Bootcamp训练营[11]。②系统性培训。这类培训涵盖若干主题模块,根据涵盖主题的数量确定培训周期[12]。一般会组织专业教学团队,每周在固定时间段连续为用户提供培训活动。该培训往往内容连贯、针对性强,但为保证教学效果,培训用户在数量上都会有所控制。在2019年之前用户专题培训都采取线下模式,2020年以来受新冠疫情的影响基本转为线上模式,依托Zoom等平台进行。
美国医学馆借助网络和多媒体技术开展线上教育,形式有3种。①开发线上课程(online course)。约翰·霍普金斯大学图书馆将知识点浓缩,以图文并茂、影音结合的方式呈现,自主开发模块化课程《记录您的研究数据》(Documenting Your Research Data)、《开放科学》(Open Science)供学生在blackboard上学习,同时创建了一个名为“利用软件提高研究可重复性”的22分钟微课程[13-14],内容有软件组织、版本控制、代码归档等。杜克大学图书馆为培养用户可重复性研究技能,与课程商Epigeum、牛津大学出版社合作,购买《研究质量和可重复性》(Research Quality and Reproducibility)交互式在线课程的版权[15]供用户通过学习管理系统访问该课程进行自主学习。该课程由13个互动模块组成,每个模块都包含简短能力评估。②制作网络公开课(online open courses)。共有5所大学图书馆联合其他部门在慕课平台制作专题课程。如哈佛大学针对生物统计学、计算生物学、生物信息学和数据科学领域的学生和专业人士,在edX平台开设《可重现数据科学》(Reproducible Data Science)网络公开课程[16]。华盛顿大学基于Coursera平台的《再现性和数据科学》(Reproducibility and Data Science)课程以视频、案例研究、点对点教学融合方式讲解R/RStudio、Git/Github等可重复计算工具和平台内容[17]。由于这些课程得到美国国家教育委员会(American Councilon Education)的官方认可,学习者按照要求完成课程教学计划即可获得学分,因此吸引了众多来自校内外的生物医学科研群体,有效促进了可重复性研究理念的广泛传播。③建设教育指南(educational guide)。有24所(占比48%)大学图书馆以开设学术博客、在网站主页建立研究指南或专题信息门户等作为微课教育补充形式,提供可用于提高可重复性的理论概念、行动号召、实践清单和资源汇总。这样既能实现相关教育资源一站式浏览,也为研究人员拓展了自学途径。
美国部分医学馆利用课程教育相对稳定的特点,对现有独立承担的学分课程进行改造,以便进一步开展系统化、规范化的RR教育。例如,纽约大学学术健康科学图书馆一直为本校生物医学科学博士群体提供1学分的研究技能课程[18],授课馆员在参考美国国立卫生院(NIH)出台的严格性和可重复性政策后,对原有课程内容进行了大幅调整,重点讲解实验复制、严谨性科学前提、生物资源认证、计算可重复性、可复制性成果批判性评估等内容。西蒙斯大学图书馆为适应实践需要,与信息科学学院合作,重新设计原有《科研数据管理》(Research Data Management)必修课,增加研究可重复性和信息学家专题,以弥补科研用户传统数据技能和新兴技能之间的差距[19]。
为扩大RR教育的关注度,使其在实施过程中得到更好的制度化保障,美国医学馆还将RR教育作为子模块有机融入现有教育系统框架中,主要表现在两方面。①融入科研诚信教育体系。美国大多数医学高校在科研诚信办公室(Office of Research Integrity,ORI)的倡导下为硕博士生群体提供“负责任的研究行为”(Responsible Conduct of Research,RCR)系列教育,“科研严谨性与可重复性”在近些年被列为该系列的必修内容。哈佛大学图书馆组织本馆数据馆员与技术人员合作,在该部分内容中开发“数据管理”模块,传授整个研究生命周期中支持可重复性的数据操作技能。加州大学旧金山分校图书馆与研究生院合作,将RR系列研讨会并入本校博士后RCR课程体系中进行管理[20]。根据NIH的资助要求,如果博士生能够及时注册学习,确保出勤率达到80%并完成课前课后调研,就可被视为完成本课程并获得结业证书,免除后续的RCR其他课程学习。②融入医学继续教育课程体系。犹他大学Eccles健康科学图书馆与哲学系合作,通过DeCART暑期项目为本校生物医学信息学系学生提供为期2天半的《可重复科学的原则和实践》短期课程[21],该课程已获得继续医学教育认证委员会(Accreditation Council for Continuing Medical Education,ACCME)的认证,用户通过注册,在规定时间内完整学习并完成任务,可获得培训证书和美国医学会医师认可奖(Physician’s Recognition Award,AMA PRA)指定的1类别教育学分。
个别医学馆馆员还深入科研部门,与科研群体建立合作关系,提供非正式的嵌入式教育。如明尼苏达大学药学馆员深入本校5个大型生物医学实验室,专门为一线实验人员设计了《实验室可重复性数据管理》课程,讲授实验室数据描述和保存的最优策略,推广电子实验室笔记本(ELN)等内容[22]。犹他大学健康科学馆员介入本校多个科研团队小组,帮助团队明确综述范围,协助注册综述协议,从撰写协议到合著最终手稿的过程,开展透明、可重复的文献检索方法教学,指导科研团体进行真实、可复制的系统评价[23]。
美国医学馆RR教育内容涉及范围广,按照主题可归纳为基础知识、科研流程、数字工具、研究项目4个方面。这些方面相互衔接、层层递进,既强调理论与技能学习,又以项目为载体确保实际技能的应用,形成完整的教育内容框架。
可重复性基础理论知识主要介绍可重复性危机起源与发展,生物医学科研领域可重复性定义、类型、作用,以及NIH和科研相关利益者针对可重复性危机的政策反应、挑战机遇、应对策略、实施条件、优势和局限性等内容。
生物医学研究的不可重复性主要体现在实验设计、记录和实施等方面的不缜密,因此必须增强整个科研流程的严谨性,而进行开放科学实践有助于高质量研究成果的产生。因此绝大多数医学馆会介绍生物医学科研中满足或提升可重复性所必须采取的关键步骤、策略与方法,帮助用户批判性反思现有实践,建立严谨、开放、透明的科研流程。①预研究的严谨性:科研常见偏倚定义、来源、评估工具、预防策略等。②严谨性的实验设计:实验设计、方法、分析、解释、报告等一系列严谨的操作策略。③可重复性数据管理:以FAIR原则为基础,贯穿整个生命周期的数据管理最佳实践,如制定DMP、数据发现与获取、组织与揭示、可视化处理、统计分析、存储与建档等。④开放式科研策略:预注册、开放评审、开放实验协议、开源代码、开放存储、开放出版等。⑤科研质量控制:NIH拨款计划中包含的关键生物或化学实验资源认证、生物变量处理、样本量计算、异常值处理等。⑥系统化解决方案:基于code ocean、open science framework等一站式平台的可重复性科研流程构建。⑦政策与指南解读:生物医学领域科研机构的数据共享与共享政策、可重复性研究指南等。
可重复性数字工具是指为提高科研的计算可重复性而用到的一系列数字化科研工具集合,可重复性数字工具教育包括工具的应用原理、使用方法与技巧等内容(见表1)。
表1 可重复性数字工具教育内容一览表
可重复性研究项目教育主要针对已有数据进行再次复制分析。该部分旨在将所学理论知识、流程方法或工具技能转化为实际科研情境中可以立即实施的可操作步骤,并作为技术报告公开分享,使学生能够熟悉可重复性研究的完整工作流程,可分为3种形式。①直接复制:学生在某篇已发表的专业论文成果已有代码或数据基础上,利用已学技术采取相同研究步骤,进行成果复制并提供解释。②使用版本控制工具:对自身科研项目中的数据进行编码化以实现复制分析,整合开放科学实践与现有科研工作流程。③盲数据分析:运用技术来掩盖已有的数据显著性结果,同时提供足够的提示信息引导学生重新运行论文中的原始数据,从而确定该成果是否有效,发现数据是否存在更改或其他质量问题。可重复性研究项目教育的目标是对所学知识和技能进行综合检验,而结果可重复生成程度、清晰度等是项目成果的主要评估指标。
美国医学馆在RR教育教学实施过程中能够始终以学生为主体,运用多种策略组合指导课堂教学,为学生提供充分的交流、阅读、写作、反思、体验和练习的空间,加速知识和技能的获取、巩固与强化,培养批判性思维的同时提升解决实际科研过程中可重复性问题的能力[24]。其教学策略主要表现在4个方面。①灵活运用多种开源教学平台如Github、Git组织教学。加州大学圣巴巴拉分校图书馆在培训过程中将RStudio与Git和Github连接,使学生能够使用这种集成平台,了解其在协作和版本控制方面的优势[25],提高学习体验感和参与感。②教学过程突出互动性。更多采取集体讨论、情境教学、案例分析、角色模拟、辩论比赛等方式实现与学员的充分互动,培养学员批判性思维和应对可重复性挑战的能力。③侧重实践操作能力培养。在教学过程中增加课堂测验、课外扩展阅读、课后作业、期中考试等环节,提供大量练习机会,使学生能充分理解概念和掌握基本技能。④以科研任务驱动为教学主线。针对可重复性研究项目教育、科研流程教育,通常将受训人员划分若干小组,设置多个科研项目供不同小组选择,每组由3~5人组成小型团队,共同协作,运用课程所学完成各自的项目,而项目的可提交成果形式多样,包括项目提案、分析报告、网站和视频等。
美国医学馆行业组织在引领RR教育中发挥积极作用。美国医学图书馆协会(Medical Library Association,MLA)作为全国范围医学馆发展的行业指导机构,一直将促进开放科学实践和提高数据的完整性、透明度和可重复性作为自己的核心价值观[26]。2015年开始,在NIH发布可重复性和严谨性指导意见后,MLA每年都召开可重复性专题网络研讨会,促成成员馆之间的广泛讨论[27]。MLA下属研究培训机构(Research Training Institute,RTI)在针对健康科学馆员的继续教育培训中,也将研究严谨性、可重复性和数据共享作为目前重点学习的内容[28]。美国国立医学图书馆所领导的培训网络(National Network of Libraries of Medicine)还致力于为开展RR教育的图书馆提供资金赞助,辛辛那提大学、明尼苏达大学、匹兹堡大学等大学的健康科学图书馆都从中受益[29],在RR课程开发、培训活动筹办方面获得充分的资金保障,进而为受众群体提供更高质量的专业指导。
对于国内医学馆来说,RR教育目前仍是尚待探索开发的崭新领域,从理论构筑到实践工作开展都需要长期积累。在此过程中,中国图书馆学会医学图书馆分会、中华医学会医学信息学分会和全国高校医学图书馆学会等我国医学馆行业组织可以发挥协调和指导作用[30],将RR教育列为成员馆之间学术交流的重要主题,增强教育认知,将其作为未来医学馆多元化教育的一部分;增进与美国医学馆的馆际交流,对一些教育成果显著的案例进行重点学习总结;对于个别实力雄厚的医学馆,鼓励其开展示范项目,加强实证研究并注重效果评价;建立统一的教育工作指南,在制度、流程、内容、形式等方面提供规范化指导[31];设立教育资源共享库,促进成员馆之间相互学习、共同进步。
教育内容、形式、实施策略的丰富程度,决定了RR教育是一项复杂的系统工程,医学馆自身难以完成其实施和推广。因此,美国医学馆非常注重与各方的密切协作与交流。全国范围内不断涌现的开放科学组织、RR非盈利教育组织、各级生物医学学会RR指导规划委员会、商业课程研发机构等都成为美国医学馆可靠的教育协作对象,从中获得专业教学人才、硬件设施、课程教材、教育技术等多方面支持。一些医学馆还积极参与或组建了教学协作组织,如犹他大学Eccles健康科学图书馆主导的Research Reproducibility Coalition[32]、斯坦福大学医学馆的SPORR工作组[33]等,汇集校内不同学院经验丰富的专家学者,围绕教学管理、教案设计、课程设置、教研文化建设等方面定期交流,群策群力,协同推进RR教育的有序实施。佛罗里达大学健康科学图书馆还利用学术联络优势主持虚拟会议[34],邀请来自不同专业领域的研究人员、教育工作者、学生和管理人员,共同分享教学最佳实践,探讨教育新理论、新理念、新思路、新方法,有力促进RR教育的深入发展。
由于RR教育尚未在我国落地生根,在缺乏全面协作的环境背景下,我国医学馆更应该为生物医学领域的各类科研利益主体搭建RR教育交流平台,加强主体对话,使RR教育理念得到广泛传播,最终达成教育发展所需的多方共识。在此基础上,争取学校牵头,构建由图书馆主导,各生物医学教研室、实验室、科研管理、信息中心多部门联合协作的RR教育共同体;明确各方职责、整合优势资源、打造多元化教学团队,同时建立教育资源库、加强对外教育交流,推动RR教育的全面落实和发展。
美国医学馆RR教育形式多样、各具特色,既能确保独立性,又能有效对接各类教育体系,线上线下兼而有之,且能全面深入到用户专业学习和科研环境,形成泛在化的教育格局,此外可选择性强,能较好地满足不同层次科研群体的教育需求。
就我国医学馆实际教育布局而言,既要做到发挥个馆优势,因势利导,鼓励教育形式多元化发展;又要尽可能做到全面整合,发挥不同教育形式的优点,以培养不同科研能力与需求为主线划分不同目标阶段,着力开展阶段式RR教育模式(见表2)。
表2 阶段式RR教育模式
具体表现为4个阶段。①基础阶段:面向广大科研群体积极组织小型培训,利用其“短平快”特点,广泛普及RR教育中各类主题概念、关键知识,并通过社交媒体进行持续宣传与推广,实现教育理念快速传播,提高整个科研群体的可重复性研究意识。②促进阶段:将可重复性知识模块有机融入本科生或研究生的专业课程,如对医学统计学、数据管理、科研诚信、科学导论、研究方法等课程进行改造,将可重复性元素作为课程核心目标或重点内容。③提升阶段:开发周期较长的系统化培训项目或独立学分课程,实现教育内容全覆盖,帮助用户掌握系统化的理论知识和实用技能。④高级阶段:将RR教育嵌入科研能力突出的用户群体,结合科研项目特点、实验室环境、实际需求因素,定制个性化高端课程项目,最终实现教育内容由浅入深、由易到难的梯度进阶[35],确保不同科研群体的需求以不同形式得到精准匹配。
美国医学馆的RR教育内容已形成较为完善的框架结构,理论性与实践性较强,可引他山之石,为我国医学馆开展RR教育教学内容设计所用,但同时还应深化内容建设。一方面,加强对FAIR数据管理原则、数据生命周期理论等的解读,挖掘提炼满足科研可重复性的全新概念要素、方法要素、工具要素、流程要素、目标要素;结合生物医学领域内各个专业学科的具体特点,对可重复性基础理论中的概念、方法、原则等做进一步细化,不断丰富教育内容内涵。另一方面,要兼顾外延。RR教育融合了数据科学、统计科学、科研伦理等众多学科领域的知识,形成综合性教育内容体系,呈现出内涵与外延学习并重的特点。例如,可重复性工具软件的学习势必要以一定的编程、计算机应用技术知识为基础。加州大学伯克利分校面向高年级本科生和研究生开设《可重复性与协作的统计数据科学》(Reproducible and Collaborative Statistical Data Science)课程,其课程准入的基本条件是必须已修数据计算、概率统计等课程,以此来满足学生在R语言学习中所需的相关学科知识。因此,我国医学馆需明确RR教育课前准入条件,加强数据管理、基础编程、概率统计、开源软件等关联课程建设,使所授内容和受教群体的先验知识建立明确的联系,以便提高教学效果。
美国医学馆的数据馆员、学科联络员、咨询馆员、技术馆员以及可重复性专职馆员等大都具备生物医学或相关学科背景,学历水平高,有能力承担RR教学任务。除此之外,多层次的馆员培训项目,如i-Schools联盟院校提供的学术进修课程[36],Project TIER专业培训机构的RR教学研讨会,波士顿大学健康科学图书馆与LIS、Elsevier共建的研究数据管理图书馆馆员学院(Research Data Management Librarian Academy,RDMLA)[37]等,还能有效弥补大多数馆员在RR教学与指导实践过程中所存在的技能鸿沟,确保馆员始终作为RR教育的中坚力量存在。
我国医学馆要想在未来确保RR教育的主导性,就必须同设立信息资源管理专业的院校加强合作,并充分发挥行业协会继续教育的职能,构建全方位教育体系,传授数据分析、开源编程等技能知识,以及特定情境下的教学策略、教学策划、教学管理等内容,提升馆员教育教学能力,打造RR教学所需的专业化人才队伍。