FAIR原则在科技期刊数据出版中的应用实践与推进建议

2022-10-11 08:31■雷雪

中国科技期刊研究 2022年8期

■雷雪

中国科学技术信息研究所，北京市海淀区复兴路15号 100038

科学数据具有独立的身份识别、属性描述、监控机制和溯源流程[1]，包括但不限于原始或处理过的数据文件、软件、代码、模型、算法、方案、方法、材料等，是科学研究不可或缺的组成部分。从开放获取出版到开放数据，随着开放科学运动向纵深发展，科学数据逐渐占据与学术论文同等甚至更为重要的位置，科学数据出版日益成为数据密集型科学发现的重要学术传播方式。依托科技期刊的数据出版主要包括两种模式：一是作为论文辅助资料的数据出版；二是以数据论文形式的数据出版。

FAIR原则是一套数据管理原则，由科研人员、出版商、基金组织、图书管理员和档案管理员组成的多元社区创建，目的是通过良好的数据管理支持科学数据的重用，特别是提高机器自动发现和使用数据的能力。目前国内FAIR原则的相关研究多聚焦于FAIR原则的背景、内容推介[2]，在欧盟科学数据管理领域的实践路径[3]，以及在领域数据库、数据出版平台中的应用[4-5]等，仅有少数学者探讨了FAIR原则背景下国际出版集团的数据政策及实践[6]。随着FAIR原则的推广，国际期刊出版商不断制定及更新出版规范促进数据FAIR化，以推动期刊科学数据的开放共享和复用。科技期刊数据出版是FAIR原则应用的重要领域，但相关研究不足。本文以科技期刊数据出版流程为主线，探讨FAIR原则在各环节的应用，以期对我国数据出版的实践开展有所帮助。

1 科技期刊数据出版的现状及流程

1.1 科技期刊数据出版的国内外发展现状

为提高论文同行评审的严谨性并促进数据重用，很多期刊要求作者在提交论文的同时将数据提交至相关数据库中，数据与文献的关联由来已久。如：自1995年起，天体物理学数据系统(Astrophysics Data System，ADS)提供出版物文献到相关数据集的链接，允许用户直接访问与文献相关的数据[7]；2013年，Nature系列期刊面向生命科学领域论文实施18项审查，并强烈建议通过公共存储库共享数据[8]；2014年PLoS系列期刊要求作者提交论文时，必须提交一份基于PLoS政策的数据可用性声明，共享科研数据及与之相关的元数据和方法[9]。为促进高质量科学数据的永久保存及共享交流，数据期刊随即出现，如Springer Nature于2014年正式推出的ScientificData、Wiley创办的GeoscienceDataJournal、Elsevier创办的DatainBrief等，都是比较有代表性的数据期刊。欧美国家也建设了多个符合主流数据标准或惯例的通用数据存储库(如 Figshare、Dryad、Zenodo 等)和学科数据存储库(如NCBI、ENA等)，以支撑科技期刊论文数据存储。

在国内，2015年国务院发布《促进大数据发展行动纲要》(国发〔2015〕50号)，明确提出“积极推动由国家公共财政支持的公益性科研活动获取和产生的科学数据逐步开放共享”[10]；2018年国务院办公厅发布《科学数据管理办法》(国办发〔2018〕17号)，进一步提出“主管部门和法人单位应积极推动科学数据出版和传播工作”，从而将我国科学数据出版工作推进“快车道”[11]。中国科学院计算机网络信息中心于2015 年创办的《中国科学数据》，是国内第一种综合性、多学科的纯数据期刊；中国科学院地理科学与资源研究所也于2017 年创办了《全球变化数据学报》(中英文)。在对应的科学数据存储方面，2019年科技部国家科技基础条件平台中心在高能物理、基因组、气象、海洋等领域组建了20个国家科学数据中心用于支撑数据汇交；ScienceDB、GSA等数据存储库已面向国内外科技期刊提供数据存储服务，并得到Elsevier、Wiley、Springer Nature、Cell Press等国际知名学术期刊出版商的认可。

1.2 科技期刊数据出版的一般流程

随着开放科学实践的不断推进，出台科学数据政策的科技期刊数量日趋增多。Springer Nature、Elsevier、Wiley、Taylor & Francis四大学术期刊出版商都有明确的研究数据出版政策。虽然发布者已在多学科期刊数据政策的要点上达成共识，但各期刊政策在内容、可发现性、基础架构等方面不尽相同，甚至存在较大差异。因此，近些年学术期刊出版商努力促进、实施和执行相对标准和统一的研究数据出版政策，同时也提供给科研人员相应的数据管理计划。

在出版流程上，作为论文辅助资料的数据是将数据作为补充材料随论文一起提交。数据集可以存储在期刊指定或推荐的数据存储库中，可视为期刊和数据存储库的联合出版。数据论文出版则是将数据集作为出版主体，数据论文详细描述数据收集的理由和方法，但没有给出分析过程或结论，重点关注数据集本身。两种模式都涵盖数据描述与存储、数据审查、数据发布与共享等主要环节，如图1所示。

图1 科技期刊数据出版流程

2 FAIR原则对科技期刊数据出版的价值

FAIR原则于2014年被首次提出，经FORCE11工作组修改完善后，于2016年3月正式发表在ScientificData上[12]。FAIR原则旨在面向多源、异质、异构、海量数据，提供一套通用的标准规范，以此提高数据的开放性和透明性。

(1) 发布遵循FAIR原则的数据能够提升科技期刊影响力。为确保数据能同时被人和机器使用，FAIR原则阐明了“数据对象”应具有的基本属性，即可发现(Findable)、可获取(Accessible)、互操作(Interoperable)和可重用(Re-usable)，每个属性下又有子属性。这些原则不仅适用于传统意义上的“数据”，也适用于产生数据的算法、工具和工作流程。所有学术数字研究对象，从数据到分析路径，都受益于这些原则的应用，这是因为研究过程的所有组成部分都必须可获取，以确保透明度、再现性和可重用性。数据出版遵循FAIR原则增加了研究人员和机器发现与他们的研究相关的第三方数据的可能性。同样，通过传播遵循FAIR原则的数据和可以被充分发现和重用的相关资源，出版物的影响范围不断扩大、品牌影响力不断提升。有证据表明，随附公开、FAIR数据的文章被引用的次数较多[13]。

(2) 遵循FAIR原则有益于培育良好的数据出版生态。FAIR数字对象位于一个更广泛的FAIR生态系统中，包含了FAIR的服务和基础设施。FAIR的实现至少依赖于以下基本组件：数据政策、数据管理计划、标识符、标准和存储库。在这个生态系统中，数据政策由几个利益相关者发布，帮助定义和规范数据出版的需求。数据管理计划提供动态索引，阐明与项目有关的信息及其与各种FAIR组成部分的联系。持久标识符被分配到FAIR生态系统的许多方面，包括数据、软件、机构、研究人员、资助者、项目和工具。对于从用于数据描述的元数据、词汇表和本体到用于数据访问的传输和交换协议，以及管理存储库认证或数据管理计划的标准，规范和标准也是数据出版要考虑的重要方面。存储库提供数据库和数据存储服务，并且应该经过认证以确保可信任[14]。期刊数据出版不仅要制定相应的期刊数据政策、发布数据管理计划供研究人员参考，还要制定相应的元数据标准供研究人员描述数据、数据库存储数据，它与FAIR生态系统是契合的。FAIR原则的应用有利于促进科技期刊数据出版生态建设。

3 FAIR原则在科技期刊数据出版各环节的应用现状

科技期刊通常允许用户通过网页提交、FTP上传等多种方式提交数据至指定的存储库并获得数字对象唯一标识符(Digital Object Identifier，DOI)，实现了元数据、实体数据、数据集与数据论文/传统论文的关联一体化出版[2]。国际大型期刊出版商及国内外代表性科技期刊的数据出版流程几乎涵盖了FAIR原则的所有核心内容。

3.1 在数据描述与存储中的体现

实现FAIR的核心是FAIR的数字对象，这些对象可以是数据、软件、协议或其他研究资源，需要伴随持久标识符和足够丰富的元数据，以便快速、准确地找到、使用和引用这些对象。此外，数据应该以通用的格式表示，并使用相关研究团体采用的元数据标准和词汇记录，以实现互操作性和可重用性。在共享软件和算法时，不仅应包括源代码本身，还应包括相应的声明和解释文档。实践中，Springer Nature、Elsevier、Wiley、Taylor & Francis四大学术期刊出版商均推荐作者选择符合FAIR原则的数据存储库。Figshare、Dryad、Zenodo等是出版商一致推荐使用的通用数据存储库；若作者首选的数据存储库不在出版商推荐之列，则建议作者使用FAIRsharing.org或re3data.org来搜索合适的存储库——两者都提供了认证的数据存储库列表。数据集中存储便于将来数据的可发现、可获取、可交互和可重用。相较于通用数据存储库，领域数据存储库可能更有利于数据FAIR化，这是因为专业数据库更有利于领域元数据标准的使用。

以Elsevier为例，其旗下的Mendeley Data存储库将FAIR原则作为数据共享解决方案的核心[15]。(1)在可发现层面：Mendeley Data数据集的元数据索引建立在通用索引之上，使用OAI-PMH协议的OpenAIRE，并共享开放科学框架；Mendeley Data Search是一个开放的搜索引擎，可以检索来自数千个公共存储库的2000多万个数据集；Mendeley Data存储库中的所有数据集(涵盖底层数据集和各种版本)都分配有DOI，数据集包含对元数据和文件的深度索引。(2)在可访问层面，Mendeley Data存储库收录的所有数据仍归研究者或机构拥有和控制，若所有者决定公开共享数据，则可以使用16个开放数据许可；确保数据集所有者保留对数据访问级别的控制，可选择公开共享或受限共享等。(3)在可互操作层面，通过使用JSON格式的REST APIs与其他RDM工具集成，在更新数据集版本时可保留源版本，为标准字段和自定义元数据字段提供受控词汇表和标识符。(4)在可重用层面，除支持Dublin Core和schema.org等标准元数据模式外，允许机构和研究者将特定领域的自定义元数据字段添加到数据集，鼓励研究者在数据集描述中包含逐步的数据再现性指导信息。

3.2 在数据审查中的体现

科学数据的质量涉及内容质量、形式质量、访问质量和效用质量等多个维度，尚无统一标准。数据质量控制是将纷繁复杂的数据资源转化为序化可信的数据资产的有效途径，而数据审查是数据质量控制的重要方法。与传统期刊论文不同，数据集通常体量庞大且结构复杂，许多关键问题尚待探讨，如数据集类别、数据可用性声明与质量控制的关系，同行评审尤其是学术质量评审的核心内容等[16]。Springer Nature、Elsevier、Wiley都规定了数据审查的内容，均在其最高级别的数据政策中提出了同行评审的要求，Wiley还进一步提出同行评审可能涉及重复性验证，以确保期刊文章中的声明是有效和可重复的。大部分数据期刊都沿用了传统期刊的同行评审模式，制定各自的评审标准，但指标体系与学术论文评审有很大不同。除了考虑数据完整性、数据与论文的一致性、数据自身质量外，数据是否可发现、可存储、可互操作、可重用，也是评审专家需要考虑的重要方面。代表性数据期刊ScientificData(SD)、EarthSystemScienceData(ESSD)、GigaScience(GS)和《中国科学数据》的数据审查中与FAIR原则相匹配的指标如表1所示。其中，《中国科学数据》的数据评审指标设计将FAIR原则作为基本指导原则，基于此制定了可获取、可评估、可理解和可重用4个一级指标，并结合数据生命周期中的质量元素，考虑数据出版重点关注内容，进一步细化出二级指标[20]。其他代表性期刊的评审标准中也对FAIR原则有不同程度的体现。

表1 期刊数据审查标准中与FAIR原则相关的指标

3.3 在数据发布与共享中的体现

期刊数据发布一般都具有清晰和可访问的数据使用许可。可获取原则强调在尊重知识产权和授权与许可的前提下，数据资源可被人类和机器获取。出版集团通过要求作者在文章中提供数据可用性声明，说明数据存储在何处、数据链接，以及数据可访问和可获取的条件。但是，这种在文章中提供的声明目前还主要以科研人员为服务对象。要达到可获取原则的要求，不仅要求面向人类和机器的数据资源检索协议清晰明确，还要为元数据建立长期保存政策、机器可操作性模板和框架。

对于数据引用，各期刊出版集团都规定了详细的引用格式，包括作者、数据集名称、数据集存储库名称、版本、年代、DOI 等信息；鼓励作者引用数据集，并将引用数据集的条目和引用文章的条目同等对待，共同放在文后参考文献列表中。BigEarthData规定：他人在使用作者提供的数据时，应该遵循CC-BY 4.0 或CC0等知识共享协议；他人引用BigEarthData的数据论文，则建议采用传统参考文献格式引用数据论文，同时还应引用关联数据集。数据集被引用将会极大地激励数据集作者开放共享数据集，同时也帮助提高数据集被发现和获取的可能性。大多数受访者认为在参考文献列表中正式引用数据集是承认创建者贡献的正确方式，被引频次被认为是最有效的衡量指标，下载数量被认为几乎具有同样价值[21]。

4 推进科技期刊数据出版中FAIR原则应用的建议

自2014年被提出以来，FAIR原则在科学共同体中产生强烈反响，从理念到实践的活动逐步推进，如GO FAIR全球推进计划的发起及GO FAIR全球支持与协作办公室的成立、欧盟将FAIR原则纳入欧洲开放科学战略计划中，以及在部分领域数据库和科学数据平台建设中展开实践等。目前，这些项目在世界范围内仍处于着力推进阶段，尚未得到广泛应用。为推进FAIR原则在科技期刊数据出版中的应用，本研究提出如下建议。

4.1 加强出版商与利益相关方的协作

FAIR原则在科技期刊数据出版中的应用涉及以下对象：(1)研究社区，包含来自所有研究领域的从业人员，他们通常因为学科兴趣、数据类型或跨领域的重大挑战聚集在一起；(2)数据服务提供商，包括领域知识库、研究基础设施(如ESFRIs)和电子基础设施，以及机构、社区等；(3)数据管理员，来自研究社区和学术图书馆的数据支撑人员，以及数据存储库管理人员；(4)标准组织，如协调与FAIR相关的数据标准和治理程序的正式组织和联盟，如知识库认证、课程认证(如W3C、NIST)等；(5)协调组织，如研究数据联盟(Research Data Alliance)、CODATA、WDS卓越社区(WDS Communities of Excellence)、GO FAIR、德国数据论坛(German Data Forum)、荷兰协调点(Dutch Coordination Point)和类似的倡议组织；(6)决策者，包括政府部门、国际组织(如经合组织)、研究资助者、出版商以及其他制定数据政策的机构；(7)研究资助方，如欧洲委员会(the European Commission)，各国家层面的科研资助机构、慈善组织和基金会，以及其他一些社会资助力量；(8)研究机构，主要为高校和科研机构；(9)出版机构，即研究论文和数据的出版商或出版社，包括非营利的和商业的机构，涵盖开放获取形式或付费形式。其中数据服务提供商、标准组织、协调组织、决策者等在实施FAIR原则方面扮演着重要角色，发挥着重要作用。出版商需要与上述利益相关方通力协作，构建和谐生态，共同推进FAIR原则的落地实施。

4.2 大力推进领域数据存储库的建设

通用数据存储库通常依赖于用户输入的元数据，这可能并不符合严格的FAIR标准。领域数据存储库在提供和保存FAIR数据方面发挥着关键作用：它们汇集了相关领域的专业知识，可以执行社区标准，并可能提供高质量的长期保存和管理服务。但目前科技期刊对数据集描述的内容要素和结构标准并不统一，同一学科领域数据存储库的元数据标准也存在多样性。元数据是出版内容的基本单元，对跨平台实现互操作具有重要意义，因此对元数据结构标准进行规范是保证数据高度共享的关键举措。

未来数据期刊应遵循统一的或可互操作的元数据规范与标准，为大数据环境下的数据密集型研究与科学发现奠定基础。政府和科研项目资助机构应建立和认证国家或领域数据存储库，加强期刊与仓储的关联，共同推进具有科学数据管理、发布、共享、重用功能的数据生态体系建设。科技期刊应推荐研究人员使用特定学科领域的数据存储库，或者将数据存放在符合FAIR标准的、经过认证的通用数据存储库中[13]。

4.3 强化面向研究人员的宣传推广

虽然“开放数据”在研究社区中逐渐得到认可，已经成为研究人员的主流话题，但FAIR原则还没有被广泛了解。《数字科学报告：开放数据的现状》项目组的系列调研结果显示：2018年60%的受访者表示从未听说过FAIR原则[22]；2019年54%的受访者表示从未听说过FAIR原则，特别是在对FAIR相关联盟或倡议的了解上，大多数研究人员甚至并不了解与FAIR原则相关的任何一个组织、联盟或倡议，如对GO FAIR熟悉的受访者仅占5%、从未听过的占77%，对DataCite熟悉的仅占4%、从未听过的高达82%，对FORCE熟悉的占11%、从未听过的占69%[23]；2020年受访者中从未听说过FAIR原则的比例下降到39%[24]。在总体熟悉度方面，受访者对FAIR熟悉的占比从2018年的15%提升到2019年的18%，再到2020年的24%。从上述数据可以看出，研究社区对FAIR原则的理解和采用逐渐变得普遍。

2021年11月召开的联合国教科文组织第41届大会审议通过了《开放科学建议书》，开放科学被定义为一个集各种运动和实践于一体的包容性架构，旨在通过数据、协议、软件和基础设施的开放共享，使整个科学过程更加容易获取和透明。从开源软件、开放获取到开放数据，开放科学逐步迈入全球共识的新阶段。FAIR原则是良好数据管理的基础，也是数据开放共享的保障条件之一。目前FAIR原则在研究社区的普及率并不太高，期刊出版界在推动数据FAIR化的过程中还有很多宣传推广工作要做。

5 结语

本研究选取Springer Nature、Elsevier、Wiley等国际大型学术期刊出版商和ScientificData、EarthSystemScienceData、《中国科学数据》等代表性数据期刊为样例，分析FAIR原则在科技期刊数据出版中的实践现状。研究发现，国际大型学术期刊出版商均推荐作者优先选择符合FAIR原则的数据存储库，代表性数据期刊的数据评审指标、数据发布与共享协议等也与FAIR原则具有高度契合性。遵循并应用FAIR原则，成为期刊界对科学数据出版的共识。我国也需要大力推进FAIR原则的本地化应用，以保障科学数据资源的存储发布与开放利用。