■孔丽华 习 妍 姜璐璐
中国科学院计算机网络信息中心,北京市海淀区东升南路2号 100083
随着大数据时代的来临以及大数据在各领域的广泛应用,继实验科学、理论科学、计算科学之后出现了被称为“数据密集型科学”的第四种科学发现模式[1]。科学数据不仅是科研成果的重要产出,也是科技创新的基础驱动力。科研结果,尤其是科研数据的开放共享,是保证科研结果的可验证、可分享、可重现的基础支撑,也是科研促进技术、行业和社会创新发展的重要手段[2],是开放科学的重要组成部分。科技期刊作为学术交流的重要平台,需要最大限度地满足学术交流的需求[3]。从学术交流的角度制订科技期刊的数据政策,实现论文关联数据的开放出版,并将其作为学术交流的重要组成部分,必将对推动科研数据开放共享,促进数据重用、数据引用和科研评价具有重要作用,也是治理学术环境和学术评价机制的重要策略。
本文通过对国内外科技期刊关联数据的存储与共享现状进行比较分析,对我国科技期刊的相关问题进行调查分析和原因剖析,进而分析学术期刊数据关联存储和开放获取的影响因素,提出科技期刊关联数据存储和发布共享的规范化建议。由调研可知,目前国际出版商和各科研机构与组织均开展了科学数据开放共享的相关研究,越来越多的出版商和期刊正在制订和引入数据政策,但关于我国期刊数据政策制订的研究较少,在期刊政策方面少有落实,没有统一的政策可以参考。本文拟调研国际期刊的数据政策,并在此基础上,结合我国现有基础设施,搭建了一个适合我国国情的期刊关联数据出版政策框架,以期为完善我国期刊数据政策提供参考,从而推动我国期刊数据发布与出版的发展,推动作者在发表学术论文的同时提交基础研究数据,这对于推动研究数据的共享与再利用具有重大意义。
开放科学中心(Center for Open Science,COS)针对期刊出版提出《期刊透明性与开放性指南》[4](以下简称《TOP指南》),要求期刊在来源引用、数据、代码、研究材料、研究设计与内容分析、研究预注册和重复验证等方面透明开放。当前,很多出版商和相关机构都制订了自己的分层化数据共享政策,包括无要求、鼓励、强烈建议和必要条件等,对期刊在制订和执行数据共享政策的具体实施策略进行了分级定义,鼓励期刊和作者选择合理且实用的共享等级来分级共享论文关联数据。Elsevier、Springer Nature、Taylor & Francis、Wiley都提供了相应政策和服务来支持旗下期刊实施数据共享(表1),主要包括对数据存储库的合理选择、数据与论文的交互引用,以及对数据可用性的声明等。
表1 国际出版商期刊数据政策的制订及相关服务情况
2017年,Vasilevsky等[5]对318种期刊数据共享政策的分析统计显示,大约有21%(67种)的期刊对数据提出了明确的强制性数据共享要求(Required),其中:38种期刊将数据共享作为出版条件;103种期刊提出建议,鼓励共享数据;47种期刊针对特定数据类型提出了相关说明;其余的101种期刊并没有提出相关要求。STM(Science, Technology and Medicine)近年来非常重视研究数据的相关活动,宣布2020年为“STM研究数据年”[6],通过与出版商的合作,如在文章中明确数据可用性声明(Data Availability Statement,DAS),并将数据链接有效保存和合理引用等,从而促进研究数据的有效共享。针对不同期刊的数据开放政策,开放科学中心还推出了TOP Factor[7],对期刊政策进行评估,以评估其在促进数据透明性和可复制性这一核心学术规范方面的贡献。
莱顿大学科学与技术研究中心(Centre for Science and Technology Studies,CWTS)与Elsevier合作,进行了一项针对开放数据实践的研究项目。该项目对数据期刊的出版和引用情况进行定量分析,发现尽管数据期刊的数量有限,但是它们在发表的文章数量和被引频次方面起着越来越重要的作用[8]。
2014年,傅天珍等[9]对荣获“中国最具国际影响力学术期刊”称号的期刊数据政策进行调查,结果显示:我国出版的175种自然科学与工程技术期刊中,40种期刊制订了数据政策;56种人文社会科学期刊中,5种期刊制订了数据政策。彭琳和韩燕丽[10]则以中国科学院主办的65种SCI收录的英文科技期刊为研究对象,通过期刊网站的投稿指南调研这些期刊的数据政策,结果显示37种(57%)样本期刊制订了数据政策,其中84%的期刊实行鼓励性政策,16%的期刊实行强制性政策,同时也指出这些期刊基本上是参照海外合作出版社的政策制订自己的数据政策。
为了解我国期刊的数据出版政策,2018年笔者在中国地学领域期刊中选取了SCI统计源期刊影响因子前10名的期刊和CNKI年报统计的复合影响因子前10名的中文期刊,对其网站上发布的数据政策相关信息进行了核查[2]。在10种SCI统计源期刊中,有5种期刊强制要求共享数据,3种期刊采取鼓励共享数据的政策,另外2种期刊没有明确提及数据出版政策。CNKI年报统计复合影响因子前10名的中文期刊中,无一提及数据出版政策。
本研究重点调研2019年首批“中国科技期刊卓越行动计划”(以下简称“卓越行动计划”)入选期刊相关数据政策的制订及实施情况,选取了“领军期刊”“重点期刊”和“梯队期刊”共计250种期刊(考虑到新创期刊的实施进度不同,本次调研暂未将“高起点期刊”统计在内)。不同类别期刊在数据政策制订方面的情况如表2所示。可以看到:鼓励数据共享模式主要作为一般性建议,不作为论文出版的必要条件;强烈建议模式则从数据标识、可用性声明以及引用等方面给出指导性建议,作者自行决定共享协议;强制要求模式,则要求作者将数据存储到指定的数据存储库,提供数据的标识、可用性声明以及引用格式,并对数据进行一定的审核,以数据的共享出版作为论文发表的前提。
表2 “卓越行动计划” 入选期刊的数据政策统计
调研结果显示,60%的“卓越行动计划”入选期刊为英文期刊,且多为与国际出版机构有相关合作的期刊,这类期刊大多在遵循相关出版机构统一政策的基础上,选择执行与自己期刊相符合的数据政策,如《地球化学学报(英文)》《生态系统健康与可持续性(英文)》等,这与之前的调研结果[10]基本保持一致。还有个别期刊开设了《数据论文》栏目,如《大气科学进展》《生物多样性》《植物生态学报》《中国物理B》《化工学报》。相比之下,自行制订数据政策的“卓越行动计划”入选中文期刊却很少。此外,还存在部分期刊官方网站的数据政策声明不明确,数据政策制订标准不一致,对数据可用性声明以及数据引用的要求各不相同等问题。比较而言,我国期刊在制订数据出版政策上起步较晚,很少有期刊或资助者将共享数据或材料作为出版或资助的条件,还有一些期刊采取观望的态度,不知该怎么做,更谈不上采用统一的数据共享和出版政策。
科学数据(Scientific Data)主要指科研活动中产生或加工的数据。根据我国2018年发布的《科学数据管理办法》(国办发〔2018〕17号)第二条,科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据[7]。
科学数据的生命周期是依据科研过程发展而来,是一个从数据产生收集、加工处理到数据发布、再利用的循环过程。科技期刊作为学术交流的主渠道、学术传播的主力军,也是科技治理的有效工具[11]。当今世界,互联网从根本上改变了人们创造、交流知识,以及互动的方式。科技期刊也催生了新的出版模式,知识不再是限定了格式和数量的“只读”形式,例如随着数据出版、预印本等的出现,人们拥有了前所未有的实施使用、适应和构建知识的能力,可以自主解决问题并获得新的发现。数据出版作为数据生命周期中的一个组成部分,形成闭环且深度参与其中,并反向促进相关数据管理及学科的发展。
2.2.1 期刊关联数据的定义
期刊关联数据主要是指用于支持验证相关论文研究结果的观察或实验数据,期刊界常将其称为“研究数据”(Research Data)。不同学科领域以及各大出版机构在提出数据政策中对于研究数据的定义和范畴略有不同(表3)。
表3 出版商对期刊关联数据的定义及范畴
2.2.2 期刊关联数据出版的基本流程
期刊数据政策是创建期刊数据出版生态的首要环节,涉及数据提交、数据描述、数据保存、数据审核、数据引用与再利用等数据生命周期阶段。科技期刊关联数据出版的基本流程如图1所示。
图1 科技期刊关联数据出版的基本流程
一般地,期刊关联数据出版主要包括将论文关联数据以附件形式作为补充材料提交到期刊网站(提交补充材料)、将关联数据提交至第三方存储库(出版关联数据),以及以数据论文的形式(出版数据论文)进行数据出版这三种主要形式。参照目前国际学术界提出的研究数据共享基本准则——FAIR原则(FAIR Data Principles):可发现(Findable)、可获取(Accessable)、可 互 操 作(Interoperable)、可重用(Reusable)[17],本研究对三种出版形式的主要优缺点进行对比,结果如表4所示。本研究主要分析后两种出版形式,在相关的调研和统计中,也以后两种形式为主要信息统计源,而第一种以附件形式将论文关联数据提交至期刊网站的出版形式,暂不计入本研究的统计范围。
表4 期刊关联数据出版主要方式的比较
基于以上调研与分析,本研究针对科技期刊关联数据出版方式二(关联数据出版)和方式三(数据论文出版),基于国内外科学数据的开放共享政策体系,分别从FAIR数据原则的4个方面(可发现、可获取、可互操作与可重用)提出期刊在实施论文关联科学数据出版政策时的要素(表5)。
表5 基于FAIR的科技期刊论文关联数据出版要素
(1)数据定义,用于定义该数据出版策略适用于哪些研究数据,以及涵盖的研究数据类型。不同出版机构或期刊对其数据共享中的数据设置了不同的定义范畴。本研究所指的数据主要是聚焦在与论文研究成果关联的数据,研究数据包括作者生产的数据(原始数据)和作者在研究中分析过的其他来源的数据(次级数据)及部分相关资源信息。
(2)数据标准与规范,主要指鼓励期刊明确对特定领域使用社区/学科特定数据标准的要求,包括在哪些情况下是必需参照执行,哪些情况下不是必须执行的;明确说明是首选还是需要某些文件格式,例如开放格式,以便于数据的共享与交互重用。
(3)共享策略。各学科在科学数据开放共享上的发展程度不一,也并非所有的数据都适合完全开放共享,应允许对数据可用性进行合理限制,以保护人类隐私、生物安全或尊重经第三方许可获得的数据的合理使用条款。如政务数据(包括政府、地方和国际组织持有的数据),使用政务数据的社会科学和其他研究必须确保数据的使用符合当地数据使用的监管和法律框架。另外,对于涉及人类数据(或其他敏感信息数据)的数据存储库,可授权特定用户在特定时间范围内的数据访问权限等。数据的共享与出版还受到相关领域科技管理政策、项目资助方管理政策、项目数据管理计划相关要求等方面的影响。如若项目资助方对论文支撑科学数据的开放共享时限有明确的时间要求,则以项目资助方的要求为准。在论文支撑科学数据的开放共享时限上,不同学科间存在差异,一般要求在论文发表后12个月免费开放,具体情况以项目资助方要求为准。科技期刊需根据所属学科领域和出版论文形式等实际情况,在制订相关数据政策时选择科技论文关联科学数据的共享等级开展数据开放共享工作,并确定共享时间。
(4)存储库的选择与推荐。论文关联科学数据的开放共享需要依托专业的数据仓储库。期刊应认定和推荐一个/批适合期刊关联数据的数据存储库,并在数据出版政策中提供推荐列表,以支持研究人员为其数据寻找合适的、安全可靠的数据存储库。一般期刊可根据本专业领域使用和认可情况,提供专业存储库列表和通用存储库列表,以便数据共享和重用。对于有专业型科学数据仓储库的期刊,优先选用能够提供符合学科数据共享标准服务的专业型科学数据仓储库共享数据,这将最大限度地提高共享数据的互操作性和可重用性。此外,优先选择具有高可信度的数据仓储库存储数据,如已经在国际主流数据仓储平台(re3data、FAIRSharing等)注册或得到认证的数据存储库。
(5)数据标识。有效的数据发现是科学数据开放共享的关键。科学数据资源的唯一标识可以帮助确保数据的可访问性、可发现性和可引用性,是科学数据开放共享的关键组成要素。唯一标识需要选择符合国内外标准的标识体系,能够唯一标识某一具体数据集,如中国科学技术资源标识标准体系(Chinese Science and Technology Resource Identifier,CSTR)、数字对象唯一标识符(Digital Object Identifier,DOI)等。
(6)研究数据的同行评审。期刊可根据具体情况,选择对数据的评审要求,例如数据论文要求对数据进行评审[18]。一般情况下,如果审稿人提出要求,在数据使用协议的条款范围内,并且符合道德和法律要求,作者必须提供数据用于同行评审。
(7)数据的可用性声明。一般情况下,作者应在没有限制共享的合理理由情况下立即向读者提供有关的原始数据集(研究期间生成)和参考数据集(研究中分析的数据集),并对读者公开访问,这也是解释、验证文章研究结果的必需条件。因此,作者必须在提交时向编辑披露对数据可用性的任何限制,并在文章中增加“数据可用性声明”部分,详细说明如何找到支持研究结果的数据。一般地,数据可用性声明放在致谢和参考文献列表之间。具体需要指出的内容包括:哪些数据将被共享;数据何时可用以及持续多长时间;通过何种访问标准共享数据(包括与谁共享,进行哪种类型的分析以及通过何种机制共享)等。如果数据是公开可用的,则必须提供相关的登录代码或其他唯一标识符。不想或者不能共享数据的作者必须声明将不会共享数据,并说明原因。
(8)数据引用。科技期刊关联数据集可在文章和参考文献列表中关联并正式引用,包括登录号或唯一标识符,这也符合国际上广泛采用的《Force11数据引用原则》[19]。DataCite建议的数据引用信息最少包括作者、标题、发布者(存储库名称)和标识符。我国国家标准化管理委员会2017年发布[20]的《信息技术 科学数据引用》(GB/T 35294—2017),自2018年7月1日起正式实施,该标准规定科学数据的通用引用格式为: “作者.名称(版本).创建机构[创建机构],创建时间.传播机构[传播机构],传播时间.唯一标识符; 解析地址.”。样例如下:
李振宇,解吉波.2018 成都洪涝灾害多源时空数据集(V1.0).2018.Science Data Bank.DOI: 10.11922/sciencedb.712; http:∥www.dx.doi.org/10.11922/sciencedb.712 csdata.
(9)共享(使用许可)协议。科技论文关联科学数据的开放共享使用需要遵循国际主流的开放许可协议。从最大限度地促进科学数据开放共享的角度出发,所设计框架推荐数据共享者采用CC BY 4.0协议共享其数据。
(10)数据版权。根据科研资助机构的项目要求,以及《中华人民共和国著作权法》中科研教育机构的职务作品要求和科学伦理与道德约束规范等,作者应在提交论文及数据时明确署名,并允许读者在使用许可的条件下对数据进行传播利用等。
综上所述,基于FAIR的科技期刊关联数据出版基本要素如表6所示。
表6 基于FAIR的科技期刊关联数据出版要素
此外,数据出版的元数据信息及相关接口也是一个重要的影响因素,因其与数据存储库相关,所以并未列入期刊关联数据出版要素中。这部分信息主要包括创建日期、文件类型和格式、数据创建者、关键词、位置、数据描述及其生成方式、与其他数字对象的关系,例如描述和分析数据的文章 DOI、版本信息、与其他数字对象的关系,以及可能与施引文章主题领域相关的其他信息。
科技期刊需根据所属学科领域和出版论文形式等实际情况,选择科技论文关联科学数据的共享等级开展数据开放共享工作。本研究基于笔者参与的“科协论文关联科学数据仓储库平台”项目相关研究所提出的论文关联科学数据共享4级政策,搭建了一个可以面向不同期刊的通用研究数据政策框架,并将研究提出的10个出版要素纳入其中,以支持不同期刊数据政策的制订。
各学科在科学数据开放共享上的发展程度不一,如生命科学、地球科学、空间科学等学科已具备良好的数据共享环境和数据共享基础,而其他学科一方面存在数据共享发展尚不全面的情况,另一方面某些学科领域本身对数据共享的依赖性并不高。并非所有的数据都适合完全开放共享,对于特定领域涉及敏感信息的数据,以及受保护数据的共享,需要有第三方认证机构的认可后方可共享。此外,还应遵循资助机构等的相关要求。综上所述,有必要建立分级分类的数据共享要求。
本研究将论文关联科学数据共享要求分为4个等级,逐级增强数据的质量与数据共享要求。
(1)开放共享等级1:鼓励但不强制要求论文关联科学数据共享等级。不强制要求科技论文关联科学数据开放共享,但鼓励作者在条件允许的情况下共享支撑其论文成果的科学数据。共享的论文关联科学数据需要存放在符合要求的科学数据仓储库中,开放共享的论文关联科学数据需要允许被重用和被规范引用。
(2)开放共享等级2:要求提供论文关联科学数据的可用性声明等级。作者需要在论文中明确提供与发表研究关联的科学数据可用性声明,声明内容应包括:可获取数据集的访问路径或DOI信息;对于尚无法开放获取的科学数据,作者需要在数据可用性声明中明确提供数据获取方式(例如如何联系数据作者)或获取条件等信息。可开放共享的科学数据需要存储在符合要求的科学数据仓储库中。开放共享的论文关联科学数据需要允许被重用和被规范引用。
(3)开放共享等级3:强制要求论文关联科学数据开放共享等级。强制要求作者开放共享其论文的关联科学数据,且论文的支撑数据需要在符合要求的科学数据仓储库中开放共享;开放共享的论文关联科学数据必须允许被重用和被规范引用。作者需要在论文中明确提供与发表研究关联的科学数据可用性声明。期刊编辑部须要对关联科学数据的存储和开放共享情况进行审查。相关数据需在论文评审中对专家开放,用于评定论文实验是否能够重现、实验结论是否具备可验证性等。
(4)开放共享等级4:要求开放共享数据具备可重现、可验证性共享等级。在开放共享等级3的基础上,增加了对关联科学数据进行学术质量评审的要求。如中国科学院计算机网络信息中心主办的《中国科学数据(中英双语网络版)》(http:∥www.csdata.org), 以出版数据论文为主,要求与论文关联出版的数据集具备可重现性及可验证性,并在审稿过程中对数据集开展形式和学术质量评审。
针对论文关联科学数据共享政策的不同等级要求,将本研究提出的10个出版要素一一纳入其中(表7),可以支持不同期刊数据政策的制订。
表7 科技期刊论文关联科学数据的共享分级及要素体现
本研究针对学术期刊关联数据出版的政策制订及框架搭建提出建议,但相关数据政策的制订及实施需要不同参与者的共同努力,本研究仅从政策方面提出以下建议,相关数据共享与出版政策的实施还需要从不同层面推进。结合我国实际形势,提出以下几个建议。
(1)各级管理机构应该鼓励和支持适当的期刊论文数据存储以及数据引用实践,确保研究人员在共享研究数据时能获得荣誉,并能为他人赢得荣誉。我国在2018年发布的《科学数据管理办法》中已经明确了相关指导意见,中科院为进一步落实国家《科学数据管理办法》以及《中国科学院科学数据管理与开放共享办法》,在2021年7月出台了《进一步加强和规范论文关联数据管理的通知》,对院属期刊和科研人员提出明确建议,这有利于相关政策的落实。同时,应从顶层进行相关政策和框架设计,方便作者和出版单位(包括编辑部)有据可循,参照执行。
(2)我国正在积极推进期刊集群化数字出版平台建设,打造国际化出版平台。建议在平台建设中,搭建方便作者共享数据的平台;对于现有的出版平台,则应通过改进作者提交流程,鼓励和支持研究人员在适当的地方尽早共享数据。
(3)数据存储机构应建立国际化的,能提供长期、稳定、安全、可访问下载服务的数据存储平台。在我国,Science Data Bank(www.scidb.cn)已经进行了很好的实践,并取得国际认可,为数据的共享提供了很好的平台。
(4)数据服务方应积极开发或调整相关系统工具和服务,尤其应做好国际化标准及服务,例如通过鼓励和使用永久性标识符的相关数据集和出版物的双向链接,以支持研究人员发现、使用和重用数据,进而促进他们的研究。
(5)编辑部应尽可能地标准化和优化作者投稿数据准则,以使作者更容易理解如何以及在何处可以存储和共享数据,从而实现最佳访问和重用。通过增加支持数据可用性声明来提高数据及期刊的透明度,使研究人员更容易遵守数据管理要求。必要的时候,应建立数据审查制度,以确保已发布的数据有效、正确并可以重复使用。
(6)作者应提高相关数据共享认识和意识,在提交论文时,认真查看期刊相关政策,了解适用的数据政策。此外,如果资助者和期刊的数据共享政策不同,需要遵循更先进的政策,即更高级别数据共享政策。
(7)在必要的时候,可建立数据审查制度,在评价机制中加入数据存储或共享等相关的内容项目,以提高重视度,推进落实。