■张泽钰 姜璐璐 高瑜蔚 李成赞* 王鹏尧 周园春
1)中国科学院计算机网络信息中心,北京市海淀区东升南路2号 100083 2)首都师范大学中国语言智能研究中心,北京市海淀区西三环北路105号 100048 3)国家基础学科公共科学数据中心, 北京市海淀区东升南路2号 100083
随着科学数据开放共享理念的进一步传播和普及,与科学数据管理有关的各类主体相继出台与数据存储、数据共享有关的政策条例。论文关联数据作为科学数据的重要组成部分,其开放共享对验证论文结论、促进科技创新、保障科研诚信发挥着重要作用。2015年6月,国际组织开放科学中心(Center for Open Science,COS)提出“透明度开放促进(Transparency Openness Promotion,TOP)指南”并在Science上发文,该指南要求期刊在引用来源、数据、代码、研究材料等方面透明开放[1],国际知名学术出版商均已宣布遵循该指南。2020年,国际科学、技术和医学出版商协会(International Association of Scientific,Technical and Medical Publishers,STM)宣布将当年定为“科研数据年”,其目标之一是增加包含数据政策的期刊数量以及包含数据可用性声明的文章数量,共21家出版商、上万种期刊参与其活动[2]。2022年10月,由Figshare、Springer Nature等多家机构联合出版的《2022年开放数据状况》提到,56%的受访者表示其进行数据共享的动机是出版商的数据共享要求[3]。论文支撑数据的不可验证威胁到论文的可信赖性和科学的公信力[4]。国际出版机构与学术期刊正在通过制定数据政策、要求提交关联数据、保证数据质量等方式方法,逐步规范科学数据管理。目前国际上大部分期刊已有较为完善的数据政策,例如Springer Nature的1721种期刊均制定了数据政策[5]。4种知名期刊Science、Nature、Cell、ProceedingsoftheNationalAcademyofSciences(PNAS)要求作者在出版论文时,必须公开提供数据和材料,所有数据、材料和代码要符合期刊的透明度和可重复性标准[6]。ScientificData[7]、GeoscienceDataJournal[8]等期刊要求必须提交支撑论文的数据材料。
近年来我国对开放科学的重视程度不断提高,政府和科研机构愈发重视科学数据的管理工作。2018年3月国务院办公厅发布的《科学数据管理办法》明确,相关部门和单位应建立健全国内外学术论文数据汇交的管理制度[9]。2019年《中国科学院科学数据管理与开放共享办法(试行)》[10]第四章专门对论文关联数据汇交与管理提出要求,强调院属期刊应逐步建立论文发表前数据汇交机制。2022年11月,中国科协办公厅和中国科学院办公厅联合发布《中国科协办公厅 中国科学院办公厅关于组织开展期刊论文关联数据汇交工作的通知》,鼓励期刊制定论文关联数据汇交政策,开展数据汇交工作[11]。2022—2023年,国家新闻出版署连续两年将“是否将论文数据加工整理并保存”纳入前一年度学术期刊出版情况核验项[12-13]。这些引导政策的出台正在督促我国科技期刊开展科学数据管理工作。
目前,我国科技期刊数据政策制定仍存在诸多实践难题。例如,期刊因不了解科学数据管理有关实践而无法指导作者开展数据共享工作;又如,期刊不具备可划分数据共享过程中各方权利义务的专业法务人员;再如,期刊人员有限,没有足够精力从事科学数据管理工作。我国科技期刊存在“小、散、弱”特点,在整体共享氛围不浓厚的阶段,各期刊研究并制定数据政策困难重重且难以取得规模性效果[14]。
已有不少学者关注科技期刊数据政策制定问题:程铭等[6]、宋永辉等[15]分别对国际出版商数据政策发展特点、科学数据政策研究热点展开调研分析;申艳[14]对国际出版商的数据政策类型、条目等进行梳理,探索我国科技期刊数据政策制定及运行模式;孔丽华等[16]对国际出版商的数据政策进行汇总,提出科技期刊关联数据出版政策通用框架;傅天珍等[17]、彭琳等[18]、孔丽华等[19]在不同时期分析了我国科技期刊数据政策制定及实施情况;雷秋雨等[20]、刘颖等[21]分别就进化生物学、医学领域的学术期刊数据政策展开研究。目前的研究主要围绕国际出版商数据政策、数据政策部分要素、我国科技期刊数据政策现状、特定学科领域的期刊数据政策等内容展开,尚未有学者提出一套适用于我国科技期刊的通用型数据政策全文模板。
在这样的大环境下,本文提出一套针对论文关联数据存缴共享的通用型科技期刊数据政策模板。该模板包含不同共享强度、不同数据审核力度的数据政策全文,内容可根据期刊实际需要自由组合、自由定制。该模板吸收了国内外期刊数据政策优秀实践经验、参考了我国科学数据管理规范体系,用以支持我国科技期刊制定数据政策、实施论文关联数据存缴共享管理,支撑世界一流科技期刊建设。
我国科技期刊数据政策建设起步较晚。2014年,傅天珍等[17]以“2013中国最具国际影响力学术期刊”为调查对象,得出结论:即使在我国最具国际影响力的期刊中, 拥有数据出版政策的期刊数量也非常有限。近年来,随着开放科学文化和科学数据开放共享理念的进一步传播普及,我国已有越来越多的科技期刊开始建设数据政策,鼓励论文关联数据共享和长期存储。本节将对近年来我国科技期刊数据政策制定情况展开介绍,并选取2种期刊的数据政策优秀实践案例进行重点介绍与分析。
2019年,彭琳等[18]调查了中国科学院主办的65种科技期刊,发现有37种(57%)期刊制定了数据政策,各期刊基本参照海外合作出版社的政策制定自己的数据政策,这些政策大多包含数据提交、存储和引用等方面的规定,只有极少数期刊规定数据审查的内容。数据政策中缺少数据著作权归属、数据的使用与许可协议等与数据相关权益有关的规定和说明。2021年,申艳[14]对我国科技期刊数据政策制定及运行模式展开研究,提出我国科技期刊目前还处在数据政策“有没有”阶段,应对数据政策的具体内容进行不同程度的分级,以便根据自身条件自由选择。2022年7—8月,孔丽华等[19]选取2019年首批“中国科技期刊卓越行动计划”的“领军期刊”“重点期刊”“梯队期刊”和2020年及2021年入选的“高起点新刊”,共计302种期刊作为调研对象,发现:22种领军期刊中有18种期刊都制定相关数据政策,占比为81.82%;29种重点期刊中有18种期刊有相关政策说明,占比为62.07%;199种梯队期刊中共69种期刊有相关政策说明,占比为34.67%;高起点新刊在创刊初期大多已经考虑相关政策,52种高起点新刊中有36种有相关说明,占比为69.23%。
1.2.1 《中国科学数据》
《中国科学数据》是专门面向多学科领域科学数据出版的学术期刊,致力于科学数据的开放、共享和引用,推进科学数据的长期保存与数据资产管理,探索科学数据工作的有效评价机制,推动数据科学的发展,促进科学数据的可发现、可访问、可互操作、可重用[22]。《中国科学数据》的数据政策主要标识在该刊“投稿指南”[23]中,其对数据内容、数据权益、数据存储库以及数据可用性声明等内容皆有所规定。
作为专门从事数据论文出版的期刊,《中国科学数据》对数据质量提出了较高要求:数据论文所描述的数据集应遵循严谨的数据生产与加工方法,采取有效的质量控制措施,同时,数据论文评审流程包括数据初审。此外,《中国科学数据》还通过图文并茂的方式对提交数据集的具体操作流程作出说明。
1.2.2 《数据分析与知识发现》
《数据分析与知识发现》是由中国科学院主管、中国科学院文献情报中心主办的学术性专业期刊,聚焦各行各业中以大数据为基础开展知识发现与预测、支持决策分析和政策制定的研究与应用,致力于提供理论指导、技术支持和最佳实践[24]。《数据分析与知识发现》制定有专门的《论文支撑数据公共保存与共享暂行办法》[25](以下简称《暂行办法》)并辅以《论文支撑数据提交流程》[26]来对提交数据类型、提交方法、数据可用性声明等内容作出补充说明。
《暂行办法》围绕与论文关联数据存缴共享密切相关的14个问题展开,涉及数据定义(数据共享范围及例外)、数据格式、数据权益、数据使用许可协议、数据公共保存平台、数据审核要求等内容。该办法结合期刊出版内容的实际特点,对数据具体内容进一步细化:不仅根据与论文直接结果的相关度划分共享强度,还结合数据领域特点,对共享何种数据进行了具体说明。同时,《暂行办法》明确了期刊、公共保存平台在论文数据存缴共享过程中的各类责任、义务。《数据分析与知识发现》依据分类管理、精准施策、多措并举、推拉结合等原则制定此办法[4]。
目前,各大国际出版商已根据自身实际情况制定相关数据政策,国际组织针对期刊数据政策提出各类建设指南或建议模板,我国有关单位和机构也已开启科学数据管理实践。
通过调研Springer Nature、Elsevier、Taylor &Francis、Wiley四大出版商数据政策,发现以下特征。(1)鼓励数据共享:四大出版商均鼓励论文关联数据共享,其中Springer Nature[5]和Wiley[27]明确提出分级数据政策,包括强制数据共享且强制同行评议的政策。(2)数据政策表现形式多元:涉及科研数据的内容不仅体现在专门的数据政策页面,也呈现于常见问题解答、投稿须知、作者指南等模块或页面,此外四大出版商均设立“科研数据”主页。(3)数据政策基本要素存在共性:四大出版商均对数据政策的适用范围及例外,数据共享的形式/途径、时间,数据使用许可协议,数据可用性声明等内容作出规定,见表1。
表1 四大出版商数据政策基本要素汇总
为使数据政策更加规范标准,防止科研人员因数据政策冲突而产生困惑,国际研究数据联盟(Research Data Alliance,RDA)成立数据政策标准化实施小组并发布研究成果,为期刊和出版商建立标准化数据政策提供实施指南[28],提出13个数据政策必备要素或特征,分别是:数据定义、数据政策的例外、保护期、补充材料、数据存储库、数据引用、数据协议、帮助与支持、数据可用性声明、数据格式和标准、数据共享强度要求、数据同行评议以及数据管理计划。根据数据政策级别,将以上13个要素划分为仅需在政策中提及或既需提及又需实施两种类型。
STM发布《期刊数据政策的选择和实施》[29]指导文件,帮助期刊制定和推行期刊数据政策。在如何制定期刊数据政策方面,该文件建议期刊思考6个问题,见表2。期刊在考虑一般情况的同时,还需考虑例外情况并制定相应条款或规则。
表2 期刊制定数据政策前应思考的问题[29]
2018年,国务院办公厅印发《科学数据管理办法》,随后,地方各级政府均发布了相应的科学数据管理实施细则或暂行条例,部分文件明确规定了论文数据的汇交要求,我国各科学研究领域也已有针对不同学科领域、科研项目制定的科学数据管理办法。通过总结各部委出台的有关规范性文件,可以发现:各部委会针对某一科研项目/课题制定专属数据管理政策;不同领域的规范性文件在政策内容的基本要素上存在共性,各文件均规定了数据定义和数据使用的内容,部分文件提及数据生产与采集、数据汇交与保管、数据质量控制、数据权利归属等内容。数据定义方面,文件除了对所称的“数据”做出定义外,还会对数据进行分级分类,而其数据使用内容通常与数据共享紧密连接。
可以发现,我国科学数据管理规范体系关注数据分级分类、数据使用与共享,部分规章对数据质量、数据参考引用、数据权利归属等提出要求。其中,数据分级分类与数据共享范围联系密切,例如:根据数据类型划分共享范围,对于由政府预算资金资助形成的科学数据提出“开放为常态,不开放为例外”原则等。
综合以上调研分析,并充分考虑数据提交全流程,提出针对我国科技期刊的通用型论文关联数据存缴共享政策模板[30]。其主要特点是:(1)数据政策模板采用分级形式,根据数据共享强度和数据审核力度将期刊数据政策分为五级;(2)政策模板可根据期刊实际需要自由组合、自由定制,以减少期刊制定数据政策的成本和负担;(3)形成适用于国内期刊的统一规范的中英双语版数据政策模板,协助并加速国内期刊建设自己的数据政策。
根据论文关联数据共享强度和数据审核力度,本模板将期刊论文关联数据政策分为五级,见表3:一级数据政策共享强度最高且对数据质量要求最高,一级至五级强度依次递减。表1中序号为1~9的基本要素分别对应数据政策正文中的第1~9个条款。期刊可根据自身实际需求选择相应政策条款内容,组成本刊数据政策,见表4。
表3 期刊论文关联数据存缴共享政策分级表
表4 期刊论文关联数据存缴共享模板内容说明
本数据政策模板最初发布于2022年8月,同年9月发布更新版。为方便期刊制定数据政策,减少期刊编辑部编制数据政策负担,2022年下半年,本团队研发了期刊数据政策在线定制工具[31],该工具支持数据政策个性化定制、政策内容自动填充、自动导出Word文本等功能,提供中英双语服务,并免费向公众提供。
截至2023年5月初,该数据政策模板已协助40余种期刊(见表5)制定并发布自己的数据政策,实现期刊政策“从无到有”的根本转变,使论文作者提交论文关联数据有规可循,有助于科技期刊建立自身科学数据管理体系。
表5 采用本数据政策模板的期刊列表
统计显示,共有44种期刊选择使用本数据政策模板,另有2种期刊参考本模板制定数据政策。根据表3中的分级方式,对44种期刊的数据政策进行分级。对一级至四级数据政策严格遵照表格归类,但部分期刊制定的数据政策并未包含所有条款,因此将所有不属于一级至四级政策的期刊数据政策均归入五级政策。统计显示,44种期刊中,共有27种期刊采用三级数据政策,即鼓励数据共享、采用形式审核,且数据政策中包含全部9个条款,占比为61.4%;共有6种期刊采用二级数据政策,占比为13.6%;共有8种期刊采用五级数据政策,占比为18.2%;共有3种期刊选择四级数据政策,占比为6.8%。可以发现,共有75.0%的期刊选择更为完备的数据政策,其数据政策涵盖全部9个条款,绝大多数期刊选择鼓励性质的数据政策。同时,仍有25.0%的期刊选择内容更为简洁的数据政策,其政策并未包含全部9个条款,数据审核(8种期刊未采纳)和数据可用性声明(7种期刊未采纳)多被舍弃。
公开透明且要素较为齐备的期刊数据政策有助于论文关联数据的发布与共享。2023年2月,《核技术(英文版)》(NuclearScienceandTechniques)编辑部根据本数据政策模板制定了《期刊论文关联数据存缴与共享政策》[32]并在期刊官网公布;同月,该期刊入驻科学数据银行(Science Data Bank,ScienceDB)并建立数据社区。ScienceDB提供的数据显示,2023年2月至5月初,《核技术(英文版)》数据社区已接收论文关联数据投稿117份,其中经正式审核发布在其数据社区的数据集共有95个[33]。
本数据政策模板积极支撑期刊集群化建设,如为《中国科学院微生物研究所期刊联合编辑部论文关联数据共享政策》[34]、《中国科协办公厅 中国科学院办公厅关于组织开展期刊论文关联数据汇交工作的通知》[11]提供参考。本研究团队将持续关注此数据政策模板的应用和实践成效,关注期刊编辑部、数据作者等相关主体的使用反馈,不断优化完善政策模板。
随着科学数据开放共享理念的日益普及和深入,面向科学数据管理的各项政策将会逐步落实。本研究为我国科技期刊数据政策建设提出了一个可以普遍适用、自由定制的通用型数据政策模板,可减少科技期刊制定数据政策的负担和成本,协助期刊便捷高效地管理论文关联数据,同时尽可能保护数据作者合法权益。
本模板还需持续完善和优化:(1)数据政策分级表有待优化,目前的政策分级表的各层级政策区别不明显;(2)未考虑知识产权相关条款,除目前已有的数据使用许可协议,后续应进一步明确数据权益归属等问题;(3)数据政策强度的划分标准有待商榷。由于各学科领域的特殊性,各领域对科学数据的要求和规范各有不同,本模板仅为期刊提供政策要素、结构框架以及建议性的内容文本等参考,期刊可根据所处领域实际情况及刊物实际要求修改并进一步细化自身数据政策。