雷秋雨,马建玲(1.中国科学院大学;.中国科学院兰州文献情报中心)
学术期刊数据出版政策研究综述——以JCR中进化生物学领域期刊为例
雷秋雨1,2,马建玲2(1.中国科学院大学;2.中国科学院兰州文献情报中心)
摘要:文章选取JCR中收录的46种进化生物学核心期刊,对其数据出版政策进行详细调研。细分了这46种学术期刊是否有数据出版政策以及数据出版政策的强弱,并在此基础上从数据的存缴方式、数据质量控制、数据格式、存储位置、开放性与权益等多个方面对数据出版政策进行了分析与研究,最后提出了该领域学术期刊数据出版政策制定与执行中存在的问题以及需要发展与完善的地方。
关键词:进化生物学;学术期刊;数据出版政策;研究数据
研究数据出版是指将科学研究中产生的数据(集)公开发布,以便于数据使用者自由获取,这种做法是开放科学运动的组成部分,[1]数据出版的目的也在于将数据作为重要科研产出进行评估。[2]科学论文的质量取决于底层原始数据的质量,为了提高论文同行评审的严谨度并促进数据复用,许多期刊要求作者在论文发表前,先将数据注册或提交到数据仓储中,或要求在文献发表之前公开其数据。[3]数据存档﹑共享的相关政策规定,促进了科学数据的开放访问,便于科学家对研究结果进行验证,并基于相关数据探索新的分析方法。[4]实现共享,不仅能使科学数据在应用过程中增值,也是提高科技创新能力的重要支撑。[5]因此,将出版研究数据正式纳入学术出版体系是开放科学实践的重要举措。
在线发布研究数据并非新概念,在国外,生物多样性﹑地球科学﹑生物医药等领域的学术期刊早在多年前就要求作者在投稿时必须提交相关研究数据的规定。特别是生物多样性领域,早在1985年Robert F. Boruch and David S.Cordrag[6]就表示希望科研人员能将与研究相关的信息(RRI)公开发布,1995年KATHERINE W. McCAIN[7]对自然学科﹑医学和工程学的近850种学术期刊数据共享政策做过调查,发现有至少132种期刊要求将基因序列﹑结构等数据,在论文发表之前注册于公共数据仓储。随着数据出版的快速发展,学术期刊的数据出版政策也在发生重大变化,涉及期刊﹑出版社﹑数据仓储﹑作者等多个角色,政策范围包括存缴方式﹑数据质量控制﹑数据格式﹑存储位置﹑开放性与权益等多个方面。本文将以生物学领域的核心期刊为例,全面研究学术期刊数据出版政策的特征与发展变化。之所以选择进化生物学领域,一是由于该领域在数据共享政策规定方面发展较为成熟,二是可避免多学科领域调查﹑统计与总结的复杂性。
本文的调查研究分为三个步骤:(1)以进化生物学为学科主题,检索到JCR中共收录了该领域的46种学术期刊,以这46种期刊为样本,在每种期刊的“Author’s Guidelines”部分进行详细调查,对期刊是否要求作者提交支撑性数据﹑补充材料文件等方面的论述做出统计;(2)依据统计结果,进一步调查期刊要求作者提交何种数据﹑如何提交﹑何时提交于何处,以及数据的开放性规定等,将这些学术期刊的数据出版政策分为:无数据出版政策﹑弱数据出版政策﹑强数据出版政策三个等级;(3)根据统计出来的政策强弱等级,选取具有代表性的学术期刊,详细介绍其政策规定。
目前,学术期刊出版商在制定数据出版政策时,对数据提交方式给出了两种建议:(1)要求在提交论文时将相关数据注册到外部公共数据仓储;(2)建议将相关数据作为补充材料文件(Supplement material files)同论文一起在线发布。这46种期刊的调研显示,明确规定作者需要提交支撑性数据或补充材料文件的期刊有37种,占80.4%;完全没有相关规定或论述的期刊有9种,占19.6%。在有数据出版政策的37种期刊中,按政策强弱细分,本文将每种期刊的“Author’s Guidelines”论述中出现“鼓励作者提交”﹑“作者可选择提交”这些字眼定义为弱数据出版政策,论述中出现“作者必须提交”﹑“作为文章出版的条件”﹑“在文章出版前获得数据登录号”等字眼定义为强数据出版政策。比照上述标准,在37种期刊中,10种期刊具有弱数据出版政策,占27%;27种期刊有强数据出版政策,占73%。
表1 JCR中收录的46种进化生物学学术期刊数据出版政策类型分布
3.1数据类型与数据存缴方式
上述46种学术期刊在制定各自的数据出版政策时,会对提交何种研究数据,如何﹑何时提交于何处等做出详细规定。有数据出版政策的37种期刊明确规定出的数据类型有遗传学数据﹑基因组学数据﹑序列数据﹑晶体学数据﹑补充材料文件,以及论文中可能使用到的软件﹑新技术和新工具等。数据存缴方式可选:(1)提交于公共数据仓储;(2)先提交给期刊编辑部,经编辑部审核之后再代替作者将数据上传到公共数据仓储;(3)将数据打包为补充材料文件上传到期刊网页或其他外部仓储(机构知识库),同时要提供数据URL地址。论文中涉及的软件﹑新技术与新工具,期刊要求作者将其存缴于公共软件仓储。
3.2数据存储位置
有数据出版政策的37种期刊,每种期刊的政策都是依据该期刊自身特点及其各方利益相关者要求而制定的,并无统一标准规定。就数据存储位置而言,有些期刊会为每种数据列出建议数据仓储清单,有些只要求作者将研究数据注册于经认可的公共数据仓储。经统计,在这37种期刊里,有18种期刊同时明确规定了数据的存储位置,将DNA﹑RNA﹑蛋白质序列数据﹑微阵列数据﹑核苷酸﹑氨基酸序列数据存储于Genbank﹑European Nucleotide Archive(ENA)﹑DDBJ﹑Protein DataBank﹑GEO和ArrayExpress;将系统发育数据﹑比对数据提交于TreeBASE和Dryad。其余期刊都表示要求作者将研究数据提交到公共数据仓储(Dryad)或作为补充材料文件在线发布。整体来说,Genbank﹑GEO﹑ArrayExpress﹑TreeBASE和Dryad,是进化生物学领域最认可的5个公共数据仓储,绝大部分期刊在要求作者提交数据时会建议上述5个公共数据仓储的一种或几种。以这37种期刊中影响因子最高(IF:15.353)的[8]为例,该期刊所属Elsevier,对作者在存缴数据时的存储位置有非常详细的规定。
有些期刊影响因子虽然不高,数据出版政策却很完善,比如Libertas Acad出版集团的[9](IF:1.169),除了对进化生物学领域的常规数据存储位置有详细规定,它还提到作者如果在论文中使用了新技术﹑新工具或使用了新的软件﹑计算模型等,则将其转化为生物标记语言,存储于BioModels Database。Nature出版集团的也规定,如果论文中介绍了新的模拟﹑分析方法,则要求作者将相关的软件公开发布,建议将软件编码存缴于Dryad。除此之外,所有的期刊都规定人体工程数据﹑濒危物种位置信息应当保密,不得公开发布。[10]建议作者在找不到合适的公共数据仓储的前提下,可以将数据存储于研究单位的机构知识库,比如英属哥伦比亚大学的circle﹑斯坦福大学的芯片数据库SMD(Stanford Microarray Database);或存储到资助者机构知识库。在论文发表时向期刊提供数据存储位置链接即可。
表2 Trends In Ecology & Evolution要求提交的数据类型与规定的数据仓储
3.3数据发布与引用
数据妥善存缴之后,需要建立某种机制来实现数据与期刊论文双向链接。比如Wiley-Blackwell旗下的12种期刊﹑Royal Soc的2种期刊以及Nature的Heredity[11]都要求作者在论文正式发表之前,需要获得已存储数据的登录号或DOI,期刊规定论文正文的参考文献前需包含一段“数据可获取”(Data Accessibility)描述区域,这一区域应当包括的细节信息有数据集名称﹑数据仓储名称﹑数据编号﹑DOI链接﹑数据URL地址等。如果无法将相关数据存储于外部公共数据仓储,也可将其作为在线可读的补充材料文件上传于“数据获取”区域。牛津大学出版社的期刊则要求作者在论文正式发表前获得数据的DOI,并且在论文题目的下方列出数据存储位置与URL链接。
研究数据正式发布以后就意味着用户必须以规范的格式在文章的参考文献部分对数据进行引用。收录着大量研究数据的公共数据仓储一般会提供数据的推荐引用格式。以Dryad[12]为例,它会给每个数据文件分配一个DOI,规定作者在引用Dryad中的数据时必须同时对原论文进行引用,这样便于第三方对论文和数据之间的链接进行索引。Dryad给出的数据引用格式示例:
3.4数据质量控制
出版数据,将其纳入正式的学术出版体系,就意味着研究数据会像论文一样,在出版前经过严格的同行评议,就数据的可信任度取得保证。Nature出版集团就规定对数据进行评议的编委组里必须包括至少一名数据标准审核专家,保证对作者提交数据的质量与可重用性进行评估,来确保实验数据的严谨性与其描述的完整性。[13]Elsevier也要求期刊编辑在评议数据时注重时效性﹑做到在评议阶段对数据的保密,同时在数据的客观性﹑来源的真实性等方面做出初步评估。[14]许多期刊本身并不对数据进行测管,而是委托数据仓储代行职责。Dryad就明确表示会协助期刊对所收录的数据﹑元数据的真实性与可靠性进行严格评议。[15]
3.5数据格式
期刊对直接提交于公共数据仓储的数据格式没有明确的规定,有的期刊会直接要求作者将所有支撑性数据打包作为补充材料文件在线提交,期刊会对补充材料文件的格式与大小做出规定。在有明确数据出版政策的37种期刊里,有4家出版集团的11种期刊对此作出了规定。
表3 期刊规定的数据格式例举
除了上述期刊的具体规定外,Springer出版集团出于文件存储格式稳定性的考虑,建议作者将所有文本材料都转化为PDF格式;出版商Biomed Central就对化学结构文件以MOL﹑PDB格式提交;地理数据文件以KML格式提交做出了规定。Elsevier和牛津大学出版社都要求作者将数据存缴于外部数据仓储,在无法找到合适的数据仓储的前提下,二者都要求作者在论文中包含一个小章节——“补充材料区域”,在该区域只允许上传与论文直接相关﹑可在线获取的补充材料。每篇文章的补充材料章节最多可容纳5个文件,每个文件格式上限2MB,并且文件尽可能地压缩至最小,以便于读者能够快速地下载到文件。
3.6数据存缴时间与数据的开放性
37种有数据出版政策的期刊所属12家出版商,每个出版商都对何时存缴数据﹑论文发表之后数据的开放性有不同规定。
表4 37种期刊数据的存缴时间与开放性规定
除了上表中学术期刊的数据提交时间﹑数据开放性政策外,牛津大学出版社的Genome Biology and Evolution[16]对数据的存缴时间有更进一步的规定:作者如果利用已存缴的数据进行后续研究,需要对数据进行更新;如果是基于克隆的大片段基因项目(Large-insert clone-based projects),要求2KB或更大的DNA序列组件数据应当在产生后的24小时之内存储于公共核苷酸数据库,序列追踪数据应当于产生后的一周内存缴于NCBI追踪库或Ensembl追踪服务器;如果是全基因组鸟枪法测序项目(Whole genome shotgun projects),要求序列追踪数据应当于产生后的一周内存缴于追踪存档(NCBI追踪库或Ensembl追踪服务器)中。全基因组件数据应当在满足了整套质量评价标准之后尽快存储于公共核苷酸序列数据库。期刊规定所有这些已存缴的数据都应当无限制地公开可获取。
统观JCR中进化生物学领域有明确数据出版政策的37种核心期刊,他们制定的数据出版政策范围涵盖了存缴方式﹑数据质量控制﹑数据格式﹑存储位置﹑开放性与权益等多个方面,在细节规定上也不乏共同之处。从最初要求作者公开与论文相关的研究资料至今,学术期刊的数据出版政策也日趋完善。但在以下方面仍须改善和不断发展。
(1)数据质量控制需要一套客观的评议标准。从要求作者提交数据到期刊正式发布数据,并非数据出版政策整个流程的简单循环。在对这37种期刊的调查过程中发现,期刊都提到会对数据进行同行评议,但目前还没有期刊详细提出由谁﹑如何﹑以何种标准评审数据,很多情况下论文的评审专家并不一定擅长于对数据进行审核。在这种情况下,数据是否真的具备较高的可信任度值得商榷。自然出版集团的数据期刊Scientific Data,在“作者说明”这一部分就明确陈述,会有专门的数据标准审核专家对作者提交的数据进行评审。由专人对数据进行评议是一个值得肯定的发展趋势。
(2)期刊在规定数据存储位置时的政策力度。关于数据存储位置,进化生物学领域已经有了比较成熟的实践流程,但是数据出版尚在发展中,很多期刊在数据出版政策制定方面还在探索阶段,数据存储位置方面,有些期刊的政策规定并不十分严明。比如建议作者根据个人意愿可以选择将数据存储于个人主页或所在机构网络服务器中,在论文正式发表前只需要提供数据的相关链接。在没有专业策管的情况下,这些数据链接地址的稳定性不能保障,数据可能丢失或无法使用。另外,凭作者意愿存于机构知识库的数据,其质量与完整性也无法保证。所以期刊在制定数据存储位置规定时,应该给读者放出强有力的政策导向信号,规定作者必须将数据存缴于专业数据仓储进行管理。Biomed Central旗下期刊[17]就明确指出,出于对网络环境稳定性的担忧,不允许作者将数据链接至个人或所在机构主页。
(3)加强对研究者共享研究数据的回报机制建设。KATHERINE W. McCAIN[7]在其1995年的研究中把期刊喻为研究数据共享政策的“守门人”(Gatekeeper),可见期刊在数据共享政策导向方面的重要地位。在对这37种期刊进行调查分析的过程中,特别留意了在数据出版方面比较积极的出版商Elsevier,选取了期刊Trends In Ecology & Evolution,[8]其2015年1月份第一期中共有12篇论文,但是没有任何一篇论文的作者提交相关数据或在线补充材料文件。很多情况下,学术期刊拿出了一套数据共享机制,但研究人员却不一定有动力共享他们手中的数据。所以,期刊出版商在巩固其数据出版政策的同时也应该适当配合研究人员的诉求,将数据出版政策真正落到实处。
[参考文献]
[1]Data Publishing[EB/OL].[2015-03-07].http: //en.wikipedia.org/wiki/Data_publishing.
[2]Callaghan S,et al.(2012).Making data a first class scientific output:Data citation and publication by NERCs environmental data centers[J].International Journal of Digital Curation,2012,7(1):107-113.
[3]何琳,常颖聪.国内外科学数据出版研究进展[J].图书情报工作,2013(3):104-109.
[4]黄如花,邱春艳.国外开放科学数据研究综述[J].情报资料工作,2013(4):24-30.
[5]司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013 (1):61-66.
[6]Robert F.Boruch and David S.Cordrag.Professional Codes and Guidelines in Data Sharing[EB/OL].[2015-03-06].http://www.nap.edu/openbook.php?record_id= 2033&page=199.
[7]KATHERINE W McCain. Mandating Sharing:Journal PoliciesintheNatural Sciences[EB/OL].[2015-02-07].http://scx.sagepub.com/content/16/4/403.full.pdf+html
[8]Trends In Ecology & Evolution[EB/OL].[2015-03-26].http://www.sciencedirect.com/science/journal/0169 5347.
[9]Evolutionary Bioinformatics[EB/OL].[2015-04-16].http://www.la-press.com/journal-evolutionary-bioinformatics-j17.
[10]Molecular Ecology Resources[EB/OL].[2015-03- 27].http://onlinelibrary.wiley.com/journal/10.1111/(ISSN)1755-0998.
[11]Heredity[EB/OL].[2015-03-07].http://www.nature.com/hdy/index.html.
[12]Using data[EB/OL].[2015-02-16].http://datadryad. org/pages/faq#using.
[13]Scientificdata principles[EB/OL].[2015-02-10]. http://www.nature.com/sdata/about/principles.
[14]DutiesofReviewers[EB/OL].[2015-02-10].http: //www.elsevier.com/about/publishing-guidelines/publishing-ethics.
[15]Keyfeatures[EB/OL].[2015-03-11].http://datadryad. org/pages/repository.
[16]Genome Biology and Evolution[EB/OL].[2014-12-26].http://gbe.oxfordjournals.org.
[17]EvoDevo[EB/OL].[2015-03-06].http://www. evodevojournal.com.
动态·资料
宁夏图书馆举办亲子创意美工创作比赛
2015年12月20日,宁夏图书馆携手米谷少儿美术培训中心举办“心灵手巧,变废为宝”亲子创意美工创作比赛活动,让小读者们通过对生活中的废品再利用提高动手能力,学会观察生活,发现生活亮点,培养孩子们的环保意识,提倡低碳生活。共有15组家庭参加了活动。
比赛中,孩子们互相交流,分享各自的想法,充分运用自己的创造思维能力,利用生活中的废品,现场制作出一件件鲜活的作品。废旧的瓶瓶罐罐通过重新创作后,变成了多功能的存钱罐、糖果盒、笔筒、小汽车、卡通花盆、插花花瓶、艺术灯罩、机器人、小鸟的家、瓶子娃娃……就连小药瓶也变成了漂亮的风铃。比赛不仅充分挖掘了废旧材料的再利用价值,也让孩子们体会到了创作的快乐。此次活动以亲子互动的方式进行,在激发孩子们的创新思维、创意灵感和创作积极性的同时,更增进了父母与孩子的感情。
(苟素心)
A Research Review on Data Publishing Policies in Academic Journals
——A Case Study on the Journals of Evolutionary Biology Subject in JCR
Lei Qiu-yu,Ma Jian-ling
Abstract:Taking 46 evolutionary biology core journals indexed in JCR as data samples, this paper makes a detailed survey on their data publishing policies and analyses these policies from data storage, storage location, quality control, data format and openness, etc. In the end, itpoints outsome problems and puts forwardcorresponding countermeasures.
Keywords:Evolutionary Biology; Academic Journals;Data Publishing Policy; Academic Data
[收稿日期]2015-03-13[责任编辑]刘丹
[作者简介]雷秋雨(1991-),女,中国科学院兰州文献情报中心2013级硕士研究生,研究方向:数据出版、数据管理;马建玲(1969-),女,硕士研究生导师,中国科学院兰州文献情报中心研究馆员,研究方向:信息资源建设与组织。
中图分类号:G250.252
文献标志码:A
文章编号:1005-8214(2016)01-0030-05