田稷,陈珲夏
数据期刊及数据论文定量分析与思考
田稷,陈珲夏
摘要文章在比较数据期刊、数据论文与传统学术期刊、学术论文异同的基础上,定量分析当前几种具有代表性数据期刊及数据论文情况,并对高校图书馆的相关工作提出建议。
关键词数据数据期刊数据论文
引用本文格式田稷,陈珲夏.数据期刊及数据论文定量分析与思考[J].图书馆论坛,2016(3):42- 48.
Quantitative Analysis and Study on Data Journal and Data Paper
TIAN Ji,CHEN Hui- xia
Abstract Comparing the similarities and differences between data journals,data papers and traditional academic journals and academic papers,this paper analyzes quantitatively the current situation of the data papers from several representative data journals,and puts forward some suggestions on the relevant work of university libraries. Keywords data;data journal;data paper
大数据时代的来临促成了以数据密集型计算为基础的科学研究第四范式[1]的诞生。新范式下的学术研究与交流需要相关的科学数据和文献实现互操作,让人们阅读论文的同时还可以找到论文的原始数据,重复作者所做的实验与分析,或者能够从数据出发找到与其相关文献。在此环境下,科学研究不再单纯地由科学问题或假设驱动,科学数据本身成为重要的研究对象,数据共享问题引起广泛关注。
谷歌的Peter Norvig曾说,科学是收集事实和发展理论的结合。在科学研究过程中,广大科研人员在收集事实数据方面投入了大量的时间、精力与经费,他们不仅希望能收集、研究、归档产生的数据,还希望能合法地使用他人产生的数据,特别是支撑关键发现的数据。之前,机构知识库、科学数据管理平台等陆续出现,数据的归档和检索有了许多解决方案,但科学数据推广利用的深度、广度和速度远远不能满足新的科研范式的需求。在此背景下,Nature、Wiley等相继推出了以在线方式发行的数据期刊,专门刊载符合相关学术规范的数据论文,但目前这一发行和发文方式对国内大多数科研人员和图书馆馆员来说是一个相对陌生的事物。本文在比较数据期刊、数据论文与传统学术期刊、学术论文异同的基础上,定量分析目前几个主要的数据期刊及数据论文情况,并对高校图书馆的相关工作提出一些建议,以期让更多的国内科研人员和同行了解并利用。
传统的学术论文是某一学术课题在实验性、理论性或预测性上具有新的科学研究成果或创新见解和知识的科学记录,或是某种已知原理应用于实践上取得新进展的科学总结,用以提供学术会议上宣读、交流、讨论或学术刊物上发表,或用作其他用途的书面文件。数据论文则是一种特殊类型的学术论文,用于展示研究相关的关键数据集,包括描述数据内容、数据产生背景、数据质量和结构的元数据文件。它遵从学术发表规范,接受严格的同行评议,也是一种正式的学术论文,其引用也可以被用于科研评价体系,从而激励科学家更多地分享科研数据。数据论文与其描述的公开发布的数据相链接,这个链接包含在文章内部,它是对在线数据集或一组数据集进行描述的元数据文档,遵循一定的数据标准,计算机可读、可检索[2]。数据论文与传统学术论文在内容上最大的区别在于它并不重点报道基于科学假设和科学问题的研究结果,而是重点描述科学数据本身。数据论文在形式上一般包括摘要、背景介绍、数据方法、数据集、数据说明、附加信息六大块内容。与传统学术论文在形式上最大的不同在于其包括数据方法、指向数据集的链接及相关的数据集。
传统的学术期刊产生至今已有340多年的历史,充分发挥了刊载科研成果、开展学术交流、培养学术人才、促进知识积累与创新的重要作用。学术期刊是一种经过同行评审的期刊,发表在学术期刊上的文章通常涉及特定的学科,它展示了研究领域的成果,并起到了公示的作用,其内容主要以原创研究、综述文章、书评等形式的文献为主[3]。学术期刊的产生与一定的经济、政治、科技、文化的发展有关,也与人们对学术信息的需求息息相关。数据期刊的产生也是信息需求发展的结果,是主要发表数据论文的期刊,是互联网和大数据环境下产生的一种新型的期刊出版模式。与传统学术期刊相同的是,它也是一种学术期刊,有着学术期刊属性,也有同行评议、公开发表,也会被相关的数据库收录,其上发表的文章也会被他人引用等。但与传统学术期刊不同的是:在内容上,数据期刊主要描述科学实验数据和观察数据,并进行有效整合,力求在最大程度上促进数据重用,帮助用户了解和使用相关数据;在形式上,传统的学术期刊本身就包括文献所有内容,而数据期刊的原始数据则大多存储在另外的数据平台,数据论文本身总是与其公开发布的数据集连接(通过URL或DOI)。
2.1代表性数据期刊概述
正式的数据期刊与数据论文出现至今不过3年时间,但已引起了广泛关注,已有学者陆续在数据期刊上发表论文,并产生了引用。本文选取3种具有代表性的数据期刊,对其所刊登的数据论文进行定量分析。3种代表性的数据期刊分别是由Nature出版集团出版的Scientific Data(SD)、由Wiley出版集团出版的Geoscience Data Journal (GDJ)和由Pensoft出版社出版的Biodiversity Data Journal(BDJ)。
Nature出版集团是集纸本和电子出版为一体的科学和医学信息的出版公司,旗下有多种高影响力期刊,如《科学美国人》《自然神经科学》《自然生物学技术》等,其中最为著名的便是《自然》。Nature出版集团于2013年4月公布其将在2014年春发行数据期刊Scientific Data,以最大化地重用、搜索、链接和挖掘数据[4]。Scientific Data(在线ISSN:2052- 4463)是一种开放获取、在线出版、同行评议的期刊,刊登自然科学学科相关论文,但不限定特定领域。筛选论文的六个关键原则为信用(Credit)、重用(Reuse)、质量(Quality)、发现(Discovery)、开放(Open)和服务(Service)。该刊设有在线投稿和追踪系统;发表数据论文时,作者需支付一定费用。Scientific Data遵循知识共享署名许可协议(Creative Commons Licence),以促进科学数据的开放获取[5]。
John Wiley & Sons,Inc. (Wiley)创建于1807年,是一家全球学术出版公司,涉及科学、技术、医学等领域,并在各专业领域与800余家学会开展了合作[6]。Wiley在2014年6月出版第一期Geoscience Data Journal (在线ISSN:2049- 6060),是一种开放获取、同行评议的期刊,主要针对地球科学领域。该刊遵照知识共享署名许可协议(the Creative Commons Attribution License(CC- BY)),所刊登的数据论文描述相关数据集合的收集、处理过程及数据文件的格式,并给出相关数据集合的链接,但不涉及任何数据集合的科学分析或从数据中获得任何结论。发表论文时,作者需支付一定的费用[7]。
Pensoft出版公司1992年成立于保加利亚,是一家独立的学术出版公司,最初专注于图书出版,目前已发展成为一家开放存取杂志出版商,在生物多样性领域出版多种开放存取期刊,如ZooKeys、Biodiversity Data Journal(BDJ)、phytokeys、mycokeys等[8]。Biodiversity Data Journal(在线ISSN:1314- 2828)于2013年9月16日正式上线,它也是一种同行评议、开放获取的刊物,目前已被Medline数据库收录。它针对生物多样性学科,遵照知识共享署名许可协议(Creative Commons Attribution License(CCBY4.0)),在恰当引用的情况下,任何人都可以复制、传播、利用文章。BDJ发表标准为独创性、数据完整发布(数据论文所有的支持数据必须公开发表)、论文结构、前期研究(是否完整准确引用)以及发表数据的机器可读性等。BDJ的网上投稿系统集成了投稿、同行评议、发表、传播的整个流程。目前作者在BDJ上发表论文是免费的[9]。
不同数据期刊的数据论文内容编排略有不同,详见表1。
高科学价值的数据集是数据论文的核心所在,每一篇数据论文的发表前提是数据集必须向公众公开,数据论文仅提供数据集的链接。由于数据期刊自身并不持有相关数据,因此作者需要将数据论文完整的数据集保存在一个或多个公共数据存储库中。为便于数据的再利用,所有数据需保持其未经加工的原始状态。需要提交的数据包括计算数据、结构化数据、实验或观测程序中产生的数据等。
在同行评议阶段,编辑、编委会成员、评审将会对作者所提交的数据存储库进行评估。Scientific Data和Geoscience Data Journal列出了推荐的数据存储库或数据中心。Scientific Data提出了可信的数据存储库需要满足的一般标准:在专业领域得到广泛的支持和认可;确保数据集的长期保存,维持与发表时一致的状态;提供专业管理;执行相关的、专业认可的报告要求;为提交的数据集提供机密审查;为提交的数据集提供稳定的标识符;允许公众对数据的访问不受不必要的限制[10]。Geoscience Data Journal数据存储库的推荐标准为在专业领域广泛使用、拥有正式的数据管理策略、为数据集提供DOI或稳定的URL及唯一的标识符[11]。
表1数据论文编排形式
在数据长期保存方面,研究者、机构、期刊和数据存储库承担共同的责任。数据论文中描述的数据集必须保持永久可用。数据论文发表后,作者必须承诺在自己的实验室或机构服务器上保存相关数据集至少5年。在这段时间内,若原先提交的数据存储库消失或数据丢失,数据期刊可要求作者将数据集上传至另一个数据存储库中,并在数据论文中作出更正和更新。若作者从公共数据存储库中移除了数据集或更改了访问标准,数据期刊可要求作者更正其数据论文,甚至在极端情况下,撤回该数据论文[12]。
2.2对比分析
2.2.1发文量及学科分布
Scientific Data每半月更新一次,2014年3 月11日至2015年3月31日共发表68篇论文,其中数据论文62篇(占91.18%)。由于自然科学所有学科相关的数据论文均可在Scientific Data上发表,相比其他限定某一领域的数据期刊而言,它包含的主题更为全面。
Geoscience Data Journal分别于2014年6月和2014年11月出版了两期期刊,共有17篇论文,其中数据论文14篇(占82.4%)。该刊论文主要针对地球科学领域,包括但不限于天气和气候、海洋学、大气和海洋化学、冰冻层、生物圈、地表和地质学、水文地理学、地球化学、地球物理学、行星及空间学等。
2013年9月16日至2015年3月20日,Biodiversity Data Journal不定期更新,共发表163篇论文,其中数据论文18篇(占11.04%)。该刊论文主要针对生物多样性学科。
3种数据期刊发表的数据论文所涉学科分布见表2。
表2数据论文学科分布
从表2可见,Scientific Data收录论文学科范围最广,且生物、医学占据绝大部分。同时还表明,数据论文多产生于生物、医学、地球科学等实验观测数据量较大的学科。
2.2.2接收—录用—发表周期
论文从接收到发表的时间周期对作者投稿具有参考指导作用。根据每一篇数据论文的接收(received)日期、录用(accepted)日期和发表(published)日期,计算每一种数据期刊数据论文的平均接收—录用周期(从接收到录用所需天数的平均值)、平均录用—发表周期(从录用到发表所需天数的平均值)和平均接收—发表周期(从接收到发表所需天数的平均值),结果如表3所示。可见,由于数据论文要经过投稿、同行评议、修改、录用直至发表的整个流程,因此需要一定的论文审阅处理时间。不同数据期刊的论文审阅处理时间差异较大,其中Biodiversity Data Journal的接收—录用—发表周期最短。
2.2.3作者国籍及国际合作
作为代表一种新兴科学研究范式的数据期刊和数据论文,论文作者数反映了成果的合作程度,作者的国籍从一定程度上反映了该国科技发展的领先程度。3种期刊的论文作者数及第一作者国籍情况详见表4。
表3数据论文平均接收-录用周期、平均录用-发表周期、平均接收-发表周期
Scientific Data刊登的数据论文中,平均每篇论文有12.15名作者,美国、英国、瑞士三国作者较多。在数据论文中,所有的作者来自同一国家的有34篇(占54.84%),国际合作论文为28 篇(占45.16%)。
Geoscience Data Journal刊登的数据论文中,平均每篇论文有7名作者,英国、美国、荷兰三国作者发表了较多的数据论文。在数据论文中,所有的作者来自同一国家的有8篇(占57.14%),国际合作论文为6篇(占42.86%)。
Biodiversity Data Journal刊登的数据论文中,平均每篇论文有9.44名作者。由于样本数较少,各国作者发表论文差异不大,法国、英国、希腊、巴西四国作者发表了较多的数据论文。在数据论文中,所有的作者来自同一国家的有11 篇(占61.11% ),国际合作论文为7篇(占38.89%)。
表4数据论文作者数及第一作者国籍
统计结果表明,由于科学数据的产生需要大量的观察、实验工作,因此需要众多科学研究者互相合作。3种数据期刊的平均作者数统计见表5。从表5可见,数据论文的作者数较多,而其中国际合作的比例达到了40%左右。
2.2.4作者机构类型及跨机构合作
论文作者的机构类型反映出这一新型科学研究范式最先影响并得以接受的行业范围。Scientific Data刊登的数据论文中,作者来自同一机构的为15篇(占24.19% ),跨机构合作(数据论文的作者来自不同机构)有47篇(占75.81% )。Scientific Data的作者机构可划分为高校、科研院所、企业等3类。数据论文的作者来源于单一机构类型的有33篇(占53.23%),作者来源于多种机构类型的有29篇(占46.77%)。其中涉及到产学研合作(企业与科研院所、高等学校之间的合作)的数据论文有7篇,占论文总数的11.29%。
表5数据论文平均论文作者数及国际合作论文比例
Geoscience Data Journal刊登的数据论文中,作者来源同一机构的为6篇(占42.86%),跨机构合作的为8篇(占57.14%)。数据论文的作者来源于单一机构类型的有10篇(占71.43%),作者来源于多种机构类型的有4篇(占28.57%)。
Biodiversity Data Journal刊登的数据论文中,作者来源同一机构的为5篇(占27.78%),跨机构合作的为13篇(占72.22%)。数据论文的作者来源于单一机构类型的有7篇(占38.89%),作者来源于多种机构类型的有11篇(占61.11%)。
表6数据论文作者机构类型分布
综上,可知Scientific Data和Biodiversity Data Journal的跨机构合作比例较高,均超过70%。Scientific Data由于所覆盖的学科范围较广,其机构类型也较为丰富,有11.29%的论文属于产学研合作。Biodiversity Data Journal的特点是超过60%的数据论文作者都来源于不同的机构类型。
从上述定量分析可以看出,数据期刊与数据论文正在迅速发展,相关的规范与标准仍在完善之中。随着越来越多科学数据的产生、存储与共享,以数据密集型计算为基础的科学研究的第四范式对科研模式的影响范围越来越大,相信数据论文将会得到更快的发展。由于数据期刊与机构知识库同科学数据管理平台相比,它既拥有传统学术期刊的优势,在传播的广度、深度和速度上又更胜一筹,作者还能得到更好的交流、认可与回报。因此,可以预测数据期刊将会在很大程度上弥补机构知识库、科学数据管理平台数据来源被动的缺陷,将会得到越来越多的科研人员关注、认可、利用与投稿。
同时,从以上数据可以看到,目前数据期刊和数据论文都以发达国家为主,我国目前尚没有真正意义上的数据期刊,我国科研人员在数据期刊上发表的数据论文也非常少,这与我国的科学研究与学术期刊的历史不长、本身存在较多问题有关。但在互联网时代,中国期刊不应忽视新环境带来的新的发展机遇,需要奋起直追,不能重蹈传统期刊的覆辙,仍落后于发达国家。
无论是数据期刊还是数据论文,都是大数据时代新生的出版类型,它们的兴起与发展,将对出版业、图书馆、数据仓储机构等产生深远的影响,甚至发展到一定的阶段将会引发科技政策和科研评价方法的变革。因此,出版社、图书馆、数据仓储机构、科研管理相关部门都应该积极应对,尽早布局。对图书馆界而言,应该发挥自己的优势,至少可以在如下五个方面发挥作用:
(1)数据期刊与数据论文的收集、整合与揭示。由于目前数据期刊大都为在线OA模式,图书馆有责任对此新型文献进行收集、整理并揭示给自己的用户,让读者能够及时了解和利用这些科研数据。
(2)数据期刊与数据论文特征分析与咨询指导。由于数据期刊与数据论文对大多数科研人员来讲都是一种新的文献类型,图书馆员可以在充分学习与了解的基础之上,对数据期刊的投稿方法、数据论文的撰写规范等向相关科研人员提供指导。
(3)参与数据论文规范与标准的制定。以中文数据论文为例,目前中文数据论文存在的问题主要包括:没有专业的数据存储平台,没有对数据标准的规定和说明,对数据的管理仅停留在论文附属资料的简单层面;没有对数据共享、传播、重用、演绎等作明确说明,或者没有对数据引用格式作详细说明。因此,图书馆应充分发挥图书编目工作中积累的元数据标准制定经验的优势,积极参与到相关规范与标准的制定过程中,在这种新型学术生态的生态链中发挥更为积极、主动的作用。
(4)为数据论文的存储提供解决空间与方案。在目前数据期刊的数据存储解决方案中,数据论文的原始数据大多存储在另外的存储平台。在“数据为王”的时代,我国高校或相关的研究机构必须进行相应的前瞻性规划,对自己的科研数据进行系统性收集、规范、整合,图书馆作为信息收集、保存与揭示的机构,理应担此重任,及早筹谋。
(5)建立集数据和文献于一体的新型数字图书馆,形成数据与信息融合的互操作架构。高校图书馆的主要任务是为教学和科研提供文献信息服务,当传统的科研范式发生巨大变革时,图书馆也应跟进,在原有数字图书馆的基础之上,打造新型数字图书馆,以使科学研究的整个过程都可以在数字图书馆环境中进行,使科学研究的素材、思路、过程和结论都能够得到有效传播、共享和利用。
参考文献
[1] Hey T,Tansley S,Tolle K. The fourth paradigm:data- intensive scientific discovery [EB/OL]. [2015- 09-03]. http://research.microsoft.com/en- us/collaboration/ fourthparadigm/.
[2]刘凤红,崔金钟,韩芳桥,等.数据论文:大数据时代新兴学术论文出版类型探讨[J].科技期刊研究,2014,25(12):1451- 1456.
[3]学术期刊[EB/OL]. [2015- 08- 09]. http://baike.baidu. com/view/848379.htm.
[4] Nature Publishing Group.Press release archive[EB/OL]. [2015- 09- 03]. http:// www.nature.com/press_releases/ scientificdata.html.
[5] Scientific Data. About[EB/OL].[2015- 08- 06]. http:// www.nature.com/sdata/about.
[6] Wiley. Corporate Information[EB/OL].[2015- 09- 03]. http://as.wiley.com/ WileyCDA/ Section/id- 301695. html.
[7] WileyOnline Library.Overview[EB/OL].[2015- 08- 06]. http://onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049- 6060/homepage/ProductInformation.html.
[8] Pensoft. About Pensoft[EB/OL].[2015- 09- 03]. http:// www.pensoft.net/about.php.
[9] Biodiversity Data Journal.About[EB/OL].[2015- 08- 06]. http://biodiversitydatajournal.com/about.
[10] [12]Nature Publishing Group. Data policies [EB/OL]. [2015- 09- 03]. http:// www.nature.com/sdata/ data- policies.
[11] Wiley Online Library. Author Guidelines [EB/OL]. [2015- 09- 03]. http://onlinelibrary.wiley.com/journal/ 10.1002/(ISSN)2049- 6060/homepage/ForAuthors. html#dataset_submission.
收稿日期2015- 08- 21
作者简介田稷,女,硕士,副研究馆员,浙江大学图书馆副馆长;陈珲夏,女,硕士,浙江大学图书馆助理馆员。