■邱春艳
曲阜师范大学传媒学院,山东省日照市东港区烟台路80号 276826
近年来,科学数据出版在国际上不同领域引起了关注和讨论。欧盟的欧洲科学开放云(European Open Science Cloud)计划旨在推动欧洲170万研究人员跨国共享科学数据,为此引发了欧洲产业界和学术界的争论,学术界认为科学数据出版能够给公司等减少科研成本,而产业界则认为科学数据的出版会给科研主体带来竞争劣势[1]。2018年9月4日,欧盟、欧洲研究委员会(European Research Council,ERC)等共同推出cOAlition S计划,要求自2020年开始,ERC以及其他机构资助所产生的科研成果必须在开放获取(Open Access,OA)期刊或OA平台出版[2]。通过科学数据出版来保障科学数据的共享和再利用、推动开放科学的发展,已经成为科学研究和出版界共同研究和实践的新热点领域。
许多国内学者已经开始关注数据出版问题。张小强等[3]对数据出版的理论和实践问题进行探讨,着重分析数据出版与传统论文出版的异同,并指出数据出版在伦理规范和标准化方面存在的问题。李小燕等[4]着重分析了国内外数据出版实践案例,提出政策规范、数据中心和期刊编辑部等方面的建议。何琳等[5]从科研人员、科研机构、期刊3个方面对国内外数据出版进展进行归纳。涂志芳[6]则对数据出版概念、作用和模式3个基本问题进行了分析。由此可见,当前对数据出版领域进行的宏观探讨多从总结实践经验出发,着重分析数据出版实践不同参与者的伦理规范、模式以及实践标准等问题。本研究采用定性研究方法,在前人研究的基础之上,对当前国内外科学数据出版领域的理论研究成果进行归纳,厘清该领域的理论研究进展,进而发现我国科学数据出版领域理论研究的不足,为后续相关研究提供参考。
在研究领域,对科学数据出版内涵的认识多来源于对实践的归纳和提炼,当前关于科学数据出版内涵的观点基本可分为2大类:遵循传统学术出版内涵的科学数据出版和基于互联网开放精神的数据发布。
多数研究从传统学术出版的关键特征出发来对科学数据出版的内涵进行界定,重点突出科学数据的评审和引用2个环节。科学数据出版既有传统学术出版的特征,又包含了数据的存储、管理、挖掘和共享等服务[4]。张小强等[3]认为数据出版是围绕科研数据展开且与出版相关的活动,包含组织、审查、共享、保存4层含义。Lawrence等[7]将科学数据的引用和同行评审作为科学数据出版流程中的关键环节,认为数据出版本身能够为科研工作者带来良好声誉,而同行评审是保障科学数据质量的有效机制。杜伟等[8]认为数据出版是从科学研究的角度,对数据进行同行评审和公开发布,创建标准且永久的数据引用信息,供其他研究性文章引证。Assante等[9]主张以数据论文形式出版数据,即将数据以数据论文的形式进行出版,遵循传统学术出版的流程。在传统学术出版中,引用能够保证传统学术出版的学术思想交流功能,科学数据出版的目的之一是提升科学数据在学术交流体系中的作用,科学数据的引用则成为科学数据出版的关键环节之一。还有学者着重强调同行评审的重要性,认为只有在科学数据经过同行评审、正式出版后,对科学数据成果的评价才有可能有序地进行[10]。科学数据出版能够为科研人员带来学术信誉,而同行评审能够推动科学数据出版的正规化[7]。数据论文的同行评审有开放和封闭2种形式,评审的内容涉及前期质量控制和数据与论文的一致性评审[11],同行评审是传统学术出版体系中学术研究成果质量控制的有效措施之一,因而成为科学数据出版的关键点之一。
鉴于科学数据出版形式的多样性,特别是网络给科学数据公开发布带来的便利,部分学者将以互联网为基础进行的科学数据公开发布认定为科学数据出版。该观点对科学数据出版持有最开放、最宽泛的态度,不着重考虑科学数据是否经过传统出版所包含的同行评审等环节。刘凤红等[12]认为数据发表是指将数据发布在网络或其他媒介上,在遵循版权协议的前提下,他人可以引用、下载、分析和重用。中国知网新增了数据论文出版,将数据出版界定为利用互联网发布数据。而数据论文是通过网络在线方式出版的一种学术出版物,主要提供学术数据以及相关的信息,包括数据的采集、处理和分析方法等,但不一定提供科学结论。以网络公开发布作为科学数据出版方式的规范性受到了质疑,认为通过网络公开发布数据缺乏任何形式的长期保障[13]。无论是否经过传统出版的严格审查和标准化过程,科学数据出版的结果都是将科学数据公开,并通过以互联网为基础的各种平台对外发布,互联网是当下科学数据出版的基础设施。与经过严格的审查和标准化处理的传统出版相比,单纯通过互联网公开发布科学数据的自由度较高,形式多样,但难以为其质量监管和长期保存等提供保障。
有研究者对不同利益主体的态度和意见进行调查,是否具备数据管理技能和组织支持、是否在法律和政策上给予数据所有者认可,是影响科研人员进行数据出版的关键因素[14-15]。科学数据出版能够带来诸多益处,特别是在科学数据价值的挖掘方面,而与此同时也会带来诸如数据的不当利用、隐私破坏等方面的消极影响,不同主体对科学数据出版与否观点不一。
科学数据是科研活动的重要内容和主要产品,科学数据共享已成为出版界以及科研利益相关者日益关注的热点问题,因此规范科学数据出版对于科学数据共享有重要意义[16]。本着开放的精神对科学数据进行出版,有助于推动研究的深化,同时可以避免重复劳动[17]、保持数据的完整性、防止科学造假、减少资金投入、提高数据发表者的知名度和影响力、减少跨学科研究的障碍、提高科研合作机率[5]。数据期刊弥补和完善了传统学术出版在数据共享上的不足,提高了数据共享的效率[18]。无论通过何种形式开展科学数据的出版,都能提升科学数据的传播度和再利用程度。通过科学数据的出版拓展其受众范围,通过引用提升科学数据的复用率,而出版过程中对科学数据质量的控制,在一定程度上保证了科学数据再利用的可能性。
就当前的出版实践和评价体系而言,科学数据出版给科学研究本身以及科研人员带来的价值具有一定的隐性和长期性,当下较难立现。与此同时,对数据的不恰当挖掘容易带来虚假发现,公开获取科学数据可能给非科研人员甚至持有商业利益之心的机构带来便利,数据存储在何处以及数据公开可能带来隐私丧失,这些都是进行科学数据出版面临的问题,也因此带来了多方担忧[19]。Lindenmayer等[20]提出在生物学领域,数据的易获得性给濒危物种保护领域带来诸如信息泄露、助长非法行为等问题,因此对生物学领域数据的出版应当谨慎。在能源领域,伦理和安全性的考虑、违背意愿的对外开放、额外的工作负担、机构或者个人的惰性都是科学数据出版面临的阻力[21]。欧洲科学开放云遭到来自产业界的质疑和抗拒,是因为数据的出版可能给企业带来损失。科学数据出版牵涉多方利益和隐私,因此,当前存在担忧科学数据出版甚至不支持科学数据出版的观点。
科学数据出版受到了出版界、图情界以及自然科学研究等领域的广泛关注,科学数据开放涉及政府、图书馆、出版社、数据中心、大学、企业、联盟、科研人员和社会公众等的利益[22]。从OA到科学数据共享与管理,再到科学数据出版,国际科研资助机构、学术出版商、数据中心等一直是主要推动者。国际科学理事会(International Council for Science,ICSU)、联合国教科文组织(United Nations Educational,Scientific and Cultural Organization,UNESCO)、欧盟等科研机构、科研资助机构在利益均衡中选择推动科学数据出版,传统学术出版行业如数据库、期刊等也纷纷加入数据出版的大军。
在实践领域,无论采取何种形式开展科学数据出版,当前科学数据出版的主体主要包含学术出版商、科研机构、数据中心和图书馆等。诸多出版商如Nature出版集团等创办了数据期刊,支持数据论文出版。全球生物多样性机构(Global Biodiversity Information Facility,GBIF)的数据出版框架工作组与Pensoft集团合作开展科学数据出版实践探索。诸多学科领域期刊对科学数据出版持积极态度,如化学领域期刊通过政策约束和激励科学数据出版[23]。科学数据联盟(Research Data Alliance, RDA)自成立以来,一直致力于科学数据共享问题的研究,近几年则从技术标准、基础设施等方面不断推动科学数据出版[24]。RDA的数据出版服务工作组(Publishing Data Services Working Group,PDS-WG)与OpenAIRE合作开发数据与文献互联服务,在技术上实现了数据与相关文献的互联,以保证科学数据实现真正意义上的共享[25]。科研资助机构如美国自然科学基金会(National Science Foundation,NSF)等通过政策约束,推动科研机构和科研人员以不同形式进行科学数据的开放共享。图书馆为了适应并赶上学术交流体系的变化而逐步转变成科学数据的“牧羊人”[26]。陈秀娟等[27]对图书馆开展特定学科领域的科学数据发表服务进行分析。图书馆特别是学术图书馆,已经在科学数据管理和出版中发挥了一定作用,而科学数据出版实践需要图书馆员进一步发挥其技能优势[28]。科学数据出版涉及多个主体,不同主体在实践中并非各自为战,而是寻求合作,共同探索并推动科学数据出版发展。
有些学者将科学数据作为出版客体[12],Borgman[29]援引美国国家科学院(National Academies of Science)的提法,认为数据是描述对象、思想、条件、情况或其他因素的事实、数字、字母和符号。政策制定者、学术出版商等利益相关者对数据的定义通常较为宽泛。Elsevier将科学数据广泛地定义为用以验证发现的观察或者实验结果。欧洲水平线2020计划(Horizon 2020)则将数据定义为被收集并作为推理、讨论和计算依据的信息,特别是事实或者数字[30]。Liu[31]认为数据出版的原则在于元数据、实体数据、数据论文的关联一体出版、保存和共享,即认为数据出版的客体包括元数据、实体数据和数据论文。张小强等[3]认为数据出版既包括数据的发布,又包含数据相关信息的出版,即科学数据出版的客体为数据及其相关信息。由此可见,研究者通常将科学数据、科学数据集以及元数据等相关信息作为科学数据出版的客体。
当前对科学数据出版模式的研究主要从不同主体所承担的责任和角色以及科学数据出版的形式等视角展开。张小强等[3]从出版主体出发,构建出版机构控制模式、非出版机构独立控制模式、混合模式和二次出版模式。Lawrence等[7]提出独立数据出版、代理数据出版、附录数据、期刊驱动的数据存档、复合出版5种模式。张丽丽[32]基于Lawrence的观点,提出作为科研附属产物出版、独立出版、数据中心的数据出版3种模式。张静蓓等[33]将科学数据出版模式归纳为数据论文、数据独立出版、合作出版和期刊自行出版。梁子裕[16]认为数据论文出版、数据独立出版、数据合作出版是国外科学数据出版比较有代表性的3种模式。黄国彬等[34]根据科学数据产生的情形,归纳了科学数据集成出版和独立出版2种模式,不同模式在数据集描述方式、质量审核方式与出版费用等方面存在较大差异。当前对科学数据出版模式的归纳,从不同视角相互补充,使之既有传统出版的特色,也有科学数据出版的独立特征。
李红星等[35]专门研究了数据中心与传统学术期刊联合开展科学数据出版的模式。马瀚青等[36]则对期刊编辑部与数据中心联合出版数据论文的模式和流程进行分析,该模式以期刊编辑部为主体,与数据中心联合开展数据论文出版。学术论文与科学数据集成出版模式通常体现为数据存储在数据仓储中,通过数据描述符或引用与论文关联集成、基于数据仓储平台集成出版和以数据期刊方式出版数据3种形式[37]。而数据期刊出版模式包括以数据论文为特征的数据期刊、以整合出版为特征的数据期刊和以数据作为补充资料的数据期刊3种模式[38]。高雅等[39]认为ENCODE项目通过对DNA领域数据的出版,集成科学数据挖掘与重用,并实现功能的工具化处理,从而提升用户利用数据的程度和效果,是科学数据出版的创新模式。对科学数据出版模式的宏观总结、对具体模式和典型案例的分析,都为科学数据出版实践提供了具有一定可行性的参考。
当前科学数据出版形式的研究成果较为丰富,有些学者认为以学术期刊出版商为主体的科学数据出版通常采取3种形式:将相关数据注册到数据仓储、以补充材料的形式与论文一同发布、提交第三方备份[40]。还有学者认为科学数据出版的形式包含传统研究论文提供数据下载信息、基于DOI系统的数据网络出版、通过专门的数据期刊以数据论文的形式出版[35]。王丹丹[41]则认为科学数据出版分为将科学数据作为独立信息对象存储在知识库中、以数据论文形式出版和以论文附录形式出版3种。涂志芳[6]则从出版客体出发,总结了数据附属于出版物、独立的数据出版和出版物附属于数据3种形式。
总体而言,科学数据出版形式的区分主要是根据其出版载体的不同,出版形式的多样性则是科学数据出版与传统学术出版交织和分离的结果,几种形式各有优缺点(表1)。科学数据出版的主要形式包括传统出版物的数据附件、学术仓储、以数据论文为主要形式的数据期刊、单纯通过网络进行数据发布等。从与传统学术出版之间的关系来看,将数据作为传统期刊文献的附件和附加材料提交出版这一形式由来已久;通过学术仓储进行科学数据出版是OA运动、开放科学建设的必然结果;数据期刊和网络出版形式脱胎于传统出版。
表1 不同科学数据出版形式的特点
科学数据出版遵循基本的出版流程,英国联合信息系统委员会(Joint Information System Committee, JISC)与自然环境研究委员会(Natural Environment Research Council, NERC)在《地理科学数据期刊》(GeoscienceDataJournal,GDJ)的基础上共同开展了PREPARDE项目,规范该领域数据文章提交、文章与数据集关联、数据存储、科学数据同行评审等环节和流程[42]。美国国际开发署(United States Agency for International Development,USAID)对数据出版的流程作了简要概括,包括数据识别和认证、评审和数据发布3个环节[43]。美国劳工部开展的数据开放主要有数据的分析和认证、元数据描述、数据的提交与发布等环节[44],首先分析数据的隐私和安全性特征,区分数据所属类别;其次通过元数据描述揭示数据特征和类别区分;最后根据数据特点进行区别开放和发布。吴立宗等[45]认为数据出版包括数据提交、同行评议、数据发布和永久存储、数据引用以及影响评价5个基本环节。屈宝强等[46]认为数据论文的出版流程包括论文手稿的撰写、论文提交、同行评议、修改、定稿和发表等环节。无论科学数据以何种形式和平台发布,从宏观视角对科学数据出版过程进行分解,其过程通常包含数据的生产、作者预处理(主要指面向数据出版要求的格式化处理)、数据出版商的评审、数据出版预处理(包括元数据生成、DOI生成、格式规范、出版形式确定等)、数据发布、数据存储等环节。在具体的科学数据出版实践中,因为主体、形式、平台、政策和存储等方面存在差异而呈现不同特点。
对数据进行有效的质量控制,有助于促进可信任数据集的产生,也有助于促进数据的再利用。就出版形式而言,当前多数传统期刊未对数据质量控制提出相关要求,数据仓储通过技术手段来实现质量控制,而数据期刊的质量控制保障相对完善[41]。李修[47]通过对国外数据期刊案例进行分析,认为论文结构标准和同行评审是进行数据期刊质量控制的有效手段。涂志芳等[48]通过对比国外科学数据出版实践的典型案例,认为我国在科学数据出版的质量控制方面,需从理论探索、政策制定、标准研制、系统开发、工具应用等方面进一步完善和提升。质量控制是发挥科学数据出版价值的重要保障,技术实践正在不断推进,而理论探索也应进一步深入。
科学数据出版给整个学术交流体系带来了重要影响,国内外学者从对传统学术评价系统带来冲击、加速学术体系转变等视角探讨了科学数据出版与学术交流体系的关系。
科学数据出版对学术评价系统的冲击主要体现在扩大了学术评价对象的范围。传统学术评价侧重于对著作和学术论文进行评价,而且评价结果的多途径使用趋势越来越明显。通常以学术成果出版作为学术评价的前提,学术著作、学术论文成为最重要的学术评价对象。科学数据出版为学术评价、学术规范和学术质量的控制提供了更为坚实的基础[49]。刘凤红等[50]将科学数据作为一种研究要素,而科学数据多以研究要素论文的形式出版,研究要素的出版体现了开放科学的内在精神,即简单、可靠、可被引用、可被发现。将科学数据纳入学术评价,特别是对数据论文、附加材料等形式的数据进行评价,拓展了学术评价的内容范围,也可进一步提升科学数据在整个科研成果中的价值。
科学数据出版对学术评价系统的冲击还体现在将科学数据作为学术评价对象是否具有可行性和可操作性。科学数据对于科学研究的重要价值毋庸置疑,但将科学数据纳入学术评价系统时,对何种形态、处于何阶段的数据进行评价,由何人进行评价,评价标准如何制定都还在探索。虽然研究要素出版代表了学术出版的新方向,但诸多方面存在问题,如其在学术和科研评价中的作用和未来发展。随着科学数据出版的标准化发展和接受程度的提高,科学数据成为学术评价对象具有更多可能性。
Murphy[51]认为包含互联网在内的技术突破,以及正在发生变化的政策制定者和科研资助者的优先考虑事项,正在不断联结形成新的学术交流模式。2012年,英国皇家学会发布ScienceasanOpenEnterprise(《科学:开放的事业》),将开放科学定义为开放数据、科学出版物的OA和科研内容的有效交流[52]。“开放科学”这一术语提出之后,科学数据的开放、共享以及出版的认可和实践程度均大有提升。透明性、开放性和再现性本就是科学研究的关键特征,在推动科学研究的开放性中,数据共享标准的设立激励科研人员将科学数据存储在公共数据仓储中并开放[53]。Campbell等[54]早在2002年就提出,不对科学数据进行开放发布对于科学活动有消极的影响,减弱了对出版成果的确认能力;Piwowar等[55]通过调查发现科学数据的共享、开放能显著提高被引率。科学数据出版把单纯的数据共享和数据存储纳入到学术传播的过程,提升科学数据在整个科研体系和学术交流中的地位,使科学数据成为一流的科研成果[16]。当然,数据与研究文献密切相关,科学数据的发布、存储、引用以及与相关研究文献的关联,自然成为科学数据出版应当关注的关键环节。科学数据出版为科研人员合作提供了更多机会,增强了学术交流的深度和广度。
在中文期刊论文中,与“数据出版”共现率最高的关键词为“科学数据共享”和“数据共享”。可见当前研究将科学数据出版作为数据共享的实现方式之一,通过出版将科学数据的存储、共享以更为开放的姿态纳入学术交流体系中。数据出版模式、资源池模式、数据交易模式等一同被看作数据共享的主流模式[40]。科学数据出版能够解决数据共享面临的知识产权问题,避免责权纠纷,被视为数据共享的新模式[56]。科学数据出版成为推动科学数据共享的最根本途径,能够为科研人员提供获取和利用数据的渠道,保障科研人员能够在学术交流体系中获取其应得的学术声望及相关的知识产权等权益[49]。
国外对此种观点的认可度也较高。Griffiths[57]指出数据出版、数据集出版与数据共享并没有实际的区别,都有使数据公开、可获取之意。Burton等[58]基于澳大利亚ANDS项目研究,认为数据的出版包含可引用、可获取、可靠、被公开公布、对作者权利的声明等。van den Eynden等[59]认为英国已经从注重科学数据的存储与管理转向推动科学数据的出版和发布。Candela等[60]认为数据出版是对数据进行公开的实践活动,以方便数据被他人重用,保证数据来源和归属的可追溯性,一般与相关政策紧密相关。Vision等[61]认为通过期刊论文的附加材料、作者网络在线提供等方式进行的科学数据出版并不能充分实现科学数据的开放共享,而学科数据仓储建设能够弥补其不足。归根结底,这些观点都是将科学数据出版作为开放共享的实践方式。
OA早期以机构库和OA期刊为主要路径,而今科学数据的出版对OA有了进一步深化。张丽丽等[22]认为在推动科学数据OA的过程中,科学数据出版是一种应当关注的解决方案。在OA柏林宣言提出之初,Klump等[62]就该宣言所带来的科学数据出版问题进行探讨,着重讨论科学数据出版牵涉的版权问题,指出将OA宣言运用于科学数据需要一个能突破传统的出版体系。Spires-Jones等[63]提出当下科学研究不仅需要传统的期刊文献,也有对完整研究成果特别是原始数据的需求,可以通过OA和数据共享来满足数据需求。Smeaton[64]认为爱尔兰的OA行动已经从传统出版物的OA拓展到科学数据的出版。Doldirina等[65]对科学数据开放出版涉及的法律问题进行探讨,提出政策制定者、出版者、图书馆人员、数据中心管理者、高校管理者、公共机构和科研人员等在科学数据出版中可采取的法律手段和措施。OA推动了开放科学的发展,数据出版是开放科学的必要环节[66],科学数据出版进一步推动了数据的OA和再利用,不断实现数据与学术体系的真正融合。
回顾国内外相关理论研究,当前科学数据出版领域理论研究的特点、趋势以及启示可以概括如下。
对科学数据出版内涵的讨论,是科学数据出版研究深入和拓展的基础,科学数据出版内涵的界定在一定程度上影响科学数据出版的流程、模式等关键问题的研究和实践动向。虽然当前科学数据出版的界定尚在探讨中,不同的学者和机构持不同观点,但对科学数据出版关键要素的界定基本有两种思路:一种是从传统出版的关键环节来概括;另一种则是从互联网的开放特点进行界定。无论何种界定,均来自于对科学数据出版实践的归纳和总结。随着研究的深入和科学数据出版实践的推进,对科学数据出版内涵和外延的认识应当从实践归纳上升到对其本质的揭示。
从国内外相关研究成果可以看出,当前科学数据出版研究处于典型案例分析、出版形式、科研人员态度等实践经验探讨以及动机和影响分析的层面,对科学数据出版的研究多为零散的、单个环节的研究,其中,国内的研究呈现出重实践技术、轻理论的特点,对科学数据出版深层的理论问题涉及较少。此外,鲜有研究涉及科学数据出版在整个学术出版中的地位和贡献,特别是在国内学术出版环境下,科学数据出版将会带来何种影响。科研人员对科学数据出版的认知以及认可程度,特别是科研人员对科学数据出版的需求、对科学数据出版实践平台的功能需求等问题,国外研究有所涉及,而国内目前涉及较少。
经初步统计,国内科学数据出版的理论研究成果主要刊载于图书情报、出版等领域的期刊,自然科学领域如生物、化学、医学等领域期刊对该主题也有所涉及。但总体而言,相比OA、科学数据管理等相关主题的理论研究,国内对该领域的研究投入略显不足。从研究人员来看,当前国内科学数据出版领域的研究者集中在出版领域和图书情报领域,该领域的国外研究者主要来自于科学数据出版实践者如平台或系统的开发者、出版商等。由于科学数据本身的特性,跨领域交叉学科研究将是科学数据出版研究乃至实践的重要动力。科学数据的管理、共享、开放和出版等紧密相关,牵涉的主体众多,其在科学数据生命周期的不同阶段以及科学数据出版的不同环节承担不同的角色和功能,且科学数据的产生和再利用几乎在所有学科领域都存在,因此科学数据出版研究需要不同领域研究者共同关注、合作开展。
虽然科学数据出版与科学数据的共享、管理以及OA一脉相承,但科学数据出版在出版范畴内具有其独特的特征和功能,因此需要对科学数据出版进行有针对性的理论研究。此外,当前对科学数据出版与否的担忧与争议尚在,因此,如何充分发挥科学数据出版的价值、如何体现出版对科学数据的独特功效、如何保证科学数据在出版过程中的质量、如何看待科学数据出版在整个学术交流体系中的正面和负面作用等问题都还需要深入探讨和分析。当前科学数据出版研究多停留在零散的基础探索和实践总结层面,缺乏深入、细粒度的系统性理论研究。