彭媛媛,刘静羽,黄金霞
(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学,北京 100049)
国外出版机构开放数据政策研究*
彭媛媛1,2,刘静羽1,黄金霞1,2
(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学,北京 100049)
在密集型数据环境下,本研究选取国外较有代表性的8家出版机构为研究对象,以出版商平台、期刊网站、re3data.org数据仓储目录系统为数据来源,将出版机构的数据政策内容,按照呈缴政策、存储政策和利用政策三个方面进行总结分析,并基于现有政策内容对科研数据政策未来仍需改进之处进行讨论,以期为出版界制定统一、完备的开放数据政策提供参考借鉴。
科研数据;开放数据;数据政策;出版机构
科研数据是数字信息时代从事科学研究必不可少的战略资源,产生于资料收集、分析实验、科研产出等过程,是具有重要科研价值的数据集合,是科学、技术、医学等领域知识构建的基础与支撑。自2001年12月《布达佩斯开放存取计划》提出以来[1],开放获取运动如火如荼,科研数据的开放共享也逐步为人们所推崇;2003年10月,德国马普学会提出《关于自然科学与人文科学资源的开放获取的柏林宣言》,倡导学术论文、教育资源、科研数据的开放共享,呼吁各科研机构将科学资源开放获取[2];2006年,经济合作与发展组织倡议提升公共资助科研数据的及时性、易获取性与网络互联性等[3];英国皇家学会于2012年5月发布《科学·开放的事业》报告,指出对科学理论及具体实验数据的即时发布是他人了解、判断该研究的基础,是证伪和创新的依据[4]。开放数据是数字网络环境中数据信息资源共享的一种新方式和新理念[5]。
为完善科研数据开放获取制度,国内外政府部门、国际组织、资助教育机构等利益共同体陆续出台科研数据管理与共享政策,以确保科研数据的可获取、可共享、可重用,并期许通过科研数据的开放共享实现更广泛的学术交流与科研融合,实现科学研究中的崭新突破。2011年4月,英国研究理事会发布《RCUK数据政策通用原则》[6],规范研究数据的使用规则;美国白宫科技政策办公室[7]于2013年2月发布的政府科研数据开放政策指出“涉及受联邦资助的科研项目,所产生的数字形式的科研数据都需存储起来,并提供搜索、检索和使用等的公共访问、共享”;美国也透过G8会议颁布政府开放数据宪章,英国、日本、法国等成员国积极响应,加拿大、印度、新西兰等国政府分别发布开放数据的声明,澳大利亚、巴西和智利出台数据开放和保护的相关政策法规;中国科学院制定的《科学数据库数据共享办法(试行)》规范了其与建立数据库的各单位在数据收益分配、产权归属等方面的问题;复旦大学社会科学研究中心应用哈佛大学Dataverse网络平台,建立中国社会科研数据共享中心;北京大学根据科研数据开放共享机制建立北京大学开放数据研究平台以及管理科学数据中心等。
作为开放获取运动的利益相关者、科研数据交流与传播的重要媒介,出版行业也先后推出科研数据开放共享的相关政策。Science与Nature期刊明确提出,作者在提交文章的同时,必须将与文章结论相关的研究数据一并上传,或存储于公共数据仓储,文章正式发表后将研究数据完全开放共享;PNAS要求作者在投稿时,与研究相关的科研数据要同时提交、存储,并对数据的可用性限制进行说明;开放获取期刊出版商PLOS、BMC也针对其出版的期刊推出数据共享政策。从单个期刊提出数据政策,到出版集团从整体的角度推出数据共享方案,可见出版界也逐渐掀起数据政策的浪潮,力求构建一种与出版物相关联、高质量、适宜重用的数据管理与共享模式,通过验证数据的真实性以增强出版物的可信度,从而提升出版物的学术价值,并为开放科学事业的发展贡献一份力量。因此,本研究以探析目前开放数据的政策内容与未来发展情况为出发点,对国外出版机构开放数据政策进行调研,从中选取5家传统期刊出版集团与3家开放获取期刊出版机构,将其数据政策按照呈缴政策、存储政策、利用政策三部分内容进行分类梳理,并对其未来发展趋势进行讨论,为完善出版界数据政策,推动科研数据的自由获取、重发布与再利用提供参考借鉴。
本研究参考国际科学、技术与医学出版商协会发布的出版商成员机构排名[8]、2016年度世界排名前52位的图书出版机构分析报告[9]、2015年GoOA期刊排行榜中开放获取期刊出版商排名,结合出版机构是否制定科研数据政策内容等因素,最终选取Springer Nature、Elsevier、Wiley、Taylor & Francis Group、Oxford University Press(OUP)、Hindawi、Public Library of Science(PLOS)、BioMedCentral(BMC)8家出版机构推出的开放数据政策为研究分析对象。BMC虽于2008年被Springer出版社收购,但其始终致力于开放获取出版行业。由此,本研究将两者分别列为传统出版机构与开放获取出版机构,从两个角度进行比较研究。
本研究数据主要来源于8家出版机构的官方网站、提供科研数据仓储列表的Scientific Data数据期刊、收录数据仓储较全面的注册和目录系统re3data.org,并结合文献调研对内容进行补充,调研截至2017年4月25日。以下根据各出版机构的科研数据共享与管理政策,分别对具体政策内容要素、未来发展与改善情况进行详细阐述。
在8家出版机构中,Springer Nature、Elsevier制定的数据政策内容较详尽;PLOS、BMC提出数据政策的时间虽然较早,但政策条款较少且宽泛;Wiley、OUP的数据政策针对部分开放获取期刊进行试点;Taylor &Francis Group与Hindawi的数据政策处于建设初期,形成部分条款与整体框架。本研究根据各出版商的数据政策内容,总结其内容要素,从呈缴、审查与存储、利用政策进行更细致的分析。
出版商科研数据呈缴政策主要集中于数据的可选性/强制性提交、数据提交方式、提交时所规定的数据类型,以及数据的格式要求[10]。
Springer Nature将其收录的所有期刊划分为四个类别,对期刊的科研数据分为可选性与强制性提交,可在“作者指南”“编辑须知”“数据政策”模块中查看具体要求[11],根据提交数据的不同特征内容共分为强制性、推荐可选性、无特殊要求三种情况(见表1)。四类政策中,有三类政策希望/要求作者在向期刊提交文章与数据集时附带数据有效性声明,以说明支撑文章结论的数据可在何处找到相关信息,研究期间分析或生成的公开发布的数据集链接地址。此外,数据有效性声明还应明确以下内容:(1)研究期间产生或进行分析的数据集可在哪个知识库中获得;(2)如果研究期间产生或进行分析的数据集不可公开,那么须有原因说明(如涉及机密数据);(3)研究期间产生或进行分析得到的数据集可按照作者提出的哪些合理性要求后提供;(4)数据共享政策如果不适用于提交的文章,则需要说明原因(如研究期间没有生成或分析数据集);(5)研究期间生成或进行分析的所有数据是否均包含在文章及其补充信息文件中。同时,Springer Nature要求作者上传数据的方式与类型主要分为三类:(1)鼓励作者尽量将研究数据上传到适宜的公共数据仓储中,无需随文章一同提交期刊;(2)文章原始文稿中的描述性材料需随文章一并提交期刊,并鼓励作者将数据集存储于公共数据仓储;(3)向期刊提供与文章结论相关的所有数据集,并在文章进行同行评议前将数据集存储于公共数据仓储,作为文章的补充材料[12]。
Elsevier认为科研数据是建立科学、技术和医学知识的基础,但在其访问和共享方面存在挑战。根据《布鲁塞尔宣言》,Elsevier设想未来可轻松、有效地存储、共享、发现和使用数据,以支持研究人员工作,并促进科学与健康发展。然而,在科研数据的访问、共享方面存在挑战[13]。Elsevier应对可能存在的挑战制定相应的推荐性科研数据政策,并于2015年实行开放数据发布与共享的试点计划,鼓励作者上传原始研究数据至Mendeley Data[14],并将其链接到所属ScienceDirect文章。Wiley对旗下13种期刊开通开放共享数据服务,且13种期刊各有其数据政策,若想详细了解每种期刊的数据政策情况,需在投稿时根据期刊主页面相关指南进行操作[15]。这13种期刊的数据文件无强制性上传要求,将其定义为可选性的数据共享协定,数据集无格式要求,也无需随文章一并提交。OUP与Wiley的呈缴政策类似,但OUP强调需要提供文章的数据有效性声明,且声明中需明确数据的有效性与具体应用,数据集需存储于公共数据仓储,并获得相应的登记号[16]。Taylor &Francis Group仅要求提供数据源的URL[17]。Hindawi、PLOS、BMC强调数据有效性声明的提交[18],且BMC明确指出数据文献的类型应为XML、CSV、XLS/XLSX、RDF[19],以便于统一管理与进一步数据挖掘和文本内容分析。
表1 Springer Nature四类数据政策纵向区分
本研究选取的8家出版机构对提交数据集的审查机制尚不完善,Elsevier将原始研究数据作为补充材料,供编辑与审阅者共同审校;Springer Nature仅部分期刊制定审查机制,其余期刊均遵守对选定期刊的数据集及数据有效性声明进行同行评议,以考察作者是否遵守Springer Nature关于科研数据有效性声明所提出的政策要文章求,同行评议者有权要求对其底层数据(或代码)进行访问,以便对文章学术水平进行评估。数据有效性声明的审阅者需要考察[20]的内容有:读者是否可以查看数据;在DAS中提供的链接,是否可以正常使用;在数据访问受限时,限制访问的条件是否合理;数据的描述内容以及手稿或补充信息文件中的描述内容,是否准确。对于数据文件,审阅者应该考虑:数据是否存储于最合适的数据仓储;数据是否以严谨的方法论产生;数据及元数据是否符合学术界的文本格式与报告标准;作者存储的数据文档是否完整,与稿件的描述是否相符;数据集中是否包括个人信息、敏感信息或不当信息。Elsevier数据审阅者主要针对数据的完整性与可用性进行审定,而对数据集具体内容与价值不作评判。
在出版商数据存储政策中,绝大多数学科类型的数据,其数据仓储的选择可由作者自行决定,如Figshare、Dryad等综合性通用数据仓储,或学科专用类数据仓储。Springer Nature参照Scientific Data,对生命科学类期刊提供推荐性数据仓储列表[21],作者可根据喜好或需求进行选择。Elsevier要求但不强制作者将数据集添加到Mendeley Data数据管理空间中,数据集可在Mendeley Data上根据作者选择的许可协议被他人使用,并获得相应DOI与ScienceDirect上的文章相关联,读者可以通过文章访问数据集[22]。其他各出版机构未规定数据仓储或提及推荐仓储,凭作者自由选择即可。
Springer Nature、BMC规定数据利用需遵从CC0割免协定,具体的使用许可依据数据集存储的数据仓储为准;Elsevier中的数据文件遵循CCBY许可协议;Wiley对上传数据的使用许可采用CC0协定,并允许进行数据挖掘以及大规模的元分析工作。其他出版商在其官网没有明确说明数据文档的使用许可,需参照数据集所属文章、仓储的使用许可限制后,再行利用。
开放科学数据仓储的产生与发展反映了人们对开放科学数据利用的需求增加。开放科学数据仓储的建设主体有单一的高校、科研院所、出版商等,也有跨组织、跨地区的合作(如CESSDA Dada Portal)。数据来源主要有两种,一是强制要求科研人员提交研究涉及的研究数据(如Springer Nature),二是鼓励或建议科研人员提交相关科学数据(如PLOS One)。由于庞杂的数据存储库使研究人员较难发现并选择所需数据来源,因而出现数据仓储的注册和目录系统,如OAD开放获取仓储、re3data.org、Databib等。
Scientific Data作为较早发行的数据期刊,所涉及的数据仓储较权威、规范,且re3data.org中收录的数据仓储数量大,学科分类细致、学科主题多。因而,以Scientific Data、re3data.org为数据来源,比较分析数据仓储中科研数据的使用许可。Scientific Data推荐的开放数据仓储涵盖学科较多,且这些数据仓储也作为Springer Nature旗下期刊接收文章时,向作者推荐的开放数据存储共享平台,同时也受到其他各出版商的推崇。近年来re3data.org平台中收录的仓储数量呈逐年递增趋势,仓储类型主要分为国家类、政府类、机构类以及出版商自建的数据仓储,其建设主体包括高校、科研院所、出版商,旨在促进数据开放共享,提供科研数据管理工具。但也存在数据共享交换协议各有差异、学科分布不均(生命科学领域数据仓储体量较大)等一系列问题。本文将数据来源中的仓储进行统计,目前约2 000个数据仓储被记录,且这些被记录数据仓储在re3data.org中所对应的数据许可和数据(仓储)库许可[23]主要分为三类(见图1)。
(1)数据获取/数据库获取。数据/数据库的开放程度主要分为四种情况:开放、存在一定限制(需要注册、身份认证)、被禁止获取(只读性)、完全不可见(仅限机构内部或项目工作组的人员使用)。对平台标引的数据仓储、数据仓储中对应数据的开放情况进行统计,仓储中的数据可完全开放获取的占数据库总数的56.4%;获取具有一定限制的数据占总数的32.0%;不可获取的占比11.6%。数据库的开放程度主要分为三种情况,开放型数据库占比94.5%,具有限制的数据库占比5.0%,不开放的占比0.5%。其中,部分开放型数据库中并非所有数据都可完全开放获取,故具体的数据权限与数据库权限存在一定差异。
(2)数据获取受限/数据库获取受限。数据/数据库开放受限的原因主要分为四种情况:需注册、机构成员、需付费、其他。其中,数据/数据库受限的原因主要是需要注册后开放获取;少数属于机构仓储,机构成员才可浏览、使用;部分原因还未知。
(3)数据许可/数据库许可。主要是版权限制,其次是遵循CC许可协议,其中CC0占有的比重较大,说明再利用的限制较低。其他许可还包括Apache License 2.0、开源许可协议(Berkeley Software Distribution,BSD)、开放数据协议(Open Data Commons,ODC)、开放许可(Open General License,OGL)、公有领域、其他。
国外诸多出版商都开始重视科研数据的管理,在推动科研数据管理与共享方面做出新尝试。在开放科学运动的推动下,也不断鼓励作者开放研究成果中的数据。从调研中可知,Springer Nature、BMC、PLOS[24]已制定数据共享协议;Elsevier数据政策主要服务于科研数据管理,开放共享政策需针对不同期刊的具体情况进一步分析,Elsevier的态度是鼓励作者开放数据,由此进行了开放数据的“试点项目”,但并不强制数据开放;Wiley、OUP针对部分期刊,推出数据共享的政策规定;作为完全开放期刊出版商,Hindawi将制定开放数据政策作为2017年的一项重要工作。依据现有数据政策的制定与推行趋势,出版商开放数据政策更将日益完善。
然而,目前建立的各种政策主要以推荐、鼓励性政策为主,为规范科研数据的管理与共享制度,可考虑逐步修订为强制性政策,并将数据引用问题纳入规定范围。数据期刊的兴起,为科研数据的出版、分享与传播开启同行评议机制,相应在科研数据作为文章附件、补充材料、数据支撑时,也需建立同行评议过程以认定其作为学术成果的价值。同时,科研数据的开放存储与利用模式也尚未明确,未来可从数据的存储与管理关联、一体化,数据的深度挖掘与元数据分析方面做进一步探究。
图1 许可限制间的比较
科研数据的呈缴政策是科研数据开放共享的第一步,也是数据实现关联与检索发现的基础。因此,为推动科研数据开放获取与共享的脚步,出版机构应逐步趋于数据集、数据说明文档等相关研究辅助材料的强制性上传机制,参照PLOS对所有投稿执行的统一规定,已发布数据的存储格式、引用格式、存储位置及使用许可等问题。通过数据有效性声明进一步完善在数据呈缴时需明确的事宜,并指出一旦违反相关政策条款,即使文章出版也将对其进行相应的惩处措施(如撤销已发表的文章)。
建立科研数据的同行评议体系是保证高质量产出、验证学术成果科研价值的一种方法。同行评议过程应指定所采取的技术、标准、数据集的匹配性、实验环境与实验结论完全相符,即保证数据集的完整性与一致性、满足相关的标准、具备适宜的软件等;对于科学质量与价值则交予审议者、研究人员、实践团体,通过成果验证、研究参考等实践应用后再进行评估。
科研数据的同行评议也可与主要数据管理者(数据中心和知识库)进行合作。由于后者是科研数据内容的主要持有者,为使用者提供科研数据获取的链接;又可对科研数据的技术质量、安全管理与保存提供一定保障,当文章和数据间的关联度不断增加时,可以考虑通过数据管理者进行科研数据的质量控制,以保证高质量数据的获取与长期保存。
数据仓储的数量逐年增加,学科、机构以及综合性三大类数据仓储的数量较多,如生物科学数据仓储、美国国家空间科学数据中心。对众多数据仓储访问、检索后发现,存储特定学科的科研数据仓储将更易于用户对仓储数据进一步分析。因此,出版商在规定数据共享政策时,可针对适于期刊学科主题的数据仓储进行推荐,便于相关数据集间的发现、管理与互联。同时,数据仓储自身的建设情况也不尽相同,如re3data.org数据知识库注册系统中数据的开放程度存在差异,需要同时关注仓储与数据集自身的开放使用条件,且每个数据仓储的数据引用格式也存在差异。致力于数据引用实践的国际组织DataCite提出一套数据引用规范[25],但各数据仓储会自行推荐或不加以说明。由此,数据仓储在开放程度与引用规范方面应加以限定,出版商在选择推荐仓储时,也应从这些方面进行考量,以便于资源互通、内容共享。
不同数据仓储对现有开放数据集的获取、利用有不用的标准,除上文提到的数据/数据库许可外,在数据交换、共享使用时也存在FTP、REST、OAI-PMH、SOAP、NetCDF、OpenDAP、SWORD、SPAPOL等协议进行传输的方式。这些对数据的传播、流通与再利用带来不便。进一步促进科研数据的再利用,首要任务是明确数据集的再利用方式和限制。在科研数据的利用阶段,为数据生产者或上传者提供明确的数据引用政策,使其给出数据所属的许可信息(如Open Data Commons协议);为使用者提供明确的指导,告知科研数据的用途与使用规范。涉及隐私、机密、生物遗传规律等的科研数据集,再利用的方式与具体规范应更具有针对性,对这部分数据的管理也应严格限定,可使用的条件要明确详细。如初次提供数据集时只提交部分数据单元,不将全部内容予以公开。对于敏感数据的安全性保护与管理也是促进开放数据发展的重要环节,而对于基础科研数据则应尽量制定普适性、通用性的使用规范。同时,可尝试建立文本与数据挖掘的许可政策,根据作者提供的数据使用许可,结合出版机构、数据所存储的数据仓储的规定,为用户挖掘数据底层的关联信息,尽可能为用户提供深层次的数据服务。
本文以出版机构的开放数据政策作为研究切入点,通过调研国外主流开放获取期刊的出版机构并分析其目前提出的数据政策,在总结政策内容的基础上对开放数据政策未来有待拓展的方面进行系统性讨论(如制定强制性数据呈缴制度、建立科研数据同行评议体系、规范开放数据仓储内容等),以期为今后学术出版界制定更完善、全面的开放数据政策提供参考与借鉴。然而,本研究选取的出版机构数量有限,未能对众多出版机构展开更广泛与深入的调研,未来需继续跟踪其他出版机构的政策进展。
[1]Budapest Open Access Initiative[EB/OL].[2017-08-01].http://www.budapestopenaccessinitiative.org/.
[2]Berlin Declaration on open access to knowledge in the sciences and humanities[EB/OL].[2017-08-01].http://oa.mpg.de/openaccessberlin/berlindeclaration.html.
[3]OECD.Principles and guidelines for access to research data from public funding[EB/OL].[2017-08-01].http://www.oecd.org/dataoecd/9/61/385008 13.pdf.
[4]The Royal Society.Final report-science as an open enterprise[EB/OL].[2017-08-01].http://royalsociety.org/policy/projects/science-publicenterprise/report/.
[5]黄永文,张建勇,黄金霞,等.国外开放科学数据研究综述[J].现代图书情报技术,2013,233(5):21-27.
[6]RCUK.Rcuk common principles on data policy[EB/OL].[2017-08-01].http://www.rcuk.ac.uk/research/datapolicy/.
[7]董坤,顾立平.若干国家科研数据开放政策框架研究[J].中国科技资源导刊,2016,48(3):51-57.
[8]STM.Memberslist[EB/OL].[2017-04-10].http://www.stm-assoc.org/membership/our-members/.
[9]MILLIOT J.The world’s 52 largest book publishers,2016[EB/OL].[2017-08-01].https://www.publishersweekly.com/pw/by-topic/international/international-book-news/article/71268-the-world-s-52-largest-book-publishers-2016.html.
[10]Research data policies and services[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/.
[11]Research data policy types[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/policy-types.
[12]Over 600 Springer Nature journals commit to new data sharing policies[EB/OL].[2017-08-01].http://www.springernature.com/br/group/media/press-releases/over-600-springer-nature-journalscommit-to-new-data-sharing-policies/11111248.
[13]Elsevier.Research data[EB/OL].[2017-08-01].https://www.elsevier.com/about/open-science/research-data.
[14]Make your research data citable[EB/OL].[2017-04-10].https://data.mendeley.com/.
[15]Wiley’s data sharing service[EB/OL].[2017-04-10].https://authorservices.wiley.com/author-resources/Journal-Authors/licensing-and-open-access/open-access/data-sharing.html.
[16]When do we share information?[EB/OL].[2017-04-10].https://www.oup.com.au/privacy-policy.
[17]The open data movement:international consolidation[EB/OL].[2017-07-14].http://blog.scielo.org/en/2014/07/14/the-open-datamovement-international-consolidation/#.WPOvArglG00.
[18]FAUST T.Dataavailability at Hindawi[EB/OL].[2017-04-10].https://about.hindawi.com/opinion/data-availability-at-hindawi/.
[19]BioMedCentral.Opendata[EB/OL].[2017-04-10].https://www.biomedcentral.com/about/policies/open-data.
[20]Research data policies FAQs[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/faq.
[21]Recommended repositories[EB/OL].[2017-04-10].http://www.springernature.com/gp/group/data-policy/repositories.
[22]Elsevier.Opendata[EB/OL].[2017-04-10].https://www.elsevier.com/authors/author-services/research-data/open-data.
[23]Data access[EB/OL].[2017-04-10].http://www.re3data.org/search?query=.
[24]PLOS data policy prior to March 3 2014[EB/OL].[2017-03-03].http://journals.plos.org/plosone/s/file?id=c4aa/PLOSONE_data_pol icy_before_2014March.pdf.
[25]Data Citation[EB/OL].[2017-08-01].https://www.datacite.org/citeyour-data.html.
Research on Open Scientific Data Policy of Foreign Publishing Institutions
PENG YuanYuan1,2, LIU JingYu1, HUANG JinXia1,2
(1. National Science Library Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China)
In the environment of intensive research data, the paper selected 8 famous, mainstream and representative publishing institutions as research object, and took publishing platforms, journal websites and ‘re3data.org’ as data source, from the three aspects of open scientific data submission policy, storage policy to summary and analysis the publishing institutions. Based on the existing policy content of scientific data policy, exploring the future still need to enhance the discussion, in order to provide reference for the publishing industry to develop unified and complete open data policies.
Scientific Data; Open Data; Data Policy; Publishing Institutions
G250
10.3772/j.issn.1673-2286.2017.09.003
* 本研究得到中国科学院项目“粮食安全与国民营养”专题文献数据库研究(编号:院1724-5)资助。
彭媛媛,女,1993年生,硕士研究生,研究方向:开放资源建设、数据评价,E-mail:pengyuanyuan@mail.las.ac.cn。
刘静羽,女,1989年生,硕士,助理馆员,研究方向:开放资源建设,E-mail:liujy@mail.las.ac.cn。
黄金霞,女,1972年生,博士,副研究馆员,研究方向:信息资源组织与建设、开放资源建设,E-mail:huangjx@mail.las.ac.cn。
2017-08-09)