吴立宗 南卓铜 王亮绪
(中国科学院寒区旱区环境与工程研究所,甘肃兰州 730000)
科学数据出版
——促进数据共享的一种新模式
吴立宗 南卓铜 王亮绪
(中国科学院寒区旱区环境与工程研究所,甘肃兰州 730000)
数据出版是近几年由出版界和数据共享界共同提出的新概念,在国际上发展迅速,对知识管理和数据共享具有革命性的作用。文章从数据共享的角度提出科学数据出版是一种全新的数据共享模式,对数据共享具有重要作用,是一种科学数据资源争夺的重要工具及大数据研究的基础,能够解决数据共享面临的知识产权问题,完善数据共享中的责权利纠纷,从而促进数据共享从被动走向自发。在此基础上,提出我国数据出版发展战略,提出数据出版与我国现有的数据共享体系互为补充,国家数据共享体系应加强基础设施建设,为数据出版提供长期永久的数据存储环境,数据出版则应充分利用学术出版,发挥市场经济手段,重点关注数据共享过程中的知识产权问题。
数据出版;数据共享;大数据;知识产权
数据出版是近几年由出版界和数据共享界共同提出和积极实践的新概念,通过“数据提交、同行审议、数据发布和数据永久存储、数据引用和数据影响评价”等基本环节搭建数据出版体系框架[1],解决数据知识产权、数字资源标识、数据(知识)发现等核心问题,最终构建包括文献、数据和科学家的知识管理体系。
数据中心要求用户在使用数据时体现数据作者的贡献,学术期刊要求作者在发表文章时公布与科学结论相关的数据成为推动数据出版的共同原动力。全球生物多样性机构(GBIF)设立数据出版框架工作组(Data Publishing Frame Task Group)详细讨论了科学数据出版框架,并在Pensoft出版集团的出版物中进行试点[2-7]。为满足数据出版的需要,创建了一系列新的数据期刊,如《Earth System Science Data》(2009年)、《Journal of Open Archaeology Data》(2011年)、《Geoscience Data Journal》(2012年)、《Scientif l c Data》(2013年)等。为帮助科学家发布数据,一些国际期刊联合起来成立了数据管理组织Dryad(http://www.datadryad.org),辅助期刊从事数据管理、发布和永久存储。国际数据共享界于2009年联合成立了的Datacite (http://www. datacite.org),制定数据引用标准规范,发布数据出版和数据引用信息。著名的期刊数据库提供商汤森·路透集团,于2012年提出了Data Citation Index的概念,推动学术期刊对数据的引用,并在此基础上开展数据发现和评价研究。
我国对数据出版也非常关注,并开展了系列试点研究,取得了显著成果。中国科学技术信息研究所在引入DOI系统的同时,就借鉴德国国家科学技术图书馆(TIB)的经验,在中国推动数据DOI注册和数据引用[8-10]。中国西部环境与生态科学数据中心从2009年开始与中国科学技术信息研究所合作,以“黑河综合遥感联合试验(WATER)”“黑河流域生态水文过程集成研究”和“黑河生态水文遥感试验(HiWATER)”为例开展了系列数据出版试点研究[11-12],并于2014年成为汤森·路透“Data Citation Index”收录数据中心和Nature出版集团《Data Science》数据期刊的认证数据中心。此外,国家地球系统科学数据共享平台和极地科学数据共享平台也都采用了DOI系统开始数据出版工作。2013年,中国极地研究所和中科院地理资源所先后开始了DOI出版的试点工作,中科院地理资源所开发了试用的科学数据DOI注册规则、DOI编码系统、DOI注册程序、同行评价内容、元数据标准、数据文件格式等一系列与数据出版相关的前期工作。此外,国家测绘局基础地理信息中心、中科院遥感与数字地球研究所等单位也已经注册了DOI组织机构代码,越来越多的单位开始关注科学数据DOI注册和数据出版工作。
我国科学数据出版工作刚刚开始,很多领域尚处于探索阶段。本文从数据共享框架,讨论了科学数据出版对数据共享的价值和挑战,比较分析了数据出版体系与现有的数据共享体系,并为我国发展数据出版提出了建议。
2.1 争夺数据资源的工具
不同时代,人们对科学数据价值的理解不同。在试验和理论研究模式下,科学数据多作为“原材料”来对待,当理论研究结束后,作为原材料的数据就被扔到了垃圾堆。直到19世纪,人们才开始认识到原始数据具有再利用价值[13-14]。随着科学研究趋向复杂,科学家需要综合分析多种数据才能获得分析结果。因此,在模拟和计算阶段研究模式下,科学家需要其他科学家、部门、学科或地区数据的支持,因此也就有了数据共享概念[15]。国际上建立了很多数据共享机构,如世界数据中心,最初的主要作用就是数据协调,帮助国际科学研究计划从不同国家或部门获取数据。
20世纪80年代,由美国和欧洲发起的数据共享,都是从国家经济投入的角度开展的,无论是美国提出的数据免费政策,还是欧洲提出的数据收费政策,都是在本国范围内,利用经济和政策手段达到资源的最优配置。发展中国家因为缺少国家经费投入,无法建立和运行国家级的数据共享系统。
在大数据时代,数据本身就成为重要的研究对象,谁掌握了数据,谁就站到了大数据研究的战略制高点,对数据资源的争夺是大数据研究的必然阶段。在传统的数据共享模式下,很多国家要么没有经济实力开展数据共享,要么因为数据安全不愿意开展数据共享,因此很多国家和地区都出现了数据空白区,这在很大程度上妨碍了大数据研究。
数据出版是一种鼓励科学家个人发布数据的系统,无论是发达国家还是不发达国家,科学家个人甚至是普通民众都有能力出版和发布数据。通过建立数据评价机制,客观体现数据的价值,反映数据工作者的贡献,让大部分数据工作者都愿意出版和共享数据。数据出版与学术出版类似,越优秀的期刊越容易吸引高质量的学术论文。数据期刊虽然处于发展阶段,一旦成熟,将产生巨大的聚合力,吸引全球最优秀的科学家发布最核心和最关键的数据,成为全球数据资源争夺的重要工具。
2.2 大数据研究的基础
在很多研究领域,科学数据的采集、处理与分析贯穿着整个研究过程,数据生命周期与科研资助机构、研究项目、科学家、数据观测和分析仪器、数据分析和处理方法、科学结论紧密相关(图1),科学数据与这些对象之间的关联研究是大数据研究的重要内容。但是,传统情况下,科学数据多作为“原材料”和“过程数据”,只有极少部分数据以图表和辅助数据的形式在学术论文上正式和公开发表,其他大部分原始数据和分析数据都被“雪藏”,既无法再利用,也无法建立数据与其他对象之间的联系,无法开展大数据研究。
图1 数据出版框架下的科学数据传播过程与生命周期
在数据出版框架下,这种情况能够得到极大改善,不同处理级别的数据可以通过不同方式出版,并建立与学术机构、科学家、科学仪器、研究方法和科学结论之间的相互关系。
(1)原始数据应鼓励保存在数据中心,可通过元数据或数据论文的形式出版,通过元数据或数据论文,可以准确描述数据的观测者、观测仪器、观测机构和资助项目或资助机构等信息。数据中心制定类似Datacite标准的数据引用格式,通过数据引用,建立数据与数据,或数据与文献之间的直接联系。
(2)分析处理后的数据,可通过数据期刊方式进行出版,以类似传统论文的方式对数据的数据源、处理过程、质量控制和数据使用方法等信息进行说明,帮助其他科学家正确使用数据。通过数据期刊发布的数据可以对原始数据和数据处理方法进行引用,从而建立数据与数据、数据与方法、数据与科学家之间的直接联系。
(3)直接支持学术结论的科学数据是学术论文的必要组成部分,可通过图表和辅助数据的形式出版。通过数据引用,可建立科学结论与依托数据之间的关系。
2.3 解决数据自发共享
数据共享包括两层含义:一是将保存在科学家个人手中的数据拿出来,让更多的人可以使用,从而扩大数据的使用范围;二是要保证共享数据的完整性[16],通过数据文档、元数据和数据论文等手段对数据进行详细的描述说明,让已经“共享”的数据可以被更多的人正确使用,最大程度发挥数据的潜在价值。
国内外成功的数据共享案例大多都是国家或集体行为,由国家制定数据政策,强制科学家汇交和共享数据,由国家或集体提供运行经费,建立专门的数据管理与存储机构和人才队伍,开展数据管理、存储和共享服务。传统数据共享的主要目的是扩大数据使用范围,其核心是一种经济考量:通过强制数据共享政策,(某种程度上)牺牲小部分人利益,满足大多数人利益,在国家经济的“大循环”上实现最大经济效益[17]。传统数据共享在一定程度上忽略了数据科学价值和科学家的智力贡献,科学家缺乏主动参与科学数据共享的动力,科学数据共享只能依靠国家不断的经费投入来维持,因而不具有可持续性。
影响科学家参与数据共享的关键是缺乏对数据和数据科学家的评价机制。只有使科学家能够从科学数据共享中获得“利益”,其才会主动参与和维护数据共享。数据出版是参照传统学术出版体系建立起来的,将数据视为知识创造链条的一部分,以“数据”为核心,它将数据出版、数据应用(数据引用)和数据评价有机结合在一起,通过数据引用和数据评价客观体现数据的作用,间接体现科学家的智力贡献(图2)。
科学数据出版从知识创造的角度提出了另外一种数据共享“大循环”,它是推动数据共享从被动到主动的关键机制。
2.4 保护数据知识产权和数据权益
数据在相当长时间内被认为是由观测仪器自然产生,不是智力劳动结果,不具有知识产权。但在现今科研模式下,大部分的科学数据各个处理阶段都凝聚着科学家的智力劳动,包括观测仪器布置、数据模拟方法和数据处理方法等,数据(特别是科学数据)具有知识产权已经成为共识。
图2 数据出版框架
科学数据共享着眼于公众利益,要求数据在尽量大范围内使用,限制数据专有,反对数据垄断。而知识产权是一种专有权,强调权利人的独占或垄断,具有专有性、排他性,代表了数据创造者和投资者的利益。数据共享与数据知识产权保护是一对矛盾,既对立又统一。其焦点在于数据知识产权权利人与数据使用者之间的利益失衡[18-19]。
导致这种利益失衡的主要原因是缺乏数据知识产权保护系统,国内外虽然已经开始着手建立数据知识产权法律法规,如《欧洲议会及欧盟理事会关于数据库法律保护的指令》《世界知识产权组织数据库知识产权条约草案》《数据库知识产权条约》等,但缺少数据知识产权认证和交易机构,数据知识产权无法得到切实实施。
数据知识产权集中体现在数据的版权,特别是数据的署名权、出版权和编译权,与学术出版物的版权有所差异,但非常相似。数据出版系统借鉴传统学术出版系统框架,可有效解决数据版权问题。
(1)通过数据中心出版的数据,可通过DOI注册解决数据署名权(及其署名顺序),通过数据授权解决数据出版权问题[20],可授权不同的数据中心对数据进行发布。
(2)数据的发行与期刊论文的发行有所不同,数据出版后,数据的发行权不应该受限于出版机构,因此现在的数据期刊多采用开源获取(Open Access)的模式,数据可被无限制地获取和使用,避免与数据共享产生冲突。
我国2004年就正式启动了“国家科技基础条件平台”建设,经过10年发展,通过政府主导、顶层设计、重点部署、平台优化等一系列措施建立了我国国家级数据共享平台,形成了具有我国特色的数据共享体系,包括以下3个方面。
(1)形成了由国家财政稳定支持的国家级科技资源共享平台体系,保证了国家级数据共享体系的稳定运行。截至2011年7月,经过科技部正式认证的国家级科技资源共享平台共23家,其中数据中心类平台6家,覆盖林业、地球系统科学、人口健康、农业科学、地震科学和气象科学等多个领域。
(2)对大项目的管理趋于规范化,建立了数据汇交机制。科技部于2008年首先在973计划资源环境领域开展了数据汇交试点工作,随后将数据汇交推广到其他领域,建立了国家科技计划项目课题科技资源汇交系统负责各类科技计划项目成果的汇总。
(3)在共享平台运行机制方面进行了一些创新,提出了以数据服务为核心理念的数据中心运行机制,建立了一支稳定的且具有一定规模的从事数据保存、管理、共享和服务的人才队伍。
随着大数据的到来,数据科学领域发生着急剧变化,我国认定的23家科技基础条件平台(6家数据平台)已经不能满足我国科学研究的需要,需要建立更多的数据中心来从事专业领域的数据精细管理和数据挖据。但数据中心的建立和运行不能全部依靠国家财政支持,必须寻求其他机制,保证数据中心自主和可持续发展。在数据方面,虽然大项目数据成果得到了汇交,依然存在大量的其他项目数据无法得到有效汇总,必须建立一种机制鼓励科学家主动汇交和共享数据。在这种情况下,科学数据出版系统可与我国现有数据共享体系形成很好的互补关系,如以下3点。
(1)由稳定国家财政支持建立国家级科技资源共享平台,提高数据管理和永久保存能力,发展成为一种我国科技资源领域的基础设施。数据出版机构积极利用学术出版优势,发挥市场经济手段,争取多元化经费支持,建设小而专的数据出版平台。国家级科技资源共享平台需为数据出版机构提供数据管理和永久存储方面的支持。
(2)在数据汇交层面,国家级科技资源共享平台负责大项目数据成果的集中汇交与管理,数据出版机构负责其他数据的自由注册。国家级科技资源共享平台必须依靠数据出版机制和数据出版机构,及时将汇交的数据进行知识产权认证,保护数据工作者的权益。
(3)在数据服务方面,国家级科技资源共享平台应更加关注数据的集成与挖掘,数据出版机构则应充分利用数据与文献等知识载体的关联,积极开展数据评价和大数据挖掘研究。
数据出版是一种新的数据共享模式,它可以解决传统数据共享长期面临关键问题。通过数据出版可推动建立数据与科研资助机构、科学家、观测和分析仪器、数据分析和处理方法以及科学结论之间的关联,是大数据研究的重要基础;数据出版通过建立类似学术出版体系的出版-引用-评价机制,将数据评价纳入到学术评价体系中,正确反映数据工作者的贡献,从而推动数据共享可持续发展;数据出版通过DOI注册和数据论文的方式,能够明确数据版权中至关重要的署名权,可推动数据知识产权保护。数据出版是一种特定的数据共享模式,但不能全面取代数据共享,它面向的数据群体主要是版权清晰的、可引用的、高质量的数据集。数据出版尚处于探索阶段,还存在很多深层次的问题,特别是知识产权问题有待解决。
在大数据时代,科学数据是知识创造链条上的重要环节,数据出版是国际争夺数据资源的重要工具,我国必须建立自己的数据出版体系应对这种挑战。与我国现有数据共享体系相比,数据出版体系具有很多优点,可与我国现有的科技资源共享体系形成很好的互补关系,我国应该鼓励发展数据出版。
为发展我国的数据出版体系,我国应鼓励现有数据中心和出版机构积极开展数据出版试点,开展科学数据DOI注册,创建数据期刊,制定数据引用标准,推动学术论文对数据的引用,建立数据评价机制。在技术和服务层面,数据中心应为学术出版机构提供数据注册、保存和管理服务。国家机关需要出台政策,建立针对数据工作者的奖励机制。
尽管国内外数据出版还不成熟,很多问题待研究和完善,但不能等待,不仅要鼓励相关机构开展数据出版试点研究,而且要高起点地积极参与和引导国际数据出版,为我国发展数据出版创造一个良好的发展环境。针对我国数据共享和学术出版现状,数据出版可从以下几个方面的需求进行突破。
(1)积极鼓励现有数据中心和学术出版机构开展数据出版试点。
一是,现有数据中心要在尊重数据知识产权的基础上开展基于元数据的数据出版,利用科学数据DOI注册,明晰数据版权信息,制定数据引用标准规范,推动对科学数据的引用。建立数据出版联合体,集中发布数据出版和引用信息,方便用户查找和获取数据出版信息,
二是,学术出版机构需制定对科学数据进行引用的标准规范,积极响应数据中心的数据出版工作。有条件的学术出版机构,特别是依托高校和研究所的期刊应优先开展数据出版试点,创建数据期刊或出版数据专刊,出版经过数据处理和加工的高质量数据集,推动数据同行审议和数据评价。
三是,有条件的数据中心和学术出版机构要优先成立英文出版物,积极参与国际出版,吸引国外科学家在我国出版数据。
(2)我国的数据中心应在技术和服务方面,积极应对数据出版的需要,在国内成为数据出版的数据注册和数据永久机构。同时应积极开展国际数据中心认证工作,争取成为国际数据期刊认同的数据保存机构,当我国科学家在国际期刊上发表数据论文时,数据实体可以永久保存在国内数据中心。
(3)国家机关出台相关政策,根据数据评价体系,建立针对数据工作者的奖励机制。制定相关政策,鼓励和要求科学家在进行数据出版时,优先将相关数据保存在国内数据中心。
[1] 吴立宗,王亮绪,南卓铜,等. 科学数据出版现状及其体系框架[J]. 遥感技术与应用, 2013(3): 383-390.
[2] Roberts Dave, Moritz Tom. A Framework for Publishing Primary Biodiversity Data[J/OL]. BMC Bioinformatics, 2011,12(S15): l1[2011-12-15]. http:// www.biomedcentral.com/1471-2105/12/S15/l1.doi: 10.1186/1471-2105-12-S15-l1.
[3] Wigley Tom, Krishnan S, Roberts Dave, et al. Towards Mainstreaming of Biodiversity Data Publishing Recommendation of the GBIF Data Publishing Framework Task Group[J/OL]. BMC Bioinformatics, 2011, 12(S15):S1. http://www.biomedcentral.com/1471-2105/12/S15/ S1[2011-12-15].doi: 10.1186/1471-2105-12-S15-S1.
[4] Chavan V, Penev L. Data Paper: Mechanism to Incentivize Discovery of Biodiversity Data Resources[J/OL]. BMC Bioinformatics, 2011, 12(S15):S2[2011-12-15]. http://www.biomedcentral.com/1471-2105/12/S15/ S2.doi: 10.1186/1471-2105-12-S15-S2.
[5] Ingwersen Peter, Chavan Vishwas. Indicators for the Data Usage Index (DUI): An Incentive for Publishing Primary Biodiversity Data Through Global Information Infrastructure[J/OL]. BMC Bioinformatics, 2011,12(S15):S3[2011-12-15].http://www.biomedcentral.com/1471-2105/12/S15/S3.doi: 10.1186/ 1471-2105 -12-S15-S3.
[6] Ariño A H, Chavan V, King N. Biodiversity Informatics Potential Index (BIPIndex)[J/OL]. BMC Bioinformatics, 2011, 12(S15):S4[2011-12-15].http://www.biomedcentral.com/1471-2105/12/S15/S4.doi:10.1186/1471-2105-12-S15-S4.
[7] Chavan V S, Ingwersen P. Towards a Data Publishing Framework for Primary Biodiversity Data: Challenges and Potentials for the Biodiversity Informatics Community[J/OL]. BMC Bioinformat-ics, 2009, 10(S14):S2[2009-10-14].http://www. biomedcentral.com/1471-2105/10/S14/S2.doi: 10.1186/1471-2105-10-S14-S2.
[8] 彭洁,涂勇. DOI在科学数据领域的应用研究[J]. 前沿·探索, 2007(2): 27-28.
[9] 涂勇,彭洁. 基于DOI技术的科学数据与科技文献融合的研究[J]. 数字图书馆论坛, 2007(10): 28-31.
[10] 彭洁,涂勇. 科学数据引用的探讨[J]. 数字图书馆论坛, 2008(10): 14-18.
[11] 吴立宗,屈永华,王亮绪,等. 黑河综合遥感联合试验的数据管理与共享[J]. 遥感技术与应用, 2010(6): 772-781.
[12] 王亮绪,吴立宗,李红星,等. 面向黑河流域生态水文过程集成研究的科学数据汇交与管理[J]. 遥感技术与应用, 2013(3): 362-369.
[13] Galton Francis. Biometry[J]. Biometrika,1901(1): 7-10.
[14] 刘红,胡新和. 数据哲学构建的初步探析[J]. 哲学动态, 2012(12): 82-88.
[15] Fienberg S E, Martin M E, Straf M L. Sharing Research Data[M]. Washington D C: National Academy Press, 1985: 240.
[16] National Academy of Sciences. Ensuring the Integrity, Accessibility, and Stewardship of Research Data in the Digital Age[M]. Washington D C: National Academies Press, 2009: 180.
[17] 孙枢,张先恩,郭增艳,等. 美国科学数据共享政策考察报告[J]. 中国基础科学, 2002(5): 37-39.
[18] 朱雪忠,徐先东. 浅析我国科学数据共享与知识产权保护的冲突与协调[J]. 管理学报, 2007, 4(4): 477-482.
[19] 余洪. 知识产权与信息共享的关系辨析[J]. 现代情报, 2004(8): 5-6, 8.
[20] 刘润达,孙九林,廖顺宝. 科学数据共享中数据授权问题初探[J]. 情报杂志, 2010(12): 15-18.
Data Publishing: A New Mode of Data Sharing
Wu Lizong, Nan Zhuotong, Wang Liangxu
(Cold and Arid Regions Environmental and Engineering Research Institute, Chinese Academic of Sciences, Lanzhou 730000)
Data Publishing is put forward by publishing and data sharing group, the framework of data publishing is composed of "data submission, peer review, data publishing and permanent storage, data citation and data usage assessment".Data publishing is a new model of data sharing, it can solve the key problems of traditional data sharing:linkage between data and research funding agencies, scientists, observation and analysis instrument, data analysis and processing method, and the scientif i c conclusion can be established through data publishing;The data publishing can encourage scientists to share their data through the evaluation mechanism to their published data. Data intellectual property can be cleared and protected through DOI registration and data paper. In the era of big data, scientif i c data is an important resource of knowledge innovation.Data publishing is the important tool of international competition for data resources, China must set up our own data publishing system cope with the challenges.Compared with the existing data sharing in China, data publishing system has many advantages,it is an important supplement to the existing data sharing system.China should encourage the development of data publishing system.
data publishing, data sharing, big data, intellectual property
TP 75
:A
10.3772/j.issn.1674-1544.2014.05.012
吴立宗*(1975- ),男,博士,副研究员,研究方向:科学数据共享,冰川与冰湖编目;南卓铜(1977- ),男,博士,研究员,研究方向:空间决策支持、空间建模环境和数据共享;王亮绪(1976- ),男,博士,高级工程师,研究方向:数据共享和数据同化。
国家自然基金项目“面向黑河流域生态-水文过程集成研究的数据整理与服务”(91025001);国家科技基础条件平台“地球系统科学数据共享平台”;中国科学院战略性先导科技专项子课题“近50年冰冻圈关键因子的变化”(DA05090302)。
2014年7月12日。