杨友清 陈 雅
科学大数据共享研究:基于国际科学数据服务平台*
杨友清 陈 雅
论文介绍了国内外科学数据共享的现状,分析了科学数据共享的基本要素,包括资源要素、知识产权保护要素、共享模式要素以及共享管理机制要素。介绍了国际科学数据服务平台,分析其数据资源、知识产权保护、共享方式、服务内容、浏览方式五个方面的情况。
科学数据共享国际科学数据服务平台共享研究
科学数据是指在科技活动(实验、观测、检测、调查、研究等)中或通过其它的方式所获取的反映客观世界的本质、特征、变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[1]。科学数据集科学价值和使用价值于一体,并对于科技创新的发展产生了深远的意义。科学数据资源具有准确性、可靠性、非排它性、可无限复制等特点。这些特点和其重要性使科学数据的共享成为必然,只有让科学数据得到共享,才能实现其价值的最大化,同时,又通过科学数据的共享这一过程,发展出更高层次的科学数据,这是一个逐级递进的过程,最终为社会的发展贡献力量。
1.1 国外科学数据共享现状
20世纪40年代,国外的科学数据共享方面的研究开始起步,在20世纪80年代得到发展,在欧洲、英国、法国、德国、荷兰和瑞典等国家非常重视数据管理与共享,美国是科学数据共享的倡导者。1975年,美国开发了177个大型数据库,主要服务目标是政府决策和政府启动的重大科研项目[2]。欧盟数据库法律保护指令、英国布加勒斯特宣言和《信息自由法》等,在科学数据的产权归属、共享管理和开发利用等方面均有明确的规定,以保障科学数据共享活动的有序开展。
国际科学数据委员会(CODATA)于1966年成立,是全球最大的科技数据国际学术组织,其宗旨是推动科技数据应用、发展数据科学、促进科学研究、造福人类社会[3]。美国建立了美国航空航天局(NASA)分布式最活跃数据档案中心群(DAACs);日本产业技术综合研究所(AIST)科学数据公开数据库拥有70个主题数据库,全部数据库通过网络提供免费服务,服务于科研机构,也服务于一般工业企业[4]。2007年3月,英国发布了研究报告《发展英国科研与创新信息化基础设施》,提出数据资源数字化长期保存与共享建设规划,重点要建立大规模的国家科学数据中心[5]。
1.2 国内科学数据共享现状
我国的科学数据共享工作起步比较晚,2001年底我国科学数据共享工程启动气象科学数据共享试点,在资源环境、农业、人口与健康、基础与前沿等领域共24个部门开展了科学数据共享工作,已经启动了9个科学数据共享试点,开展了科学数据共享政策法规和技术标准体系的调研工作。先后完成了23项具体标准的编制以及一批管理办法;整合共享了跨部门跨领域超过250亿元国家投入产生的数据资源,建立了若干数据库;积极开展数据共享服务,为科学研究、政府决策提供了坚实的支撑,成效显著[6]。但是与发达国家比起来存在很大的差距,主要有:科学数据共享意识不强,目前科学数据共享工程试点的共享数据多为国家经费资助下科技活动形成的数据,各科研单位主动积极共享意识不强;相关的科学数据共享标准及技术规范没有统一的规定;科学数据类型集中于海洋、地理等少数学科领域。
美国国家卫生研究院(NIH)要求申请资金超过50万美元的项目必须提供数据共享计划或者说明不共享的理由。并且,NIH通过分级方式共享数据,包括可公开获取的数据、通过协议获取的数据和限制使用的“冷冻数据”[7]。据调查显示,科研人员共享电子数据和使用他人数据的意愿都不高,主要因素有:没时间、没资金、没权利、缺标准以及资助者无要求等[8]。科学数据的共享最基本的是要有相关的科学数据,也即资源的来源,而共享工作的开展必然要面对科学数据的知识产权保护问题,其次要根据不同的情况选择不同的共享模式来开展共享活动,共享活动的有序、稳定的开展需要相对应的共享管理机制的保障,所以资源来源、知识产权保护、共享模式以及共享管理机制这四大要素构成了科学数据共享活动的基本要素,它们之间相互联系,缺一不可。
2.1 资源来源
科学数据指在科技活动过程中产生的原始数据,所以资源的来源就是科研活动过程,资源的内容主要有两种:一种是本单位或机构内科研活动过程中产生的数据,二是收集其他单位或研究机构的科研数据。本机构的科学数据,主要是来自于本机构研究人员的自愿自主提交以及数据服务人员提供咨询帮助,如中国气象科学数据共享服务网的科学数据来自于国内卫星通讯系统、全球通信系统收集的全球和国内各类实时和非实时的气象观探测资料[9];第二种主要是与政府机构、科研机构、高校等部门合作,提供途径鼓励这些机构的研究人员同意将他们的相关数据整合到数据中心共享.如基础科学数据共享工程整合中国科学院在物理、化学、天文、空间与生物领域20多个研究所长期以来的基础数据,同时,重点整合国防科工委下属的中国工程物理研究院、中国原子能科学研究院在核物理与原子分子物理方面基础数据,整合国家林业局所属青海湖国家级自然保护区多年来在青海湖区域监测与观测数据[10]。
2.2 知识产权保护
数据的共享首先要考虑的就是其所涉及到的知识产权问题。科学数据共享中的知识产权主要体现为科学数据的版权,版权就是著作权,是指文学、艺术、科学作品的作者对其作品享有的权利,包括财产权、人身权[11]。科学数据凝聚了数据开发人的智力劳动,是创造性的劳动成果,同样受版权法保护,具有重大的价值。实施科学数据共享是我国面对全球信息化和知识经济的发展,开展自主创新、建设创新型国家的必然要求[12]。刘闯认为通过数据库共享服务平台进行有偿数据服务而获得的收益,在数据库制作者和相关数据创造者之间按照合同约定进行分配,如无合同约定的自行协商解决[13]。
《全球变化研究数据管理政策声明》提出“联邦政府资助的科学数据,即公共性、基础性的国有数据,必须在没有歧视的基础上以不超过复制和发行成本的费用无限制地使用”[14]。科学数据的开发与获得需要责任人付出巨大的努力,包括精力、时间、金钱上的,不仅仅是数据开发人,还有相关的单位等等,他们对于科学数据做出了巨大的贡献,这些科学数据自然地成为各个单位的财产,受知识产权保护,另一方面这也在一定程度上限制了科学数据的自由共享。所以笔者认为,科学数据的共享需要国家相关法律的许可和一定的限制,对于那些在国家或是地方政府经费等非营利性机构支持下开发的科学数据,采用一定的奖金或是其它奖励的方式来鼓励开发人,如果不危及国家安全和个人隐私,则完全向公众开放或是使用时加以标注,以尊重劳动者的成果,但不能用于商业用途;对于那些由单位自筹经费或是个人、企业自行开发研究的不危及国家安全和个人隐私的科学数据,则要协调好利益的平衡,一般是采用收取一定的费用的方式来保护他们的权利;对于那些对科学数据进行了一定程度的加工的更深一层次的数据及提供的相关服务活动,收取一定的成本。
2.3 共享模式
科学数据共享为科学数据的使用提供了一条更为畅通的道路。科学数据具有无法估量的潜在价值,前人为科学数据的探索与创造做出了巨大的努力和贡献,传承与共享这些科学数据是对于他们的努力的最大尊重与认可。目前国内外采用的科学数据共享的模式主要有四种,分别是国际组织协作共建共享模式、政策驱动型共建共享模式、主题合作共建共享模式和地域协作共建共享模式。
2.3.1 国际组织协作共建共享模式
顾名思义,国际组织协作共建共享模式是指在某种约定或是条约的约束下,国际组织就某一研究方向或是研究主题,共同制定相关的共享策略的一种共享模式,该共享策略包括共享的范围、方式及相关的政策,可以促进同一领域内数据的交流与共享。国际组织协作方式包括国际政府间的合作和国际非政府间的合作,不管是哪种方式,都必须遵循共享的宗旨,为共同的约定所约束,以促进数据在全球的共享,提高各成员国的科技水平。经济合作与发展组织(Organation for Economic Cooperation and Development,OECD)是由30个市场经济国际组成的政府间国际经济组织,旨在共同应对全球化带来的经济、社会和政府治理等方面的挑战,把握全球化带来的机遇[15]。
2.3.2 政策驱动共建共享模式
这种模式是指在国家法律法规政策的强制驱动下推进科学数据的共建共享。美国是这一模式的最早试验者。美国的《信息自由法》和《版权法》是这一模式的法律基础。并在1991年发布了以“完全与开放”科学数据共享政策为核心的“全球变化研究数据管理政策”,通过这一政策来促进科学数据共享,从而为美国的科学研究提供强有力的保障条件,确保其在21世纪国家发展和科技发展战略目标的实现。
2.3.3 主题合作共建共享模式
该模式是根据主题的不同来进行共建共享科学数据,建立专题科学数据库。如印度科学和产业研究中心(Center for Scientific and Industrial Research,CSIR)及肯尼亚的医学信息共享。肯尼亚医学研究机构(Kenya Medical Research Institute,KEMR I)通过编制肯尼亚医学机构研究和使用的数据和目录来实现彼此联系,共享资源[16]。我国的地球系统科学数据共享平台承担单位是中国科学院地理科学与资源研究所,中科院资源、环境领域的研究所,国内地学领域的知名高校共40多家单位,世界数据中心(WDC)和国际山地中心(ICIMOD),美国马里兰大学等国际组织和机构参与本平台建设与运行服务[17]。
2.3.4 地域协作共建共享模式
该模式把那些参与到共建共享科学数据的单位限定在某一个地理范围内,与国际间组织协调共建共享模式相似,前者范围相对小一些,一般限定在某个地区或是某国内,将共享资源集中存储在某一特定的地点,并在相关单位的共同管理和共同资助下运转共同建设。2004年,科学技术部和财政部整合“国家科技基础条件平台专项经费”“中央级科研院所科技基础性工作专项经费”“科技文献信息专项经费”三个专项经费,统一用于国家科技基础条件平台建设[18]。
2.4 共享管理机制
科学数据具有科学价值、经济价值和社会价值,并且易于复制传播和共享等特点,不同的科学数据由于其属性或是归属性的不同,需要采取不同的管理机制来开展共享工作。目前,国际上采用的共享管理机制有三种:保密性管理机制、公益性共享机制和商业化管理机制。
2.4.1 保密性管理机制
顾名思义,该机制对于科学数据的共享采取不公开的方式。一般这种机制设计到的科学数据是有关国家安全、个人隐私的数据信息,公开这些信息对于国家的安全、人民的生活都会产生很大的影响。同时,参与这些数据信息的开发和管理人员都必须与单位签订保密协议,以进一步确保信息的不泄露,国家情报部门与各个单位安全主管负责检查科学数据和信息的安全性执行情况,同时严格和明确地规定这些数据信息的保密管理。
2.4.2 公益性共享机制
此种机制是采用完全开放的方式来共享科学数据,其中的数据是指除了上述属于保密性管理机制数据之外的政府所拥有的信息和科学数据,包括标准数据库、科技成果数据库等。这些数据都应该依法“公之于众”,采用网站或是其它的方式来向社会完全开放,让公众获取,用户无需支付相关费用或是仅仅支付低廉的复制成本费用。像美国的海洋大气局、国立卫生研究院等联邦政府拥有和生产的数据,中国科学院地理科学与资源研究所产生的地球科学数据,整合、集成科研院所、高等院校和科学家个人通过科研活动所产生的分散科学数据。
2.4.3 商业化管理机制
对于那些完全是为了盈利而投资生产的科学数据,则采用商业化管理机制,对于此类科学数据的共享收取一定的费用。例如,美国政府批准了空间影像和数字地球两家企业从事高分辨率遥感数据的获取和发布业务,然后采取鼓励平等竞争的政策,通过市场竞争的方式降低数据价格,达到促进数据应用的目的,并同时通过税收进行调节和控制[19]。
“国际科学数据服务平台”(见图1)(以下简称“平台”)启建于2008年,由中国科学院计算机网络信息中心科学数据中心建设并运行维护,面向中国科学院及国家的科学研究需求,逐渐引进当今国际上不同领域内的国际数据资源,并对其进行加工、整理、集成,最终实现数据的集中式公开服务。在保护国家安全,尊重知识产权的前提下,秉承完全开放的共享理念,尽可能为用户提供全方位的数据服务,包括在线数据浏览、数据搜索、数据访问与下载、软件工具及文档资料共享等通用数据服务,以及数据预定、委托查询、数据传递通道、在线模型计算、数据使用咨询等特色数据服务。
图1 国际科学数据服务平台主页
3.1 数据资源
国际科学数据服务平台收集的数据资源主要集中于地学、遥感、大气海洋等领域,引进了LANDSAT数据、MODIS数据、MODIS_L1B数据、EO_1数据、DEM数据、NCAR数据等国际原始数据资源,采用国内外权威的数据处理方法或科学数据中心自行研发的数据处理方法对于上述数据开展了深度加工和数据模型的开发,形成了它们独具特色的一系列全国甚至全球领域的特色数据产品,面向多领域科研需求,基于通用的数据模型,充分利用本站超级计算资源,为用户提供可定制的数据产品加工,用户通过在线定制便可以得到自己需要的数据产品。
该平台期望能满足多领域的科研需求,但是资源集中在少数学科领域,深度加工的数据模型目前只限于少数几个,对于平台的宗旨来说有待发展。
3.2 知识产权保护
知识产权保护问题在共享工作的开展中被首先考虑到,国际科学数据服务平台的数据资源在进行镜像之前都和数据所有者进行了充分的沟通,并通过协议、合作或其他方式取得了对应数据的镜像权限,用户可以放心使用。用户复制使用平台中的数据,平台都做了详细的规定,在“完全与开放”的服务宗旨下,一方面尊重知识产权、保障数据作者和数据服务提供者的权益,要求数据使用者在发表成果时注明数据生产者及数据来源(国际科学数据共享平台http://datamirror.csdb.cn/),未经网站允许,用户不能有偿或无偿转让在该平台获取的数据;另一方面,为了更好地推动数据共享,凡使用“国际科学数据服务平台”数据的用户,需要在一定期限内将数据所支撑的项目或论文产生的相关成果材料提交到“中国科学院计算机网络信息中心科学数据中心”,并允许平台发布部分可公开成果。通过这样的“交换”方式来提供更深层次的科学数据给用户,一方面也减少了不必要的重复劳动,提高了用户的使用效率。
3.3 服务内容
科学数据的共享离不开数据的再利用,该平台充分考虑到不同用户在不同情况下的各种服务需求,除了提供通用的数据服务,像在线数据浏览、数据搜索等外,还提供数据预定、数据传递通道、数据申请等人性化的特色服务,切实地提高用户使用满意度。
3.3.1 数据预订
用户通过网站对应入口预定可以查询,但是不能在线下载数据,数据服务人员将会根据用户的数据预定清单提供服务。目前,该平台开放“数据预定”功能的只有Landsat数据,用户可以通过数据列表或者数据搜索功能,产生数据预定清单,并直接通过网站入口提交给系统。用户数据预定的所有历史记录以及当前预定的处理状态和下载链接都可以从“用户空间”内查询。
3.3.2 数据申请
这种服务是针对用户不能通过网站直接查询、下载数据,或因数据量巨大,用户不方便通过网站查询、下载的情况,该平台支持用户提出相应申请,数据服务人员进行处理并将结果反馈给用户,一般用户可以根据自己的情况以及数据的需求选择在线数据申请或离线数据申请。
3.3.3 数据传递通道
该服务属于高级数据服务方式,是该平台为大宗数据用户或特殊数据用户开通的,指对于因为各种原因不方便通过网站直接下载数据的用户(比如网络连接受限,数据量过大,或者用户有其他特殊要求等),可以直接通过网站提供的联系方式提出“数据传递通道”的需求,审核通过后将会为用户开通特殊数据传递通道(比如用户特殊授权,光盘邮寄、硬盘直接拷贝等),以便用户及时获取所需数据。
3.4 共享方式
该平台将数据分成一级到四级不等,用户也分成四级到一级不等,虽然倡导“完全与开放”的数据共享服务方式,但还是根据用户级别的不同以及所需数据所属级别的不同,采用不同的共享方式。大部分镜像数据集数据产品向用户完全开放,无偿共享;少部分数据需要用户申请并达成协议后共享;属于三级的数据,则面对不同级别的用户,需要付费获取某些数据;另外,针对院内科研人员或高级用户,该平台还推出了特色定制服务,根据用户具体需求,通过项目合作的形式进行定制共享。
3.5 浏览方式
由于国际科学数据服务平台收集的数据主要集中于地学、遥感、大气海洋等领域,这些数据采用地图的方式来检索查询更为方便和精确,所以提供的数据检索以地图查询为主,目前只有LANDSAT数据还提供文字查询,地图检索方式比较简单,无须知道所查地区的具体地理位置,只要在地图上找出即可,操作简单直观,非专业人员使用也很方便,而文字查询方式则对于专业知识要求比较高,并且对于所查地区的详细位置信息要有清晰的把握。
科学数据的共享关系到人类智慧的传承,有益于提高资源的利用率,减少不必要的重复劳动。科学数据的共享工作也是一个大工程,需要国家和政府的宏观管理,制定统一的标准和规范,也需要提高公民的共享意识,促进共享工作的开展。
[1]中国科学数据共享工程技术标准[S/OL].[2013-05-10].http://www.sciencedata.cn/pdf/2.pdf.
[2]美国国有科学数据的“完全与开放”共享国策[EB/ OL].[2013-07-01].http://www.qiji.cn/scinews/detailed/ 838.html.
[3]国际科学数据委员会[EB/OL].[2013-07-01].http:// baike.baidu.com/view/4640252.htm?subLemmaId=464 0252&fromenter=%B9%FA%BC%CA%BF%C6% D1%A7%CA%FD%BE%DD%CE%AF%D4%B1% BB%E1.
[4]National Institute of Advanced Industrial Science and Technology[EB/OL].[2013-07-01].http://www. aist.go.jp/index-en.htm.
[5]science and innovation investment framework 2004-2014:next steps[EB/OL].[2013-07-01].http://www. hm-treasury.gov.uk./media/7/8/bud06-science-332v1. pdf.
[6]科学数据共享工程[EB/OL].[2013-07-01].http:// www.most.gov.cn/ztzl/kjzg60/kjzg60hhcj/kjzg60jcyj/20 0909/t20090911_72832.htm.
[7]NIH.Final NIH statement on sharing research data release date[EB/OL].[2013-06-29].http://grants.nih. gov/grants/guide/notice files/NOT-OD-03-032.html
[8]Tenopir C,Allard S,Douglass K,et al.Data sharing by scientists:practices and perceptions[J/OL].PLoS ONE,2011,6(6).
[9]国家科技基础条件平台-中国气象科学数据共享服务网[EB/OL].[2013-06-30].http://cdc.cma.gov.cn/gywm.do?method=getContent.
[10]基础科学数据共享网[EB/OL].[2013-06-30].http:// www.nsdc.cn/pronsdchtml/1.aboutus.introduction/pages /3014.html.
[11]韦之.著作权法原理[M].北京:北京大学出版社,1998.
[12]朱雪忠,徐先东.浅析我国科学数据共享与知识产权保护的冲突与协调[J].管理学报,2007(7):477-487.
[13]刘闯.美国国有科学数据共享管理机制及对我国的启示[J].中国基础科学,2003(1):34-39.
[14]Policy statements on data management for global change research[EB/OL].[2013-06-29].http://www. gcrio.org/USGCRP/DataPolicy.html.
[15]关于OECD[EB/OL].[2013-06-29].http://www.oecdchina.org/about/index.html.
[16]袁曦临.信息资源共建共享模式及其理论基础研究[J].图书情报工作,2008,52(9):102-105.
[17]国家科技基础条件平台-地球系统科学数据共享平台[EB/OL].[2013-06-29].http://www.geodata.cn/Portal/ aboutWebsite/aboutus.jsp
[18]国家科学数据共享工程-海洋科学数据共享中心[EB/OL].[2013-06-29].http://mds.coi.gov.cn/bzjj.asp.
[19]刘细文,熊瑞.国外科学数控开放获取政策特点分析[J].情报理论与实践,2009(9):5-7.
杨友清南京大学信息管理学院2010级硕士研究生。江苏南京,210093。
陈雅南京大学信息管理学院教授。江苏南京,210093。
Sharing Models of the Scientific Big Data based on the International Scientific Data Service Platform
Yang Youqing,Chen Ya
This paper introduces the scientific data sharing status at home and abroad,analyzes the basic elements of the scientific data sharing,including the resource elements,the protection of intellectual property rights elements,the shared schema elements,sharing and management mechanism elements.Further more,it presents the International Scientific Data Service Platform,analyzes its data resources,protection of the intellectual property rights,sharing mode, service contents,and browsing method.
Scientific data sharing.International scientific data service platform.Research of the Sharing.
G250.73
2013-08-15编校:方玮)
*本文系2011年江苏高校哲学社会科学研究重点项目“江苏省‘十二五’时期数字文化产业之数字内容服务模式研究”(项目编号:2011ZDIXM011)系列成果之一;2011年教育部规划基金项目“中国高等教育数字图书馆发展模式研究”(项目编号:10Y JA870002)成果之一。