国外科学数据共享政策的发展研究

2015-03-10 12:16谢艳秋钱鹏
新世纪图书馆 2014年1期
关键词:数据共享

谢艳秋++钱鹏

摘 要 真正实现科学数据的共享服务,必须制定一系列的共享政策法规,充分发挥政策法规在调整科学数据共享领域中相关利益人(包括数据的提供方、数据的保管方、数据的使用方等)的重要作用。论文通过网站访问和文献研究对美国、英国、新西兰、澳大利亚等国外科学数据库的数据共享政策建设情况,进行了调查分析,并试图从科学数据相关利益人与数据共享领域两个角度出发,了解其发展现状与态势。

关键词 科学数据 数据共享 共享政策

分类号 G253

Research on the Development of the Sharing Policy of the Scientific Data Abroad

Xie Yanqiu, Qian Peng

Abstract To really share the scientific data, we must establish a series of the sharing policy and regulations, which can play an important role in the stakeholders of the sharing of scientific data (consist of data providers, safekeeping and users party)in this area. This paper investigates the constructed situation of scientific data sharing policy making in foreign countries, such as the United States, the European Union, the United Kingdom, New Zealand, and Australia via accessing their websites and literature review. It puts an emphasis on the analysis of the current situation and tendency from two angles of the stakeholders and the scientific data sharing area perspective.

Keywords Scientific data. Data sharing. Sharing policy.

长期以来,在科研人员群体中,科学数据共享已经成为科研活动过程中不可或缺的组成部分。笔者通过网站访问和文献研究对国外科学数据库的数据共享政策建设情况,进行调查分析,并试图从科学数据相关利益人与数据共享领域两个角度出发,了解其发展现状与态势。

1 国外科学数据共享政策实施情况

国际科学数据共建共享始于1957年,在国际科学联合会组织领导下,先后成立了WDC(World Data center,世界数据中心)和CODATA(Committee on Data for Science and Technology,国际科技数据委员会)[1]。此后,为促进科学数据更好地共享和交换,国际组织、各国政府、众多科研资助机构等都广泛展开科学数据的共享服务与实践。如,BBSRC [2](Biotechnology and Biological Sciences Research Council,英国生物技术与生物科学研究理事会)、IMOS[3](Integrated Marine Observing System,澳大利亚综合海洋观测系统)以及NASA[4](National Aeronautics and Space Administration,美国国家航空航天局)分别于于2010年6月、2011年6月、2012年3月制定发布了一整套数据共享政策。

根据实践经验,科学数据共享活动中有数据产生与汇交、数据保管与使用、数据共享评估与监督、数据共享保障四个领域[5],相应地,需要针对这四个领域出台不同的政策规范,规范科学数据共享领域的社会关系。

1.1 数据产生与汇交

数据产生与汇交是数据共享的第一步,将多源、多项目的科学数据集成于一体,形成研究型科学数据库群,便于进行科学数据的综合管理(包括重组、融合和增值加工)和共享使用,提高科技创新的支撑能力。数据汇交制度典型的有NIH(National Institutes of Health,美国国立卫生研究院)、NSF(National Science Foundation,美国自然科学基金会)、OpenTopography以及政府数据网站等制定的相关政策。

NIH于2003年3月公布了《NIH数据共享政策和执行规范》,规定了项目数据汇交的范围和执行细则。NIH规定,除了关系到国家安全等领域的数据,都必须进行汇交,对全社会共享。这其中就出现过利用某些研究型数据成功开发出新产品的例子[6]。NSF(National Science Foundation,美国国家科学基金会)则于2010年1月发布的项目管理指南(NSF Award and Administration Guide,January2010,VI.D.4)[7]中明确提出了研究成果共享传播的要求。另外,NIH要求在2003年10月1日以后,申请经费每年超过50万美元的项目,必须提供数据共享计划。NSF也规定,从2011年1月18日开始,所有提交到NSF的项目申请书必须包含一份不超过两页的“数据管理计划”的补充文档,这个补充文档的提议应该符合NSF研究成果共享传播政策。另外,BBSRC等英国的众多机构也宣布将数据管理和共享计划作为项目申请的一部分。endprint

OpenTopography[8]规定了数据汇交的最低要求,数据的优先级是由OpenTopography用户群体的反馈和咨询委员会共同决定的。2012年1月,由研究人员和出版商组成的“BioSharing行动计划”启动了“调查-研究-分析共享空间”(Investigation-Study-Assay Commons,ISA共享空间),有望优化不同数据库之间的数据共享。为了更好地促进政府信息公开,美国、英国以及澳大利亚等政府先后发布政府数据网站,为公众查找、获取和再利用各级政府数据集提供一站式便捷服务,同时让各部分的信息能通过网络链接整合起来,充分挖掘信息的价值[9]。

数据汇交时要遵守标准化政策,分为指导标准、通用标准、专用标准。如生物学各领域科学数据管理、整合及共享的标准——ISA Commons[10]。另外,数据汇交时要按照数据分类体系对数据进行归类,不同的机构有不同的数据分类体系,至今尚未统一。如SES(Social & Economic Sciences)的数据大类分类准则[11],政府数据网站根据主题机构进行的数据分类体系:英国data.gov.uk按照发布机构,分成23 大类,780个小类;美国data.gov的两级类目体系,即一级分类(原始数据地理数据和网络应用服务)和二级分类(以所属领域,分成农业、教育等45 类;以机构,分为财政部、国防部、白宫等170 多个小类),从宏观和微观两个层面对数据资源进行了分类[12]。数据分类体系不仅使数据的呈现方式更加清晰,而且为数据发现和利用提供了便利支持,从而提高了门户数据管理的质量,促进了数据的高效利用。

大数据时代越来越注重高质量的数据汇交,从各研究机构纷纷制定的数据质量框架中凸显了数据质量的重要性。一直以来,数据质量框架是粗粒度研究数据质量问题和解决方案的重要内容和方向,如国际货币基金组织的数据质量评估框架DQAF(Data Quality Assessment Framework),OECD(Organization for Economic Co-operation and Development,经济合作与发展组织)的数据质量框架体系[13]等。

1.2 数据保管与使用

数据保管与使用涉及到科学数据共享的主要环节和主要内容,是对具体数据对象进行持续维护,以确保其在硬件技术变革后仍能被读取和理解的活动,它从技术层面确保数据的可持续性。其主要内容包括价格政策、保密政策、国际交流与合作政策、发布制度、保管制度、共享服务及科学数据中心工作制度等方面[5]。

在数据发布方面,越来越多的基金机构要求其资助的研究项目发布研究数据。如,NIH从2003年起要求年度预算达到50万美元的项目在申请时必须制定数据共享方案。AADC规定,除非特殊情况,数据提交到AADC后通常在一个适当的禁锢期将被公之于众。特殊情况下,为防止数据的及时发布,应提交给AADC管理人员[14]。

在价格方面,大多数研究机构的大多数数据是免费提供的,但并不是所有的数据都可以被无限制免费使用,各研究机构遵循自身的原则要求发布共享数据。如欧洲国家主要采取成本回收模式;DANS遵循“尽可能地开放,必要的保护”原则[15];OECD遵循以最具成本效益的原则,最大限度地利用在线网络发布统计数据。另外,还有一些研究机构对不同的数据使用方实施不同的价格政策,如ICPSR(Inter-university Consortium for Political and Social Research校际政治及社会研究联盟)的大部分的数据设有一定的访问限制,只有交纳了年费的机构会员的用户才能免费获取数据;非机构会员的用户则需交纳一定的费用获取数据[16]。

在保密政策方面,几乎所有的科学数据库都要求数据提供方以及使用方签订隐私保护协议。如NSF规定涉密信息的共享应注意对其所关联的个体和主题进行隐私保护;NIH对于那些敏感数据可以通过Data Enclave实现共享,Data Enclave是一个受控的安全环境,在那里资深研究者可以利用和分析那些受限数据资源[6];ENA(European Nucleotide Archive,欧洲核苷酸档案馆)的部分应数据提供者要求,在数据公开发表在出版物上之前保密的数据将不提前在平台上发布[17]。

在国际交流与合作方面,绝大多数科学数据库都积极展开国际交流与合作,很多项目都是各国各机构组织合作完成。OECD主张最大限度地与其他国家和国际组织的数据提供者进行合作,特别是要考虑所有国家政府(包括统计局)和有互惠协议的国际组织免费提供所有统计产品[18]。

在数据保管与使用方面,OpenTopography鼓励将数据注册在社区贡献数据目录中以供用户查找[8];DANS数据提供者需要签署数据合同,数据合同的目的在于保证数据的可获取以及进一步研究的数字化持久性[15]。

1.3 数据共享评估与监督

数据共享评估与监督包括数据质量控制、共享评价与监督。高质量的数据是保障高质量共享服务的基础,共享数据的评价与监督是保障共享数据的准确性、真实性与完整性,促进共享服务的可持续发展。

在数据质量控制方面,质量良好的共享数据可以使用户更方便、准确地获取与使用共享数据服务。BBSRC[2]意识到数据质量的重要性,认为数据应当附加相应的背景信息或元数据记录,使数据使用方能够了解数据来源或处理过程中的细节,防止数据的误用、误解或混淆。为了保证数据的时效性价值,NIH要求尽快公开和共享数据,至少不晚于基于最终数据集的主要研究成果被出版物录用的时间。具体时间段还要受数据收集特征的影响,小研究项目的数据可以更快地分析并提交出版;如果数据是有关大型流行病或追踪性研究,通过几个离散的时间段搜集而来,数据的公开和共享可以推迟,以保证数据的可靠性和准确性[6]。endprint

在数据共享评价与监督方面,数据评价是为确保数据的准确性与真实性的有效办法,而数据监督是为了确保数据当前使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动[19],而不是单纯对这些数据进行存储,有利于确保数据的完整性。对于动态数据集而言,数据监督意味着需进行持续性补充和更新,使数据集更加完整以满足用户需求。数据评价与监督对更好地发挥科学数据的作用,推动科学研究具有重要意义。

对此,美国的伊利诺伊大学在2006年开始数据监督教育计划,培养数据监督人员[20]。政府数据网站的交流机制充分发挥了数据共享评价与监督作用,如澳大利亚政府数据网站通过提供评分模块,对数据质量格式和有用性进行打分;同时提供用户评论接口,供用户在线提交评论。BBSRC坚持通过最终报告的评估过程,确定受资助的研究项目是否遵守了其提出的数据管理和共享政策,并将此评估结果作为将来项目申请建议的申请追踪记录[2]。NSF项目管理过程中将在适当的时机,通过同行评审、批准建议等项目管理环节,同时,规定数据提供者必须在出版物、网络以及新闻媒体采访时承认NSF给予的物资资助行为[7]。OpenTopography社区成员或其他数据提供者必须明确说明其资助或资金来源,要求强制执行免责声明等以避免不必要的法律纠纷[9]。

1.4 数据共享保障

不管是科学数据的产生、汇交与管理,还是数据的共享服务,都需要有稳定的数据共享保障政策和措施来支撑。数据共享保障主要包括浓厚的科学数据共享氛围、充足的设备资金支持、数据共享组织机构的成立、各种奖项的设置、人员的培训教育等诸多方面。

在科学数据共享氛围方面,通过共享数据的分级分类管理,搭建合适的共享平台,建立合理的数据交汇、数据管理、数据共享体系,营造良好的共享氛围,推进全球科技创新。AADC正努力创建一个不断完善基础科学数字化数据库和数据产品的良好环境,支持AAp(Australian Antarctic Program,澳大利亚南极计划)研究人员的工作[14]。

在设备资金的支持方面,长期忽视小型科学的数据是非常不合理的,对此BBSRC发布的数据政策中包括提供资金支持(制定数据共享的标准和开发数据共享的软件工具;专业机构库和设施建设;数据共享活动是项目成本的一部分)[2]。2012年美国宣布的“大数据的研究和发展计划”提供2亿美元的投资,提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平[21]。NSF为“DataNet联合委员会”提供五年近800万美金资助,以研制并部署一套国家级数据管理基础实施原型[22]。

在数据共享组织机构的成立方面,2012年11月8日NSF宣布资助伦斯勒理工学院250万美元,以支持其创建和参与一个旨在促进全球科学家研究数据共享的国际组织——研究数据联盟。目前,已有120多个来自美国和世界其它国家的参与者致力于倡导“研究数据联盟”的概念,并推广其最初的行动。研究数据联盟符合全世界对数据共享的需求,有利于加速基于数据的创新[23]。

在各种奖项的设置方面,主要包括CODATA设置的CODATA奖,新西兰3TU.Datacentrum 和DANS联合倡导设立的荷兰数据奖等。CODATA奖是国际科学数据领域的最高奖项;荷兰数据奖是奖励致力于采集和详细记录科学数据以使其可公开获取的研究人员的一个奖项[24]。各种奖项的设置是对致力于促进科学数据共享的人员的一种肯定方式,也促使担当“数据馆员”身份的研究人员更好地采集数据、管理与共享数据。

在人员的培训教育方面,作为基础性、公益性、长期性的科学数据共享工作,应当建设一支稳定的人才队伍。ICPSR为了方便数据的传播、分析和利用,提供关于数据集特征、分析技术和方法方面的咨询和培训,来促进用户对其数据资源的有效利用[16]。BBSRC[3]和OpenTopography[8]发布的数据政策中也包括提供相关的培训活动。欧盟科学数据领域高级别专家组报告建议成员缔约国在他们的中等学校教育中增加数据管理相关课程,培养新一代数据科学家,扩展公众的认知理解力[25];伊利诺伊大学实施的数据监督教育计划等。

2 国外科学数据共享政策分析与发展态势

结合各组织机构在不同数据共享领域实行的政策措施,可以得知科学数据相关利益人与数据共享领域的联系,具体见表1。

表1 科学数据相关利益人与数据共享领域的联系

从表1可见,在科学数据共享的不同领域,赋予了科学数据相关利益人不同的职能和权利,每一个环节都是相互衔接、密不可分的。科学数据相关利益人在各司其职的同时,要求通力合作,共同促进科学数据的共享。

科学数据共享是一个复杂的系统工程,科学数据共享政策的建立与实施亦任重而道远,需要利益各方的配合与支持。多年来随着科学数据共享活动的开展与实践,在国际范围内,实施科学数据共享的局面已经形成。美国、欧盟(包括英国、法国、德国、新西兰等)、加拿大、澳大利亚、日本等众多国家政府或研究资助机构已经初步建立了自己的科学数据共享政策体系,在数据共享方面取得了很大的突破。但是,因经济发展水平和科学技术等因素的制约,很多国家和地区在数据共享方面进展缓慢,因此,科学数据共享的地域化差异明显,总体水平不高。在目前数据推动的大科学时代,不断增加的数据共享是科学进步的核心,并吸引着来自各方的关注。而且,科学数据共享领域也出现一些新的态势。

一是科学数据共享的氛围更加浓厚。全球范围内越来越多的国家开始关注科学数据共享,转变数据资源自有自用、共享不利的观念,营造全球数据共享的氛围,并制定相关政策措施,努力促进科学数据的共享与利用。

二是科学数据共享政策日臻完善。随着数据共享实践的不断发展,越来越多的科研资助机构开始制定适合自己的科学数据共享政策。BBSRC、MIOS、NASA、AODN等分别制定并发布了一整套数据共享政策,并在实施政策的过程中不断修订,使政策体系更加完善、更有利于数据的共享服务。endprint

猜你喜欢
数据共享
浅谈天津气象信息化发展现状和发展趋势
科学大数据的发展态势及建议
数字化迎新系统宿舍分配模块的设计与实现
网络时代电子文件和档案管理的探索
贵州大数据产业发展战略理解和实施建议
面向海上平台机械电气设备的数据共享平台的设计与实现
基于协同办公的会议管理系统设计与实现
高校一表通系统建设探究
基于SOA架构的中学精细化管理模式研究
基于元数据映射机制的异构数据操作