王小玉等 董 诚 曾 文
(中国科学技术信息研究所,北京 100038)
英国BBSRC的数据共享政策及启示
王小玉等 董 诚 曾 文
(中国科学技术信息研究所,北京 100038)
科研资助机构作为科学共享领域重要的利益相关者,其所制定的共享政策对促进科学数据的共享具有重要作用。为了全面了解科技资助机构制定的数据共享政策所应涵盖的内容且更有效地促进科学数据的共享,文章以BBSRC的数据共享政策为研究对象,阐述了政策内容,与NIH的数据共享政策进行了对比分析,对我国科研资助机构制定数据共享政策提出建议。
英国生物技术与生物科学研究理事会;美国国立卫生研究院;科研资助机构;数据共享政策;数据管理
对国外科研资助机构数据共享政策的研究,多以综合比较各个科研资助机构的数据管理和共享政策的主要内容和特点为主,并集中在美国国立卫生研究院(National Institutes of Health,NIH)、美国国家科学基金会(National Science Foundation,NSF)等机构的研究,例如:司莉等从科研管理机构考察其科学数据管理方面的政策特点阐述对我国的启示[1],或是从科研机构的角色出发分析数据共享政策,例如:郭春霞根据科研机构数据管理的特点、需求和过程,结合科研活动利益相关者的要求,提出科研机构数据管理与共享政策的基本内容框架[2]。但是,目前的研究较少对一个机构的数据共享政策进行完整的调查和研究。本文认为,通过对一个典型科研资助机构的数据共享政策完整的调查和研究,可以从数据的产生和汇交、数据的保存和数据的共享利用等方面全面考虑数据共享政策的制定。
在国外,科学数据共享政策的颁布逐渐趋向成熟和体系化,其中医学和生命科学领域制定的科学数据政策较为有影响和代表性,例如:美国国立卫生研究院(NIH)、英国生物技术与生物科学研究理事会(Biotechnology and Biological Sciences Research Council,BBSRC)等机构。BBSRC是英国生物技术与生物科学发展的核心咨询机构,是英国生物技术与生物科学的战略制定者和主要研究资助者,其致力于投资世界级生物科学的研究和培训,目的是要进一步加深科学知识,促进经济增长,创造财富和就业等[3]。BBSRC资助的研究领域主要包括:(1)动物疾病,健康和福利;(2)植物,微生物,食品和可持续性;(3)基因,以科学、技术、工程、数学为方法的生物学;(4)分子,细胞和工业生物技术[4]。据英国数字保存中心(Digital Curation Centre,DCC)发布的科研资助机构数据管理政策报告显示,将数据管理与共享政策所包含的内容划分为三大类11项元素。对英国9个科研资助机构的统计调查(表1)可以看到,BBSRC是涵盖内容元素最多的机构之一,其数据共享政策具体而全面[5]。本文将对BBSRC具体政策的阐述与分析,以期帮助科研人员更加全面地理解数据管理与共享,帮助政策管理者理解并制定符合相关的数据共享政策,并对我国科研资助机构推动数据共享提供参考。
2.1 数据的管理、标准与元数据
所有申请BBSRC研究基金资助的项目必须提交数据管理计划。这包括数据管理和共享的简明计划,或对不可能的或者不适当的数据共享提供明确的原因。数据管理计划需要包含在项目申请中,必须有一个不超过一页长的单独附录。申请人不得将该空间利用于任何其他目的,因为这有可能会导致该申请被拒绝。数据管理计划将根据数据种类的不同而发生变化。数据管理应由科学利益驱动,成本有效。
数据管理计划应该包含如下内容。数据类型:数据的量、类型和内容,如实验测量产生的模型、记录和图像;标准和元数据:数据收集和管理将采用的标准和方法论以及选择这些标准和方法的原因;与公共库存在的其他相关数据的关系;二次利用:预期或预见已完成的数据集研究用途;数据共享的方法:为获得这些数据而制定的计划机制,如现有公共数据库的访问机制;专有数据:数据共享的限制,保护专有或专利数据;时间范围:数据公开发布的时间尺度;最终数据集的格式。
表1 英国科研资助机构数据管理与共享政策的主要内容
有效的数据共享标准是不可或缺的。BBSRC规定的标准包括用于行政过程的标准以及用于与数据管理和数据格式相关的方法。为了最大限度地再利用数据,研究人员需要利用现有的广泛接受的格式和方法管理数据。数据应根据上下文信息或文档(元数据)以及用户查找和使用数据所依赖数据的相关信息,对二次使用者提供关于数据的来源或操作细节,以防止误用、误解和混乱。BBSRC规定,对于存在学科领域通用的元数据标准应予以坚持,对于元数据标准不存在的学科领域,BBSRC鼓励发展且提供资金资助。例如:牛津大学制定的一种将生物学各领域产生的大量科学数据进行管理、整合及共享的标准——ISA Commons,就是一种可利用的数据标准。
2.2 共享数据的类型、方法与时间
共享的数据类型包括:(1)由大量实验而产生的数据,即由大量实验产生的巨大数据集,例如:由利用目前技术而产生的大量数据集,包括组学技术、测序等。(2)由长时间或累积的方法所产生的“低输量”数据。“低输量”数据是研究在一个复杂的生物系统随着时间的推移对环境或其他因素的反映而产生的数据,由于其影响非常难以预测,数据量是持续产生但是相对较小的。例如:全欧昆虫监测网,其持续时间特别长,20世纪60年代就建立了昆虫监测网,利用诱虫灯和吸虫器观测昆虫的迁徙,到20世纪90年代才有其观测价值,如可以间接地观测气候变化、环境变化等[6]。(3)产生系统的方法模型。使用综合系统方法产生和迭代的模型,也是研究的一个有价值和可分享的产出,与其产生的数据一样重要。这些模型对于加强系统生物学的结论和实验的基础是必不可少的,因此,应该免费提供给希望重现实验的其他研究人员。BBSRC强调,只要有可能,这些模型应提交给相应的资料库,比如:生物模型数据库(the BioModels Database)。
在不同的情况下需要不同的共享数据方法,这需要研究人员能够确定最适合自己的数据共享策略,并在他们的研究项目申请书中概述数据共享的方法。申请人应该考虑在哪里共享数据、怎样共享数据、对谁共享数据。另外,数据共享的方法应该随着研究领域的发展变化而日趋成熟。其主要包含以下两种方法:一是通过第三方共享数据。数据可以沉积在现有的数据库、资料库或其他社区资源中,同时鼓励研究人员通过共享数据机制使用现有的基础设施利用数据、共享数据。BBSRC将提供资金资助或以其他方式支持这样的资源共享。如果没有这样的资源,申请人可考虑通过其他第三方机构进行数据共享,比如:杂志网站或开放存取存储库,其中有许多是现在能够对共享数据提供支撑的出版物。二是数据产生者与他人直接进行数据共享:数据共享的这种方法适合第三方机制不可用的地方。研究人员需要保证在研究项目完成后以合适的访问格式保存数据10年,使数据可以与BBSRC科学实践指南中的要求相符。这可能引发新的数据使用者和原始数据创作者的合作,同时明确各方的责任与权利。根据情况使用其他数据共享的机制,如在封闭团体内共享数据或利用不同的数据集的方法组合进行共享数据。在特殊情况下,特定访问机制也是适合的,如出于伦理考虑需要保护的机密数据,或其他原因的限制访问。
数据的价值往往取决于数据公开的及时性。研究人员对于他们用自己的时间和精力所产生的数据有合法权益,但不能延长独占使用这些数据的时间。BBSRC规定,所有的数据(包括元数据)一旦被核实就应该及时共享。及时公开一般不能晚于发表主要研究结论的出版物公开发行的时间,且必须与该领域已建立的最佳实践相一致。
数据公开的时间会因以下几个原因而发生变化:在科学领域方面,研究人员利用相关研究界的惯例实现数据共享。例如:晶体(蛋白质数据银行),已同意在发表第一篇论文与发表二次使用的论文之间最多有12个月的延迟期;测序(EMBL核酸序列数据库),提交的数据公开保留时间不能晚于公布实验结果的时间;代谢组学(MET-RO),要求最多6个月的延迟发布;拟南芥基因芯片数据,所有数据均有最多一年的保密期。在知识产权(IP)问题和潜在的商业化研究方面:BBSRC也有知识转移的政策,并大力鼓励知识产权通过各种举措商业化,在经费申请支持时应提出知识产权问题或商业化计划。
2.3 数据共享机制与监管
BBSRC采取以下方法促进和鼓励数据共享:(1)资金支持。制定并实施数据共享的标准和开发软件工具。(2)团体资源。在特定的团体中以促进数据共享方式发展团体资源。数据共享活动作为研究项目全部经济成本的一部分。(3)信息和指导。包括相关的信息标准、指南、数据库和资源。(4)支持相关的培训活动。而BBSRC着重强调了资金支持的具体内容,在资金的支持方面,由于数据共享受时间和成本的影响,可以用加大资金投入的方法来支持研究数据的管理和共享(例如人员配备、物质资源等),可以作为研究项目经济成本的一部分,同时还设立工具和资源开发基金、生物信息学和生物资源基金等进一步为科学数据共享提供资金支持。
数据管理和共享战略通过最终报告评估(Final Report Assessment Procedure)进行监控。BBSRC坚持通过最终报告的评估过程,确定所资助的研究项目是否遵守了其提出的数据管理和共享政策,并将此评估结果作为未来项目申请建议的申请追踪记录。
关于伦理方面,BBSRC要求研究人员必须遵守有关监管规定,必须诚信使用数据。
BBSRC还支持部分研究机构的战略研究项目,并要求这些机构的研究人员遵守BBSRC的政策声明。对研究机构数据共享行为的监管将通过对研究机构的评估工作展开。BBSRC也会对这些研究机构的数据共享提供进一步的指导[7]。
美国国立卫生研究院(National Institutes of Health,NIH)是世界上从事生命科学研究最重要的研究机构之一,NIH是美国典型的科研共享机构并且是最早开展数据共享工作的机构之一,其研究资助项目范围广泛,从分子、细胞生物学研究到新药开发等[8]。NIH与BBSRC的资助研究项目有一定程度的交叉,生物与医学的结合也是目前研究热点学科之一。NIH于2003年3月公布了《NIH数据共享政策和执行规范》,规定了项目数据汇交的范围和执行细则,在此后的十几年间,NIH不断对细则进行更新,最近公布了基因组数据共享的最终政策。通过与NIH数据共享政策的对比,能够更好地认识BBSRC的数据共享政策,从宏观上把握数据共享政策。两者比较内容和分析结果如下。
(1)申报项目的资金规模:NIH规定,所有研究者提出的申请在任何单一年份内直接成本达50万美元以上(不含财团财务成本),需要在申请中包含数据共享计划。所以,NIH对于数据发布的要求仅仅针对那些超过一定规模的资助项目所产生的数据[9]。而BBSRC并不是针对超过一定规模的资助项目,数据共享是对于所有资助项目而言的。
(2)数据共享的时间:NIH为了保证数据的时效性价值,要求尽快公开和共享数据,至少不晚于基于最终数据集的主要研究成果被出版物录用的时间。具体时间段将受到数据收集特征的影响,小研究项目的数据可以更快地分析并提交出版;如果数据是有关大型流行病或追踪性研究并通过几个离散的时间段搜集而来的,那么数据的公开和共享可以推迟,以保证数据的可靠性和准确性[10]。
BBSRC同样认为,数据的价值往往取决于及时性,及时地公开一般不能晚于发表主要研究结论的出版物公开的时间,以及根据不同的原因调整数据共享的时间。
(3)数据隐私:NIH认为数据共享是复杂或有限的,在某些情况下,组织政策、当地道德伦理规则以及地方、州和联邦法律和法规,包括HIPAA(健康保险携带和责任法案)隐私规则等,是必须纳入考虑范围的。NIH必须对资助研究的权利和个人隐私进行保护,并且NIH对于有关人员的研究和有关动物的研究都分别做了详细的政策解释,研究者要获取个人级别的数据需要签订数据共享协议,包括《许可协议》和《数据发布协议》,一般要求保护参与者的隐私和数据保密性[11]。BBSRC针对研究中的动物,也给予科研支持,但必须满足严格的条件[12]。
综上所述,NIH与BBSRC数据共享政策的主要内容涉及的方面都比较广泛,但是,关于具体细则或多或少有所差异。两者主要政策的比较见表2。究其原因,主要在于NIH更加注重对医学、生命科学为主的研究机构所涉及人类、动物的大部分数据隐私及伦理的保护。由于研究领域的差异及数据集特征的差异,NIH与BBSRC在数据共享的时间、方法和隐私保护方面有不同的规定,但NIH与BBSRC都规定申请项目资金需要提供数据管理计划,且两家机构都会对数据共享提供资金的支持。
科学数据共享是一个复杂的系统工程,从数据的产生与汇交、数据的保管和使用、数据的评价和监管、数据共享的保障等诸多方面,都需要利益各方的配合与支持。我国目前大部分科学数据汇交是伴随科研项目的评估而进行的。这种方法由于科研项目具有一定的周期性,难以确保科学数据汇交的及时性,在数据汇交的要求上也不是非常严格,这些都不利于科学数据的共享和利用,所以我国的科研资助机构需要建立完备的数据共享政策。
(1) 完善政策体系
对于科研人员而言,科研资助机构制定的数据管理政策是否完善对于他们能不能完整妥善的保存、共享科学数据至关重要。根据调查,BBSRC所涉及的政策范围相对来说非常广泛的,但是关于元数据的标准、数据隐私和版权、数据共享的监管与监督等问题的描述较为笼统或是极少涉及。首先,数据资源是提供数据共享服务的基础,元数据是基础的基础,高质量的数据源和元数据是保证数据有效共享的关键,制定统一的元数据标准对于促进数据质量的提高非常有利,可以促使科研人员提交数据时自觉附上相应的背景信息和元数据,也对数据的二次利用者有极大帮助,BBSRC与NIH在对元数据标准上都没有明确详细的规定,这会在一定程度上影响数据共享的效率和数据的质量。其次,数据的隐私和保护也是数据共享政策重要的一部分,科研资助机构应该对涉及隐私数据和保密数据制定详细的方案,可以为科研人员提供相关策略。BBSRC与NIH对数据隐私方面的阐述和规定值得借鉴。最后,科研资助机构应对数据管理和共享的过程进行监督,BBSRC通过最终报告进行评估,并将此评估结果作为未来项目申请建议的申请追踪记录。科研资助机构还可以制定详细的奖惩制度,将科研人员对数据的贡献纳入科研项目评估或是职称评估的体系中,或是优先资助科研数据共享工作较优秀的科研人员。
表2 NIH与BBSRC数据共享主要政策的比较
总体来说,国内可以借鉴BBSRC的强制性做法,在规定上交数据管理计划的同时,加入科学数据合法保护以及合理使用相关方面的条款,有利于科学数据的集中管理,并且对知识产权采取保护措施将鼓励研究者提交科学数据,增加他们的积极性,更好地促进科学研究的合作与联系,同时减少不必要的重复工作,提高科学研究效益[14]。
(2)加强数据共享的资金支持与培训
首先,科研资助机构须提供资金支持。BBSRC在数据共享政策中提出,对于数据管理与共享所产生的成本,例如:人员配备和物质资源以及存储数据和网络功能等,可以要求作为研究项目经济成本的一部分。这表明,科学数据的管理、保存、共享需要大量的资金来支持,所以对于科研人员及其科研项目来说,对数据管理和共享的资金支持是必不可少的。其次,科研资助机构须为科研人员提供关于数据共享的培训和咨询。BBSRC也有关于对数据共享的信息指导的描述并支持相关的培训活动,但是,内容并不具体,对于科研数据共享这一长期性、基础性、公益性的工作,可以建立一只稳定的人才队伍来提供关于数据集特征、数据管理方法和模型等方面的咨询和培训活动。
(3) 明确各方职责
明确参与科学数据管理和共享各方的权利与责任对于科研机构的数据共享至关重要。BBSRC并未要求科研人员在制定数据管理与共享计划时明确参与数据管理的各个角色的职责。对于一个完整的数据共享过程,各个角色的职责是不同的,若不能明确各方的职责,很可能对数据管理和共享活动的执行产生阻碍,影响其执行力度。科研资助机构为科研人员提供资金,同时还有制定数据管理和共享政策的职责,对科研人员的数据共享过程进行监督和指导。基金申请者其主要职责是制定并提交数据管理计划,遵循科研资助机构所制定的数据管理和共享政策。数据服务商的主要职责是保证数据的长期保存及访问。数据共享政策的实施是所有角色有机结合共同实现的,明确各方的权利与责任,不仅有利于科学数据长期保存和共享,而且出现利益纷争时有据可循[15],所以科研资助机构制定数据共享政策时明确各方职责是必要的。
科学数据的共享是一个复杂的系统工程,从数据的产生与汇交、数据的保管和使用、数据的评价和监管、数据共享的保障等多方面,都需要利益各方的配合与支持。相对来说,BBSRC的数据共享政策比较完备,涉及面广,但也存在一定的不足。从科研资助机构的角度来看,我国科研资助机构可以借鉴BBSRC已取得的成果,加快推进我国科研资助机构数据共享的进程,同时避免BBSRC已经出现的一些问题。
[1]司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1):61-66.
[2]郭春霞.科研机构数据管理与共享政策研究[J].情报杂志,2015(8):147-151.
[3]BBSRC-Our Vision[EB/OL].[2015-05-06].http:// www.bbsrc.com/about/vision.aspx.
[4]BBSRC-Research Grants-Funding Areas [EB/OL]. [2015-05-06].http://www.bbsrc.com/funding/grants/ areas.aspx.
[5]DCC-Policy And Legal-Overview Funders Data Policies[EB/OL].[2015-05-06].http://www.dcc.ac.uk/ resources/policy-and-legal/overview-funders-datapolicies.
[6]Rothamasted Research-The Rothamsted Insect Survey[EB/OL].[2015-05-06].http://www.rothamsted. ac.uk/projects/S5191.
[7]BBSRC-Data Sharing Policy[EB/OL].[2015-05-06].http://www.bbsrc.ac.uk/documents/data-sharingpolicy-pdf/.
[8]NIH-About NIH[EB/OL].[2015-05-06].http://www. nih.gov/about/.
[9]Final Nih Statement on Sharing Research Date[EB/ OL].[2015-05-06].http://grants.nih.gov/grants/guide/ notice-files/NOT-OD-03-032.html.
[10]谢艳秋,钱鹏.国外科学数据共享政策的发展研究[J].新世纪图书馆,2014(1):67-71.
[11]NIH Data Sharing Policies [EB/OL].[2015-05-06]. http://www.nlm.nih.gov/NIHbmic/nih_data_sharing_ policies.html.
[12]BBSRC-Use of Animals in Bioscience Research[EB/ OL].[2015-05-06].http://www.bbsrc.ac.uk/about/policies/position/policy/animal-research-policy/.
[13]NIH Data Sharing Policy and Implementation Guidance[EB/OL].[2015-05-06].http://grants.nih. gov/grants/policy/data_sharing/data_sharing_guidance. htm#archive.
[14]朱艳华,胡良霖,袁雅琴.等.国内外科研资助机构科学数据共享政策分析[J].中国科技资源导刊, 2015, 47(3):50-57.
[15]陈大庆.英国科研资助机构的数据管理与共享政策调查及启示[J].图书情报工作,2013,57(8):5-11.
Research on BBSRC’s Data Sharing Policies and Its Reference
Wang Xiaoyu, Dong Cheng, Zeng Wen
(Institute of Scientific & Technical Information of China, Beijing 100038)
Research funding agencies as an important stakeholder in science related fields who make the data sharing polices play an important role in facilitating the sharing of scientific data. In order to get a comprehensive understanding of data sharing policies of funding agencies and more effective to promote scientific data sharing, in this paper, we took BBSRC data sharing policy as the research object, through analyzing the content of policy and making a contrast with the NIH data sharing policy, we analyzed and evaluated BBSRC data sharing policy and made suggestions for Chinese funding agencies to make data sharing polices.
BBSRC, NIH, research funding agencies, data sharing policies, data management
G350
A
10.3772/j.issn.1674-1544.2015.06.008
王小玉*(1992-),女,中国科学技术信息研究所信息资源管理专业硕士研究生,研究方向:信息资源管理、信息安全;董诚(1970-),男,中国科学技术信息研究所研究员,研究方向:科技管理与科技创新;曾文(1973-),女,中国科学技术信息研究所副研究员,研究方向:智能信息处理,数据分析和知识组织。
国家社会科学基金项目“基于事实型科技大数据的情报分析方法及集成分析平台研究”(14BTQ038);国家科技支撑计划课题“面向科技情报分析的信息服务系统研发与应用示范”(2015BAH25F00) 。
2015年7月13日。