王 婉
伴随e- science 的发展,科研模式发生巨大改变。2009 年微软在《The Fourth Paradigm》中指出,科学研究正向数据密集型(Data-Intensive Science)的新型科研方式发展[1]。Escience 倡导人John Taylor 指出,E- science 是科学领域的全球性合作,特征是数据密集型的科研,是利用网络计算技术分析海量数据[2]。因此,科研数据的管理、使用、共享、存档等问题成为专业学科领域尤其是图书情报界关注的焦点。笔者通过网站访问和文献研究,对澳大利亚高校图书馆开展科研数据管理服务进行调查分析,了解其发展现状和服务特点,以期为国内高校图书馆开展科研数据管理服务提供借鉴。
由于学科差异和目标不同,各研究机构及大学对科研数据的定义和分类略有不同,尚未形成统一的标准。澳大利亚墨尔本大学(Melbourne University)认为,研究数据是一种事实、观察或经验,是基于争论或测试获得的;数据可以是数值性的、描述性或视觉性的;数据可以是原始的、或经过分析的,或通过实验或观测获得的,包括实验室笔记、现场笔记、调查问卷、视频、音频、模型、照片、影片、测试反应等[3]。澳大利亚格里菲斯大学(Griffith University)认为,研究数据是对事实的记录,可以以数字、符号、文本、图像或声音等形式存在,是研究的第一手资料,并且可以被研究群体作为研究结果而普遍接受[4]。澳大利亚国家数据服务网(ANDS)则认为,无法提供一个权威的研究数据的定义,因为每个定义所处的问题背景不同[5]。尽管各研究机构及大学对科研数据的定义不同,但具有共同特征,即数据是一种事实,是在科学研究中通过观察、测量、调查、建模等方法获得的,并能以现代信息技术保存和获取的记录,可以被科学界所承认。
科研数据管理是基于研究数据所产生的相关服务,贯穿于数据的整个生命周期,是一项持续性的任务。ANDS 通过八个动词来描述数据管理的过程:创建(创建数据目标)、存储(数据的长期保存)、描述(元数据的生成与获取)、鉴别(分配持久性的标示符于每个数据集)、注册(使数据被外界所知)、发现(使用数据发现服务定位感兴趣的数据)、获取、开发(数据的再利用)[6]。
近年澳大利亚政府对发展研究基础设施表现出浓厚的兴趣,投资了一系列项目,如澳大利亚合作可持续数据库(Australian Partnership for Sustainable Repository,APSR)、澳大利亚研究机构库(Australian Research Repositories Online to the World,ARROW)等[7]。 2007 年澳大利亚研究理事会(Australian Research Council,ARC)与国家健康和医学研究理事会(National Health and Medical Research Council,NH&MRC)联合发布《澳大利亚负责任的研究行为准则》 (Australian Code for the Responsible Conduct of Research)[8],对研究数据和重要资料的存储提出明确要求,如详细描述科研机构和研究者的责任,包括保存研究数据和重要资料、提供安全的研究数据存储和记录设备、确定研究数据和重要资料的所有权、确保研究数据和重要资料的安全性和保密性等;同时规定,在一般情况下,所有研究数据必须保存至少5 年以上。澳大利亚多数大学将这一准则融入内部的数据管理政策之中。2008 年由莫纳什大学(Monash University)、澳大利亚国立大学(Australian National University)以及联邦科学工业研究组织(Commonwealth Scientific and Industrial Research Organization)成立的ANDS[9]是澳大利亚研究数据管理的最主要驱动者,通过与大学、科研机构、公共单位及个人建立合作关系,帮助其开展科研数据管理服务,包括提供制定数据管理政策与计划的培训、研究数据管理实践指南、研究数据管理框架和策略、分享实践中的经验等。
笔者通过网络调研澳大利亚42 所大学网站,其中34 所大学开展科研数据管理服务(见表1),并多以Data Management 命名;50%大学的科研数据管理服务由图书馆负责。笔者重点选取三所提供比较系统和丰富的研究数据管理服务的高校,就其研究数据管理服务进行分析。
(1)服务部门:该校数据管理服务通过图书馆的libguides 系统提供。
(2)研究数据的类型:数值型数据(如测量数据、调查反馈数据)、文档(如出版物、实验方法、现场笔记、技术报告)、数字型图片、数字型音频、视频、配置数据等。
(3)服务内容:①管理数据(Managing data),一是数据管理指南(Data Management Plan):提供撰写数据管理计划的框架,列出其他大学数据管理计划(DMP)的模板供科研人员参考;二是数据组织(Data Organizaiton):提供三种数据组织的方法,包括文件传输和远程访问、文件同步、多部门协作;三是数据管理(Data Administration):涉及数据的备份、验证和认证、采集方法的记录、访问控制及安全等问题。②元数据(Metadata),介绍较为流行的元数据模式Dublin- Core 及使用案例,列出其他几种在ANU 使用过的元数据模式,如DDI、EAD、RIF- CS 等。③检索数据(Finding data),提供多种类型的数据存储机构库,包括书目类型、学科型、免费等。④引用数据(Citing data),网站引用美国密歇根州立大学(Michigan State University)图书馆的LibGuides 中有关数
据引用的方法,推荐本校科研人员及学生使用5.0 以上版本的Endnote 书目管理软件。⑤政策(Policies),强调遵循各基金机构政策的重要性,提供ANU、ARC、NHMC 的相关政策,以及《澳大利亚负责任的研究行为准则》(Australian Code for the Responsible Conduct of Research)中有关数据管理方面的政策及要求,列出一些权威的科学杂志对数据存储的要求。⑥许可(Licensing),主要涉及数据被再使用时应遵循的条件以及使用权限等。图书馆提供开放许可框架—AusGOAL 的使用指南,给出google 推荐的许可软件(software licensing)的链接,如Apache、Artistic、BSD。⑦ANU数据服务(ANU Data Service),推荐两个可以存储科研成果的机构库——数据共享空间(ANU Data Commons) 和数字资源库(digital collection)。此外,该校的超级计算机(ANU Supercomputing Facility)向计算科学、工程学、社会科学及人文领域的研究人员提供高级计算支持,如高性能计算、大型或复杂的数据管理及虚拟社区管理等。
表1
(1)服务部门:该校是全球公认的致力于推动澳大利亚研究数据管理并处于领导地位的大学,其科研数据管理(Managing Research Data)服务主要由图书馆负责。
(2)研究数据的类型:统计和测量数据、实验或模拟结果、观测数据、调查结果、访谈录音及手稿、图片、文本源材料及注释。
(3)服务内容:①指南(Guidelines)。一是数据规划(Data Planning),提供数据管理计划清单(Research Data Planning Checklist),指出在制定数据管理计划时所应遵循的政策、程序及指南;二是所有权和使用权(Ow nership and Rights):详细介绍数据使用权和所有权方面的相关法律及政策,如澳大利亚版权法、莫纳什版权及知识产权政策;三是合理使用(Ethics and Consent):介绍对数据的隐私性、保密性、文化敏感性、共享等方面进行保护的法律法规;四是保留(Retention),涉及数据保留时长问题,莫纳什大学规定本校科研数据的保留期限最少为5 年;五是耐用格式(Durable Formats),提出在选择数据文档格式时应考虑的问题,说明如何管理非数字格式的文件;六是保存和备份(Storage and Backups),介绍数字型(Digital File Formats)及非数字型(Non Digital Formats)数据的保存及备份方法;七是安全(Security),涉及加密服务、密码保护、数据的安全传输、安全损毁以及临床医学类数据的额外的安全服务;八是组织数据(Organizing Data),提供进行数据文本化记录和创建元数据的方法,及其参照标准等;九是数据共享和传播(Sharing and Disseminating Data),对共享数据及传播数据时应考虑的问题给出参考建议,介绍本校可共享的数据存储库;十是再利用(Re- use),涉及数据被再利用时应设置的条款、公共领域的贡献和著作豁免权、开放许可框架(如知识共享空间、限制访问协议)。②建议和规划(Advice and planning):列举该校各部门在数据管理方面可提供的建议和帮助,包括图书馆、eResearch中心、版权顾问、大学律师顾问办公室、行业参与和商业化办公室等。③技能发展(Skills development),图书馆为本校的研究生及教师提供数据管理方面的课程培训。④资源和活动(Resources and activities),提供和科研数据政策、程序、策略、指南文档、工作流程、模板、工具等相关的资源链接。
(1)服务部门:该校的科研数据管理指南(Research Data Management Guidelines)服务是其研究支持服务中的一项,研究支持服务由该校研究组合部(Research Portfolio)、联合企业融资部(Corporate Finance)、学习解决方案部(Learning Solutions)以及图书馆共同提供。
(2)研究数据的类型:①以数据形式存在的事实、观察、图像、计算机程序结果、录音、测试、测量等;②数值型、描述型、可视的或者可触的数据;③原始的或者经过处理的或者以任何形式或媒介存在的数据,如实验记录、实地考察的笔记、调查问卷、音频或视频、照片、测试反应或结果、标本、样品、数据集、模型、算法、脚本、工作流程等。
(3)服务内容:①管理数据(Managing Data),对科研数据的定义、类型、科研数据管理的概念等进行界定,向研究人员提供数据管理计划清单(Research Data Management Planning Checklist)以及对数据进行管理时应遵循的政策,包括《澳大利亚负责任的研究行为准则》 (Australian Code for the Responsible Conduct of Research)、《研究行为准则2013》(Research Code of Conduct 2013)、以及《悉尼大学研究数据管理政策》 (University of Sydney Research Data Management Policy)。②保存数据(Storing Data),提出研究人员在选择数字数据(digital data)的保存方式时应考虑的问题,介绍三种保存方式(网络保存、个人电脑保存、移动设备保存)的优劣势,推荐科研人员将数据保存至悉尼大学研究数据存储库(Research Data Store)。③数据共享和存档(Sharing and archiving data),涉及数据的共享、访问控制及引用。该校提供四种在项目完成时进行数据共享的方法:在专业的数据中心或典藏库进行存储;在学术机构库中存储;提交数据至公开发行的期刊;通过项目或者机构库的网站进行网上发布。④检索数据(Finding Data),提供几种获取公开发布的数据来源,如政府数据、数据目录、学术机构库、大学网站、搜索引擎等。⑤道德规范与研究数据(Ethics and research data),提出在进行研究数据管理时应遵循的道德要求,涉及隐私、保密和同意、文化敏感性、商业敏感性等问题,特别强调人体项目的研究数据管理应遵循澳大利亚《涉及人体研究的伦理行为的国家声明》 (National Statement on Ethical Conduct in Research Involving Humans)的规定。⑥知识产权和政策(Copyright、IP and Policy),介绍应用于研究数据的澳大利亚版权法、悉尼大学的版权和知识产权政策,要求所有在本校创造出的研究数据都必须遵守《悉尼大学(知识产权)规则2002》(University of Sydney (Intellectual Property)Rule 2002)。此外,对于研究数据商业化或被第三方使用时所产生的相关版权及知识产权问题给出建议。
近年随着越来越多的基金机构要求项目申请者提交数据管理计划,数据管理计划的制定变得尤为重要,在此情况下,图书馆提供相应的制定数据管理计划的指导或帮助服务变得尤为重要[13]。多数高校图书馆将此项服务单独列出作为重点服务内容,如澳大利亚国立大学提供数据管理计划的框架和其他大学的模板(DMP),悉尼大学和莫纳什大学提供详细的数据管理计划清单。此外,还提出研究人员在制定数据管理计划时要遵循《澳大利亚负责任的研究行为准则》 (Australian Code for the Responsible Conduct of Research)对数据管理的要求。
制定科研数据管理政策是《澳大利亚负责任的研究行为准则》的要求。该法案为负责任的研究实践提供指南,包括各类研究材料及成果的管理。在调研的三所高校中,除悉尼大学的政策正在制定外,其他两所大学已制定本校的科研数据管理政策,内容主要包括政策目的、试用范围和时间、研究数据的所有权、访问、安全、保留期、处理、相关法律、政策、文件等。此外,对于参与科研数据管理的研究人员及相关服务部门(或人员)的责任和义务也进行明确规定。莫纳什大学按照科研数据管理的流程,对参与每一阶段工作的相关人员的责任进行界定,比如在数据管理计划制定阶段,需要负责的人员包括研究者及数据管理协调员;而在数据保存阶段,需要负责的人员包括研究者、学术单位负责人、莫纳什大学eResearch 中心及图书馆。
《澳大利亚负责任的研究行为准则》建议研究人员尽可能共享其数据。自2008 年以来,澳大利亚研究理事会(ARC)在发现项目(Discovery Projects)的资助规则中鼓励研究人员将数据存储至合适的机构库中。基于此,大部分高校自建数据存储库,如澳大利亚国立大学的数据共享空间(ANU Data Commons)、 莫纳什大学的大数据存储库(Large Research Data Storage)、 悉尼大学的研究数据存储库(Research Data Store)。多数高校还鼓励研究人员将数据共享至不同类型的学术机构库中,如悉尼大学推荐本校的学术机构库(Sydney eScholarship Repository)、澳大利亚本国的以及国际的机构库和典藏库。
对数据管理时所应遵循的道德标准,多数高校提出明确要求,尤其是在涉及数据的隐私、保密、文化敏感性等方面更提供相关的法律法规对其约束。还制定有关道德使用研究成果的专有政策,如莫纳什大学的《有道德的研究和审批政策》 (Ethical Research and Approvals Policy)、悉尼大学的《隐私政策2013》(Privacy Policy 2013)等。对于与人体相关的研究数据,要求研究者严格遵守澳大利亚《涉及人体研究的伦理行为的国家声明》的规定,尤其是章节3.2—数据银行(Databanks)(概述了研究人员在收集、存储、使用和公布研究数据的相关职责)需要特别关注。而对于有关原住民的研究数据,科研人员必须遵循《澳大利亚原住民研究指南》(Guidelines for Ethical Research in Australian Indigenous Studies)的相关要求。
从澳大利亚的成功案例看,完善的科研数据管理政策是实现数据共享的关键。我国尚未有高校出台科研数据保存和共享的政策,这使得我国科研人员缺乏对研究数据进行有效管理和利用的意识。科研过程中产生的大量数据得不到正确的保存和管理,无法实现数据共享及其应有的科学价值[14]。高校院系、服务部门众多,从校级层面上进行政策支持,明确研究数据管理的流程、应遵循的法律法规、以及落实各相关部门的职责,可以对科研数据的提交及共享进行有效的控制和统一的管理,从而进一步保障科研数据管理的规范化运行和可持续发展。
从服务特点看,科研数据管理服务是学科服务的一种,服务对象是学科研究人员,服务内容是学科研究数据。我国学科服务多由图书馆单独提供。然而,数据与文献不同,数据的管理与保存离不开信息技术及大型存储设备的支撑。因此,单靠图书馆的力量,无法完成科研数据生命周期内的管理任务。从澳大利亚的成功案例看,图书馆虽然是提供科研数据管理服务的主要部门与窗口,但科研用户与其他部门也参与其中(如IT 部门、科研中心)。图书馆通过与科研人员及其他部门的协同合作,在数据管理的不同阶段进行组合服务,从而在人员、资金、技术、设备等方面获得强有力的支持。此外,不同部门在科研数据管理的流程中承担不同任务,明确其参与的管理阶段和管理任务,有助于提高管理效率,减少重复工作[15]。
对密集的复杂的科研数据进行管理,需要依托强有力的基础设施和软件工具,主要包括大型存储设备、高性能的服务器及服务终端的搭建,以及软件系统[16],如澳大利亚国立大学的超级计算机(ANU Supercomputing Facility)、悉尼大学的研究数据存储库(Research Data Store)、澳大利亚研究数据存储库(Research Data Australia)。从澳大利亚的成功案例看,本校的数据存储库是最佳的共享方式。我国已有不少高校自建学术机构库,且多由图书馆进行维护和管理,主要收录各类学术文献。因此,高校图书馆可以利用已有的机构仓储及基础设施,通过与其他部门合作,共同创建科研数据管理的硬软件环境。其次,政府和科研机构也建立了不同类型的数据存储库,高校图书馆可以与这些校外部门或组织合作,充分利用其已有的仓储设备和软件平台,共同为本校的科研人员提供数据管理服务。澳大利亚国家数据服务网与澳大利亚各高校合作,为其开展科研数据管理服务提供帮助,同时自建澳大利亚研究数据库(Research Data Australia),为科研人员获取及共享数据提供服务。图书馆此时的任务是向研究人员提供相关信息和帮助,使其知晓这些机构库,帮助研究者利用这些资源及共享其研究成果[17]。因此,构建数据门户网站,做好数据导航服务也是高校图书馆需要提升的技术能力。
科研数据管理服务中涉及的知识产权、隐私等问题是高校图书馆在提供数据管理服务前应关注的问题。在澳大利亚,多数高校将合理使用数据单独作为一项服务内容列出来,并制定有关道德使用研究数据的校内政策。完善的道德规范和相关政策可以更好地约束共享者及使用者的行为。高校学科分布广泛,数据来源复杂,我国高校在制定科研数据管理政策时,应将数据的版权、隐私、保密等问题融入政策,如哪些数据具有版权、哪些数据可以自由发布、哪些数据的共享需要依靠许可协议、哪些数据具有保密性及文化敏感性,从而保证数据的合理使用及科研数据管理的正常运行。
[1] Hey T,Tansley S,Tolle K. The Fouth Paradigm:Data- Intensive Scientific Discovery [M]. Redmond Washington:Microsoft Research,2009.
[2] Taylor J. Defining e- Science[EB/OL]. [2013- 06- 12].http://www.nesc.ac.uk/nesc/define.html.
[3] The University of Melbourne.Management of Research Data and Records[EB/OL]. [2013- 06- 15]. http://imas.unimelb.edu.au/_data/ assets/ pdf_file/ 0010/490798/ 2011 0519_RDRM_policy_FINAL.pdf.
[4] Griffith Unviersity. Data Management [EB/OL].[2013- 06- 15]. http://www.griffith.edu.au/research/research- services/research- ethics- integrity/researchintegrity/data- management.
[5] ANDS. What is research data[EB/OL]. [2013- 06- 15].http://ands.org.au/guides/what- is- research- data.html.
[6] Ball A. Review of Data Management Lifecycle Models[EB/OL].[2013- 06- 15].http://opus.bath.ac.uk/28587/1/redm1rep120110ab10.pdf.
[7] Margaret Henty. Dreaming of Data: The Library’s Role in Supporting E- research and Data Management.Australian National University[EB/OL].[2013- 06- 18].https://digitalcollections.anu.edu.au/bitstream/1885/47617/5/henty_alia_08.pdf.
[8] Australian Government(2007) . Australian Code for the Responsible Conduct of Research [EB/OL].[2013- 06- 20].http://www.nhmrc.gov.au/_files_nhmrc/publications/attachments/r39.pdf.
[9] ANDS.About ANDS[EB/OL].[2013- 06- 25].http://ands.org.au/about- ands.html.
[10] Australian National Unviersity. Data Management[EB/OL]. [2013- 06- 27]. http://libguides.anu.edu.au/datamanagement.
[11] Monash University. Managing Research Data[EB/OL].[2013- 06- 28]. http://monash.edu/library/researchdata/.
[12] The University of Sydney. Research Data Management Guidelines[EB/OL].[2013- 06- 28]. http://sydney.edu.au/research_support/data/index.shtml.
[13] 马建玲,祝忠明,王楠,等. 美国高校图书馆参与研究数据管理服务研究[J]. 图书情报工作,2012(21) .
[14] 司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1) .
[15] 丁宁,马浩琴.国外高校科学数据生命周期管理模型比较研究及借鉴[J].图书情报工作,2013(6) .
[16][17]李晓辉.图书馆科研数据管理与服务模式探讨[J].中国图书馆学报,2011(5) .