黄如花 邱春艳
(武汉大学信息管理学院 湖北武汉 430072)
·图书馆与图书馆事业·
图书馆参与科学数据管理中的元数据应用实践研究*
黄如花 邱春艳
(武汉大学信息管理学院 湖北武汉 430072)
元数据是图书馆参与科学数据管理的必备工具,图书馆在科学数据管理的基础服务中多为科研人员提供元数据标准和元素的选择与推荐,在自建的数据仓储中图书馆通过整套元数据方案的设计保证数据仓储服务于科学数据管理工作,而元数据在公共数据仓储、科学数据管理系统软件以及合作项目中都有不同深度的应用。此外,图书馆领域还重视科学数据馆员的元数据技能培训。
数据管理元数据图书馆应用
随着科学数据作为重要学术资源的广泛认可,众多图书馆纷纷参与科学数据管理工作,力求在科学数据管理的发展潮流中谋求一席之地。元数据是科学数据管理的重要工具和技术保障,微软公司Jim Gray认为科学数据的元数据记录对于科学发展的前景至关重要,元数据为科研人员理解和获取科学数据提供可能。元数据成为科学数据管理实践和研究中广为关注的问题,而图书馆在其传统服务中积累了元数据方面的丰富经验。图书馆领域在其开展的科学数据管理实践领域中不断研究、夯实并拓展元数据的应用。本文以此为基础,分析图书馆科学数据管理服务实践中元数据的应用现状,探究现有实践的特点、不足和发展方向,为我国图书馆开展科学数据管理的元数据实践提供借鉴。
随着数字化资源和服务的发展,图书馆的服务内容已经不仅仅局限于文本类馆藏,科学数据逐渐成为图书馆的重要资源,图书馆在科学数据管理和科学数据服务方面的角色和职责逐渐显现出来,而元数据是图书馆开展科学数据管理和科学数据服务的重要内容和工具。没有标准化的元数据,科学数据难以与图书馆的传统资源所融合,建立在几十年甚至几百年实践基础之上的编目和元数据生成工作是图书馆服务的核心。OCLC于2010年召开了“图书馆科学数据管理职责”研讨会,元数据被作为图书馆开展科学数据管理的重要工具和技能。美国研究与大学图书馆协会(the Association of College and Research Libraries,ACRL)则设立了数字化管理兴趣小组,旨在开展科学数据管理趋势和相关技术的培训,而元数据是重要内容。欧洲研究图书馆协会(Ligue des Bibliotheques Europeennes de Recherche,LIBER)发布的《图书馆开始从事科学数据管理的十条建议》中指出,图书馆应当参与元数据和相关数据标准的建设,同时应当提供科学数据相关的元数据服务。当前,图书馆开展了深度层次不同的科学数据管理服务,元数据的应用也呈现出不同的功能和特点。
图书馆逐渐参与到科学数据管理的服务中,其现有的科学数据管理服务以科学数据管理咨询、管理计划的协助起草、科学数据的组织与存储、工具与系统的开发与使用等为主要服务内容。
2.1 元数据管理计划中的元数据相关规定
美国NSF在其科学数据管理的相关规定中指出,数据管理计划应当包括用于数据和元数据的格式与内容的相关标准,英国ESRC在其数据管理计划指南中指出,数据管理计划需要对数据和元数据生成与存储进行规划和设计,BBSRC在要求将数据共享声明作为附件类型的数据管理计划,而数据共享计划应当包括标准和元数据,需详细阐释用于数据收集、管理的标准和方法以及选择该标准和方法的原因,澳大利亚国家数据服务中心(Australian National Data Service,ANDS)认为元数据自动化、持久的DOI识别、元数据受控词表等是贯穿在整个数据管理计划中必不可少的元素。因而多数图书馆在提供科学数据管理计划协助起草的服务中,明确提出协助科研人员和科研团队选择恰当的科学数据元数据标准,以保证科学数据有序化、标准化的组织。
2.2 高校图书馆元数据标准选择与推荐服务
根据对美国部分高校图书馆科学数据管理相关网站的调查(见表1),发现高校图书馆在整个科学数据管理实践中,包含元数据的相关工作主要集中在科学数据管理整个周期的几个阶段,包括计划制定中的元数据标准和元素推荐;科学数据描述与组织时的元数据标准选择;科学数据存储中的数据文档命名与格式规范等方面。由此可见,在科学数据管理中,图书馆开展的元数据实践以科学数据相关的元数据内容标准和相关元素的选择与推荐为最主要的工作内容,开展元数据描述与组织工作的具体实施的图书馆较少。
图书馆参与科学数据管理多是从协助制定数据管理计划、协助数据组织和存储等基础工作起步,因此上述标准推荐、元素选择等浅层次的元数据服务较为普遍。
对于参与科学数据管理的图书馆或其他机构,其负责的科学数据管理对象的科学数据最终存储和保存多有两种去向:该图书馆或该机构自建机构库、学科库或者专门的科学数据库,以提供科学数据的存储;另一类则是选择与科学数据内容、学科或其它要求相契合的公共数据仓储。对于自建的机构库、学科库或科学数据库而言,其元数据的实施多考虑几方面的需求:其选择的系统软件如DSpace的系统需求、科学数据管理的目标需求以及科学数据本身的特点特别是学科属性等。
表1 美国部分高校图书馆科学数据管理中的元数据实践
3.1 DataStaR的元数据创新实践
为实现本机构科学数据的管理并提供较为完整的系统服务,康奈尔大学图书馆以机构库为基础,构建了数据阶段型存储库(Data Staging Repository,DataStaR),由图书馆协助科研人员实现科学数据与元数据记录的长期保存和复用。DataStaR的元数据实践旨在不增加科研人员和图书馆员额外工作的前提下,支持科学数据的共享、出版。考虑到多学科科学数据的现状,DataStaR继承了多领域、学科的元数据标准,以满足不同学科领域研究人员的需求,弹性的元数据实践、便利的用户接口为大规模的数据共享、出版乃至元数据复用提供了可能。在DataStaR中,仅有“数据集标题”、“数据集拥有者”、“元数据和数据获取许可”、“出版物目标存储仓储”四个元数据元素必须键入或进行选择,其他均可自动生成或默认。DataStaR尝试对现有的元数据内容标准进行精简之后融入DataStaR系统中的本体集中,从而将离散的元数据标准融合在一起,方便数据提交者重复、组合使用元数据标准以生成元数据记录,无需重复键入信息。由于DataStaR融合了尽可能多样化的元数据内容标准,因此用户可以方便的生成符合不同元数据标准格式规定的元数据记录。
DataStaR还重视将语义网的原则和技术运用到其元数据实践中,以实现良好的互操作和机器处理。DataStaR的元数据实践融合了语义网技术,实现XML与OWL的交互,集成了基于网络的RDF图表编辑、通过语义映射将现有的元数据标准、关联数据等进行集成,从而在实现本机构科学数据管理的良好运作的基础上,实现了用户最小负担和与其他数据仓储的最大交互的目标。
3.2 PURR的元数据标准融合方案
普渡大学是通过机构库来实现科学数据管理的机构典型。普渡大学图书馆在HUBzero系统基础上搭建了普渡大学科研仓储(Purdue University Research Repository,PURR)系统,将数据管理转化为机构知识库内嵌的基于科研过程的数据管理流程模块,从而成为项目组的科研管理平台。PURR针对科学数据的描述、管理与保存的需求,在对现有元数据标准进行综合考虑与评估的基础之上选择合适的元数据标准形成了一套针对科学数据的元数据实施方案。本着描述数据集、识别数据拥有者和获取条件、生成稳健的长期保存元数据的目的和原则,PURR采用元数据编码与转换标准(Metadata Encoding and Transmission Standard,METS)作为封装标准,以都柏林核心元数据(DCMIMetadata Terms)作为描述元数据,以元数据对象描述机制(Metadata Object Description Schema,MODS)对数据拥有者、获取权限等进行描述,以PREMIS作为其保存元数据标准,从而形成了面向数据生成、描述与组织、数据使用到长期保存的元数据描述框架。多数描述元数据元素通过作者在提交数据时填写在线表单获取,主题馆员对提交信息的正确性进行检查,进行确认后,生成的元数据记录保存在PURR的数据库中。数据保存和出版确认将触发存档信息包(Archival Information Package,AIP)创建工具,综合PREMIS保存元数据、MODS标准以及BagIT格式等,实现PURR元数据记录的封装与保存。
DataStaR和PURR都是自建系统和平台以实现科学数据管理,但两者在元数据实践方面有所不同,DataStaR容纳尽可能多的元数据标准,以适应不同学科数据的需求,同时尝试语义网技术的应用和创新,PURR则是通过选择较为普适性的描述元数据标准和适用于各种功能需求的管理性元数据,从而形成较为固定的元数据描述方案。
4.1 公共数据仓储
公共数据仓储是除自建数据仓储之外最主要的科学数据存储媒介。对于为进行机构库或数据仓储建设的图书馆而言,公共数据仓储是其参与科学数据管理的必要第三方,其科学数据管理各个环节的开展多以第三方数据仓储为基础。公共数据仓储的元数据方案就成为该图书馆开展科学数据管理元数据实践的基准。虽然部分图书馆为科研人员进行了学科领域元数据标准、元数据元素的推荐,但针对数据存储于第三方数据仓储的情况,以数据仓储的元数据标准为标准进行描述和组织,才能最高效率的实现数据的最终存储。如Dryad数据仓储为数据的存储和获取等设计了以DC元数据为主的元数据方案,同时提供简便的元数据生成,为科学数据存储提供了便利。
4.2 通用科学数据管理软件平台
采用开源软件平台作为数据仓储乃至数据管理的基础,是图书馆开展科学数据仓储建设以及参与科学数据管理采用的较为普遍的方法。一种是采用作为机构库构建软件如DSpace和FedoraCommons等,英国爱丁堡大学数据共享中心采用了Dspace作为数据平台基础软件,美国约翰霍普金斯大学的Data Conservancy以及英国牛津大学的嵌入式机构数据管理服务(Embedding Institutional Data Curation Services In Research,EIDCSR)等则采用Fedora来构建共享平台。Dspace和Fedora采用DC元数据作为其元数据标准。另外一种则是采用专门用于科学数据管理的系统软件,如哈佛大学定量社会科学研究所(Institute for Quantitative Social Science,IQSS)与哈佛大学图书馆、档案馆、信息服务部门共同搭建的Dataverse、英国数据档案馆和挪威社会科学数据服务局共同开发的Nesstar等。Dataverse和Nesstar均采用DDI作为元数据标准,哈佛大学、麻省理工学院等高校图书馆采用Dataverse作为科学数据管理平台,而Dataverse自身具备针对科学数据发布、出版、存储和共享的元数据方案。
4.3 合作项目
针对科学数据的共享、交换、整合等需求,部分图书馆和科研机构开展了相关领域的合作项目,如新墨西哥大学图书馆主持的关注地球影像数据的地球数据观测网(Data Observation Network for Earth,DataONE)项目,约翰·霍普金斯大学图书馆主持围绕天文学、地球科学、生命科学和社会科学领域数据的保存、共享、发现和再利用项目Data Conservancy等。在合作项目中,元数据的设计与实施以项目的功能需求和建设目标为依据。DataONE是联盟式的科学数据网络,建立在多样化的数据仓储基础之上,旨在地球与生命科学数据的保存和共享,因此其元数据工作的主要内容在于不同数据仓储之间元数据记录的互操作以及保存元数据的设计与实施。DataONE通过系统元数据(system metadata)和特定编码系统的设计(Coordinating Nodes),实现对不同数据仓储之间的互操作和共享。同时DataONE以PREMIS为基础,以METS、开放归档初始计划的对象复用和交换(Open Archives Initiative's Object Reuse and Exchange,OAI-ORE)、BagIt文档封装格式等作为封装的参考,形成了DataONE的保存元数据方案。
Lyon、Lewis、Cox等学者研究了图书馆员开展科学数据管理的多重职责,认为元数据技能是图书馆员从事科学数据资源编目、数据馆藏建设等工作的基础技能。越来越多的图书馆开始设立科学数据馆员(data curation specialist/librarian),专门从事图书馆的科学数据管理相关工作,元数据知识与技能的掌握是该职业领域的必要技能。澳大利亚国家科学数据服务(Australian NationalData Service,ANDS)中心认为数据馆员的职责包括数据管理、元数据管理和数据利用,而元数据管理则包括元数据的生成与维护、元数据标准的建立和应用等。图书馆和图情教育领域针对科学数据管理职业需求开展了一系列的教育和培训项目,并开设了针对科学数据管理的元数据技能培训。2011年10月,CURATEcamp与数字图书馆联盟(Digital Library Federation,DLF)论坛共同开展了“编目员与编码员”的论坛,该论坛集合了元数据领域和关联数据领域的专家。
元数据在科学数据管理计划制定、数据仓储的设计与运作、科学数据的出版与共享等方面都承担着重要的职能,现有的图书馆科学数据管理中元数据应用呈现出覆盖范围广、应用深度不一的特征。从协助科学数据管理计划制定到数据管理平台和系统的开发、从科学数据的组织标准推荐到科学数据仓储的建设,图书馆的科学数据管理服务深入程度各不相同,但都提供了相应的元数据服务。图书馆在开展科学数据管理服务实践的过程中,随着工作内容的深入,其元数据实践也逐渐深入,从基本的元数据标准与元素推荐拓展到面向科学数据管理各流程的元数据整体方案的设计与实施。
从科学数据管理的未来发展看,科学数据的组织、存储和共享等方面的实践以及相应平台的建设都将成为图书馆在科学数据管理方面的重要发展方向,因此图书馆科学数据管理的元数据实践也应从其科学数据管理的整体设计和工作流程出发,进行适应性的选择与规划,为本机构科学数据管理工作的良好发展奠定基础,与此同时,应当充分考虑元数据相关技术如本体技术、关联数据技术等在科学数据元数据描述和组织方面的发展与应用,将适合科学数据组织和整体环境发展的技术进行结合应用,为图书馆开展深入科学数据管理服务提供技术保障。
[1]Corrall S.Roles and responsibilities:Libraries,librarians and data[J].Managing research data,2012:105-133.
[2]Gabridge T.The lastmile:Liaison roles in curating science and engineering research data[J].Research Library Issues:A Bimonthly Report from ARL,CNI,and SPARC,2009,265:15.
[3]Gray J,Liu D T,Nieto-Santisteban M,et al.Scientific datamanagement in the coming decade[J].ACM SIGMOD Record,2005,34(4):34-41.
[4]Anna Gold.Cyberinfrastructure,Data,and Libraries,Part 2:Libraries and the Data Challenge:Roles and Actions for Libraries[J].D-Lib Magazine,2007,13(9/10).
[5]Mayernik M S.Metadata tensions:A case study of library principles vs.everyday scientific data practices[J]. Proceedings of the American Society for Information Science and Technology,2010,47(1):1-2.
[6]Managing Research Data—from Goals to Reality[EB/ OL].[2014-08-22].http://oclc.org/content/dam/research/ events/2010/06-09dc.ppt.
[7]Digital Curation Interest Group[EB/OL].[2014-08-22]. http://www.ala.org/acrl/aboutacrl/directoryofleadership/int erestgroups/acr-igdc.
[8]Ten recommendation for libraries to get started with research datamanagement[EB/OL].[2014-08-23].http:// libereurope.eu/wp-content/uploads/The%20research% 20data%20group%202012%20v7%20final.pdf.
[9]Grants.gov Application Guide[EB/OL].[2014-07-03]. http://www.nsf.gov/pubs/policydocs/grantsgovguide0113.pdf.
[10]Data management planning for ESRC researchers[EB/ OL].[2014-07-02].http://ukdataservice.ac.uk/manage -data/plan/dmp-esrc.aspx.
[11]BBSRC-Specific Requirements[EB/OL].[2014-07-20]. http://je-s.rcuk.ac.uk/Handbook/pages/Guidanceon CompletingaStandardG/CaseforSupportandAttachments/ BBSRCSpecificRequirements.htm.
[12]Data Management Planning[EB/OL].[2014-07-20].http://www.ands.org.au/resource/data-management-planning. htm l.
[13]Khan H,Caruso B,Corson-Rikert J,et al.DataStaR:Using the semantic web approach for data curation[J]. International Journal of Digital Curation,2011,6(2):209-221.
[14]Steinhart G.DataStaR:an institutional approach to research data curation[J].IASSISTQuarterly,2007,31(3-4):34-39.
[15]Bermudez L,Piasecki M.Metadata community profiles for the semantic web[J].Geoinformatica,2006,10(2):159-176.
[16]Lowe B.Datastar:Bridging XML and OWL in science metadata management[M].//Metadata and Semantic Research.Springer Berlin Heidelberg,2009:141-150.
[17]张晓林.机构知识库的发展趋势与挑战[J].现代图书情报技术,2014,30(2):1-7.
[18]Dearborn C C,Barton A J,Harmeyer N A.The Purdue University Research Repository:HUBzero customization for dataset publication and digital preservation[J]. OCLC Systems&Services,2014,30(1):15-27.
[19]殷沈琴,张计龙,张莹,等.社会科学数据管理服务平台系统选型研究——以复旦大学社会科学数据平台为例[J].图书情报工作,2013,57(19):92-96.
[20]DataONE[EB/OL].[2014-07-19].http://www.dataone.org/.
[21]Data Conservancy[EB/OL].[2014-07-19].http://dataconservancy.org/.
[22]Michener W,Vieglais D,Vision T,et al.DataONE:Data Observation Network for Earth—Preserving data and enabling innovation in the biological and environmental sciences[J].D-Lib Magazine,2011,17(1/2):12.
[23]Gunia B,Sandusky R J.Designingmetadata for long‐term data preservation:DataONE case study[J].Proceedings of the American Society for Information Science and Technology,2010,47(1):1-2.
[24]Lyon L.The informatics transform:Re-engineering libraries for the data decade[J].International Journal of Digital Curation,2012,7(1):126-138.
[25]Lewis,M.Libraries and the management of research data[EB/OL].[2014-08-23].http://core.kmi.open.ac.uk /download/pdf/12441.pdf.
[26]Cox A,Verbaan E,Sen B.Upskilling liaison librarians for research datamanagement[J].Ariadne,2012,70.
[27][EB/OL].[2014-08-23].http://www.diglib.org/community/groups/digcuration/.
[28]Information specialists and data librarians[EB/OL].[2014-07-20].http://www.ands.org.au/guides/dmframe work/dmskills-information.html.
[29]Keralis SD C.Data curation education:A snapshot[J]. L.Jahnke,A.Asher,&SDC Keralis.The problem of data,2012:32-43.
[30]Welcome to CURATEcamp:Catalogers+Coders[EB/ OL].[2014-07-07].http://curatecamp.org/content/welcome-curatecamp-catalogers-coders.
Research on Metadata App lication Practices of Library Participating in Data Curation
M etadata is a prerequisite tool for library to participate in data curation services.In the base services of data curation,librarians select and recommend metadata standards and elements for researchers.Librarians design a complete set of plan ofmetadata for self-built data repository which aimed at serving data curation.Besides,metadata was applied w ith different depth to public data repositories,data curation system software,and cooperative projects.In addition,the library also attached great importance tometadata skills training of data librarians.
data curation;metadata;library application
G254
:A
:1003-6938(2014)05-0065-05
黄如花(1968-),女,武汉大学信息管理学院教授;邱春艳(1987-),女,武汉大学信息管理学院图书馆学博士研究生。
*本文系2014-2015年度中信所院校合作项目“数字信息资源的长期保存”之子课题“科学数据保存与共享的元数据复用研究”研究成果之一。
2014-08-28;责任编辑:刘全根