基于关联数据的图书馆、档案馆和博物馆数字资源整合研究

2012-04-29 04:10郑燃唐义戴艳清
图书与情报 2012年1期
关键词:档案馆博物馆图书馆

郑燃 唐义 戴艳清

摘 要:图书馆、档案馆和博物馆作为社会重要的公共文化基础设施,在公共文化服务体系中具有举足轻重的地位,如何对图书、档案和博物数字资源进行整合,为用户提供更深层次的、一体化的信息资源服务,成为近年来各国图书馆、档案馆和博物馆十分关注的课题。关联数据的出现极大地促进了数字资源整合的进程。文章简要介绍了关联数据的概念,探讨了关联数据在图书馆、档案馆和博物馆数字资源整合中的作用和发展现状,尝试着构建出基于关联数据的图书馆、档案馆和博物馆数字资源整合模式,并提出了应注意的问题。

关键词:关联数据 图书馆 档案馆 博物馆 数字资源整合

中图分类号: G250.73文献标识码: A 文章编号: 1003-6938(2012)01-0071-06

Digital Resources Convergence of Libraries, Archives and Museums Based on Linked Data Applications

Abstract Libraries, archives and museums as important public cultural infrastructures in the society play a decisive role in the public cultural service system. In recent years, libraries, archives and museums in the world focused on how to converge digital resources and provided users with a deeper level and the integration of information resources service. The emergence of linked data promoted the digital resources convergence process greatly. This paper pointed out the concept of linked data and discussed the application and development of linked data in the digital resources convergence of libraries, archives and museums. And also the paper tried to construct the digital resources convergence model of libraries, archives and museums based on linked data, and put forward issues that needed to pay more attention.

Keywords linked data; libraries; archives; museums; digital resources convergence

图书馆、档案馆和博物馆(Libraries,Archives,Museums,以下简称LAM)作为社会重要的公共文化基础设施,在公共文化服务体系中具有举足轻重的地位。随着我国经济的持续高速增长,社会物质财富迅速增加,人民群众对精神文化消费提出了越来越高的要求。LAM如何向社会公众提供丰富的文化信息资源,如何让社会公众方便快捷地获取这些资源,成为新的历史条件下这些公共文化服务机构必须面对的问题。

随着数字信息技术的发展和网络环境的形成,LAM等信息资源收藏系统,正在将大量馆藏转换为数字形态,通过网络为用户提供超越时空的服务。然而,这种各自为政的资源管理和分散多头的服务,不仅造成了数字资源的重复建设,而且阻碍了这些文化信息资源的有效利用和广泛共享。因此,如何创建一个整合图书、档案、博物数字资源内容的基础结构,在一个更加宽泛的框架内配置资源,提供用户所希望的深层次的、一体化的信息资源服务,成为近年来各国LAM十分关注的课题。

1 关联数据及其应用于LAM数字资源整合的意义

1.1 关联数据概述

关联数据这个术语是由“万维网之父”Tim Berners-Lee在其万维网体系架构笔记《关联数据》中于2006年首次提出。但对于什么是关联数据,学术界仍未达成一致。开放连接软件的创建者及CEO 金斯利·艾得恩对其定义为“关联数据是一种网络上的富链接机制,将超文本链接变为超数据链接,也就是由文件指向文件变为由数据指向数据”[1]。维基百科将其定义为“一种推荐用来在语义网中运用URI和RDF发布、分享、链接各类数据、信息和知识的最佳实践”[2]。简而言之,关联数据就是一种数据的发布方式,通过URI、HTTP协议和RDF等技术将一个个数据对象(而不是网络文档)连接起来,最终构建机器能够理解的异构化和富含语义的数据网络(web of data),以构建更智能的应用。关联数据须遵循四个原则:①使用URI作为任何事物的标识名称;②使用 HTTPURI使任何人都可以访问这些标识名称;③当有人访问某个标识名称时,提供有用的信息;④尽可能提供相关的URI,以使人们可以发现更多的事物[3]。

越来越多的机构青睐关联数据这种新的数据发布方式。大型媒体公司,如美国纽约时报,从2009年开始以关联开放数据发布权威的新闻词汇,到2010年已经上载了10,467个主题表目,其中4978个人物的主题表目[4]。CKAN关联数据中心的一个组是关联的开放数据LOD组, 云图中现含二百多个数据集[5]。 此外,CKAN关联数据中心还有46个其他的组,比如图书馆关联数据组(含38个数据集,大多数联接都是与非图书馆数据的联接)[6]、气象数据组(含58个数据集)[7]、能源数据组[8](含21个数据集)等。其中被频繁联结的主要的数据集有DBpedia、DBLP Bibliography、GeoNames、Riese、UMBEL、GeoSpecies Knowledge Base以及BBC Music等。政府利用关联数据技术也很积极,欧盟统计局的RIESE项目以“为了人和机器着想”为原则创建关联数据,将统计局的数据集映射为RDF格式,提供了大约3亿个RDF三元组,数百万个高质量的互链接[9]。图书馆主要利用关联数据发布资源、扩展资源发现服务、实现数据整合与语义检索服务、促进学术研究和学术交流、实现异构关联数据的开放与复用、实现图书馆与教学系统之间的集成等[10]。到2010年,图书馆的关联数据集已超过20个[11](见图1)。

1.2 关联数据在LAM数字资源整合中的发展现状

众所周知,图书馆行业有着无与伦比的“规范控制”实践经验和不断积累的数据优势,而且近几年国外图书馆界对关联数据的研究与应用十分的重视。2010 年 5 月 28 日,万维网协会W3C 宣布成立图书馆关联数据孵化小组(Library Linked Data Incubator Group),该小组的目标是通过汇集图书馆界内外参与语义网活动(重点在关联数据)的人、基于现有创新举措、确定未来的合作轨迹,帮助提高图书馆数据在互联网上的全球互操作。

图书馆关联数据孵化小组创始成员来自国家图书馆、大学图书馆及研究单位、图书馆供应商及其他感兴趣的利益相关人。其范围不仅限于图书馆,也有意包括其他文化遗产机构、出版业的合作伙伴及其他相关领域[12]。由此可以看到,LAM正在逐步参与到图书馆关联数据孵化小组的各项活动中,发挥着各自独特的作用。

2011年6月2~3日,在美国旧金山举办了国际图书馆、档案馆和博物馆关联开放数据峰会(The International Linked Open Data in Libraries,Archives,and Museums Summit)简称“LOD-LAM”[13]。超过85个团体参加了本次峰会[14]。LOD-LAM 峰会的宗旨是:“促进关联开放数据公布途径的实用性和可行性”。包括为公布有效的关联开放数据草案提供工具和技术支持,为有关LAM元数据的公布提供许可和版权的法律保障,以及发布定义并且推广,使用实例向LAM的工作人员提供工具,在机构中倡导开发关联数据的应用。在有关权利和开放数据的主题讨论时,专家们提出了一个“开放关联的文化元数据4星级分类计划”[15]:

★★★★ 公共领域(CC0 / ODC PDDL / Public Domain Mark)

★★★ 署名许可证 (CC-BY / ODC-BY) (当许可方考虑到满足归属要求的回溯连接时)(when the licensor considers link backs to meet the attribution requirement)

★★ 署名许可证 (CC-BY / ODC-BY)(其他形式的归属)( with another form of attribution)

★ 署名-相同方式分享许可证 (CC-BY-SA/ODC-ODBL)

在本次峰会上,与会的专家学者们围绕LOD-LAM这一主题,针对不同的问题展开了激烈的讨论,关注点主要集中在工具、用户、版权、词汇及其匹配、长期保存、标识符(生成、辨别、匹配、查重等)、数据来源和历史、界面设计、自动获取数据、出版、数据的再利用和重新定位、科学数据描述工具、机器学习加速匹配的过程、关联数据相关概念的历史、联接特殊数据库中的内容、普及和说服、改革档案的描述方式等方面。峰会虽然已经落下了帷幕,但有关LAM在关联数据方面的发展问题仍然备受瞩目,LOD-LAM主页上不断地有专家学者发表相关的博文,越来越多的LAM领域的专家学者开始关注该领域,关联数据在LAM的应用正在如火如荼地展开。

1.3 关联数据应用于LAM数字资源整合的意义

LAM都有极其丰富的数字资源,并且对其元数据都进行了规范化控制。但由于行政体制等方面的问题,LAM的元数据采用的标准、遵循的协议不太一致,这就导致LAM的数字资源不能实现整合,不能实现一站式检索,造成重复劳动和资源的利用率较低等问题。为了解决这些问题就要对LAM的数字资源进行整合。

对LAM的数字资源进行整合的第一步就是要对其元数据进行整合,都以关联数据的形式发布本机构的资源。若LAM都能以关联数据的形式发布本机构的资源,公众就可以通过网络检索到更多更丰富的资源。比如用户输入“鲁迅”进行检索,通过关联数据可以查到哪些图书馆收藏有鲁迅的书,哪些博物馆收藏有鲁迅的遗物,哪些档案馆收藏有鲁迅的相关档案资料。这不仅极大地提高了LAM资源的利用率,而且可以更大程度上满足社会公众的文化需求,提升全社会文化生活的品质。

2 基于关联数据的LAM数字资源整合模式探讨

要实现基于关联数据的LAM数字资源整合必须面临着一个重要挑战,即互操作和数据共享问题。如何将LAM分布结构的系统和资源有机的整合起来?如何向用户提供一个高效、统一的数据发现机制?这些问题需要通过利用OAI-PMH协议基于LAM原有的系统,集成LAM的元数据,构建一个基于关联数据并向用户提供统一的信息服务得到解决。关联数据把API(应用程序接口)统一为HTTP,经过简单的扩展比如通过Hash或Slash方式转发。运用关联数据对数据访问方式进行标准化,用户或是代理无需知道某具体关联数据发布网站的体系架构、存储方式等任何技术细节,只需要知道Web服务器地址,就能够直接用SPARQL进行访问[16]。

在采集LAM的元数据时会存在以下两个问题:①OAI-PMH协议规定可以使用 identifier 等参数限定采集范围,但是目前不支持用户自行设定采集参数,如按作者或语种采集,虽然这正是用户所需要的;②在一个OAI仓储中,每个Item(元数据条目)都有一个标识符,如oai:arXiv.org: quant-ph /9604021,但是这种标识符不是HTTP URI形式,是不能够直接通过它来采集相应的元数据的[17]。

因此,要利用关联数据实现LAM数字资源整合,首先需要实现OAI-PMH元数据的关联数据化,即将OAI仓储中的元数据转换为关联数据,以解决用户在按传统方式采集这些元数据时所遇到的问题。

2.1 OAI-PMH元数据的关联数据化

要实现OAI-PMH元数据的关联数据化,需要按照关联数据四原则的要求,来明确URI的分配方法、描述关联数据的元数据元素、关联规则和关联信息所使用的生成方法;选定合适的OAI仓储,利用baseURL采集元数据,并且把结果保存在本地元数据库;利用D2R等发布工具,将结果生成映射文件,根据上述过程,将本地元数据库中的数据转换为关联数据。

LAM可以通过上述原理将OAI-PMH元数据转换为关联数据,然后通过URI直接访问记录的元数据,同样可以按照 SPARQL 协议任意设定查询条件,从而实现对元数据的批量检索。但是需要注意的是LAM一定要建立各自的OAI仓储,其数字资源要有标准的元数据,这样才能拥有丰富的LOA-LAM,实现LAM元数据的关联数据化。

2.2 基于关联数据的LAM数字资源整合模式

在关联开放数据(LOD)项目的推动下,目前有超过130亿条传统网页上的数据,例如维基百科、地理数据集和政府数据集等,已经自动半自动地转换成了关联数据,构建了庞大的数据网络[18]。关联数据的出现使得LAM和其他组织机构之间进行数据的识别和交换越来越容易。越来越多的LAM对数据数字资源整合十分重视,并意识到有责任承担起创建LAM关联数据的任务。LAM需要储存相关的关联数据,来满足社会的需求。LAM之间,LAM和数据存储机构之间的合作将越来越紧密,LAM在发布关联数据方面发挥更大的作用。

欧洲数字图书馆(Europeana)是欧洲国家图书馆的数字资源门户[19],该网站提供了多国语言支持,以方便各地用户使用。欧盟委员会2010年11月18日发表公报说,欧洲数字图书馆中书籍、地图、绘画、照片、档案、电影和音乐等电子版藏品超过1400万件,这些藏品已向公众开放。Europeana非常重视门户的互操作性,采用了SKOS和其他一些元数据模式。其大多数资源来自欧盟27个成员国的1000多个图书馆和博物馆。它整合了LAM等组织机构电子版藏品的元数据。

LOA-LAM的不断丰富,为实现LAM数字资源的有效整合打开了便利之门,LAM可以根据关联数据的基本原理和关联数据驱动的Web应用框架,在不同的数据间通过URI建立关联。笔者尝试着构建出基于关联数据的LAM数字资源整合模式(见图3)。基于关联数据的LAM数字资源的整合模式从下往上可以分为数据发布层、数据关联层和数据集成应用层三个层次[20]。数据发布层是指来自LAM的信息资源,如书籍、档案、照片、地图、绘画、电影和音乐等。对应的LAM三个资源主体,可以将它们的数据按照“关联数据四原则”发布在网络上,使用户可以通过网络对三馆的资源进行浏览。但是在该框架下发布的各种LAM资源不同于传统的LAM资源发布形式,都是利用资源描述框架进行描述的。数据关联层是指由于LAM的资源内部可能存在特定的关联关系,如一部电影对应一家或若干家公司,一个人可以有多部著作等,将这些关系通过RDF链接联系起来,形成一个数据的网络,不同类型的资源通过关联数据建立链接。数据集成应用层指的是关联数据浏览、SPARQL检索等基于各种关联数据的网络应用。例如,欧洲数字图书馆目前正在开发数字资源门户的语义检索服务。这项服务通过将检索词匹配到地点、名字、题名和概念,为用户提供更有意义的检索结果。此外,Europeana Connect项目为了能够实现在对象之间建立语义链接,正在将语义层引入Europeana[21] 。

要实现基于关联数据的LAM数字资源整合模式既需要运用传统网络的URI(统一资源标识符)和HTTP(超文本传输协议)这两项技术,还要涉及一些语义网的技术,例如RDF、SPARQL和OWL等。

3 LAM在利用关联数据时需要注意的问题

对于LAM来说,关联数据最大的优点是对于来自不同数据源的同一个对象通过提供多个分布式异构数据源整合的关联访问,对其进行数据整合,将该对象的所有相关信息进行统一视图,然后再反馈给用户。目前的关联数据浏览器,用户可以在不同数据源之间进行浏览。但是在数据整合的基础上,运用适当的用户交互模式依旧十分困难。因此,LAM在利用浏览器和搜索引擎时,应对当前的用户交互模式进行优化,提供和互联网浏览器类似的前进和后退功能,使用户能在数据网络中自由的畅游,而且关联数据浏览器应当提供一个有效的机制允许用户增加或删除当前视图中的数据资源。

虽然关联数据应用前景良好,但也存在着很多问题。它最大的阻碍就是封闭。在封闭系统中,LAM基本无法利用关联数据对数字资源进行连接和整合。当前,LAM通过各种渠道(购买、租用或者开发)获得的大量资源库是需要通过访问接口才能获取的,如果这些资源库的接口都是不开放,关联数据也就会无计可施。在数据网络中,需要鼓励更多的数据提供者参与进来,并且保证数据的用户能够规范使用这些数据。目前,在LOD-LAM 项目中图书馆的关联数据集发展较快,但比较缺乏档案馆和博物馆的关联数据集。因此,有关LOD-LAM的研究就显得很有必要。LOD-LAM的开放许可标准需要全面考虑到各种不同类型的数据和平衡各方利益,既要为数据提供者发布关联数据提供便利,也要为他们带去一定的利益,同时还要遵循相关法律法规。

LOD-LAM是开放的,不断更新的,允许任何人在互联网上发布LOD-LAM。如果LOD-LAM源被修改或者删除,数据源之间的关联很可能发生断链现象,从而使得基于LOD-LAM的应用程序发生错误。因此,为了有效利用关联数据,必须保证URI的完整性、准确性和可靠性。LAM应用关联数据时,必须提供关联数据源的监控插件,以监测发生问题的关联,并有效帮助数据源发现和维护网络中数据源与数据源之间的关联。为了降低应用层对关联数据断链的处理,LAM应当保证关联数据源关联集成的高可用性,建立起有效的监测和修正机制,以维护关联数据的参照完整性和数据更新的同步性。

4 结语

关联数据为LAM提供了一种数字资源之间的关联和链接机制,有利于LAM中不同类型的数据、信息和知识的发现和共享。关联数据在数据层建立了富链接机制,较为完善地描述了数据的结构信息。由于关联数据运用了URI,保证了计算机能够自动链接各种数据,奠定了资源整合的智能化和自动化基础。LAM应该充分利用关联数据源中的关联关系,利用关联数据强大的连接功能,有序地组织、集成和关联本馆资源,进行资源内容的互联和深层展示,整合LAM中多种类型数字资源,为用户提供全方位、多层次的数字资源集成服务。在社会公众对文化信息需求越来越强烈、越来越广泛,在信息技术对社会发展的影响越来越深刻、越来越全面的时代背景下,LAM数字资源的整合是时代的要求、是历史的趋势。关联数据应时代而生,它必定会在LAM数字资源整合过程中发挥极其重要的作用。

参考文献:

[1]Idehen K.Creanting,Developing and Exploiting Linked Data[EB/OL].[2011-10-22]. http://virtuoso.openlinksw.com/presentations/Creanting_Developing_Exploiting_Link

ed_Data2/Creanting_Developing_Exploiting_Linked _Data2_TimBL_v3.html#%281%29.

[2]维基百科.LinkedData[EB/OL].[2011-10-22].http://en.wikipedia.org/wiki/Linked_Data.

[3]Berners-Lee T.Linked data[EB/OL].[2010-10-17].http://www.w3.org/DesignIssues/LinkedData.html.

[4]The New York Times.Linked Open Date[EB/OL].[2011-10-17].http://data.nytimes.com/.

[5]The Data Hub.LOD Cloud[EB/OL].[2011-10-17].http://ckan.net/group/lodcloud.

[6]The Data Hub.Library Linked Data[EB/OL].[2011-10-17].http://ckan.net/group/lld.

[7]The Data Hub.Climate Data[EB/OL].[2011-10-17].http://ckan.net/group/climatedata.

[8]The Data Hub.Energy Data[EB/OL].[2011-10-17].http://ckan.net/group/energy-data.

[9]娄秀明.用关联数据技术实现网络知识组织系统的研究[D].上海:华东师范大学,2010.

[10][21]黄永文.关联数据在图书馆中的应用研究综述[J].数字图书馆,2010,(5):6-7.

[11]Singer R.The Linked Library Data Cloud[EB/OL].[2011-10-17].http://code4lib.org/conference/2010/singer。

[12]W3C.W3CLibrary Linked Data Incubator Group[EB/OL].[2011-10-17].http://www.w3.org/2005/Incubator/lld/.

[13]LOD-LAM.Home[EB/OL].[2011-10-17]. http://lod-lam.net/summit/.

[14]LOD-LAM.Participants[EB/OL].[2011-10-17]. http://lod-lam.net/summit/participants/.

[15]MacKenzie S. Proposed: a 4-star classification-scheme for linked open cultural metadata[EB/OL].[2011-10-17].http://lod-lam.net/summit/2011/06/06/proposed-a-4-star-classification-scheme-for-linked-open-cultural

-metadata/.

[16]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011,(2):6-9.

[17]郭少友.OAI-PMH元数据的关联数据化方法研究[J].图书情报工作,2011,(1):107-108.

[18]潘有能,张悦.关联数据研究与应用进展[J].情报科学,2011,(1):124.

[19]Concordia C.Gradmann S.Siebinga S. Not (just) a Repository, nor (just) a Digital Library, nor(just) a Portal:A Portrait of European as an API[EB/OL].[2011-10-16].http://www.ifla.org/files/hq/papers/ifla75

/193-concordia-en.pdf.

[20]马费成等.基于关联数据的网络信息资源集成[J]. 情报杂志,2011,(2):168.

作者简介:郑燃,女,武汉大学信息管理学院图书馆学博士研究生;唐义,男,武汉大学信息管理学院硕士研究生;戴艳清,女,武汉大学信息管理学院博士研究生。

猜你喜欢
档案馆博物馆图书馆
博物馆
图书馆
全省部分档案馆新馆掠影
飞跃图书馆
露天博物馆
太仓市数字档案馆成为“全国示范数字档案馆”
when与while档案馆
去图书馆
博物馆
科隆档案馆突然坍塌