国外公共数字文化资源整合元数据互操作方式研究*

2015-12-03 08:27李金芮
图书与情报 2015年1期
关键词:资源整合标准数字

杨 蕾 李金芮

(1.武汉大学图书馆 湖北武汉 430072)

(2.暨南大学图书馆 广东广州 510632)

公共数字文化资源整合需要图书馆、博物馆、档案馆、文化馆、美术馆、科技馆等多个公共文化服务机构主体的共同参与,所整合的信息资源对象囊括了众多学科门类,数量极其巨大,类型特别繁多。主客体的复杂性必然导致公共数字文化整合中多种元数据标准并存、不同信息系统的互操作难以进行等问题。然而在网络环境下,用户更希望建立一个统一检索平台,“一站式”地获取各类公共文化服务机构的数字资源。纷繁复杂的元数据标准与公共数字文化资源需求接口单一性之间的冲突,使得元数据互操作问题的解决势在必行。本文将对国外典型项目的元数据互操作方式进行调查分析,探讨国外在元数据互操作方面所采取的多元化策略,从而为我国提供某些借鉴与参考。

1 研究内容与数据来源

元数据的互操作是指在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,要向用户提供一个统一的数据检索界面,确保系统对用户的一致性服务。也就是说,元数据互操作问题就是不同元数据格式间的信息共享、转换和跨系统检索等相关问题。元数据的互操作是分层次的,因此互操作问题也必须分层次解决。曾蕾提出的三级(模式级、记录级、仓储级)互操作框架(见表1)是本次调查的主要依据。该框架在时间上涵盖了元数据从标准构建、记录产生到检索应用的全过程,又兼顾了信息资源描述从元素、记录到框架模式的不同深度,其归纳的每个级别的主要操作方式基本体现了目前元数据互操作的发展现状。

本文选取了世界数字图书馆(WorldDigitalLibrary,WDL)、国际敦煌项目(International Dunhuang Project,IDP)、欧洲数字图书馆(Europeana)、欧洲Michael Culture项目、美国记忆(American Memory,AM)、美国公共数字图书馆(Digital Public Library of America,DPLA)、英国聚宝盆(Cornucopia)、日本国会图书馆等八个国外公共数字文化资源整合的典型项目,通过登录各项目网站并查阅与其信息资源建设相关的文献,对各项目的元数据互操作方式进行了调查。调查显示,目前国外公共数字文化整合项目所采用的互操作方式主要包括:采用统一的元数据标准、应用规范、映射等模式级互操作方式,数据复用与集成等记录级互操作方式,协议、API等仓储级互操作方式。

表1 元数据的三级互操作框架

2 模式级元数据互操作

2.1 建立统一的元数据标准

采用统一的元数据标准是指在一个联盟内或一个知识库内采用统一的元数据标准,以获得高度的一致性。理论上讲,这是一种从根本上解决元数据互操作问题的方法。虽然曾蕾的元数据三级互操作框架中并没有提到“采用统一的元数据标准”这一方式,但是因为这一方式也被一些资源整合项目所采用,且该方式也发生在数据记录被创造出来之前,故笔者把这一方式也归为模式级的互操作方式。

世界数字图书馆(WDL)一个杰出的贡献便是在项目规划之初就逐步建立了一套一致的、高质量的元数据标准,对来自全球的资源重新进行统一描述和编目,确保了各合作伙伴在资源组织过程中的一致性。WDL委托美国国会图书馆协同其他成员机构确定元数据、数字化和文件传输标准,设计人员开发了一个支持元数据需求的新的编目应用程序。WDL的数字内容采用杜威十进分类法进行分类,按照主题进行组织。成员机构按照通用的国家或国际编目系统的规则制作元数据,最后由WDL进行统一的补充。每一个条目固定的元数据包括标题、描述、地点、时间、主题、条目类型、机构及语言等,附加字段提供了条目的物理特性或其他相关主题信息。在WDL多项元数据元素中,令人印象最深刻的一条是对每一项的“描述”,它回答了“这一项是什么和它为什么意义重大”的问题,由馆长和其他专家共同撰写的这些内容为用户提供了至关重要的参考信息,这些是为激发学生和广大公众对了解所有国家文化遗产的好奇心而设计的。

英国MLA的聚宝盆项目也采用了一个统一的元数据标准——RSLP资源集合描述标准(RSLP Collection Description)。RSLP资源集合描述项目是英国研究支持图书馆计划(Research Support Libraries Programme,RSLP)资助的一个项目,目标是使得RSLP资助的所有项目能够以一种一致且机器可读的方式描述资源集合。根据项目组提出的资源集合描述模型,聚宝盆的数字资源均由三个元素区构成元数据标准进行描述,即资源集合(Collection),资源集合位置(Location)以及与资源集合的收集、管理等相关的个人和机构(Agent),每个元素区内包含若干个元素。

对于目前能提供的数字化作品和影音文件分别仅为10244件与6000多件的WDL和聚宝盆而言,采用统一的元数据标准是从根本上解决元数据互操作问题的方法,这一方法在不用耗费过多人力物力的前提下,有效地确保了各合作伙伴在资源组织过程中的一致性。但是在不同应用领域和应用层次已存在多达40余种元数据格式的开放信息环境下,对于资源整合量达数以亿计的其他资源整合项目而言,这种方法并不总是可行或现实的。很多公共文化服务机构的数字资源已经采用了不同的元数据描述方式,在对其进行整合的过程中若采取一种统一的元数据标准,将不利于充分利用合作机构已有资源,从而耗费巨大的人力、物力和财力。需要整合的资源数量越大,无谓的支出就会越多,这会使经费本来就很有限的公共数字文化资源整合项目难以正常运行。这种情况下,就有必要寻求其他的元数据互操作方式来解决问题了。

2.2 应用规范

元数据应用规范(Application Profiles)是一种元数据标准规范的应用形式,也可以看成是一种规范的元数据方案。允许在应用中采用组合来自多个不同的元数据标准中的数据元素,并对“混合型”元数据方案从内容和形式上进行规范,保证具有相似的基本结构和通用元素。

欧洲Michael Culture项目以都柏林核心集(DC)作为数字资源描述与保存的基本格式,在这个基本格式的基础上通过组合Michael项目自建元数据、RSLP资源集合描述等元数据格式,建立专门的Michael-EU都柏林核心应用规范(MICHAEL-EU Dublin Core Application Profile,MICHAEL-EU DCAP)。MICHAEL-EU DCAP 由 28个要素构成,其中11个来自DC,6个来自DC Terms,9个来自Michael项目,2个来自RSLP(各要素与源元数据格式的对应关系如表2所示)。这种应用规范的建立确保了Michael Culture项目的元数据格式具有相似的基本结构和共同元素,并具有不同的深度和细节以满足不同的需要。

美国公共数字图书馆(DPLA)在Europeana数据模型(Europeana Data Model,EDM)的基础上建立了新的数据模型DPLA元数据应用规范(Metadata Application Profile,MAP),该应用规范除了拥有EDM特定的类与属性之外,还组合了以下元数据格式的定义:RDF(ResourceDescription Framework,资源描述框架)和 RDF Schema,ORE,DC 元素的名称空间、条目和类型,基本地理(WGS84纬度/经度)词汇(DPLA MAP的基本数据模型见图1)。

2.3 映射

元数据映射(Metadata Mapping/Metadata Crosswalks)又称元数据对照,是从一个元数据格式的元素、语义和语法到另一种元数据格式的元素、语义和语法的映射,通过一对一、多对一及多对多等多种方式映射,以解决语义互换及统一检索问题。相较于其他互操作方式,元数据映射在项目创建的初始阶段应用,可以从根本上提高互操作的范围,且采用这一方式的简易程度高于采用统一的元数据标准这一方式,因此被公共数字文化资源整合项目广泛采用。

表2 MICHAEL-EU DCAP元数据与源元数据的对应关系

几乎所有的资源整合项目均结合实际需求,采用了元数据映射方式解决互操作问题。如Europeana将自建的元数据标准Europeana Data Model(EDM)与美术馆、图书馆、档案馆和博物馆等不同类型文化机构常用的元数据标准如 DC,MARC,EAD(Encoded Archival Description,档案编码描述格式标准),CIDOC-CRM(CIDOC Conceptual Reference Model,国际文献工作委员会概念参考模型)和LIDO等均建立了映射关系,以与来自不同机构的原始文献建立关系,并满足数字资源采集、检索和使用的需求。

欧洲Michael Culture项目为了实现模式级的互操作,也在自建的Michael数据模型与其他常用的元数据标准如 LOM(Learning Object Metadata,学习对象元数据),DC,ISAD之间实现了映射,建立映射关系的还包括由参与机构采用的其他元数据标准,如TEL、KB等。这些Michael映射关系被用于创造迁移工具以将其他机构的现有内容导入Michael数据库,从而最小化文化机构需要进行的人工输入,并且建立尽可能多的现有注释。

美国公共数字图书馆(DPLA)在EDM基础上建立的新的数据模型DPLA MAP(见图1)几乎可以与任何元数据标准相连接。 目前,MAP已经与 DC、MODS、METS-wrapped MODS、MARC XML以及一些本地元数据规范建立了映射关系,并且能与VRA Core(Visual Resources Association Core,美国可视资料协会核心类目),CDWA(Categories For The Description Of Works Of Art,艺术作品描述目录)以及CIDOC等其他元数据标准和应用规范兼容。另外,如果一个元数据标准已与EDM建立了映射关系,那么它也能映射到 DPLA MAP。

图1 DPLA MAP的基本数据模型[12]

国际敦煌项目(IDP)提取了一套标准的基层元数据,与国际标准保持一致,并与它们建立了映射关系。例如,IDP映射了DC所定义的十五个基础的核心元素(题名、创建者、主题、说明、出版者、其他责任者、日期、类型、格式、识别字、来源、语种、关系、覆盖范围和许可证)。

元数据映射转换准确、转换效率高,是一种比较有效的元数据互操作方式,但同时也有其局限性:一是元素之间无法做到避免完全映射带来的信息丢失问题;二是这种映射方法在涉及的元数据格式数量较少时可以很好地发挥作用,但随着元数据格式数量的增多,映射的工作量将大大增加,应用效率从而明显降低。因此,元数据格式映射只能作为元数据互操作的暂时解决方案,而无法彻底解决元数据互操作问题。

3 记录级元数据互操作

公共数字文化资源整合项目通常是对已采用不同元数据描述标准的多种公共文化服务机构的数字资源进行整合,在项目建设过程中,很多元数据记录已经产生,映射等模式级互操作方式无法有效满足已赋值的元数据互操作需求,这就需要借助复用、集成等方式,实现各机构的元数据记录间的整合。复用与集成方式遵循元数据组织模块化原则,一条元数据记录的各个组成部分可以被当作不同的独立单元,按需要将不同元数据源的这些单元组合在一起,或重新应用这些单元来产生新的记录。在模块化的元数据环境中,各种标准、词表、应用规范和其他模块中的不同类型的元数据元素,都可以按互操作的方式组合在一起。

公共数字文化资源整合项目实现复用与集成的方式以RDF/XML为主。RDF是W3C提出的基于XML的用于描述Web资源的标准,它提出了一个简单的模型用来表示任意类型的数据,即“资源—属性—值”三元组。RDF通过这个三元组来提供元数据的基本使用模式,并通过XML Namespace机制引用已有的元数据格式中的元素定义,从而直接使用合适的元素作为属性名来描述相应的资源。因此,只要有一个系统能解析RDF的标准描述框架,就能解读相应的元数据格式。

Michael Culture项目采用的SKOS(Simple Knowledge Organization System,简单知识组织系统)核心词汇应用了RDF模型。RDF为描述对象及其属性、相互关系及分类(类目)提供了一个简单的数据形式。使用RDF能使数据通过语义网络应用程序和其他RDF数据连接和(或)合并。在实践中,这意味着数据源能够以分散的方式分布在网络中,但仍能被应用程序以新颖和意料之外的方式有效地组合并集成。

Europeana的数据模型 EDM综合应用了多种元数据标准,如将 OAI-ORE(Open Archives Initiative Object Reuse and Exchange,开放档案协议数据复用与交换)用于不同数字对象及其衍生形式组织管理,将DC用于描述,将SKOS用于概念词汇的选择与表述(见图2)。应用RDF可以灵活调用上述元数据标准集成与复用,而且可以保存元数据并支持互操作。此外,为了适应语义网的发展,Europeana将其数字资源的相关数据都采用OpenLink Virtuoso或4Store等RDF存储方式,其目的是为了方便在语义环境中,Europeana的元数据可以通过关联数据有效揭示,提高资源可用性。

4 仓储级元数据互操作

4.1 互操作协议

公共数字文化资源整合项目通常由多个机构合作完成,整合的数字资源多为分布式存储,且存在由于规划导致的异构状态。此时跨库检索面临的一个主要问题是检索结果无法以系统一致的格式显示,同时分布式独立元数据资源还存在另一个问题,即每一个元数据源的提供者都可能各自使用不同的元数据标准来建立数据记录。解决这种问题可以通过定义一个公认的、彼此遵循的检索协议开展仓储级的元数据互操作。此协议应该满足以下基本条件:本身具备互操作性;允许用户在协议范围内建立满足自己特殊需要的元数据格式;具有可操作性,简单、灵活且易于遵循。

支持元数据互操作的协议有很多种,如OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting,开放档案元数据收割协议)、Z39.50、ZING(SRU/SRW)等,公共数字文化资源整合项目根据建设的需求可选择应用。Europeana同时支持 OAI-PMH、Z39.50、SRU三种协议,其统计显示:超过70%的馆藏支持OAI-PMH协议,27%的馆藏支持Z39.50协议,3%的馆藏支持SRU协议。日本国立国会图书馆根据SRU/SRW、Open-Search等协议,能够对122个数据库进行跨库检索。

OAI-PMH协议在被调查的公共数字文化资源整合项目中使用率最高,而且功能完善。OAI-PMH协议是一个在分布式网络化环境中获取元数据信息的标准协议,它通过定义一个标准化的接口,使网络服务器能够将存储其中的元数据有选择地提供给需要这些数据的外部应用程序或其他服务器。

美国记忆(American Memory,AM)利用OAI-PMH协议不仅实现了参建机构的元数据互操作及采集整合,并以此为途径将其资源开放给其他相关项目使用。AM首先将来源于AM、全球门户(Global Gateway)、印刷品及图片部在线目录(Prints&Photographs Division Online Catalog)、美国编年史(Chronicling America)和其他参建机构的元数据进行采集整合;然后针对不同类型文献的元数据分别进行聚类,大致分为图书、手册、地图、海报、影片、音频、期刊等十类;再根据各类别的具体情况,分层次提供基于OAI-PMH协议的开放采集,其中照片类的元数据集最多,共有27个数据库可供采集,图书可采集数据库有11个,大多数类别中仅有一个数据库开放。此外,为了满足用户对不同格式元数据的需求,AM提供了OAI-DC、MARC21和MODS三种格式的元数据便于采集,并且还提供一些遵守OAI-PMH协议的、预先编制的元数据采集请求码供有需要的机构参考(见图3)。

图2 EDM的RDF构成及来源

4.2 API

公共文化服务机构为了支持远程和平台调用自身资源,还可以通过提供本机构的API来实现元数据记录的互操作。 API(Application Program Interface,应用程序接口)功能是将系统原有的登陆方式、数据的检索与浏览、数据管理与更新等操作及参数按照某种协议进行封装,外部程序就可以按照封装后的调用方式通过API实现与系统的数据交互。

日本国立国会图书馆为了满足其它系统对NDL Search资源和服务的调用,提供了遵循Z39.50协议的API。 外部机构在安装 NDL Search的 API后可以将国立国会图书馆的数据导入并与本机构的数据进行整合,从而提供更高质量的服务。欧洲数字图书馆也提供了Europeana API,允许任何人通过建立应用程序来搜寻和检索Europeana仓储中丰富的文化遗产对象。Europeana API使用REST标准技术来调用HTTP,并以JSON格式返回响应结果。Michael Culture的发布模块也包括了一个基于REST标准技术的API,使用简单的HTTP请求和XML响应来搜寻和检索记录。用户可以通过以下三个简要的步骤使用DPLA提供的API:①从DPLA申请一个API秘钥;②启动浏览器并在地址栏中输入请求;③读取响应。

利用API开展元数据互操作的优势在于:API是对操作及操作参数和功能调用的封装,与内容无关;服务提供方通过调用API进行解析和链接而获取资源与服务,不必再根据内容的变化而不停地维护资源链接,从而大大降低了工作负担。

除了以上常用的元数据互操作方式外,有的项目还应用了一些其他的互操作方式,如衍生(Michael Culture项目的数据模型就是由RSLP资源描述框架和DC元数据资源描述协议衍生而来)、注册(如Europeana的元数据注册系统Europeana Metadata Registry,EuMDR)、关联数据(如Europeana Linked Open Data)等。值得指出的是,目前国外公共数字文化资源整合项目所采用的互操作方式不仅仅局限于某一种方式,而是在模式级、记录级和仓储级各层级综合应用多种方式实现或促进元数据的互操作。

5 启示

长期以来,我国图书、档案、博物等资源在分类标准、著录规则和描述习惯上存在巨大差别,不同系统间的互操作常常难以进行。从目前的实践看,我国公共数字文化资源整合的成功案例本来就很少,其中能真正实现元数据互操作的项目则更是凤毛麟角。在这种形势下,借鉴国外在元数据互操作中积累的经验显得更为迫切。根据国外各项目的成功经验,我国可以从以下几个方面着手改进元数据互操作问题:

(1)将元数据互操作纳入项目建设规划。通过调查发现,国外项目开展的模式级互操作方式是最多的。这是因为在项目建设初期,开展模式级互操作的方式越及时、越多样,工作量和工作难度相对越小。所以,在我国公共数字文化资源整合项目建设过程中,应在项目规划阶段就考虑元数据互操作问题。首先应调查了解相似项目和相关资源,选择或构建一种适合当前资源环境的元数据描述方式,避免项目建成后再去弥补和修正。

(2)构建统一的元数据模型。公共数字文化资源整合项目的参建机构性质多样,所采取的元数据标准存在很大差异。即使机构的性质相同,由于自身一些固有的特点,所采用的标准也不尽相同,如图书馆通常采用MARC,档案馆采用EAD,而有的博物馆则采用DC。在这种情况下,建立一个统一的元数据模型十分必要。

图3 AM提供的基于简单DC格式的OAI请求内容(部分)

(3)推进多种技术在元数据互操作中的综合应用。从国外的实践可知,以某种单一的方式彻底解决元数据互操作问题是不大现实的。我国公共数字文化资源整合项目采用的元数据互操作方式主要集中在映射和协议等方面,单一的方式会直接影响到互操作的广度和深度,所以丰富元数据互操作方式是目前我国公共数字文化资源整合项目面临的主要问题。综合采用映射、应用规范、RDF/XML、协议、API等多种方式促进或实现模式级、记录级、仓储级各级别的元数据互操作尤为重要。

[1] 陈虹涛,李志俊.元数据的标准规范及其互操作性[J].情报杂志,2005 (7):93-95.

[2] Chan L M,Zeng M L.Metadata Interoperability and Standardization-A Study of Methodology Part I[EB/OL].[2014-05-02].http://dlib.org/dlib/june06/chan/06chan.html.

[3] Zeng M L,Chan L M.Metadata interoperability and standardization-A study of methodology,Part II[EB/OL].[2014-05-02].http://mirror.dlib.org/dlib/june06/zeng/06 zeng.html.

[4] 申晓娟,高红.从元数据映射出发谈元数据互操作问题[J].国家图书馆学刊,2006(4): 51-55.

[5] WDL.关于世界数字图书馆:背景[EB/OL].[2014-05-02].http://www.wdl.org/zh/background/.

[6] 张卫东,赵红颖,李洋.欧美图书档案数字化融合服务实践及启示[J].图书情报工作,2013(6): 23-27,22.

[7] About Cornucopia[EB/OL].[2014-05-02].http://www.co rnucopia.org.uk/html/about.

[8] RSLP Collection Description[EB/OL].[2014-05-02].http://www.ukoln.ac.uk/metadata/rslp/.

[9] 秦雪平.图书馆档案馆与博物馆数字资源整合研究——以世界数字图书馆为例[J].情报探索,2013(1):69-72.

[10] 韩夏,李秉严.元数据的互操作研究[J].情报科学,2004(7): 812-814.

[11] MICHAEL-EU Dublin Core Application Profile[EB/OL].[2014-05-04].http://www.ukoln.ac.uk/metadata/micha el/michael-eu/dcap/#DigitalCollectiondctermsextent.

[12] DPLA.Metadata Application Profile,Version 3 [EB/OL].[2014-05-04].http://dp.la/info/wp-content/uploads/2013/04/DPLAMetadataApplicationProfileV3.pdf.

[13] Europeana Professional.Metadata [EB/OL].[2014-05-06].http://www.pro.europeana.eu/web/guest/metadata.

[14] Christaki A,Tzouvaras V,Fresa A,et al.Achieving Interoperability in the MichaelPlus Project[EB/OL].[2014-05-06].http://www.delos.info/files/pdf/DELOS%20Multimatch%202007/Papers/8tzouvaras.pdf.

[15] DPLA.An introduction to the DPLA metadata model[EB/OL].[2014-05-06].http://dp.la/info/wp-content/uploads/2014/03/Intro-to-DPLA-metadata-model-2014.pdf.

[16] IDP.技术基础构造[EB/OL].[2014-05-08].http://idp.dha.ac.cn/pages/technical_infra.a4d#5.

[17] Europeana Professional.Definition of the Europeana Data Model elements[EB/OL].[2014-05-08].http://pro.europeana.eu/documents/866205/13001/EDM_v5.2.2.pdf.

[18] Haslhofer B,Momeni Roochi E,Schandl B,et al.Europeana rdf store report[EB/OL].[2014-05-08].http://eprints.cs.univie.ac.at/2833/1/europeana_ts_report.pdf.

[19] 孔庆杰,宋丹辉.元数据互操作问题技术解决方案研究[J].情报科学,2007 (5): 754-758.

[20] Freire N,Reis D.Guidelines for preparing a Z39.50/SRU target to enable metadata harvesting [EB/OL].[2014-05-10].http://cyberdoc.univ-lemans.fr/PUB/Cf U/Journee_UNIMARC_Lyon/TELplus-D2.3_v1.0%5B1%5D.pdf.

[21] 陈瑜,尹铭莉.日本国立国会图书馆新检索服务“NDL Search”介绍及分析[J].图书馆杂志,2013(5):81-84.

[22] McCallum S H.Library of Congress metadata landscape[J].Zeitschrift für Bibliothekswesen und Bibliographie,2003,50(4): 182-187.

[23] The Library of Congress.OAI-harvestable records for digitized historical collections[EB/OL].[2014-05-20].http://memory.loc.gov/ammem/oamh/index.html.

[24] Europeana.IntroductionofEuropeanaAPI[EB/OL].[2014-05-20].http://www.europeana.eu/.

[25] DPLA.API Basics[EB/OL].[2014-05-20].http://dp.la.

[26] 宋琳琳,李海涛.大型文献数字化项目元数据互操作调查与启示[J].中国图书馆学报,2012(9): 27-37.

猜你喜欢
资源整合标准数字
最新出版团体标准
基于MDX数据库的译者参考资源整合对翻译工具能力培养的意义
少先队活动与校外资源整合的实践与探索
答数字
永远幸福
党员标准是什么?
京津冀一体化视角下河北省大数据产业发展现状分析
基于SOA的在线学习资源集成模式的研究
数字看G20
成双成对