基于非技术途径的元数据互操作研究究*

2010-03-22 11:11
图书情报研究 2010年3期
关键词:互操作性数据格式标准规范

赵 仁 铃

(南京大学信息管理系 南京 210093)

基于非技术途径的元数据互操作研究究*

赵 仁 铃

(南京大学信息管理系 南京 210093)

在数字图书馆建设的过程中,出现了多种元数据格式,元数据之间的互操作问题日益突出。本文从制度及规范等非技术途径的视角,分析元数据互操作的解决方案。

元数据 互操作 规范

在数字图书馆建设的过程中,出现了不少分布式的、基于多种编码体系的、基于不同元数据规范的数字资源应用系统,这对给用户提供统一的信息资源服务造成了一定的困难。为消除数字资源结构化的差异,给用户提供全面、准确而又便捷的信息检索服务,需要实现数字资源系统之间的互操作,进而达到数字资源的共建共享与统一服务。从互操作实现的层面来看,可以从用户发送检索请求的层面来实现,也可以通过OAI协议等建立通用的资源库来解决。然而,对于大量尚未数字化的资源来说,实现互操作最基本的途径应该在元数据层面。元数据互操作涉及到制度以及元数据规范等方面,元数据规范的标准化是实现全球信息资源共享的基础和保障。

1 元数据

元数据(metadata)即关于数据的数据,具有描述、揭示、管理、控制、认证、保存、互操作等功能。人们在信息资源开发、利用、管理、保存等不同阶段创建了不同功能与作用的元数据,可以从不同的角度对这些功能、作用各异的元数据进行分类。在图书情报领域通常把元数据分为描述性元数据、结构元数据、管理元数据、保存元数据等[1],而不同类型的元数据对于互操作的影响是不同的。

1.1 描述性元数据

用于描述信息资源的外部与内容特征,以便对信息资源进行有效的检索、定位或书目控制,如MARC、DC、METS等。

1.2 结构元数据

用于确定元数据的语法结构或者信息单元之间的逻辑联系,如HTML、XML等置标语言。

1.3 管理元数据

用于对信息资源实施管理,描述信息资源管理过程中所涉及的管理信息以及由管理信息进一步揭示的管理政策与管理机制,如与信息资源的评估、选择、使用权限、加工等有关联的信息与相关机制。

1.4 保存元数据

以保存资源对象为开发目的,特别注重与资源对象长期保存有关的属性。

其中与互操作关系最密切的元数据是直接描述资源对象固有属性的描述性元数据。开发及应用描述元数据时,遵循标准化、规范化、开放性的原则,可以增进信息系统的互操作性与开放性,通过共享元数据,进而共享元数据所描述的信息资源。

2 非技术途径元数据互操作方案

目前已提出的元数据互操作途径大概有下列几种:①开发一种能够满足各方面需要的统一的标准元数据格式;②建立元数据格式间的映射机制;③采用统一的语法和结构实现元数据格式的开放描述,例如基于XML/RDF、METS的描述;④基于协议的元数据开放搜寻技术,如OAI、Z39.50协议;⑤基于由内核和功能传播层组成的复合数字对象技术[2];⑥基于网格技术[3]、本体技术[4]实现互操作。

其中前三种方法是和元数据本身直接相关的,后三种方法仅涉及到信息系统中元数据以外的相关层次,且部分技术尚未成熟。由于本文探讨的是与元数据直接相关的,基于非技术途径的元数据互操作解决方案,所以仅对前三种方法予以讨论。

在各种信息资源和应用环境之间存在复杂差异的现实环境下,第一种方式不可能真正适应变化多样的应用;第二种方法虽然能充分利用现有的多种元数据格式,但面对日益增加的元数据格式和丰富多样的元素语义,它的实现成本很高且转换准确性难以保证;第三种方法只是从结构和编码方式上保证各种元数据格式有统一的表达方式,却不能真正实现面向用户的一致性服务。

根据上述情况,可以将传统书目工作中的书目规范、书目控制概念引入数字资源元数据方案并加以适当拓展,从制度以及元数据规范等非技术层面进行控制,为元数据互操作提供便利[5]。具体可以从以下三方面实现:

2.1 制定具有普适意义的“元数据规范”以规范元数据的开发工作

国际标准化组织制定的《数据元素的规范化和标准化》(ISO11179标准)对元数据的元素定义提出了规范和控制,为元数据的开放式定义奠定了基础。而国际图联在《国际标准书目著录》(ISBDs)的研发工程中,为更好地适应复杂的应用需求,采用了先研制总则再研制分则,逐步建立起完整、规范的开发体系的办法。而我国“数字图书馆标准规范建设”(CDLS)项目也提出了以《基本数字对象描述元数据规范》中的元素为核心集,向各个具体应用领域扩展,从而形成专门领域的元数据标准的元数据规范。关于如何制定具有普适意义的“元数据规范”,文章第三部分将会详细展开,此处不再赘述。

2.2 建立元数据共建共享的重要机制——元数据开放登记机制(Open Registry)

开放登记就是建立一个公开的网站,提供各种元数据格式的权威定义和用法等信息,其它用户可以申请注册新的元数据格式、增加或修改元素的定义、注册新的规范词表及编码方案等,逐渐使元数据格式更加规范和成熟,并且提供元数据格式、元素、修饰词的检索机制[6]。各使用单位可根据本地需要增减、组合元素和修饰词,调整元素的定义和用法,从而制定出本地的元数据应用方案。这样不仅避免了从头开发元数据方案的重复劳动,而且由于大家的应用方案都基于相同的元数据规范,因此非常有利于元数据的互操作。目前已经建立的著名的开放登记机制有DC Registry、DESIRE MetadataRegistry和 Schemas Registry等。

2.3 鼓励元数据复用(Metadata Reuse)

当进行一个新系统的元数据设计时,关键不是重新创建元数据标准,而是怎样从现有的元数据标准中发现和选择合适的元素形成自己的应用规范(Application Profile)[7],即元数据复用——通过不同方法复用一个或若干元数据格式的部分元素或修饰词,形成一个元数据应用规范,以便描述复杂对象、扩展元数据格式适用范围、兼容不同元数据、促进元数据的互操作。

3 元数据规范

3.1 何为规范

规范,即对于某一工程作业或者行为进行定性的信息规定。之所以被称为规范,主要是因为无法精准定量的形成标准。良好的元数据规范是成功建设数字资源的重要前提,其应包括格式定义、语义定义、开放标记规范、内容编码体系、扩展规则、与现有主要元数据规范的转换关系和转换模板、元数据登记管理机制等。

关于标准规范制定的环境,国内外不同标准组织之间存在一定的差别。ISO等传统标准组织一般遵循相同的标准制定流程,各个阶段有严格的时间期限,标准制订周期相对比较长,更新速度比较慢,进程管理比较严格。自由结合标准组织(如OASIS、DCMI)标准规范制订流程相对比较宽松,更新速度比较快。而我国标准规范的制定具有明显的“政府主导”特色,一般由标准主管部门或行政主管部门提出,企业参与较少,标准化协会或其他相关学术团体一般隶属于政府机构。在政府职能和企业地位已经发生重大变化的今天,我国需要借鉴国外标准组织的先进经验,形成标准规范的开放建设机制,通过合作避免重复建设[8]。

3.2 为何规范

在对数字资源研究的过程中,我们不能只重点研究技术、资源数字化以及服务模式,而更应该关注与数字资源建设有密切关系的标准规范问题。如果标准规范不统一,数字资源将很难实现共建共享。标准化问题是数字资源建设的关键问题之一,而元数据规范又是标准化问题的核心。目前,无论是国外还是国内,元数据并没有统一的标准属性,没有规范的著录格式,它的形式非常灵活,范围很广,因而在标准化方面存在着很多问题[9]。

首先,各数字图书馆及其它信息提供单位遵循不同的元数据标准,依据不同的标准对相同类型的资料进行元数据提取和著录,如DC、MARC等。不同的领域也有不同的元数据标准,如档案领域的EAD、地理空间信息的DGM等。

其次,某些元数据规范中同一元素的著录内容上存在着较大差异,在有些元素之间存在着语义交叉与涵盖的情况。这样的情形不仅会引起互操作的困难,也会引起本身元数据著录前后的不一致性,影响元数据描述的质量。

第三,不同的使用者在著录阶段对元素修饰词的理解还有些出入,对于修饰词的取值范围也有所不同。

另外,各个元数据所采用的编码语言也不尽相同。如EAD等使用SGML,DC使用HTML或者XML。

而要在元数据的层面解决这些问题,需要在元数据规范的制定阶段就充分考虑到其互操作性。

3.3 如何规范

国内元数据的研究与应用应避免从头开始设计自己专用元数据格式的做法,而要遵循标准、开放和可扩展的原则,充分引进并利用一些成熟规范的编码体系,并将其中的元素有机地加以组合,从而形成适应具体需求与中文资源特点的应用规范,提高互操作性。所谓元数据的互操作性,是指在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,要向用户提供一个统一的数据检索界面,确保系统对用户的一致性服务。从互操作性的角度考虑,制定元数据规范时有如下原则:

第一,互操作性原则:元数据方案的立足点常常就是解决互操作问题,许多原则实际上都是从一个侧面或从一定程度上解决互操作问题,所以“互操作性”原则可以说是元数据方案设计和实现中需要遵循的最重要的原则之一[10]。

第二,遵循标准原则:通过符合元数据标准或协议而达到“互操作”是效率最高、最易实施的,因此遵循现有标准对于实现互操作至关重要。

第三,简单性原则:要求元数据方案尽可能采用精简的基本集,以降低成本,加快实现进度,并有利于互操作的实现[11]。

第四,复用性原则:通过尽可能复用标准方案、复用元素或复用修饰词及扩展方式,以及建立映射、转换机制等方式来达成互操作性[10]。

第五,易转换性原则:在具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,可方便地转换为其它系统常用的元数据。这要求在设计元数据标准时要非常慎重地考虑元数据标准定义的元素的语义定义和元数据结构两个重要的方面,其中与目前较为通行的、被广泛支持的元数据标准的语义定义保持一致更为重要[11]。

另外可以建立独立于特定编码语法的元数据抽象模型(Metadata Abstract Model)作为元数据应用的参考模型,并对编码对象的属性描述进行规范,从而有助于保持元数据方案的一致性,使不同编码语法之间更好地映射和翻译,并有助于元数据方案的互操作。

3.4 国内元数据规范研究进展

近年来,我国数字资源元数据规范的建设已从研究探索进入实际应用与发展阶段。部分数字图书馆建设单位已经提出了相应的元数据规范,例如国家图书馆的中文元数据规范、北京大学的拓片元数据规范、清华大学的建筑元数据规范、上海图书馆的数字图书馆元数据方案、国家科学数字图书馆学科信息门户系统的资源导航元数据规范等。我国“数字图书馆标准规范建设”项目(CDLS)采用开放元数据机制,遵循“模块化”、“可扩展性”、“分布性”、“递归性”四大原则。该机制构建的元数据格式系统有一个基本核心元数据集,在此之上的应用层有一系列标准的扩展规则和机制。该项目的成果《基本数字对象描述元数据规范》和《专门数字对象描述元数据规范设计指南》等,可用于指导元数据规范的设计。

在此基础上,产生了一批面向特定资源设计的元数据规范,如CALIS虚拟咨询知识库元数据规范、数据仓库元数据规范、多媒体资源元数据规范、古籍元数据规范、语料库元数据规范、资源整合门户的电子图书描述元数据规范等。

《基本数字对象描述元数据规范》中的基本元数据是关于元数据的核心集,是根据数字对象的共同特点确定的基本元数据集合,是各领域元数据集互操作的一个基础集。各专门领域的元数据标准需要按照基本数字对象元数据描述标准的核心元素集和相关规则的框架上开发。而对于已经有的各种元数据标准,需要建立与基本元数据的映射,从而为实现各种元数据之间的互操作奠定基础。

总的来说,国内元数据规范在近年来的建设中,充分考虑到了元数据的互操作性原则以及由其引申出的其它原则,并正在逐步形成完整的元数据规范体系。

4 结语

在数字资源建设过程中,数字化资源包括已有的大量异构的数字化资源和有待数字化的传统信息资源。对于后者,可以通过上文提到的制度以及规范的层面来解决元数据互操作问题;而对于前者,更多的需要从技术层面解决元数据互操作问题,这也将是后续研究的重点。

[1] 国家图书馆.国家图书馆管理元数据规范[OL].[2010-8-19].http://www5.nlc.gov.cn/sztsg/2qgc/sjym/files/gtglysjgf.pdf.

[2] 朱 超.关于元数据互操作的探讨[J].情报理论与实践,2005,28(6):644-647,655.

[3] 郑志蕴,宋瀚涛,牛振东.数字图书馆元数据互操作机制的研究[J].计算机应用,2005,25(3):699-702.

[4] 张 东.论元数据互操作的层次[J].情报理论与实践,2005,28(6):648-650.

[5] 罗 昊.互操作——数字图书馆元数据方案的关键[J].情报杂志,2003(12):32-33,36.

[6] 姜爱蓉,牛金芳,郑小惠.基本数字对象描述元数据现状与发展[R]. [2010-05-17].http://cdls.nstl.gov.cn/.

[7] 韩 夏,李秉严.元数据的互操作研究[J].情报科学,2004,22(7):812-814,877.

[8] 沈玉兰,张爱霞.管理元数据发展趋势研究报告[R]. [2010-05-17].http://cdls.nstl.gov.cn/.

[9] 陈虹涛,李志俊.元数据的标准规范及其互操作性[J].情报杂志,2005(7):93-95.

[10] 刘炜,姜爱蓉,马文峰等.基本元数据应用规范[R]. [2010-05-17].http://cdls.nstl.gov.cn/.

[11] 肖 珑,冯项云,沈芸芸等.专门数字对象描述元数据规范设计指南[R]. [2010-05-17]. http://cdls.nstl.gov.cn/.

ResearchonMetadataInteroperabilityBasedontheNon-technologicalApproach

Zhao Renling

Information Management Department, Nanjing University, Nanjing 210093, China

There appear several kinds of metadata during the development of digital libraries and the interoperability among the metadata is becoming more and more important. In this paper, the way of realizing interoperability among the metadata is discussed from the angle of the non-technological approach including the aspects of institution and regulation.

metadata; interoperability; regulation

*本文系国家社会科学基金项目“数字图书馆管理体制与发展模式研究”(项目编号:10BTQ005)与国家“863”计划项目“基于高可信网络的数字内容服务系统开发及示范”子课题“多网络终端条件下的图书馆数字资源服务模式”研究成果之一

G250.76

赵仁铃,女,1983年生,南京大学研究生院正科级科员,助理研究员,发表论文3篇。

猜你喜欢
互操作性数据格式标准规范
军机维修保障互操作性评价技术研究
工业锅炉标准规范数据库管理系统实现
韩军武器系统互操作性现状及未来发展
基于RFID的户外广告监管系统的设计与实现
一种融合多业务的信息化系统框架研究
有人/无人机协同互操作性研究
韩国拟修订食品容器和包装标准规范
央行发布两项征信行业标准规范征信机构信息安全
橱柜行业标准规范引导发展
基于ArcGIS的规划数据格式转换研究