范小松
摘要:不同类型信息资源、不同信息应用行业,有着众多不同的元数据标准或应用规范。寻求一种通用的、兼容多种类型信息资源和应用需求的资源统一描述方案,既能降低资源描述与管理成本,又能消除跨系统、跨资源类型的数据交换与信息整合障碍。本文基于都柏林核心元数据(Dublin Core Metadata,DC元数据)的理念,从元数据的编码实现着手,探讨了一种资源统一描述方案的设计策略,包括描述元素的核心化、可修饰或可限定策略,元数据结构化与可伸缩化策略,资源描述对象单一化策略。
关键词:元数据;统一描述;数据结构;资源管理
中图分类号:G250.7 文献标识码:A 文章编号:2095-5707(2020)03-0021-05
Abstract: Different types of information resources and different information application industries have various metadata standards or application specifications. Seeking a resource uniform description strategy that is universal and compatible with multiple types of information resources and application requirements can not only reduce resource description and management costs, but also eliminate barriers to data exchange and information integration across systems and resources. Based on the concept of Dublin Core Metadata (DC Metadata), and starting with the implementation of metadata encoding, this article discussed a design strategy for a uniform resource description scheme, including core, modifiable or definable strategies for describing elements, metadata structure and scalability strategy, and resource description object simplification strategy.
Key words: metadata; uniform description; data structure; resource management
随着科学技术的发展,图书馆馆藏信息资源除了具备图书、期刊,及非书、非刊等類型多样性特征外,还具备纸质、磁带与数字化等载体多样性特征。数量丰富、类型与载体格式不同的馆藏资源,在满足读者信息需求的同时,也给图书馆增加了信息资源的组织成本。
元数据作为描述信息资源或数据本身特征和属性的数据,在信息资源的组织过程中发挥着重要作用。针对不同类型的信息资源,产生了大量的元数据体系,甚至同一资源类型因不同的应用与管理需求,并存多种元数据体系。目前,信息资源描述中,有机读目录(Machine Readable Cataloging, MARC)、都柏林核心元数据(Dublin Core Metadata, DC元数据)、编码档案著录(Encoded Archival Description, EAD)、艺术作品描述目录(Categories for the Description of Works of Art, CDWA)等多种元数据格式。元数据体系的多样性和重叠现象不可避免地增加了资源描述成本,也影响了各种资源描述成果的共享和整合。
应当采用一种大家共同遵守的元数据体系,对各类型信息资源进行语义与格式统一的元数据描述。狭义的资源统一描述,指大家都采用同一种元数据体系,实现多种类型信息资源的描述。广义的资源统一描述,是忽略前期采用的哪种元数据体系描述信息资源,只要求这些元数据在对外呈现或发布时,转换或二次加工为大家共同遵守的元数据体系。由于涉及既有元数据成果的继承与转换,及现有信息系统的改造,广义上的资源统一描述更是业界当前思考的重点。当然,对于全新的信息系统与数据建设者来说,直接采用狭义的资源统一描述策略与体系,更能降低资源描述和转换成本,轻易实现元数据的互操作性,促进信息共享、交换及整合。
1 传统元数据资源描述概述
1.1 传统元数据资源描述的现状
图书情报界主要从语义互操作、语法互操作、结构互操作及应用协议4个方面提出了元数据互操作的多个解决方案[1]。
借助计算机网络技术和计算机行业国际标准,在语法互操作层面,有采用文档类型定义(Document Type Definition, DTD)或模式(Schema)约束的可扩展标记语言(Extensible Markup Language, XML)等解决方案;在结构互操作层面,有资源描述框架(Resource Description Framework, RDF)等解决方案;在应用协议层面,有Z39.50、开放档案协议(Open Archives Initiative, OAI)等解决方案。这些成熟、并容易被计算机理解与实现的解决方案,完全可以满足图书情报界在资源统一描述和元数据互操作性上的需求。
但是,在元数据的语义互操作层面,目前尚无一个广泛认可的、足以保障对各类型信息资源进行语义与格式统一的元数据描述方案。目前采用元数据映射解决方案已成为一种共识,即从语义和应用功能角度,建立2种甚至多种元数据间的对照关系,从而实现数据转换或映射检索。目前已有大量的转换程序,供若干流行元数据格式之间的转化使用,例如DC元数据与美国机读目录(United States Machine Readable Cataloging, USMARC)、DC元数据与EAD等[2]。应用层面,也有基于转换后的DC元数据而提供服务的OAI项目。
1.2 传统元数据资源描述的不足
传统元数据,比如MARC的元数据编码体系结构复杂、关系不明、标记元素众多,而新型元数据,如都柏林核心元数据元素集(Dublin Core Metadata Element Set, DCMES)又过于原则化与抽象化,没有也不会针对具体应用推出更多的核心元素与限定修饰词,更不会指定DCMES的编码格式。所以,在映射转换中,常常出现语义无法对应或无法一一对应,导致信息丢失的现象。再加上元数据格式众多,针对它们分别建立两两映射关系所需要的工作量和协调成本会急剧上升。针对这种多格式映射的难题,人们提出以一种元数据格式为中心,其他格式都向这一格式映射的星形映射方式改进方案。目前公认让各方容易接受的中心元数据格式是DC元数据,各元数据都统一转换为DC元数据后实现汇总,比如OAI项目[1]。
OAI首先是一种计算机协议,它约定了元数据的检索与获取的接口和调用方式,并非图书情报界专有。OAI不关心数据提供者内部元数据的格式,仅要求数据提供者能够将自己的元数据以DC元数据15个核心元素的方式向外提供。OAI这类星形映射方案,且映射为DC元数据15个核心元素的映射方案,虽然降低了映射难度——将多格式映射等价为一组两两映射,将格式复杂且语义丰富的元数据映射成格式与语义都简单的元数据,但也正是这种简单化,无法保障元数据的无损转换,造成更多信息无法被共享与整合。
2 关于DC元数据
2.1 DC元数据带来的困惑
DC元数据是致力于规范网络资源体系结构的国际性元数据解决方案,它定义了一个所有网络资源都应遵循的、通用的核心标准。因为它的通用性、核心性、可扩展性的特征,得到了广泛认可,现已成为深具影响力的国际标准[3]。然而近年来,图书馆界对DC元数据到底能做什么还是比较困惑。因为“刚性”的元数据方案(例如MARC),有着成熟的国际标准书目著录(International Standard Bibliographic Description, ISBD)规范,需要描述资源的哪些内容与形态特征、用哪些元素(字段或子字段)去描述皆有据可查、拿来即用,也有成熟的配套系统[3]。所以,面对只有原则、指导方针和框架的DC元数据,无论是资源描述标引工作人员,还是系统开发设计人员,都有无从下手的迷茫感。导致这个影响深远、多方认可的元数据方案,却在最注重信息资源描述的图书馆界无法推广与普及。
2.2 DC元数据的价值
屈指可数的15个核心元素,及有限的语义限定和编码限定詞,让习惯于MARC成百上千字段与子字段的资源描述者找不到映射关系,多有“DC元数据只能简单编目”的错误观感与认知。正是为了突破之前针对一种或有限几种资源的元数据方案的局限性,欲使DC元数据更具通用性和适用性,使之承担起跨类型与跨载体格式的信息资源统一描述功能的设计初衷和“野心”,才让DC元数据体系更注重从语义层面、原则层面指导应用,而非针对具体应用具象化和形式化。
所以,正确理解DC元数据的相关原则,才能在具体应用中,遵循DC元数据原则并自行扩展(也包括缩小)资源描述规范,采用合理的元数据结构化组织方案(规范的数据格式),从而既满足不同应用中的资源描述需求,又保障各方元数据遵循同一个元数据标准与规范。
3 基于DC元数据的资源统一描述策略
由于DC元数据具有简单性、可扩展性、可修改性和可选择性原则,借助DC元数据,图书馆可对馆藏资源进行统一描述,促进馆藏资源信息的共享与整合,更有效地解决在网络中查找信息资源的问题。在图书的资源描述方面,可以使用基于XML的DC元数据组织技术。遵循DC元数据一一对应原则,一个著录对象著录一个元数据,提高著录效率。同时,通过不同元数据的关联引用,形成诸如资源描述与检索(Resource Description & Access, RDA)需要的信息关联的标引与整合效果。
3.1 描述元素核心化策略
DC元数据的简单性原则,要求定义一个能得到广泛应用、被全球所理解和接受的小元素集,并能作为特殊用户详细描述需求的一个核心集[3]。这个原则的核心价值在于,将资源描述对象分成各个语义互不重叠、互不交叉的描述层面或著录项,1个描述层面或著录项采用1个标记元素进行标记。
虽然DC元数据只确定了15个涵盖面最广、能得以公认的核心元素,但DC元数据的可扩展原则指出,可以DC元数据核心元素集为基础,并为适应各领域资源描述需要而扩展或自定义别的元素。当然,这些扩展或自定义的元素也需要符合DC元数据的简单性原则,即语义要与DC元数据核心元素及其它扩展或自定义元素相对独立。
与MARC对资源的同一描述层面(如各种题名信息)采用多个标记字段或子字段进行资源描述标记的元数据体系相比,DC元数据的标记元素确立原则显然更具针对性与准确性,也极大地降低了资源描述与理解的成本和难度。
所以,在行业应用中,针对特定资源进行描述时,首先应该保证描述元素核心化的描述策略。例如,在书目元数据中,应该将传统的“正题名”“并列题名”“副题名”“丛书名”“书脊题名”等各种与题名信息相关的标记元素,核心化或抽象化为1个“题名”元素。结合DC元数据的简单性原则和可选择性原则,语义独立的、有限的核心元素,就可以低成本实现资源的简单描述了。
3.2 描述元素可修饰或可限定策略
DC元数据的可修改性原则,是指在具体应用中,可以对DC元数据元素集中的任何元素进行进一步修饰或限定,但不能扩大或改变元素的基本语义[3]。即元素是某个信息面全部的语义集合标记,其“修饰”或“限定”后的语义只是这个语义集合范畴中的子集,根据需要,可以从多个角度、多种粒度对元素所标记的语义实现精致、细化或取值限定。所以,正确理解这个原则,可以消除DC元数据不能满足图书馆复杂的书目描述需求的常见误会。
虽然前例中,将所有与题名信息相关的标记元素核心化为1个“题名”元素后,肯定无法实现题名细节的描述与表达。但根据元素可修饰与可限定的统一描述策略,可以制定相应的语义修饰或限定词表,及决定采用哪些编码取值体系并据此取值,从而实现“题名”这个核心元素的语义精致(细化)或编码取值体系声明。
图书馆人熟知的“题名”著录项中的“题名(正的)”“题名(另一著者的)”“题名(副的)”“题名(并列的)”“题名(分辑的)”等著录细节,括号中的词汇就可视为“题名”元素的语义修饰或限定词。而“题名(拼音形式)”,括号中的“拼音形式”,就可视为“题名”元素的编码体系修饰或限定词(即声明采用汉语拼音这种规范体系或格式对资源“题名”信息进行描述)。可以看出,在修饰或限定词的辅助下,基于DC元数据的新型元数据,可以实现与MARC元数据的一一对应与映射。
根据需要,可以对元素不作修饰或限定,也可以只对元素作语义修饰或限定,或者只对元素作编码体系修饰或限定,当然也可以对元素同时采用语义和编码体系的修饰或限定。根据描述元素可修饰与可限定策略,按需规划并确定好元素的语义修饰或限定词表、编码体系修饰或限定词表(体系名称或标识符,并据此规范取值),保证任何粒度的资源描述实现。
3.3 元数据结构化与可伸缩化策略
尽管DC元数据体系理念非常先进,但没有特定的元数据结构化组织方案就不可能实用化,也无法体现出它的先进性与独特性。众所周知,越结构化的数据,计算机越容易理解,信息间的关系越清晰、语义越明确。XML作为目前公认最具结构化的数据格式和互联网标准,包括DC元数据在内的多种元数据标准也多采用XML作为其编码方案。借助XML的元素、属性概念与数据结构,很容易构建出高度结构化且语义表达弹性伸缩的资源统一描述策略[3]。例如:
UK Office for Library
当不清楚是否需要对“UK Office for Library”这个题名信息启用语义限定或启用什么语义限定词时,忽略这个数据结构中的refinement属性即可(这个refinement属性名称,与元数据无关,仅从数据结构层面体现出元数据的语义限定信息,所以,是否采用或更换这个属性名称,各应用可视情况而定)。
与采用XML元素属性结构来表达元数据元素的语义限定一样,元数据元素的编码限定也应该采用XML元素属性结构实现表达。类似自定义的refinement属性名,应用中也可以自定义另1个属性名,用其值来声明具体的编码限定体系(表达元素已被编码限定)。推荐:作为XML的规范与模式约束,结合XML Schema这个标准中的数据类型派生(取值限定)表达,直接在XML数据结构中,采用业界熟知的xsi:type属性名比自定义属性名更容易让人理解与接受。例如:
qi shi de gu shi
这样的数据结构,可以清晰表明“qi shi de gu shi”这是题名的描述信息,是采用汉语拼音体系而非其它可能的语种、注音或字母体系,避免了可能有的歧义和冲突。
甚至,结合XML标准中的xml:lang属性、xml:id属性,在有需要时,就可以满足添加或忽略描述语种、实现描述元素间的关联表达(id引用或交叉引用)的需求。
騎士的故事
The Knights Tale
qi shi de gu shi
XML的元素、元素属性,是独立于元数据体系、属于数据结构化、属于计算机技术层面的表达与实现,不会对资源的元数据描述带来干扰和增加成本。所以,选择与设计一个清晰和无歧义、稳定和可伸缩的元数据编码结构的资源统一描述策略,会辅助元数据,实现资源的描述和信息揭示。
3.4 资源描述对象单一化策略
RDA是应数字环境的发展而制定的最新国际编目规则,力求涵盖当前数字环境中所有内容类型和媒介类型的资源,从一般到特殊,为不同类型的文献资源提供著录和检索的统一方法。为了更深入、详细、直白地揭示信息资源,RDA在对英美编目规则第二版(Anglo-American Cataloguing Rules, 2nd Edition, AACR2)做了相应的调整与改进的同时,更是以书目记录的功能需求(Functional Requirements for Bibliographic Records, FRBR)提出的实体-关系模型(Entity-Relationship model, E-R)概念模型为基础,通过“识别”和“关联”,将馆藏资源分成作品、内容表达、载体表现和单件4个层次,分别记录实体、属性、实体间的关系[4]。
强调资源描述对象间的关系,及资源描述对象与其属性的关系,是RDA顺应资源统一描述与统一检索需求的创新思路。然而,RDA只是一套编目规则,或者说“内容标准”,数据格式与元数据观念不更新,再好的目标也无法实现。事实上,在现有MARC元数据体系下,依靠扩展或调整元数据的标记字段或子字段,依靠规范描述细节要求,MARC元数据既有的局限仍会继续影响资源描述的应用。甚至,如果只理解RDA就只是增加了著录项和著录对象,这种同时面对多种资源对象的描述工作,必然增加RDA著录理解成本和著录难度。这也是采用RDA实现资源描述至今尚未普及的原因。
在资源统一描述中,坚持资源描述对象单一化的策略,可以很好地推动RDA目标的实现。DC元数据的一对一原则,即每个资源都应该有一条单独的(discrete)元数据描述,而每一条元数据描述所包含的元素必须与1个单独的资源相关联。基于此项原则,目前通常认为1条元数据描述应该只描述1个资源对象(虽然1个资源对象不一定只有1条元数据)。因为用1条元数据同时描述其各种载体表现,或为了所谓的统一描述与检索需要,在1条元数据中还涉及与当前描述对象相关的其它资源对象的描述,会带来资源描述成本的增加、数据冗余及管理和长期保存上的严重问题[3]。
1条RDA目录中可能涉及到内容信息、纸质馆藏信息、数字化信息、责任者信息、它包括的部分对象信息、包含它的对象信息等。信息内容丰富的同时,也极大地增加了著录难度与成本。其实,更科学合理的资源描述理念与管理方式应该是:对纸质馆藏对象进行描述,对数字化对象进行描述,对人物或机构对象进行描述,分别形成1条元数据;对其它相关的对象,也同样独立地进行描述,形成1条元数据。然后,通过计算机系统或著录工具,实现这些不同元数据的参考引用,并绑定相关的引用标识。
每条元数据,都可以根据需要灵活选择不同的元数据标识体系并据其取值,甚至可以同时采用多种标识体系并据其取值。包括国际标准书号(International Standard Book Number, ISBN)、统一资源定位符(Uniform Resource Locator, URL)、数字对象标识(Digital Object Identifier, DOI)及自定义的多种标识体系。遵照前述,在资源唯一标识元素dc:identifier中,采用这些具备唯一性特征的编码体系,在实际应用中计算机系统就能准确寻找到对应元数据,例如,以下标识符表达方式都是合理的:
9788888888888
http://example.com/search?GeoffreyChaucer
10.3969/j.issn.7788-8877.2015.02.009
7788xyz
在针对《骑士的故事》这种图书的元数据描述中,根据dc:contributor元素的语义限定词,知道是“著者”的描述信息,根据“URL”这个编码体系声明,知道著者的描述信息可以通过URL方式对应获取,即可引导访问者查看人物或机构规范库中的著者描述元数据,从而获得著者的详细信息。同理,通过查找ISBN号“9788888888888”,可以获得包含当前资源对象的另一个资源对象的详细信息;通过URL标识值,可以获得另一个载体格式版本资源对象的详细信息;通过DOI标识值,可以获得引用过当前资源對象的另一个资源对象的信息;甚至根据应用需要,可以实现多个资源间的各种特定关系的描述,并引导获取相应的资源描述信息:
http://example.com/search?GeoffreyChaucer
9788888888888
http://example.com/search?KnightsTale
10.3969/ j.issn.7788-8877.2015.02.009
7788xyz
从以上可以看出,在坚持资源描述对象单一化的策略指导下,可以实现一个描述(元数据),多次、多方关联和调用,极大地降低了数据冗余与资源描述成本。
4 小结
采用一种大家共同遵守的元数据体系,对各类型信息资源进行语义与格式统一的元数据描述是完全可行的。在这种策略指导下,可以对OAI与RDA进行低成本、高效率地改造,有助于其应用与推广,更有助于早日实现资源共享、信息整合的业界目标。目前,DC元数据在数字图书馆建设中的应用越来越多,中国国家图书馆以DC元数据制作了大量的数字化资源,上海图书馆与清华大学也参与了联机计算机图书馆中心(Online Computer Library Center, OCLC)基于都柏林核心元數据元素集的合作联机资源目录(Co-operative Online Resource Catalog, CORC)计划,另外还有清华大学建筑数字图书馆、北京大学图书馆古籍拓片数据库等[5],相信DC元数据在图书馆的应用前景一定会更广阔。
参考文献
[1] 朱超.关于元数据互操作的探讨[J].情报理论与实践,2005,28(6): 644-647,655.
[2] DAY M. Mapping between metadata formats[EB/OL].[2019-12-04]. http://www.ukoln.ac.uk/metadata/interoperability/.
[3] 刘炜,楼向英,赵亮.DC元数据的历史、现状及未来[EB/OL]. [2019-10-16].http://www.libnet.sh.cn/sztsg/fulltext/reports/ 2005/DC元数据_overview.pdf.
[4] 葛红梅,徐晶晶,董鹏.资源描述与检索(RDA)书目数据在图书馆编目中的应用[J].中华医学图书情报杂志,2015,24(2):38-42.
[5] 黄星亮.都柏林核心元数据及其在我国数字图书馆建设中的应用[J].津图学刊,2002(3):17-19,24.
(收稿日期:2020-01-13)
(修回日期:2020-03-16;编辑:魏民)