赵子凯
(中共辽宁省委党校信息中心,辽宁 沈阳 110004)
元数据技术是数字图书馆建设过程中的关键技术之一,数字图书馆在对信息资源进行组织和有效利用的过程中,自始至终都离不开元数据。从某种意义上说,数字图书馆建设的成功与否很大程度上取决于其元数据方案的质量高低。因而数字图书馆中的元数据研究就具有很强的现实意义。
元数据(metadata)是关于数据的数据。数字图书馆中的元数据体系就是数字图书馆中所有信息的描述方法,即各种元数据结构及其实现模块的总和,是数字图书馆的基础结构。元数据在数字图书馆中的主要作用是对数字信息资源的组织和整序,亦即为分布式数据发现和检索奠定基础。通常数字图书馆中的元数据体系具有以下功能:
①描述功能。数字图书馆中的元数据描述功能有两个方面:a.描述数字化信息的基本特征,使得数字化图书馆系统能够通过元数据体系自动搜索到数字化信息。b.描述用户提问。
②整合功能。所谓整合功能,指的是数字图书馆的元数据体系将各种不同格式的元数据,通过建立映射、翻译等方法整合成一种元数据格式的过程,即实现不同格式元数据之间的互操作性,也是一个异构数据库之间的整合过程。
③控制功能。元数据体系的规范控制功能包括信息内容的规范化描述、规范标引和信息评估等方面。元数据体系可以通过标准元数据模型来规范化描述数字信息。
④代理功能。知道元数据本身也是替代记录,数字图书馆中的元数据体系同样具有代理功能。元数据的代理功能可以有效地节省网络资源,这是因为元数据是数字化信息资源的一种描述,记录了数字化信息资源的基本特征,可以基本反映信息的概貌,同时,元数据和数据相比,其数据量要小得多,可以作为完整信息的代理。
数字图书馆中的元数据体系结构的组成,往往因具体的数字图书馆项目而有所区别。这里仅就目前的研究现状给出比较通用的6个组成部分。
①核心元数据系统。它构成数字图书馆中元数据体系的核心内容,也有人将它称为基准或标准元数据系统,通常核心元数据是数字图书馆元数据体系所必须的。
②元数据字典。它实际上是一种用于不同格式的元数据到核心元数据系统相互转换的对照表,描述了各种元数据的基本特征,构建了各种元数据与核心元数据系统的对应关系。
③非核心元数据封装系统。它是指数字图书馆中存储数据的属性总和,即各种非核心元数据的集合。
④用户接口系统。数字图书馆中的元数据体系与读者、用户之间的联系就是通过用户接口系统来实现的。
⑤转换模块。核心元数据系统与非核心元数据之间的转换是通过元数据体系中的转换模块来实现的。转换模块提供了实现各种元数据之间相互转换、翻译的方法。相对于元数据字典而言,转换模块以它为基础,是由专门程序实现的动态过程。
⑥维护模块。维护模块是对上述数字化图书馆元数据体系的5个部分进行管理和维护的模块。维护模块可以对各种对照表进行添加、删除、修改等动态管理,保证整个元数据体系的可扩展性和可维护性。
虽然元数据体系的组成结构在实际系统设计上可能形态各异,但上述6个组成部分是元数据体系的基本功能构成,它们实现了数字化图书馆对元数据的处理过程。
在对数字图书馆中的元数据类型进行划分时,人们通常以功能作为其划分标准。笔者认为数字图书馆中常见的元数据类型有以下5种:管理型元数据、描述型元数据、结构型元数据、技术型元数据和保存型元数据。这是因为这5种功能类型的元数据的功能正是数字图书馆在对数字信息资源进行组织和利用过程中整体功能的反映。数字图书馆首先要对数字信息资源进行描述,然后进行结构化的存取,从而实现对数字信息资源的有效管理。数字图书馆本身就是各种高新技术的集成,为实现数字图书馆技术环境中信息资源的有效利用,技术型元数据不可缺少,在数字图书馆中应该特别强调对数字信息资源的长期保存,因而保存型元数据将发挥一定的作用。
它是所有划分标准中的公认类型,属于元数据的基本功能范畴。描述型元数据支持资源的发现和鉴别。题名、创造者、制作者、出版者、出版日期等都是典型的描述型元数据。
数字图书馆中通过它实现对数字信息资源的有效管理。传统图书馆中有关借阅权限、馆藏地点等信息都是管理元数据的例子。
结构型元数据反映数字信息资源的内部形式特征,如目录、段落、章节等,从而实现对数字信息资源的结构化存取。
数字图书馆是高新技术的集聚地,其作业环境是典型的技术环境。将各种技术有效地应用于对数字信息资源的组织和管理,正是技术型元数据的功能和作用。
保存型元数据是指支持数字化资源长期保存的数据。在数字图书馆中,关于数字化信息资源发现与检索的元数据研究固然重要,关于支持信息资源长期保存的元数据研究同样非常重要。无论人们试图以哪一种技术来解决数字化信息的长期保存,都必须知道数字信息本身及其环境的一些技术特征,这便是保存型元数据所揭示的内容特征。
数字图书馆中的元数据类型划分不是绝对的,而是相对的,随着人们研究的不断深入和具体的应用实践,将会有新的类型出现。就数字图书馆中具体的元数据元素而言,它可能既是描述型元数据,同时又是管理型元数据;既是技术型元数据,又是保存型元数据。在元素与元数据类型之间不是简单的一一对应关系。
数字图书馆中的元数据模型为各种元数据在数字图书馆中的具体应用提供一个描述框架,它将元数据的语义和语法有机地结合起来,是元数据在编码语言中的具体应用形式,它为实现各种格式、类型的元数据之间的互操作性提供了基础,在多种格式、类型的元数据并存的数字图书馆元数据体系中将起到非常重要的作用。就数字图书馆而言,可选择的元数据类型和元数据模型有多种。一般来说,数字图书馆中有代表性的元数据类型有两种:以资源为中心的资源描述框架RDF和以事件为中心的ABC元数据逻辑模型。
RDF资源描述框架(Resource Description Framework)是1997年10月W3C正式发布的草案,其设计目的是提供一种强有力的表述、交换与利用元数据的机制,通过对一般意义上的语义、语法和结构的支持,提供在各种不同元数据体系之间的互操作性。RDF基于XML和XHTML,其核心定义比较简单,它基于如下的假设:任何一个可以被标识的“资源”(resource)都可以被一些可选择的“属性”(properties)描述,每一个属性的描述都有一个“值”(value)。资源、属性、属性值三者构成了资源描述框架的基本数据模型(见图1)。
图1 以资源为中心的资源描述框架RDF
ABC模型最突出的特征是引入了“事件”概念。“事件”概念为不同元数据集之间的信息交换架起了桥梁。它使我们将资源间复杂的、模糊的关系用简单的二维关系来描述。而且,当人们将一种元数据描述转换成另一种元数据格式时,资源间的关系不会丢失。在ABC逻辑模型中,将相对于其他元数据集中的上层域称为类,类内所包含的概念称为子类。ABC中的基本类有:资源、特性、事件、行为、关联。其逻辑关系见图2。
图2 以事件为中心的ABC逻辑模型
要想使元数据应用于数字图书馆,就要为其编码,通过为元数据编码,使之能够为机器处理,从而提供给用户使用,进而发挥其应有的作用。数字图书馆中最常见的元数据编码标准应该是MARC机读目录通讯格式。MARC格式历史悠久,但格式复杂,并不适宜对网络信息资源进行描述,所以目前以标记语言作为数字图书馆中的元数据编码语言或编码标准为人们普遍接受,但也正处于研究和试用阶段。
机读目录通讯格式(MARC Communication Format)是图书馆自动化系统之间传输和交换机读目录数据时共同遵循和使用的标准记录格式,又称机读目录交换格式。它规定了书目数据在机读介质上的表示和标记方法。在MARC格式中,每条元数据记录都分为4个部分:头标区(Header)、目次区(Directory)、控制字段(Control field)和可变长字段(Variable field)。
SGML通用标准标记语言是用于文献标记的国际标准。它是一套设计标记语言的规则,描述文献的结构,以便于文献能够跨越计算机平台被交换。SGML非常灵活,足以定义无数的标记语言。HTML、XML和XHTML都是SGML定义的标记语言。HTML超文本标记语言是对元数据进行描述的最早、最广泛的应用,该标记语言中的meta和link标记提供了为元数据进行编码的通用机制;XML可扩展的标记语言,是前景被普遍看好的Web标记语言,非常适合对数字图书馆中的元数据进行编码,XML语言通常与RDF资源描述框架结合使用;XHTML可扩展的超文本标记语言是更高级一些的标记语言,也可以作为数字图书馆中元数据的编码语言,我们应在实践中予以关注和深入研究。
[1] 林海青.数字化图书馆的元数据体系.中国图书馆学报,2000(4).
[2] 李慧.元数据在数字图书馆中的应用.情报理论与实践,2001(1).
[3] 吴开华,邢春晓,罗德胤.数字图书馆元数据研究.中国图书馆学报,2002(3).
[4] 李瑞勤.不同元数据集之间信息交换的桥梁-ABC逻辑模型.图书情报工作,2002(10).
[5] 罗冰眉.元数据及其在数字图书馆的应用.情报杂志,2003(1).