李爱华
(河南广播电视大学,郑州%450000)
元数据作为一种在计算机科学领域的专业术语,已经逐步地运用在了地理、文艺、图书情报等领域,而随着电子文件的出现和电子档案的管理以及数字档案馆的建立,从20世纪90年代起,档案界的学者们也对档案元数据问题的研究高度重视,相关研究成果层出不穷,在此笔者仅对档案学界的元数据研究做以下分析述评。
对档案元数据定义的理解是档案学界研究元数据之初就普遍研究的一个方向,作为一个由其他领域移植而来的名词,档案界起初并不能很好地理解它的含义。通常来讲,元数据就是指关于数据的数据。这一定义比较抽象、泛指,在不同的领域还有其不同的内涵和外延。
苏州大学的谭琤培、章丹在其研究成果中就列举了元数据在地理界、数据仓库等领域中的含义,同时还将国际图书馆协会联盟(IFLA)、政府信息领域、英国公共档案馆(PRO)对元数据做出的定义进行了列举阐述,指出尽管在不同专业领域对元数据的定义有诸多的不同,但其本质是一样的,即元数据是一种有效的信息资源组织和管理的工具,是一种编码体系。它可以帮助人们检索和确认所需要的资源,可以对数据单元进行详细、全面的著录描述,可以支持资源的存储和使用管理,支持对资源进行长期保存[1]。段荣婷也指出元数据是描述一个资源特别是网络资源对象的属性或特征的数据,它有助于资源的发现、定位、评估与选择等。就功能而言,相当于一个电子目录。刘家真教授在对电子文件这一问题研究时也涉及了对元数据问题的探讨,她指出元数据是“描述数据和数据系统的数据。在电子记录中,它意味着数据必须与电子记录一起获取,使他们能够被理解并支持它们的管理和利用”。而目前我国档案界对电子文件中的元数据则定义为由电子文件系统自动记录的关于文件形成时间、地点、人员、活动、文件系统、结构及内容等方面的具体数据。
除此之外,还有很多学者对元数据如何定义进行了探讨,结论也都大同小异,大家对于元数据的定义和理解已经基本达成了一致,只是在表述上还没有完全统一。其实正如苏·麦克教授所说:“……元数据实际就是一个久已存在于我们周围的一个简单的新词……传统的检索工具、目录卡片、案卷目录、案卷封面、纸张文件的题名与脚注,所有这些都包括了元数据。”“……档案工作者早已能获取和利用元数据了。但是,他们以前并没有听说过‘元数据’这个词。”[2]因此,我们可以看出,在传统的环境下,“元数据”已经广泛存在于档案领域,而在如今的电子文件管理时代,它在档案界的身份和作用被进一步地明确和认可。
综上所述,档案元数据具体来说应该是描述档案及档案业务的数据集合,主要包括基本元数据集、管理元数据集和业务处理元数据集三大部分。
(1)基本元数据是用以描述档案内容的基本属性,主要包括文号、题名、时间、责任者、页数、备注等。
(2)管理元数据是为了档案管理、保存和提供利用需要而确定的元数据集。主要包括立档单位、件号(顺序号)、档号、全宗、类目、保管期限、保管级别、密级、存址(库房位置、电子文件的URL)、载体、检索/信息分类等。
(3)业务处理元数据是描述各档案管理业务过程中产生的各种信息的元数据集。主要包括接口处理的责任链信息、工作过程产生的与档案密切相关的过程信息。主要包括档案的移交、接收、分类、排列、编号、组卷、编目、入库、上架、库房档案状态、保护处理、数字化处理、缩微处理、开放处理、利用信息、销毁处理等工作的时间、责任者、处理相关信息等。这些元数据集记录了档案工作的全过程信息。
对档案元数据的类型划分的研究,也是众说纷纭。
吴淑娟提到,美国Getty(格蒂)信息研究所认为可以将元数据划分为管理型、描述型、保存型、技术型和使用型五种类型,并对其中的几种常用类型进行了深入研究,指出管理型元数据的实质就是对信息系统管理机制的规范、开放描述,是用来描述管理政策与规则的;结构型元数据也可以称作是置标语言,在发现通用置标语言 (SGML)的复杂性以及超文本置标语言(HTML)的不可扩展性等非结构性的缺陷后,继而推出了适用性更强的可扩展置标语言;保存型元数据就是指支持数字化资源长期保存的数据。黄萃和叶晓林则对元数据从功能上划分,提出了元数据的七种类型:确认和检索型、著录描述型、信息资源的组织体系型、资源管理型、支持资源保护与长期保存型支持信息资源管理系统功能的执行型以及对信息资源管理系统进行系统建模类元数据。
还有另一些学者持不同的看法。如吴品才根据元数据的内容,将其划分为两种类型:结构信息元数据和背景信息元数据。结构信息元数据是指收到文件的结构链,包括文件本身的内部结构和将数据加工成文件的软件命令;背景信息元数据是指有关的业务活动中文件来源和使用目的等方面的信息。刘必全对元数据类型的划分则又从另一个角度出发,将其划分为:(1)档案信息内容元数据。这种元数据主要是将组成各类档案的信息内容及其结构进行标记。(2)档案作品与对象元数据。这种元数据是对各种载体形态下的档案,甚至是物理对象的特征进行描述。(3)档案资源集合元数据。这种元数据是对档案或组成档案信息资源集合及其管理组织和知识组织体系进行描述。(4)档案管理与服务机制元数据。这种元数据是对档案信息资源使用与管理中的资源评价、使用控制、权限管理、长期存取等方面的政策和控制机制进行描述。(5)档案信息管理过程与系统元数据。这种元数据是对档案信息服务过程和档案信息系统的运行模式、工作流程、模块调用、系统控制等进行描述。(6)档案宏元数据。这种元数据是指对描述档案元数据本身标记语言、格式语言、套用、复用共享机制、转换机制等进行描述。
可以看出,关于档案元数据的类型划分问题,目前档案界是众说纷纭,各持己见,还没有很好的定论,不同的研究角度有着不同的观点。笔者认为这样的局面只是暂时性的,随着档案学者们对元数据的进一步研究,一定会对元数据的类型做出完善的全面的总结。
分析了元数据的定义、内涵及其类型,那么元数据到底是干什么用的呢?这就是元数据的的具体作用或者说是它的功能,这一方面也是档案学者研究的重点。
刘必全将元数据的作用归纳为这几方面:(1)确认和检索,主要致力于如何帮助人们检索和确认所需要的资源,都柏林核心标准(Dublin%Core)是其典型代表。(2)著录描述,用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法,甚至相关数据单元方面等,数据元素数量往 往 较 多 ,MARC、GILS和 FGDC/CSDGM是 这 类Metadata的典型代表。(3)资源管理,支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理、电子签名、资源评鉴、使用管理等方面的信息。(4)资源保护与长期保存,支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式、保存责任等内容。
其他学者对档案元数据的功能也有着各自不同的见解。刘越男在研究电子文件中的元数据时提到了元数据对电子文件的著录功能,他指出电子文件的著录不同于传统的纸制文件的著录,档案元数据在著录工作中不仅仅可以为编制检索工具所用,还通过对文件内容、结构、背景的全面描述,帮助人们确认电子文件的长期真实性。张大伟也提出用于归档电子文件管理的元数据有两个作用:一是描述功能,即选择、记录电子文件的内容或形式特征属性,以便于电子文件的检索、选择、定位和提供利用。二是是管理功能,即选择、记录电子文件从形成到销毁的整个生命周期过程中的变化、使用和管理信息,以及对元数据本身的管理信息,如元数据的来源、与主文件的关联信息等,以控制和证明电子文件的真实性、完整性、有效性。徐维也撰文强调了元数据在电子文件管理中的重要作用:元数据有效地加强了电子文件的凭证作用,元数据有力补充电子文件的著录,元数据可以在一定程度上保证电子文件的长期可读性。
从以上的研究中可以看出,对于目前电子文件时代的档案工作中,元数据有着重要的作用,虽然众多学者对其功能作用研究的角度不同,表述各异,但可以看出大家都认同元数据在维护电子文件真实性、有效性和完整性方面的功能,元数据已经是电子文件管理时代的一项必不可少的技术基础。
关于档案元数据的标准化这一问题,现在大多数学者都是在对国外的元数据标准进行分析研究的基础上,对我国的档案元数据标准制定找寻一定的启示和借鉴。
谈及相关档案资源管理的元数据标准,应该要提及都柏林元数据标准(DC),它是由Dublin%Core%工作组制定的元数据国际标准,现在广泛地应用于元数据的标准管理领域,成为各种资源元数据制定元数据标准的基础。它包括十五个核心元素:题名(Title)、作者或创作者 (Author%or%Creator)、主题词和关键词(Sub ject%and%Keywords)、描述(Description)、出版者(Publish er)、其他参与者(Other%contributor)、时间(date)、类型(type)、格式(format)、资源标识(resource%Identifies)、来源(source)、语言(language)、关联(relation)、覆盖范围(coverage)、权限管理(rights)等,这些元素都是可选和重复使用的。[3]另外还有“档案置标著录”(EAD)是标准置标语言(SGML)的一个专用数据类型,是专门为解决检索工具上网而制定的标准,王小丽和王芳在《国内外数字档案馆元数据标准体系比较研究》一文中对EAD进行了详细的介绍。
除了对国外一些标准的介绍,还有不少学者以比较的方式全面地分析各种标准的异同。郝晨辉、曹燕、李华锋在研究这一问题时,就在阐述元数据的定义、作用以及元数据标准化的必要性的基础上,比较了都柏林标准(DC)、澳大利亚电子政务元数据标准(AGLS)、新西兰电子政务元数据标准(NZGLS),指出在电子文件管理中的元数据的标准化问题已经是电子时代档案管理中的一个急需解决的问题,我们可以在借鉴和吸收国外好经验的基础上,建立与我国具体情况相符合的电子文件元数据标准。而张正强则指出对电子文件元数据的标准化研究,明确元数据国际标准化的背景,然后从元数据的概念、需求、建立原则、体系框架的国际标准化分别论述。程妍妍对元数据的标准化问题则从另一个角度探讨,她认为元数据在内容和结构上的有序应该集中体现在电子文件管理元数据标准中,因而在制定元数据标准时,要注意宏观上的标准化,同时也要注意每一个电子文件管理元数据语义内容和语法结构的标准化,即微观的标准化。宏观标准化,应当保持三个一致:“与国际通用标准相一致”,“与现有国家标准相一致”和“与专业领域标准相一致”。从微观来说,每一个电子文件管理元数据的语义结构和语法结构的描述要达到标准化,即电子文件管理元数据标准化、语义结构标准化、语法结构标准化。
与此同时,还有学者从元数据内容出发,研究其标准的制定方向。章丹和谭琤培就认为元数据包括著录项目和著录格式两个方面,因此,元数据的标准化就要包括元数据著录项目的标准与元数据著录格式的标准。著录项目的标准运用是都柏林核心标准,而著录格式标准则有超文本置标语言(HTML)和可扩展置标语言(XML)两种,档案界广泛使用的还是XML。
显而易见,档案元数据的标准化工作在当前的进展只是局限在对国外标准理论的学习和探讨过程中,学者们的研究角度大不相同,但大都是在分析和研究国外元数据标准的基础上,对我国目前档案元数据标准制定工作提出一定的建议和未来发展的方向。
[1] 谭琤培,章丹.%元数据的内涵、特点及其他——元数据研究之一[J].%浙江档案,2002,(02).
[2] 谭琤培,章丹.%档案元数据在电子文件鉴定中的运用——元数据研究之三[J].%浙江档案,2002,(06).
[3] 郝晨辉,曹燕,李华峰.谈电子文件元数据标准化[J].浙江档案,2003,(12).
[4] 刘必全.数字档案元数据研究[J].兰台世界,2007,(03).
[5] 徐维.元数据:电子文件管理的关键所在[J].山西档案,2000,(04).
[6] 谭琤培,章丹.%图书馆界元数据研究的现状及对档案界的启示——元数据研究之二[J].浙江档案,2002,(03).
[7] 徐维,胡吉兵,管志宇.元数据概念的产生、发展与成熟[J].中国档案,2003,(08).
[8] 刘越男.对电子文件管理元数据的再认识[J].档案学通讯,2005,(02).
[9] 程妍妍.电子文件管理元数据标准化研究[J].中国档案,2005,(12).
[10] 陈令.档案元数据标准分析[J].湖北档案,2008,(04).