刘越男
在档案界对电子文件管理方案的探求过程中,元数据一直备受关注。国际化意识的提高,国家层面元数据标准长时间的空缺,这两方面的因素致使越来越多的业内人士从国际标准、国外标准中寻求支持,2006年1月出台的ISO 23081-1《信息与文献——文件管理流程——文件元数据——原则》①和2007年7月出台的ISO/TS 23081-2《信息与文献——文件管理流程——文件元数据——概念及实施》②规定完备,阐述详细,一经颁布,影响立现。国家档案局今年3月份公布的两份元数据标准征求意见稿中,都可以清楚地见到ISO23081的痕迹。
一、ISO23081的定位和主要内容
ISO23081是文件管理国际标准家族中的一员,它置身于相互配套的一系列文件管理国际标准中。该标准族由国际标准化组织信息与文献委员会下的档案/文件管理分技术委员会负责起草,以ISO15489《信息与文献——文件管理》③为核心。ISO23081旨在引导机构以合适的元数据管理支撑ISO15489的文件管理框架。
ISO23081本身也是配套标准,共包括四个部分。ISO23081-1阐明了文件管理中元数据管理的原则性、一般性问题,如元数据的视角和作用、元数据管理的角色和职责、文件管理元数据与其他领域中元数据之间的关系、元数据管理流程等,并明确了支持ISO15489的元数据类型。ISO23081-2则阐明了与元数据实施相关的概念、程序与方法问题。ISO23081-3《信息与文献—文件管理流程—文件元数据—文件管理元数据集的评估》依据ISO15489和ISO23081-1对现有元数据集进行评价,ISO23081-4《信息与文献—文件管理流程—文件元数据—实施核查表》为元数据实施工作提供一份核查清单,这两个部分的标准正在制定过程中。
二、来自ISO23081的启示
1、丰富了对元数据及其作用的认识
元数据是描述文件背景、内容、结构及其管理过程的数据。ISO23081从元数据的表达形式、用途、与文件之间的关系等方面进一步揭示元数据的含义。从表达形式来看,元数据是结构化或半结构化的信息;从用途看,元数据旨在确保文件跨时空的形成、管理及利用;从与文件的关系上来看,无论在物理上元数据和文件是否分开存储,都应被当作是文件的一个组成部分。这些表述明确地表达了元数据与文件、元数据管理和文件管理唇齿相依的关系,比起我们既有的“元数据是文件管理的工具,元数据管理是文件管理的一项内容”这样一般性的认识,ISO23081无疑更进一步。
我国档案界对元数据作用是这样认识的:提供了对文件的全面描述,有助于保障文件的真实性、完整性、可读性,支持文件信息的组织和查询、支持文件的全程控制、支持文件管理流程的集成与优化 ④。尽管表述的风格、角度、详略程度不同,但是中外对于元数据作用的主要阐释基本是一致的,不一致的地方在于:ISO23081未明确元数据对文件管理流程集成与优化的支持作用,而它提出的元数据“便于对文件的理解”、“支持互操作性”这两点作用则是中方相对忽视的。
(1)便于对文件的理解。我们对于元数据之于文件真实性的保障作用给予了足够的重视,却较少注意其对文件可理解性的贡献。当文件脱离于原有业务环境时,有什么比保证其可理解性更急迫呢?元数据揭示了文件之间的关联,提供了文件生命周期的全景描述,可以让我们看到文件及其记录事件的来龙去脉。
(2)支持互操作性。互操作性是ISO23081反复强调的一个概念。所谓互操作性,是指两个或多个自动化系统可以顺利地互换信息,并且能够识别、处理和利用信息。业务系统之间、文件管理系统与业务系统之间、新旧系统之间、跨机构的系统之间均存在互操作的需求,标准化的元数据是保证系统互操作性的必要前提。目前,为解决互操作性问题,一般采用接口的方式。ISO23081指出,短期内这种方式是可行的,但是随着系统的变化升级其效用不能持久,且成本很高。相比而言,建立统一的元数据方案登记机制,在不同系统的元数据方案之间建立映射关系,并加以保存和维护,实现实时更新和动态化、自动化的翻译,这种方式更为灵活,受系统升级的影响较小。
若将中外认识加以结合,我们对于元数据能干什么的解答会更为全面、细致。
2、扩展了多级著录的范畴
多级著录是《国际标准——档案著录规则(总则)》确立的档案著录工作的基本原则,它明确档案著录必须由总到分进行,即依次对全宗、大类、小类、案卷直至单份文件进行描述,且以等级结构形式对不同级别的著录结果加以连接。多级著录是全宗原则在著录领域的具体要求,是维系文件之间多级关系的手段。
我国《档案著录规则》(DA/T-1999)仅规定了案卷、文件两个级别的著录,且未对两级著录的关联加以规定。当我们还在思考如何完善所有层次文件集合的著录的时候,ISO23081扩展了多级著录的范畴,将多级著录进行得更为彻底。ISO23081指出元数据所描述的四类实体——文件、人员、业务、规范都具有多个层次,都需要予以著录,其中文件实体涉及全宗、系列、案卷、文件等层级,人员实体包括机构、部门、工作组、个人等层级,业务实体包括联合职能、职能、活动、事务等层级,规范实体包括立法、政策、业务规则等层级。可以看出,文件实体的多个层级乃多级著录的既定范畴,人员、业务、规范实体的多个层级则为拓展范畴。借助于这样广泛的多级著录,不仅展现文件之间的内在联系,还可以全面描绘出文件得以产生、管理和利用的机构背景、业务背景和制度背景,切实履行了特里·库克当年提出的档案人员从“实体保管者”到“背景的知识提供者”的转变 ⑤,也为元数据为何便于对文件的理解做了最好的说明。
3、有效实现了文件管理和业务管理的集成
(1)管理视角的集成。针对元数据可能存在多个共存的视角,包括业务视角、文件管理视角和文件利用视角。
(2)管理职责的集成。ISO23081一再申明:元数据管理是业务管理和文件管理职责的一部分,其职能分工是面向全员的。其中,一般员工保证其负责的元数据的准确和完整;文件管理专业人员负责确保元数据的真实、可靠和可用,参与元数据方案的制订,制定相关的方针和战略,监督元数据的形成过程,并负责相关工作培训;执行主管负责实施内部控制,提供行政支持;信息技术人员负责系统保障和技术支持;等等。
(3)元数据来源和用途的集成。除了文件管理之外,元数据还可能应用于电子业务、保管、资源描述、资源发现和权限管理等多个领域。这些领域中的元数据可以共享,某一项元数据可以同时具备多种用途,比如文件管理元数据可以直接来自电子业务系统,可以借用资源描述元数据,扩展后可以用于资源发现。
集成视角提醒我们不能为了管理文件而管理文件,为了管理元数据而管理元数据,而要将元数据管理、文件管理纳入到机构整体业务建设中,并在其中发现根本动力,在现有政策、方法和工具中寻求支持。
4、明确了元数据管理的两个层次
ISO23081指出元数据管理流程包括两个层次:业务层,即形成、捕获和管理元数据;支撑层,即制定、实施、维护和管理元数据规则及元数据结构。业务层是元数据管理的主体部分,支撑层则是其基础部分。没有详尽合理的规则设计和结构设计,元数据的形成、捕获、利用、维护和监控就没有科学统一的依据,元数据管理的成效也就无法得到保障。
相较而言,虽然我国档案工作者同样认为对元数据结构应进行设计,对元数据管理应该进行规划,应确定元数据管理的职责分工,不过并没有这些内容纳入元数据管理中。将元数据管理区分为业务层和支撑层,有助于掌握与元数据管理直接相关的所有工作内容及其相互联系,特别是提醒我们在具体开展元数据管理业务之前,须一一明确其支撑性工作内容:职责分配、应该形成并捕获什么样的元数据、何时以何种渠道获得元数据、何种元数据结构是有效的、应采用何种标准和何种支持系统等。
5、揭示了元数据标准应用的完整流程
元数据标准的制定一直是我们建设元数据标准的重点,ISO23081-2则将我们的视线从标准的制定导向了标准的应用,详细阐述了在一个组织机构的范围内设计、表达、登记、施元数据方案的完整过程和方法,具有较强的实践指导价值。笔者将元数据方案理解为组织机构实际应用的元数据标准。
(1)元数据方案的设计。除了要明确元数据元素之外,设计一份元数据方案,还要明确元数据元素之间的相互关系(即元数据结构),明确元数据的著录规则(如默认值、约束性、可重复性、相关性、著录方式、著录条件等)和编码体系;如果采取XML将元数据和文件予以封装,以此来实现两者的关联,还要明确XML封装格式。若要采纳其他领域元数据方案,要对其元数据元素的语义、著录规则、编码体系进行详细检查,以满足文件管理的要求。
(2)元数据方案的表达。在电子环境中,元数据方案需要纳入文件管理软件,在系统中实现。ISO23081指出,可供人理解的元数据方案的需求和建立机器可操作的格式要求是不同的,若采用XML来表达元数据方案,需要特别注意确认其返回结果的准确性、处理多级元数据及其相互关系、保证每个元数据元素的功能,并识别和管理元素之间的依赖性。
(3)元数据方案的登记。为了让各系统能够对元数据方案有充分的理解,满足跨机构、跨时间、跨系统的互操作性要求,应将文件管理元数据方案同其他元数据方案一起纳入到组织机构的元数据登记机制中,提供对元数据方案及其规定的元数据元素的详细说明,并予以维护与更新。
(4)元数据方案的实施。ISO23081对于这个部分的规定非常细致,除了明确元数据的捕获、存储、长期管理等常规性业务方法之外,还特别提到在文件鉴定、转存、迁移等操作中元数据的处理方式,为元数据管理注入了新内容。以鉴定为例,鉴定时不仅要决定需要保存哪些文件,还需要决定必须捕获哪些元数据,这些元数据需要保存多久;销毁文件时,需要决定元数据需要销毁还是单独保存下来,以作为文件曾经存在的证明。
三、ISO23081带来的困惑
1、术语差别问题
多年以来,很多学者在不同场合中都提到:国内外关于文件、档案的术语不一致。随着中外学术交流得频繁,我们越来越多地借鉴应用国外的文件、档案管理理论和方法,但是术语差别并没有得到应有的重视。总体而言,我国的文件、档案概念均大于文件管理国际标准中的概念。在我国,文件是指业务活动的直接记录,而ISO15489中文件则是指被保存的记录,大致对应于我国“立档单位的档案”的概念,但涵盖了归档前的文件生命阶段;而西方英语国家的档案多指具有永久保存价值的,通常在档案馆保存的,且具有一定文化、历史价值的那部分文件。如ISO23081将元数据管理划分为文件捕获和文件捕获之后这两个阶段,若用我国现有术语来解释,则为文件归档和档案管理这两个阶段。面对这样的术语差别,我们有如下两条路可以走,每条路都有自己的问题。
(1)明晰化处理。即用我国现有术语体系来翻译、解释文件管理国际标准,用机构档案替换文件的概念。这种处理易于理解,易于中外管理方法的比较和改进,但是由于档案在我国不是一个覆盖文件整个生命周期的概念,所以无益于我国文件管理前端控制、全程控制难度大这个缺陷的弥补,甚至有可能会固化分段管理的模式。
(2)模糊化处理。维持现有的翻译,这种做法有助于打破现有管理体制的限制,有助于文件全程管理的展开,有助于记录保存工作的社会认同;但不易在中外管理方法之间进行关联,也可能造成文件管理国际标准主要面向文件管理,档案部门难以借鉴和实施的印象,还可能因为国内对于文件的理解过宽而削弱其管理的专业性。
2、文件管理方法体系的差别问题
《档案学通讯》论坛上的一则帖子“元数据能够证明电子文件的真实性吗”,吸引了逾4000的点击量 ⑥ ,不少跟帖者或多或少地表达着这样的怀疑:元数据的作用真有那么大吗?元数据是否被万能化了?这种怀疑是有道理的。元数据产生和应用于其他各项文件管理活动,如果它能够发挥预期作用,就必然要求其他各项文件管理活动都合乎预期规范。换句话说,元数据管理的成效决定于各项文件管理活动的整体成效,一环滞后,便可能产生连锁反应。因此,如果要应用ISO23081,就必须对各项文件管理活动都进行检视,看看是否具备实施标准的条件。
当我们尝试着开展这项检视工作时,便发现了重要的中外差别,包括文件管理职责分工,文件管理法规要求,文件分类、鉴定、归档方法等多个方面。在此仅以文件分类为例,目前我们主要将分类定位为一项便于检索的工作,而在关键词检索盛行的信息时代,检索越来越少地依赖于分类体系,大量机构因而简化文件分类。而文件管理国际标准则将文件分类视为全程管理的工具,统一实施职能分类法、职能鉴定法以及相应的文件控制,即按照文件反映职能的类别区分文件类别,一旦文件类别得以确定,即文件类别的元数据得以形成,便可以按照职能重要性自动化、批量化地判断文件价值的大小,随即自动归档文件,并实施对重要文件的监控、存储、维护。因此,分类是构建文件管理方法体系的基础,在该方法体系中,职能分析是贯穿文件管理全过程的主线。基于职能分析的文件管理方法体系有其深刻的理论根源——新来源观,新来源观主张文件来源的本质并非文件形成机构,而是形成文件的职能活动。20世纪90年代以来,加拿大、英国、澳大利亚等国陆续制定了多个基于职能的分类方案指导实践。⑦
相比而言,我国的文件分类、鉴定、归档、存储和维护等更多从经验出发,相对分散,欠缺理论的严密性和方法的一致性,尚未有意识地应用职能分析构建文件管理方法体系。ISO23081所代表的精细化、专业化的管理体系和我国实践领域中简单务实甚至粗放的方法取向之间有相当的差距,存在着巨大的管理文化差异。如果要构建基于职能分析的文件管理方法体系,文件鉴定方法、保管期限表、文件分类方法、分类方案都需要重新建构,从何开始才可行?新旧工作如何衔接?如果不应用职能分析的方法,我们是否还有更好的选择?
3、元数据概念模型的应用问题
ISO23081明确的元数据概念模型是整个标准中最为醒目的一部分。该模型揭示了元数据描述的文件、人员、业务和法规要求这四类实体及其相互关系,形成了一个逻辑严密的概念体系,如下图所示。上文中提到的广泛的多级著录即以此模型为基础。我国制定的《电子文件元数据标准》、《电子文件管理细则 第一部分 文书电子文件元数据方案》这两个标准征求意见稿都采用了该模型。笔者一方面感受到了其逻辑上的严谨性,也对其实施产生诸多困惑,包括:
(1)法规要求实体的实施问题。我国两个元数据标准征求意见稿都将法规要求实体排除在外,这样也排除了文件管理国际标准最重要的实施根基——法制根基。根据ISO15489的规定,文件是机构履行法定义务的记录成果,文件真实性的本质内涵是指文件产生与既定法规要求相符,整个文件管理标准家族都是以文件法制化管理为契机出台的。的确,我国的档案著录工作没有描述形成、保管文件的法规要求的传统,相关法规要求不多,也不配套,社会整体法制环境还不完善,但是文件的法治化形成、保管是不是发展方向呢?我们是要兼顾现实暂时屏蔽,还是应该抓住方向先行推进?
(2)文件实体元数据的设置问题。ISO23081中,四大实体四足鼎立。而已经出台的一些国家的元数据标准则多以文件实体为中心,将人员、业务、法规要求实体元数据纳入背景类或管理过程类元数据,最具代表性的便是采纳了戴维·比尔曼“可为业务活动接受的通信的元数据参照模式”⑧的《澳大利亚联邦机关文件保管元数据标准》,该模型将元数据划分为登记、期限和条件、结构、背景、内容、利用史六类,和“元数据是描述文件内容、结构、背景、管理过程的数据”这样的认识关系密切,故而容易理解和接受。如果直接采用ISO23081的概念模型,将导致文件实体元数据的包容面过大而类别模糊。我国《电子文件元数据标准》征求意见稿中文件实体元数据元素有46个,业务和人员实体元数据元素一共49个;而《电子文件管理细则 第一部分 文书电子文件元数据方案》征求意见稿中的文件实体元数据元素达到90个,业务和人员实体元数据元素共18个。显然,ISO23081也认识到了这个问题,进一步将文件实体元数据划分为标识、描述、利用、事件计划、事件历史、关联六个类别。但是这种划分又自成一个概念体系,和既有认识有一定距离。我们花了很长的时间才逐渐接受“元数据是描述文件内容、结构、背景、管理过程的数据”,在这个认识还不牢固的时候,又要重新构建新的概念体系,而且这个概念体系尚未经受实践的检验,可行性如何?
4、科学研究的推进问题
启示和困惑交织在一起,提醒我们电子文件管理空间无限,任重道远。
注 释:
1、ISO 23081-1:2006 Information and documentation -- Records management processes -- Metadata for records -- Part 1: Principles,其最终版本的译文由安小米和焦红艳翻译,由《浙江档案》2006年第11、12期,2007年第1期连载。
2、ISO/TS 23081-2:2007 Information and documentation - Records management processes - Metadata for records - Part 2: Conceptual and implementation issues,其中主要篇幅的译文由赵建平翻译,请参见安小米.基于ISO15489的文件档案管理核心标准及相关规范.北京:中国标准出版社,2008.2:110-139
3、安小米、焦红燕译:《文件管理国际标准ISO15489》,《城建档案》2002年第2期、第3期。
4、冯惠玲:《政府电子文件管理》,北京:中国人民大学出版社,2004年版。
5、[加]特里·库克:《电子文件与纸质文件观念:后保管及后现代主义社会里信息与档案管理中面临的一场革命》,《山西档案》1997年第2期。
6、马刺王朝:《电子文件能够证明电子文件的真实性吗?》,http://www.daxtx.cn/bbs/frame.php?frameon=yes&referer=http%3A//www.daxtx.cn/bbs/,发布于2008-04-15,访问于2008-07-02。
7、朱叶吉:《信息资源管理视角下的文件分类体系研究》,中国人民大学信息资源管理学院硕士学位论文,2008.5:9-17。
8、[美]戴维·比尔曼:《虚拟档案》,《第十三届国际档案大会报告集》,北京:第十三届国际档案大会组委会学术规划部编印,1996年。
作者单位:中国人民大学信息资源管理学院