周 祺 张照余
(苏州大学社会学院,江苏苏州,215008)
电子文件具有对其初始技术环境的依赖性,合理选择归档文件格式,加强对文件格式的管控,可以降低这种依赖性,延长归档文件的技术生命,并有助于在现有格式彻底淘汰前建立起可行的迁移途径,通过格式转换延展归档电子文件的寿命。文件格式登记与管控系统,是电子文件的格式数据库,通过共建共享方式集中收录所有馆藏电子档案的文件格式信息,跟踪记录每种格式的升级迭代及其技术环境的更新变化,基于量化分析对各种文件格式的长期保管风险进行科学评估,并给出危险格式的转换目标格式及其迁移手段。文件格式登记与管控系统不仅是一个在线的文件格式信息库,更是一个格式研究评价中心,拥有登记、管控、跟踪、评估各类电子文件格式及其技术环境动态变化的一系列功能。
开发建设文件格式登记与管控系统是国际档案界普遍认同的电子档案长久保管策略之一。英国国家档案馆(TNA)早在 2012年创建了格式登记系统PRONOM (Digital Format Database),并开发DROID(Digital Record Object Identification)工具用于识别归档文件的格式信息。[1]美国国家档案与文件署(NARA)则在2018年设立了格式概览(Format Profile)项目,该项目在系统分析格式风险的基础上列举出10种最不宜归档的文件格式。[2]2021年,中办国办印发《“十四五”全国档案事业发展规划》,明确“深入推进档案安全体系建设,加强电子档案长期保存技术和管理研究”。格式管控关乎电子档案长期保存问题已在我国档案学界达成共识,并逐步形成了归档文件格式规范,但在实践中我国尚未建立全国性的格式登记与管控体系。本文在借鉴国外实践的基础上,对我国电子档案文件格式登记与管控系统(Format Register and Monitor System,简称FRMS)进行了初步构想和模型设计,以期为该系统的开发落地提供参照。
建设开发电子档案的文件格式登记与管控系统,首先要明确其建设开发的实施主体和系统的适用范围,并且建立起长期有效的运行机制来确保其可持续性。所谓实施主体就是由谁来建设和维护的问题,而适用范围则是规定该系统的服务对象和服务领域。
笔者认为,国家档案主管机关是最理想的实施主体。由于我国尚未对归档格式的背景数据进行全面登记和管控,因此,由国家档案主管机关作为实施主体牵头创建并运行该系统,具有较强的组织号召力和资源把控优势。除此以外,非官方的社会组织、档案研究机构、档案服务公司等也可实施或参与电子档案格式登记与管控系统的开发与运行,利用自身技术、资源及经验优势,以公益或市场化的运作模式建立区域乃至全国性的电子档案文件格式登记与管控系统及其运作体系。
电子档案文件格式登记与管控系统,可以也应当面向全国各级各类档案管理机构,包括档案馆、档案室以及图书馆、数据中心等相关领域,其基础数据来源越广,数据的共享面越大,数据分析的准确度就越高,系统实施效果和社会效益也越发显著。无论建设主体是谁,也无论采取何种运营模式,共建共享始终是电子档案文件格式登记与管控系统的建设原则。
对比国外已有格式登记与管控系统,该系统集合了格式登记、格式识别/格式验证、格式风险评估等功能于一体,具有较强的综合性、动态性与研究性。其中,准确获取文件格式信息是文件格式登记与管控系统有效运转的基础,以下要素构成文件格式登记与管控系统开发运行的前置要件。
首先要建立或选择涵盖面广并被普遍接受的文件格式标识体系,据此为每种格式及其不同版本做标识符,将该标识符作为每种格式在系统中的唯一ID。这类似于数据库中每组字段的唯一主键。特别说明的是,格式标识符的编号方式应体现该格式的类型、格式属性、版本关系。
格式识别工具(模块)是文件格式登记与管控系统(FRMS)的重要组成部分,其识别结果将作为文件类别与格式风险判断的依据。据国外研究,一般有三种方式识别文件格式:第一种是通过文件自带的扩展名判断;第二种是通过机器可识别的MIME型元数据判断;第三种是通过文件二进制代码包含的有关格式数据或特征信息来判别。[3]系统也可以引用已有的开源格式识别软件的源代码来帮助实现格式识别功能。
格式清单是以格式登记库(Format Registry,简称FR)数据为对象,基于格式技术环境分析和安全风险评估而生成的动态反映各种格式安全性的数据库。它在系统的数据存储中是以一张数据表的形式存在,因此在系统设计层面也称其为“格式清单表”。按照格式风险等级可划分为 “推荐格式清单库”“危险格式清单库”等,它是评判某种文件格式是否适合归档的科学依据,同时也是档案库定期检测格式安全性的参照标准。格式管控中心必须在每次格式风险评估后定期更新这些格式清单,以为档案馆(室)实施电子文件归档和电子档案格式转换提供指南,实现对归档文件格式的风险管控和安全预警。
按照软件开发结构化模型——瀑布模型(SDLC)的设计方法,在FRMS的设计与开发之前首先需要明确该系统的功能要素。总体来说,FRMS系统需要帮助用户实现格式信息的查询/登记、文件格式识别、危险格式文件迁移等命令,此外它还可以自动监测电子档案数据库中的格式信息,统计危险格式文件数量并通知用户。吸收PRONOM等国外格式登记系统的功能设计理念,结合格式登记与管控的策略需要,将FRMS的功能总体上分为以下八个模块。这些功能的运行以“格式登记库(FR)”及系统中建立的“推荐/可接受/危险格式清单表”“格式转换器清单表”等前期建立的基础数据为支撑。
一是“文件导入”模块。用户将拟归档进入文件存储系统的电子文件或已归档的电子文件通过单独或批量上传的方式导入FRMS的功能。二是“格式登记”模块。用户提交与文件格式相关的信息来更新文件格式数据库的功能,通过不断增加新出现的文件格式及格式信息来提高系统格式信息的全面性与专业性。三是“格式识别”模块。识别用户导入FRMS的电子文件格式并匹配格式登记库中格式信息的过程,它是判断文件格式风险的前提。四是“格式查询”模块。用户检索FRMS中的格式信息以及兼容格式的软件信息,并以浏览界面与检索框并存的形式展示于系统首页。其中检索项可设置为“格式类型”“格式名称”“扩展名”“软件名”等。五是“格式风险评估”模块。依据风险评估指标体系分析每种格式的“格式风险等级”,以此来判断文件格式的安全性,它是决定是否进行格式转换的关键。六是“格式转换/迁移”模块。有将风险评估为“危险”级别的文件转换为相应的“低危或无风险”格式文件的功能。七是“危险格式预警”模块。格式转换后的文件如果无法转换为“格式清单”中可接受格式或转换后出现文件本身不可读的现象,如出现乱码等,系统将发出“危险格式预警”信号,提醒管理人员格式转换失败。八是“归档”模块。将已具备“可接受格式”或“推荐格式”等级的电子文件及其元数据传输至电子档案管理系统内的过程。该模块考虑到与档案保存系统兼容,尽可能与其保持功能一致,以保护文件完整与安全。模块拟具备电子文件“四性检测”功能,可将原始文件、格式转换后的文件以及各格式下的元数据完整归档。
(1)活动流程分析。FRMS的活动流程符合OAIS参考模型中的电子档案管理逻辑,以便在电子文件管理的同时对格式进行管控。同时将格式管控流程纳入电子文件管理,从而拓宽OAIS模型对于“长久保存计划”的含义。流程中共有两条路径对文件格式进行风险管控:对于尚未归档的增量(零散)电子文件来说,用户将电子文件导入FRMS后,系统将对其进行格式识别,将可以识别得到的结果与各格式清单库进行比对,符合推荐格式的文件将直接归档;若属于危险格式,尤其是高危格式则需进行格式转换(迁移)后进行归档。对于已经归档的存量电子文件来说,系统需要根据“危险格式清单”定期检索电子档案管理系统内的电子档案,通过档案管理系统的格式索引批量识别危险格式文件,并对检索出来的危险格式进行格式迁移,以将档案库内的文件格式控制在安全范围。检索周期可根据格式清单库的更新频率、政府或机构公布的格式策略(或标准)而定,也可以根据服务器的忙碌程度而定。
格式登记库(FR)作为FRMS重要的后台数据库,其数据来源于两个渠道。第一个是系统普通用户或归档业务人员申请登记格式信息,由电子档案管理员审核格式信息的准确性与标准性,如果符合登记标准则格式信息直接进入库内,不符合则登记失败;第二个是电子档案管理员可以直接登记格式信息,更新格式数据库的信息。其中在上传电子文件时,无法进行格式识别的用户也可以进行登记或申请登记格式数据。登记的格式应符合“归档范围适用性原则”“文件格式分类管控原则”及“格式转换前后档案内容等价原则”并且应拥有自身格式标准,符合FR数据库的属性,做到真实、准确、有迹可循。
(2)用例分析。根据角色的不同将系统功能划分成不同使用权限。将使用FRMS的角色分为“角色1”“角色2”“角色3”三类。依据系统功能概要,FRMS的用例有“上传电子文件” “更新FR” “查询FR”“审核格式信息”等10个。角色1现实中的身份是电子档案管理人员,他们负责归档电子文件的管理工作,其中包括文件的格式风险控制,因此这类用户的功能权限全面且贯穿格式登记与管控的全流程,权限级别最高。角色2现实中的身份是业务人员,他们的部分工作是负责一个部门或一个机构的电子文件收集与归档,不具备档案管理的职能。在归档阶段需要了解归档格式要求,查看“推荐/危险”格式清单,必要时需将危险格式进行转换,以保证归档质量。因此这类用户权限级别低一级。角色3现实中相当于档案管理工作之外的普通用户,在其日常工作中没有文件归档职能,但使用FRMS可以帮助他们查询现有格式信息,识别手头文件的格式并进行简单的格式转换。FRMS向大众开放可以有效地起到“格式风险”知识普及的作用。因此可以帮助普通用户解决部分“格式问题”。
图1 FRMS数据流图(DFD)
系统的逻辑功能是根据需求概要分析系统内部功能之间以及与外部实体的交互关系。根据设计规划,FRMS的逻辑功能以绘制三层数据流图来描述。(见图1)
从逻辑功能架构分析可知,FRMS大概需要五个数据存储。它们由数据库或数据表组成。数据库是表的集合,表用来描述与存储数据及其元数据。本节针对FRMS数据存储中“格式登记库(FR)”以及“格式清单表”“格式转换器表”进行设计建模。由于这三个数据存储设计关乎电子档案文件格式的登记策略与风险控制,因此良好的设计方案尤为重要。
(1)格式登记库设计格式。登记库(Format Registry,FR)是一个可以存储、发现和提供有关电子档案文件格式信息服务的关系型数据库模型。它是由多个数据表组成的,该登记库亦可通过网络界面实现格式数据的检索与更新。一是概念设计。数据库的概念设计一般通过E-R图表达。据笔者研究,FR需要建立四个实体和三种关系,分别是“格式”与“查看器”的相关关系、“格式”与“格式类型”的所属关系以及“查看器”与“开发商”的开发关系。这样设计的原因概括为两点:第一,对电子文件来说仅记录格式本身的信息是不充分的,记录查看器及其开发商的信息可以更全面地判断格式风险;第二,文件格式需要分类、分专业管控,因此单独设计一个“格式类型”实体与“格式”实体相关联。此外,各实体(或关系)属性的数量体现出格式元数据信息的粒度大小,映射到数据表中是各条数据的字段,因此需要全面地考虑属性问题。FR的属性数量与定义设计见图2,其中“格式ID”字段是唯一识别符。二是逻辑设计。将FR的E-R模型转化为关系模式,分别得到格式表、查看器表、格式类型表和开发商表。
(2)格式清单表和格式转换器表设计。格式清单表是格式风险评估结果的数据体现。根据文件格式属性与评估结果所需数据,将该数据表的逻辑结构设计如下:格式风险评估结果形成的格式清单按照危险程度区分,即“推荐格式清单”“可接受格式清单”和“危险格式清单”。因此数据表中“危险级别”字段下的条目设置将与以上三种危险程度相对应。若想单独生成各危险级别的清单时用库内的“查询(select)”语句即可。不同危险程度的格式清单形成知识库应用于各个场景。
格式转换器表的作用是存储经过测试后的格式转换器信息,在格式转换(迁移)之前方便用户以最快的速度选择符合适用范围的转换工具。根据“格式转换前后内容一致性”原则,转换器表中需设置“转换器描述”字段,以方便录入各个转换器使用后质量损失与功能损失情况数据。
图2 FR数据库E-R图
观感(界面)需求方面,要求系统界面简洁、颜色友好、功能清晰、操作简单。为方便用户使用,页面中需要放置格式信息的检索框和格式类目导航且首页展示系统的主要功能模块。系统性能方面,要求FRMS运行稳定,有一定的容错能力和可扩展能力。同时要保证自身系统与电子档案管理系统的数据安全。用户交互模式选择方面,为了更方便地维护与开发且不受操作系统的影响,FRMS采用B/S的架构,用户通过浏览器即可完成数据交互。开发时采用体积小、速度快、成本低的MySQL数据库,它搭配 PHP和Apache服务器即可组成良好的开发环境。