李莉
(冶金档案馆三河065200)
基于长期保存的机关单位电子文件格式管理研究
李莉
(冶金档案馆三河065200)
大数据时代,各机关单位生成了海量的电子文件。然而,这些电子文件格式并不统一,给电子文件长期保存带来了巨大挑战。各机关单位电子文件格式需要满足格式透明、文件自包含、格式自描述等12项基本需求。同时,各机关单位要做好基于文件生命周期开展格式管理、采用国家与地方标准推荐格式、转换专有格式、留存电子文件格式相关的元数据信息、适当节约经费等电子文件长期保存格式管理工作。
电子文件长期保存文件格式文件生命周期
电子文件是通过计算机等相关技术生成和处理的文件,从根本上说是一种二进制编码的集合,每一种特定的二进制编码方案与一种特定的电子文件格式相对应。电子文件格式是指以某种格式进行编码而产生的信息存储形式,它依赖特定的软、硬件才能实施读写和操作。随着我国信息化建设的快速发展与“互联网+”时代的到来,各个机关单位产生了越来越多的电子文件。同时,由于信息技术的升级换代,各机关单位电子文件新格式不断产生、旧格式不能读取等现象时有发生,不仅导致产生于不同的操作系统、应用软件的电子文件不能共享,更严重影响了电子文件的长期保存,如果管理不善,将来就很有可能电子文件成为“数据垃圾”,发生不能读取的现象。因此,为了实现电子文件的长期保存,各机关单位务必做好电子文件格式的管理工作。
电子文件产生于机关单位的业务系统,具有重要的参考和凭证作用,是机关单位拥有的重要资产,选择有利于长期保存的电子文件格式可以更长久的发挥电子文件的重要作用。
按格式类型划分,电子文件包括文本文件、图像文件、音频文件、视频文件等。文本文件常见的格式有XML、TXT、RTF、WPS、PDF/A、OFD;图像文件常见的格式有TIFF、JPEG、GIF、PNG、DjVu;音频文件常见的格式有WAV、MP3、WMA、OGG、Vorbis、FLAC;视频文件常见的格式有AVI、MOV、MPEG等。由于电子文件格式种类达到200多种,性能各不相同。因此,需要尽量按照以下基本要求选择符合长期保存需求的电子文件格式。
(1)格式透明。有公开发表并免费使用的源代码和技术规范,软件的使用、修改、分发没有专利和许可的限制;获得相关标准化组织、产业联盟和第三方评价机构等的支持。
(2)较好的通用性。电子文件保存格式可以脱离计算机软硬件平台的限制,在不同的软硬件环境中保持较好的可识读性,满足计算机软硬件多样性的需要。
(3)文件自包含。电子文件呈现的信息,包括全部字体的字形描述信息、光栅图像、矢量图形、颜色信息等,全部自包含,而不依赖于其他软件。
(4)格式自描述。电子文件设置的元数据集,可以描述对象的属性特征,准确反映电子文件的信息要素和逻辑结构。
(5)显示一致性。电子文件应维持固定的文件页面、章节、段落、字体等的显示,不会随着软硬件平台和阅读软件的改变而发生变化。
(6)持续可解释。允许用户对文件和文件中的对象添加注释;禁止设置口令保护、加密;文件中引用的资源和运用的算法公开且免费。
(7)持续可用。文件格式稳定,版本升级有序,并向后兼容;设置有效的容错机制;支持无损压缩。
(8)可转换。支持转换为版式电子文件存档格式或通用格式。
(9)利于存储。电子文件格式紧凑,数据占用字节数少;支持在一个文件中容纳大量对象和数据,不必把数据拆分成块;具有聚合能力。
(10)支持技术认证。支持数字签名、循环冗余校验或纠错码;使用的数字签名能被多种操作系统和硬件平台支持;数字签名必须视觉呈现,且全部信息完全自包含。
(11)易于利用。支持增殖服务,方便提取数据的子集,如分割页面等;支持全文检索;文件中包含的文本信息符合自然阅读顺序。
(12)便于传播。压缩后的无损文件占用内存更小。
1.基于文件生命周期开展格式管理。传统的文件生命周期理论认为,文件从形成到销毁或永久保存是一个完整的运动过程,该过程可划分为若干阶段,各个阶段的文件具有不同的价值特征,分别对应的是我国纸质档案管理流程中的机关单位业务部门、机关档案室和档案馆及其相关的管理工作。然而,传统的文件生命周期理论在数字环境中并不能完全适用,因为,这些阶段性特征会导致不同管理阶段对格式具有不同要求,一份文件生成、保管、利用出现不同的格式。因此,数字环境中电子文件格式管理需要破除各管一摊的管理习惯,开展全程管理,在电子文件创建之初,就选择符合长期保存要求的格式,做好前端控制,而不是到了最后保存阶段才进行长期保存格式的甄选和管理。
2.采用相关标准推荐格式。国家标准、国际标准与地方标准推荐的电子文件通用格式,是社会各方所普遍采用、普遍支持的,可以经得住时间的考验,确保在今后很长一段时间内,该格式仍然有效。机关单位生成的电子文件都尽量采用推荐的通用格式,以便于保管和交换。在执行过程中,可以遵照《电子文件归档与管理规范》(中华人民共和国国家标准GB/T18894-2002),文字型电子文件以XML、RTF、TXT为通用格式,扫描型电子文件以JPEG、TIFF为通用格式,视频和多媒体电子文件以MPEG、AVI为通用格式,音频电子文件以WAV、MP3为通用格式。该标准中没有规定的其他类型的文件可以参考其他国家标准、国际标准或者当地档案部门的相关规定。比如,北京市属的机关单位,文本文件可以选择PDF、OFD格式,图形文件可以选择VSD、DWG、SVG、EPS等原始格式,数据文件可以选择DBF、XLS格式。
3.转换专有格式。对于机关单位中由业务系统生成的专有格式,以及之前存在的非通用格式,应在确保电子文件真实性、完整性和有效性的前提下尽早转换成符合国家、地方标准的通用格式,对无法转换或不适合转换的电子文件,应将其技术方法和所依赖的软件一并归档。格式转换已经被国内外档案界视为解决电子文件长期保存和利用难题的一种基本方法。例如,澳大利亚国家档案馆利用开放源代码开发的XENA(XML ElectronicNormalizingforArchives),可以将指定数据格式的文件转换成“附加元数据的数据”和XML,用于长期保存,并提供给机关单位免费下载使用。南京大学档案馆通过南大之星软件的电子文件标准化转换中心功能模块,将多种类型的电子文件转换成PDF格式进行归档保存。
4.留存电子文件格式相关的元数据信息。电子文件的部分元数据是与格式相关的,包括在电子文件创建阶段的格式、编排结构、硬件和软件环境、文件处理软件、字处理和图形工具软件,在电子文件迁移阶段的硬件系统、系统软件、应用软件等等。这些元数据只有被完整齐全的收集、保留,才能正确反映电子文件格式的背景信息,从而确保电子文件的真实性、完整性和有效性。
5.节约项目经费。电子文件格式管理的费用包括购买、维护该格式软件费用、相关格式转换费用及人员培训费用等。电子文件格式管理作为一项长期工作,需要精打细算,节约成本。具体实施时,可选择采用开源技术研发的软件来支持本机关单位电子文件格式管理,这样的软件获取过程要相对容易,同时,不仅获取费用相对较低,也可以降低维护费用、培训费用等,有利于电子文件格式管理成本的最小化。
[1]毛义春.电子文件长期保存格式探析[J].北京档案,2009(12): 15-17.
[2]刘东勤,方慧惠.档案信息化过程中的新型电子文件格式问题研究[J].机电兵船档案,2010(3):78-80.
[3]黄玉明.电子文件格式困局破解之道[J].中国档案,2010(7): 56-58.
[4]李泽锋.档案数字化的电子格式研究[J].档案学研究,2004(5): 51-55.
[5]吴新宇.电子文件真实性保障探析:论档案登记备份制度下的电子文件真实性保障机制[J].浙江档案,2010(8):7-8.
[6]黄玉明.电子文件存档格式需求分析与战略研究[J].档案学通讯,2010(2):63-66.
[7]钱毅.基于长期保存视角的电子档案格式管理研究[J].档案学通讯,2016(6):52-57.
★作者李莉为冶金档案馆副研究馆员,研究方向为档案管理。
10.16565/j.cnki.1006-7744.2017.17.15
G270.7
A
2017-07-19