电子文件长期保存回顾与展望

2018-11-26 09:31蒋术吴明霞
档案天地 2018年9期
关键词:光盘载体

蒋术 吴明霞

据悉,我国1982年第三次人口普查的原始数据因遭水淹99%已经无法读出,这些保存在磁带上的数据,涉及大约10亿人口的基础信息。1989年底,原民主德国群众抢救了国家安全局9998盘计算机磁带和883快老式硬盘。由于原民主德国使用的电子设备是华约国家格式,且使用了加密算法和已经消失的计算机语言,到1999年,专家只识别出369盘计算机磁带内容。电子文件作为国家重要战略资源,产生于社会生活的方方面面,其长期保存关乎人类文明的传承,社会的发展。电子文件的长期保存至少包括两个方面的内容,即电子文件的长期存储及可读取、电子文件的真实性保证。电子文件长期保存的目标是:真实、永久、有效、安全、通用。本文将围绕电子文件的存储载体、保存格式和技术策略三个方面来探讨电子文件的长期保存问题,在回顾相关研究的基础上,给出电子文件长期保存的建议。

一、存储载体

电子文件作为一种数字信息资源,其存储载体可以分为三类,即磁存储载体(包括硬盘、磁带等)、光存储载体(主要是光盘)和电存储载体(U盘、数码卡等)。2002年1月颁布的《电子文件归档与管理规范》(GB/T18894-2002)第7.5.2.3条对长期归档保存的数字档案存储介质进行了指导性推荐,按优先顺序依次为:只读光盘、一次写光盘、磁带、可擦写光盘、硬磁盘等。2013年6月1日实施的《电子文件管理系统通用功能要求》(GB/T29194-2012)第5.2.5.1条指出电子文件管理系统存储介质理化性质应符合相关规范的要求,其中归档用光盘可参照DA/T 38-2008。可见,光盘仍然是现阶段归档电子文件长期保存的首选存储介质。这主要是因为光盘的性价比高,与硬盘等存储载体相比,存储寿命较长。然而光盘存在存储容量有限、易受周围环境的影响、数据交换性差、质量差别大等缺点,在没有更好的存储载体出现前,光盘仍然是我国档案档案部门电子文件长期保存的不二之选。随着互联网的不断发展,云存储有望成为未来电子文件长期保存的主要方式。所谓的云存储是通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。它是的出现是为了解决云计算的海量数据的存储难题,只要把数据放在“云端”,授权用户便可以随时随地通过网络从云端存取数据。云存储技术提高了数据的存储和访问效率,减轻了本地的存储压力,节约了成本。但是云存储也存在过分依赖云存储服务提供商、安全性等问题,大规模的把档案部门的电子文件迁移至云端,还需要时间来验证云存储的安全性及其自身一些技术问题的突破。就物理载体而言,云存储仍然是把数字资源存储在磁盘、磁带等介质上,仍然会存在电子文件的格式转化和迁移等问题,仅仅是提供了一种更为高效的数字服务方式。

二、存储格式

电子文件大多以某种编码形式存在,它的读取依靠计算机软硬件环境。一旦这些操作系统、应用软件或存储设备过时,这些文件将无法读出,等同消失。在目前已知的技术更新频率下,技术淘汰给电子文件带来的威胁远远大于存储载体的腐坏给其带来的挑战。也就是说,一般情况下电子文件存储载体的寿命是大于读取它的软硬件生命周期的,与延长存储载体的寿命相比,延长读取电子文件的软硬件技术寿命显得更为重要。颜晓栋认为电子文件长期读取的关键技术是文件格式技术。PDF格式因为具有跨平台、良好的兼容性、安全控制并且算法、規范完全公开、免费,被王珠珠,吴凯媛、颜晓栋、刘家真、毛义春、徐义全、黄新荣,刘颖、刘国伟等推荐为电子文件长期存储的首选格式。张文浩,通过对音频文件格式的分析与论证,提出数码录音电子文件长期保存格式——FLAC文件格式。叶新明对图像的长期保存格式分阶段进行了分析,认为不同阶段采取不同格式。马春茂提出文本型电子文件归档时应采用基于XML格式和PDF格式同时归档的方式。仇立提出利用虚拟打印技术把众多软件产生的文件都转化成电子文件的标准格式SDF(Standard Data Format)。综述,大多数学者的文章主要集中在对特定类型的电子文件的格式推荐上,推荐的格式大多局限于一两种,这是远远不够的,多媒体文件、数据库文件等并不能通过PDF存储,电子文件的长期保存需要的是一个格式体系。《电子文件归档与管理规范》(GB/T18894-2002)虽然给出了各种类型文件的推荐格式,但是该标准稍显陈旧,对电子文件的长期可读、真实性考虑不足。《版式电子文件长期保存格式需求》(DA/T 47-2009)虽然考虑了电子文件的长期保存,但是其仅仅针对版式文件,也没有推荐具体的文件格式。我国亟需更新或颁布针对电子文件长期保存格式问题的规范或标准。统一格式标准,有利于把现阶段正常使用未来可能淘汰的格式统一转化为最新可读取格式,统一格式也方便对电子文件进行管理,使用技术策略延长电子文件寿命时也更加的方便。

三、技术策略

电子文件的长期保存必须依赖相关的技术,主要有更新、迁移、仿真、硬拷贝、数字图形输入板、标准化、软硬件档案馆等,见表1。

国内外学者对上述电子文件长期保存技术进行了较为详细的论述,主要包括这些技术的简介、实施、优缺点和适用原则等,其中迁移和仿真是中外档案学者研究的热点。代表性的观点有:Jeff Rothenberg利用仿真技术进行实验,表明仿真技术很好的再现了数字对象在原始平台上所表现出来的行为特征和外观。Hilde van Wijingaarden 详细介绍了迁移和仿真策略。Gordon Hoke认为应该先确定可接受的风险等级,然后选取硬拷贝、迁移、标准格式等技术策略。张美芳从技术层面和管理层面提出了电子文件长期保存策略。针对迁移技术,张美芳论述了电子文件迁移的具体步骤、措施、方式及风险防范等,张照余等介绍了迁移的时机、原则和要求,刘家真阐述了更新和迁移实施过程中的风险管理问题。不可否认,电子文件迁移技术越来越受到学界和档案部门的亲睐,电子文件的迁移是电子文件自身“与时俱进”的过程,通过迁移,原来已经淘汰的格式、损坏的载体等得到更新,适应了当前存储的环境,延长了电子文件的寿命。但是电子文件的迁移工作并非易事,以档案部门馆藏的大量光盘为例,其实是很难检测光盘当前状况的。作者所在的数据工程与知识工程教育部重点实验室(位于中国人民大学内),虽然拥有一百多万一台的光盘检测仪,但通过实验发现其检测效果不是很理想。尽管如此,高昂的成本使此类设备仅有少数几个省级档案部门拥有,其他档案部门的馆藏光盘一般堆放在档案室内,不管不问,文件迁移工作任重而道远!

四、电子文件长期保存的建议

1.基于系统,前端控制,夯实基础

中国人民大学信息资源管理学院“电子文件管理机制研究”课题组采取实地调查和问卷调查相结合的方式于2007年6-12月间对我国153家中央直属机关、省级档案机构、企事业单位的电子文件状况进行了点面结合的系统调查,调查结果显示:在中央机关及直属企事业机构,电子文件生成量与归档量的比例远远低于传统状态。调查数据表明42.2%的电子文件没有以任何方式留存,74.4%机构的没有采用任何措施存留数据库、电子邮件、多媒体文件、网页文件等类型的电子文件,电子文件处于严重的流失状态。电子文件的长期存储必然依赖良好的电子文件管理系统,国内外电子文件管理系统建设状况很不理想,基于元数据生成可信电子文件的系统,可谓凤毛麟角,调查发现只有2%的机构的电子文件管理系统(或模块)具有元数据捕获和对电子文件真实性的认证功能。各部门现阶段的任务应该是建立可信的电子文件管理系统,为电子文件的长期存储做基础,从源头上规范电子文件的生成、流转和存储。做好顶层设计工作,合理规划电子文件长期保存工作,处理好已有馆藏电子文件管理与正在生成的馆藏电子文件管理之间的关系。做好基础性工作,借鉴行业领先单位的经验,尽快制定本单位的电子文件长期保存制度,树立风险意识,确保馆藏电子文件的长期可读取。

2.充分利用现有的研究成果

电子文件的长期存储研究虽然只有短短的十几年时间,但是还是取得了一系列的成果,这些成果是不分国界的,我国完全可以“拿来主义”,根据实际情况加以改造。如安徽省电子文件中心的建立,它基于对VERS的研究,发布了三个标准:《文书电子文件元数据方案》(DA/T46-2009)、《版式电子文件长期保存格式需求》(DA/T47-2009)和《基于XML的电子文件封装规范》(DA/T48-2009),很好的利用了国外的研究成果,节约了时间和成本,取得不错的效果。然而,令人感到震惊的是2014年11月29-30日在中国人民大学召开的第五届中国电子文件管理管理论坛上,很多档案部门基层工作者竟然对“封装”、“元数据”等术语一无所知。档案部门一定要加强自身建设,关注国际前沿的同时,一定打好自己的基本功。同时,加强相关标准、规范的细化研究,以《电子文件管理系统通用功能要求》(GB/T29194-2012)为例,它不包括系统设计和实施的具体要求,不规定实现系统功能的平台和具体技术,不规定详细的实施细则,因此,虽然有了标准,但用其指导具体实践工作,才刚刚开始,对国内外标准规范的细化研究亟需改善。

3.制定电子文件长期保存政策

联合国教育、科学及文化组织颁布的《数字遗产保护宪章》指出:“如果不着手解决目前所面临的有关威胁,数字遗产将会迅速丢失,而且不可避免”。电子文件的长期保存问题关乎民族的记忆,国家的未来。随着技术的发展,人类记录信息形式逐步转向数字文件,解决不掉数字资源的长期存储问题,人类将面临“失忆”的可能。电子文件的长期保存政策至少体现在两个方面,一是电子文件国家战略,另一个是电子文件长期保存合作机制建设。冯慧玲所著的《电子文件管理国家战略》和《中國电子文件管理:问题与对策》从国家层面上较全面的构建了电子文件管理的机制、整体设计等基本思想。纵观电子文件长期保存项目,无一例外是多机构合作的产物。数字资源的长期保存研究主体包括图书馆、档案馆、政府机构等,我们要整合多方资源,通过合作攻克电子文件长期保存的瓶颈问题。不能局限在自己的狭小圈子里,要走出去,要跳出系统看系统,借鉴其他领域的研究成果为电子文件长期保存所用。

4.通过迁移等技术策略做好现存电子文件的长期保存工作

我国有多少电子文件处于濒危状态,我们不得而知。这就需要档案工作者做好自己的本职工作,了解自己所管理的数字资源的生存状况。按照相关要求对馆藏资源进行抽检,对“不良”电子文件进行及时的迁移,确保馆藏资源的安全与长期可读取。正是由于电子文件的易逝性,我国档案部门一直保留着比较独特的“双套制”制度。殊不知澳大利亚和美国等国家已经把无纸化办公提升到国家战略高度,并向世界宣称其具体的实现时间。为此配套的电子文件长期保存项目如美国电子文件档案馆项目(ERA)等加快科研,为实现无纸化办公、解决电子文件的长期保存难题做准备。这是一种积极的面对挑战的方式,很值得我们学习。

(作者单位:中国华能集团有限公司)

猜你喜欢
光盘载体
以多媒体信息为载体,展数学课堂魅力
以几何画板为载体,探究等腰三角形的存在性问题
以工作室为载体打造班主任专业成长共同体的实践探索
以学习故事为载体 提升教师察析幼儿学习行为的能力
光盘小熊
热热闹闹过大年
保护CD
Did You Eat Up Your Dishes Today?
机会的载体