刘珊
【摘要】近年来,随着计算机网络技术的飞速发展,档案管理工作也逐渐朝着现代化、数字化的方向发生变化。纸质档案的弊端逐步显现,延长档案信息的保存期限,就必须将纸质档案以数字化的形式予以呈现,而档案扫描就是将纸质档案转换为数字档案的一种行之有效的方法。本文对于档案扫描文件网络利用格式的选择进行了简要的探讨分析,希望可以为促进档案管理工作的有序发展起到有力的推进作用。
【关键词】档案管理;数字化;文件扫描;网络利用格式
档案管理工作数字化是档案管理工作开展至一定阶段的必然趋势。就目前档案管理工作的实际开展形势来看,大部分的档案管理单位都会选择通过运用扫描仪扫描纸质档案,并将其转化为数字形式的方式进行储存。但是,不同的文件格式会对于文件的实际质量造成不同的影响,对于档案扫描文件网络利用格式进行合理的選择是十分必要的。下文我们从这一角度入手,进行具体的分析。
一、常见的几种档案数字化格式
对于纸质档案进行数字化处理的过程当中,除了要考虑到文档的清晰度、文档所占用的空间之外,还需要充分考虑到文档能否被常用浏览器支持。目前,常见的纸质档案数字化格式多种多样,具体来说,主要包括以下几种。
(一)JPEG格式。JPEG格式由联合图像专家组开发支持,其优势性在于与之相关的压缩技术更具现代化和科学化特征,能够支持不同的压缩级别,可以将压缩比例控制于10:1-40:1之间,且能够将文档内容的色彩位数调高至24位,能够获得大多数浏览器的支持。但与此同时,JPEG格式也有着一定的缺陷,那就是其压缩必然会对于原本的文档内容造成损伤,如果以同一格式进行多次重复保存,图像的清晰度会明显下降,甚至破坏图像原有的完整性。
(二)BMP格式。BMP属于一类标准的文件格式,最初由微软公司开发支持,其所具备的优势性在于可以不经过压缩,能够有效强化数据的安全性,避免现有的文档内容出现丢失或损坏情况,当图像的深度处在1–24位之间时可以随意进行调节。但是,BMP格式也存在着一定的弊端,那就是其存储需要占用较大的存储空间,如果需要对于大量的文档信息进行存储,则极有可能会加重硬盘负担。
(三)TIFF格式。相对于上述的两类格式而言,TIFF格式似乎不被人们所熟知,但大多数的应用程序都支持此类格式,且TIFF格式较寻常的文件存储格式的色彩位数更高,能够实现无损压缩,独立于操作系统,还原图像本来的清晰度。TIFF存在的不足与BMP格式较为类似,那就是会占用较多的存储空间。
(四)CEB格式。CEB格式是北大方正电子公司拥有自主知识产权的一种版式文件格式,具备着尤为突出的保证显示效果,且压缩程度较高,但CEB格式难以实现与外界之间的交互,因此通常只是已被应用于电子公文的处理过程当中,在政府机关内部的应用较为广泛。
(五)PDF格式。PDF格式目前的应用已经十分广泛,不仅能够有效还原档案本来的面貌,且传输速率较高,能够实现同步的下载与阅读,清晰度和规范性也较为突出,但在部分情况下,文件可能会较大。
(六)GIF格式。GIF格式能够满足无损压缩的要求,且所占据的存储空间较小,压缩比相对较高。其缺陷在于其色彩位数是以上所有图像文件存储格式当中最低的一个,不建议用于存储彩色图片。
(七)PNG格式。PNG格式同样能够实现无损压缩,且读写性能较为突出,能够更大程度上保障图片的质量。PND格式最初在研发时就是为了替代GIF和TIFF文件格式,同时赋予一些GIF文件格式不具备的优势性。但PNG占用的空间较大,有很多时候难以获得浏览器的支持。
二、档案扫描文件网络利用格式的选择
对于不同类型的文档而言,由于其用途不同,人们对其所提出的质量要求也会有所不同。我们暂且设立一个固定的标准,那就是在确保文档内容的清晰度的同时,以较小的存储空间为优。根据上文中的分析,我们可以发现,TIFF、JPEG、GIF、PDF都较为适宜被作为档案扫描文件的网络利用格式。就目前档案管理工作的实际开展情况来看,应用较为广泛的格式为已经被纳入了国家规范标准中的TIFF、JPEG等格式。但这并不意味着其他类型的文件存储格式不具备竞争力和优势性。为确保所得结果的精准性和可靠性,我们选取同一台扫描仪,对于一系列的文档样本进行扫描,并运用统一软件实现对于扫描所得文件的格式转换,对比相同样本以不同格式呈现时文档的大小。值得注意的是,文档内容必须具备清晰性和可读性。
现有的档案信息载体多种多样,无底色文字型文件和有色文字形文件在经过扫描后所得的呈现状态是大不相同的。加之,部分纸质文件由于经过多年的存储,纸张已经泛黄,对于扫描的清晰度所带来的影响更为显著。通常情况下,扫描所得的图像越大,图像的清晰度越高,图像的色彩呈现也越丰富。JPEG格式的色彩位数最高可以达到24位,能够切实还原图像本貌,加之,JPEG格式能够实现对于较大图像的压缩,去除文件当中多余的图像和色彩,灵活的对图像的质量进行调节,因而其具备的优势性较为显著。反观GIF格式,虽然能够连续存多幅彩色图,但压缩率一般在50%左右,对图片的损伤较大。如果被扫描的文件为黑白文件,尚且能够保障文件内容的清晰度,但如果被扫描的文件为彩色文件,清晰度则会明显降低。虽然PDF格式的应用已经较为广泛,但在进行常规文件的存储时,PDF格式所占据的空间较大,色彩呈现也较JPEG略差,但PDF对于文件本貌的还原程度是最高的,甚至能将文件原有的版式清晰呈现出来,且便于后期调用和打印。我们既可以将PDF文件视为文本文件,也可以将其看作图像文件,对于一些较长篇幅的文件而言,可以将其分为多页,以PDF格式进行存储。且近几年,由于人们对于PDF格式的应用重视程度逐步提高,PDF格式已经在原有的基础之上衍生出了具备更为强大功能的双层PDF格式。双层PDF格式,简单来说,就是指在单一PDF格式的基础之上拓展出另外一层新的文件,其中,上层文件是扫描得来的基础图像,下层文件则是运用光学字符软件扫描识别后所得到的文档信息。在二层PDF的影响之下,当用户选择阅读文件时,所看到的文件是上层文件,真实的还原了最初的版面布设。当用户选择运用文件内容时,又可以通过调取下层文档信息来直接进行文字的复制。
三、总结
综上所述,我们无法判定何种存储格式是最为优质的存储格式,对于不同用途的档案,我们应当有针对性地采取不同的存储格式。对于一些需具备基础阅读功能的黑白模式扫描件而言,GIF格式无疑是最为经济、合理的方式。对于一些标准化要求较高的文件而言,JPEG格式能够更好地还原档案的本貌,且不会占用过多的存储空间。在未来的发展过程当中,我们应当依据不同需求,合理选取扫描文件的网络利用格式,从而更大程度上强化档案管理工作开展的实用性和规范性。
【参考文献】
[1]史乐乐,徐敏.档案扫描文件网络利用格式的选择研究[J].机电兵船档案,2011(5):51-52.
[2]傅荣校,翁敏曦.档案数字化扫描与存储格式比较研究[J].档案与建设,2006(11):10-13.
[3]林颖.关于建设档案扫描文件实践的探索[J].城建档案,2012(11):22-24.
[4]高剑坤.基于Web的企业文件档案管理信息系统软件开发与研究[J].重庆大学,2004.