■ 谢君
大数据时代下档案数字化扫描参数优化设置探讨
■ 谢君
本文从分析档案数字化扫描参数即色彩模式、存储格式、分辨率、亮度入手,通过概念介绍和实验数据,探讨这四个参数设置对档案扫描效果和效率的影响,并针对不同类型文件的扫描参数进行优化设置,以求达到高质量的扫描件和高效率的工作,推动档案数字化工作的开展。
档案 数字化 扫描 参数 优化设置
大数据时代下,档案数字化是一项工作量巨大的艰难任务,同时也是一次前所未有的突破。档案数字化对于确保档案实体安全、实现档案自动化管理、高效提供利用等方面具有显著意义。档案数字化主要是通过扫描真实完整地还原档案实体,在实际操作中,会出现偏色、色彩失真、清晰度不够、文件过大等现象,大部分问题出在参数设置以及使用技巧上,即使是同款同型号的扫描仪,不同人使用,扫描效果也会大相径庭,所以扫描参数设置很关键。下面是笔者根据工作实际,参考相关文献提出的一些建议。
所谓色彩模式(色彩位数、色彩深度)是表示扫描仪所能辨析的色彩范围,一般有黑白二值、灰度、24位彩色、30位彩色、36位彩色、48位彩色等。通常色彩位数越多,就越能真实反映原始图像的色彩,所扫出图像的效果也越真实,当然也造成图形文件体积的加大。对于某些应用环境,扫描仪色彩位数指标,甚至比分辨率更重要。色彩位数的具体指标是用“位”(即2的多少次方)来描述,24位彩色表明扫描仪可分辨1670万种颜色,30位真彩是6.87亿种颜色,而36位真彩色是1670亿种颜色。尽管大多数显卡只支持24位色彩,但由于CCD(图像传感器)与人眼感光曲线的不同,为了保证色彩还原的准确,就需要进行修正,这就要求扫描仪的色彩位数至少要达到36位才能获得比较好的色彩还原效果。因此现在尽量应该选购36位色彩位数的扫描仪。真正的36位扫描仪就是指所使用的CCD感光器件是36位的,同时数据处理方式也是36位的产品。而目前市场上所谓“36位扫描仪”种类繁多,鱼目混珠。除了真36位外,还有假36位、准36位、CIS36位等类型,选购时一定要注意。[1]
1.黑白模式
一个像素的颜色用1位来表达,也就是黑和白,生成的文件体积小,可节约存储空间,提高运行速度。特别是进行OCR识别时,其识别速度和正确率比其他模式都高,从而避免过多的颜色变成干扰信息。
2.灰度模式
一个像素的颜色用8位来表达,在黑白二色之间加入灰色元素,使图像呈现出明暗变化,如同黑白照片,其形成的文件体积也较小。
3.彩色模式
生成的图像色彩丰富,图像的效果真实,但是文件体积较大,扫描速度慢。
在实际操作中须有针对性地选择,如表1所示,根据不同文件类型,以最小的体积容纳最高质量的图像,如果错用模式会造成严重的偏色和空间的浪费。
表1 色彩模式
存储格式是为了存储信息而使用的对信息的特殊编码方式,用于识别内部储存的资料,决定了存储信息的类型、与应用软件的兼容,以及与其他文件的数据交换等。目前大约有150多种格式,不仅具有各种不同的扩展名,而且有不同的特性,如是否压缩、是否支持图层、能否尽可能多地保留图像细节等。由于扫描软件不同,支持的存储格式也会有所不同。因此在实际扫描并保存时要针对用途、图像特征、图像处理软件、计算机存储空间等因素做出相应的选择。但由于档案数字化技术还不成熟,所以一般还是采用国家规范中所推荐的TIFF、JPEG等常见格式。提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。随着技术的发展,一些新的格式显示了强大的发展后劲,如JPEG2000和DjVu。[3]其实存储格式是不断发展且多元的,如何在数字化过程中将档案统一转变为某些具有国际或国家标准的电子格式,是档案数字化首先应该考虑的问题。
表2 存储格式
1.TIFF格式
扩展名是.tif,是可压缩保存的格式。是Aldus公司在早期苹果机上开发的,但现在已成为跨平台应用最为广泛的图像文件格式。除了双色调图像,其他位图、灰度图、RGB彩色图像、CMYK彩色图像、CIElab彩色图像的存储都不成问题。TIFF文件不支持图层,但支持A1pha通道,在Photoshop中,TIFF格式能够支持24个通道,可以支持CMYK彩色图像的印刷分色,它是除Photoshop自身格式(即.psd和.pdd)外惟一能够存储多个通道的文件格式。在选择TIFF格式存盘时一般会有选择项目,首先选择是PC还是Mac机,另外就是需不需要LZW压缩。LZW是一种没有损失的压缩方式,选择LZW压缩进行TIFF格式存盘时,可以减少原有文件约50%的容量,并保证图像质量不下降。精度要求较高的图像文件,扫描后一般都选择TIFF格式直接进行存储。
2.JPEG格式
扩展名是.jpg,是最为常见的一种压缩图像文件格式。对于图像精度要求不高,需要存储大量图像文件的场合,JPEG是最佳选择。但切记JPEG是一种有损压缩文件格式,在存盘时会有一个压缩比(图像质量等级)的选择,若要求图像质量高请选择高质量 (High8以上)图像压缩方式,图像容量会相对较大:反之文件容量变小了,但图像质量也会大大降低。
3.JPEG2000格式
作为JPEG的升级版,其压缩率比JPEG高约 30%左右,同时支持有损和无损压缩。JPEG2000格式有一个极其重要的特征在于它能实现渐进传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。JPEG2000和JPEG相比优势明显,且向下兼容,既可应用于传统的JPEG市场,如扫描仪、数码相机等,又可应用于新兴领域,如网络传输、无线通讯等等。但在当前的档案数字化中并未得到应用,随着档案信息网络传输的开展,这一格式也可以成为档案数字化的标准格式。
4.DjVu格式
由美国电报电话公司实验室 (AT&T Labs)于1996年开发成功的一项新的图片压缩技术,通过这项技术,几乎所有的传统印刷资料都可在网上以高速传播。DjVu具有1000∶1的高压缩比,通过DjVu压缩格式,以300dpi的分辨率扫描的彩色页面可以从25MB缩小到30至80KB,而且图像质量十分优秀。它能分辨出文字及图片的部分,并且分别储存在不同层,再分别对每一层图像以最佳化的方式进行压缩,因此能产生最好的图像品质及最小的档案。这种技术将能得到清晰的文件图像,而又能保持原始文件的图像品质。同时,由于采用分层显示,而不是等到整幅图片都被解码之后才显示,也使得图片显示的速度大大提高,用户在两三秒之内就能够迅速看到文字,其他的图像信息也会在几秒钟之内陆续显示出来。这种网上高质量图像发布的体验在传统压缩格式上是无法实现的。DjVu下载后的图像直接储存在计算机的内存中,并且可以在浏览器上快速地对文件进行实时的移动、缩放。换句话说,DiVu能使人们只花很少的时间来扫描、储存及下载大量文件。目前,DiVu技术正在杭州市档案馆进行试点研究,尚未引入国家标准。但DjVu技术不论是在静态存储还是网上传输方面都具有相当的优势,且这一技术在图书馆界也早已得以采用,事实证明,DjVu技术同样可以用于档案数字化的工作中。
分辨率用dpi来表示,通过扫描元件将扫描对象每英寸可以被表示成的点数,是非常重要的参数,直接决定了扫描清晰度。主要和形成的电子文件大小和扫描速度有着递增的关系,dpi在一定值范围内越大,固然越清晰,但形成的电子文件就越大,扫描速度越慢,后期处理和挂接的速度也会变慢,占用的存储空间大。所以并非dpi越大越好,以高分辨率进行扫描只能浪费时间和磁盘空间,扫描更多的点并不能改进图像的质量,高分辨率扫描对扫描胶片或放大图像也许是需要的。但对于档案数字化来说,由于馆藏量大、数据库存储系统等原因,应该以扫描后的图像清晰、完整、不影响档案利用效果,也就是屏幕预览和标准打印为准。故扫描过程中应按照不同类型档案特征,选定适宜的分辨率。根据纸质档案数字化技术规范行业标准,建议选择大于或等于100dpi;特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率;需要进行OCR汉字识别的档案,建议选择大于或等于200dpi。根据实际经验,1、2、3号字的文件推荐使用200dpi,4、小4、5号字的文件推荐使用300dpi,小5、6号字的文件推荐使用400dpi,7、8号字的文件推荐使用600dpi。
由于馆藏纸质档案除基建图纸等少数特别载体外,多数是以A4和A3为主,所以表3以扫描A4黑白文件和A4彩色文件为例,实验显示,彩色模式比黑白二值模式,分辨率对文件大小的影响更明显,特别是设置在200dpi以上,体积大小和扫描速度都在倍增,但清晰度却没有递增,可见,大部分档案扫描将分辨率设置在200-300dpi是较适宜的。
表3 分辨率与文件大小和扫描速度
亮度是表现扫描图像明暗程度的参数,适当地调整好亮度和对比度值,对识别率的高低影响很大,在进行扫描亮度和对比度的设定时,以扫描后的图像中文字的笔画较细、均匀,且没有明显断点为准。如果扫描后的文字图像存在黑点、黑斑或文字线条很粗很黑,分不清笔画,说明亮度值太小,应该增加亮度值再重新扫描。如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大,应减小亮度后再重新扫描。如果要扫描质量比较差的文稿,比如报纸,扫描出的图像可能会出现大量的黑点,而且在字体的笔画上也会出现粘连现象,为获得较好的识别结果,必须仔细进行亮度和对比度值的调整,反复扫描多次才能获得比较理想的效果。[4]
尤其在使用彩色模式进行扫描照片的时候,会发现,同款扫描仪扫描成品相比较,颜色的鲜艳程度也不很相同,大致能够造成这样视觉差异的元素有三:一、电脑显示器的亮度和对比度上,目前显示器技术的发展一日千里,所以千万不要一看到扫描成品色彩不一就急着调整扫描仪参数。显示器的精准程度直接关系后期预览图,以及参数微调。二、扫描仪色彩校正软件出现问题,按照软件推荐的参数调整校色软件的“亮度”和“对比度”两项参数,然后根据预览图进行微调。最后一点就是扫描软件中的Gamma参数,这个参数代表从暗色到亮色调的视觉感受程度,在理论上讲,把Gamma值调的越高,感觉上,颜色会越丰富越鲜艳,随着值的升高,直到颜色虚假失真。扫描仪自带的扫描软件会对Gamma值进行校对调整,但是并不完全智能,需要手动调节,我们往往就是在这个参数上没有设置好才造成了颜色暗淡,通常来讲,普通扫描照片下Gamma值为1.4,而杂志印刷品稍高的1.8,放置网页上的扫描文件则需要更高的2.2。
综合以上参数特性和实验分析,得出不同类型文件需要分别设置不同分辨率和色彩模式,以求达到高质量的扫描件和高效率的工作。表4就是以A4文件为例,对3种不同类型文件的扫描参数进行优化设置,给出合理建议,并列出所形成的电子文件体积大小和扫描速度对照图。
表4 扫描参数优化设置
总之,优化参数设置是扫描工作的关键,直接影响到档案数字化的效果和效率,需要权衡两者之间的关系,在不影响效果的前提下提高效率,推动档案数字化开展。
[1]如何确定扫描仪的色彩位数.http://jingyan.baidu. com/article/2009576170c805cb0721b433.html,2015.1.27.
[2]档案行业标准:纸质档案数字化技术规范(DA/T31-2005):6.3.1-3.
[3]专家:档案数字化扫描与存储格式比较. http://storage.chinabyte.com/399/11512399_3. shtml,2015.1.27.
[4]扫描参数设置.http://wenku.baidu.com/ link?url=a0GLMxekEDCvYAYiXeGAmPZE_ri6J9 tE4vFwbsvjC8i5oclW0CKTrii7wzbcJjlkRlWkS0Sa 2_5-29_SSLpOdZoyWBDu62v1qjQBJ-cie1i,2015.1.27.
作者单位:华南农业大学档案馆