冯中华 王利贤
南京水利科学研究院科技信息研究中心
本文通过对馆藏科研报告进行数字化扫描的实践,对扫描过程中面临或存在的一些问题,经过分析,提出解决这些问题的对策,为相关单位在数字化过程中解决类似问题提供参考,从而提高馆藏资源数字化建设的进程。
科研报告的管理在于更好地发挥作用,在网络环境下,科研人员更希望通过网络直接阅读相关的科研报告。为此,必须加快科研报告的数字化建设以满足在网络条件下科研人员对科研报告查阅的需求,从而实现科研报告的共享,促进科研人员开展创新性的科研工作。科研报告数字化建设包括多个环节,数字化扫描就是其中的首要环节、关键环节,扫描产品的好坏直接影响整个数字化建设的质量。本文通过对一个历史悠久、馆藏专业资源丰富的科研型专业图书馆在科研报告数字化扫描工作中面临或存在的问题进行分析,提出合理的、可行的解决方法,为类似科研型机构图书馆的数字化扫描提供借鉴,从而提高数字化扫描的质量与效率。
馆藏科研报告由于历史悠久,情况不一。一些报告纸张发黄变脆,一些报告内容字迹变淡、插图不清;一些报告纸张材质复杂多样,有复印纸、稿纸、机打纸、铜版纸、图纸和相纸等,一些报告纸张大小也不统一,这些情况都给扫描带来了问题,只有理清扫描中可能出现的问题,才有助于提高扫描的质量和效率。
馆藏科研报告扫描是专业图书馆数字化建设过程中的关键环节,而很多专业图书馆的管理人员对具体的扫描工作还是比较陌生的,特别是遇到一些特殊情况更是无从下手,多数人对扫描仪的设置、功能不胜了解,对扫描软件更是显得陌生,这将会影响具体的扫描工作。
馆藏科研报告扫描必须要有相应的基础设施,目前,多数专业型图书馆软、硬件基础设施配备并不齐全。在扫描管理软件方面也是参差不齐,功能不统一,由于需求不同,软件在规范性、开放性、共享性方面较差,导致软件的使用层次不一。在硬件方面,一般的扫描仪大多是适合A4 以下的纸张,对于超过A4 纸张的页面就无能为力,这样就会造成扫描内容不完整。由于基础设施的配置与维修需要相当的经费投入,在软、硬件基础设施不能满足扫描要求的情况,需要找出应对措施。
馆藏科研成果报告在扫描时,多数需要拆装后扫描,最后再重新装订。在这个过程中,经常会发生扫描件顺序错乱、页面颠倒,导致扫描件与原件不符;同时,在原件重新装订恢复过程中也会出现类似情况,有的还会出现纸张破损,这些问题都需要有相应的解决办法。
在扫描过程时,一些页面漏扫、一些页面重复扫的现象时有发生;在扫描同一篇报告时,有的页面清晰度不同,有的页面有插图,有的页面文字偏小,由于参数设置不变,导致扫描件内容参差不齐,虽然在扫描前会根据一些规范文件提出相应要求,但不同的人理解、执行上差异较大,导致扫描件质量各不相同;扫描后对原件的恢复没有按照相应的流程进行处理,导致恢复的原件也是千差万别,有的导致对原件造成损害。
在扫描中,一般有黑白二值、灰度、彩色等三种色彩模式,对待不同的页面需要选择不同的色彩模式,这个问题将影响扫描件的清晰度、存储大小和OCR 识别利用;分辨率参数大小设置问题,也将影响扫描件的清晰度、存储大小和OCR 识别利用;扫描件的最终存储格式选择问题,对数字化管理系统的存储和网络利用会产生不小的影响。
对专业图书馆来说,为了适应当前网络技术和满足用户迫切需求,需要尽快将一些具有特色和利用价值较高的资源进行数字化扫描,不然面临成本问题。第一,需要扫描资源的选择,将会影响数字化建设的经济成本;第二,扫描设施的购置和维护、管理系统软硬件配置等,也会增加数字化建设的经济成本;第三,扫描人员的工资成本,也是数字化建设的经济成本之一;第四,由于人员熟练程度、设施性能高低、管理平台建设规划等等,是数字化建设必须考虑的时间成本问题。
多数科研报告涉及技术、成果等需要保密的信息,所以科研报告的数字化工作一般不实行外包,但大量的科研报告进行数字化扫描,需要投入大量的人力。但一般专业图书馆管理人员本身相对较少,因此,需要快速、高效、高质量的完成报告的扫描工作,必须对管理人员进行专项培训,提高员工素质,从而弥补人员不足、操作不熟练等问题。比如,可以举办扫描仪使用方法与技巧培训,扫描软件使用方法与技巧培训,扫描规范性流程培训等。
软、硬件基础设施是专业图书馆数字化建设不可缺少的基本条件,是馆藏特色资源开发利用的基础。先进齐全的软、硬件基础设施在很大程度上能够提高扫描的效率和质量。由于各专业图书馆在经费投入中都明显不足,因此,在制定馆藏特色资源数字化扫描方案中应考虑到其所需的软、硬件扫描设备的适用性、兼容性、通用性问题,避免各自为政的情况,提升基础条件。
在硬件方面,可以考虑配备稳定性好、性价比高的计算机、扫描仪等成套设备,从而满足扫描大数据的稳定快速处理、扫描文件的高清晰度的要求,经费允许,可以考虑配置扫描A3 页面以下的扫描仪,如果原件页面再大,可以采用分块扫描,然后再利用photoshop 图像处理软件进行拼接;软件方面,如果经费允许,可以投入一定的经费,开发一套功能完备的扫描管理软件,在经费紧张的情况下,也可以使用一些普通的扫描软件和管理软件完成扫描数据的处理等工作。总之,只有软、硬件基础设施同时具备,才能满足馆藏特色资源数字化建设的基本要求。
在扫描时,出现漏扫、重复扫描的主要原因:一是没有相应的规范和流程;二是报告整理不规范;三是工作人员工作粗心。扫描后原件的恢复不好,出现页面倒置、页码错乱,甚至出现原件损害。因此,必须对扫描全过程进行规范化管理,在各个阶段制定相应的规范流程。
扫描前,做好需要扫描报告的清单,然后按照清单做好整理工作,出库扫描原件需管理人员和扫描人员双方查验、签字确认。扫描中,需要统一扫描标准,包含清晰度要求、歪斜误差控制数、扫描文件命名规则、文件存储格式等;在扫描过程中,需要翻动纸张时,不要用力过度,注意保护脆弱纸张;为了确保质量,必须指定质量校核员,校核扫描图像的清晰度、完整性、歪斜度等。扫描后,需要按报告原顺序进行恢复,确保页码不乱、页面不颠倒、纸张不破损等,从而保证原件恢复效果,原件返还入库需要管理人员与扫描人员双方查验、签字确认。各阶段按规范的流程进行管理,不仅能提高扫描的质量,还能避免返工现象,提高扫描进度。
在扫描中,针对不同的报告需要采用不同的色彩模式、分辨率和存储格式,保证不同纸质报告扫描后的图像在清晰度与存储大小达到最佳平衡点,既能够清晰完整地保持图像,又有利于节省存储空间,方便扫描资源的网络传输、存储、共享和使用。经过大量成果报告扫描的实践,为纸质成果报告扫描的参数设置提出以下建议。
1.无底色、白底黑字、对比度较高、文字较大的文字型页面,采用黑白模式,分辨率设置为150dpi;
2.无底色、白底黑字、对比度一般、文字较小的文字型页面,采用黑白模式,分辨率设置为300dpi;
3.无底色、白底黑字、对比度较差的文字型页面,采用灰度模式,分辨率设置为200dpi;
4.单一底色、文字色彩单一的文字型页面,采用灰度模式,分辨率设置为300dpi;
5.文字为彩色、文字密集或手写、文字太小、底色发黄且年代久远等文字型文件以及照片等采用彩色模式,分辨率设置为300dpi。
如果原件本身就不清晰,比较模糊,这种情况就要在亮度、对比度、分辨率等方面加以协调处理了。
在存储格式方面,需要考虑可用性(包括OCR 识别)、国际通用性、网络传输速度等多个方面,我们根据各种文本格式、图像格式进行比较,最终采用pdf 双层格式。这种格式是一种独立文档,可以很好地保持档案的原貌,可以通过识别利用,而且网络传输速度快,可以边下载边阅读,已经成为全世界电子文档分发公开的实际标准。针对纸张大小不一的情况,我们将A4 及以下的页面全都按A4 页面存储,大于A4 的页面保持不变,保证扫描成果质量和读者顺畅阅读。
首先,在前期准备工作,将需要数字化扫描报告的清单应尽量做到精细化。馆藏报告量大,数字化扫描工作要采取逐步推进、有的放矢、部分优先的原则,在有限的资金和时间投入下,优先扫描利用频率高、保存价值高、损毁度高的报告,对于那些利用频率低、保存价值低、不太重要的报告可以延后扫描,这样不仅可以减少大量的人力和财力投入,还可以有效地节省时间,提高扫描的效率,加快数字化进程。其次,在采购中尽量选择性价比高、保养成本低的扫描设备;在软件方面,尽量选择成熟、价格低、通用性好的管理软件,不必追求功能多、价格高、不通用的软件;在设备使用中,要求员工一定按正确的操作规程使用,降低设备的维修率,提高设备的使用寿命,从而节省成本。最后,要节省成本,还需从人的素质提高入手,在真正开始扫描之前,做好扫描人员的培训工作尤其重要,扫描人员掌握了熟练的技能,既可以提高扫描成果的质量,又可以节省时间成本,从而加快扫描进度。