张聪
摘 要:潍坊医学院结合《纸质档案数字化规范》与工作实际,以前端控制理论为切入点,从档案实体整理、档案管理系统维护、扫描设备准备、人员管理四个方面,研究纸质档案扫描前的整理工作,以期为高校纸质档案扫描实际工作和理论研究提供新思路。
关键词:纸质档案;档案扫描;档案数字化;前段控制
大数据时代带来了巨量数据信息,档案工作要适应迅猛增长的信息需求,就要逐渐向“内容为王”转变,注重数字内容的积累和信息共享,纸质档案数字化是数字内容建设的一项基础工作。国家档案局先后于2005年、2008年发布《纸质档案数字化技术规范》《缩微胶片数字化技术规范》,2017年底,《纸质档案数字化规范》(以下简称《规范》)经全国档案工作标准化技术委员会审查通过,于2018年1月1日起实施。《规范》从组织与管理、扫描流程方面做了详尽说明,其中扫描前准备工作体现出前端控制理论的思想,我校结合实践进行探讨,谈几点体会。
1 前端控制理论的含义
前端控制理论最早是由法国档案学者C·诺加雷提出,以生命周期理论为基础,他认为档案工作者从文件生成阶段就要有意识地实行超前控制。体现在电子文件时代,就是“把需要和可能在电子文件形成阶段实现或部分实现的管理功能尽量在电子文件系统设计阶段进行统一规划和统一要求,并在文件形成和维护阶段进行有效的监督” [1] ,其核心是一种“整体规划、业务环节提前、全过程监控”的理念。
2 纸质档案数字化中前端控制的实质
纸质档案数字化是指采用扫描仪等设备对纸质档案进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的数字图像,并按照纸质档案的内在联系,建立起目录数据与数字图像关联关系的处理过程。[2]前端控制阶段可以理解为从档案数字化准备阶段起至转化为电子档案信息前的整个过程,其实质是通过对档案实体、档案管理系统、设备和人员,这些可能对数字化结果产生不确定性与风险的因素实行超前控制,实现整个数字化全过程的安全监督与质量监控,确保数字化内容的全面、精准。
3 纸质档案数字化中前段控制的内容
《规范》中将数字化前处理工作分为确定扫描页、编制页号、目录数据准备、拆除装订及技术修复五项,主要是针对档案实体的整理。我校结合前端控制理论和实际工作,将其内容归纳为以下四个方面。
3.1 档案实体整理
实体整理是数字化的首要环节。档案部门先对扫描的数量、范围及扫描顺序作统筹规划。以我校为例,依据优先扫描利用率高的档案的原则和资金预算,先后对历年招生名册、学籍卡和成绩单,以及利用率较高的2000年至今的部分党群、行政文件进行扫描。
扫描前的档案实体整理分为清点、调卷、顺卷、移交登记。①将扫描范围内案卷的档号、题名、归还时间、是否入库等信息按照年度—档号的顺序依次录入《交接登记表》,并标注顺序号,以便后期数量统计。②按顺序调取案卷。③“顺卷”。先以A4幅面为单位统计每卷页数并作登记,理顺过程中,还要备注是否缺页、错编、漏编页码等情况。《规范》指出,确定为数字化对象的纸质档案不宜进行挑扫,如有不需要扫描的页面应加以标注。④案卷清点无误后,与扫描方核对卷数后签字确认。
3.2 档案管理系统维护
前端控制对数字化的影响从系统功能设置阶段就已经介入,档案部门可以提前将需求嵌入系统。我校在数字化前对系统进行升级,主要增加全文检索功能与OCR识别软件。前者能提供近义词、同音詞、拼音检索、热点检索词等智能检索,检索结果可按不同维度展现,包括按内容分类、相关搜索等,并对结果自动分类统计展示信息,使用户在最短时间搜索到最精确的信息;而全文检索功能,要通过OCR软件,将形状翻译成计算机文字。目前,我校除部分手写、字迹相对模糊档案无法识别外,已扫描纸质档案基本实现全文检索。
扫描前,还要对目录数据库梳理核实,著录格式要符合DA/T 18要求。著录项目要与实体档案信息一致,尤其不能出现漏项,对于“有名无档”“有档无名”等特殊情况,在备注栏注明。
3.3 扫描设备准备
扫描设备及参数设置的选择,直接关系扫描的质量。《规则》中指出,扫描设备的选择应特别注意对档案实体的保护,尽量采用对档案实体破坏性小的扫描设备进行数字化。我校使用A4高速双面自动进纸扫描仪与A3平板式扫描仪各一台(我校A3幅面纸张质量欠佳,无法适用自动进纸功能)。这样既能实现自动快速多页连续扫描,对于纸张不平整或无法拆卷的档案还能采取平扫。
为最大限度保留档案原貌,尽量全部采用彩色模式扫描的原则。若出现纸张底色深且字迹颜色淡或印章不清等情况,或者带有针孔打印机字迹的纸张,可以考虑黑白二值模式扫描。
影响扫描效果的扫描仪参数设置主要有亮度、对比度及分辨率三者,它们与字迹、纸张材质成负相关,即字迹越不清晰、纸张底色越暗材质越差,亮度、对比度及分辨率要相应提高。但对于有些字迹模糊且纸张较暗的文档,可以将亮度调低,对比度提高。分辨率属于相对稳定的设置,《规则》指出“扫描分辨率应不小于200dpi。如文字偏小、密集、清晰度较差时,建议扫描分辨率不小于300dpi。”但并不能一味追求高分辨率,分辨率越高,占内存空间越大,会给服务器超量负荷。
不同设备在性能、参数设置等方面不同,正式扫描前建议对不同纸张、底色、字迹、以及是否带有照片等各类档案试扫描,寻找最佳参数搭配设置。
3.4 人员管理
具体的档案数字化过程需要大量的实务操作,对于庞大的存量档案,建议采取项目外包形式,但由档案部门指派专门人员全程监督管理。建议档案部门至少安排2名人员,一人负责在前期对系统内著录项目进行校对,对出库档案进行清点并移交外包方,并在扫描后“对图像偏斜度、清晰度、失真度等进行检查, 核对文件内的页数是否与纸质档案页数相符,并按图像上的页号进行检查,如次序不对进行调整,以确保电子影像的顺序与实际纸张资料的顺序完全相符。”[2]另一人负责对扫描后档案进行核查,内容包括装订是否合格、卷内文件顺序是否正确、有无漏页订错页现象等,并对后期挂接数据进行抽样检查。
数字化扫描存在案卷数量多、操作周期长等问题,外包人员长期频繁接触档案,安全保密格外重要。《规则》中指出,“在项目实施过程中,应依据《档案数字化外包安全管理规范》,从档案部门、数字化服务机构、数字化场所、数字化加工设备、档案实体、数字化成果移交接收与设备处理等层面执行严格的安全管理要求”。国家档案局也专门与《规范》同批修订《档案服务外包工作规范》。我校在实际操作中,严格遵守规则,签订《保密协议》,设置专门的档案技术工作室,场所内所有电脑不能联网,禁止闲杂人员进入。对于外包方工作人员采取全程留痕的管理,档案移交、扫描数量、抽检情况等,由双方分别记录,定期核对信息。
4 几点感受
“通过传统载体档案数字化,可以带动档案整理、编目、统计、查阅、编研、开发等各项工作,并带来极大工作便利,是一项一举多得的有效举措”[3],也是高校档案信息化建设的重要环节。我校虽已完成首批档案扫描工作,但由于前期准备不足,经验欠缺,仍存在许多问题,总结如下:
4.1 注重数字档案利用便捷性
从查阅利用的角度对档案数字化进行整体布置,优先扫描利用率高的学籍、党群、行政、科研等档案,由近到远推进。提前将用户需求纳入纸质档案扫描的整体规划中。对于高校来说,校友是查阅利用档案的最大群体,占据相当庞大的数量。从校友角度考虑,应该希望最全面地获取个人在校档案。因此,在后续数字化扫描准备阶段,要尽可能的细化扫描单位,能以个人为单位的不以专业、班级、年级、地域为单位进行扫描。档案系统也可以与校友系统挂接,实现对某一人进行全文检索时,可以直接看到有关该生的全部档案。
4.2 明确增量档案扫描任务的责任方
“高校档案尚未全面实现双套制归档,其造成的结果就是档案馆只能将其二次数字化,重复建设,极大地增 加 了 数 字 化 的 投入”。[4]我校每年新形成的增量档案数量庞大,按照“存量数字化、增量电子化”的信息化战略,需要明确形成中的档案电子化责任方。我校现在OA系统已上线,校内发文已实现网上传阅,上级来文由机要室收文后统一分到各相关部门。今后,可由立卷部门在系统著录后,统一将电子原文上传。没有电子文件的文档,明确是由档案部门还是立卷部门进行扫描。若由立卷部门扫描,需要明确实施方案,每个立卷部门配备一台扫描仪并不现实,可以对这些部门进行整体排序,依序到档案部门进行扫描、挂接系统。
4.3 确保扫描人员的稳定性
扫描人员是整个档案数字化过程中最积极的因素,人员稳定能够确保扫描工作的连贯性,节省培训时间。我校档案部门人员紧张,档案扫描过程中增加两名学生参与档案的清点,但学生每周工作时间较短,有时积攒大量已装订档案,检查后发现装订不合格,还需返工。今后,可以利用高校学生毕业实习的机会,集中时间进行扫描,既能为本校学生提供实习的机会,还能保证扫描人员的相对稳定。
参考文献
[1]王 玲.电子文件环境下的前端控制[J],档案建设,2012.07(23).
[2]马振犊.档案数字化前整理工作的实践研究,2014年档案事业发展研究报告集.2014.
[3]崔清新.五問档案与民生——专访国家档案局局长李明华[N].新华社,2016-06-09.
[4]孙大东.高校档案数字化“黑洞”现象研究[J].档案管理,2013.04(38).