季 平 钱惠平 叶婉英 洪月英
(浙江省气象信息网络中心,浙江杭州310017)
浙江省气象局档案室建立于20世纪50年代,经过多年积累、发展至今档案室藏有1953—2002年的纸质文书档案约4901卷,2003—2010年以件为单位的纸质档案约5334件。另还存有科技档案、基建档案、会计档案、照片档案、声像档案等。几十年来,这些档案在本机关的各个部门得到广泛运用,并在工作中发挥着重要作用。随着现代气象事业迅猛的发展和网络时代的到来,这些纸质档案已远远不能满足气象事业发展和用户的需求。迫切需要改善目前文书档案纸质化的现状,开展文书档案数字化的建设。
文书档案是浙江省气象局工作运行中不可缺少的宝贵财富。长期以来,大量的纸质档案,虽然在气象工作中发挥着重要作用,但是,由于年代的久远、纸质的老化、字迹的模糊等原因,加之浙江省气象事业的迅猛发展,这些纸质档案、资料等已远远不能适应和满足气象事业发展的需要。因此,迫切需要开展文书档案数字化建设这一重要工程。
由于全省气象事业和社会的不断发展,随之借阅大量有关为领导提供决策服务、人事变动、气象业务、气象科研、全省台站建设、雷达建设等方面的档案远远不断,尤其是在汛期期间为领导决策提供服务的档案需要调阅速度快,准确率高、字迹清楚等尤为突出。而档案室从1953—2003年的文书档案都是采用目录本式的人工查询检索方法,不但占用大量的库房空间,而且查阅起来费时费力。虽然从2003年开始使用了计算机目录级电脑管理调档,但这种方式调档只能在电脑上查阅目录信息而看不到原文信息,仍然要去库房调阅文件,所以还是存在着库房压力大、调卷不便、速度缓慢、原件易损等问题。另一方面由于年代久远,保存条件差,许多纸张已经开始不同程度的变质、字迹出现变淡变模糊等现象,加之早期归档没有一个统一的标准,纸张大小不一,用笔五花八门。因此,尽早完成文书档案数字化和保护纸质档案的任务已刻不容缓。随着现代化设备不断的发展与更新,信息技术的提高与逐步完善,为文书档案数字化提供了可行的基础。文书档案数字化对保护原始档案资料的真实性,提高档案信息化资源共享水平有着重要的意义和作用。
文书档案数字化处理主要是对1953年至今的纸质档案进行数字化加工处理。制定相应的业务流程,建立数据质量保障体系,对历年产生的具有永久保存价值的文书档案进行图像扫描及处理。按行业技术规范化流程进行档案前处理、目录著录、档案扫描、图像优化、质量检查、图像挂接等工作,最后进行数据保存和备份工作。
文书档案数字化主要是对浙江省气象局1953—2002年案卷纸质档案约4901卷进行扫描和目录著录,对2003—2010年按件整理的档案约5334件进行图像扫描和目录校对修改。
首先需要从档案库房进行调卷,登记好调卷单,注明时间、调卷数量及需要注明的事项,
再将调出的案卷存放在加工场地的专用档案柜中,以确保档案的安全。扫描前,规范每份档案目录中的内容;拆除装订物;区分扫描件与非扫描件;检查原始档案有无问题,对有问题的案卷,及时备注和改正;发现破损档案及时修补,对破损情况需在档案前处理时进行详细的备注,以便在扫描时注意保护。在扫描过程中认真填写纸质档案数字化转换过程交接登记单,登记扫描的页数,以确保不漏扫。
在进行扫描前处理过程中,对案卷原件进行检查时出现的情况和处理办法。
(1)案卷不完整问题处理
由于纸质档案年代久远,档案管理人员已经过几代人的更换,档案的查询利用人员多而复杂,导致案卷缺失、卷内件或页缺损等现象时有发生,对于此类问题,补卷补件显然不可能,缺失的案卷和件已无从查找,所以根据实际情况,在备考表中进行备注说明,同时也在纸质档案数字化转换过程交接登记表中进行备注说明,并分别注明备注时间、人员姓名等信息。
(2)案卷张页号问题处理
由于纸质档案一般都采用人工编码或采用人工用页码机敲页的方法进行编页,存在错编、重编、漏编现象,对此情况,在尊重原始案卷的情况下,应采用补编加备注说明的方式进行修正,并在卷内目录和电子目录数据库中备注说明,便于档案原始案卷的管理。
(3)案卷卷内目录字段错误处理
早期年代的原始案卷一般采用手工抄写,案卷卷内目录中题名、时间、责任者、张页号等字段存在一些错抄、漏抄的现象,对于此类情况,在目录著录过程中进行修改,重新打印卷内目录,并将正确的卷内目录一并装订进原始档案中。
档案前处理完毕即可在档案管理著录系统中进行案卷目录数据的录入工作。这一阶段包括两个步骤:一是对案卷信息的录入,可包括案卷的编号、全宗号、题名、目录号、时间、保管期限、密级等;二是建成案卷目录后,依照卷内目录顺序对文件级数据进行录入,要分别录入卷内每一份文件的题名、日期、文号、责任者、页数、卷内序号等。
根据档案室档案的情况和目标,选择所需的著录项目。选定的著录项目按行业标准规定的字段名、字段、类型和长度。著录时采用专业的档案管理软件,在软件中设置需著录的字段。依据原始案卷信息一对一录入相应的著录,著录要求包括案卷级目录数据库结构与著录格式、文件级目录数据库结构与著录格式Ⅰ和文件级目录数据库结构与著录格式Ⅱ等3种数据交换格式,详见表1-表3。
表1 案卷级目录数据库结构一览表
表2 文件级目录数据库结构Ⅰ一览表
图像扫描要求格式符合行业标准的TIFF格式,每份文件以档号为索引。每一份有一个与之相对应的唯一档号,并以该档号为这份档案扫描后的图像文件命名文件夹,多页文件是在此文件夹内按文件的顺序以8位数码命名,例如:文件夹名:全宗号-目录号-案卷号-张页号(即该份档案文件的档号),该文件夹内存放该份档案文件的每一页图像,图像的命名为00000001、00000002……。将图像文件存储到相应文件夹时,扫描幅面大小为A4(其它幅面按比例折合成A4幅面计算),为保证档案原件的完好性,扫描设备基本选用A3幅面平板扫描仪。扫描参数根据相关技术要求来确定,主要包括扫描分辨率和色彩模式,建议采用全彩方式扫描,扫描分辨率大于等于150dpi。应避免重张、倾斜、模糊等图像质量问题,确保档案图像不重复扫描、不漏扫,保证电子图像的完整齐全。纸质档案的文件的顺序排列一致,扫描后的图像文件页面要端正,无扭曲。扫描时必须保证放纸端正、不压边、不漏扫、错扫、严格确保图像质量。扫描方式一般采用不拆卷扫描方法,确实由于在装订线遮掩影响扫描质量的情况下,可采用松一松装订线而不拆线扫描,为确保扫描图像清晰或不出现漏光现象,将采用盖板压实的方法进行扫描。如碰到特别厚的案卷需拆卷扫描,以确保扫描图像质量,避免扫描图像倾斜、模糊和漏光等现象出现,并在扫完后仍按原始装订进行复原,确保档案的完整无缺和美观。
表3 文件级目录数据库结构Ⅱ一览表
档案在扫描后形成电子图像,按要求必须对电子图像进行后期处理,利用专业软件对扫描过程中造成的图像黑边、黑点、黑线、黑框、杂点、脏点和孔洞等问题,需要进行去污处理,处理过程必须遵循在不影响可懂度的前提下展现档案原貌的原则;图像不正的,需要进行纠偏处理,图像偏斜度不得大于3°,以达到视觉上基本不感觉偏斜为准。对大幅面档案进行分区扫描形成的多幅图像,要进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性,拼接处信息要完整,不能缺少任何信息。全彩图像应进行裁边处理,去除版面外多余的白边,以有效缩小图像文件的容量,节省存储空间等,图像处理完毕必须保存。
2.6.1 图像文件质量检查
扫描图像的质量直接影响到档案数字化成果的效果,因此必须对扫描形成的图像文件进行严格的质量把关和检查。核对每份文件的实际扫描页数与档案前处理数量填写的文件页数是否一致。质量检查的要求是保证本次数字化扫描图片的清晰、完整和有序。按国家标准95%,进馆质量的内控指标力争99%,做到顺序准确、不多页少页、保持档案原版原貌;图像清晰度达到方便阅读要求、布局合理、图文挂接准确、进馆3项指标100%。
2.6.2 目录著录质量检查
目录著录的质量直接影响到数据检索、查询、利用的质量和效率。因此,对目录著录要进行严格的质量检查。针对目录的重要性,应采取逐条人工审核、著录、修改。根据相关技术要求,对各字段内容按要求进行著录,确保字段类型、字段著录要求和文字正确无误,并定期批量进行抽样校验工作,抽样校验的标准为每卷50%,并将形成的错情记录下来加以说明,以便备查。
2.6.3 图像文件和目录数据质量检查
图像文件命名和目录数据库中命名一致,认真核查每一份图像文件的名称与档案目录数据库中该份档案的档号是否相同,再应用统一研发电子数据质检管理系统,对目录数据和图像文件进行全面检测,通过每一份图像文件的文件名与档案目录数据库中该份文件的档号的一致性和唯一性,建立起一一对应的关联关系,对不一致提示信息逐一校对原始档案,逐条修改,确保图像文件命名与图像内容一致正确。
经档案数字化转换过程中形成的目录数据库与图像数据库,通过质检合格后,就可以在专业档案管理软件中对目录数据库和图像数据库进行一对一挂接,目录数据与图像数据相关联,实现档案查阅时不仅能查看档案的目录信息也能及时查看档案的原文信息。
对于经过档案前处理、目录著录、档案扫描、图像优化、质量检查后最后形成符合行业技术标准规定和要求的最终数据。需要对成品数据进行存储备份,可采用两种存储介质进行存储备份,一是数据硬盘存储备份;二是根据交接清单提交规范编目的成品图像数据和目录数据,并应使用符合标准的索尼单盒装DVD光盘或国际档案级JVC光盘一式3套进行刻录存储。对于档案目录数据和图像数据的刻录,同一档案不跨越两张光盘(同一案卷和同一份档案页数都需在同一DVD片内)。光盘表面标示光盘片编号,注明光盘内目录索引信息。
在档案扫描前期处理中,会统计出该文件需扫描的页数,并登记在纸质档案数字化转换过程交接登记表上。在实际扫描时,扫出来的图像页数与前处理统计的页数不符时,前处理人员进行重新统计,扫描人员也进行查漏补缺,确保统计数与实际扫描页数相符。
在档案扫描工程中,由于人为、电脑、扫描仪等原因,出现扫描图像的档号、分辨率、方式、图像质量等错误问题,由质检人员进行把关,发现问题及时解决,一般由质检人员将其退回,扫描人员进行重扫或补救措施,质检人员根据纸质档案数字化转换过程交接登记表和档案原件进行质量检量,并在档案数字化加工业务补错流程单上把错误情况进行登记,将该流程单退回给责任加工人员进行补错纠正工作。
随着信息化时代的快速发展,文书档案数字化,建立档案数据库查询系统,能够方便和快捷地实现档案的归档、查询、检索、统计、盘点、开放及利用等功能,初步达到文书档案信息化,档案管理的自动化,并在一定程度上提高了档案管理水平,又保护历史纸质原始文书档案,提高文书档案利用率和共享能力。
通过完成文书档案数字化加工处理,建立一套完整电子化文书档案管理系统,实现数字档案一体化综合管理,方便业务科研人员快速检索查阅,为气象业务和科研工作提供更好的服务,也为其它气象档案数字化的开展积累了丰富的经验。文书档案数字化的实现,推进了气象信息化建设步伐,对最终实现档案信息资源共享这一目标起到重要作用,为早日实现浙江省气象局数字化档案室(馆)建设奠定了坚实数据与技术的基础。
[1] 理明.纸质档案数字化的工作指南[J].浙江档案,2007(2):26-28.
[2] 董雪雅,段广力.浅谈纸质档案的数字化工作流程[J].陕西档案,2005(6):31-32.
[3] 浙江省档案局.档案登记备份工作相关标准规范汇编[S].2011.
[4] 浙江省档案局.实用档案工作手册.2005.