大数据时代存量档案数字化信息采集

2018-06-09 03:43王钢领
东方教育 2018年13期
关键词:数字化

摘要:纸质档案的利用存在诸多不便,大数据时代对档案数据信息综合利用提出了更高的要求,通过档案数字化信息采集才能实现档案数据信息的综合利用,档案数字化信息的采集是一项非常重要的基本工作。存量档案作为常年积累下来的档案,存量档案数据信息的采集是档案工作的基础,工作流程包括扫描、著录、数据存储、校对、OCR文字识别等,每个环节严谨的工作制度和规范的工作纪律是保证准确率的基本条件,新技术的应用亦必不可少。

关键词:存量档案;数字化;扫描;OCR文字识别

一、引言

随着计算机信息化技术的应用和普及,大数据时代的到来,国家提出了“互联网+”的发展战略,适应了现实的迫切需求,现如今,不管是生活上(如网上购物、手机APP叫外卖、网上约出租车、共享单车),还是工作上(如财务信息系统、人事管理系统、质量管理系统、档案信息系统、科技信息系统),信息化为我们提供高效服务的同时,也在深刻的改变和影响着我们每一个人。进入大数据时代,大规模数字存储系统实现应用降低了数据存储的成本,许多以前无法存储的数字信息也可以保存下来[1],档案的数字化同样产生了大量的数字信息,在大数字时代的档案利用会越来越便捷。

档案信息化系统正是基于信息化大发展的背景下大力建设的,档案信息化系统可有效避免纸质档案在利用的过程中遭到损坏,以确保档案完整性,改善存量档案的存储环境,档案信息化系统的实现,使档案的利用效率更高,跨越了时间和空间的限制,节省了大量人力资源,有效降低了档案保管单位的利用成本[2],方便统计和进行远程查询。存量档案数据信息的采集是主要包括扫描、著录、数据存储、校对、OCR文字识别等工作流程,本文将进行详细分析。

二、存量档案扫描

(一)扫描准备

增量档案的信息化扫描工作是业主方的常态工作内容,扫描工作量比较固定,可以由业主方安排专门的人员完成,但在承担扫描工作前,一定要进行前期的培训,使其符合档案扫描岗位的要求。相对而言,存量档案的扫描工作量特别大,耗费时间长,业主方的工作通常是定人定岗,一般难以抽调大量人力完成存量档案的扫描工作。存量档案扫描应建立在预先制定的规则之上,最好外包至专业的扫描公司。扫描公司自身有一套具体的人员和工作质量管控的办法,执行力强,业主方需安排专人配合,操作档案信息管理系统,确保档案信息管理系统正确操作、保证信息安全,业主方内部人员进行扫描图片、著录条目的检查、修改、打印工作,第一轮检查工作完成后,将纠错结果返还至扫描公司,由扫描公司进行确认修改,修改后的内容再由业主方进行确认,执行严格到位的情况下,即可保证存量档案扫描工作的准确无误。

扫描场地要根据业主单位及扫描公司投入的设备及人力确定适宜的面积,准备扫描场地。扫描场地要具有良好的采光、通风条件以及消防、防盗设施,场地位置应距离库房较近,便于档案的调卷及还卷,防止运输过程中损坏档案,确保档案的安全[3]。

(二)扫描过程注意事项

档案信息化一定要保证质量的情况下,提高数量,即使档案纠错及质检非常严格,也难以完全應对错误百出的情况,不仅降低了档案信息化工作的准确度,也占用了大量从事纠错和质检的人力资源,降低了工作效率,再者,档案扫描工作完成后,即录入档案信息管理系统,如果在档案信息系统利用的过程中,发现电子档案的错误之处,返工的成本则会成倍增加。

扫描工作进行的过程中,要确保扫描仪、扫描软件的正确操作,选购扫描仪要注重仪器的扫描速度、图片效果及公司的售后服务,选购品质、技术和服务有保障的品牌,保证扫描图片的质量及正常运行,使图片曝光和色调合适,图片不容许歪斜。

存量档案通常年代久远,纸质档案存放时间长,可能会导致档案的质量较差,档案由于其不可再生的属性,且诸多档案原件具有法律效力和历史意义,在进行扫描时要特别小心谨慎,稍有不慎就可能造成损坏。根据存量档案的原文类型,扫描人员可选用黑白、灰度、彩色三种扫描方式。大多数档案图文是黑白文稿,可选用黑白扫描方式。对于存在灰度变化的档案图文,如黑白照片,则选用灰度扫描方式,许多档案存在手写方式不同、字迹不清的情况,亦须采用灰度扫描方式,增强其逼真性。彩色的档案图文,扫描时采用彩色扫描方式[4]。

(三)扫描文件存储

由于TIFF格式的图像具有较高的位信息,还能以无损压缩的方式存储,较适合作为保真要求高的档案图文,应用广泛。由于档案扫描后需占用大量的存储空间,需根据业主方要求及显示效果,设定合适的分辨率,一般大于200dpi,过大的分辨率不仅造成了存储空间的浪费,还会占用档案信息系统,使服务器负担过重,造成系统响应迟缓。

在应用的实践中,可以将TIFF格式的图像转换成PDF文件,这样可以将拥有一定数量页码的档案文件合成为一个PDF文件,既能降低档案电子文件所占用的空间,又能方便使用。由于档案文件种类繁多、数量非常多,服务器存储空间有限,不能大量长期存储,无法满足存量档案的存储要求。实际操作中,需采用多个移动硬盘进行存储,还需要备份,以免移动硬盘受到意外或不可抗力造成数据的损坏。采用光盘刻录存储,存储空间大,不易损坏,也不失为一种较好的存储方式。在实际应用中,采用异地备用存储的方式,能进一步保障档案数据存储的安全性。

(四)扫描过程监督

外包至扫描公司首先要保证档案信息的安全性,与扫描公司及具体在业主方实地工作的人员签订保密协议,扫描的数据不能带出业主方指定的地点,扫描公司所使用的电脑USB数据传输口应封掉,不应接入互联网,业主方应进行巡查及抽查,扫描公司应承担主体责任和义务。

许多存量档案是经过鉴定、整理后形成的长期的、系统的材料,自身具有完整性和系统性,切不可打乱了档案自身的内部联系,保证存量档案扫描后的电子文件齐全完整,是存量档案利用的前提[5]。对于存量档案中可能夹杂的一些涉密档案,在档案调出库房的同时,应由业主方所派人员即时检查捡出,由业主方内部进行处理。

三、电子数据处理

扫描所产生的大量档案电子数据的处理,直接关系到数据挂接的正确率。首先要检查扫描数据的正确性。所获得的扫描数据一般为图片格式,单张图片为一页,每卷案卷包含一个或多个文件,然后将图片按照案卷目录中文件个数转换成PDF格式,处理完成的PDF文件,为了便于保存、核对,通常将封页与第一个文件合并在一起,封页包括封面、目录和封底(包含备考表),置于第一个文件前部,这样所合成PDF的数据等于文件的数量,数据挂接前,可以检查文件数与PDF数是否匹配,能够方便快捷的发现问题。每卷案卷的封面一般采用牛皮纸打印,目录和内容一般采用普通的白色纸张打印,封面与目录和内容表观上存在明显差异,通过预览PDF文件,即可轻易找到不符合要求的每卷案卷的第一个文件,便于核查。

由于扫描数据量非常大,通常无法进行逐页检查,一般采用抽查的方式进行检查,政策规定抽查率最低为5%,一般操作过程中,抽查率为10%左右,扫描过程中可能出现漏页、重复、内容显示不完整等情况,通过检查以后,要及时整改。如果发现某个区块的数据集中爆发错误或某扫描操作人员重复发生类似的错误,则需提高抽查率、及时与相关扫描操作人员进行沟通,将错误全部改正,严防类似错误再次发生。

四、OCR文字识别

采用OCR文字识别软件,将所扫描的图片,转换成文字信息,通过关键词的搜索,即可将平时通过搜索题名和文件名无法检索到的内容,呈现在管理人员眼前,方便利用者使用,尤其适用于题名、文件名录入不准确、不能正确反应文件内容、利用率高的重要档案。

现在仍需解决,档案数据量大、文字识别软件对于档案中手写字识别难道大、识别后所生成的文件格式不正确等问题,需要进行人工选取和校对。鉴于OCR文字识别软件存在的技术瓶颈和现实问题,建议先通过OCR文字识别软件将所扫描的档案全部转换为文字保存,要标记档号、件号等出处,方便查找原始图片及档案。将由档案图片所转换成的文字保存建立一个数据库,需要通过人工检查、改正一些明显的错误,人工校对仅作为OCR文字识别的补充,过多的人工介入则会很大程度上降低档案数字化处理工作的效率[6]。

在档案利用的过程中,如果确有档案中,无法通过题名和文件名检索,则可以通过检索OCR文字识别数据库进行查找,可以作为现今档案利用检索手段的补充。由于OCR文字识别技术仅仅是作为现今档案利用检索手段的补充,仅需保证一定的准确率,就可以发挥OCR文字识别技术不可替代的优势,能够提高档案利用程度,待技术发展更加成熟,将会在大数据时代发挥更大的作用。

大数據时代对于档案的信息化提出了更高的要求,识别利用率高的重要档案中的文字非常重要,将能够挖掘现今档案利用时无法检索的数据,实现档案信息资源社会化、共享化、数字化[7]。大数据时代档案利用的趋势是,将档案的数字化实现检索、计算、分析、便捷利用的档案数字化数据,而不仅限于图像文件、题名、文件名和目录的文字、关键词检索。政府部门、企事业单位的档案往往包罗万象,包含种类众多的类别。如高校保存的档案中,通常包含党群、行政、教学、科学研究、基本建设、仪器设备、出版、外事、财会、人物、声像、实物等类别,每个类别下面又分为数个小的类别,高校往往人员众多,学生数万人,教职工数千人,实施的业务种类丰富。在这种情况下,高校亟待推进档案大数据的综合利用,以便为高校管理人员、教师、学生提供优质的档案利用服务,尤其是通过大数据的分析为管理人员提供学校发展规划的决策建议、为教师提供个人发展规划的建议、为学生制定课程选择、个人升学、就业规划的建议。要实现这些档案大数据的深度利用,就需要得到尽可能齐全的档案数据,若将本校保存的所有档案数据数字化,将可实现档案数据的检索、计算、分析、便捷利用创新多样化服务方式,开展多层次、多方位的网络档案信息服务[8]。

参考文献:

[1]陈明洁. 大数据时代对档案现代化影响和要求[J].档案管理, 2013(6):48-49.

[2]张灵. 高校档案数字化管理之我见[J].档案管理, 2014(1):91-92.

[3]苏金华. 档案扫描项目的有效组织与实施[J].新东方, 2008(1):20-23.

[4]王晓燕. 档案全文扫描录入工作流程(上)[J].湖南档案, 2002(12):27-28.

[5]王燕, 李梦军. 档案全文扫描的实践与思考[J].数字与缩微影像, 2006(3):60-61.

[6]许呈辰. 档案数字化过程中OCR技术的应用[J].档案管理, 2011(1):38-40.

[7]宫毅敏. 大档案视角下的高校档案信息化建设[J].山西档案, 2017(5):77-79.

[8]陈晓媛. 信息化背景下高校档案利用模式的发展与创新[J].山西档案, 2016(5):47-49.

作者简介:王钢领,男,硕士,上海大学档案馆教师,主要从事档案信息化的工作。

猜你喜欢
数字化
让工业互联网成为城市经济数字化的新引擎
“2021中国数字企业峰会”在太原举行
揭示数字化转型的内在逻辑
从千人千面到千店千策
数字化起舞
厂家如何布局营销数字化
高中数学“一对一”数字化学习实践探索
中国民族语言的标准与数字化
基于数字化校园的学科融合教学与实践
高中数学“一对一”数字化学习实践探索