葫芦岛市档案局国有企业退休人员人事档案数字化验收方法

2021-12-28 06:56葫芦岛市档案局李泓博葫芦岛市档案馆
兰台世界 2021年6期
关键词:页数全文数据库

□ 葫芦岛市档案局 李泓博 葫芦岛市档案馆 陶 冶

一、退休人事档案数据普遍存在的问题

1.纸质人事档案不规范。纸质档案是档案数字化的基础,如果纸质档案在收集整理过程中出现问题,那么数字化形成的数据必然是不合格的。以人事档案为例,经过数字化的人事档案信息录入电脑后,虽然人事档案文件题名、编号、成文日期等信息变得一目了然,但是无法通过这些信息来确认分类、页码是否正确以及档案资料是否收集齐全,仍然需要人工核对,才能确保实体档案的齐全、完整。因此,纸质档案不规范是威胁档案数字化的首要问题,然而纸质档案的问题仅能通过档案数字化工作得到一定程度修复或者补充,并不能通过档案数字化彻底根除纸质档案存在的问题。

2.人事档案目录信息录入不完备。档案目录信息录入是人事档案数字化工作的重要组成部分,而且直接关系着人事档案检索利用的效果。如何在数十万甚至上百万的人员信息数据中检索出所需要的人事档案,主要依靠人事档案目录数据库的建设是否完备。根据《辽宁省国有企业退休人员人事档案规范化整理和数字化工作实施细则》(以下简称《实施细则》)的要求,人事档案数字化目录录入项目一般都包括材料名称、材料形成时间、文件页数、姓名、身份证号码等十几项内容。实际工作中常见的问题主要有身份证号录入有误、档案记载出生年月与身份证不一致、性别录入错误等,这些信息的准确与否直接关系着人事档案的安全保管和信息检索。

3.人事档案全文数据库不合格。全文数据库的问题主要体现在两个方面。一方面,全文数据库文件数量不合格。在扫描的过程中,由于人员疏忽或系统错误,经常造成扫描形成的图像数量与纸质档案数量不一致的状况。以2020年葫芦岛市国有企业退休人员人事档案验收情况为例,除经过专门检测软件检验过的档案数据,全市100余家国有企业退休职工人事档案数字化验收一审合格率为0%。扫描过程中极易出现漏扫、多扫的情况,造成扫描页数与档案目录记载的页数不一致,这样轻则造成数据重复冗余,重则造成档案信息无法查询。如果扫描图片数量不清,一旦在数据传输或管理时发生数据丢失,则无法明确交接双方责任,为移交工作埋下隐患。另一方面,全文数据库文件质量不合格。在扫描过程中,由于设备不同、实体档案的类型和状态不同会造成扫描形成的图像质量参差不齐,主要体现在扫描图像的色彩、分辨率、偏斜度等方面。另外,原始图像上的杂质、折痕以及背透等问题都影响着图像的扫描效果,进而影响光学字符识别(OCR)的效果。

4.目录和全文数据库关联失效。按照《实施细则》的要求,目录数据库和全文数据库的指针为挂接索引。挂接索引是关联两个数据库的唯一通道,因此挂接索引的准确率是确保两个数据相互关联的前提。然而人事档案挂接索引比一般档案复杂,且挂接索引必须100%准确才能保证数据关联。挂接索引形成过程中,英汉符号的差别、全角半角输入的差别以及数位补零之间的差别都会影响最终的结果,导致档案目录数据与档案图像无法有效关联。例如,目录数据库全宗号字段在录入数据前多敲入一个空格键,这样的错误很难通过肉眼观察发现,但是会造成全部数据无法实现链接,而且不知从何下手修改数据。

以上四类问题是人事档案数字化验收过程中普遍存在的,想要提高退管人事档案数字化的质量,仅靠严谨的工作态度,而没有一套行之有效的验收方法,很可能导致档案数字化工作事倍功半,人事档案的验收无法给予档案数据以合理保证。

二、国企退休人员人事档案数字化验收方法

随着海量的人事档案数字化信息不断生成,检测纠错的难度是成几何倍数增长的,即便理论上存在验收方法可以保证档案数据万无一失,实践中在经济条件和技术条件的制约下也仅是纸上谈兵。因此,通过人事档案数字化验收的档案,验收单位无法对档案数据给予绝对保证,而是按照《实施细则》的相关要求,结合现有档案工作实际情况,通过一定的信息技术检测后,给予高标准的合理保证。以下结合葫芦岛市退管人事档案数字化验收工作实际,按照技术实现的难易程度或投入资金量列出四种验收方法,供各位档案同仁参考。本文所讨论的人事档案数字化验收方法,仅限于对人事档案数字化数据的检验,对于纸质档案已经整理完毕,但既没有录入目录信息又没有扫描成为图像的纸质档案无法进行检测,不在本文讨论范围之内。

1.方案一:格式审查+数量关系试算+数据抽检。格式审查是指对国有企业退休人员人事档案数字化形成的档案数据的格式对照《实施细则》相关要求进行形式上的审查,即审查目录数据库中必录字段是否齐全完整、非空字段有无缺失信息、挂接索引格式是否正确、全文数据库中图片存储格式以及图片命名格式是否正确。数量关系试算是指通过计算案卷目录总页数、份目录页数以及扫描图片数三者相等的数量关系,去检验案卷目录总页数与份目录总页数之间、目录总页数与扫描图片数之间是否相等,从而判断两个数据库有关数据是否准确。数据抽查是对目录数据库和全文数据库进行抽检,检测目录与图像的关联是否准确、图像扫描质量是否达标。通过以上操作,能在一定程度上保证人事档案数据的准确性,虽然这套方案几乎不需要投入任何经费,且不依赖检测系统,但这套简易验收方法基本上是依靠验收人员的观察来判断合格与否,因此保证程度不高,即便是通过验收的数据,未来档案利用过程中发现错误的概率也很高。

2.方案二:单向系统检测+数量关系试算。单向系统检测是指通过档案检测系统,从目录数据库出发,自动进行格式审查、非空校验、身份证号检测以及挂接索引有效性等检测。目录数据库合格后,检测系统根据挂接索引去关联图像,并检测图像分辨率、色彩以及存储格式,保证与目录数据库成功挂接的全文数据库图像质量,再对两个数据库内的数量关系进行试算。这套方案需要借助专业的档案信息管理或检测系统,目前市场上常见的档案管理软件稍作修改后,基本可以实现单向检测的功能,但单向检测是以全部目录数据库中的数据为基准,去测试全文数据库数据的有效性和准确性,并不能反向从全文数据库向目录数据库发起测试。这就难免造成一些数据错误无法检测出来,例如全文数据库中存在扫描图片,但是目录数据库中并未输入对应的目录信息,这样的错误单向检测系统是无法发现的。通过数量关系试算可以有效弥补单向检测系统的不足,通过两步检测可以在合理的置信区间内推定通过数字化验收的数据是准确无误的。但这套方案的弊端就是定位较为困难,通过数量关系测算发现的问题,无法精准定位,需检测人员具备较强的档案业务和计算机操作能力,逐步尝试以缩小范围。在实际工作中,经常是在几万条目录和几十万张图片中寻找错误,费时耗力,效率很低。虽然这套方案存在着不足之处,但是相比于其他方法并综合考虑资金和人力成本,此方案的性价比最高,且实用性、兼容性较好。因此,现实工作中葫芦岛市档案局采用了该套方案。

3.方案三:双向系统检测。双向系统检测是指实现档案数字化目录数据库与全文数据库双向检测,既包括从每一条目录信息检测对应的每一张图片,也包括从每一张图片反向检测对应的目录信息。这样单靠一套检测系统就能确保两个数据库内所有的数据都经过检验,同时都与对应数据库的信息建立了关联,全面实现自动检测和精准报错,大大提高数据纠错以及数字化验收的效率,并且通过验收检测的数据比较接近绝对准确,完全达到合理保证的要求。然而这套系统存在着两项不足,一方面,目前此类软件需要定向开发,且开发费用较高,同时双向检测对计算机运算能力要求较高,当检测数据量较大时,配置较低的电脑很可能无法流畅运行该系统甚至导致系统崩溃;另一方面,这套系统虽然可以保证数字化扫描图片与目录正确关联挂接索引正确,但图片实际内容与目录记载信息仍有可能不一致。相比于方案二,方案三有更高的效率,大大节省人力和时间,但对于档案数据准确性的提升不大,方案的整体性价比并不高,比较适用于设备较为先进且档案数量庞大的档案馆。

4.方案四:双向系统检测+OCR检验。OCR检验是通过光学字符识别(OCR)技术,将图像中的字符识别成为计算机可处理的字符,并将识别出的信息与目录数据库内的信息进行对比,从根本上确保图片内的信息与目录对应字段信息保持一致。能通过双向系统检测+OCR检验验收合格的数据,无限接近于零差错,只是由于目录数据库记载信息有限,无法全面反映文件全部内容,所以理论上目录数据没有记载的信息部分仍然存在错误的可能性。方案四对验收软硬件设备要求极高,部分技术尚在研究阶段,尚不具备大规模推广应用条件,但是此类解决方案代表未来档案数字化发展的方向,目前属于学科前沿。

猜你喜欢
页数全文数据库
《语文建设》(下半月)2020年1—12月总目录
应该从第几页看起
青年再造
发现“西方中医”
反腐
来信
数据库
数据库
数据库
数据库