自动著录技术在户籍档案数字化中的应用研究与实践

2022-07-11 00:49李新功
北京档案 2022年6期
关键词:人工智能数字化

李新功

摘要:为适应社会的数字化转型,公安机构在全国范围内开展了户籍档案数字化工作。面对户籍档案数字化工作在组卷复杂、纸张状况较差且著录工作量大等方面的挑战,实现数字化工作的智能化与自动化成为探索焦点,所以采用自动著录技术势在必行。该文对采用自动著录技术的必要性、技术框架及系统实现逻辑等展开介绍与分析。

关键词:户籍档案 数字化 PaddleOCR 人工智能

随着我国国民经济和社会发展的第十四个五年规划纲要的发布,“加快数字化发展,建设数字中国”迅速成为工作中的焦点。这也为档案行业的发展带来了新机遇。近几年,档案行业的全流程管理研究纷纷着眼于自动分类、自动著录及智能鉴定等领域。公安机构也投入了大量资源开展户籍档案数据建设、户籍档案数字化建设工作。本文根据实践中遇到的户籍档案需要大规模著录问题,研究利用百度飞桨平台(PaddlePaddle)加以解决。作为世界顶级的深度学习平台,飞桨平台以百度公司多年深度学习技术的研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。[1]飞桨平台汇聚开发者数量达370万,服务14万家企事业单位,产生了42.5万个模型。[2]它是百度公司的开源平台,体量轻是其最大的特点之一。PaddleOCR是飞桨平台上的细分应用平台,非常适合档案行业解决大规模自动著录问题。本文提及的自动著录技术研究及实践就是基于这个细分平台而完成的。

(一)采用自动著录技术是户籍档案全面数字化的社会要求

本文所称户籍档案,是指常住户口登记、暂住登记及居住证管理、居民身份证管理、人口信息管理等相关户籍资料。目前在户籍管理中,仍然以纸质档案居多。纸质户籍档案管理有着诸多弊端,难以查询,难以追溯,难以获得完整的信息,难以关联,所以引发了一系列社会问题。在不少地方,“老、破、旧”的户籍档案不在少数,其纸张发黄发脆,字迹晕染、模糊,手写体居多。

在这次户籍档案数字化进程中,无论从管理、技术还是实施角度,户籍档案信息系统的建设并不是重点和难点,反而是亿级纸质档案数字化的工作才是重点和难点,而难上加难的就是应对海量数据的著录。举个例子,某省有近50亿页户籍档案需要数字化,目前仅完成1.2亿页的工作量。其中某个下属市28个分局共有905.7万卷、3761万页户籍档案,仅完成了405万页的数字化副本在户籍档案系统中的挂接,占比大约为10.8%,也就是说历史户籍档案数字化程度较低。所以采用自动著录技术势在必行,这是户籍档案全面数字化的社会要求,可以确保户籍档案信息可用、可查、可追溯。

(二)采用自动著录技术是户籍档案深度数字化的新要求

近两年,公安机构在全国全面展开了户籍档案信息化的工作:在建设户籍档案管理系统的同时将纸质档案数字化,并将数字化副本按照要求挂接到系统中,以便查询。但是此次公安部部署的户籍档案信息化工作不同于以往,呈现出以下特点:第一,此次工作部署更加落地,在全国范围全面推进,有的省份公安系统甚至提出了信息化量化管理指标,同时优先配套财政费用,有效保障该项工作所需资源。第二,此次户籍档案数字化并非仅仅着眼于档案管理视角,而是从数据观视角出发,提出了深化户籍档案数字化的实施要求,要求著录户籍档案80%或以上的内容。有别于以往的标准档案内容著录要求,户籍档案深度数字化反映在以下两个方面:一是横向扩展,对于每个级别的著录内容要求都有所增加,例如案卷级著录信息标准字段是档号、案卷题名、保管期限等,而此次著录要求除了标准字段外增加了不少其他字段,比如卷宗编码,它是业务流水编码,以及卷宗编码的条形码、档号的条形码以及原类别号等十几个字段。二是纵向扩展,著录层级从标准的案卷层级、卷内文件层级扩展到具体的每一页页面层级,并且扩展到页面中的字段级别,数据颗粒度细化到词/词组级别。这也符合未来档案数据化的要求:向档案内容要数据,从内容中提取数据,将数据颗粒度细化,为将来精准检索、数据关联利用、数据挖掘和分析及深度展示检索结果做准备。

深度学习为OCR赋能,也为自动著录带来了新机遇。本研究就是抓住了此机遇,开发了基于PaddleOCR技术平台的自动著录应用系统。

(一)深度学习为OCR技术赋能,为自动著录夯实基础

OCR是英文Optical Character Recognition(光學字符识别)的缩写。简单来说,OCR识别包括以下基本步骤:第一步是图像预处理;第二步是文字检测;第三步是文字截取;第四步是字符识别。其中第一到第三步属于文本检测阶段,而第四步才是文字识别阶段。传统的OCR技术在档案行业的应用一直处于尴尬状态,因为档案门类繁多、纸张情况复杂,错误率比较高。而且手写体、表格、字体上的不规范都会造成识别错误,如果在错误识别的结果上再改错,效率比较低,甚至不如直接人工著录。所以在相当长的一段时间,OCR未被大规模使用和推广。但是在人工智能研究快速推进的技术环境下,OCR也开始了与深度学习的融合,产生出多种算法、模型和应用,这也是本研究能够有所推进的根本原因。

目前融合在OCR深度学习文本检测阶段的算法大致分为以下几类:第一类是基于目标检测的方法,一般是预测得到文本框后,通过NMS(Non Maximum Sup? pression)筛选得到最终文本框,多是四点文本框。该检测法对较大弯曲文本场景效果还不是太理想。典型算法为EAST(An Efficient and Accu? rate Scene Text Detector)、Text Box等方法。第二类是基于分割的方法,即将文本行当成分割目标,然后通过分割结果构建外接文本框,可以处理弯曲文本,但是对于文本交叉场景问题效果不理想。典型算法为DB(Differentiable Binarization)等方法,目前最常用的有效方法是二者的混合。OCR识别阶段,其输入数据一般是文本行,背景信息不多,文字占据主要部分,识别算法目前可以分为两类:一类是基于CTC(Connectionist Tem? poral Classification)的算法,常用的算法组合为CNN(Convolu? tional Neural Network)+RNN(Recurrent Neural Net? works)+CTC。目前也有一些算法尝试在网络中加入transformer模块等。另一类是基于Attention的方法,即识别算法的文字预测模块是基于Attention的,常用算法组合是CNN+RNN+Attention。本文研究的Pad? dleOCR平台充分融合了以上主要算法,是深度学习对OCR的赋能,大大提高了OCR结果的容错力:一是提高了正确率;二是提高了对字体的容纳度。这使得OCR技术在档案行业的应用旧貌换新颜,使得户籍档案数字化的大量著录工作有可能采用自动著录技术来高效完成。这是自动著录技术应用的基础。

(二)基于PaddleOCR细分平台的自动著录系统架构介绍

研究发现自动著录成为可能后,我们利用Pad? dleOCR细分平台自主开发了应用于户籍档案数字化的自动著录系统,图1就是其系统框架图。在图中,核心框架和模型算法被封装在百度的飞桨平台中,这是基础层。本文研发时直接调用此内容。在模型训练系统中,先采集和选取多种样本例如中文印刷体、英文印刷体、繁体中文、中文手写体等样本,并对大量样本进行标注,通过Paddle框架训练成对应的训练模型。这里,训练模型的准确性与样本的数量与完整度有很大关系。在服务部署过程中,经过样本训练出来的模型通常体积较大,为了提高加载速度与运行速度,需要用到Paddle-Slim功能对模型进行压缩。Paddle-Hub提供多种预训练模型,可以方便快速地完成预训练模型的预测。Paddle-Serv? ing用于服务部署,可将模型作为单独的Web服务进行部署,这是中间层。自主开发部分集中在应用接口、版面识别模板库和业务应用这几大部分。利用应用接口,在Paddle-Serving的基础上自主进行开发,然后封装成为完整的Web RESTful API接口,自动著录系统可以整合这层应用,形成Web应用、桌面应用、移动应用等。研发最核心的部分在于两部分:一是版面识别模板库,这也是应用特点的体现。在户籍档案数字化应用中,纸质档案是按照各种标准整理组卷完成的案卷,并非杂乱无序的数据样本,所以可以根据在数字化工作中采集的数据样本进行训练和分析,从而形成户籍档案行业的模板库。例如,我们可以针对同一类别的档案的版面进行版面标注,标注需要提取的结构化数据具体在版面中的位置,形成模板库,相同版面提供多个不同的标注样本数据,可以提高版面模版的识别精度。二是业务应用部分。利用版面识别模板库和文本识别的Web应用接口,可以构建对应的版面识别应用,有效识别各种户籍档案数字化业务场景中较为固定的版面文本数据,从非结构化数据中快速提取结构化数据。

(三)自动著录系统的实现逻辑

自动著录系统的主要实现逻辑是:进入自动著录界面后分两种情况,第一种情况是该类户籍档案没有做过自动著录,故而没有相应的著录模板,所以需要制作模板。系统利用“OCR模板制作功能”,首先在数值化副本图的左边图片区域对图片整体进行框选(见图2),然后右边将出现相对应的电子版表格;其次根据需要对所有需要著录的字段一一对应到各自的目标位置后,再进行保存,此时制作模板完成;最后点击“智能OCR”,那么按照模板将完成该页面的一键自动著录。

第二种情况是“不使用模板-定向识别OCR功能”。这是指在系统中已经建立了模板,或曾经著录过类似的内容,在这种情况下,不需要建立模板,只需要按照第一种情况的简化步骤直接完成操作即可。

三、结语

本研究不仅推进了户籍档案著录数字化过程中自动化、智能化的研究与应用,也为档案数据化管理提出了新的解决思路和技术工具,使得档案数据化管理更加落地。

其成果主要体现在以下几个方面:第一,它充分体现了研发与实践的闭环过程:研发、验证、修正、推广、大规模使用,并没有仅仅停留在研究和思考的层面,也没有仅仅停留在实验室验证的层面,而是进行了大规模的使用和验证,至今已经助力完成了超过两千万页户籍档案著录数字化的工作。第二,已经产生并持续产生了商业化价值,为大大小小的户籍档案数字化外包商提供了产品化服务,服务金额已经近千万元,并持续提供商业服务中。第三,自动著录系统大大提高了户籍档案数据内容提取和转换的效率及准确率,将错误率从18%降低到3%以下,效率至少提高了300%,缩短了项目实施周期,大幅降低了数字化的成本。

當然,本文的研究和实践也还有不尽人意之处,该技术对手写体的辨识准确率并没有达到90%;同时对著录内容的一致性有一定要求,因为建模板需要花比较长的时间,也会影响效率。随着需要数字化的户籍档案数量增多、数据模型的积累,数据训练的效果会越来越好,自动化、智能化水平也会相应提高,其实施效率和应用层面的效果也会越来越好。

注释及参考文献:

[1]冯建周,余扬,刘磊.基于飞桨框架的三阶递进式机器学习教学模式探索与实践[J].计算机教育,2021(10):28-32.

[2]百度百科.飞桨(百度深度学习平台PaddlePaddle中文名)[EB/OL].[2022-04-12].https://baike.baidu.com/ item/%E9%A3%9E%E6%A1%A8/23472642?fr=aladdin.

作者单位:中国人民大学信息资源管理学院

猜你喜欢
人工智能数字化
我校新增“人工智能”本科专业
数字化:让梦想成为未来
家纺业亟待数字化赋能
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
2019:人工智能
人工智能与就业
数读人工智能
数字化制胜