AI文字识别技术在城市规划档案数字化中的应用

2019-01-09 22:26朱清苗宁波市规划与地理信息中心
浙江档案 2019年11期
关键词:城乡规划表格城市规划

方 钟 朱清苗/宁波市规划与地理信息中心

城市规划档案是规划部门依法进行规划审批、规划管理与规划监督的最为有效的依据与凭证,也是检验工程项目是否符合相关标准的证据之一。随着信息时代到来,传统的城市规划档案数据检索和处理已经不能满足人们日常工作需求。可将关注重点放在AI文字识别技术上,探讨如何将该技术应用于规划档案数字化。

1 为什么要应用AI文字识别技术

1.1 城市规划档案数字化工作现状:以宁波市为例

宁波市城乡规划部门从2015年开始启动城市规划档案全文数字化工作,到2018年建成规范化数字档案室,完成约70%的非涉密档案数字化工作,且数字化成果已实现系统管理,用户可按系统分配的账户权限在系统中进行目录浏览、搜索或全文调阅,相关工作人员可进行线上移交、网上查档。宁波城乡规划档案数字化工作已取得一定成效,为后续档案数据价值的挖掘打下了较好基础。

但工作中也存在明显问题。开展数字化的这几年投入了大量人力、物力,如为减少工作中差错率,市城乡规划部门出资组建了3支专业的数字化加工团队,自行研究数字化加工流程,本意是希望大幅度提升速度和提高质量,但囿于规划档案信息复杂、历史档案数据缺失等因素,目录建库环节繁琐费时、错误率高、完整性较差等问题没有得到很好解决。

1.2 应用AI文字识别技术可行性分析

AI文字识别技术应用于城市规划档案数字化,在大幅减少工作量的同时能大幅降低档案录入工作的错误率;可以为历史档案数据的补录工作提供技术支持;能够提高档案数据信息的完整度与可靠性。具体的可行性分析如下。

一是准确性分析。目前市场上主流的AI文字识别技术基于深度学习能力,可为用户提供图片内多种语言文字自动检测和识别服务,并具有高精度、快速、易上手的特性。在宁波市城乡规划档案数字化工作项目的测试中,AI文字识别技术对中文手写体识别准确率在70%以上,对覆盖多种语言的通用印刷体文字的识别准确率达到90%以上。

二是效率分析。基于目前的AI文字识别技术,GPU 1个字符的平均时间约2ms,并能在持续的优化更新中保持服务的快速稳定。在宁波市城乡规划档案处理案例中,处理一件档案的平均时间约为3分钟(包含网络传输时间、格式转换时间、文字识别时间、人工校准时间)。若应用AI文字识别技术,可以将一份档案的提取时间缩短为平均1分钟甚至以下。

三是稳定性分析。AI文字识别技术能对不同格式的文字和图像进行稳定快速的编码转换,并且在处理表格时能快速判断图像存在的表格数量并执行动态切割操作,使切割后的图像能完全保留原图像中的表格块,此外AI文字识别技术带有自动纠错功能,因此稳定性极高。

四是针对性分析。AI文字识别技术在应用于城市规划档案数字化工作时设置了自主模版配置功能,可根据规划档案的样式进行配置,基本满足城市规划档案信息提取与补录的需求。

五是友好性分析。目前的AI文字识别技术实现了单文件识别、批量识别、项目识别功能,用户只需上传需要识别的全文数字化成果,识别服务将自动分析所传成果的数量、类型等,并对每个成果进行标题验证,若验证通过则自动与设定模板匹配,若无法识别则返回与模板不一致的提示信息,所有识别信息实现全自动分组和分表展示。

2 如何应用AI文字识别技术

2.1 技术攻关

一是图像去噪。城市规划档案中存在大部分陈旧文档,且陈旧文档上往往存在斑迹、染色、印章晕染等干扰因素,需要进行图像去噪工作,提高识别的准确率。

二是表格提取。城市规划档案中90%以上的关键数据都以表格形式进行存储,受表格线等因素影响,普通文字识别技术在有表格的场景下识别精度会明显降低。应采用表格提取算法,将图片中的所有表格取出,包括其中的位置信息及每一栏的子表格数,以便于将AI文字识别的识别结果进行分类分区域数据整合,提高准确率。

三是识别结果优化。根据场景信息的提取要求,将识别结果转换成目标格式,如时间类型、电话格式等等,既提高了工作效率,又增加了数据准确性,保证了数据采集结果的质量。

四是基于项目识别的排序分组。在进行大批量的项目识别时,档案编号往往是有一定规则的,因此可根据档案编号规则特征开发一种分组排序算法,使得每一批档案能准确、快速地被算法分组及排序,实现大批量档案自动有序识别。

2.2 质量把关

AI文字识别技术对于手写文字识别的准确率较低,因此需要进行质量核检。一是完整性检查,根据档案著录字段和城乡规划数据挖掘要求,检查AI文字识别结果的完整情况,重点检查是否存在应录却未录的字段和数据;二是准确性检查,通过逐一检查和按一定比例抽查的方式,检查识别结果中是否存在内容和文字上的错误;三是有效性检查,检查日期、电话号码、编号等具有特殊格式的字段和数据格式转换的准确性,保证著录数据在利用时的有效性。

当然,质量核检可以通过机器核检和人工核检相结合的方式进行,在定制AI文字识别系统时可以考虑嵌入机器核检步骤,将机器核检结果反映到人工核检环节,实现质量的双重把关。

2.3 流程优化

在城市规划档案数字化工作中应用AI文字识别技术,应重新确定数字化加工流程。首先,图像扫描环节应前置,并做好电子文件格式转换工作;其次,原人工字段著录环节为AI自动识别取代,但仍应安排人工校对环节,并在历史档案数字化加工时加强校对力度;再次,应做好AI文字识别技术和档案系统的对接工作。

通过改变时序、减少环节、改进关键环节等方式,将AI技术更好地应用于档案数字化工作中,达到简化数字化加工流程、提高对风险点控制的目的,最终实现提高效率、降低成本、保证质量的目标。这一优化过程并不能一蹴而就,需要随着技术的发展不断完善。

2.4 安全管控

第一,选择安全可靠的AI文字识别技术平台。AI文字识别的系统平台是AI文字识别技术的载体,在城市规划档案数字化工作的初级阶段,一般采用在现成的第三方平台基础上进行自定义架构设计和二次开发的方式进行搭建。在选择时应进行多方对比分析,对主流AI文字识别平台的专业性、稳定性、安全性等方面进行检测,选择成熟、可靠的系统平台,以规避因系统平台安全漏洞而导致的档案信息外泄或因系统平台不稳定因素造成的档案信息丢失的风险。

第二,健全现场安全管理制度。应制定新形势下的安全管理制度,内容包括对人员进行任务分配,明确岗位职责;制定网络线路和机房、设备的安全检查和应急制度,确保能及时发现故障和解决问题;强化信息安全保密措施,降低档案数字化中的安全风险,提升安全管理水平。

第三,加强数据安全管理。一要根据档案数据的需求和工作实际,决定数据存用环境和AI文字识别平台的搭建环境;二要在数字化前严格区分密级和非密级档案,因为密级档案和非密级档案是否进行数字化、数字化管理模式和数字化采用方式,其要求各不相同;三要做好数字化成果的保密检查,对不适宜对外公开的误采集数据进行剔除;四要对AI文字识别平台和档案管理系统的访问权限进行分级管理,成果数据只能在限定的权限范围内进行相应操作。

猜你喜欢
城乡规划表格城市规划
新形势下的建筑设计与城市规划
《现代临床医学》来稿表格要求
城乡规划建设中土地管理存在的问题与解决
浅谈基于低碳、生态导向的城市规划
城市规划区内中小型遗址保护的策略分析
新形势下的建筑设计与城市规划
论当前城乡规划工作存在的问题及措施
城乡规划中常见问题与解决措施探讨
统计表格的要求
生态建筑设计在城乡规划设计中的运用分析