基于OCR 技术实现文字识别在不动产登记中的应用

2023-03-11 08:22
地理空间信息 2023年2期
关键词:文字程序微信

左 涛

(1.中煤航测遥感集团有限公司, 陕西 西安 710199)

随着人工智能、云计算、大数据的兴起,特别是OCR(光学字符识别)技术商业化的日益成熟,照片文字识别正确率达95%以上,其自动化录入文字信息成为可能。本文介绍使用“微信小程序+腾讯云+腾讯OCR”一体结构实现在移动端自动化的数据录入和采集工作。其工作全部在腾讯系统框架下,微信小程序实现移动端拍照、传照片工作和数据下载功能,腾讯云实现后台数据库的建立、存储和输出,腾讯OCR实现图像文字识别算法。

1 不动产登记

1.1 微信小程序

微信小程序是一种下载安装即可使用的程序,用户扫一扫或搜一下即可打开应用。全面开放申请后,主体类型为企业、政府、媒体、其他组织或个人的开发者,均可申请注册小程序。小程序、订阅号、服务号、企业号是并行的体系[1]。

1.2 OCR

光学字符识别最早是应用在辅助盲人阅读设备上的[2-3],1929 年OCR 的概念正式被Tausheck 提出[3-4]。OCR 是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程[2,5]。 在计算机视觉领域,OCR 识别是其很重要的一个分支,属于模式识别和人工智能。如图1 所示,图像输入、图像预处理、文字检测、 文本识别、文本输出等一系列过程构成了一个完整的OCR 系统[5-7]。其中主要过程有图像预处理、文本检测、文字识别、输出识别文字等。OCR 主要解决了图像上的文字信息计算机自动识别的问题。

图1 OCR系统组成

Figure 1 OCR system composition 微 信OCR 识 别 能力是微信团队推出的一套提升移动端快捷信息录入的工具,目前支持身份证、银行卡、行驶证、营业执照和通用OCR 的识别,广泛适用于政务、医疗、交通、教育、教育、金融等各行各业,涉及到需要用户输入身份信息、银行卡信息、车辆信息场景时,即可通过ODR 快速识别、输入信息,极大地提高输入效率,提高用户体验[1]。腾讯云文字识别基于腾讯领先的深度学习技术,将图片上的文字内容智能识别成为可编辑的文本,既支持身份证、发票等卡证类和票据类的印刷体识别,也支持数学算式等手写体识别,可以有效地代替人工录入信息、提升数据处理效率。

1.3 不动产统一登记

不动产统一登记工作是十八大之后,中央部署的一项重大的改革事项,是我国产权管理体制机制的重大改革,也是维护社会主义基本经济制度的重要保障[5]。“不动产登记”数据主要由两部分组成:一是表示土地、海域、房屋、构筑物、建筑物等不动产单元数据,即不动产单元物理空间数据;二是表示土地、海域、房屋、构筑物、建筑物产权登记属性的数据,即产权登记数据。物理数据由测绘成果资源提供,权属数据由登记成果或房地产档案管理资源提供包括权利人数据、权利数据、登记业务数据等信息[8]。数据海量,分散保存在各级不同部门,资料数字化程度不同,行业之间和行业内不同地区之间的差异较大,数据标准互不衔接,数据格式不统一[9]。不动产登记一项重要的内容是需要登记权利人信息和房产信息,不动产数据量庞大,依靠人工录入易出错并且耗时耗力,因此,本文提出了使用腾讯云结合腾讯OCR技术在微信端实现应用小程序,用户通过手机拍照识别图像上的文字信息进行整理入库,实现自动采集人员户籍等信息。

2 详细设计与功能实现

2.1 系统架构

本系统采用了“微信小程序+腾讯云+腾讯OCR”结构模式,利用腾讯公司提供的OCR API(文字识别技术)并运用了腾讯云作为存储和上传下载服务。考虑到数据收集大多在户外或现场,本文使用微信小程序作为客户端,实现移动端数据收集工作,因此将系本统设计为C∕S 模式即Client∕Server(客户移动端∕服务器结构),客户移动端主要用于用户界面显示,服务器端接收数据输入和下载。C∕S 一般采用两层结构,如图2所示。

图2 C/S两层结构

2.2 系统过程

系统本系统功能主要过程有:利用手机拍照,使用移动端微信小程序上传照片,在腾讯云中调用对应的OCR接口函数连接实现提取图像中的文本信息,使用自定义算法筛取文本信息中有用的数据,其结果返回到手机端的文本窗口中,在手机端文档可复制、编辑、粘贴等,确定没有错误可以上传保存或下载,本系统具体实施流程图如图3所示。

图3 系统流程图

2.3 关键技术

具体微信小程序开发使用JavaScript语言,后台云开发使用Node.js 调用API,数据在云端处理,微信小程序客户端负责上传照片和下载处理数据。

利用OCR函数返回值即识别图片的文字信息,在腾讯云中使用Node.js函数保存必要信息在腾讯云数据库中,根据客户端的设置和要求提取并保存在Excel中进行下载。户口簿数据处理使用同样的过程,其值保存在户籍信息数据库中等待筛选下载。

3 应用实例

本系统参与本单位相关项目的具体实施,在四川、福建、江西等5 个不动产登记项目中进行了测试和应用,本系统效率高、速度快、错误率少,取得了较高的经济效益。基于本文系统架构实现的《农房一体化文字识别系统》移动端部分界面截图(图4~7),图8是图片识别后下载的身份证信息截图。

图4 上传图像识别

图5 识别完成

图6 单个身份证识别界面

图7 入户调查数据采集界面

图8 文字识别后下载的识别结果文件(局部)

通过微信小程序的界面上传的身份证和户口簿照片,在腾讯云后台服务器调用OCR 函数识别照片文字信息,返回结果通过算法筛选需要的数据进行整理记录到数据,用户可以根据设置时间或其他限制条件下载所需要的数据表格(如图8 制式表格)。

4 结 语

本文通过腾讯云实现移动端文字识别技术在不动产登记等项目中的应用,较好地解决了在项目实施中数据采集整理的自动化智能化问题。基于移动端很好解决了收集资料的碎片化、无序化、及时性的问题,同时基于腾讯云后台服务解决了数据存储和数据处理问题,实现了数据采集自动化。OCR 技术应用在数据采集中具有以下特点:①OCR 文字识别技术成熟,识别效率高,使用方便快捷;②解决了大量人工输入问题;③速度快、准确率高,可以实现批量化处理。本文实现的系统不局限于不动产的数据采集过程,也可以使用在档案整理、数据入库、电子信息采集等项目中。

猜你喜欢
文字程序微信
文字的前世今生
热爱与坚持
当我在文字中投宿
试论我国未决羁押程序的立法完善
“程序猿”的生活什么样
英国与欧盟正式启动“离婚”程序程序
微信
创卫暗访程序有待改进
微信
微信