阿里云AI 识别在农村房地一体化调查中的应用

2023-11-06 06:56孙康宁
经纬天地 2023年4期
关键词:主要参数号码调用

孙康宁,陈 丽

(三和数码测绘地理信息技术有限公司,甘肃天水 741000)

0 引言

农村房地一体化调查是按照《地籍调查规程》(TD/T 1001—2012)、《农村不动产权籍调查工作指南》等相关技术要求,进行宅基地使用权、房屋所有权调查,形成满足不动产确权登记需要的房地一体的调查成果,为农村房地一体登记发证工作奠定坚实的基础[1]。自然资源部于2020 年5 月14 日下发了《自然资源部关于加快宅基地和集体建设用地使用权确权登记工作的通知》(自然资发〔2020〕84号),指出宅基地和集体建设用地使用权确权登记工作是党中央部署的一项重要任务,要求各地自然资源主管部门在2020 年年底基本完成[2]。 进行农村房地一体化调查时,以宗地为基本单元,详细调查每宗土地的位置、范围、面积、用途等土地利用现状,并根据不动产登记的相关规定,调查家庭成员信息和宗地范围内房屋的产权人、建筑年代、建筑结构、楼层、房屋用途和建筑面积、产权纠纷以及墙体归属等基本信息。在调查过程中,通过拍照、扫描的形式收集了户口簿、身份证、土地证、建设用地许可证等权源材料[3]。这些权源材料数量极大且为非结构化数据,如果通过人工录入不动产权籍数据库,效率与质量都无法得到保证。为解决人工录入权源材料的问题,使用了阿里云提供的人工智能(AI)识别功能,将非结构化的图像数据转为结构化的JSON 数据,并通过Python 编写数据处理工具将识别后的结果自动保存到不动产权籍数据库中。

1 阿里云AI识别功能介绍

阿里云AI 是阿里云开放平台依托阿里云可靠和灵活的云计算基础设施和平台服务,使用阿里顶尖的AI 算法技术,集成了图像识别、人脸识别、文字识别、商品识别等相关视觉技术的综合类视觉AI能力服务平台。在本次农村房地一体化调查项目中,主要使用了AI 识别中的卡证识别功能。

1.1 户主页识别接口

户主页是指居民户口簿的首页,套印了省、自治区、直辖市公安厅、公安局户口专用章,内容有户别、户主姓名、户号、住址等,并加盖户口登记机关的户口专用章。通过POST 方法调用户主页识别接口,即可将上述信息以JSON 格式的数据返回,接口主要参数如表1 所示。

表1 户主页识别接口主要参数

户主页中的信息主要用于填写地籍调查表、不动产登记申请书、不动产确权申请审核表等表中的家庭地址、户籍所在地。

1.2 户口页识别接口

户口页是户口簿中的常住人口登记卡,用于记录家庭成员的姓名、性别、居民身份证件编号、出生地、籍贯等信息。通过POST 方法调用户口页识别接口,即可将上述信息以JSON 格式的数据返回,接口主要参数如表2 所示。

表2 户口页识别接口主要参数

户口页中的信息主要用于填写家庭成员表及不动产申请基本信息表中的家庭成员情况。

1.3 自定义模板识别

在收集权源材料的过程中,还会收集到农户有土地证、建设用地规划许可证、准建证等其他材料,这些证件在阿里云AI 中没有现成的识别接口,需要通过平台提供的自定义模板识别接口来实现。使用自定义模板识别,需要提前根据证件的类型创建好模板,然后再通过POST 方法进行调用,主要参数如表3 所示。

表3 自定义模板识别接口主要参数

2 识别成果检查

图像识别的结果会直接用于发证不动产权证的发放,这关系到每个农户的切身利益,为确保发证的正确率,在使用识别结果前,应进行全面的质量检查。

2.1 身份证号码规则校验

目前我国居民身份证号码主要为第二代18位,还有少量第一代15 位号码。

15 位身份证号码由6 位地址码+6 位日期+2 位顺序号+1 位性别码组成。在某一个地址,6 位地址码相对较少,可以枚举,可以验证识别结果是否在指定地址范围内。6 位日期码一般是省略了年的前2 位(19),可以将此信息与识别出来的出生日期进行比对。

18 位身份证号码由6 位地址码+8 位日期+2 位顺序号+1 位性别码+1 位检验码组成。可以将前17位号码根据身份证号码检验公式计算出来的值与第18 位进行对比。详细计算方法如下:式中:V为检验码的算术值(余数);ai为身份证号码左边第1 位到第17 位的号码值;Wi为第i 位的加权因子,从左边起,第1 位到第17 位的加权因子分别为77、9、10、5、8、4、2、1、6、3、7、9、10、5、8、4、2;mod为整除11 后取余计算。

通过式(1)计算出检验码的算术值(余数)后,再将算术值代入检验码字符值换算关系表中,即可得出身份证的第18 位,如表4 所示。

表4 算术值(余数)与检验码字符值换算关系表

2.2 人工抽查

在作业过程中,将阿里云AI 识别的结果通过表格或者网页的方式展示出来,作业人员在权源材料中随机抽取约30% 进行人工检查,对照权源材料,采用人机交互的方式,详细核对智能识别的结果,如果发现错误,实时修改识别结果,这样可以进一步提高成果的准确率。

3 工具开发

阿里云AI 虽然提供了图像识别功能,但只有基于WebService 的开发接口,没有面向最终用户。作业人员使用此功能时,还需要根据项目的数据标准做进一步开发。本次农村房地一体化调查项目中,使用Visual Basic.Net 及Python 完成了全部开发任务。

3.1 识别缓存服务

识别缓存服务是在本地部署的一个用于存储、调用阿里云AI 识别结果的一个Web 服务。所有的识别数据保存于SQL Server 服务器中,通过IIS 以WebService 的形式对外提供服务。部署本地识别缓存服务可以起到提升识别效率、降低识别成本的作用。用户使用作业工具识别图片时,首先选计算图片文件的MD5 值,通过此MD5 在本地缓存服务中先查找是否已经存在识别结果,如果存在则直接使用识别结果。如果在本地没有找到识别结果,则先计算图片Base64 位编码,再调用阿里云AI 的相关识别接口进行识别,识别结束后,再将识别结果保存到本地缓存,以便下次调用,避免重复识别。

本地缓存服务基于.Net FrameWork 使用Visual Basic. Net 进行开发,对外主要提供QueryOCRResult 如表5 所示与InsertOCR 接口如表6 所示,同时支持GET 与POST 方法调用。

表5 QueryOCRResult 接口参数

表6 InsertOCR 接口参数

3.2 识别模块的实现

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 具有丰富和强大的库,常被称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地连接在一起,因此在科学计算、人工智能、网络编辑等领域有着广泛应用。本项目选择Python 作为应用工具开发的编程语言。阿里云AI 识别提供的所有识别功能都是通过WebService 的方式对外提供服务的,因此需要开发一个调用WebService 的Python 模块。调用WebService 返回的结果都是JSON 格式,因此识别模块中需要实现3 个基本功能:服务调用、JSON 解析和数据库读写。

3.2.1 服务调用

服务调用函数的形式为:CallService(url,method,namevalues),其中url 表示WebService 对外提供的地址,method 表示网络请求方式(GET、POST等),namevalues 表示由参数名与参数值组成的列表。此功能借助于第三方开源工具包suds 实现了调用WebService 的功能。

3.2.2 JSON 解析

JSON 解析函数的形式为Parse(jvalue,name),其中,jvalue 表示调用WebSerice 返回的JOSN 格式的数据,name 表示某个属性名。Python 标准库中已经提供解析JSON 数据的相关模块,使用时提前通过import json 语句引入即可调用[4]。

3.2.3 数据库读写

在作业过程中,为作业方便,全部使用Microsoft Access 数据库(mdb 文件)保存数据。从JSON 中解析出来的数据最终保存到mdb 文件中。使用Python 读写mdb 时,需要引用第三方模块win32com,设置DSN = 'PROVIDER=Microsoft.Jet.OLEDB.4.0;',通过Jet 数据库引擎来实现对mdb读写操作[5-6]。

4 应用实例

农村房地一体化调查项目在全国各地已经开展,本单位承接了多个地区的农村房地一体化调查项目。为提高作业效率,降低作业人员的录入工作,专门开发了识别权源材料的数据处理工具。作业人员在外业收集权源材料时,要求每张图片不超过4 M,且要按照统一的方式进行组织。

以村(地籍子区)为单位进行组织,每一宗存放一个目录,在每一宗内部,各种类别的图片通过文件夹的方式分类存放。这种统一的数据组织方式可以为后期的自动识别工作带来了很大便利。当某个村的权源材料收集完毕后,在系统命令行中运行权源材料处理工具(Python sdcOCR.py),即可将数据保存到mdb 数据库文件中。

5 结语

本文通过对阿里云AI 提供的图片识别服务的接口参数、调用地址及返回结果进行分析,介绍了开发权源材料处理工具需要实现的主要功能及实现思路,并以Visual Basic.Net 及Python 作为编程语言,开发了专用的权源材料数据处理工具,降低了作业人员的录入工作量,提升了作业效率及产品的质量,为加快推进宅基地和集体建设用地使用权确权登记工作提供了坚实的技术支撑。通过“互联网+”模式,将阿里云成熟的AI 技术运用到具体的项目中,形成真正的生产力。文中关于调用阿里云AI 识别技术的相关设计思路和实现方法对开发其他基于云服务的应用也有一定的借鉴意义。

猜你喜欢
主要参数号码调用
生活垃圾分类对垃圾主要参数的影响分析
有机硅流化床气体分布板主要参数设计
说号码 知颜色
一个号码,一个故事
核电项目物项调用管理的应用研究
猜出新号码
LabWindows/CVI下基于ActiveX技术的Excel调用
基于系统调用的恶意软件检测技术研究
碎边剪剪切特性分析与主要参数确定
影响轮轨粘滑振动的主要参数分析