史晟恺
摘 要:在產业用地信息梳理的过程中,首先需要确定地块的底数,其中图斑所在土地的用地性质是关键信息。由于一些早期的纸质信息对相关信息的关键字缺少明确标识,所以只能浪费很多人力和时间去阅读这些纸质内容或者扫描文件中的数据,最后进行人工判断、总结。现基于自然语言处理和机器学习,通过引入重要词权重构建改进型朴素贝叶斯模型,对需要的土地信息进行识别,并和实际正确的信息比较。结果表明:通过机器学习对字典的构建后,运用自然语言处理技术对产业用地关键信息识别的准确度和效率有较大提升。
关键词:图斑 用地性质 自然语言处理 机器学习
中图分类号: TP391.1
Identification of Industrial Land Usage Based on Natural Language Processing and Machine Learning
SHI Shengkai
(Shanghai Surveying and Mapping Institute, Shanghai, 200063 China)
Abstract:In the process of combing industrial land information, it is first necessary to determine the base number of land plots, among which the land usage of the land where patter spots are located is key information. Due to the lack of the clear identification of the keywords of relevant information in some early paper information, a lot of manpower and time are only wasted to read these paper contents or scan the data in documents, and finally manual judgments and summaries are made. Now, based on natural language processing and machine learning, an improved naive Bayes model is constructed by introducing important word weights to identify the required land information and compare it with actual correct information. The results show that after constructing the dictionary through machine learning, the use of natural language processing technology greatly improves the accuracy and efficiency of the key information recognition of industrial land.
Key Words:Pattern spot; Land usage; Natural language processing; Machine learning
1. 引言
1.1 研究背景
随着智慧城市理念的发展,以数字化形式运营城市是未来的趋势。为推进产业用地的高质量利用,保障产业高质量发展,提高土地利用经济密度和产出效益,需要对土地的现有情况进行梳理,并摸清数据。这些工作需要进行文档数据的整理归纳和现场实地踏勘。在调查过程中,对于历史久远的土地批文信息的识别有一定的困难,而最大的问题就是缺少明确的标识,导致人工识别精准性不高、效率低下。
近年,大数据在城市运营领域和土地规划管理方面的应用与研究越来越多。考虑到不同数据之间的保密性以及存储逻辑不同,数据共享难度以及直接使用会比较难等一系列问题,这里往往需要人工对一些纸质数据进行重新录入[1],最后根据项目需要再加工处理。人工环节越多,效率和出错率就会提高。为避免这些问题,需要尽可能让机器按照逻辑完成。
1.2 研究目的与方法
自然语言是指让计算机代替人类进行自动化的语言文字的相关处理,具有自动阅读和自动写作两种功能。同时也具有自动化的审批、核对纠错、搜索、推荐、比对、分析、评判等功能,对人工密集的阅读效率提升很有帮助[2]。
针对产业用地调查过程中的非结构化数据,可以通过使用自然语言处理的方法,自动提取文字并识别土地的批准用地性质。针对使用权出让合同、不动产登记系统以及政府会议纪要等非结构化文本数据,利用朴素贝叶斯算法[3],识别实际土地的使用情况,帮助政府了解未来土地管理工作的基础信息。该研究利用上海市某区本土的命名方式和文字表述构建字典,目前仅能识别该地区的土地性质。
2. 准备工作
2.1 硬件设备准备
机器学习对于电脑的配置要求较高,而用于图片识别的光学字符识别(OCR)软件也对机器有一定的要求,但是调查产业用地项目的图片和文字材料逻辑简单、图片清晰,可以适当降低硬件配置也能满足要求。本文在研究中所用的电脑配置为:英特尔i7处理器、32GB内存、NVIDIA GTX1070独立显卡、512GB固态硬盘,机载系统为WIN10专业版。
2.2 基础数据准备
利用自然语言对文本进行文字或者语意理解都需要有关键字标注,所选的关键词越多就越有代表性,最后的展示结果也会越正确[4],而关键词是取决于我们所准备的基础数据的特性和分类方式的。基础数据的特性和分类方式如下。
(1)土地出让合同、农转用批文、不动产权证等涉及批准信息的材料电子版,均为JPG或者PDF格式,主要包括数码照片和电子扫描件两种。
(2)用地性质分类数据:用地性质小项以及其对应大项名称整合。比如商铺、门面房等均属于商业,交通用地、停车场均属于公共设施用地。
3. 作业流程
3.1 数据预处理
数据预处理包括:剔除标点符号、英文字母和数字等内容。
3.2 字典构建
根据用地性质对应的行业,由日常经验结合现有的基础数据信息,从高到低初步排列出有语义词汇组成的热词,并添加进语义字典,建立初始字典[5]。基本字典构造如表1所示。
这部分工作内容较为复杂且按照经验判断容易出错,初始字典的好坏虽然不容易影响结果,但是对机器学习的效率会有很大的影响。
3.3 特征工程处理
首先,利用OCR提取房产证、出让合同、交易合同以及其他文件上的文字信息。其次,采用隐马尔可夫模型、维特比(Viterbi)算法和Jieba分词引擎进行中文分词;采用词频—逆文本频率算法统计各个批准文件样本中在字典内和不在字典内的词汇出现频率;再次进行人工筛查,剔除出现频率高但是对土地性质无帮助的词汇,并将其增补进无语义字典,同时根据构建字典的原则,将剩余的词汇作为特征词按序组成新的字典。最后,采用词频—逆文本频率算法重新统计各个批准文件里特征词的出现频率[6]。
特征词正向词频如下:
式(1)中:為第i个特征词在第j个土地性质名称中的词频;为第i个特征词在第j个土地性质名称里的出现次数;k为第j个土地性质名称有k个特征词。
特征词逆向文本频率计算如下:
式(2)中:D为土地所有用地性质总和;为土地第j个用地性质;为包含第i个特征词的土地性质的总和[7]。
3.4 模型训练
首先从PDF或者JPG等文件中提取文件里出现的高频词和动名词信息,通过人工标注扩展模型,再使用机器学习去不断训练模型,从而对文件中所示内容进行判断,即判断该文件对应的土地属于什么性质。最后通过人工判读,确定经过机器学习后得出的结论正确与否[8]。
土地性质有实际使用性质和房产证规定的使用性质,产业用地调查的对象主要是工业用地或者历史上出现过工业性质的土地,所以如果批准用途为非工业的其他用途,则不在本次调查项目的范围内。对于那些批准用途是工业,但是实际并未满足一定效用的工业生产的企业,则会在系统上用红色字体标注。而这部分内容在中台数据中,是通过企业经营许可证等工商注册信息和它的房产证或者出让合同的性质做对比得出的结论。实际上,后期还需要去现场核实,但是这不在材料判读里。
3.5 数据分析
土地性质识别的总体准确率A计算如下:
式(3)中:n 为所有样本个数; 为识别正确的样本个数。
某个土地性质识别的召回率计算如下:
式(4)中: 为识别正确的第i类性质土地样本的个数; 为实际第i个性质的土地中所有样本个数。
某个土地性质识别的精确率计算如下:
式(5)中:为识别正确的第i类性质土地样本的个数; 为识别成第i类性质土地的样本个数。
土地性质识别的值计算如下:
4. 实验结果
4.1 样本整体预测情况
由于样本逻辑较为简单,测试样本645个,经过对比预测完全正确的样本是589个(实际是590,有一个是相关纸质数据自身出现错别字导致丢失),整体准确率为91%。样本多为电子图片格式(如图1所示),既没有纸质文件那种符合阅读的方式,也没有电子文档便于编辑,所以需要人工仔细整理。由于没有设置“无法判断”这个选项,所以导致机器判读会根据有限的数据强行找出字典里匹配最接近的土地性质,从而使准确率低于实际的人工判读。如果把人工判读的无法判断不计算为正确的话,机器判读的准确率和人工判读接近,但是从时间方面看,一台机器一个下午完成了三个人一天的工作量,在保证准确率的前提下,大大缩短了翻阅资料的时间。
4.2 分类样本预测情况
通过对涉及批准信息的材料和字典比对,得出最终可能的预测结果,再和真实值进行比较,得到各类土地性质样本准确率、召回率和 值,如表2所示。从表中可以看出,对于工业和住宅的土地判断十分准确,值高达0.97和0.98,可靠性极强。科研教育会出现少量漏选,但是整体的正确率和值都接近0.9。市政设施用地和商业用地稍差一些
样本中商业用地和市政设施用地的信息来源大多是土地出让合同,这部分内容基本涉及出让时间和出让金额等交易信息,土地的性质未必在出让合同里有明确表示,所以无法利用如商场、商业、学校等直接定性的词语进行辨别,只能通过条款中的语意分辨。而这部分语义较难区分商业和科研教育,而且土地出让合同样本有时候复印不全,导致无法完全通读样本材料。但是产业用调查项目的调查对象是原本土地性质就是工业的这部分图斑,所以这部分错误因为项目特性可以相应被剔除。
4.3 字典建立
通过机器学习的方法,不断完善初始字典,把相关性低的词语进行排除,留下关联度高的词语(如图2所示)。最终得出所需要的字典,并建立了初步的知识图谱。如果未来有更多不同的数据或者留有更多的学习时间,会收敛出不同的结果。
4.4 项目结果
按照图版底数清楚、情况分析明确、措施要求到位,采取人工比对与机器判读相结合的方式,在内业过程中反复核对图斑的信息,最后对项目中产业用地的各个地块逐一到现场踏勘确认,确保结果的准确性。在实际项目9000多幅图斑中,机器学习判定出的结果正确率和准确率均超过95%。目前最终数据已完成认定入库(如图3所示)。后期将继续加强机器自动识别用地性质,通过人工复核的模式增强工作实效。
5. 研究结论
(1) 通过自然语言进行的土地性质识别,效率得到巨大提升。准确率、召回率和值均在可控范围内。
(2) 在用地性质分类时,朴素贝叶斯算法的性能优于随机森林算法。
(3) 根据朴素贝叶斯模型识别的结论,二级市场上的相关信息对用地性质的描述不够明确,需要借助其他信息进行辅助判断,加强土地用地性质识别的准确性。
參考文献
[1] 淮文斌,陈雪梅,蒋真,等.存量时代下盘活低效产业空间的实施路径:以深圳市龙华区为例[J].规划师,2022,38(11): 124-131.
[2] 李芳,陈震原,肖军.一种基于自然语言处理技术的智能定责应用研究[J].广东通信技术. 2023,43(1):8-12
[3] 徐琳宏,丁堃,林原,等.基于机器学习算法的引文情感自动识别研究:以自然语言处理领域为例[J].现代情报,2020,40(1):35-40,48.
[4] 王福,刘姝瑾.基于信息接受规律的移动图书馆场景重构[J].情报资料工作,2018(5): 50-56.
[5] WANG D S, LIU J Z, ZHU A X, et al. Automatic Extraction and Structuration of Soil-environment Relationship Information from Soil Survey Reports[J].Journal of Integrative Agriculture, 2019, 18(2): 328-339.
[6] 马丽萍,曹国良,郝国朝.基于大数据的大气污染防治方式优化探究——以西安市为例[J].环境与可持续发展,2018,43(2):54-56.
[7] 陈凯,黄英来,高文韬,等.一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 哈尔滨理工大学学报,2018,23(4): 69-74.
[8] 李健,马延周, 胡瑞娟.基于深度学习的轻量级自然语言描述生成算法[J].计算机仿真,2022,39(10):369-372,390.