兰 锐,陈慧玲,童杨辉
(1.自然资源部国土空间大数据工程技术创新中心江苏分中心,南京 210017;2.南京国图信息产业有限公司,南京 210036;3.江苏省国土资源信息中心,南京 210017;4.江苏省国土资源动态监测中心,南京 210017)
“城市大脑”于2016 年提出,以人工智能技术为科技引擎,在经济、政治、文化、社会、生态等领域快速开展应用,目前已形成“531”(一张网、一朵云、一个库、一个中枢、一个大脑,政府内部互通、系统内部互通、需求供给互通,1 个新的城市基础设施)逻辑体系架构[1]。自2019年《自然资源部信息化建设总体方案》印发以来,各地自然资源部门先后构建了国土空间基础信息平台、规划行业管理平台、建设用地报批平台、“慧眼守土”综合监管执法平台等各类型信息化管理平台,形成了“两基础、三环节、四保障”(产权基础、空间基础,源头保护、过程监管、末端管制,制度保障、法律保障、监管保障、公服保障)的自然资源制度体系,但仍存在一些问题:
(1)数据资源标准不一,冗余问题严重。各平台由于建设时间、政策要求、开发厂商等差异,易出现标准不一、底图不一、算法不一等问题,加大了平台对接关联及自然资源三维立体“一张图”建设的难度;不断的平台运行导致同类数据冗余问题严重,这使得用户对有价值信息的辨识、数据关系的挖掘、趋势的把握变得愈加困难,如何科学、高效、便捷地开展数据治理工作成为数据资源利用的前提保证。
(2)智能化需求日益递增。近年来,人工智能技术为用户提供了便利,同时也对自然资源行业提出了新的智能化要求(如知识图谱、智能辅助审批等)。如何为行业内各类系统安装“人工智能(artificial intelligence,AI)大脑”,使得已有平台获得智能化跃迁,成为质变突破的关键核心。
基于以上分析,本文借鉴“城市大脑”的成功经验,探索建设一套“自然资源大脑”体系。该体系主要通过“数据超市”、AI 中台等功能模块,构建行业知识图谱、智能客服、智能辅助审批、智能监管等应用场景,从而推动自然资源管理的“数智化”升级转型。
通过构建“自然资源大脑”,本文将自然资源行业各类智能化技术集成为有机整体,创建实际应用场景,为自然资源行业装上“AI 大脑”。以国土空间基础信息平台为基底,借助感知设备获取“天、空、地、网”数据资源,利用数据治理能力和AI 中台的各类智能算法模型,构建智能政务、智能监管、舆情监控等智能应用场景。“自然资源大脑”设计思路如图1 所示。
图1 “自然资源大脑”设计思路
“自然资源大脑”以“天、空、地、网”的智能感知网络为数据来源,建立统一标准、统一底图、统一算法的数据服务体系,利用大数据、人工智能等技术手段和行业信息化应用平台,构建各类业务场景。在制度规范、运营运维、安全防控、考核评估等保障体系下服务社会公众,总体架构如图2 所示。
图2 “自然资源大脑”总体架构
1.2.1 数据治理
数据治理将各类多源异构数据通过数据治理平台进行整合服务,挖掘并建立自然资源行业内部数据资源池,通过数据规范、数据清洗、数据交换、数据集成等方法进行处理,形成各类别数据资产目录,并按照各类主题进行共享应用[2]。
(1)数据规范为多源异构数据建立一套标准化体系规范,包括规则处理和代码标准映射。规则处理即数据元标准制定,定义各类数据,达到数据字段认知和识别的目的。代码标准映射即基于通用的规范建立行业字典库,关联各个数据对应的代码名称。
(2)数据清洗将受到侵扰的“脏”数据进行识别并修复,包括属性错误检测、属性错误清洗、不完整数据清洗和相似重复清洗等基本方法。
(3)数据交换是将一个源模式数据转换为目标模式数据的过程,主要包括协议式交换和标准化交换。协议式交换通过一个已制定的交换协议完成数据交换;标准化交换通过统一的标准实现跨平台数据共享交换。
(4)数据集成是将不同数据集成在一起并支持访问数据源的技术,主要包括模式集成和数据复制两种技术。模式集成可以利用统一查询接口,通过中介模式在原始数据库中获取数据。数据复制将可能用到的数据复制到统一的数据源,通过单一访问实现数据获取。
1.2.2 智能化训练
智能化训练主要利用各类算法模型,形成集成化的样本处理中心与模型训练中心,搭建集算法构建、智能标注、模型训练于一体的智能化服务体系。
(1)基于开源软件库TensorFlow 的训练与部署。利用TensorFlow 机器学习框架,实现机器学习和深度学习算法的训练与部署。在训练模型部分,首先,需要完成训练数据的读取与标准化处理,将其传递到高等级机器学习算法库并进行训练。然后,通过设置TensorFlow 计算分配方法,选择训练的计算处理器如中央处理器(central processing unit,CPU)或图形处理单元(graphics processing unit,GPU)。最后,将训练好的策略模型进行保存,并在多种应用场景中部署通过训练保存的神经网络模型。
(2)建立AI 分析模型中心。利用基础测绘数据、地理国情普查数据和监测数据,构建时空信息、多数据源、多尺度的样本库。基于TensorFlow2.0 框架,利用TensorFlow Lite 进行模型转化,并采用深度学习方法进行模型训练,主要包含遥感影像场景训练和视频监控场景训练。遥感影像场景训练通过影像分割方法,例如多尺度分割、均值漂移(mean shift)分割等进行精准提取。利用影像光谱特征、形状特征、纹理特征等进行地物识别,包括但不限于地块、道路、房屋、特殊地物识别。通过对比两期遥感影像,采用AI 自动化技术提取变化的图斑。
视频监控场景训练通过建立AI 分析模型库,开展挖掘机、堆土堆砖、大型车辆等多对象识别工作,并创建图像识别原型,从而对各种土地违法行为进行特征分析。
基于多种AI 算法训练得到不同的神经网络、概率图或其他机器学习模型,封装成AI 中台应用并放于各个训练环境[3]。此外,还为中台配备算法自更新、识别类型自增加、识别精度自提升等能力算法,提升AI 中台的自迭代更新能力。
(3)智能光学字符识别(optical character recognition,OCR)技术。智能OCR 技术基于深度学习方法对传统OCR 技术进行改良[4],利用卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural network,RNN)等技术实现。针对低分辨率、强光影、大角度倾斜,能够实现自动定位和整行文字识别,通过结构化处理输出结果[5]。
(4)地理知识图谱。地理知识图谱作为一种具有显著时空特征,并与地学作用机理、地理空间人工智能(GeoAI)与知识图谱有机结合的科学,以“人-机”可理解、可计算、可推理的知识体系为研究内容,利用地理科学与人工智能科学,提升对各类地理事物动态感知和智能推理的能力[6]。通过知识图谱建立各类关联关系、明确各项语义规则、构建行业关系网络,同时借助深层次语义挖掘技术,形成从“概念”到“规则”再到“分类体系”的知识表达模型。
1.3.1 “数据超市”
“数据超市”在数据治理技术基础上,围绕数据标准、数据抽取、数据成果、数据更新、数据应用等内容,对行业数据进行规范管理及加工、包装等处理,从而形成体系、类别的数据产品,为客户通道提供一套流程[7],如图3 所示。
图3 “数据超市”架构
1.3.2 AI 中台
AI 中台集信息与通信技术(information and communication technology,ICT)为一体,将可重复使用的AI 模型和AI 服务沉淀共享,快速组合、组装并产出一套成熟的模型架构。主要通过创建行业样本库、模型库,结合人脸识别、智能OCR 识别、深度学习等 AI 通用服务技术,集成算法、模型等AI 能力,封装搭建AI 中台,从而实现自然资源行业的场景应用。AI 中台主要包括样本中心、模型中心、管理中心和展示中心,具体架构如图4 所示。
图4 AI 中台架构
(1)样本中心。针对现阶段数据样本采集难、效率低,训练数据量大、数据稀缺,标注数据多、成本高,缺乏统一样本格式、数据质量差等问题,样本中心具有丰富开放的数据管理、高质量的数据加工、高效率的数据处理、安全可靠的数据服务等优势,可通过智能数据样本采集、智能标注、智能清洗等操作提供一站式服务。
(2)模型中心。针对已有和所需的行业特殊场景模型算法,模型中心对所有模型进行统一管理、训练、共享和转换,支持多种本地化和第三方模型导入管理。通过模型共享与转换,可实现不同组织或项目间的模型共享,同时能够轻松获取端计算模型软件开发工具包(software development kit,SDK),适配多种芯片和操作系统。
(3)管理中心。管理中心提供数据管理、权限管理、资源管理、运维管理等服务,对AI 中台所需的各项功能进行管理统筹。
(4)展示中心。展示中心主要针对用户所需服务进行具体功能模块展示,将开发模型结合应用场景,创建可视化展示、在线解译、比对核查等具体应用服务。
场景应用基于数据治理和AI 中台能力,结合自然资源具体业务,从态势感知、数据挖掘、监测预警、决策优化角度出发,构建多专题行业场景体系。
行业知识图谱围绕不动产登记等自然资源行业业务,基于数据治理成果,建立统一的数据库,挂接自然资源实体的位置、界限等信息,通过知识抽取、知识融合、知识推理和应用等形成行业知识图谱,在数据预处理、模型训练中提供知识规则,创建“人-地-房”于一体的行业知识图谱库[8]。设计知识图谱问答系统,基于知识图谱组件和脑库时空构建组件,将空间和非空间数据结合,实现具体案件的空间推理和具体场景的应用,具体框架如图5 所示。
图5 自然资源知识图谱框架
依托AI 智能引擎,利用语言识别、关键字导航等能力,开发自助交互式、场景代入式、线上线下人机交互的一站式智能客服,为企业和群众提供7×24 h 在线咨询与沟通服务,助力行业业务办理智能化、便民化,具体架构如图6 所示。
图6 智能客服架构
智能辅助审批基于行业知识图谱,通过创建业务办理标准化流程,利用AI 中台智能化识别与解译能力,针对具体业务进行规则辅助,从而构建智能辅助审批“六步曲”,即提出申请、清单确认、上传录入、OCR 识别、智能判别、电子制证。
(1)提出申请。用户根据需求,选择业务审批类型(手动输入、语音录入)。
(2)清单确认。根据用户所选的业务类型,系统自动匹配所需的材料列表清单。
(3)上传录入。用户进行电子材料上传。
(4)识别分析。系统利用OCR 等技术进行智能识别,并与标准化模板进行叠加分析。
(5)智能判别。系统根据识别分析结果,智能判别合规性,自动将审批流程流转至对应责任人或责任单位。
(6)电子制证。责任人或责任单位确认后,系统可进行智能化电子制证。
智能监管主要通过遥感卫片AI 监管和视频监控AI 预警两种方式,将其应用至自然资源行业具体的监管业务(如“非农化”“非粮化”监管)。
2.4.1 遥感卫片AI 监管
基于各类日常遥感卫片,开展影像分割提取、目标识别检测、区域变化检测、图斑核查下发等卫片智能监管工作。
(1)影像分割提取。对所选区域内耕地、建设用地、农房、林地等各类地块进行智能识别检测和提取。
(2)目标识别检测。通过不同目标的光谱特征、形状特征、纹理特征等诊断指标,对区域内目标开展识别检测。
(3)区域变化检测。支持不同时期影像变化对比,对变化区域进行智能标注。
(4)图斑核查下发。根据违法行为监测结果,审核人进行相应类型结果复核,最终将其转发至对应的现场执法人员终端。
2.4.2 视频监控AI 预警
结合当下视频监控优势,该方式接入行业视频探头信息,利用AI 中台模型训练能力,添加各类违法行为识别场景和无关地物分割模型[9],针对“非农化”“非粮化”、批后监管、森林防火等具体场景开展视频监控识别预警,并将识别结果进行区别分类,人工审核完成后将其下发至执法人员。具体流程如下:识别违法行为,从AI 中台样本中心及模型中心选择所需地物识别类型及场景;分割无关地物,对监管区域外的无关地物进行剔除,降低无效预警率,提升预警实际效能。
舆情监控利用AI 中台的爬虫抓取、采集处理技术,对当前互联网、自媒体中的自然资源行业相关信息进行监测监管,实时掌握本行业热点事件,设置自动预警阈值,超前处置各类公共舆论危机事件。
(1)爬虫识别。针对当前各类流行的社交媒体平台,创建行业舆情热词,对目标平台进行多维度识别。
(2)智能预测。将爬虫识别内容进行热度排行,对舆情事件的发展脉络、特征分布、风险等级进行自动总结,利用大数据能力提供趋势智能预测,设定舆情预警阈值。
(3)警报处置。如果舆情数值超过阈值,平台自动推送预警信息,对当前各类舆情信息进行关联分析,并通过AI 中台自动生成危机解决方案。利用行业知识图谱将方案下发至相应的处置责任人或责任单位,从而实现公共舆论危机事件的超前预知与超前处置。
当前,大数据和人工智能战略背景下搭建的“自然资源大脑”旨在为行业“数智化”转型迈出重要一步。本文所提及的“自然资源大脑”建设体系主要依托大数据治理、人工智能等ICT技术,探索形成以空间数据治理为基础、AI 中台为支撑、场景应用为核心的整体架构。“自然资源大脑”可以在行业知识图谱、智能客服、智能辅助审批、智能监管、舆情监控等行业场景发挥智能化作用。目前,自然资源行业内的智能算法尚不能实现全精准,仍然需要不同程度的人机交互与人工复核。未来,随着各类智能算法的不断迭代更新,整个体系也将不断更新完善,这样才能真正实现本文提出的“自然资源大脑”建设构想。
致谢
特别感谢中国科学院精密测量科学与技术创新研究院任栋对本文写作的指导与帮助!