姜 洋,刘龙威
(1.广东省国土资源技术中心,广州510075;2.广东省国土资源测绘院,广州510663;3.自然资源部华南热带亚热带自然资源监测重点实验室,广州510663;4.广东省自然资源科技协同创新中心,广州510663)
根据中国地理信息产业发展状况报告显示,截至2020年末,我国地理信息产业从业单位数量超过13.8 万家,2020年总产值达到6 890 亿元,产业展现出蓬勃的发展活力[1]。作为一项基础性事业,测绘地理信息行业在国家安全、社会现代化治理、国民经济建设乃至疫情防控等诸多领域有着不可或缺的重要作用。在中央“放管服”的政策背景下,广东省多措并举优化地理信息产业营商环境,通过测绘资质管理制度改革、下放资质审批权限、推动“多测合一”“联合测绘”改革等促进产业发展;“十四五”期间,广东省自然资源厅计划实施系列重大基础测绘工程,全面提升基础测绘服务和保障能力,更好地支撑自然资源管理和各行业需求,更好地服务生态文明建设和经济社会发展。面对一系列改革和发展需要,亟需测绘管理部门从安全、保密、发展和服务等多维角度,以现代化管理手段对测绘地理信息行业进行有效监管并提供精细精准服务。本文从大数据视角出发,以广东省实践为例,探讨大数据技术在一体化测绘地理信息监管和服务体系建设中的作用和实现方法,并呈现相关应用案例。
对于管理机构而言,一体化测绘地理信息监管和服务的目的是为了提升管理机构自身的现代化管理治理能力,高效精准引导和服务产业发展。当前制约监管和服务能力提升,既有测绘行政监管力量相对不足,亦有信息化监管数据不足、技术手段不足等问题[2]。提升测绘地理信息监管和服务能力可从两个方面破局:一是如何不断建设并持续完善集成一体、动态维护的测绘监管与服务大数据本底库,本底库不仅要涵盖各类专题业务数据,更要囊括行政管理过程与结果数据,构建监管和服务多维大数据知识图谱;二是如何建设协同性高、智能性好的一体化监管和服务平台,通过深挖数据、事项、过程等之间的关系,发挥大数据驱动效应,提升监管力和服务力。这两方面是相辅相成的,其中大数据是监管和服务体系的血肉,支撑体系的丰度,是业务分析和管理、智能应用的基础;平台是监管和服务体系的骨架,支撑体系的强度,帮助挖掘数据背后的业务逻辑、知识逻辑,展示数据呈现趋势。探索一种可行的,集采集、处理、维护、更新和挖掘一体的大数据技术方法,进而构建基于数据驱动的一体化测绘地理信息监管和服务体系,对于提升监管和服务能力而言至关重要。
本文从大数据收集与处理支流程、维护更新支流程、挖掘与应用支流程三个方面探讨测绘地理信息监管与服务建设流程。利用接口调用、ETL等技术,对多源异构数据进行抽取、规范、集成和存储,并动态维护和更新,同时建立知识图谱,在多元化信息服务技术、智能化表单构建技术、基于地理商业智能技术的多维统计分析与决策技术[3]基础上,开展数据深度挖掘与应用。主要技术流程图如图1所示。
图1 大数据主要技术流程图
从大数据角度而言,数据来源越广、类型越多、数量越多、周期越长,后续大数据挖掘与应用效果就越好,但由此带来的多源异构和质量不等问题也对数据处理提出了挑战。
以广东省为例,所采取的数据收集方式包括上报式收集、接口式获取、已有系统数据库抽取、纸质资料转换等多种方式,收集结构化、半结构化、非结构化的海量数据(所收集的数据类型和关系图谱如图2所示);数据来源有各级测绘行政管理部门、档案管理部门、企事业单位、信用管理部门等,存在数据结构差异较大、属性精度缺失、数据冲突、空间基准不统一、部分类型数据丰度不足、内容完整性正确性和逻辑一致性有待检验等问题。为此,需对所收集数据进行结构分析、内容梳理和数据清洗,统一结构和内容范式,从数据库角度构建不同类型数据的关联关系,进而完成数据本底库建设。
图2 数据关系图(局部)
数据维护与更新是大数据技术体系的重要一环,良好的基础维护和动态更新能赋予数据更旺盛的生命力,不断补足当前数据体系存在的短板。数据维护更新,一是通过业务应用新增内生数据,并下沉更新到本底库;二是通过采集外生数据,进行标准化处理和校验后,融合更新现有数据库。
采集外生数据时,应充分利用自动、分布的采集方式,以提高数据获取效率和数据丰度。以业务和信用数据更新为例,若无强制行政命令,企业未必会自主、如实、完整填报本企业的业务和信用信息,此时利用互联网爬虫技术通过从信用中国、政府采招网等相关网站爬取数据到统一模板,进行数据验核与更新,不断提升数据真实度和丰度,就显得尤为重要。外生数据融合是数据更新体系中技术难度较高的环节,应在对数据结构和内容含义有深刻理解基础上,建立清晰的数据验核、匹配、更新与销毁、访问控制等更新规则,并对更新过程实施数据库审计,确保数据仓库安全。
只有对海量复杂数据进行挖掘、分析、多维解构,构建数据知识图谱,才能发挥大数据多维连接、感知问题、解决问题、呈现知识以及预测预警的应用功能。构建知识图谱是数据挖掘的关键一环,知识图谱核心是构建大数据语义知识网络[4],从测绘大数据特征出发,通过梳理不同数据的语义关系、空间关系、时间关系,以标记分类[5][6]等抽取语义关系,以空间拓扑结合语义抽取方式建立空间关系,以人工提取结合语义抽取方式建立时间关系。测绘地理信息行业有其特殊管理要求,仅从数据提取知识难以构建具有足够丰度的知识图谱,对此应结合《测绘法》《测绘资质管理规定》《测绘地理信息管理工作国家秘密范围的规定》等测绘法律法规以及广东省有关测绘政策、技术管理办法,构建专家知识库,进而建立融合三大类关系和专家知识的知识图谱。知识图谱构建技术流程见图3。
图3 知识图谱构建技术流程图
应用是对大数据以具有规律性、直观化的方式呈现,让大数据的挖掘结论更易于感知和传达。以数据表单的基础关联关系为索引,可实现简单的可视化展示、基础统计分析和浅层次预报预警等基础应用。要实现深层次多维度的可视化展示、智能问答、决策分析、推理预测、预报预警等应用,则需要基于知识图谱,利用基于知识库问答、统计方法、神经网络方法等大数据挖掘方法,实现知识的关联分析、聚类分析等功能[4],进而为相关深层次展示、决策、预测等应用服务。
广东省搭建了融合大数据和信息系统为一体的省级一体化测绘地理信息监管和服务平台(以下简称平台),平台充分利用大数据、数据自动化采集以及电子证照、广东省统一身份认证、分级权限控制等多种技术手段,面向监管端(行政管理部门)和服务端(公众用户)提供了基础管理、预测分析、智能决策等多种应用服务。
3.2.1 基础应用 围绕广东省测绘监管和服务需求,平台实现了包括基础统计分析、可视化分析、业务管理、公众服务等多种基础应用。比如:以测绘监管为例,质量监督检查在服务“双随机一公开”检查中起着重要的作用。依托丰富详实的资质单位和业务数据,监管人员可通过平台直观掌握各规模以上测绘单位项目实施情况,针对性开展质量监督检查、填报检查结果信息(见图4);监管部门通过平台动态掌握全省规模以上测绘单位总体质量情况、测绘项目实施情况,通过平台发现预警信息,针对性制定相应行政管理措施;测绘单位根据监管结果改问题、补短板,不断提升企业综合能力。
图4 质量监督检查统计
基础测绘在支撑经济社会发展、支撑自然资源管理工作中有着不可或缺的重要作用,其成果服务范围大、应用领域广。在对相关数据全面梳理整合集成的基础上,平台实现了基础测绘任务下达、进度管理(见图5)、质量监督、历史任务检索,以及成果目录采集、公开、分发的全生命周期管理,较好地实现了基础测绘任务科学管理和成果推广应用。
图5 基础测绘进度统计
联合测绘是测绘地理信息行业深化“放管服”改革的一项重要举措,自然资源管理部门高度重视联合测绘推进工作。平台通过统计分析对各地上报的联合测绘业务信息(见图6)与工程建设项目信息等信息源进行动态比对分析,直观展示联合测绘业务实施情况,发现业务异常或执行偏离并进行预警提示,为管理部门加强监管提供坚实数据支撑和便捷管理手段。
图6 联合测绘业务信息统计
3.2.2 进阶应用
对数据进行联动分析,挖掘其关联规则和隐藏的知识,增强应用交互性,实现更深层次应用。
(1)在知识检索方面,利用基于知识图谱数据库的问答系统,解析自然语言问句,提高知识检索的交互性、智能性和精准度。
(2)在管理决策方面,广东省要求同一种数据通过共享可以满足不同部门、不同业务的需求,无需重复采集、采购和生产[7]。通过与省政数局“项目管理平台”对接,实现地理空间数据项目的协同管控,通过对同类型项目、同类型测绘成果、相同业务申请等进行重复性检测和预警,对已有项目成果利用程度进行分析,辅助项目立项决策,有助于避免重复建设造成财政资金浪费。
(3)在监管方面,通过联合测绘资质单位信息与测绘业务信息等多类信息,分析黑名单作业、无资质/超资质作业、低价恶性竞争等情况,对在广东省进行测绘活动的行为进行监管,构建信用名单,评价产业发展健康度,促进产业健康发展。同时相关信用信息可以作为资质复审换证、业务核准等业务的参考凭证。
受多种原因所限,目前数据库建设、挖掘和应用还存在不足。辟如数据丰度不够饱满、知识图谱不够立体全面、挖掘算法不够全面先进、推理和问答功能不够精准和完善、平台交互性不够强,等等。对此,需要围绕管理需求和公众服务需求,持续深入解构数据内在关联和丰富含义、完善知识图谱,不断开发或引入大数据挖掘算法,进而逐步改进或实现智能问答、智能审批、企业/项目信息溯源、成果应用决策分析、成果使用安全保密预警、项目重复建设预警、产业(企业/项目)风险预测预警、技术发展预测、产业发展趋势评估等深层次应用。
目前,围绕测绘现代化管理和服务需求,广东实践从数据和系统两个维度出发,建设形成了一套符合广东省情的一体化测绘地理信息监管和服务平台,利用丰富的数据、先进的系统,较好实现了一体化的测绘单位、项目、成果的精准监管,以及面向管理者与公众用户的精细服务。从大数据视角来看,丰富详实的数据是应用的根本基础,基于大数据驱动的“数据+平台”模式,能有效提高监管和服务的规范化、智能化、协同性、精准性。受多种因素所限,广东实践在大数据处理和应用方面仍有较大提升空间,特别是在研究数据自动验核和知识判断方法、构建内容饱满和逻辑清晰的知识图谱、开发和引入先进挖掘算法以进一步挖潜应用场景、提升智能决策预测水平,加强公众服务方面仍需进一步提高。