陶超,周俊晖,侯祥意
(广州南方智能技术有限公司,广东 广州 510663)
2017年原国土资源部、国家测绘地理信息局联合印发了《国土空间基础信息平台建设总体方案》。方案提出要建设国土空间基础信息数据的相关标准规范和数据资源体系[2]。随着自然资源部的组建[1],国土资源-自然资源信息化在新形势下有了新内涵。2019年11月,自然资源部印发了《自然资源部信息化建设总体方案》,方案要求建立三维立体自然资源“一张图”,整合、集成和规范土地、地质、矿产、海洋、测绘地理信息等各类数据库,按照统一的标准,构建“地上地下、陆海相连”的统一的自然资源“一张图”大数据体系[3]。本文将结合国土空间基础信息平台大数据中心实践案例,探讨新形势下的自然资源数据治理体系如何构建和应用。
辅助自然资源部门履行“两统一”职责[1]和自然资源精细化管理是自然资源信息化的重点需求。目前建设于国土资源信息化时期的数据管理体系架构已难以有效满足,主要存在以下问题[4]:
(1)土地、测绘地理信息、地质环境、矿产资源等数据分散存储,分散管理,数据存储介质、格式和标准不统一,亟待提升管理与存储能力,因自然资源部组建而统一管理的规划、海洋、林草等数据,尚无统一数据管理体系与之适应。
(2)纳入自然资源部门管理的数据普遍存在字段缺失、坐标系统不一致、图形属性不对应等问题,土地、矿产、测绘各类数据的现势性参差不齐,部分急用的数据难以及时获取和更新。
(3)原归属于林草、海洋、规划部门的数据与国土、测绘地理信息数据的口径、精度等均存在较大差异。
(4)空间、业务、时态三大关系在数据中虽有涉及但缺乏统一的数据模型来组织、管理和维护。
为了解决上述问题,各级自然资源部门需要在现有的国土资源数据管理体系基础上,充分考虑自然资源部“两统一”职责和精细化管理需求,整合各类自然资源数据,因地制宜,构建自然资源数据治理体系。
图1 自然资源数据治理体系五个部分与国土空间基础信息平台关系
自然资源数据治理体系构建包括了五个部分(图1):自然资源数据标准规范体系、三维立体自然资源“一张图”大数据资源体系、空间-业务-时态三域关系、自然资源数据分布式统一管理机制、自然资源数据更新-维护机制。
按照中央生态文明建设和自然资源部“两统一”职责的要求,梳理原有国土、测绘、地质矿产、海洋、林草、水资源和国土空间规划的各类数据标准,纳入统一的标准规范体系下。对于已经存在的标准,尽可能吸收融合,尚未订立的标准需要重新订立。确定数据汇聚标准规范、数据组织标准规范、数据质量标准规范、数据更新标准规范、数据应用和共享标准规范等5大类标准规范,对应自然资源数据治理的各个环节。
在标准规范体系架构下,构建融合“地上地下、陆海相连”的全空间三维立体自然资源“一张图”大数据资源体系(图2)。主要开展以下几个工作:
图2 三维立体自然资源“一张图”大数据资源体系构建
(1)统一数据时空框架构建
采用2000国家大地坐标系、1985国家高程基准、时间参考系等。
(2)数据资源目录构建
遵循科学性、实用性、可扩展性、统一性等原则,充分考虑已有的土地、林草、湿地、海洋、地质和矿产、国土空间规划等自然资源数据现状,构建便于数据分布式组织管理、共享应用的数据资源目录。
(3)统一数据模型设计
采用面向对象的理论与方法,遵循“数据与应用分离”的原则,将空间图元(对象)作为国土空间基础信息的空间对象进行设计,包括对象实体模型、关系逻辑模型。通过统一对象描述与编码、概念模型设计、逻辑模型设计、模型的操纵规则等建立对象的空间、业务、时态三大关系,构建统一数据模型,并与对象现状、规划、自然资源管理的业务行为有机联系[2,4]。
(4)大数据中心设计和开发
大数据中心要求能够有效组织、存储、管理基于统一数据模型组织的数据资源,支持包括矢量、栅格、属性、时序、文档、视频等各种数据格式。设计成“物理分散、逻辑集中”的结构。建设三维立体自然资源“一张图”核心数据库和应用数据库,作为数据资源体系下各类数据的载体。自然资源数据治理体系下三个主要数据库与大数据中心的关系如图3所示。
图3 自然资源数据治理体系下三个主要数据库与大数据中心的关系
(5)数据清洗、加工、入库
①对数据进行数字化、空间化:对纸质档案进行数字化,把扫描文件中信息提取到数据模型中,将没有空间化的空间信息空间化,比如将表格中的坐标点位或者坐标串变为GIS数据格式。
②根据数据质量标准规范对数据进行加工处理:包括拓扑处理、属性处理等。
③同一要素多版本数据的差异冲突检测和融合处理:比如多个版本的基本农田数据,进行整合和处理。
④根据数据质量标准规范对整合的数据进行标准化质检。
⑤对未建库或已建库数据结构有较大变动的数据资源,按照数据组织规范和统一数据模型进行标准化入库。已建库数据结构变动不大的数据资源需要按照新标准进行改造,并纳入三维立体自然资源“一张图”核心数据库统一管理。
(6)应用数据按需组装
根据前五个步骤形成三维立体自然资源“一张图”的核心数据后,根据自然资源三大应用体系和其他行业部门共享、应用需要,按需组合、融合、脱密后衍生形成对应的“一张图”应用数据,纳入三维立体自然资源“一张图”应用数据库统一管理。
在完成自然资源数据标准规范体系和资源体系构建之后,需要进一步建立数据间的多维度关联,发现和维护数据间的空间关系、业务关系和时态关系,摸清基于实体的三域关系互相作用情况。基于三域关系去解决数据联动更新问题,整体上维护数据体系的一致性,并为基于完整数据和数据关系的大数据挖掘奠定基础。
(1)以空间关系为主线进行梳理和维护
通过实体的空间位置去发现隐含的空间关系,并由空间关系引出其空间实体对应的时态和属性。比如通过维护不动产权利实体相关空间关系,征地部门可以快速确定国有土地的使用权人,地上建筑物或构筑物的所有权人,以及依附在建构筑物上的抵押物权或权利限制(法院查封、异议期间的行政复议或行政诉讼),提升征地部门的工作效率和准确性。
(2)以业务关系为主线进行梳理和维护
通过对行政审批和监管事项的梳理,将业务办理全链条中涉及的各种数据和关联关系找出并维护好。如国土空间规划中的三条控制线的动态消长、界线变动与国土空间规划实施监督、耕地保护、用途管制、国土空间生态修复等相关业务之间的关联关系。
(3)以时态关系为主线进行梳理和维护
以管理数据生产及业务办理时序的时态关系、国土空间自然地物的演化关系为主线,将业务对象、空间对象串联在时间线上,记录其相关的空间、属性信息。
首先,利用时态关系可以追溯一些行政审批事件发生的前因后果,比如工程建设项目的各个审批环节:项目立项、用地预审和规划审批、涉及占用农用地或集体土地的农转用或征地报批、征地、供地、建设工程竣工和规划验收、不动产登记,建立时态关联,在做后一项业务时可以利用时态关系查询前一项业务的审批情况。
其次,还原自然资源实体的历史断面辅助决策,比如在征地工作中,经常会遇到因项目紧急而由施工单位在未计算土方量的情况下,先进行土方填挖工作,等填挖完成后,施工单位却难以清算费用,此时如果能还原一定时点的自然地表,找到填挖方开展前时刻的地表情况进行土方计算,再给施工单位清算费用,有效解决相关问题。
为解决数据产权问题,打通自然资源部门内部的数据通路,更好地管理自然资源数据,实现高效充分的数据共享、交换、应用,《自然资源部信息化总体建设方案》提出要建立自然资源数据分布式统一管理机制。根据自然资源数据隶属单位和数据资源实际情况,可以选择三种方式建设自然资源数据分布式统一管理机制,实现多源异构且物理分散的自然资源数据资源一体化协同管理。
(1)基于统一数据资源目录的分布式数据管理,各数据资源仍存储在分布式数据分中心节点上,分中心通过服务的方式发布资源目录,主中心通过资源目录而不是数据本身进行资源管理。
(2)分布式集中管理,各分中心数据定期或不定期汇交到主中心进行统一管理。
(3)混合管理,以数据资源目录方式管理为主,但针对特定数据采用数据集中方式汇交和管理。
在自然资源数据治理的标准规范体系构建、大数据资源体系构建、三域关系梳理和维护、分布式集中管理的工作完成后,需要进一步利用信息化平台建立三维立体自然资源“一张图”大数据体系的更新-维护机制,通过数据的动态更新、联动更新、纠错机制,确保三维立体自然资源“一张图”大数据体系能够保持实时、正确、一致。
(1)建立三维立体自然资源“一张图”大数据体系动态更新机制
根据数据汇聚的情况,分为日常自然资源业务办理更新、其他行业部门共享数据汇聚更新、物联网传感器接入数据更新、调查、测绘、地质勘察项目数据汇交更新、网络抓取数据汇聚更新、基于汇聚数据的指标更新等,确定触发更新的规则,更新后的时间或版本信息配置等。
目前时空数据库一般有三种主要的动态更新模式[7](表1):
①定期更新,按照一定的时间周期对整个时空数据集进行整体更新。
②程度更新,设定一个变化率阈值,当整个时空数据集的变化率超过该阈值后,对其进行整体更新。
③增量更新,时空要素产生变化后,即对该时空要素进行更新。增量更新在实践中又可以进一步细分为变化触发式的增量更新和变化积累式的增量更新。变化触发式增量更新是指变化发生且被系统侦测到就触发增量更新,变化积累式增量更新是指变化积累到一定程度就发生的变化的要素进行增量更新;或者先接收要素并侦测其是否变化,当到达一定时间周期后,对发生变化的要素进行增量更新。
多种来源自然资源数据的动态更新模式 表1
(2)建立三维立体自然资源“一张图”大数据体系的联动更新机制
①基于自然资源时空对象业务关系的联动更新
基于自然资源时空对象间业务关系,建立业务语义上关联要素间联动更新关系,比如宗地、界址线、界址点三者关系密不可分,界址点、界址线组合构成宗地,三者中有其一发生变化都会引起其他两个要素的变化,三者联动变化类型可多达14种[8]。
②多比例尺时空数据联动更新
通过对象唯一标识编码来贯穿不同比例尺的同名要素,建立同名要素间的多比例尺联动更新关系,一般的原则是大比例尺要素变化联动更新小比例尺数据。
③行政层级纵向数据联动更新
因行政管理需要,上级部门下发数据引发的下级部门相关数据联动更新,或下级部门按照上级要求上报、汇交数据后,经上级部门质检、审核通过后联动更新到上级部门数据库。
④基于数据谱系关系的联动更新
用于各种自然资源专题应用的衍生对象是由三维立体自然资源“一张图”数据对象经过抽取、加工、融合生成的。在自然资源数据治理中,需要建立数据谱系关系,明确数据流动和演变的源数据和目标数据,谱系中的源数据变更触发目标数据的联动更新。
(3)建立三维立体自然资源“一张图”大数据体系的纠错机制
在实践中,存在一些数据语义冲突无法通过常规质检流程发现,比如在某些时空要素属性中小数点错位或类型错误。在数据印证环节,因为有更多来源的同名对象,通过同名对象的交叉比对,可以发现此类冲突,由数据管理员判断是否确实为一个错误。
系统通过建立数据印证规则库的方式,不断积累印证规则,只要有多源同名状态的同名对象汇聚入库,就可以启用监听机制,印证同名对象的正确性。
数据分析挖掘的前提是大量数字化信息的存在,即需要完备的数据库作为基础,这个条件在当前的自然资源信息化程度上是完全满足的[6]。在自然资源基础数据治理基本完成之后,自然资源主管部门可以在数据资源基础上进一步挖掘和分析自然资源各实体之间内在的、隐含的、非显式的关系、运行机制,辅助自然资源智能监管决策。
首先,通过大数据分析技术,对传统数据管理或者通过汇聚交换得到的多种大数据进行基础空间分析,也就是解决传统分析算法在大数据环境下无法快速分析计算的问题。如采用手机信息数据进行OD矩阵分析城市居民出行特征,手机用户基数大,手机信令的采样率高,时间分辨率可达秒级,因此数据量巨大[10,11]。以北京移动为例,在北京地区一共有 1 800万多样本,每天会产生10亿条手机信令数据[12]。传统数据分析技术,无法处理如此海量的数据信息,有效模拟人员流动情况,空间分析本身耗时较长,如果分析精细化的数据,一个地级市往往有上千万甚至上亿个各种不同图层的图斑,需要在短时间内进行多种空间分析过程,也需要大数据高效分析挖掘。
其次,大数据必然要和数据挖掘相结合,而不仅仅是信息提取,尤其是挖掘隐含的、非显见的模式、规律和知识[5]。通过大数据挖掘算法,找到数据的隐含关系和隐含价值,例如在自然资源实时变化感知的基础上,根据大量数据拟合出预测模型,对未来该指标发展态势进行推断。利用元胞自动机等相关模型基于自然资源和城市相关大数据对城市发展空间进行预测[13~15]。
在《自然资源部信息化建设总体方案》中,三维立体自然资源“一张图”大数据体系被定义为“用‘数据说话’的基础”。国土空间基础信息平台是三维立体自然资源“一张图”大数据体系中数据汇聚、数据融合、数据管理、数据应用和共享开放的枢纽。可以说没有国土空间基础信息平台这一信息化系统的支撑,新时代的自然资源数据治理体系将很难建成和运转。国土空间基础信息平台大数据中心功能框架如图4所示。
图4 国土空间基础信息平台大数据中心功能框架
在自然资源数据治理的信息化实践中,按照中央生态文明建设、自然资源部门“两统一”职责定位的建设要求,结合各地积累的实践经验,采用自然资源数据中台的设计思路,设计开发了国土空间基础信息平台(V1.0版)大数据中心,承担了支撑和辅助自然资源数据治理的任务。
大数据中心分为汇聚分中心、加工分中心、管理分中心和应用分中心四大关键模块,实现对自然资源数据治理各环节从数据汇聚、加工处理融合、组织存储管理到共享应用的信息化支撑,通过信息化系统平台来实现、维护数据治理的标准规范体系,大数据资源体系,三域关系,分布式集中管理、更新维护机制。为各级自然资源部门的国土空间规划编制和实施监督、自然资源监管决策提供坚实的数据基础,真正提升自然资源和国土空间管理的精细化、科学化水平。
自然资源数据治理体系不是对已有的国土资源数据管理体系的推倒重来,而是在国家生态文明建设、自然资源部门“两统一”职责、自然资源精细化管理的新要求下,站在自然资源信息化的新高度对原有的体系进行吸收、提升、完善。各级自然资源行政主管部门需要利用更成熟、先进的信息化系统平台,实现对各种自然资源数据全覆盖、多角度、多层次的深度治理,推动自然资源信息化向更高层次发展,真正实现“用数据说话,用数据管理,用数据决策,用数据创新”。