浅谈面向自然资源业务的数据治理技术路线

2023-01-03 11:44李亚男张宇华
地理空间信息 2022年12期

鲁 立 ,李亚男 ,张宇华,曾 瑞

(1. 湖北省神龙地质工程勘察院有限公司,湖北 武汉 430050;2. 吉奥时空信息技术股份有限公司,湖北 武汉 430223)

《自然资源部信息化建设总体方案》中提出要在2025年建成以自然资源“一张图”为基础的自然资源大数据体系,形成“数据驱动、精准治理”的自然资源监管决策机制。这表明开展自然资源数据治理具有重大的理论和实践意义。本文将分析数据治理的研究现状和自然资源领域的研究需求,总结自然资源数据治理的方法,并对数据治理的预期成效做出展望[1-11]。

1 研究现状

数据治理的目的在于要将原本结构混乱、沟通不畅的数据壁垒打通,以一套统一的体系将数据管理起来。根据《自然资源部信息化建设总体方案》的要求,各省市已陆续开展数据治理的工作。山西省[12]于2018年开始自然资源云平台建设,并配套起草了一系列信息化管理制度,开启了数据梳理、目录建设、平台建设和系统应用等数据治理工作。宁夏[13]自然资源信息中心在前期信息化建设的基础上开启了自然资源数据整合,梳理了宁夏自治区现有土地、测绘、林草、地政、矿政等自然资源数据,开展了数据调查分析评价、建库标准、数据整合规范等相关标准和制度的研制,提出了自然资源数据整合的路线和工作流程。东莞市[14]基于自然资源“一张图”建设开展自然资源数据治理,并确定了1+1+N的数据资源体系(1 个数据中心,1套机制,支撑N个应用系统),以及“合-数据收集”“整-规范化整合”“理-关联梳理”“治-建立机制”的自然资源数据融合建设流程。宁波市[15]自然资源局在机构改革后,从自然资源数据整合框架、目录体系、专项数据库的建设和数据管理机制建设等方面开展了数据资源的整合工作,提出了“合、整、评、理、治”的技术路线,对数据治理研究进行了探索。湖北省[16]针对建设用地“批、供、用、补、查”业务流,探索了建设用地专题的数据治理方法,形成土地管理专题成果库,实现建设用地全流程监管。中山市[17]提出了“编目先行、标准为纲、专项治理、全面融合、深化应用”5 步路径,为自然资源数据治理提供了思路。此外,西安市、江西省、海南省、山东省、杭州市、四川省等地先后通过自然资源信息化建设开启了数据治理工作,这为自然资源数据治理积累了很多有益经验。

2 需求分析

2.1 理论需求

机构改革赋予了自然资源部“两统一”的职能。在2018年以前的国土资源时代,自然资源各要素由国土、林草、住建、水利等部门分头负责,主要侧重于土地资源的管理和利用,2018年机构改革赋予了自然资源部“两统一”的职能,自然资源管理以促进“山水林田湖草”生命共同体的生态文明建设,自然资源现代化治理能力由IT(信息技术)步入到DT(数据技术)时代。自然资源部在开展信息化建设以来,全国各省市都基于本省市特色开启了数据治理的工作,这为探讨数据治理的方法和工作流程积累了大量的经验,但是目前为止没有对这些方法和经验进行一个通用性总结的研究,行业经验总结不够。因此在现有基础上结合数据治理的方法论,梳理出自然资源行业通用的数据治理技术路线是十分有必要的。

2.2 现实需求

随着信息化建设的深入,自然资源领域积累了大量的数据,涵盖了原规划、国土、不动产、海洋等多个部门,但目前的信息化建设在数据层面和应用支撑层面都存在诸多问题。在数据层面,数据来源广、体量大、分布零碎、标准不一,存在数据冲突和逻辑矛盾等;数据存储格式多样、版本不一、数据冗余现象严重;不同业务管理数据空间位置存在冲突,数据准确性难以判断;数据体系不完善,只能提供单一查询和分析服务,无法从全局视角统筹各类数据。在应用层面,数据存在时效性不足的问题,无法及时支撑业务应用;数据关联度不高,无法满足业务监管和辅助决策的需要;数据与自然资源“互联网+政务”的要求存在差距,与现代化治理能力的要求存在差距。自然资源部信息化建设要求建成以“一张图”为基础的自然资源大数据体系,必须将自然资源相关数据进行有效整合,盘活数据沟通机制,挖掘数据利用价值,实现数据的有序开放和充分共享。

3 自然资源数据治理技术路线

自然资源数据治理技术路线见图1,主要包括6个阶段:梳理数据资产、制定数据标准、多源数据汇聚、数据处理融合、数据分析应用和数据动态更新,涵盖数据收集、整合、入库、治理和应用的全过程。

图1 自然资源数据治理技术路线图

3.1 梳理数据资产

周宏仁[18]在对我国数据产业的发展研究中指出,数据在特定情况下,经由信息系统建设而产生并投入大量资金、设备、技术和劳动力可称为数据资产。自然资源领域积累了大量的数据资源,覆盖了土地、森林、矿产、草地和水资源等,这些数据种类多、来源广、构不成体系,只能提供单一的业务查询统计和数据服务功能。根据自然资源信息化的建设要求,要建立内容完整、标准权威、动态更新的自然资源数据体系,需全面梳理自然资源以及人口、社会、经济、政务数据,构建统一的自然资源数据目录。按照现状、规划、管理和社会经济数据划分数据体系,确保每类数据数出有门、一数一源。

数据资产梳理需要注意几个要点:确定数据来源、数据质量筛选、制定数据编目。

1)确定数据来源。自然资源数据海量分布于各部门各个系统中,首先需要确定数据来源、生产单位、生产时效性以及数据更新周期,保证数据可追踪、可溯源、可利用、可持续。

2)数据质量筛选。确定数据来源之后,需要对数据质量进行初步筛选,剔除不权威、不准确、不可用的无效数据。例如在数据出自多源的情况下,比较不同版本数据的权威性和时效性,筛选出质量稳定、生产权威、时效性强的数据作为数据资产。

3)制定数据编目。获取的数据资源需要按照自然资源数据分类体系,结合数据实际情况调整目录结构,明确数据类别,将数据归类于相应的自然资源目录下,并记录数据的各类呈现方式,如图、表、档案、附件等。

3.2 制定数据标准

3.2.1 数据建库标准

自然资源数据来源复杂多样,各类数据之间存在较大差异性:数据格式不统一、数据结构不一致、代码标识不相同等。这就需要制定一套统一的数据标准,符合国家或行业标准,使得数据按统一的命名规范、统一的格式、统一的单位进行存储,这能提高数据的共享性、通用性和准确性,同时统一标准下的数据分析会更可靠、更高效。制定数据标准包括数据建库标准化和数据制度标准化两方面的工作。自然资源数据建库标准化工作包含3 个方面:数据生产标准化、数据字典标准化、元数据标准化。

1)数据生产标准化。数据生产标准化要求同类数据之间采用统一的数据存储格式、同一空间范围下的数据具有统一的空间参考;数据组织层级清晰、联系紧密;数据存储标准化,即具有统一的数据库实例名、用户、数据名称、字段名称、字段类型、大小写规范等。

2)数据字典标准化。数据字典标准化的主要内容为建立标准属性代码库,它基于国家/行业标准构建,可通过字典的关联规则检索出代码数据对应的字典值。定义标准的属性代码库可将同一数据的不同表达规范化。例如,在表达“审批类型”为“省政府批准”时,数据的表达可以有“省”、“省级”、“省级批准”、“省政府批准”等多种表达方式,通过建立标准属性代码库,可将所有表达方式统一归结于一类。

3)元数据标准化。元数据是用来描述数据的信息。数据的生产单位和使用单位往往不是相同的,这就需要记录数据的生产资料去帮助数据使用者了解数据和使用数据。龚健雅[19]指出元数据可帮助生产单位管理、组织、维护、分发数据,帮助使用单位查询、检查、处理、使用数据。我国于2005 年发布了GB/T 19710-2005《地理信息元数据》国家标准,定义了元数据子集、元数据实体和元数据元素等信息。通过制定标准的元数据采集规范,并贯穿于数据采集、汇聚、处理、加工、汇交、共享、检验的整个流程,以确保数据的真实可靠。

3.2.2 数据制度标准

为确保数据治理过程有据可依,数据治理制度标准建设应该贯穿数据汇交→整合→使用→更新的整个流程,对各环节的操作和行为进行约束,保证数据流的可持续利用和更新。制度标准化建设的内容包含4个方面:数据汇交更新制度、数据共享交换制度、安全及应用管理制度、数据评价反馈制度。

1)数据汇交更新制度:完善数据更新汇交考核制度,定期通报数据治理工作进展和数据更新情况;制定数据标准化规范,标准化自然资源数据体系的数据生产、处理、汇交、质检和入库;建立数据更新机制,规范化数据的收集、存储和更新。

2)数据共享交换制度:制定数据共享与交换、运行与维护管理制度;制定数据服务发布与接口,明确数据的分类处理、融合作业管理、数据服务接口对接等具体要求。

3)安全及应用管理制度:从数据资源体系及整体数据的运作层面总体考量数据安全性,强化自然资源与规划数据的安全保密性,保障数据生产、存储、传输和应用的全生命周期安全。

4)数据评价反馈制度:以自然资源数据的责权为导向,从数据生产、数据应用、数据管理角度,建立数据评价反馈机制,为提升数据质量提供制度保障。

3.3 多源数据汇聚

多源数据汇聚是指各业务部门将系统中的数据汇聚到共享库中的过程,它能打破各部门间数据的沟通壁垒,拓宽数据的获取渠道,优化和增强数据汇聚方式,满足多源异构数据汇聚的需要。

多源数据汇聚的流程包括:数据抽取、数据清洗和数据集成。

1)数据抽取。自然资源的各类数据通过离线拷贝、在线调用和服务接口等方式提交和共享,数据整合人员在统一的数据标准和目录体系下,对各类数据进行抽取、格式转换、整合重组和数据存储。数据抽取可以借助ETL等工具,整合各系统提供的结构化数据和非结构化数据,进行要素抽取、空间参考变换、格式转换、属性代码转换、统一编码等步骤,转存于系统共享库中。

2)数据清洗。自然资源数据往往存在各种质量问题,表现为数据不准确、不完整、不一致、不可靠、时效性差和不可解释等特点。数据清洗就是要尽可能识别并修复这些数据,它一般包括属性错误数据清洗、不完整数据清洗和相似重复数据的清洗。

3)数据集成。数据集成主要是为了解决多源异构数据之间不匹配的问题[20]。例如逐级汇交的空间规划数据、实时更新的业务审批数据、其他行业的共享交换数据、网络爬取的互联网数据等,这些数据在结构、语义、分布和管理上都存在差异,可采取比较典型数据集成方法解决这些问题,例如模式集成法、数据复制法和基于本体的方法[21]。

3.4 数据处理融合

数据处理流程应该贯穿于数据治理的各个环节,在遵循统一的数据标准和自然资源目录体系下,对整个数据治理流程的输入和输出进行规范约束,对数据进行进一步的融合处理,以满足自然资源行业数据应用的需求。

数据的处理融合包括属性修改、关联融合和数据质检三部分。

1)属性修改。对数据管理信息的统一赋值,例如对字段进行统一编码,统一标识数据来源等;属性代码转换,在数据处理过程中对数据字典值进行统一转换;属性错误信息的修改等。

2)关联融合。自然资源数据的关联融合是以业务为导向,融合现状、规划、管理以及社会经济数据。

现状数据包括土地利用现状调查、基础测绘、地理国情,以及各类专项调查数据的融合,以实现地上、地表和地下数据信息的完整统一;规划数据的融合通过多规合一、国土空间规划等专项工作正在解决;管理类数据的融合常用于构建数据图文关系以及项目与业务的关联关系,图文关系的构建基于项目,保证同一数据下的图文档一体化,业务关联关系的构建是以项目为基础,构建业务与业务、项目与业务之间的关联关系。最后以现状数据为基础,实现规划管控、业务管理数据以及社会经济数据的关联融合。

3)数据质检。对数据进行处理后,需要进行数据的质检工作,以保证数据的准确性。对于空间数据,需要检查数据的空间参考、空间范围、拓扑错误检查以及与属性数据的关系检查;对于属性数据,需要检查属性值的准确性,包括必填字段是否为空、编码方式是否规范、属性代码值域是否超出范围、表关联字段是否准确等。

3.5 数据分析应用

数据是以提供应用分析能力而体现其价值。数据治理的成果除提供基础的数据共享与查询服务外,还应依托大数据分析平台和各类分析模型深入挖掘数据的潜在价值。在自然资源行业具体体现在数据治理实现部门间的数据共享,其服务于“互联网+政务”减轻事项办理审批流程;通过业务动态展示实现业务事项的实时监管;开发统计分析模型,分析结果反向驱动业务改进与监管决策;数据的实时监管和预测分析可服务于基础调查与规划;治理后的数据可提供大数据的应用与分析。

3.6 数据动态更新

数据治理除了针对存量数据进行整合,还需考虑数据的可持续应用问题,制定数据维护机制以及数据动态更新机制。针对专题数据和实时数据,其更新机制也不同。

1)专题数据更新。专题数据包括国土空间调查数据、规划成果数据和专项调查数据,数据更新频率一般以年为单位,对于这类数据按照其更新频率采用数据拷贝或阶段抽取的方式进行更新。

2)实时数据更新。实时数据包括各类政务审批数据、模型分析结果和流数据,数据源实时更新,这类数据采用模型实时抽取的方式进行更新。

4 预期成效

通过数据治理连接数据生产端、数据存储和数据应用端,形成从数据源-数据仓库-数据集市的良性循环。数据有统一的数据标准规范、统一的数据更新机制,确保了数据一数一源和可持续更新,以提供一套统一的自然资源底板数据,支撑自然资源行业的应用需求。

数据间的融合关联打破了数据间沟通交流的壁垒,构建起各业务间的关联关系,串联起业务的生命周期,通过“项目一张图”、“项目一棵树”、“项目全周期”展示业务的前世今生。“项目一张图”以地块(项目)空间位置为主线,根据项目审批阶段能在一个界面上浏览项目各阶段事项的空间位置,可更清晰直观地了解到各审批事项之间的空间位置对应关系;“项目一棵树”可展示项目办理了什么业务,还未办理或缺失哪一业务数据成果的展示,还可查看具体的业务表单并展示该业务办理的过程文件和成果文件,形成业务成果资料中心;“项目全周期”可展示项目办理的各个业务阶段成果数据,实现图、属、档一体化查询展示及分析应用。

数据融合成果通过自然资源管理部门的数据流通和成果共享,落实“多证合一”、“多审合一”,可为自然资源业务审批和日常管理提供支撑,从而大幅减少业务审查工作复杂度,提升了自然资源管理效能。

5 结 语

数据作为一种资产成为当前国际社会的共识,在自然资源行业数据治理是支撑自然资源信息化建设的必要过程,也是信息化建设的重点工作。本文将各省市数据治理的工作经验凝炼出6 个步骤(数据资产梳理、制定数据标准、多源数据汇聚、数据处理融合、数据分析应用和数据动态更新),并分别从这6个角度对各项工作的要点进行了分析,总结出一条自然资源行业通用的数据治理技术路线,并对数据治理预期成效作了展望。该技术路线可供今后开展自然资源数据治理相关工作人员参考实施。在实施技术路线时需结合业务实际进一步细化调整完善。