李 茜,朱 剑,陈广雪,刘顺凤,蒙盈盈
(1.广西职业师范学院,南宁 536100;2.自然资源部国土空间大数据工程技术创新中心广西分中心,南宁 536100;3.广西壮族自治区自然资源信息中心,南宁 530028)
近年来,随着智慧城市、数字政府及行政效能改革的深入发展,在大数据、云计算、物联网、第五代移动通信技术(the fifth generation of mobile technologies,5G)、空间信息技术等新一代信息技术的推动下,数据治理工作逐步开展。通过发掘数据价值,政府服务和行政监管的提质赋能成为政府未来工作的重点。2020 年4 月9 日,《关于构建更加完善的要素市场化配置体制机制的意见》将数据作为一种新型生产要素,与土地、劳动力、资本、技术等传统要素并列[1]。营造自然资源系统内外的自然资源数据应用生态,将自然资源数据作为一种重要的生产要素投入经济社会,成为自然资源数据治理工作面临的巨大挑战。本文以广西壮族自治区自然资源厅在数据治理工作中的实践为例,提出了依托数据中台技术解决数据治理相关问题的思路。
广西壮族自治区自然资源系统机构改革后,业务部门的门类更详细、分工更明确,数据涉及土地、矿产、森林、海洋及不动产登记、国土空间用途管制、生态修复等多种专题,具有规模大、种类多、门类杂的特点。广西壮族自治区自然资源系统较早开展信息化建设工作,是全国自然资源系统中率先进行自然资源三维立体“一张图”、省级国土空间基础信息平台、全流程网上审批、电子政务系统建设探索实践的省份之一,已基本形成了体系化和平台化模式,具有较好的数据治理工作基础。截至2021年底,形成了28 个大类的自然资源数据目录分类,发布业务管理相关的二维地图服务889 个、地理信息处理服务237 个、三维服务450 个,梳理制定2021 年自然资源政务信息资源共享目录68 项,对外发布信息约5 500 万条,编制2021 年自然资源政务信息资源开放目录30 项,累计发布数据记录近1 亿条。
(1)数据资源统筹管理工作还需进一步加强。自然资源数据尚未形成完整、清晰的分级分类目录和对应的数据项,也尚未按业务场景进行标签化处理。这影响业务部门掌握数据成果的实际可利用情况,易造成数据重复生产、成果复用率低的问题。数据综合性挖掘分析不够,不能有效满足决策支持需求。
(2)以在线服务为主的自然资源数据服务机制尚未形成。经过10 余年的数据归集和整理,自治区本级管理的自然资源数据近2 000 余项,但以大量的离线分发使用数据为主,普遍存在在线服务程度不高,数据难找、难使用、难理解等问题,数据利用时效性有待提升。
(3)上层应用开发与底层数据平台“强耦合”。支持业务开展的各类上层应用系统层出不穷,但由于业务需求变化,上层应用系统底层数据的描述、请求方式、接入方式体系不一致。“标准件”的数据服务供给为配合不同的上层应用,对自身数据服务平台进行自上而下定制化开发,影响基础性数据目录化服务体系的正常形成,底层数据环境的任何改变都会直接影响其他业务应用的正常使用。
自然资源数据治理是对自然资源管理部门中的数据资产进行管理、行使权力和控制的活动集合[2];是数据管理的更高阶段,既包括传统意义上的“理”,又通过“治”的手段解决自然资源数据存在的数量、质量和关系等问题。数据治理的最终目标是提升数据价值,数据治理是自然资源管理部门实现数字战略的基础。数据治理是一个管理体系,包括组织、制度、流程、工具,会根据自然资源部门数据的更新特征形成不同的基本数据管理单元和使用特点。
数据中台不仅是一个平台或系统,也是一套数据使用机制。依据单位业务运作模式和组织架构,通过具体系统和实施方法论支撑构建一套将数据资源变成资产并服务业务的机制。它解决以下问题:数据源的问题,即数据在哪里;数据目录的问题,即数据如何组织;数据表达的含义问题,即数据实体及其属性语义定义和元数据;数据间的关系问题,即数据实体间的关系;数据血缘和数据流定义的问题;数据质量的问题。
对于数据管理者,数据中台属于数据开发利用范畴,利用数据处理分析技术进行数据治理、分析及处理,提升数据服务易获取程度、处理效率和服务能力。对于数据使用者或消费者,如何通过检索技术快速找到数据、实现在线分析应用、并将分析结果通过可视化方式传递给管理者或决策者。这是他们对数据中台的本质需求。
为解决部门内部与部门之间的数据难找、难使用、难理解等问题,自2018 年开始,广西壮族自治区自然资源信息中心依托国土空间基础信息平台[3]、自然资源三维立体“一张图”汇聚各级各类专业业务系统资源,开展了全量数据梳理及广西自然资源数据中台建设探索实践,取得了一定的成果。数据中台总体架构如图1 所示。
图1 数据中台总体架构
(1)数据来源层。兼容各类异构数据库并将其作为数据来源,在数据入库的过程中分为中间库及发布库。通过规范数据采集规则对来源数据进行整理,将其存储在中间库;通过数据治理规则对数据进行结构整理及数据治理,将其存储在发布库。该体系为整个数据中台提供完整、有效的数据支撑。
(2)数据资源层。通过各类数据处理工具,对各类数据进行处理、清洗、重构等工作,最终形成数据中台服务、应用、工具所需的数据格式及数据结构。
(3)平台服务层。提供统一的数据调度服务,支撑各类服务、应用、工具,以服务总线的形式对服务层的所有信息进行管理。
(4)应用资源层。提供各类数据相关应用,如数据查询、可视化分析、标签管理、知识图谱、知识搜索等。同时,依据相关的服务规范,提供二次开发接口,为未来扩展奠定基础。
(5)门户层。根据用户权限及职责,提供快捷化、人性化的操作方式,为不同权限的人员提供相应的数据中台工具及应用,管理端也对应提供简单有效的管理方式。
3.2.1 全量数据梳理和汇聚
广西壮族自治区自然资源厅印发的《关于全面加强自然资源数据整合和共享的实施意见》,对自然资源数据整合共享进行部署和安排,明确了数据治理工作的牵头实施单位和技术支撑单位。业务部门作为数据汇聚的责任部门,共同参与数据汇聚及治理工作,加快建设“用数据说话、用数据决策、用数据管理、用数据创新”的管理新机制[4],消除信息“孤岛”,打通信息壁垒,为数据中台建设奠定基础。
在政务数据目录梳理方面,采取梳理、认领、提供的流程,牵头部门开展调研,梳理数据目录,将其分发至各部门并逐一确认,完善并认领信息项。认领后,责任部门需按目录要求向牵头部门及时提供数据。
在国土空间数据汇聚方面,对国土空间领域的基础地理、遥感、土地、地质、矿产资源、地质环境、不动产、规划、行政管理等信息资源进行汇聚,为国土空间规划编制、规划审批、用途管制、监测预警、实施评估和决策分析等提供空间数据和信息技术保障,挖掘国土空间数据资源潜力,提升国土空间治理能力和现代化水平[5]。目前,相关部门已汇聚29大类专题数据、1 600 个要素图层。
3.2.2 数据中台建设
2019 年,广西壮族自治区自然资源数据中台项目启动,在国土空间基础信息平台统筹管理自然资源三维立体“一张图”数据的基础上,采用目录化、标签化的方式,初步归集、共享和开放各类非涉密自然资源数据服务资源[6]。
目前,数据中台按总体结构包含目录信息系统、数据资源管理、电子证照管理、接口管理、系统管理、系统监控和系统工具7 个模块,支持元数据管理、目录管理、图谱管理、电子证照自动生成、资源统计及应用监控等具体功能[7]。截至2021年11 月底,数据中台汇聚共享政务管理数据目录98 项。其中,广西壮族自治区自然资源厅数据记录6 693 多万条,覆盖23 个业务处室;其他厅局数据记录约2 200 万条,涵盖19 个行业领域,共享汇聚空间数据163.9 TB。初步实现与自治区政务数据共享交换平台联动,以下对数据中台部分功能进行说明。
(1)数据质量管理。优化完善数据质量模型建设和质量规则管理,制定数据质量审核的逻辑校验标准,实时或不定期进行数据质量检查,生成质检分析报告及质量工单,为问题数据处理、数据来源系统升级提供参考。
(2)标签类目管理。包含实体管理、分类管理、标签管理、画像管理和配置项预处理等。将不同自然资源的目标对象按名称、层级进行分类和展示,进一步梳理形成土地、矿产、海洋等资源标签体系。从业务角度出发,选取相应标签作为内容并进行自定义组合配置,以满足自然资源部门的不同业务场景需求。完善预存储的配置项,对数据进行校验并判断可用与支持情况,对特定数据类型进行转换操作等[8]。
(3)资源定位与数据使用导引。优化系统的计算引擎,通过标签配置,获取数据标识及库表数据。开展结构化查询语言(structured query language,SQL)、用户定义函数(user-defined function,UDF)操作或对有关输入进行计算,获取输出结果和对应标识,以键值的形式进行存储,辅助标签管理和资源快速定位。同时,额外添加条件检索标签的索引,支持全文检索。在自然资源数据标签类目体系基础上,建立完善的数据查询和导引功能,为数据共享、数据交易提供支撑。支持对管理的实体、标签、关系、画像进行查询,加入数据类型推断、条件检索、分页查询、表达式查询等功能,引入智慧导引理念。
(4)数据服务管理。用户可根据不同的数据使用场景,通过标签、图谱等功能定位数据资源。平台根据数据资源情况提供数据接口访问、数据库表访问、文件型数据访问、数据实体离线请求、其他外部数据源转发的服务(如不动产登记应用对公安、税务部门的相关共享接口等[9]),用户可根据需要自行选择相应的数据服务。
(5)数据使用情况监控。建立数据云、网、系统、事项、数据资源之间的关系知识图谱,对资源的使用情况进行分布监控和交换监控。采用可视化直观展示方式,展示资源整体情况、数据共享实时状态、资源申请排名,对数据进行统计和使用情况计量,对重要指标进行预警监控。同时,建立数据流入和流出台账,辅助资源管理者掌握和了解单项工作的薄弱环节,促进平台的资源建设。
(6)数据安全监管功能。根据数据安全级别对数据进行分级管理和脱敏管理,对数据中台用户的异常行为、数据访问、数据资源和元数据的操作等进行监控、统计和风险分析,保障自然资源政务数据安全。
自然资源数据的系统化治理,是一个长期的过程,需要从方法论、标准规范和技术实现等多方面开展。数据中台建设可通过业务与数据双模型构建的方式,打通数据获取、数据处理、数据服务等环节,能够进一步完善数据共享交换方式,形成开放、灵活、可扩展的统一自然资源数据管理模式。当前,基于数据中台技术的自然资源政务数据治理制约因素很多。一是行业缺少数据中台建设的规范和标准,未定义自然资源未来发展建设的数据中台具体形式、共享模式、服务标准。二是尚未完善数据回流机制。受网络、安全、技术等限制,同级、上下级生成、产出的数据未实现有效共享。例如,地方使用上级系统进行数据上报,在上报的过程中已梳理且产生了大量真实、有效且结构化的数据。然而,在实际工作中,由于缺少数据回流机制和共享渠道,这些已经上报的数据一直由上级部门管理和使用,地方部门如需使用或将其接入自身系统,会产生二次工作[10]。
下一步,本研究将在深入探究业务数据的种类性质、汇交周期和汇交方式及不断完善数据管理、服务机制的基础上,对数据中台进一步升级和优化。同时,在数据资源服务汇聚的基础上,充分运用大数据分析技术开展自然资源知识图谱构建探索,找出实体之间的关系,更好地分析自然资源管理工作中的问题,为行政决策提供切实、有价值的参考。