林 芳
(福建省国土资源信息中心,福建 350001)
在信息化技术飞速发展、大数据发展战略持续推进、自然资源机构改革顺利完成等多项因素的共同促进下,自然资源大数据在简化办事流程、提升办事效率、增强群众“获得感”、辅助领导决策等方面发挥了一定的作用,但受数据质量、应用效率、信息安全等方面的制约,其应用的深度和广度还远远不够。面临自然资源大数据发展的机遇和挑战,立足于信息化建设现状,以应用需求为导向,务实自然资源大数据的“管理”,顺畅自然资源大数据的“汇聚”,形成可持续发展和逐步完善的自然资源大数据“聚、管、用”体系尤其重要。
“大数据”(big data)一词最早是在美国著名未来学家阿尔文·托夫勒所著的于 1980 年出版的《第三次浪潮》一书中提及[1]。其后,美国NASA、《Science》、国际数据中心IDC从多个角度对“大数据”有过相应的阐述[2-5]。大数据目前尚未有一个统一的定义,但总体来说大数据具有规模性(volume)、多样性(variety)、高速性(velocity)、价值性(value)的特点[5]。从这个角度出发,自然资源数据既有结构化的矢量数据、属性表格数据,也有半结构化、非结构化的影像档案数据、音视频数据,具有多样性的特点,而且通过多年信息化建设的积累,已具备一定的规模。随着近年来各类调查评价、确权登记、多规合一等工作的开展,数据资源总量剧增,更新时效性显著提高,数据的应用价值也越来越大。因此,笔者认为,在自然资源管理框架下,自然资源要素的调查、评价、规划、利用、保护、监测等所有自然资源本身及其管理相关的数据集合就是自然资源大数据。
福建省自然资源大数据是伴随着自然资源信息化的持续推进和管理需求的不断提升形成的,已建立涉及规划、土地、地质、矿产、地灾等多个业务领域的业务系统,沉淀了大量真实可靠的覆盖福建省全域的管理业务数据,通过运行顺畅的数据汇交制度,积累了大量多类别、多时项的专题数据。近几年,随着全天候遥感监测、国土空间基础信息平台建设、政务信息共享、大数据开放等任务的推进,来自自然资源管理部门的数据、通过共享获取的外部门的数据均迅速剧增,当前数据总量达到30T,每年至少新增3T,形成了较好的自然资源大数据应用和发展的基础。
福建省自然资源大数据从数据的来源大致分为五类:一是来源于自然资源厅运行的业务管理系统,这类系统沉淀的数据有结构化的业务数据、非结构化的附件材料及输出文书;二是从业务处室、地市、区县汇聚上来的专题数据、不同时项和区域的遥感监测数据,专题数据一般包括结构化的专题数据建库成果、半结构化的数据描述文件、非结构化的专题图片、报告文本及统计图表;三是从外单位共享获取的数据;四是互联网数据;五是基于已有的数据资源,为了支撑应用而生成的各类数据成果,多是结构化的数据。
通过统一规划所有数据资源的存储,对各类结构化、半结构化、非结构化的数据资源制定统一的命名规范,共同形成统一的资源目录体系。结构化的业务数据使用关系型数据库存储,非结构化的数据直接以数据文件的形式存储。目前,按照统一的数据分类体系、统一的技术标准,整合各类数据资源,形成了覆盖全省、包括地上地下、更新及时的空间基础数据集、空间规划数据集、空间监测数据集、空间管理数据集及社会经济数据集等5大类93个小类的数据资源体系。
一是数据挖掘分析辅助决策不够。自然资源大数据的应用是自然资源大数据汇聚和管理的驱动力,如何更好地满足应用需求是自然资源大数据汇聚和管理的目标导向。当前,自然资源大数据对业务的精细化管理已经起到了很好的支撑作用,但是在数据挖掘分析辅助决策、数据共享公开服务公众方面还需进一步探索。
二是各类数据的关联关系挖掘和应用不够。数据并不全是资源,可用的数据才是资源,自然资源数据虽多,但是在解决急需问题时,可用的数据又捉襟见肘,这是辅助决策应用局限的一个重要原因。数据价值的产生往往需要从多维度、多角度分析相关数据才可能会挖掘出其价值。由于历史原因,部分已经存在的数据相互独立,没有建立相互的关联关系,虽然这些数据统一的存储在一起,可仍然很难发挥其价值。
三是在保障数据安全前提下的数据充分共享和公开程度不够。自然资源部门大部分的数据涉及空间位置信息,如何共享公开还依赖于更进一步的数据安全文件发布,但对于很多非空间的业务属性数据、证照及各类资料在信息安全的情况下,做好数据的共享公开对提升群众的获得感有重要的意义。
图1 大数据“聚、管、用”架构
自然资源大数据“聚、管、用”存在相互的制约和促进,形成一个具备自完善驱动力的体系,需要从核心的应用目标出发,站在全局的角度规划和设计数据采集、存储、整合加工、分析挖掘及应用等方面的标准和规则,采用分层架构的方式,从数据的本质和数据所描述的业务出发,在数据的汇聚和整理的过程中,建立起数据之间相互的关联关系,并对数据进行系统化管理,构建面向应用的大数据“聚、管、用”体系,让数据源源不断地、最大化地发挥其价值(图1)。
大数据汇聚与传统数据采集的核心意义是一致的,传统采集的数据具备一定的结构性,生成频率具有规律性,处理规则相对简单[6]。大数据需要考虑多源数据获取的特性,针对不同的数据,需采用不同的数据汇聚(获取)及更新策略,是大数据“在线”的保障。
3.2.1 业务系统数据
业务系统数据对自然资源的管理及辅助决策的应用有着举足轻重的作用。福建省自然资源辅助决策系统中,102项基础数据中有65项基础数据来源于业务系统,占比64%[7]。对业务数据的汇聚有两种模式:一种是基于统一的存储规划,直接将业务系统的数据库(业务成果库)纳入数据资源体系的管理中,数据的更新直接由业务审批来驱动完成,数据的应用由业务成果库开放数据库表、视图的访问权限来实现;另一种是对业务数据进行增量的抽取、清洗、转换存放到关系型数据库。第一种模式适用于访问频度不高但访问业务信息精细程度高的情况。第二种模式适用于访问频度高但业务信息需求相对较少的情况。若既需要高频度又需要详细信息的情况,则可采用二者结合的模式支撑应用。在福建省自然资源厅运行的业务系统,经过新一轮的升级改造已经建立了相对完备的业务勾稽关系,原地政管理的“批、供、用、补、查”、矿政管理的“探、储、采、治、查”均可实现业务的串联。在进行业务数据汇聚的过程中,无论是采用上述哪种汇聚的模式,均需要完整地保留好业务数据之间的关联关系。
3.2.2 汇交数据
经过数据汇交方式汇聚到自然资源厅信息中心的数据,多是各类专题数据,例如每年的土地利用变更调查数据、基本农田划定成果、土地利用总体规划等。这类数据按照数据汇交的规范,由各地或业务处室按照汇交数据的标准提交给自然资源厅信息中心后,由其负责进行数据检查及入库更新处理,并且对数据的描述性信息进行采集,以更好地支撑数据的分析应用。除此之外,还有通过汇交系统进行汇交的数据,例如不动产登记成果、部分统计数据等,这类数据的更新基本上由更新程序自动执行,由于这类数据的更新实质上脱离了业务的驱动,所以需要在技术上和制度上有完善的保障机制,来确保数据更新的及时有效性。
3.2.3 共享数据
对于外部共享的数据有两种方式,一种是通过数据共享交换获取的数据,另一种是通过手工拷贝从其他外厅局获取的数据。对于从其他外厅局拷贝的数据,在数据更新上难以保障,一般不建议采用这种模式,但受限于信息化建设的现状,不得已而为之。数据共享交换有标准接口、数据交换系统、前置机[8]、政务资源库等[9]方式,目前自然资源厅内大多数数据通过标准接口的方式进行共享,例如全省的电子证照库、省电子政务监管平台等,这类数据对数据交换的实时性要求很高,所以对这类数据一般情况下是需要用到时即时获取,少部分会根据实际的需求进行数据的存储。
3.2.4 互联网数据
互联网数据主要是利用网络爬虫按照一定的规则,自动地抓取万维网信息的程序和脚本,通过采集目标页面内容[10],对互联网开放数据进行采集,获取人口及社会经济等相关的数据,经清洗、处理、挖掘后为自然资源管理所用。数据获取的方式有静态网页数据获取、Ajax数据获取、动态渲染页面获取[11]。对静态网页数据的采集比较简单,只需要对加载后的HTML源代码进行解析,提取出需要的数据文本即可。对于动态页面的解析,往往需要分析前端与后台交互的数据包,找到相应的API后,调用API直接获取现成的数据,不需要像静态界面那样解包。Ajax数据的获取是动态界面的一种分析方式,适用于API解析比较容易,并且返回的数据为最终获取目标的情况。目前,自然资源厅通过这类方式获取的数据并不多,但是随着大数据分析应用需求的扩展,需通过互联网获取的数据越来越多,应积极地研究和尝试互联网数据获取汇聚。
周傲英指出的“如果说在数据库时期,解决数据管理问题需要‘削足适履’来使用数据库系统,那么到了大数据时代,人们开始根据每个不同的应用度身定制自己的系统,也就‘量足制鞋’。”[12]面对海量的自然资源空间大数据,需采取有效策略和方法,对数据物理存储、数据索引、数据压缩、空间数据引擎、数据提取、数据缓存以及显示等一系列关键技术进行优化创新,提高海量空间数据的查询、浏览和调用速度。福建省自然资源厅数据中心采用云架构对所有的基础软硬件进行统一的管理,在此基础上,利用ArcSDE、Oracle以及File GeoDatabase等存储方式结合空间数据索引机制来实现空间海量数据的管理。
3.3.1 物理存储
福建省自然资源空间数据的存储以大吞吐量、高性能存储设备构成,以光纤存储网络互联。在空间数据存储区,以部署Oracle等关系型数据库为主;在地图发布存储区,以部署分布式缓存为主;在专题存储区,以分布式文件系统、分布式数据库存储为主,存储参与大数据分析的专题数据。对所有存储资源进行资源池化,统一管理。
3.3.2 数据索引
在已有的空间索引基础上,通过规范化命名空间数据的方式,建立了适用于福建省自然资源厅的空间数据名称索引,可以根据空间数据的名称解译出数据类型、行政区划、坐标系统、比例尺等信息,为数据入库、数据分发、空间分析提供了快速检索数据的能力。
3.3.3 数据缓存
在提高显示效率方面,采用了常见的地图切片缓存技术;在提高分析效率方面,采用了分析数据源定时持续化技术。由于全省域空间数据的加载需要耗费一定的时间,因此采用了分析数据源定时持续化技术,将分析数据缓存在系统内存中,通过设置缓存时间、空闲时间来控制资源的释放,一方面可以提高分析性能,同时也避免了造成系统资源的浪费。
为了更快、更稳地提供各类数据、分析服务支撑应用系统的建设,采用了协调节点、计算节点、存储节点与展示节点相分离的分布式分析框架。协调节点主要实现对计算数据源检索、分析框架中各节点的监控以及任务的调度管理构成;存储节点,用于存储空间数据,存储节点必须要安装PG;计算节点用于计算;展示节点,将存储节点的中间结果图层进行汇总统计以及展示。目前,自然资源大数据的应用已经贯穿到自然资源调查、评价、规划、利用、保护、监测的自然管理全过程,取得了一定的应用成效。
3.4.1 提供统一的底图、底板、底线
通过“聚、管、用”体系的构建,不仅能提供遥感监测、土地变更调查、地理国情普查等各类自然资源调查监测数据,还能提供全省主体功能区规划、城乡规划和土地利用规划等各类空间性规划数据,以及生态保护红线、永久基本农田、城镇开发边界等红线数据,能为自然资源管理工作提供统一的底图、底线和底板。
3.4.2 提供强大的数据分析应用支撑
通过空间落位和业务规则进行自动套合分析,为项目选址、行政审批提供依据,为自然资源管理新形势下的空间用途管制提供技术支撑。同时,分析应用与自然资源管理各业务审批系统深度融合,为用地、用矿管理提供数据服务,其中建设用地审批系统和矿政综合管理系统在土地利用现状、规划、各类保护区等数据的基础上,分别设置了23项、20项自检规则,对于不符合规划、占用基本农田以及各类保护区等报件,系统自动检测并告警提示。
3.4.3 实现自然资源状况在线监测
实现对土地利用现状、林业调查等自然资源情况,土地利用规划、各类保护区等规划情况,以及用地审批、土地供应等行政管理行为进行实时监测,设置各类综合指标数据480项,建立实时动态更新指标库。基于大数据技术,精准获取更新指标,对全省土地、矿产等资源即时状况和时空变化进行及时掌控、实时汇总以及趋势分析,实现自然资源状况在线监测。
目前,福建省自然资源大数据“聚、管、用”体系绝大多数处理的还是结构化的数据,虽然具有相当一部分的非结构化的数据,例如:业务系统的附件材料、业务档案、专题分析报告文档等,还没有发挥挖掘其更多的作用和价值。一方面,我们期待技术的进步以解决非结构化数据的分析和处理问题,带来新的应用热点;另一方面,作为一线的应用构建和支撑单位,从自身业务流程改进和应用深入挖掘的角度提出以下几点完善与发展的方向。
大量宏观的数据分析固然重要,但整合微观的数据,为基层业务服务,提高公共服务效率,同样是重要的大数据应用,而且是更有效的大数据应用。一方面通过信息的共享,积极响应各级政府部署的业务办理“只跑一次”“一号、一窗、一网”的服务要求;另一方面将大数据分析应用于业务流程的优化与再造,科学地指导业务办理中各类资源的调配,提升业务办理的效率。
政府公共服务进一步提高是向智能化服务发展。在大数据、云计算、物联网、人工智能技术大发展的环境下,智能化系统建设会越来越快。政府公共服务业务的智能化是最容易产生效果的领域,公共服务智能化最能够激发公众的获得感,会成为智慧城市的亮点,必将全面提高公共服务智能化的水平。通过建成智能化的业务流程,让信息技术直接对数据进行处理,此类业务不需要对数据进行信息抽象,不需要形成概念,信息系统完全可以胜任。
在已有辅助决策应用的基础上,进一步扩充空间分析评价、事态感知预测等分析模型,通过数据挖掘、统计分析提供更进一步的决策支持是未来几年辅助决策应用的重要方向。
进一步提升数据可视化的应用手段,不仅仅面向自然资源管理体系内的人员,也可扩展至社会公众。可视化数据不仅能绕过隐私保护的困难且能加快信息沟通,必将成为大数据时代信息传递的重要方式,政府数据、企业数据向社会开放都会大量采用该模式。
过去二十年,自然资源领域的信息化建设以数据建库和电子政务为主,建设了若干数据库和信息系统,满足事务性工作需要(现状调查、地籍管理、土地变更、耕地保护等)。大数据时代中成立的自然资源管理部门,大数据方法支撑决策将成为重中之重,而自然资源大数据的“聚、管、用”体系作为支撑决策应用构建的基石,其重要性不言而喻。本文阐述的福建省自然资源大数据的“聚、管、用”体系是基于福建省现状的探索和应用,为其他地区同类工作的开展可提供借鉴和参考。