肖建华,王厚之,彭清山,郭明武
(武汉市测绘研究院,湖北 武汉 430022)
地理时空大数据管理与应用云平台建设
肖建华,王厚之,彭清山,郭明武
(武汉市测绘研究院,湖北 武汉 430022)
Research on the Construction of Cloud Platform for the Spatio-temporal Big Data Management and Application
XIAO Jianhua,WANG Houzhi,PENG Qingshan,GUO Mingwu
摘要:针对当前国内地理时空大数据生产管理与应用面临的数据存储组织难、数据吞吐处理难、数据集成应用难和数据生产全过程管理难等问题,同时从地理实体产生消亡全过程管理与地理数据生产服务全过程管理两个角度出发,研究了地理时空大数据全生命周期管理与应用的相关方法;并基于云计算、GIS及SOA等技术,构建了智能高效的云GIS管理平台,实现了地理时空大数据全生命周期的高效管理与智能应用。
关键词:云平台;大数据;全生命周期管理;云GIS;时空
近年来,随着人类生产活动的加剧及新型智能测绘技术装备的不断涌现,地理空间数据正呈爆炸式增长,地理时空大数据正势不可挡地取代传统的静态空间数据而成为地理信息社会化应用的主要形式。与传统的静态空间数据相比,地理时空大数据除了包含空间及专题属性信息外,还包含时间信息,并呈现出“4V”(Volume:体量大;Velocity:增速快;Variety:样式多;Value:价值高)等特点[1]。地理时空大数据“4V”的特点让其在生产管理与应用上面临着存储组织与分析处理难、集成应用难及数据全生命周期管理难等问题。这些问题都是传统GIS无法解决的问题[2-4]。
本文针对当前国内地理时空大数据在生产管理与应用中面临的上述问题,同时从地理实体产生消亡全过程管理及地理数据生产服务全过程管理两个角度出发,研究地理时空大数据全生命周期管理与应用的相关方法;并基于云计算、GIS及SOA等技术,研发出一套智能高效的地理时空大数据管理与应用云平台(以下简称平台),能满足数据生产管理部门对地理时空大数据生产过程管理、加工处理、分发共享与集成应用全生命周期管理的需要,同时也能满足数据应用部门对地理时空大数据集成化、实时化、时序化、动态化、服务化、大众化、智能化与人性化应用的需要。
一、时空数据的组织管理与集成方法
1. 矢量时空数据库设计
时空数据库是用于存储与管理位置或形状随时间变化的各类空间对象。时空对象的变化情形主要包括以下6种情况:①属性变化,图形无变化;②新增;③消失;④合并;⑤拆分;⑥形变[5]。
本文设计的矢量数据时空数据库结构如下:
1) 采用对象关系数据库中的表来管理时空数据。
2) 通过在数据库的表中增加时间戳的方式来记录地理实体随时间的变化情况。时间戳以生成时间(字段名称为CT,字段类型为DateTime型)与消亡时间(字段名称为DT,字段类型为DateTime型)两个字段来表示。
3) 通过在数据库的表中增加字段“FroObj”与“ToObj”来标识时空实体变化前后的衍生关系。FroObj标识当前实体由哪个实体(旧实体)演变而来,它记录旧实体在表中对应的ID;ToObj标识当前实体演变成了哪个实体(新实体),它记录新实体在表中对应的ID。
4) 通过在数据库表中增加字段“Case”标识空间实体发生变化的情形,取值包含上述6种情形之一或两种以上情形的组合。
5) 通过在数据库表中增加字段“Event”标识空间实体发生变化的事件。
图1为某地块发生变化的示意图。相邻的两地块101与102先合并为地块201,然后地块201又拆分为地块301与302。
基于以上时空数据库结构对上述时空演变过程记录见表1。
表1 时空数据库结构示例
图1 时空演变实例
2. 栅格时空数据库设计
对应栅格数据的时空组织,采用栅格快照模型,将变化的栅格数据保存为一系列的时间快照。利用该方法,可反演出给定时刻地理实体的状态。
3. 时空数据集成技术
(1) 多源异构时空大数据的集成组织架构
对多源异构时空大数据采用分类分级的层次结构组织。首先依据数据尺度,将数据分大类组织,每个大类下又对应一个或多个要素层,每个要素层包括若干地理空间实体。每个地理空间实体由一个几何对象和描述几何对象的属性或语义两个部分构成,它是数据集成组织的最小单元。每个要素层在数据组织和结构上相对独立,数据更新、查询、分析和显示等操作以要素层为基本单位[6-7]。
(2) 面向服务(SOA)的多源异构数据网络集成
OGC制定的开放地理数据互操作规范为在网络环境下访问异构地理数据和地理处理资源提供了一致性的接口定义。为了方便时空大数据在网络环境下的共享利用,本文采用面向服务(SOA)的方式,将所有的地理空间数据处理成遵循OGC规范的标准地理数据服务(Rest、WMS、WFS和WCS)来实现多源异构数据的集成共享,并将不同的时空数据服务分布式地部署在网络云端[8-9]。
二、平台的设计与实现
1. 平台逻辑结构设计
为了满足时空大数据的存储管理需要,同时也为了确保数据生产管理与应用的安全性,平台基于私有云环境进行设计与研发。基于私有云环境,平台的逻辑结构(如图2所示)设计为3层,从下往上依次为:基础设施层、中间层和数据管理与应用层[10]。其中,基础设施层又包含物理层和虚拟层;数据管理与应用层又包含时空数据层、管理服务层和应用层[11]。
图2 平台的逻辑结构
1) 物理层:由均质化的服务器、网络、存储等硬件资源组成,所有服务器采用相同品牌、相同型号,满足驱动程序或硬件的兼容性,这样才能实现迁移、负载均衡、容错等多项功能。
2) 虚拟层:利用虚拟化技术,对操作系统、网络、应用程序、服务器、存储等资源进行虚拟化,提供虚拟化的资源和技术。
3) 中间层:负责管理基础设施层的虚拟化资源,提供自动化管理服务,实现虚拟资源的自动部署,包括主机管理、虚拟机管理、资源的动态部署、动态调度、服务运行状况监控[12]。
4) 时空数据层:对应平台管理的各类时空大数据。
5) 管理服务层:对应平台的数据管理与访问相关的模块与接口。除了时空数据服务外,还包括空间数据引擎服务、空间查询服务、空间分析处理服务等。所有数据与功能服务遵循OGC标准协议,使得不同数据服务可以聚合与叠置,不同功能服务可以互操作。
6)应用层:应用层对应基于平台的数据服务及功能服务搭建的各类GIS应用系统。
云计算的建设、运行、管理和维护都需要在一定的安全机制下进行,并遵循一定的标准。安全控制服务保护应用程序免受外来攻击,可以通过为虚拟机构建虚拟防火墙来实现。此外,还需要开放虚拟化格式(OVF)标准作支持。OVF对虚拟机和元数据的封装进行了规范,以保证在任何虚拟化平台上都能够自动和安全地部署虚拟设备[13]。
2. 平台的功能设计与实现
按照云计算的相关理论,设计的平台总体架构由7个系统构成。这7个系统分别对应云GIS的基础设施即服务(IaaS)层、软件即服务(SaaS)层、平台即服务(PaaS)层与数据即服务(DaaS)层[14]。IaaS层相关服务由私有云基础设施搭建与管理系统来实现;SaaS层相关服务由数据生产全过程追踪与管理系统、数据资源创建与管理系统和数据成果档案建档与管理系统来实现;PaaS层相关服务由数据服务功能接口创建与管理系统、数据应用平台创建与管理系统、应用程序二次开发API、功能模块及功能服务来实现;DaaS层相关服务由时空数据服务与数据资源检索与服务系统来实现。7个系统均以托管服务的方式部署在云环境中,系统之间实现了无缝对接、联动操作和单点登录。平台包含的7个系统的主要功能及实现方法如下:
(1) 私有云基础设施搭建与管理系统
该系统为搭建、管理与维护高性能的时空大数据存储管理云环境提供有效的支持,解决了时空大数据生产管理与应用过程中IT资源不足的瓶颈问题,主要负责平台运行的私有云基础设施层的管理、虚拟化、资源监测及动态弹性调度等[11]。系统功能分为5个模块,分别为基础资源管理、站点管理、系统监控、资源度量、系统管理。
该系统基于B/S架构,并通过VMware vSphere SDK for .NET二次开发接口,实现硬件集群及资源池的建立与管理;基于VMware vCloud SDK for .NET的二次开发接口实现资源池上的虚拟机建立和站点的配置,并对资源池的使用状况、站点的负载情况进行实时监控。
(2) 数据生产全过程追踪与管理系统
该系统主要实现数据生产全过程“项目登记、作业过程管理、费用管理、合同管理、质量管理、资料管理、产值管理”等环节的规范化、科学化、系统化与智能化的追踪与管理;基于B/S架构,并综合采用AJAX、CAS、JQuery等技术开发而成。
(3) 地理数据资源创建与管理系统
该系统主要对地理空间数据进行时空编辑处理、转换入库、服务创建及更新维护等。针对地理空间数据格式较多、存储方式各异,处理转换及数据服务创建与更新维护复杂等问题,该系统面向行业内主流GIS数据,实现了海量地理数据服务分布式、“一键式”与智能化的创建及更新维护。在进行时空数据的更新维护时,系统自动维护时间戳及时空索引。
由于目前最常用的地理空间数据主要包括ArcGIS数据和DWG数据,因此,本系统提供了处理这两类数据的环境,即GIS环境和CAD环境。GIS环境主要对ArcGIS中的SHP、GeoDatabase等数据进行处理;CAD环境主要实现DWG数据格式与SHP的转换、DWG数据创建地图服务等。系统基于ArcGIS Engine、CAD二次开发控件开发。
(4) 数据成果档案建档与管理系统
该系统主要对地理数据生产过程所产生的电子资料进行数字化档案管理,其目的是为了规范档案资料的管理,实现档案资料的综合利用。其功能模块主要包括收集积累、验收归档、案卷整理、变更管理、档案编目、档案备份、档案鉴定、档案统计、发布查询、档案利用、档案编研、元数据管理等。该系统基于B/S架构,并综合采用AJAX、CAS、JQuery等技术开发而成。
(5) 数据服务功能接口创建与管理系统
该系统主要实现GIS功能模块与功能服务的管理,方便功能模块与功能服务的重复利用与组合搭建,为GIS应用系统的定制奠定基础。该系统综合采用了ArcGIS Engine、Python、工作流等技术开发而成。
(6) 数据应用平台创建与管理系统
由于当前GIS应用系统的开发存在专业性强、开发难度大、投资成本高、扩展定制难等问题,这让一般数据生产管理部门或数据应用部门按需定制自己GIS应用系统的愿望难以实现。该系统的主要目的是降低GIS应用系统研发的门槛,让非专业人员根据自己的需要快速定制时空大数据集成应用GIS系统。
系统基于模块化、先分后合和软件复用等思想,先对GIS应用系统构成要素(数据、功能、业务逻辑、用户界面和用户权限等)进行离散化、通用化与模块化划分,并构建构件库,让GIS应用系统构件元素之间相互独立、相互分离,同时又彼此互留接口;最后采用组合搭建的方法,让用户以装配式的可视化、零代码或近似零代码方式搭建GIS应用系统。该系统基于B/S架构,并综合采用了XML、Web Service、ASP.NET及ArcGIS Server开发而成。
在没有进行扩展的情况下,数据应用平台创建与管理系统搭建的用户应用系统具备时空大数据集成应用的常见基本功能,用户还可以在此基础上,根据自己的需要进行功能扩展。这些基本功能可概括为8个能:①能看:能对海量时空大数据进行浏览及查看;②能查:能对海量时空大数据进行查询定位;③能加:用户能叠加显示本地数据SHP、DWG等数据;④能下:能进行电子档案资料的下载;⑤能算:能基于空间或属性对地理空间要素进行定制化的统计分析计算、面积长度的计算等;⑥能比:能将不同形式的时空数据双拼联动比对,还能基于时间轴或时间帧对时序数据进行动态可视化的历史回溯;⑦能绘:能进行地图标绘,并将标绘的图形输出成SHP或DXF;⑧能定制:能从数据源、数据展示方式、要素操作方式、功能、用户权限等方面对系统进行定制与维护。
(7) 数据资源检索与服务系统
由于平台中的数据服务均发布在云端,为了方便普通用户快速查找并利用基于本平台发布在云端中的各类地理数据服务,该系统为普通用户提供了数据服务检索及浏览的接口。用户查找到数据服务后,可以在AutoCAD、ArcGIS或其他GIS应用系统中调用对应的数据服务。为了在AutoCAD下调用OGC地图服务,本文还基于AutoCAD for ArcGIS API在AutoCAD下开发了调用地图服务的功能接口。
3. 基于平台的时空大数据全生命周期管理与应用流程
本文设计的基于平台进行时空大数据全生命周期管理与应用的流程如图3所示。
图3 时空数据生产管理与应用的全生命周期管理流程
(1) 数据生产过程管理
数据生产管理部门对所有数据生产项目通过数据生产全过程追踪与管理系统进行任务登记、任务分配、过程管理、成果提交及质量检查等。管理中,成果数据以电子资料的形式通过该系统上传与流转。成果检查合格后,对应的电子资料就是最终的成果资料,并被自动推送到数据资源创建与管理系统。
(2) 数据处理及电子归档
数据管理员根据数据的特点及应用需要,利用数据资源创建与管理系统对数据进行数据入库或服务创建,或者两项操作都进行。完成数据更新入库后,形成了时空数据库。完成服务创建(更新)后,就形成了发布在云端的数据服务。完成这两项操作后,数据资源创建与管理系统将电子资料推送到数据成果档案建档与管理系统,档案管理人员检查、归类及登记操作后就完成了数据生产资料的数字归档。
(3) 时空数据的应用
通过上述3个系统后,将所有时空数据及对应的档案资料转换成了数据库、数据服务和电子档案这3种形式的成果。用户可以根据自己个性化的需要,利用数据服务功能接口创建与管理系统创建功能模块或功能服务;然后结合创建好的数据服务与功能服务,利用数据应用平台创建与管理系统快速定制自己的GIS应用系统,从而实现时空大数据及其相关的电子档案资料的集成应用。
此外,用户还可以利用数据资源检索与服务系统,快速查找基于本平台发布在云端的海量时空数据服务,然后将这些数据服务加入用户的管理系统(如ArcGIS、AutoCAD或其他GIS应用系统)中进行应用。
三、结束语
目前,本文的研究成果已经成功应用于武汉市土地利用和城市空间规划研究中心、长沙市规划勘测设计研究院、昆明市测绘研究院等单位项目中。随着地理信息产业的发展和大数据时代的到来,地理信息服务的内容、领域、方式也在发生深刻的变革。云平台支撑下的时空信息服务将是地理信息应用的主要形式。因此,本文的研究成果将具有巨大的应用潜力与良好的应用前景。
参考文献:
[1]龚健雅,王国良.从数字城市到智慧城市:地理信息技术面临的新挑战[J].测绘地理信息,2013,38(2):1-6.
[2]吴正升.GIS中时空数据组织方法研究[D].郑州:信息工程大学,2006.
[3]乔朝飞.大数据及其对测绘地理信息工作的启示[J].测绘通报,2013(1):107-109.
[4]郭仁忠,刘江涛,彭子凤,等.开放式空间基础信息平台的发展特征与技术内涵 [J].测绘学报,2012,41(3):323-326.
[5]张山山.基于对象关系数据库的地理时空数据组织[J].计算机工程与应用,2006(1):166-168.
[6]贾晨微.政务地理空间私有云技术研究[D]. 成都:电子科技大学,2012.
[7]马宏斌,王青山,王珂.一种地理空间数据即服务私有云设计[J].测绘与空间地理信息,2014,37(5):20-21.
[8]AGARWAL D,PRASAD S K. Lessons Learnt from the Development of GIS Application on Azure Cloud Platform [C]∥2012 IEEE 5th International Conference on Cloud Computing.[S.l.]:IEEE Computer Socitety,2012:352-359.
[9]韩刚,何超英,陈军,等.基于Web服务的全球地表覆盖遥感制图大数据集成与应用[J].测绘通报,2014(3):103-106.
[10]穆宣社.基于地理空间大数据的应急指挥辅助决策平台研究[J].测绘通报,2015(6):93-96.
[11]汪汇兵.基础地理信息时空一体化建模与管理方法研究[D]. 武汉:武汉大学,2011.
[12]彭义春,王云鹏.云GIS及其关键技术[J].计算机系统应用,2014,8(23):10-17.
[13]AHMRT I,YIGIT H,YIMAZ G.GIS Applications in Cloud Computing Platform and Recent Advances [C]∥International Conferences on Recent Advances in Space Technologies.[S.l.]:IEEE, 2011:193-196.
[14]彭义春,王云鹏,牛熠.云计算环境下的GIS研究[J]. 东莞理工学院学报,2013,1(20):17-23.
[15]常泽锋.基于云计算数据中心的数字城市研究与应用[D].武汉:华中科技大学,2012.
中图分类号:P208
文献标识码:B
文章编号:0494-0911(2016)04-0038-05
作者简介:肖建华(1963—),男,教授级高级工程师,主要从事城市勘测技术与行政管理工作。E-mail:xjhwhkc@163.com
基金项目:精密工程与工业测量国家测绘地理信息局重点实验室开放基金(PF2012)
收稿日期:2015-08-10; 修回日期: 2015-11-17
引文格式: 肖建华,王厚之,彭清山,等. 地理时空大数据管理与应用云平台建设[J].测绘通报,2016(4):38-42.DOI:10.13474/j.cnki.11-2246.2016.0117.