曾元武,陈泽鹏,方晓乐,吴永静
大数据时代下地理信息公共平台建设展望
曾元武,陈泽鹏,方晓乐,吴永静
(广东省国土资源技术中心,广东广州510075)
伴随着以社交网络、基于位置的服务( LBS)为代表的新型信息发布方式的不断涌现,以及云计算、RFID电子标签、物联网等现代化技术的兴起,数据正以前所未有的速度不断地累积,这也正是所谓的大数据( big data)时代的来临。大数据问题引起了学术界、企业界甚至是政务政府机构的密切关注,他们对其都有非常浓厚的兴趣,都认为大数据作为一种新型的战略资源,在未来会有举足轻重的作用。
地理信息产业是信息产业中最为重要的分支之一,一般是指自然地理要素或地表人工设施的形状、大小、空间位置及其属性信息的总称。因其具有空间位置特征,通常也称为“地理空间信息”或“空间信息”,是名副其实的“大数据”。有研究指出,地球上85%的活动都是与地理空间信息相关的。研究工作者们从数据和趋势的角度阐述了大数据时代来临给地理信息产业带来的冲击和机遇,认为地理信息相关工作需要改变原有的思维模式、管理理念和服务方式[1-4];从技术角度(如MapReduce云并行计算技术)探讨了大数据在地理空间计算上的应用方式,提出了大数据挖掘技术在地理空间信息决策上的无限前景[5];此外,还有大量的大数据下地理信息的应用案例[6-8]。
地理信息公共服务平台在地理信息空间框架数据的基础上,以地理信息系统为主要的管理工具,整合与空间信息有关的非空间信息;并通过网络,作为各种信息终端的底层支撑,为政府、企业和公众提供地理信息服务[9]。本文基于现有的广东省地理信息公共平台[10],对其下一步的建设进行展望,探讨未来平台的建设应如何抓住大数据所带来的技术和应用的发展新机遇,从而挖掘并提供更多有用的信息用于辅助决策,提供更为先进的地理信息服务。
在全球信息化的高速发展下,随着时间的推移,人类产生的数据量不仅以指数级增长,而且数据的结构也变得日趋复杂。大数据时代的来临使得传统的数据管理方式变得越来越力不从心。适应大数据需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息,它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集[11]。亚马逊网络服务的科学家指出:大数据一定是超过了一台计算机处理能力的庞大数据量。为了能更好地使用大数据,一些新兴的大数据技术相应崛起。
1.非关系型数据库
非关系型数据库( NoSQL)的发展最早可以追溯到1991年Berkeley DB第一版的发布,即一个keyvalue类型的Hush数据库,适用于数据类型相对简单、但需要极高的插入和读取速度的嵌入式场合。
如今,对数据库高并发读写、海量数据高效率存储和访问、高扩展性和高可用性等的需求越来越高,对传统关系型数据库带来了很大的困难,而NoSQL却能较好地适应[12]。
与关系型数据库有几种数据库能够一统江山不同;非关系型数据库很多,且大部分都是开源的。在这些NoSQL中,除了一些共性外,很大一部分都是针对某些特定的应用需求出现的,因此,对于该类应用,具有极高的性能。依据结构化方法及应用场合的不同,主要分为以下几类。
( 1)面向高性能并发读写的key-value数据库
key-value数据库的主要特点即具有极高的并发读写性能,如Redis、Tokyo Cabinet、Flare就是这类的代表。
( 2)面向海量数据访问的面向文档数据库
这类数据库的特点是可以在海量数据中快速地查询数据,典型代表为MongoDB及CouchDB。
( 3)面向可扩展性的分布式数据库
这类数据库想解决的问题就是传统数据库存在可扩展性上的缺陷,这类数据库可以适应数据量的增加及数据结构的变化。
在地理信息公共平台这种提供电子地图、空间查询服务的平台下,使用NoSQL可以极大地提升读写效率,提高平台服务的体验。
2.并行处理技术
MapReduce是大数据时代最典型的并行处理算法,它是一种编程模型,用于大规模数据集(大于1 TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”,以及它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性,极大地方便了编程人员在不会分布式并行编程的情况下,可以将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对;指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性地返回其所完成的工作和最新的状态。若一个节点保持沉默超过一个预设的时间间隔,主节点(类同Google File System中的主服务器)将记录这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突;当文件被改名的时候,系统可能会把它们复制到任务名以外的另一个名字上去。
在地理信息领域,MapReduce可以用来进行空间任务处理,如最短路径查询、空间链接等。
3.数据挖掘分析技术
数据挖掘一般没有什么预先设定好的主题,主要是在现有数据基础上进行基于各种算法的计算,从而起到预测( Predict)的效果,最终实现一些高级别的数据分析需求。在地理信息数据处理中,该过程的挑战主要是用于挖掘的算法很复杂,且计算涉及的数据量和计算量都很大的情况,常用数据挖掘算法都以单线程为主。
统计与分析主要利用分布式数据库或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。而在地理信息计算中,分析涉及的数据量大,其会对系统资源,特别是I/O有极大的占用。
广东省地理信息公共平台(简称平台)由政务版和公众版两个部分组成。政务版地理信息公共平台主要为政府部门提供地理信息服务,公众版地理信息公共平台则面向企事业单位和公众提供地理信息服务。两个版本平台之间是逻辑隔离的,但采用了基本相同的框架结构和技术路线,只是服务的功能和数据不同而已。
平台的目的是使分布在网络上不同地理位置和不同平台的用户可以获得对应的地理信息服务。平台总体结构主要由运行支撑层、数据层、服务层和应用层4个部分组成。体系框架的最底层是支撑层,逐渐向上展开的是其他3层(如图1所示)。
1)支撑层是公共服务平台的载体,依托电子政务外网、互联网和现有的基础设施软硬件环境建设,包括网络系统、服务器集群系统、存储备份系统等物理环境,以及专用计算机机房环境等。平台采用了VMware的虚拟化技术,对所有的硬件资源进行了统筹和池化。
2)数据层是指通过服务层提供给应用层的地理信息数据库内容。它是面向地理信息网络化服务需求,依据统一技术标准和规范而构建的一体化地理信息资源体系。目前平台采用Oracle 11 g数据库,集中式存放电子地图的矢量、影像瓦片、三维数据、地名地址数据等。
3)服务层是根据多数用户对地理信息应用的共性需求而设计并实现的系列标准服务接口,以及在此基础上建立的在线服务系统和运维管理系统。通过在线服务系统向应用层提供所需的各种应用服务,如数据服务、处理服务、表现服务、目录服务、信息交换服务、业务访问、业务集成、安全可信和可管理等通用性的服务。平台以OGC( Open GIS Consortium)为标准,对外提供瓦片( WMTS)、查询( WFS)等服务开发接口。
图1 广东省地理信息公共平台框架结构
4)应用层则面向平台服务的对象——政府、企业、公众。平台中,应用层构造了各种电子政务应用、门户网站系统、移动终端及示范应用等,是面向最终用户的层面。
平台通过底层虚拟池化的支撑,充分利用了硬件的资源,虚拟机以地图发布软件的方式,从传统关系型数据库( Oracle)中获取地图瓦片和查询数据,以ORG服务的方式推送给平台主页或服务对象,目前已经完全满足国家的要求,能胜任广东省政府部门企业和公众的浏览和查询服务[13]。然而,在大数据时代下,该架构的平台则难以胜任其高并发、快速数据挖掘分析、服务快速推送应用的需求,需要在下一期平台建设中作出对应的升级。
围绕面向政府部门和社会公众的大数据智能地理信息公共平台服务,广东省国土资源技术中心对平台未来建设的一些关键技术开展了一些探索性的研究。
1.支撑层:GIS云原子单元技术
虚拟化技术是平台底层支撑的关键,平台采用了VMware的资源池化技术,将现有的硬件资源进行统筹规划,工作人员可再通过对应工具选择合适的CPU、内存存储建立虚拟机。现阶段,平台的服务由若干台虚拟机建立的集群服务所提供,通过负载均衡器,实现了虚拟机之间的资源弹性伸缩,也提供了足以满足国家要求的性能[13]。然而,在大数据时代,更高的智能和效率要求被提出,目前这种虚拟云技术模式存在以下问题:
1)虚拟机资源浪费:往往很多时候,虚拟机不需要完全使用全部性能来支撑,但是作为7×24小时不间断的地理信息服务,能够随时应对井喷式的用户访问的情况,因此往往存在盈余虚拟机资源的时候。
2)服务发布不智能:在目前的模式下,用于支撑服务的虚拟机保持全部开启,如果有外界用户想申请服务,工作人员需要手动地在虚拟机集群中发布该服务;根据外界用户需要的负载情况,工作人员再将服务挂载在对应数量的虚拟机集群上。这种模式使得对外服务和平台自身服务归类不清晰,且不好管理,申请的流程也麻烦。
为了解决以上问题,GIS云原子单元技术的概念被引入。
首先,通过多次对单台虚拟机在以最小资源发布各种GIS服务的状态下进行测试,确定其胜任的用户数量级,建立起各个对应GIS服务甚至GIS算法的虚拟机模板,那么通过这种模板建立的一台虚拟机则成为对应GIS服务的一个GIS云单元。在GIS原子单元的试验中,通过对比,可以发现采用Linux不带图形界面的系统用于服务发布,比采用Windows系统更有效率,在相同性能的状态下,CentOS( Linux系统)模板的大小约为40 MB,而Windows则达到了近1 GB,CentOS不论在服务推送还是服务提供稳定性上(由于CentOS不带图形界面,理论上节省了输出)都更胜一筹。
其次,建立了高效稳定的模板后,需要一个中间件负责快速创建和卸载GIS云原子单元。如图2所示,当平台访问量剧增时,监控服务器获取了紧急情况,直接通知中间件,中间件通过脚本控制的方式,直接通过对应模板从资源池中快速创建GIS云原子单元加入到集群中;而当访问量减少,中间件同样通过监控服务器的反馈,删除GIS云原子单元,用于节省消耗。
图2 GIS云原子单元的调用
最后,建立起智能的GIS云服务推送机制。当外界用户想向平台申请资源时,则在相关的页面填写表格,当通过审核后,后台会根据相关需要的负载情况,自动建立GIS原子单元集群,并生成地址,推送给用户。如当某一厅局想调用广东省矢量地图服务( WMTS),而其用户负载量为X,这些信息都会填写在表格中,发送给平台,当审核通过,中间件则会根据需要的WMTS服务选取模板进行GIS云原子单元创建。假设每个单元可以负载Y个用户,则自行创建X/Y个单元,组成集群,形成WMTS服务地址,自动推送回给申请厅局。
云原子单元技术解决了虚拟资源浪费和服务申请不智能的问题,能够为平台大数据应用提供一个良好的底层支撑,是平台未来的升级方向之一。
2.数据层:分布式存储技术
目前,平台瓦片查询服务都是基于集中式的数据库实现的,这会导致读取效率不高。电子地图是由大量的小容量瓦片所组成的,而小容量式的文件读取速度慢一直都是传统存储的难题。当大量用户调用地图时,传统上从数据库读取瓦片的效率就成了瓶颈。因此,分布式存储技术用于地理信息服务也是平台未来的升级选项。
首先,平台的架构必须升级,以能够更好适应分布式NoSQL,如Hadoop,其分布式文件系统( HDFS)对碎片容量的文件读取非常高效,同时也是海量数据分析算法的基础,需要和中间件配合工作。
然后,地图瓦片不再是以入库的方式,而是以文件的形式存放,即可以为NoSQL的形式,以增强读取效率。
最后,由于广东省具有丰富的自然地理要素,这些都是有用的数据,用于大数据分析挖掘可能会有许多惊人的发现;甚至是传感器接收回来的海量数据,都会以NoSQL的形式存放,方便并行分析计算( MapReduce)。
3.应用层:大数据时代的平台应用
有了对应的大数据技术支撑,必须有对应的大数据应用,地理信息的大数据技术应用模式可以多种多样,以下几点是平台未来发展的方向:
1)移动端化,在移动手机、平板电脑大行其道的今天,人们对应用的需求越来越轻量化,复杂度高的计算不再需要在客户端进行,移动端只需要发出指令,云端进行计算后,结果返回推送给移动端即可。
2)地理信息数据关联,能够精准快速地通过位置、关键词进行信息数据的挖掘获取,结合移动端的使用,能够结合现场辅助决策。
3)智能化,通过数学模型,能够通过对一些位置传感器的数据在平台进行的分析,自行作出决策,一些自动化控制如城市内涝、交通管控未来可以实现,这需要平台增加网络传感器功能与时空数据库的支持。
本文结合大数据时代的技术和广东省地理信息公共平台的现状,对未来地理信息公共平台的建设提出了一些探索性的展望:支撑层服务云单元化、数据层分布式存储化、服务层云交付化和应用层智能推送化。将来的平台建设中,将会对这一系列理论规划进行实践评估。
大数据时代的来临给地理信息带来了前所未有的机遇,同时也带来了巨大的挑战,我们应当勇于创新,敢于把大数据技术结合地理信息进行应用,挖掘其价值,才能为政府部门和社会公众提供更好的辅助信息。
[1] 周星,桂德竹.大数据时代测绘地理信息服务面临的机遇和挑战[J].地理信息世界,2013( 5) : 17-20.
[2] 周顺平,徐枫.大数据环境下地理信息产业发展的几点思考[J].地理信息世界,2014( 1) : 45-50.
[3] 杨哲宇.大数据在地理信息系统中的应用[J].环境与生活,2014( 4) : 49-51.
[4] 乔朝飞.大数据及其对测绘地理信息工作的启示[J].测绘通报,2013( 1) : 107-109.
[5] 刘纪平,张福浩,王亮,等.面向大数据的空间信息决策支持服务研究与展望[J].测绘科学,2014( 5) : 8-12,17.
[6] 苗立志,焦东来,杨立君.面向地理标记语言空间数据的地理信息聚合[J].计算机应用,2014,34( 6) : 1816-1818,1824.
[7] 肖玉,安凯,谢高地.基于元数据的区域功能信息与地理信息集成模式探讨[J].资源科学,2009( 5) : 867-874.
[8] 刘经南.大数据与位置服务[J].测绘科学,2014( 3) : 3-9.
[9] 徐开明.地理信息公共服务平台建设与现代测绘服务模式[J].地理信息世界,2006( 3) : 41-48.
[10]曾元武,陈泽鹏,吴永静,等.广东省地理信息公共平台的建设及其应用[J].测绘通报,2014( 6) : 66-70.
[11]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36( 6) : 1125-1138.
[12]黄贤立.NoSQL非关系型数据库的发展及应用初探[J].福建电脑,2010( 7) : 30-45.
[13]吴永静,胡斌,方晓乐,等.基于云平台的地理信息公共平台部署与测试[J].测绘地理信息,2014( 3) :82-84.
Prospect of Geographic Information System Platform Construction under Big Data Era
ZENG Yuanwu,CHEN Zepeng,FANG Xiaole,WU Yongjing
在大数据时代来临的背景下,地理信息公共平台不仅要在原有的地图浏览、兴趣点查找、定位服务等模式下提供更好的体验,还要满足相关信息挖掘推送、快速数据分析决策等时代趋势要求。本文以广东省地理信息公共平台现有框架为基础,结合大数据技术,概述了下一代平台的建设方向。
大数据;云计算;数据挖掘;服务推送;智能决策
曾元武( 1964—),男,教授级高级工程师,主要从事遥感、地理信息平台的工作和研究。E-mail: 10048392@ qq.com
曾元武,陈泽鹏,方晓乐,等.大数据时代下地理信息公共平台建设展望[J].测绘通报,2015( 11) : 84-87.
10.13474/j.cnki.11-2246.2015.0353
P208
B
0494-0911( 2015) 11-0084-04
2014-09-29
广东省国土资源厅科研专项( GDGTKJ2014006)