摘 要:大数据环境下GIS处在数据体量大、数据急剧膨胀、数据源多样、数据不精确、数据价值密度低的环境。描述大数据环境下GIS数据显著特征;探讨大数据环境下GIS技术在数据采集、存储、分析处理等三个方面存在的挑战;展望面对这些挑战GIS技术应存储去结构化、计算内存化、分析去模型化、地图全息化发展趋势。
关键词:大数据;GIS;Hadoop;Spark;去模型化
引言
随着移动互联网、智慧城市、物联网、云计算等前沿科学技术的快速发展,数据采集方式也不断扩展,越来越多的物体成为传感器,诸如手机、手环、手表、眼镜等越来越多的日常用品成为数据的生产工具。在此背景下,数据量呈爆发式增长。2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),是2012年所产生的数据总量的2倍,相当于2009年全球的数据总量[1]。2014年中国所产生的数据则相当于2012年产生数据总量的10倍,即超过8ZB,而全球产生的数据总量将超40ZB。数據量的爆发式增长督促我们快速迈入大数据时代。
1 GIS空间数据的大数据特征
具体什么是大数据不同的组织给出的定义也不尽相同,普遍来说大数据指的是无法通过现有的软件工具采集、存储和分析处理的数据集合。业界通常用5V(Volume、Variety、Velocity、Veracity、Value)特征[2]来概括大数据的显著特征。爆发式增长的数据中80%与空间位置有关,这些GIS空间数据的大数据特征同样可以用5V来概括。
Volume(数据量):即数据体量大,大量TB级以上数据需要采集、存储、分析处理,如一个地级市的基础地理信息数据。
Velocity(速度):即数据产生的速率很快,目前数据正以ms甚至微秒计的流数据源源不断地快速产生,因此对数据处理的实时性要求也越来越更高。
Variety(多样性):即数据具有多样性,它包含各种结构化和非结构化数据,比如属性数据、矢量数据、遥感影像等栅格数据。
Veracity(真实):即数据具有不精确性,因为数据存在噪音、歧义甚至是缺失,从而导致数据信息模糊,给数据的处理带来诸多不利影响。
Value(价值):即价值密度低,大数据中蕴含各种信息,但其中有价值的数据占比较低,从中挖掘出有价值的数据是一种挑战。
2 大数据环境下GIS面临的挑战
自Roger Tomlinson博士于1963年首次提出地理信息系统(Geographic Information Systems)概念之后,GIS技术一直都在快速发展。GIS技术现已广泛应用于环境监测、国土资源管理、城市规划、交通运输、公共基础设施管理、社交网络(SNS)、位置服务(LBS)等领域,给人们生活带来很大便利。随着广大从业者对GIS技术进行不断的尝试和实践,发现大数据环境下GIS所面临的数据通常是大体量的、快速增长的、异构的、非结构化的数据,这些数据采集不便、存储困难、分析处理复杂,给传统GIS技术带来挑战。
2.1 大数据环境下GIS数据的采集
大数据环境下GIS数据采集方式不再局限于全站仪、水准仪、扫描仪、卫星遥感影像等传统设备与方式,而是来源于各种传感器、街景图片、网页贴吧、视频监测数据、历史数据、社会动态等复杂多样的数据源,凸现大数据的多样性特征,这给GIS数据的采集增加了难度。另外各种传感器等监测数据多为流数据,数据以毫秒甚至以微秒计源源不断快速产生。所谓流数据是指一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,如车辆的行驶轨迹等阶段内无限增加的动态监测数据。此外大数据环境下95%以上的数据都是存在噪音和歧义甚至缺失的不精确数据,在这种数据体量巨大的大数据环境下如何建立数据质量评价体系,从而采集到真实可靠的数据成为一大难题。
2.2 大数据环境下GIS数据的存贮
数据的存储是数据分析和数据挖掘的基础与前提。现有成熟的GIS数据存储系统多依赖关系型数据库,如Oracle、PostGIS;但是关系型数据库由于在海量数据管理、高并发读写以及扩展性等方面的限制,在大数据时代已经显示出一定的局限性[3]。
大数据环境下数据量体非常巨大,2GB大小的遥感影像已经是非常小的分析单元。另外GIS数据源呈现更大的多样性,既有属性信息等可以用结构化方式存储的数据,又有街景、视频等非结构化数据。传统的GIS空间数据存储方式不但难以扩展,而且随着数据的激增读写性能存在极大瓶颈。
在传统的分布式空间数据库环境下数据虽然可以存放在不同节点上,但这种相对传统的分布式文件系统所支持的扩展性有限,针对GIS大体量、多样性的空间数据存储问题仍需深入研究,从而寻找更加有效的方案。
2.3 大数据环境下的GIS空间分析
大数据环境下是处处连接的时代,英特尔预测2020年全球将有500亿个连接。每个连接都是一个传感器,这些传感器无时无刻都在进行采集数据,其自身状态也随着社会环境、自然环境的变化而变化。这样的背景下,迫切需要GIS能够做到低延迟的分析处理工作,因为分析模型也需要随着变化而动态变化。
另外大体量和多样性的GIS数据同样给分析处理带来巨大挑战。数据体量越大,分析模型的建立就越困难,加上GIS数据包含街景地图、遥感影像、矢量数据等多样性的、价值密度很低数据,从中快速提炼有价值数据无疑是一项无比艰巨的任务。
3 大数据环境下GIS技术发展
大数据环境下GIS数据体量大、增长速度快、形态多样、不精确、价值密度低等诸多特征必将引起GIS数据采集、存贮、分析等阶段的变革。大数据环境下GIS技术在空间数据采集、存储、分析处理等方面存在诸多挑战,应运而生的大数据分析技术则为根本上解决大数据环境GIS所面临的挑战提供了可能。
3.1 存储去结构化
相对于有限的数据集,大体量数据需要可扩展的数据存储架构,以满足数据无限增长的需要。针对大数据时代GIS数据的多样性,诸如HBase、Redis、MongoDB、InfoGrid等非关系型(NoSQL)数据库显然是不错的选择。
这些数据库存储不需要预先定义模式,并且可在系统运行的时候动态增加或删除节点,避免停机维护,提高了拓展性和可靠性;另外非关系型数据库没有共享架构,数据往往被划分后存储在各个本地服务器上,方便就近从本地磁盘上读取数据,提高数据读取性能。
3.2 计算内存化
Hadoop系统是近几年比较经典的开源大数据解决方案,但Hadoop主要进行离线数据的计算,应对低延迟的应用场景比较困难;另外Hadoop使用的是MapReduce模型,而该模型将复杂的问题用简单的映射、归约方式,对复杂的算法逻辑支持不充分。Hadoop方案中数据存在硬盘上,因此容易受IO瓶颈的影响,故实时处理GIS数据乏力。幸运的是大数据领域一批又一批新生技术出现,Spark是其中的一个代表。Spark启用了内存分布式数据集,它支持更多范式,且配有一个流数据处理模型,因此在处理GIS数据上能达到更低延迟,性能更高的效果。
3.3 分析去模型化
传统的GIS空间数据分析需要先建立分析模型,比如影响因子有哪些,权重各是多少,然后才能进行分析,做出评价。然而大数据环境下,分析模型愈发跟不上或不适应数据的快速增长与变化,以数据为最终驱动力的去模型化则必然是GIS技术的发展方向。
3.4 地图全息化
传统的地图越来越不适应大数据环境下用户的个性化定制需求,以人为本的全息化地图可帮助用户任何时间、任何地点获取所需要的数据信息。其宗旨是以“人”为本,根据用户的应用需求,基于位置来集成和关联适宜的地理范围、内容类型、细节程度、时间点或间隔的泛在信息,通过适应于特定用户的表达方式为用户提供信息服务[4]。
4 結束语
大数据的发展对世界产生深远的影响,大数据环境下GIS也面临着采集困难、存储不便、分析处理复杂等诸多挑战;当然这也是GIS技术的发展机遇,GIS从业者需要从不断的实践中探索出更加科学的解决方案。
参考文献
[1]Ahalt S C. Why Data Science[J].Communications of the CCF,2013,9(12):11-15(Ahalt S C.为什么需要数据科学[J].中国计算机学会通讯,2013,9(12):11-15.
[2]陆锋,张恒才.大数据与广义GIS[J].武汉大学学报(信息科学版),2014,6(39):645-654.
[3]李清泉,李德仁.大数据GIS[J].武汉大学学报(信息科学版),2014,6(39):641-644.
[4]朱欣焰,周成虎,等.全息位置地图概念内涵及其关键技术初探[J].武汉大学学报(信息科学版),2015,3(40):285-295.
作者简介:沈松雨(1986,1-),男,广东广州,本科学历,助理工程师、系统分析师,研究方向:大数据分析。