大数据时代地理信息系统的应用研究

2015-10-24 11:21潘艺
电脑知识与技术 2015年5期
关键词:空间数据海量结构化

潘艺

摘要:大数据的出现,颠覆了既有的传统数据存储与处理技术。地理信息系统由于自身的空间数据属性和对数据处理响应速度的“实时”要求,对大数据的应用需求最为迫切。通过解读地理信息系统应用大数据的必要性及其问题,结合大数据技术给出了可行性的解决措施,以此来阐述地理信息系统应用大数据的广阔前景。

关键词:大数据时代;地理信息系统;问题分析;应用研究

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)05-0019-02

以往学者对地理信息系统应用大数据方面的研究较多偏向整体方面的研究,较为缺乏对地理信息系统应用大数据在技术层次方面的探讨。本研究从地理信息系统应用大数据在数据存储和数据处理方面的问题着手进行研究,提出了基于大数据的MongoDB和Dremel的解决措施。

1 地理信息系统应用大数据的必要性

受当时数据存储技术的限制,早期的地理信息系统主要采用RDBMS进行管理,或者采用文件与RDBMS的方式进行管理,如国产GIS软件GeoStar就采用后者的方式予以实现,其属性数据仍沿用RDBMS管理模式,图形、影响和DEM则交由文件系统管理[1]。但GIS本身固有的空间数据和海量数据特征以及数据处理快速响应的需求,决定了以RDBMS为代表的传统数据存储和以统计学和数据挖掘为代表的传统数据处理技术已经无法适应GIS数据存储及处理的发展需求。大数据的出现,带给了地理信息系统新的变革。就整体而言,大数据处理方式与传统数据处理方式存在以下区别。

大数据与传统数据处理方式存在诸多不同:首先,大数据没有抽样概念,其针对的是全部数据,即全样本数据概念,而传统的数据处理方式无论是统计学还是数据挖掘,都是以在数据中抽取样本研究的方式进行;其次,传统的统计学注重数据的因果关系分析,而大数据则完全无视数据的因果关系而在乎数据的关联信息;再次,传统的RDBMS数据处理技术十分追求优良的精确性、高度的一致性,使得其并不具备良好的可扩展性,而大数据则因为多样化的数据类型需要必须具备良好的可拓展性,并不再盲目追求计算结果的精确性,虽然RDBMS数据处理方式已经有了并行计算,但追求高度一致性和容错性的特点使得其无法像MapReduce等大数据并行处理技术那样具备“秒级定律”的可用性和可拓展性;最后,大数据处理的数据类型也不同于以结构化数据为主的传统数据处理方式,其数据处理对象包括了以数字、字符为代表的结构化数据、员工简历信息等为代表的半结构化数据、音频、视频等为代表的非结构化数据这三大类型,在数据处理难度大为艰巨的同时,数据处理能力也得到了极大的提升[2]。

由以上四个方面的对比可以看出,大数据相比传统的数据存储及处理技术,无疑更能满足地理信息系统空间数据、海量数据和数据处理快速响应的需求,因而地理信息系统应用大数据已成为时代的必然。

2 地理信息系统应用大数据的问题分析

2.1 数据存储

地理信息系统的空间数据特点注定了其数据存储具有明显的非结构化特征,其数据集呈现出典型的大数据特点,即海量数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样化的数据类型(Variety)、快速变化的数据模型(Vitality)和高价值低密度(Value),以及高复杂度(Complexity)的大数据5V+1C特性。我国巨大的地理信息系统市场需求,爆炸性增长的空间数据存储、越来越快速的数据处理响应以及越来越多样化和清晰化的数据描述需求等等这些都对地理信息系统应用大数据提出了高要求。此外,地理信息系统的数据共享与保护、大量重复数据的处理也对其应用大数据构成了挑战。

2.2 数据处理

虽然地理信息系统目前已实现对海量空间数据通过多种途径进行汇总,但其对海量空间数据的组织、处理、加工和存储技术仍是较为落后[3]。在数据处理技术方面主要呈现为非结构化的海量空间数据与传统SQL数据处理技术的不相兼容,致使对海量空间数据的管理、处理和加工效果仍是差强人意,以此为基础的数据增值产品自然无法顺利产生,这已成为制约我国地理信息系统市场进一步发展的瓶颈。随着市场竞争和用户需求的现实需要,地理信息系统空间数据集的实时更新要求正不断被提升,在客观上需要不断加强的计算能力及效率。这既是地理信息系统应用大数据的客观需要,同时也是其海量空间数据顺应社会发展的必然要求。

3 地理信息系统应用大数据研究

3.1 数据存储

尽管GIS软件已经通过加入对象关系模型实现了对RDBMS的性能扩展,使其能够同时管理图形、属性数据、影响和DEM数据,并已实现了多比例尺空间数据的存储,但该数据存储模式已触碰到既有技术发展的瓶颈,并且是导致地理信息系统空间数据自动综合能力与效率低下的重要原因。此外,以C/S架构为基础的GIS系统由于自身的封闭性导致了其自身的数据共享能力偏弱,对批量数据处理后的存储与同步性更新能力与效率也仍是有待加强。有鉴于此,有必要采取大数据的存储方式,对传统的地理信息系统数据存储模式进行革新。

大数据处理方式与传统数据处理方式的一大明显区别是数据存储形式的不同。传统的数据处理方式在这一环节主要依靠RDBMS来实现。RDBMS尤其擅长结构化数据的数据存储,但却无法很好地存储半结构化数据与非结构化数据。而大数据处理方式均很擅长对半结构化数据与非结构化数据的存储。此外,大数据普遍采用分布式数据库或分布式计算集群实现数据的存储。其数据库类型被人统称为NoSQL,尽管传统的RDBMS也有分布式数据库,但它的存储方式仍以结构化数据为主,并在高一致性、高精确度等方面进行严格要求,因而无法实现良好的扩展功能,而NoSQL则没有这方面的严格限制。因此,NoSQL云存储技术应是未来地理信息系统数据存储的主流技术。

NoSQL摒弃了RDBMS的关系与连接特性,保证了在数据存储上的极佳可拓展性。数据存储模型的灵活多变,更是大大减少了其在进行数据存储和更新操作时的系统开销。以MongoDB为例,它为了实现对多样化的数据存储形式的兼容,采用了面向文档的数据库管理措施,使得其具备优良的可拓展性。其原理就是将RDBMS中“行”的概念替换成“文档”模型,因而能够确保实际数据存储时文档或数组的嵌套,并实现了复杂层次关系的单一记录存储[4]。它所存储的数据结构十分松散,保障了其数据存储模型的灵活多变特性,并能够有效支持复杂的属性数据,在索引结构方面也由于自身复杂层次关系的简化和查询索引技术的强大,已经基本实现了对RDBMS查询功能的完全支持。

由此可见,文档型NoSQL存储技术十分符合地理信息系统空间数据存储的要求,并且避免了地理信息系统传统数据存储技术在存储海量空间数据时耗费的数据压缩与转换的系统开销,因而能够通过对数据存储方式的革新有效提升地理信息系统在数据读取与更新时的效率。

3.2 数据处理

传统空间数据库都会建立多比例尺的空间数据库,再根据实际应用的需要调动不同比例尺数据库的数据,来增强地理信息系统对数据处理响应速度的需求[1]。但就其实际操作而言仍无法较好地满足地理信息系统对数据处理接近实时数据处理的要求,其矢量数据的自动综合能力也是差强人意。但在大数据时代,该空间数据的处理方式完全可以用大数据的交互式数据处理方式来予以解决。

交互式数据处理,主要指通过人机交互来逐步实现对数据的处理,它能让数据被及时地处理和修改,并让处理结果立刻被用户知悉和运用。当前交互式数据处理系统有Spark和Dremel等。作为高效分布式计算系统,Spark在性能上要比Hadoop在数据处理上的效率提升100倍,并提供了比Hadoop更为上层的API。Spark的代码简洁,Hadoop要实现与其相同功能的代码往往需要数十倍或上百倍的长度。Dremel则通过组建规模上千的集群来实现PB级别海量数据的秒级处理。因为Google专门设计Dremel用来弥补MapReduce的不足,因而Dremel在规模上、交互式查询能力都要比后者优越。

以Dremel为例,它通过嵌套式的数据模型来支持对半结构化和非结构化数据的并行处理。通过用列式存储方法来保存数据,进而在数据处理和分析时只需要针对指定数据进行处理,因而减少了CPU和磁盘的访问量。最后,Dremel结合了Web搜索和并行DBMS的技术,通过借鉴Web搜索的“查询树”概念,将复杂巨大化的查询搜索分割成并发在大量节点上处理的较小简单数据查询。简单而言,交互式数据处理方式就是通过对数据的分片存储和对查询功能的优化来实现对海量数据的快速处理。

由此可见,地理信息系统传统的多比例尺数据库数据完全可以通过Dremel嵌套式数据模型的列式存储方式进行存储,进而在响应实际数据处理需求时通过类似Web搜索的处理方法调出符合查询要求的分片数据,从而实现空间数据处理的优化,因为数据搜索的系统开销大为降低,因而大大提升地理信息系统的数据处理响应速度。

4 结束语

经过探讨地理信息系统在大数据应用方面的数据存储及数据处理问题,并针对性地给出基于大数据的解决措施,可以发现大数据在未来的地理信息系统具备广阔的应用前景。除了本文所提及的MongoDB和Dremel大数据处理技术,大数据还有以MapReduce为代表的批量数据处理技术、以Storm为代表的流式数据处理技术和以Neo4j为代表的图数据处理技术,它们都在未来的地理信息系统发展中大有可为。

参考文献:

[1] 龚健雅. 中国地理信息系统技术的发展[J]. 测绘工程, 2002(2): 5.

[2] 维克托·迈尔·舍恩伯格, 肯尼思·库克耶.大数据时代[M]. 盛杨燕, 周涛, 译. 杭州: 浙江人民出版社, 2012.

[3] 韩琳琳, 李元元. 大数据在地理信息系统中的应用分析[J]. 科技与企业, 2015(3): 83.

[4] 刘卓. 基于NoSQL的空间数据云存储的研究[D]. 郑州: 河南大学硕士学位论文, 2014: 11-18.

猜你喜欢
空间数据海量结构化
一种傅里叶域海量数据高速谱聚类方法
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
海量快递垃圾正在“围城”——“绿色快递”势在必行
元数据驱动的多中心空间数据同步方法研究
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
基于文件系统的分布式海量空间数据高效存储与组织研究
客户端空间数据缓存策略
多源空间数据同名实体几何匹配方法研究