刘阳娜
摘要:云计算、物联网、空间数据采集技术快速发展背景下,使空间数据被赋予明显的大数据特点,这就要求在数据存储与管理等方面逐渐完善。实践研究发现,以NoSQL数据库为依据,引入空间大数据分布式存储策略,对提高数据存储与管理水平有积极作用。本次研究将对基于NoSQL数据库的空间数据存储技术做简单介绍,分析NoSQL数据库的空间大数据分布式存储策略的应用以及该策略运用下取得的效果。
关键词:NoSQL数据库;空间大数据;分布式存储策略;应用
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2018)02-0077-01
空间数据存储与管理是影响数据使用质量的关键所在。近年来在云计算技术、物联网技术发展下,空间数据使用模式上出现较多变化,数据规模逐渐增大,导致数据的存储、处理均面临极大难题。若此时仍依托于以往关系型数据库存储模式,很难达到存储与管理目的。在此背景下考虑引入分布式存储策略,提高数据存储管理能力。本次研究将对NoSQL数据库下空间大数据分布式存储策略的具体应用进行分析。
1 基于NoSQL数据库的空间数据存储技术基本介绍
1.1 空间数据存储技术实施基本要求
近年来,在地理空间信息收集方面有多样手段,其在一定程度上导致数据频繁更新、数据规模增大,若仍选择传统单一存储方式,很难达到存储与处理要求。对此,要求正确认识大数据具体特征,选择相应的空间数据存储技术,技术选择中有具体的要求,包括:(1)扩展存储能力,如千万级别二维表依托于以往关系数据库难以存储,且无法横向扩展存储能力,因此数据存储技术运用下,应从存储能力扩展方面着手,满足基本存储要求的同时,使数据一致性与完整性得到保证;(2)适应各类存储对象,如图片、音频与视频类型数据等,均要求数据存储技术的应用与之适应;(3)满足多用户并发访问要求,如互联网、云服务访问,关系型数据库很难实现多用户访问,是空间数据存储技术应用下需解决的问题[1]。
1.2 基于NoSQL數据库空间数据存储模式应用现状
NoSQL数据库技术作为非关系型数据库,在互联网领域中近年来不断推广应用,若单纯由数据存储方面出发,该类型数据库适应性较强。值得注意的是,GIS领域、互联网领域本身有明显差异,所以应用NoSQL数据库技术有一定的不足之处,表现为:(1)数据操作问题,数据库运行中要求在数据修改上严格控制,一旦因修改操作不合理,便会涉及数据迁移情况;(2)查询问题,空间数据查询中需以图层属性信息为依据,进行数据提取,数据库需满足多种功能要求,包括统计、排序以及查询等,而NoSQL数据库很难达到这些要求;(3)索引问题,索引技术的运用不应局限于简单的算法方面,更应向方法策略上提升,这样才可使数据检索效率提高。
2 基于NoSQL数据库的空间大数据分布式存储策略应用研究
2.1 分布式存储与管理系统应用分析
针对NoSQL数据库运用下的局限性,本次研究中引入空间大数据分布式存储策略。从空间大数据存储管理系统看,在保证满足流式、栅格、矢量数据存储、管理要求的基础上,能够实现快速提取分布式数据的目的,包括空间关联分析、展示专题图,支持系统运行。具体剖析该系统的构成,主要体现在:(1)内存数据库,数据操作层主要选择I/O处理模式,处理速度明显提升;(2)空间数据库,系统融入传统空间数据库优势,既有分布存储管理能力,且将GIS优势引入;(3)存储系统,“大数据仓库”由分布式存储系统承担,满足数据提取要求的同时,具备持久化存储特征,且系统有高可用性、扩展性以及低成本特点[2]。
2.2 空间大数据分布式存储关键技术应用该研究
分布式存储策略运用下,其实施效果很大程度受其中所采用的关键技术影响。以MongoDB数据库为例,作为以文档为基础的NoSQL数据库类型,有明显的技术优势。如数据库中采用的Sharding集群、Replica Set集群,若以实际地理范围为依据搭建集群,能够保证数据存储实现。同时,快速提取技术在也极为重要,特别数据组织结构不同将影响提取数据的效率,所以需在空间索引策略上优化,如结合集群方案与索引策略,即以元数据为基础形成多级图幅索引,是快速提取技术应用的具体体现。另外,需注意数据合理调度、接口访问设计等相关技术,如在数据调度方面,主要将空间数据划分为高频率访问、低频率访问数据,两种数据分别以热点数据、“冷”数据归档形式存储,而在接口访问设计上,取OGDC接口,其中的各驱动程序如DM、MySQL、Oracle等,使数据并行存取更加便利[3]。
3 基于NoSQL数据库的空间大数据分布式存储策略实践效果
为验证空间大数据分布式存储技术的应用效果,本次研究中取原型系统包括NoSQL数据库、关系型数据库以及内存数据库如MongoDB、PostgreSQL等,研究实践目的在于将MongoDB中上层数据结构、底层存储问题解决,达到快速提取与存储数据的目的。具体操作:(1)原型系统结构,如数据库层,借助MongoDB做Sharding集群构建,再如中间件层,MongoDB各对象均需做包装,使BSON对象内涵盖属性信息、空间信息等。另外,应注意数据访问接口层的设计;(2)试验操作,在MongoDB中导入数据后做空间所引构建,在分布式存储策略上,主要选择相应的存储节点,并搭建Sharding集群,然后引入以元数据为基础的空间索引策略,并应用内存数据完成shape要素入库处理[4]。试验结果发现,所有数据在并发入库、空间索引构建耗时明显减少,并发环境下海量数据入库效率有显著提高。
4 结语
空间大数据分布式存储策略的应用是当前解决大数据存储、处理与运用的主要难题。实际引入该策略中,应正确认识传统数据库单一存储模式存在的不足,采取优化的策略,即以NoSQL数据库为基础,采取分布式存储策略,对提高数据提取、存储与处理能力有积极意义。
参考文献
[1]李绍俊,杨海军,黄耀欢,等.基于NoSQL数据库的空间大数据分布式存储策略[J].武汉大学学报(信息科学版),2017,42(02):163-169.
[2]侯志通.条带状公路运营管理空间大数据降维组织及混合存储关键技术研究[D].浙江大学,2015.
[3]朱建生,汪健雄,张军锋.基于NoSQL数据库的大数据查询技术的研究与应用[J].中国铁道科学,2014,35(01):135-141.
[4]陈崇成,林剑峰,吴小竹,巫建伟,连惠群.基于NoSQL的海量空间数据云存储与服务方法[J].地球信息科学学报,2013,15(02):166-174.