扩展流数据立方体的GIS时空大数据组织方法

2018-08-31 05:46陆妍玲李景文叶苏娴姜建武周艳柳
测绘通报 2018年8期
关键词:关系数据库立方体数据模型

陆妍玲,李景文,叶苏娴,姜建武,殷 敏,周艳柳

(1. 桂林理工大学,广西 桂林 541004; 2. 广西空间信息与测绘重点实验室,广西 桂林 541004)

近年来,由于移动互联网与物联网等技术的不断发展,全球范围内数据量增长迅猛,昭示着大数据(big data)时代已经来临[1-2]。根据国际数据公司IDC统计,全球数据总量将维持50%左右的增长率。预计到2020年,全球数据总量达到40 ZB;同时,中国的数据总量将达到8.6 ZB,占全球总量的21%,其中,80%的数据与空间位置相关[3]。地理信息数据得到了空前的发展,大数据时代背景下的地理时空数据量不断膨胀,与GIS系统相关的应用也在迅速丰富和增长。大数据的特征不止体现在数据量大方面,更有速度快、模态多样、真伪难辨、价值性等多个特征[4]。其中,海量异构性在GIS数据管理方面一直是热门研究领域。因此,在大数据时代中,超大体量的数据研究为GIS带来了挑战的同时也提供了数据分析的新机遇。

1 基于流数据的地理时空大数据立方体

传统GIS多采用关系型数据库,针对大数据的云端服务模式,使得单一的关系型数据库在海量空间数据的存储管理、异地多点查询、关联与聚合等方面显示出了一定的局限性[5-6]。同时,传统的空间数据库存储多以静态的关系型数据记录为主要形式,管理方式缺少应对高动态的时空大数据的解决方法[7]。除去大体量、动态等特性,大数据的异构特征在现有的GIS数据模型中,也存在很大的管理难度。不同的时空粒度,从数据格式到数据存储都存在较大的差异性,常用的关系型数据结构已经难以对非结构化数据进行有效组织和管理,同时对结构性和非结构性等异构数据的统一管理成为GIS时空大数据急需解决的主要问题之一[3,8]。

大体量、动态、异构等多特征的大数据必将为GIS数据存储和管理带来跳跃性发展。相对于传统关系型或分布式数据库,对静态、有限的数据集管理系统需要具备扩展性,对多源异构的数据类型的包容性,对关系型和非关系型数据协同管理性,以满足动态无限增长的大数据存储和查询问题,GIS时空大数据需要一种应对大数据时代挑战的数据管理新方法[9]。由此,针对现有空间数据存储的静态关系型记录的不足,通过以实时存储和实时分析为目标,基于流数据的地理时空大数据动态管理方法,将改善现有的数据结构在大数据存储和管理的局限性,结合扩展数据源、数据类型及数据操作等属性,突出多源异构地理时空大数据的时空关系和演变过程关系等特征,实现对GIS时空大数据进行数据一体化组织、存储和分析。

与传统静态数据相对应的流数据,是一种具有实时、快速和连续到达等特性的动态数据。所谓流数据,是按时间序列动态增加的数据观测值向量所组成的数据序列,有连续性及无线增长性的特性。在对大数据GIS特征分析中,李清泉等提出采用现有的空间数据管理方式难以应对高动态的空间流数据,相比于静态有限的数据集,地理空间大数据的存储管理应该具备扩展性,并且能对非结构性数据进行有效存储。因此,基于“瞬间流”的数据集概念,对流数据的存储技术进行动态改进,能有效解决非结构性的超大规模数据带来的存储上的问题,可扩展的立方体存储处理方法同时能满足高动态性的异构地理空间大数据管理需求[3]。

结合地理时空大数据的数据概念、结构特点,地理时空大数据可以分为结构化和非结构化数据类型,同时,数据特征描述从传统的3V扩展到了5V或新3V等多维模态。通过分析从海量到大数据的跨越面临的存储和分析问题,描述以流数据为对象的数据存储结构,按照时间序列动态增加数据向量所组成的数据立方体。考虑到非结构性数据特点,地理时空大数据存储需要具备扩展性。因此,在水平方向二维数据流的基础上,增加垂直方向上的二维非结构数据流,并在时间序列的框架下,构建基于流数据的可扩展立方体(streaming data cube,SDC),为实现地理时空大数据的实时处理奠定基础,如图1所示。

图1 地理时空大数据的流数据扩展立方体结构

流数据扩展立方体为

CPLXYZT=VP,L,X,Y,Z,T

(1)

式中,P为关联的信息类型;L为空间分辨率的层级;X、Y、Z为体位置的三维坐标;T为时间。

2 基于流数据立方体的时空大数据动态处理框架

基于流数据的可扩展立方体结构(SDC),通过回归与聚类等方法为多维流数据建立一个较为完整的实时处理框架,采用梯形体,将不同维度的流数据立方体叠加,按照时间序列对数据流作聚类处理;同时,在垂直方向上,由下往上对聚类作回归。具体如图2所示,底层到上层的延伸是对聚类进行回归的过程,越往上层聚类数据越少。某层截面表示在该层上需存储的立方体,其体积与其相应的回归层上所存储的聚类立方体个数成正比关系[10]。

图2 流数据立方体SDC处理框架

其中聚类算法为:Algorithm index-D(K,M,N,α),设定给出的流数据立方体个数为K,每个最少去除的采集点数为M,当前立方体存储结构的个数为N,试验因子为α。聚类过程为:流数据立方体Streaming cube(Ti,Tj)表示从时间Ti到Tj这段时间的聚类结果:

(1) 对所有ID进行初始化,使之为零。

(2) 对每一个新到来的立方体数据块Dj计算聚类Streaming cube(j-1,j)。

(3) 从水平二维的第0层开始计算,判断每一层是否有空的存储单元,设置判断标准至少有一个ID为0,直至出现空的立方体存储单元的那一层位置为止。

通过梯形体的方式,对水平方向流数据立方体进行聚类,垂直方向流数据立方体进行回归。在多维时间序列流数据立方体的回归分析中,采用压缩后的回归数据,可大量节省时空大数据的存储空间。在该立方体存储结构中,利用一维的线性回归方法,描述了对流数据立方体进行不同时间序列组成的不同立方体,以及对同一时间序列的不同时段的立方体进行最小二乘线性回归运算。通过ISB表示法,由参数[Ta,Tb],θ,η组成。以上参数相互不相关,其中[Ta,Tb]为时间序列间隔,θ为线性拟合的基数,η是斜率。最后,为有效实时分析处理流数据立方体,在垂直方向的回归上层进行观察,利用数据异常驱动的方法,找出流数据异常立方体,在有限的存储空间中切实可行地对快速、动态的流数据立方体做出实时响应。

3 基于流数据立方体的地理时空大数据模型

随着超大数据规模的不断上升,其局限性越来越明显,面临诸多难以解决的问题,如非结构化数据难以确定统一的数据关系模型;大部分的关系数据库不支持大规模的分布式存储。基于SQL的接口设计在超大数据集面前效率低下,难以满足实时性要求[11]。但在非关系型数据模型应用中,体现在各类非关系型数据量(NoSQL)和分布式文件系统。典型的NoSQL数据库有Redis、Memcached、Cassandra、MongoDB、Neo4j等,此类数据库相比于关系型数据库确定存在多方面优势,但是却不能支持SQL查询。即使对非关系型数据库的争议从未间断,但其与关系数据库并存的数据管理方式已经被认可[3]。李德仁等学者对一体化组织、管理、存储地理时空大数据了进行研究;康俊锋等基于互联网操作软件架构,建立了新一代网格计算技术下的非关系、开放、并行的数据存储管理方法[12]。

同时,考虑关系数据库目前的主导地位,在异构性地理时空大数据模型构建中,基于关系数据库的设计工具和语言接口,为水平方向上的二维结构化数据流进行存储管理;也为解决现有关系型数据库缺乏非结构化数据管理与实时性分析的问题,采用灵活、分布式、扩展开放的多维流数据立方体存储管理垂直方向上的非结构型数据;使其实现同时支持结构化与非结构化数据源和数据模型描述。

因此,基于流数据立方体(SDC)处理框架,结合立方体数据组织模型的定义和特征,根据流数据的地理时空大数据的组织形态,构建扩展关系型数据库与协同非关系型数据库(extension-synergy,简称E-S)的模型,将非关系数据库用作关系数据库的扩展,关系数据库中数据量大、关系较为复杂的通过中间件移植到非关系数据库中,只在关系数据库中保留需要复杂关系操作的流数据立方体。具体如图3所示。

图3 基于SDC的E-S数据库

基于SDC的E-S数据库,面向实时分析的动态流数据处理过程,考虑到地理时空大数据的建模重点,基于流数据立方体存储的地理时空大数据时空聚类方法,把任意多个流数据立方体组合通过回归聚类等方法映射成唯一立方体,在类体空间中保存有效数据单元信息,并且构建时空序列索引提高检索和信息分析效率。结合数据驱动分析,通过插入异常源数据,在计算模拟过程中,探索实现发现未来地理时空大数据管理新模式的方法,具体如图4所示。

图4 基于流数据立方体的地理时空大数据组织

在时空聚类过程中,单元列栈U为一个规格化时空单元上的聚类全部数据,按照时空序列堆栈的数据集为

(2)

基于流数据的可扩展立方体存储区结果D为相同时空层级上全部规格化时空单元上的U的集合为

(3)

基于SDC的E-S时空大数据组织方法,采用具有连续性及无限增长性的流数据为数据结构,考虑到非结构性数据,在典型流数据的基础上,对其进行垂直方向上的扩展,并且在时间序列下,进行灵活实时的数据管理;既满足GIS大数据可扩展的动态数据管理需求,该流数据立方体与时空序列的结合,还为面向实时分析与挖掘的动态处理提供解决方案。在SDC存储结构基础上,基于扩展关系型和协同非关系型数据库,既符合SDC存储结构和运算方式,又不舍弃当下主流关系数据库对于复杂关系操作的优点,还能对地理时空大数据的非结构数据进行有效管理,符合未来大数据GIS新型通用数据管理系统的标准。

4 结 语

在GIS领域中,海量数据的处理一直是一个重要问题,从海量数据跨越到大数据,不止拥有超大规模的数据体量,还兼具了多源、快速、动态、异构和挖掘等关键的特征[13-14]。针对目前GIS数据模型的管理局限性,本文提出了一种基于流数据的可扩展立方体动态数据组织方法,在典型的流数据二维数据序列基础上,增加垂直方向的非结构数据立方体序列,在时间序列下,统一管理地理时空大数据的结构型和非结构型数据,满足地理时空大数据高动态、连续性与无限增长性的数据管理需求。同时,为了优化地理时空大数据模型管理,在数据层面,针对传统关系型数据库在异构和可扩展方面的不足,将关系型与非关系型数据库并存,基于SDC的E-S地理时空大数据模型构建方法,既发挥关系型模型对复杂关系操作的优势,也将海量、异构和动态的地理时空大数据存储管理在非关系型数据库,同时适应结构化和非结构化数据的统一数据模型。

猜你喜欢
关系数据库立方体数据模型
关系数据库在高炉数据采集系统中的应用
关系数据库技术在计算机网络设计中的应用
面板数据模型截面相关检验方法综述
内克尔立方体里的瓢虫
图形前线
探讨关系数据库设计中范式理论的教学方法
立方体星交会对接和空间飞行演示
折纸
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
基于数据模型的编程应用