基于模型需求模板匹配的多源地理数据推送方法研究

2016-05-25 00:37林,邹宇,易琳,俞
地理与地理信息科学 2016年1期
关键词:子类数据流算子

朱 晓 林,邹 宇,易 琳,俞 肇 元

(南京师范大学虚拟地理环境教育部重点实验室,江苏 南京 210023)

基于模型需求模板匹配的多源地理数据推送方法研究

朱 晓 林,邹 宇,易 琳,俞 肇 元*

(南京师范大学虚拟地理环境教育部重点实验室,江苏 南京 210023)

针对现有地理分析模型同多源复杂地学数据之间耦合困难、模型运算数据处理过程复杂等问题,构建了以模型需求模板匹配为基础的多源地理数据自动处理与推送方法。利用元数据对多源地理数据进行统一描述,并从模型的数据需求和任务需求两个角度生成模型需求模板,最后通过基于XML的元数据与模型需求模板的匹配求得数据操作模板。在数据操作模板中应用算子库作为转换工具,实现了数据库数据到模型需求数据的转换,完成模型运算数据的自动推送。基于江苏沿海滩涂数据库的分析案例表明,该文提出的模型模板匹配方法可对模型运行数据进行有效解析,并通过数据操作流的构建实现数据的自动推送。该研究可为服务型GIS的发展及地理模型的集成提供理论参考与方法借鉴。

模型需求模板;模板匹配;操作模板;数据推送

0 引言

GIS大众化和服务化的发展趋势要求能够深入领会与理解大众需求,提供简便易用的操作方式和良好的交互式体验,减少用户在原始数据预处理、需求数据提取上的重复工作与大量的人力、财力耗费。以任务为出发点的GIS服务和以复杂地理空间数据为基础的地理模型之间的矛盾导致在模型分析前需要对原始地理数据经过复杂而专业的处理。地理分析任务的日益复杂化促进了模型之间的耦合与集成,导致即使对于同一地理分析任务,其中间的数据转换与变换也可能存在较大的差异。上述新特性使得传统基于数据抽取的方式已经无法满足目前的应用需求,无论是从GIS服务易用性还是从模型集成的视角,均需要架构地理模型与多源地理数据间的桥梁,通过明确模型对数据的具体需求,实现多源地理数据的按需推送。

数据推送是指数据库服务器根据任务需求主动发送数据,同时保持数据的实时更新与增量传输,相对于数据抽取方式的数据服务,数据推送效率更高且不需要建立后续的服务连接,可实现任务数据的动态更新[1]。基于任务自适应的数据推送还可实现数据的自动匹配,并可有效控制数据更新的时间与频率,保证任务的有序进行[2,3]。数据推送因其灵活的数据共享机制和智能化数据交换方式,已在物联网[4]、数据共享平台构建[5-7]、传染病数据监测[7]、空间信息服务[8]、金融交易监测[9]等领域得到广泛应用,并提出了一系列数据推送系统[4,10]。以上研究虽然在数据推送方法上做了一定的探索,并将其应用于各个领域,但也存在两点不足:首先,需要的人工干预较多,模型的规则难以确定,可扩展性和适应性能力不强[11];其次,所处理的数据类型和维度较为单一,不适用于多源地学数据。本文针对地理数据的维度特性,从数据的时间维度、空间维度、要素维度和类型维度等出发,构建多源地理数据的专题分类和元数据描述,同时通过对地理模型在任务和数据层结构化的需求解析,实现模型需求模板的构建。设计多源地理数据在空间坐标、数据格式和数据处理等方面的基础操作库,结合模型需求模板,搭建数据库数据向模型需求数据转化的数据流,实现数据的智能抽取和自动推送,并以江苏沿海滩涂数据为例做出应用示范。

1 主要思路

地理模型是数据应用的落脚点,也是地理数据转换为信息的主要手段。模型内部物理机制的差异性决定了其对数据类型、专题等需求的差异,因而可构建模型对数据的需求表征,建立数据相对于模型的统一接口描述,构建模型到地理数据的匹配关系。为此,构建了基于模型需求模板的数据推送流程: 1)针对多源地理数据构建基于专题分类的元数据描述,为需求模板匹配提供必要的接口;2)从模板任务和模板数据两方面入手,构建模型需求模板,并将生成的模板与地理数据元数据描述相匹配,得到从地理数据到模型运行所需数据的映射;3)建立包含数据转换、数据处理和数据整合的操作算子库系统,结合数据与模型间的映射关系,构建数据自动推送的数据流结构,实现基于地理模型数据需求模板的数据推送。

2 多源地理数据分类与元数据描述

2.1 多源地理数据专题分类

地理数据分类与地理数据编码是地理数据建库和编码的基础[12,13]。为了更好地组织多源地理数据并为地理模型的数据匹配提供基础,根据地理数据类型和专题将多源地理数据划分为5层:主题层、一级子类、二级子类、三级子类和数据类型层。主题层主要从地理信息专题属性出发,确定数据在高层次上的类属性,确定数据的专题数据和基础数据归属;一级和二级子类是对数据在专题和子类专题上的划分;三级子类和数据类型是对具体数据的划分,确定数据的格式,为数据存储提供便利。根据上述原则与方法,结合现有的多源地理数据资源情况,构建多源地学数据专题分类体系的一般描述:

M0={mi∈M|Ri}i=1,2,…,n

(1)

式中:Ri为第i类数据的分类体系,mi为第i类数据的具体数据类型。本文构建的多源数据专题分类体系和数据类型的划分与描述如表1所示。

表1 数据专题分类

Table 1 Data classification by features

主题类一级子类二级子类三级子类数据类型类基础数据专题数据地理格网经纬网、控制点1∶5万格网矢量地形高程点、等高线、DEM江苏省DEM矢量行政区国家级、地市级南京市栅格自然条件地质、地貌、气候气候类型文本数据社会经济人口、综合经济文化程度二维表生态环境自然灾害、环境污染PM2.5数值数据

将多源地理数据在主类划分为基础数据和专题数据,其中基础数据表示一类可以通用的数据,是专题数据划分的基础,在一级子类中表现为地理格网、居民地、行政区、地形等。专题数据表示以专题要素内容信息为主要的分类对象,在一级子类中划分为自然条件、自然资源、社会经济、基础设施、生态环境等。

根据上述分类,构建数据的十位数编码系统。该分类编码中第一位为主码,0表示基础地理数据,1表示专题数据。一、二、三级子类分别表示数据的专题和子类专题的划分,共占6个字符位。最后三位表示数据类型,其中第一个数据位表示数据的种类,如矢量数据、栅格数据和表数据等;后二位则对应不同数据种类的不同数据格式,如矢量数据有E00、Shapfile格式等。因此,该编码系统具有分类逻辑性强、代码信息量丰富、便于进行要素间关系推理判别等特点。

2.2 地理元数据描述

地理元数据(Metada)用于地理信息中地理数据集的内容、质量、表示方式、空间参考、管理方式等特征的描述,是实现地理空间信息共享的核心标准之一[14,15]。本文主要通过地理元数据实现对模型输入数据和数据操作算子的接口匹配,并利用XML Schema实现地理元数据描述。 本文所使用的地理元数据主要包含:1)空间参数信息,包括数据的空间范围、空间尺度、空间参考系和空间分辨率等,用于识别地理数据在空间上的特征;2)时间参数信息,包括数据的时间范围、时间频率和时间尺度等,用于数据在时间维度上的抽取与匹配;3)基本参数信息,包括数据的编码、数据的格式和数据的其他必要信息,如数据的名字等。

3 地理模型需求模板与模板匹配

3.1 地理模型的需求分析

对照常见的地理模型对数据的需求,可将其归纳为两部分:基于模型任务解析的数据需求和基于模型数据解析的数据需求(图1)。

图1 模型的数据需求

Fig.1 Data requirements of models

从图1可以看出,模型的任务需求主要建立在模型的整体应用上,可分为空间和时间需求两方面内容。其中空间需求包括模型应用的具体空间范围和空间尺度的选择。时间需求又可分为时间点或时间段的需求。模型的数据需求则是模型对不同类型模型输入数据的详细要求,包括空间数据的投影、分辨率信息和非空间数据的格式、编码等,主要用于确定数据库存储数据与模型输入数据之间的差距,从而为后续操作算子的选取提供借鉴。

3.2 地理模型需求模板构建

由于模型对数据的需求必须转换为计算机可以识别的方式,构建模型需求模板,在分析和归纳模型对地理数据的具体需求的前提下,统一用户对模型数据的描述,实现需求的参数化设计。

根据上述模型任务需求的分析,模型对时间和空间的需求可转换为模型在时间维度和空间维度上的范围选取,对应的任务需求模板构建过程如图2a所示。根据模型对具体数据的需求分析,模型数据的需求模板的构建可以转换为对具体数据的编码、空间分辨率、数据格式、投影和基本操作的信息获取,构建过程如图2b所示。

图2 模型需求模板构建

Fig.2 Requirements template of models

模型模板是用户提供模型需求信息的入口,也是计算机匹配数据库数据的基础,还是构建数据流的条件。对模型模板的描述可统一模型到操作、模型到数据库之间的接口,便于数据在三者之间的抽取与推送。对模型模板的XML描述如图3所示:

图3 模型需求模板XML描述

Fig.3 The XML description of template

3.3 地理模型需求模板匹配

模型模板与数据库元数据的匹配是指从模型模板中获取关于数据的时间、空间、编码、格式、坐标等需求信息,并将其与数据库元数据相应要素对比,确定数据与需求之间的匹配程度和差异性,设定4种不同的操作模板。模型模板与数据库元数据匹配过程及操作模板设定如图4所示:其中A类型模板是指当数据库数据和模型需求数据完全匹配时,可直接推送数据库数据;B类型模板是指数据库数据与模型需求数据之间存在数据格式、坐标等不匹配时,需要调用数据转换算子库对数据进行预处理;C类型模板是当模型需要对属性数据进行一定处理时,需要调用数据操作算子;D类型模板则是指当数据专题不匹配,需求将空间数据与属性数据集成处理时,调用数据整合操作。

图4 不同情况下的数据操作模板

Fig.4 Different operation templates to different situations

4 数据流构建与数据自由推送

4.1 操作算子库构建

通过地理模型任务解析,生成对应于每个数据的操作算子,构建数据库数据到模型数据之间的衔接。考虑模型对数据的多类型需求,本文构建了如表2所示的算子库,主要包括3个部分:转换算子库、数据处理算子库和整合算子库。其中转换算子库又分为空间数据的转换和统计数据的转换;数据处理算子库主要有针对统计数据的四则运算和针对空间数据的数据剪切操作等;数据的整合算子主要实现空间数据和属性数据的融合。

4.2 数据操作流构建

根据上述模板匹配结果,确定数据库数据与模型数据之间的差异性,选定对应的操作模板,将操作算子嵌入到对应的模板中,实现数据操作流的构建。其实现过程为:通过模型与数据库的对比和匹配,得出数据库数据向模型输入数据之间的抽取、转换和操作等信息,以已经构建好的数据操作模板为引导,自动生成相应的数据流,最后通过用户手工选择,填写或修改相应的操作参数完成对数据流的构建。数据流的自动构建流程如图5所示。

表2 数据操作算子库

Table 2 The operator libraries

算子集算子说明空间数据转换算子集统计数据转换算子集数据处理算子集数据整合算子集DataTypeTrans()数据格式转换DataCoordTrans()数据坐标转换Vector2RasterTrans()数据类型转换…………DataTypeTrans()栅格存储格式之间转换CodeTrans编码转换…………DataCalc()主要实现栅格单元的四则运算DataCut()实现数据的剪切操作DataMerge()实现数据的合并操作AreaCalc实现面积和栅格数据分类计算…………DataConjection()数据叠加融合

图5 数据流的自动构建

Fig.5 Auto-construction of data flow

系统通过模型任务需求的时间和空间参数,结合模型数据需求中的数据编码参数,实现数据抽取在时间、空间和属性3个维度上的限定;数据的格式、地图投影、分辨率等信息则对应数据清洗操作中的数据格式转换、投影转换和重采样等操作;数据的处理操作由模型数据需求的基础操作信息提供,同时也可以通过用户手动选择相应的操作完成对数据处理的过程自定义;对于空间数据与统计数据整合的操作则需要按模型需求选定特定数据来完成。

4.3 基于数据流的地理数据推送方法

数据推送是将用户主动查询、获取信息改为系统主动发送信息。通过已经构建好的数据流引导,将数据库中对应数据抽取出来,交互给数据流,实现数据的转换,最后推送给地理模型实现模型应用。为实现自适应的数据推送,本文利用XML构建数据、操作、模型之间的统一接口,实现数据库数据到模型数据的自动转换。数据库与模型之间的XML信息用于判断当前流数据能否满足模型运算需求,数据与操作间的XML信息用于匹配适用的操作算子。

数据的推送过程如图6所示,该过程以模型的特定需求为触发器,若数据库中数据直接满足需要则直接完成推送,否则需要在多源地理数据库中获取基础数据,再对数据进行二次加工,将处理后数据再次与模型需求模板相匹配,达到模型应用需求则构建数据流操作,并推送处理后的数据,否则推送失败。与传统的基于模型的数据抽取方法不同,基于数据流的和模型需求模板的推送是以模型应用为目的,经过抽取与数据的二次加工,针对模型需求的数据转换,最后将其推送至模型应用。

图6 基于模板匹配的数据推送流程

Fig.6 Data pushing process based on template matching

5 案例

以江苏沿海大丰市为例,进行海岸带滩涂演变分析、土地利用结构变化分析和景观格局分析,并对上述方法的性能进行验证。

5.1 数据与模型说明

案例中使用的多源地理数据包括:2000年大丰市滩涂矢量数据;1995年、2000年、2005年大丰市土地利用分类解译数据、景观格局分类解译数据以及人口数据和面积数据。所使用的主要分析模型包括:1)大丰滩涂演变分析,通过对遥感数据的分类解译,得出滩涂结构多年的变化情况;2)大丰市土地利用人均占比分析;3)景观格局分析,利用分类好的景观栅格数据,统计各单元值,计算景观的各指数。

5.2 模型需求模板与操作流构建

利用模型的数据需求,构建模型需求模板,通过比对数据库中的多源数据,选取针对不同需求的操作模板,构建符合模型数据需求的操作流。下面详细分析各模型构建的操作流:1)大丰滩涂演变分析:为了获取大丰市滩涂范围数据,需要获取多年的遥感数据、大丰市滩涂范围的矢量数据,通过栅格数据的剪切操作获取滩涂数据。同时,为了保证数据的一致性,需要保证矢量和栅格数据都在同一个坐标系下。2)大丰市土地利用人均占比分析:人均土地利用需要获取多年的大丰市土地利用的遥感解译图和同时段大丰市人口数据,通过栅格单元统计和人口比值计算,得到土地利用的人均占比数据。3)景观格局分析:需要景观栅格的分类数据作为数据源,通过栅格单元统计得到分析模型数据。

5.3 数据推送与模型分析结果

利用模型需求模板匹配,从原始数据库里抽取滩涂矢量数据、遥感数据和属性数据,经模型数据操作流处理,得到图7a所示的3个不同年份的推送结果。进一步对其分析,设定模型运行参数(图7b),最终得到大丰景观格局分析结果(图7c)和土地利用格局分析结果(图7d)。

图7 推送数据及模型分析结果

Fig.7 Pushing data and the results of model analyzing

6 结论与展望

地理模型与地理数据的有效对接是实现快速、整合的地理分析的关键。基于模型需求的地理数据快速匹配与推送可有效降低地理模型耦合、集成共享的复杂度。本文基于常用的地理数据格式及其分类定义了多源地学数据的元数据描述,为模型需求匹配建立统一的接口;构建了基于任务需求和数据需求的模型模板生成方法,并将其与元数据描述相匹配,得到不同匹配程度下的操作模板;构建了数据操作算子集,并将其插入到操作模板中形成数据操作流,得到源数据到模型需求数据的转换,从而实现模型运行数据的自动推送。基于以上理论与思路,进行了原型系统的设计与构建,基于典型地理数据的案例分析表明:通过整合多源地理数据,构建基于模型需求的数据维度抽取和数据流的推送方法可以实现模型与数据之间的对接,进而实现模块化、结构化的模型分析操作流与应用;基于模型需求模板解析的自动推送,在方法和应用上都对大众化GIS的发展起到借鉴作用。

[1] 孙君曼,方华京.基于推技术的网络化监控报警系统[J].计算机工程,2008(4):269-271.

[2] FRANKLIN M,ZDONIK S."Data in your face":Push technology in perspective:ACM SIGMOD Record,1998[C].ACM.1998.

[3] BESSIS N.Model architecture for a user tailored data push service in data grids[A].Grid Technology for Maximizing Collaborative Decision Management and Support:Advancing Effective Virtual Organizations[C].2009.235-255.

[4] 梁昌勇,张怡远,张俊岭.基于Pushlet的RFID数据推送技术研究[J].计算机技术与发展,2009(10):85-88.

[5] 廖一兰,王劲峰,孟斌,等.人口统计数据空间化的一种方法[J].地理学报,2007(10):1110-1119.

[6] 诸云强,冯敏,宋佳,等.基于SOA的地球系统科学数据共享平台架构设计与实现[J].地球信息科学学报,2009(1):1-9.

[7] 李新,南卓铜,吴立宗,等.中国西部环境与生态科学数据中心:面向西部环境与生态科学的数据集成与共享[J].地球科学进展,2008(6):628-637.

[8] 亢孟军,王贝,杜清运,等.上下文敏感的空间信息服务智能推送研究[J].测绘科学,2011,36(3):155-157.

[9] 薛真真.基于服务器推送和事件流处理技术的实时 Web 系统研究[D].杭州:浙江大学,2008.

[10] 汪红兵,佘春东,范植华,等.基于JMS的数据推送系统的设计与实现[J].计算机应用,2005,25(Z1):366-368.

[11] SUN X,BYNA S,CHEN Y.Server-based data push architecture for multi-processor environments[J].Journal of Computer Science and Technology,2007,22(5):641-652.

[12] 王大力.数字化地图制图要素分类编码[J].地球信息科学,2008,10(6):736-740.

[13] 符海芳,牛振国,崔伟宏.多维农业地理信息分类和编码[J].地理与地理信息科学,2003,19(3):29-31,58.

[14] 王卷乐,游松财,谢传节.地学数据共享中的元数据标准结构分析与设计[J].地理与地理信息科学,2005,21(1):16-18,37.

[15] DUKE C,STEELE J.Geology and lithic procurement in Upper Palaeolithic Europe:A weights-of-evidence based GIS model of lithic resource potential[J].Journal of Archaeological Science,2010,37(4):813-824.

Study on Pushing Method for Multi-resource Geographic Data Based on the Matching of RTOM

ZHU Xiao-lin,ZOU Yu,YI Lin,YU Zhao-yuan

(Key Laboratory of VGE,Ministry of Education,Nanjing Normal University,Nanjing 210023,China)

The coupled integration of geographic analyzing models with multi-resource complex geographic data is complex.To reduce the complexity of the model computing and data manipulating in the model-data integration process,this paper constructs an automatic manipulating and pushing method for multi-resource geographic data based on the matching of requirement template of models(RTOM).The multi-resource geographic data are first uniformly described by the metadata.Based on the standpoints of data and mission requirements,the requirement templates of the models are generated.Then,the data manipulating template is obtained by matching XML-based metadata with the requirement templates of the models.In the data manipulating template,operator library is used as transforming tool to realize the transform from database data to model-requirement data and achieve automatic push of model computing data.Case studies based on the coastal beach database of Jiangsu Province are operated.The results suggest our method can effectively analyze model data and realize automatic data push by construction of data operation flow.Therefore,this research provides useful theoretic and methodological references for development of service-oriented GIS and integration of geographic models.

requirement template of models(RTOM);template matching;data manipulating template;data pushing

2014-09-24;

2014-11-29

国家科技支撑计划课题(2012BAC07B01);国土部海岸带开发与保护重点实验室开放基金项目(2013CZEPK08);江苏省高校自然科学基金项目(12KJD170003)

朱晓林(1989-),男,硕士研究生,主要研究领域为地理信息系统。*通讯作者E-mail:yuzhaoyuan@njnu.edu.cn

10.3969/j.issn.1672-0504.2016.01.005

P208

A

1672-0504(2016)01-0024-05

猜你喜欢
子类数据流算子
与由分数阶Laplace算子生成的热半群相关的微分变换算子的有界性
拟微分算子在Hp(ω)上的有界性
Heisenberg群上与Schrödinger算子相关的Riesz变换在Hardy空间上的有界性
卷入Hohlov算子的某解析双单叶函数子类的系数估计
汽车维修数据流基础(上)
各向异性次Laplace算子和拟p-次Laplace算子的Picone恒等式及其应用
汽车维修数据流基础(下)
Java类的继承
面向对象的多版本传感器观测服务模式匹配方法
基于数据流聚类的多目标跟踪算法