多源地理空间矢量数据关联模型设计

2020-08-03 12:46:30姜晶莉王云阁

测绘通报 2020年7期

郭黎，姜晶莉，李豪，王云阁

(1.信息工程大学，河南郑州 450001；2.航天工程大学士官学校，北京 102249)

随着数据获取技术的飞速发展，产生了大量不同来源的地理空间数据，这些数据之间相互联系，存在着隐含的关联关系[1]。对多源地理空间数据关联关系的研究是智慧城市建设的重要任务，也是支撑人工智能的基础，对于数据综合分析、知识发现、语义查询等方面也有重要意义[2-3]。然而，由于多源地理空间数据来源广泛，数据格式、尺度及表达方式多样，因此难以描述它们之间复杂的关联关系及相互影响，分散的资源无法统一为有机整体，难以对其有效管理和协同利用，导致信息资源的浪费及数据分享的困难，也使得用户无法直观得到多源数据间的关联关系，进而高效利用数据资源[4-5]。如何整合多源地理空间数据，描述它们之间的关联关系，进而反映空间对象全貌，为用户提供全方位的数据，提高信息资源的利用率，已成为地理信息领域的重要工作。

当前，国内外很多学者对多源地理空间数据关联模型的构建进行了研究。文献[6—9]针对不同的侧重点或研究目标，提出了相应的空间数据关联模型。总体看来，当前关联模型覆盖的数据类型较为广泛，但大多针对某一类关联关系进行研究，如只侧重于属性关联关系或只侧重于空间关联关系，少有涵盖多种关联关系的模型。

基于上述情况，本文以GIS的基础操作对象及地理信息的重要组成部分——地理空间矢量数据作为研究对象，着眼于建模方法的研究，首先定义多源地理空间矢量数据关联的概念及其分类，然后在此基础上设计多源地理空间矢量数据关联模型及其3个子模型。该模型的提出旨在定义多源地理空间矢量数据之间的关联关系，并给出各类关联关系之间的关联方法，为关联的构建奠定理论及技术基础，为实现多源地理空间信息的全面综合表达及面向用户的快速检索提供有利条件。

1 多源地理空间矢量数据关联概述

1.1 多源地理空间矢量数据关联概念

由于空间实体本身的不确定性，数据测量、采集及存储误差的存在，人类认知、表达的局限性及数据获取手段、所用比例尺、软件等的不同，使得不同时间在同一地区获取的地理空间数据存在差异，产生了多源地理空间数据[4]。多源地理空间数据的差异性主要表现在获取手段多源性、多语义性、多尺度性等方面。这种差异性的存在导致多源地理空间数据之间隐含的关联关系获取困难，各个数据源之间无法互联互通互操作，数据利用率低，造成了数据共享的困难，也引起了数据资源的浪费。本文对多源地理空间矢量数据关联进行研究。

多源地理空间数据关联的目的在于，将分散的资源集中起来，整合为有机整体，建立不同来源数据之间的联系，揭示多源地理空间知识关联的规律，实现资源信息的互联互通，为用户提供全方位的信息。以该目的为指导，本文将多源地理空间矢量数据关联定义为：将多源地理空间矢量数据以一定的原则和方法，实现逻辑或物理上的有机集中，在此基础上分析客观实体的空间位置、空间形态、语义、属性等特征，挖掘客观实体间的联系及相互影响，描述客观实体之间产生的关联、约束及作用关系，为数据共享提供深层次的技术支持。

1.2 多源地理空间矢量数据关联关系分类

地理空间数据包含大量的空间特征，可概括为空间关系特征、几何特征及语义特征3类[10]。以这3类空间特征为依据，将多源地理空间矢量数据关联关系分为3类：空间关联关系、映射关联关系及语义关联关系。其中，空间关联关系可进一步划分为拓扑关联关系、方向关联关系和距离关联关系。映射关联关系则可根据组成关系的对象是否为同一实体分类，分为同名实体关联关系和变更实体关联关系。其分类体系框架图如图1所示。

图1 多源地理空间矢量数据关联关系分类体系

(1)空间关联关系。多源地理空间矢量数据之间的空间关联关系是，同源或异源地理空间数据不同空间实体之间因形状、空间位置等几何特征而产生的关联关系。主要包括拓扑关联关系、方向关联关系及距离关联关系。其中，拓扑关联关系主要包括点、线、面3类地理要素间相离、相等、相交等关系[11]。方向关联关系通常可分为四方位(东、南、西、北)及八方位(东、东南、南、西南、西、西北、北、东北)关联关系[12]。距离关联关系有定性及定量两类，定性距离包括欧氏距离、Hausdorff距离等，是对两目标间距离关系的精确表达；定量距离则是对目标间的距离关系大致划分，如分为近、适中、远3等级等，在一定程度上可反映空间目标间的分布情况[13]。

(2)语义关联关系。语义关联关系是指地理空间数据与非空间数据在相同或相近的属性项及描述项上，对同一事物概念或特征的描述存在的相似性，利用这种描述表达上的相似性建立起的地理空间数据与非空间数据之间基于语义的关联关系。如深圳市导航地图“Name”属性项中的“仙湖植物园”，与深圳市景区基本信息统计数据“名称”描述项中的“仙湖植物园”表达的显然为同一地物，在两数据源该属性项或描述项之间即存在语义关联关系。

(3)映射关联关系。不同的地理空间数据因其采集时间、制图者习惯等不同，导致对同一地物的描述或反映在地图上的形状、位置、距离、大小等几何特征有所差别。时代的变迁及社会的发展可能引起同一空间位置的地理实体发生了变更。映射关联关系是对异源地理空间数据的同名地理实体或因时代变迁而发生变更的地理实体之间建立起的对应关系，可分为一对一、一对多、多对一及多对多映射关联关系。

2 多源地理空间矢量数据关联整体模型

本文用到的数据包括不同来源、类型的地理空间矢量数据及各种隐含空间信息的统计数据。统计数据即统计工作所获取的反映社会现象或国民经济及与之相关的其他资料的总称，如国家或省市统计年鉴、基础设施(如酒店、住宅区、学校等)情况、文化休闲设施(如图书馆、博物馆等)情况等。多源地理空间矢量数据与统计数据之间既存在着以空间特征为基础的关联关系，也存在着以语义特征为基础的关联关系。基于上述情况，本章以1.2节关联关系的分类为标准，将统计数据及多来源地理空间矢量数据作为研究对象，对多源地理空间矢量数据空间实体之间及矢量数据空间实体与统计数据描述性之间的关联关系进行研究，设计了多源地理空间矢量数据关联模型。为便于下文模型的描述，首先对相关概念进行介绍。

(1)空间实体节点：指地理空间矢量数据中存储有空间信息(空间位置、形态等)及各项属性值(如名称、编号等)的点实体、线实体或面实体构成的节点。

(2)空间编码节点：本文对多源地理空间矢量数据进行关联时，需对空间实体进行空间编码。空间编码节点即为存储有空间实体空间编码的节点。

(3)地名节点：指统计数据中存储有名称、地址、联系电话等属性的统计数据表格一行构成的节点。

以上述节点为基础，对多源地理空间矢量数据关联模型表示如图2所示。

图2 多源地理空间矢量数据关联模型

图2中，地理空间数据的空间实体节点用椭圆形节点表示，统计数据的地名节点用三角形节点表示，空间编码节点用正方形节点表示，不同颜色的实体代表来自不同的数据源。该模型以3类关联关系的构建为研究重点，包含下面3个子模型：

子模型1：基于空间编码的空间关联子模型，即空间实体节点之间基于空间编码的关联。该模型是用于同源或异源地理空间数据空间实体间空间关联关系的提取，首先给空间实体编码，在空间实体及其空间编码之间建立关联关系，而后利用空间编码之间内在的关联关系计算空间实体间的空间关联关系。

子模型2：基于几何特征的空间关联子模型，即空间实体节点之间基于几何相似性的关联。该模型是以几何匹配技术为核心，对异源地理空间数据空间实体之间进行相似性度量，从而得到同名实体或变更实体，进而建立异源地理空间数据间的映射关联关系。

子模型3：基于语义特征的空间关联子模型，即空间实体节点与统计数据地名实体节点之间的关联。该模型是对地理空间数据的属性项及空间化后的统计数据的描述性进行语义匹配，选取语义相似度高的地理空间实体及统计数据地名实体得到其语义关联关系，从而建立基于语义特征的关联。

3 多源地理空间矢量数据关联子模型

3.1 基于空间编码的空间关联子模型

该模型用于计算提取同源或异源地理空间数据空间实体间包含拓扑关联关系、距离关联关系及方向关联关系在内的空间关联关系。拓扑关联关系可反映实体间相等、包含、相交等关系，距离关联关系则表示实体间的远近关系，方向关联关系表示的是实体之间的相对位置。当前，在拓扑关联关系、距离关联关系及方向关联关系的描述计算方面有大量的研究，这些描述计算模型大多采用直接计算的方式，即利用空间实体的空间坐标进行矢量计算，这种直接计算的方式大都有计算过程复杂或效率低下的缺点。

基于上述情况，本文利用间接计算空间关联关系的方法，利用空间编码作为桥梁连接空间实体，只需给空间实体以空间编码，建立起空间实体与空间编码之间的关联，由于空间编码之间存在内在的关联关系，间接地在空间实体之间建立起关联。而空间编码的前提是空间区域网格的划分，这种方法将基于空间实体几何位置的计算转化为基于网格的计算，简化了计算步骤，也减少了计算次数。此外，利用空间编码的方法可支持3种空间关联关系的综合计算，且较为准确[14]。

基于空间编码的空间关联主要分为两大步：①选用合适的方法给空间实体以空间编码；②利用空间编码计算两实体的空间关联关系。针对矢量地图中空间实体分布不均、大小不一的情况，本文提出一种基于自适应四叉树的空间编码方法，以空间实体的MBR为基础，根据MBR的大小决定网格划分次数及其有效编码位数，这种自适应编码的方法可以用最少的编码值以最为简洁的方法准确地表达空间实体；而四叉树编码算法简单易实现，效率较高，故应用范围很广。对空间实体编码后，建立起空间实体与空间编码间的关联。后续利用编码内在的关联关系，计算实体所在网格之间的拓扑、距离及方向关联关系，进而建立地理空间数据间的空间关联。

该子模型利用空间编码计算同源或异源矢量数据空间实体之间的空间关联关系，如图3所示。其中，两矩形分别代表空间实体A、B，圆形和椭圆形分别代表空间实体的空间编码及属性，利用两实体空间编码的内在关联可以计算得到两实体之间的3类空间关联关系。

图3 基于空间编码的空间关联子模型

用空间编码的方法得到空间关联关系后，利用主题图Ontopia工具[15]按照上述模型进行展示，以点实体“品力律师事务所”及面实体“彩田公园”为例，如图4所示。可以看出，两实体之间的空间关联关系为“相离、远”“彩田公园”位于“品力律师事务所”的东北方向(或“品力律师事务所”位于“彩田公园”的西南方向)，此外，两实体的FID、空间编码、形状等属性也可从图中直观地读取。

图4 基于空间编码的空间关联示例

3.2 基于几何特征的空间关联子模型

由于多源地理空间矢量数据采集时间，数据获取方式，制图者的个人习惯不同，以及测量误差、制图误差等因素的存在，导致不同来源的空间数据存在语义多样性、尺度多样性、存储格式多源性等差异，使得现实中在不同地图上表达同一地物的同名实体或位于同一地理位置因社会变迁而发生变更的实体难以辨别。这些同名实体或变更实体之间的映射关联关系无法充分表达，多源地理空间矢量数据无法有效管理和利用，难以互联互通互操作，引起信息资源的浪费，不能协同解决各项问题。

在这种情况下，如何挖掘多源地理空间矢量数据之间同名实体或变更实体之间的映射关联关系，实现多源地理空间矢量数据实体之间的关联及数据的有机流动就显得尤为重要。为此，本文提出了基于几何特征的空间关联模型，用于提取多源地理空间数据空间实体之间的映射关联关系。该模型以几何匹配技术为核心，利用异源地理空间数据空间实体的几何特征，通过比较其几何相似度来判断是否匹配，从而得到映射关联关系[16]。

地图上的空间实体可分为点、线、面3类，根据其分类情况，几何匹配可以分为点匹配、线匹配及面匹配。其中，点实体匹配是3类实体匹配中最简单的，通常通过比较两实体之间的欧氏距离来判断是否匹配。线实体的匹配较点实体匹配要复杂一点，其匹配指标有线段或节点的距离、方向、拓扑关系、几何形状等。而面实体匹配是3类实体匹配中最为复杂的，其匹配指标有距离、周长、形状、面积、方向等。本文以3类实体的匹配为研究目标，根据实际情况分别选取不同的匹配指标，提出匹配算法，最终得到异源地理空间矢量数据空间实体间的映射关联关系。

基于几何特征的空间关联子模型如图5所示，矩形分别表示空间实体A、B，椭圆形表示空间实体的属性，其映射关联关系包括同名实体映射关联关系及变更实体映射关联关系。映射关联关系的提取则是通过几何匹配的方式。

图5 基于几何特征的空间关联子模型

用几何匹配的方法得到映射关联关系后，利用主题图Ontopia工具，按照上述模型进行展示，以线实体“清平高速”和“S209-清平高速公路”及面实体“华侨城旅游度假区”和“金海燕花园”为例，如图6所示。可以看出，“清平高速”和“S209-清平高速公路”之间为同名实体映射关联关系，“华侨城旅游度假区”和“金海燕花园”之间为变更实体映射关联关系。此外，图6中也直观表达了4个空间实体的属性信息。

图6 基于几何特征的空间关联示例

3.3 基于语义特征的空间关联子模型

空间数据与统计数据之间的语义关联关系可以通过该模型计算提取。统计数据并非只是文本、图片等非空间数据，其大部分都有空间特性，包含了大量空间因素，如地址、地名等。因此建立统计数据与地理空间数据之间的关联关系，不仅能赋予统计数据更多的空间特征及空间信息，也能补充空间数据的属性缺失，将二者整合为有机整体，对于获取更完善、完整的数据、提高数据的利用率有重要意义。关联后的数据可为用户提供全方位的资源，进而方便用户查找及综合利用各项信息，有利于提高利用统计数据进行综合分析与决策的能力。此外，对于地理空间数据的集成、共享和增值服务也有促进作用。

该子模型是利用空间数据的属性值与统计数据的描述项进行语义匹配，如地理空间数据的“Name”属性与统计数据的“地名”属性，并辅以地理位置相似的约束，从而得到二者之间的语义关联关系。

基于语义特征的空间关联子模型如图7所示。矩形代表空间数据的空间实体及统计数据的地名实体，椭圆形代表实体的属性，其语义关联关系的提取是通过属性的语义匹配及基于经纬度的位置相似度计算而得。

图7 基于语义特征的空间关联子模型

用语义匹配的方法得到语义关联关系后，利用主题图Ontopia工具按照上述模型进行展示，以来自深圳市OSM地图的空间实体“君逸酒店”与深圳市星级酒店统计数据的“深圳君逸酒店”为例，如图8所示，图中直观地反映了两实体之间的语义关联关系及其各自的属性值。

图8 基于语义特征的空间关联示例

4 结语

本文针对多源地理空间矢量数据之间的关联关系，首先定义了多源地理空间矢量数据关联的概念及分类方法，并在此基础上设计了多源地理空间矢量数据关联模型。该模型主要包括3个子模型：基于自适应四叉树编码的空间关联子模型、基于几何匹配的空间关联子模型及基于语义匹配的空间关联子模型。该模型给出了多源地理空间矢量数据及统计数据之间的关联方式，并设计了不同数据源之间的关联方法，为后续多源地理空间矢量数据关联关系的构建奠定了理论及技术基础，有利于揭示多源空间知识关联的规律，实现资源信息的互联互通，从而为用户提供全方位的信息，方便用户查找及利用数据信息，进而提高数据利用率及数据共享能力，对于海量数据挖掘及智能分析决策也有重要意义，同时也为智慧城市的建设及人工智能发展所要求的数据互联互通互操作打下基础。