李双银,王丽君,曹亚妮
(1.61243部队,甘肃兰州 730020;2.信息工程大学地理空间信息学院,河南郑州 450052;3.西安卫星测控中心,陕西西安 710043;4.地理信息工程国家重点实验室,陕西西安 710054)
空间数据的规范性、完整性和精确性决定了地理信息应用的广度和深度。空间数据的质量问题是一个关系到数据库可靠性和地理信息服务可信性的重要问题,与规划决策任务的成败密切相关。然而,从矢量地图数据的获取、生产到可视化表达,从矢量地图数据的处理、变换到应用,都不可避免地会出现数据质量问题,如数据形式不正确、几何结构被破坏、属性值缺失或错误、数据不完备、拓扑关系不正确等,这些质量问题都属于数据缺陷。
矢量地图数据缺陷是指矢量地图数据的质量缺陷,即不符合地图数据生产作业规范的数据质量问题。如图1、图2所示为常见的属性缺陷,图3所示为常见的空间关系缺陷。地图数据缺陷可能会造成地图数据的形式不够统一,或造成地理目标间的空间关系不能正确表达现实世界对应地理实体间的空间关系。因此,矢量地图数据缺陷给地图数据的统一管理、有效共享和综合应用带来极大的困难[1]。
矢量地图数据缺陷自动识别方法的研究已经成为空间数据生产、共享与融合、空间数据自动更新、空间数据质量评估与一致性检测等空间数据诸多有效应用的一个必然需求,具有十分重要的理论研究意义与实际应用价值。矢量地图数据缺陷的类型主要有两种:空间关系缺陷和属性缺陷,因此本文主要对这两类缺陷的识别方法进行分析。
图1 公路桥长的属性值与图上量算值之差超限Fig.1 The difference of attribute value between metrical value of highway bridge is overrun
图3 空间关系缺陷Fig.3 Spatial relationship defects
空间关系缺陷的自动识别方法主要有3种:基于空间关系计算的空间冲突检测方法;基于拓扑规则约束的空间冲突检测方法和基于规则发现的空间冲突检测方法。
基于空间关系计算的空间冲突检测方法的基本思路是:
1)建立空间冲突的判断规则;
2)对数据库中地理目标之间的空间关系进行计算和形式化表达;
3)将计算出的关系与规则匹配,判断是否为空间冲突;
4)对空间冲突进行确认。
其中,空间关系的细化计算和形式化表达是关键。集成描述的基本形式主要有两种,表格法和矩阵法[3-6]。集成描述的基本形式实质上是一个集成表达的框架,在此框架的基础上,将其他信息填入其中。表格法的优点是看起来相对直观,但不利于形式化表达和计算,即不利于计算机实现;而矩阵法恰恰相反,在计算机实现方面有一定优势。如表1所示为复杂空间关系集成描述的表格法[5],而式(1)所示为复杂空间关系集成描述的矩阵法[7]。
表1 复杂空间关系集成描述的表格法Tab.1 Table of complex spatial relation integrated description
图2 公路编号为空Fig.2 The number of highway is null
在空间关系集成表达的基础上,刘万增重点研究了线线之间的空间冲突检测方法,定义了一些规则,从语义匹配、空间关系匹配和行为匹配3个层次,依次将这些规则与先验规则进行匹配来判断是否发生了空间关系冲突[3,8];吴长彬以地籍对象为实例,以9交模型为基础,探索了一种适合复杂对象和时空对象的拓扑关系表达模型,较好地解决了地籍对象中各类要素间拓扑关系的描述和应用问题,实现了基于空间拓扑关系规则的地籍数据库质量检查[9-10];詹陈胜以线-线关系为例,建立了基于空间关系一致性的空间冲突检测模型,探讨了基于九交模型的线目标间拓扑关系的描述与计算,在此基础上对地图数据在多尺度表达时产生的空间冲突进行了检测实验[11]。
上述学者从空间关系细化描述与计算的角度对空间冲突检测方法进行了不同程度的研究,但还存在以下不足:空间冲突检测规则的定义不够完备,对空间冲突检测规则的管理、应用等方面考虑较少,检测方法的灵活性与通用性等方面还有待加强。
这种方法通过建立或定义目标之间的拓扑规则约束来检查目标之间的空间关系与它们的语义关系是否相矛盾。Kufoniyi、Cockroft、Dahmani、Ubeda、Servigne 等都对此类方法进行了研究[13-16]。ArcGIS软件中提供了部分针对特定类型的拓扑错误检测功能,通过创建和定义要素之间的拓扑规则、容差等来检测和标示拓扑错误[3,12]。这些研究仅对特定类型的拓扑冲突检测有效,缺乏系统性,难以满足矢量地图数据缺陷自动识别的实际应用需求。
在Oracle9i中,提供了11种基本空间拓扑关系查询的操作算子:DISJOINT(边界和内部均不相交),TOUCH(仅边界相交),EQUAL(相等),OVERLAPBYINTERSECT(边界和内部相交),CONTAINS(包含),COVERS(包含且边界相交),INSIDE(CONTAINS的逆),COVEREDBY(COVERS 的逆),ANYINTERACT(A,B两个实体有任意交集),OVERLAPBYDISJOINT(A实体的内部与B实体的内部和边界相交,但是它们的边界不相交),ON(A实体的内部和边界在B实体的边界上,并且B实体必须COVERS A实体)[17-18]。但是,这些算子无法计算和判断复杂的空间拓扑关系,更无法直接应用于实际生产。
Gadish[10-11]提出了基于规则发现的空间冲突检测方法,这是一种数理统计的方法。首先选择关系正确的图幅,采用4交模型计算目标间的拓扑关系,对计算结果进行统计分析,选择概率最大的关系作为目标间的关系规则,进而结合语义关系来检测面目标之间的拓扑关系冲突。任艳提出了一种空间拓扑规则发现机制,该机制通过分析空间对象及其与邻对象间的拓扑关系及语义信息得到拓扑规则,利用该拓扑规则来检测空间数据是否存在不一致[19-20]。另外,还有一些学者采用粗糙集的方法抽取地学现象内蕴含的主要空间关系规则,并将其用于地学问题的求解[21-23]。
但是,采用这种方法存在以下两个问题:一方面该方法首先需要根据先验知识进行所研究问题的可能性空间关系的选取,由此一定程度上受先验知识的限制,不同的人采用同样的方法可能会得出不同的实验结果;另外得到的规则取决于所选取的样本图幅,带有较多的不确定性因素,难以得到完备而确定的规则,在一定程度上可能会造成缺陷的漏检和误检。
目前的研究主要集中于空间关系缺陷的自动识别,而对属性缺陷自动识别的研究较少。属性缺陷的自动识别方法主要有两种:SQL查询法和匹配法。
本方法的基本思路是将需要检查的数据进行转换,然后采用SQL查询的方法来检索数据属性字段中不符合要求的数据[23]。这种方法需要对数据进行转换处理,不仅消耗大量时间,操作复杂,而且在转换过程中可能会引起数据质量的变化。另外,这种方法仅针对一些属性缺陷有效,如编码长度不合理、层码不合法、属性不唯一、属性空值等缺陷,而对其他属性缺陷无能为力,如桥长与输入值不符、属性编码与要素类型不符等属性之间逻辑错误。
匹配法首先定义标准的属性项,包括所有的属性项、属性项的定义;然后将标准的属性项定义与从数据中读出的属性项定义写成同一种数据格式,如文本数据格式;进而应用程序进行比较检查。如果读取的结果与标准不一致,则认为产生缺陷,将缺陷记录到数据库中[24]。这种方法比较适用于对属性项的值进行检查,而对非法字符、字段长度不合规定、属性之间的逻辑错误等属性缺陷的识别不太适合,应用范围比较有限。
通过对研究现状的分析,可以看出国内外学者对矢量地图数据缺陷自动识别问题进行了一些积极的探索。但是,目前在该领域仍然存在许多突出的问题没有得到有效解决,主要集中在以下几个方面:
1)复杂空间关系集成表达方法在通用性、实用性等方面还有所欠缺,模型性能评价方面缺少明确的衡量指标。
在矢量地图数据中,大多数地理目标之间的关系都属于复杂空间关系,因此,空间关系缺陷的自动识别需要对复杂空间关系的细化描述与集成表达进行研究,但目前还存在以下问题:
①成熟的空间关系描述模型,4交模型、9交模型等无法对复杂空间关系进行区分和描述。
②目前提出的复杂空间关系集成表达模型还不够成熟,如集成表达模型描述的空间关系不够直观,不利于空间关系的比较和判断;一些交分量的分解粒度太小,较为复杂[27],不利于理解、记忆与使用;依据描述方法或模型,较难复原空间拓扑关系图,而空间拓扑关系的场景复原在实际应用中具有重要意义。
③对集成描述方法的优劣性缺乏评判指标;模型的通用性较差,一些模型仅适合于一些特定的领域。
2)矢量地图数据缺陷自动识别规则的研究较少,尤其是规则的表现形式、测试条件、如何管理、如何应用等方面还缺乏系统的理论研究。
对矢量地图数据缺陷自动识别来说,一种理想的方案是:建立统一的缺陷自动识别规则库,据此开发专门的数据检查系统,完成数据的自动检查[25],但对于如何建立空间拓扑关系规则库缺乏更深入的研究。
规则是矢量地图数据缺陷自动识别最可靠的基础[26],虽然当前有学者对自动识别规则进行了研究,但并未构建完善的规则库,更未见规则库管理、应用等方面的系统研究。另外,对缺陷识别规则的关键环节认识不够清楚。本文认为缺陷识别规则的建立有两个关键问题,即规则的表现形式和测试条件。就目前研究来说,规则的表现形式方面,对缺陷信息的描述不够全面,如在当前测试条件下缺陷识别结果的可靠性、产生缺陷的地理实体目标、缺陷的等级等信息在规则中缺乏描述;而规则的测试条件方面,存在测试条件不清楚、不完备的情况。
3)矢量地图数据缺陷识别方法的研究不够全面和实用,灵活性和自适应性有待增强,缺少较为成体系的方法论对其进行指导。
目前,在空间冲突检测方面,普遍对拓扑-语义缺陷自动识别的研究较为重视,而对其他缺陷识别方法的研究不够。如属性缺陷识别的具体实现方法虽然简单,但是属性缺陷识别对地图数据质量的意义非常重大,而且在质量检查时非常琐碎,缺少较为成体系的方法论对其进行指导。另外,由于矢量地图数据的质量缺陷与所采用的编码、规范、数据结构、采集标准、具体要求等多种因素关系密切,且面向不同的生产与保障任务,这就导致现有的数据缺陷检查与识别算法通用性较差,灵活性和自适应性有待增强。
因此,针对上述存在问题,矢量地图数据缺陷自动识别方法进一步研究方向应当重点从空间关系的集成表达模型;矢量地图数据缺陷自动识别规则以及任务自适应的缺陷自动识别方法3个问题入手。
[1]曹亚妮.矢量地图数据缺陷自动识别的理论与方法研究[D].郑州:中国人民解放军信息工程大学,2014.
[2]翟仁健.基于全局一致性评价的多尺度矢量空间数据匹配方法研究[D].郑州:中国人民解放军信息工程大学,2011.
[3]刘万增.GIS数据库更新中空间冲突自动检测方法[M].北京:测绘出版社,2009.
[4]邓敏,李志林,祁华斌.GIS线目标间空间关系的集成表达方法[J].测绘学报,2007,36(4):421 -427.
[5]邓敏,徐锐,李光强,赵伟.GIS面目标间空间关系的集成表达方法[J].计算机工程与应用,2009,49(2):39 -43.
[6]林艳,刘万增,韩刚.一种单线与多面要素间的拓扑关系描述方法[J].测绘科学,2013,38(2):128 -131.
[7]刘万增,陈军,邓喀中,等.线线空间关系描述的拓扑链模型[J].中国矿业大学学报,2010,39(1):75 -79.
[8]刘万增,赵仁亮.水系要素更新中空间冲突的自动检测研究[C]//中国GIS年会第八届年会论文集.北京:中国地理信息系统协会,2004:145-152.
[9]吴长彬,闾国年.线面拓扑和度量关系的细分描述和计算方法[J].计算机辅助设计与图形学学报,2009,21(11):1551 -1557.[10]GADISH D A.Inconsistency Detection and Adjustment of Spatial Data using Rule Discovery[D].Canada:University of Guelph,2001.
[11]吴长彬.地籍对象的拓扑关系表达与计算方法研究[D].南京:南京师范大学,2009.
[12]詹陈胜.多尺度数据库中空间冲突自动检测方法研究——以线要素为例[D].郑州:中国人民解放军信息工程大学,2012.
[13]SERVIGNE S,UBEDA T,PURICELLI A,et al.A methodology for spatial consistency improvement of geographic database[J].Geoinformatica,2000(1):7 -34.
[14]KUFONIYIO.Spatial coincidence modeling,automated database updating and data consistency in vector GIS[D].Holland:International Institute for Aerospace Survey and Earth Science,1995.
[15]DAHMANI H K.Updating in GIS:towards a more generic approach[C]//Proceedings of the 20thInternational Cartographic Conference.Beijing,China,2001:1463 -1471.
[16]UBEDA T,EGENHOFER M J.Topological error correcting in GIS
[C].In:M.Scholl and A.Proceedings of advances in Spatial Databases SSD'97.Berlin,Germany,Springer,1997:283 -297.
[17]王礼江,岳国森,程卫兴.基于Oracle Spatial的空间线线拓扑关系判断的实现[J].测绘学报,2006,35(1):77 -82.
[18]乔柱,岳国森.基于Oracle Spatial的空间线/面拓扑关系判断的实现[J].测绘与空间地理信息,2008,31(1):130 -134.
[19]任艳.空间拓扑一致性维护研究[D].武汉:华中师范大学,2007.
[20]任艳,易宝林,陈佳丽.基于规则的空间一致性维护[J].计算机工程,2007,33(19):93 -95.
[21]BEAUBOUEF T,PETRYE F,LADNER R.Spatial Data Methods and Vague Regions:A Rough Set Approach[J].Applied Soft Computing,2007,7(1):425 -440.
[22]BITTNER T,STELL G J.Rough Sets in Approximate Spatial Reasoning[J].Heidelberg,SpringerBerlin,2001:445 -453.
[23]曹峰,杜云艳,葛咏,等.基于粗糙集的地学空间关系规则抽取和应用[J].地球信息科学学报,2009,11(2):139 -144.
[24]袁淑芳.城市基础地理信息系统中矢量数据质量控制[D].成都:西南交通大学,2006.
[25]曾衍伟.空间数据质量控制与评价技术体系研究[D].武汉:武汉大学,2004.
[26]吴长彬.地籍对象的拓扑关系表达与计算方法研究[D].南京:南京师范大学,2009.
[27]周晓光,陈军,蒋捷,等.地籍地块间的空间拓扑关系[J].测绘学报,2003,32(4):356 -361.
[28]陈斐.细分拓扑计算及其在更新中的应用[D].长沙:中南大学,2012.