吴芳华,曹亚妮,吉国杰,3
1.西安测绘研究所,陕西 西安,710054;2.地理信息工程国家重点实验室,陕西 西安,710054;3.信息工程大学地理空间信息学院,河南 郑州,450052
地图数据缺陷识别规则表达模型
吴芳华1,2,曹亚妮2,3,吉国杰1,2,3
1.西安测绘研究所,陕西 西安,710054;2.地理信息工程国家重点实验室,陕西 西安,710054;3.信息工程大学地理空间信息学院,河南 郑州,450052
地图数据缺陷识别规则是缺陷自动识别的基础,影响着缺陷自动识别的查全率和查准率。本文对地图数据缺陷自动识别规则进行了系统的研究,论述了地图数据缺陷识别规则建立的依据;以空间关系冲突检测规则为例,分析了现有缺陷自动识别规则研究中存在的不足;研究了地图数据缺陷识别规则的表达形式和测试条件,提出了地图数据缺陷自动识别规则表达的五元组模型,并论述了该模型的特点;基于五元组模型建立了水系与等高线要素的空间关系缺陷识别规则。
矢量地图数据;缺陷自动识别;识别规则;五元组模型
信息科学技术的飞速发展与广泛应用带动了全社会对地理信息的需求,地理信息成为国家或全球信息流中的重要组成部分,并逐渐发展成为当今社会最基本的信息服务之一。地图数据是地理信息系统的血液,是地理信息系统运行和应用的基础。地图数据的规范性、完整性和精确性决定了地理信息应用的广度和深度。地图数据的质量问题是一个关系到数据库可靠性和地理信息服务可信性的重要问题[1],与规划决策任务的成败密切相关。在地图数据采集、空间数据更新的过程中,由于种种原因,会造成数据中空间目标的几何结构破坏、属性项和属性值缺失或错误、要素关系发生改变、数据形式不正确等,从而破坏了空间数据的完整性或违反了生产作业规范的约束,导致地图数据对现实世界空间实体及其间关系的表达错误,产生了数据冲突或数据缺陷。对这些缺陷进行检测与处理,才能保证地理空间信息的质量。
近十多年来,学术界对地理信息产品质量控制与评估的理论和方法进行了大量的研究,取得了丰硕的成果[2-9]。对地理信息产品质量元素、缺陷分类、缺陷自动识别方法、质量评估模型、空间关系描述、空间关系冲突检测等进行研究建模,解决生产与工程实践中的数据质量控制问题,已成为当前的一个重要发展趋势。
矢量地图数据主要由几何数据、属性数据、拓扑数据、描述数据和元数据组成。矢量地图数据缺陷识别规则实际上是一种集语义关系、拓扑关系、方向关系和度量关系于一体的空间和语义约束,是制图规范和细则的形式化描述,是矢量地图数据缺陷自动识别的基础,直接影响缺陷自动识别的查全率和查准率。本文论述了地图数据缺陷识别规则的建立依据,分析了现有地图数据缺陷自动识别规则研究中存在的不足,研究了地图数据缺陷识别规则的表达形式和测试条件,提出了地图数据缺陷自动识别规则表达的五元组模型,并对其特点进行了分析;以等高线与水系缺陷自动识别规则建立为例,提出了基于五元组模型的等高线与水系缺陷自动识别的8条规则。
规则的获取是一个与领域专家、知识系统建造者以及知识系统自身都密切相关的复杂问题,是建造规则系统中的关键问题。规则获取的基本任务是从生产作业规范、制图专家经验等中获取规则,以建立起健全、完善、有效的规则库。对于矢量地图数据缺陷自动识别来说,其规则的来源有以下几个:
(1)生产作业规范。为了使地图数据的生产、编辑和转换等有章可循、有据可依,从而便于数据的统一生成、管理、共享、更新和应用,制图人员对地图数据的采集、编辑、转换和出版过程中的技术要求作出具体的规定,制定出生产作业标准或规范,如《1∶25000、1∶50000、1∶100000地形图图式》、《1∶50000数字地形图编辑出版作业细则》、《数字地图产品检查验收要求》等。生产作业规范是衡量地图数据质量的重要依据,依据生产作业细则,通过对相应规定的抽象、提取和转换,能够得到可用的自动识别规则。
(2)制图专家的经验。在长期的生产作业过程中,形成了专家经验。在某些情况下,由于无法直接感知现实世界的空间关系,而生产作业细则也很难将生产中遇到的所有状况全部列举,一些复杂情况可能会缺乏一个明确、量化的标准,此时就需要依据专家经验对其进行判断。例如,在小比例尺地形图中,一些等级低的桥梁和涵洞一般不表示,如果发现乡村路和河流互相缠绕,很难确定是否合理。此时,就需要制图人员依据道路和河流的等级、交点距离、相交区域面积以及研究对象所属地域的气候、地形、水文等特征进行综合判断[9]。生产作业一线的专家,具有丰富的实践经验和大量知识,对缺陷识别规则的制定具有重要意义。
(3)客观现实世界。无论是制图规范的制定,还是专家依据经验对地理要素之间的空间关系进行判断,符合现实世界中的客观存在是其基本原则,因为地图数据库中目标间的空间关系是对现实世界地理要素关系的映射[10],其根本目的是如何更好、更准确地表达现实世界。
(4)教材书籍。与地图制图学和地理信息系统相关的教科书、研究论文等也是缺陷自动识别规则的一个主要来源。由于认识事物的角度和观念不同,仅通过作业细则和专家经验很难获取到完备、严密的规则。教科书的系统性、科学性能够为作业细则的制定提供很多参考;研究论文其实也是专家经验的一种梳理、总结和提炼,通过研究论文也可获取规则制定的大量有用信息。
(5)逻辑推理。数据库中的一些属性信息相互之间、或与相应地理要素的几何信息之间存在一定的关联性,通过这种关联性可以建立一定的规则来辅助缺陷自动识别。如属性项中的目标类型与参数值域存在关联、图形特征码与图形类型存在关联、道路的属性长度与其量测长度存在关联、相邻等高线之间的高程值遵循一定的规律等。
(6)基于案例的统计分析。有学者通过对关系正确的图幅中空间关系的统计和分析,确定目标间合理的空间关系类型[11]。此种方法存在一定的不确定性,对规则的严密性会造成一定的影响。
(7)知识系统自身的运行实践。规则的另一个来源是系统的运行实践。其需要从实践中学习、总结出新的知识和规则。一个知识系统刚建立时很难完美无缺,只有运行后才会发现规则不够健全,需要补充。此时,除了通过上述方法进行补充完善规则外,还可以根据系统的运行经验从已有的规则、实例或数据中演绎、归纳出新规则。
上述方法只是获取缺陷识别的相关知识,这些知识是零乱的、琐碎的,应对其进行系统地整理、总结,形成清晰的理论体系。此外,还应采取适当的形式将其抽象、转换为计算机可以识别的形式化语言,形成规则,才能进行应用,这就需要对规则的表示方法进行研究。一种好的规则表示方法应当有较强的表达能力和足够的精细程度,可用性要强,可以从以下三个方面考虑[12-15]:
(1)表示能力:要求能够正确、有效地将问题求解所需的各类知识都表示出来。
(2)可理解力:所表示的知识应易懂、易读、易于表示。
(3)通用性:即表示方式要自然,尽量适用于不同的环境和不同的用途,易于检查、修改和维护。
3.1 五元组模型的提出
目前在人工智能领域,规则的表示方法主要有以下几种[12]:经典逻辑表示法、产生式表示法、层次结构表示法、网络结构表示法和其他表示方法。其中,产生式表示法是人工智能中应用最广泛的一种知识表示形式,它具有以下特点:
(1)以规则作为形式单元,格式固定、易于表示,且知识单元相互独立,易于建立规则库。
(2)推理方式单纯,适于模拟强数据驱动特点的智能行为。当一些新的数据输入时,系统的行为就会发生改变。
(3)便于规则库的修改,可增加新的规则去适应新的情况,而不会破坏系统的其他部分。
(4)易于对系统的推理路径作出解释。
从文献查询和分析看[9,10,11,12,16],在空间冲突检测领域,绝大多数学者也采用产生式来表示空间关系冲突检测规则,主要有四元组、三元组以及扩展四元组三种。三元组模型用(E,C,A)来定义,其中E表示触发事件,C为测试条件,A为满足测试条件时所发生的行为。判断过程可表示为:when E if C then A。SERVIGNE[16]等提出采用四元组(O1,R,O2,S)来定义规则,其中O1表示第一类目标,O2表示第二类目标,R表示两类目标之间的关系,S为定义说明。四元组和三元组模型在本质上是一样的。考虑到四元组和三元组方法只涵盖了目标之间的拓扑关系,没有涵盖目标之间的方向和度量关系,因此,刘万增等采用扩展四元组(O1,(RT,RD,RM),O2,S)来定义规则,其中O1,O2为触发事件,RT,RD,RM分别为拓扑关系、方向关系和度量关系测试条件,S为满足条件时发生的行为[9]。
实际上,规则的建立有两个关键环节:规则的表达形式和规则的测试条件。前者决定了规则的可用性,后者决定了规则的可靠性。规则的测试条件方面,目前的方法主要有三种:必须关系规则、禁止关系规则、混合关系规则。KUFONIYI[17]认为目标之间应当保持一种合理的空间关系,由此建立了基于目标间合理拓扑关系的规则(必须关系规则),并将目标空间语义约束转化为目标间应维护的拓扑关系集合。SERVIGNE[16]等认为目标间的空间冲突是一种禁止的拓扑关系(禁止关系规则),其采用9交模型定义了目标间禁止的拓扑关系约束。刘万增等采用真关系集合和伪关系集合对数据库中的空间冲突规则进行定义,本质上是将必须规则和禁止规则结合起来应用[9]。
但以上空间关系冲突检测规则表示方法还存在以下不足:
(1)规则的定义缺乏层次性,大大影响了空间关系缺陷识别的速度和效率。为了提高缺陷识别的速度和效率,本文认为可以从不同层次上对规则进行定义,如按照缺陷粗查、缺陷细查、缺陷确认三个层次来定义识别规则。
(2)规则的定义没有考虑缺陷的等级,即没有考虑该缺陷对地图数据质量的影响程度,不利于地图数据质量的评估。
(3)规则中缺乏对规则本身不确定性的描述。即对利用该规则检测出的缺陷,其可靠性缺乏描述。
因此,本文提出采用以下五元组形式来定义矢量地图数据缺陷识别规则:
(O1,(RT,RD,RM),O2,(L,(j,k,I)),P):when O1,O2if(RT,RD,RM) then P(L,(j,k,I))。
其具体含义如下:
(1)O1,O2为触发事件,从属于相应的属性集。
(2)对于空间关系缺陷识别来说,(RT,RD,RM)分别为拓扑关系、方向关系和度量关系测试条件;对于其他缺陷识别来说,(RT,RD,RM)表示相应的测试条件,可能为一项,也可能为多项。
(3)(L,(j,k,I))为满足条件时发生的行为,L表示缺陷等级,(j,k,I)表示具体的缺陷信息,即j号目标与k号目标之间产生了I缺陷。
(4)P表示发生该行为的几率,即规则的可靠性。
其判断过程为:当目标分别属于集合O1、O2时,若满足判断条件(RT,RD,RM),那么j号目标与k号目标之间有P的几率出现等级为L的缺陷I,P和L为经验值。L的取值为(1,2,3,4,5),1级为严重缺陷,2级为重要缺陷,3级为一般缺陷,4级为次要缺陷,5级为其它缺陷。考虑到矢量地图数据缺陷识别的主要任务是查错,在大量正确的关系中检测不合理的关系,即错误的是少数、正确的占绝大多数,因此,本文采用禁止关系规则作为测试条件。
3.2 五元组模型的特点
本文提出的五元组模型具有以下特点:
(1)增加了对规则可靠性的描述,便于作业员对地图数据进行有针对性的人工交互检查,也便于缺陷识别软件对缺陷进行进一步的确认与核实,有利于提高缺陷识别结果的精度。
(2)增加了对缺陷等级的描述,便于地图数据质量的评估。
(3)在地图数据缺陷信息的描述方面,不仅说明了缺陷的类型,而且标示了产生错误的两个地理实体的编号,便于缺陷的查找、确认与修改。
(4)定义的规则具有一定的层次性,可满足不同层次的质量需求。例如,在识别时间优先的情况下,可以采用可靠性较低的规则进行缺陷粗判,避免了大量的求交运算,缺陷识别的效率较高;而在识别准确度优先的情况下,则可以采用可靠性较高的规则进行精确识别和缺陷确认,缺陷识别的准确性较高。
(5)在定义规则时考虑到了阈值对缺陷识别的影响,能提高缺陷识别的准确性。
以等高线与水系之间的空间关系缺陷识别规则建立为例进行分析。
4.1 等高线与水系之间的空间关系缺陷分析
等高线与水系(河流、湖泊、水库、时令河等)的关系应当遵从“水往低处流”的自然规律,地貌的变化常常会改变周围水系的分布,水系的变化也会对地貌产生反作用。等高线用来表示地貌特征,在空间数据库中与水系要素的关系同样要遵从一定的自然规律。具体情况如图1所示,图1(1)中等高线近似垂直地穿越双线河,为正确的空间关系;图1(2)中等高线小角度穿越双线河,表示此处河流水面倾斜,为空间关系缺陷;图1(3)中等高线与河流小面积相交,很可能是作业员失误或者河流更新导致的错误,属于空间关系缺陷;图1(4)中等高线与面状水域的边线发生了重叠,违背了“水往低处流”的自然规律,属于空间关系缺陷;图1(5)中等高线与线状河流在小范围内多次相交,同样也属于空间关系缺陷。
因此,只要等高线与面状水域边线或线状河流有重叠,即出现1维相切或1维相交关系,则一定有缺陷产生;当等高线与面状水域边线或线状河流之间出现0维相交关系时,则有一定机率产生缺陷,需要进一步判断:可以通过判断等高线与河流骨架线的夹角是否接近90°,或判断等高线与河流边线或线状河流相交形成的区域的图上面积是否小于规定阈值等方法进一步确认,在进一步确认的过程中结果的可靠性也在不断提升。
图1 等高线与水系之间的空间关系
4.2 等高线落水识别规则的建立
为建立规则,本文定义了以下几个参数:
(1)线分割面的面积(AOD):线与面相交时,线分割面的面积;
(2)线分割面的面积比(RDA):线与面相交时,线分割面的面积比;
(3)线与面相交的角度(AOC):线与面相交时,线与面边界相交的两个交点连线,与面的中心线的夹角;
(4) 将0维相交(0,C)记为C0,1维相交(1,C)记为C1,0维相接(0,M)记为M0,1维相接(1,M)记为M1,0维相切(0,T)记为T0,1维相切(1,T)记为T1。
等高线落水识别规则有以下8条:
规则1:若等高线与面状水域之间的拓扑关系出现1维相交或1维相切,则会产生j号等高线落k号水域面的缺陷,缺陷等级为4。形式化表示为:
(O1,(((C1>0)∨(T1>0)),-,-),O2,(4,j号等高线落k号水域面),1)
规则2:若等高线与面状水域之间的拓扑关系出现0维相交,则有50%的几率出现j号等高线落k号水域面的缺陷,缺陷等级为4。形式化表示为:
(O1,((C0>0),-,-),O2,(4,j号等高线落k号水域面),0.5)
规则 3:若等高线与面状水域之间的拓扑关系出现0维相交,且AOC<=70,则有80%的几率出现j号等高线落k号水域面的缺陷,缺陷等级为4。形式化表示为:
(O1,((C0>0),-,(AOC<=70)),O2,(4,j号等高线落k号水域面),0.8)
规则 4:若等高线与面状水域之间的拓扑关系出现0维相交、AOC<=70,且AOD<25,则有90%的几率出现j号等高线落k号水域面的缺陷,缺陷等级为4。形式化表示为:
(O1,((C0>0),-,((AOC<=70)∧(AOD<25))),O2,(4,j号等高线落k号水域面),0.9)
规则5:若等高线与线状河之间的拓扑关系出现1维相交、1维相切或0维相切,则一定出现j号等高线与k号河流的高曲矛盾,缺陷等级为4。形式化表示为:
(O1,(((C1>0)∨(T1>0)∨(T0>0)),-,-),O2,(4,j,k,高曲矛盾),1)
规则6:若等高线与线状河之间的拓扑关系出现0维相交,则有50%的几率出现j号等高线与k号河流的高曲矛盾,缺陷等级为4。形式化表示为:
(O1,((C0>0),-,(AOC<=70)),O2,(4,j,k,高曲矛盾),0.5)
规则 7:若等高线与线状河之间的拓扑关系出现0维相交,且AOC<=70,则有80%的几率出现j号等高线与k号河流的高曲矛盾,缺陷等级为4。形式化表示为:
(O1,((C0>0),-,(AOC<=70)),O2,(4,j,k,高曲矛盾),0.8)
规则 8:若等高线与线状河之间的拓扑关系出现0维相交、AOC<=70且AOD<25,则有90%的几率出现j号等高线与k号河流的高曲矛盾,缺陷等级为4。形式化表示为:
(O1,((C0>0),-,((AOC<=70)∧(AOD<25))),O2,(4,j,k,高曲矛盾),0.9)
本文分析了当前空间关系缺陷识别规则中存在的问题,提出了用于描述缺陷自动识别规则的五元组模型,模型考虑了阈值对缺陷识别的影响,增加了对规则可靠性、缺陷等级、数据缺陷信息的描述,有利于缺陷识别效率、精度和软件可用性的提高。基于五元组模型建立了详实的等高线和河流关系缺陷自动识别规则。数据缺陷识别规则的建立非常琐碎,缺少较为成体系的方法论对其进行指导,而规则的建立直接影响着缺陷识别的查全率和查准率,便于作业员对地图数据进行有针对性的人工交互检查,也便于缺陷识别软件对缺陷进行确认与核实。对于矢量地图数据缺陷识别,可以依据实际应用需求建立非常丰富的规则库,规则建立方法的提炼有助于规则的形成和不断完善。同时,矢量地图数据缺陷识别规则的建立是一件非常灵活的事情,自由度越高,做需要发挥主观能动性的事情越不易。规则建立方法的研究就是为了给规则的建立提供一定的思路和途径,使规则的建立有章可循、有据可依,因此,还需要在实际应用中提炼更多的规则建立方法。另外,规则测试条件是一种综合了多种因素的约束,对于缺陷识别的自动化程度、效率和正确率具有决定性的作用。如何使规则既能满足生产作业规范要求,又能做到简洁、有效、便于计算机实现,是今后需要重点研究的问题。
[1]华一新,吴升,赵军喜.地理信息系统原理与技术[M].北京:解放军出版社,2001.
[2]曾衍伟.空间数据质量控制与评价技术体系研究[D]. 武汉:武汉大学,2004.
[3]吴长彬,闾国年,舒飞跃.基于知识与规则的地籍数据质量检查方法[J].地理与地理信息科学,2007,9(5):22-24.
[4]杨华.基于知识与规则的地籍数据质量检查系统的研究[D].南京:南京师范大学,2007.
[5]詹陈胜,武芳,翟仁健等.基于拓扑一致性的线目标空间冲突检测方法[J].测绘科学技术学报,2011,28(5):387-390.
[6]吴芳华,曹亚妮,吉国杰.数字地图质量批量检查功能的设计与实现[J].测绘科学与工程,2013(1):57-60.
[7]吴芳华,周洪斌,吴娟.数字地图要素几何关系的自动检查[J].测绘科学与工程,2011(4):1-5.
[8]吴芳华,吉国杰,曹亚妮. 矢量地图数据缺陷识别方法研究[J].测绘科学技术学报,2014,31(3):294-299.
[9]刘万增.GIS数据库更新中空间冲突自动检测方法[M]. 北京:测绘出版社,2009.
[10]SERVIGNES,UBEDAT,PURICELLIA,etal.Amethodologyforspatialconsistencyimprovementofgeographicdatabase[J].Geoinformatica, 2000 (1): 7-34.
[11]GADISHDA.InconsistencyDetectionandAdjustmentofSpatialDatausingRuleDiscovery[D].Canana:UniversityofGuelph: 2001.
[12]周晓光,陈军,蒋捷等.地籍地块间的空间拓扑关系[J].测绘学报,2003,32(4):356-361.
[13]张攀,王波.专家系统中多种知识表示方法的集成应用[J].微型电脑应用,2004,20(6):4-5.
[14]徐宝祥,叶培华.知识表示的方法研究[J].情报科学,2007,25(5):690-694.
[15]鲍军鹏,张选平.人工智能导论[M]. 北京:机械工业出版社,2010.
[16]SERVIGNES,UBEDAT,PURICELLIA,etal.Amethodologyforspatialconsistencyimprovementofgeographicdatabase[J].Geoinformatica, 2000 (1): 7-34.
[17]KUFONIYIO.Spatialcoincidencemodeling,automateddatabaseupdatinganddataconsistencyinvectorGIS[D].InternationalInstituteforAerospaceSurveyandEarthScience, 1995.
Representation Model of Map Data Defect Identification Rules
Wu Fanghua1,2,Cao Yani2,3,Ji Guojie1,2,3
1. Xi’an Research Institute of Surveying and Mapping, Xi’an 710054, China 2. State Key Laboratory of Geo-information Engineering, Xi’an 710054, China 3. Institute of Geospatial Information, Information Engineering University, Zhengzhou 450052, China
The defect identification rule of map data is the basis of automatic defect identification which affects the recall ratio and precision ratio of automatic defect identification. First this paper systematically studies the automatic identification rules of map data and states the basis of the rules construction. Then the paper analyzes the existing defect of automatic defect identification rules by taking the conflict checking rule of spatial relation as an example. Besides, the paper studies the presentation model and test conditions of rules, proposes quintuple model for automatic defect identification and describes the model characteristics. Finally it constructs the spatial relationship defects identification rules of water system and contour lines based on the quintuple model.
vector map data;automatic defect identification;identification rule;quintuple model
2015-05-08。
青年科学基金资助项目(41101445)。
吴芳华(1965—),女,研究员,主要从事GIS及地理空间信息质量控制与评估研究。
P208
B