李诺夫
(广东省测绘产品质量监督检验中心,广东广州510075)
GIS数据质量控制方法探讨
李诺夫
(广东省测绘产品质量监督检验中心,广东广州510075)
从GIS数据质量要素构成出发,研究GIS数据质量控制方法,提出几种数据质量的检验方法,包括图形质量检查、属性数据质量检查和拓扑检查等。通过研究GIS数据质量控制的方法,利用当今先进的计算机技术,可大大提高数据成果的质量和质量检查的效率。
GIS;数据检查;数据质量
在GIS中,数据是作为GIS的血液而存在的,数据的规范、完整和正确是GIS能够可靠应用的前提,是实现GIS高级功能的基础。GIS数据质量的好坏能直接影响到空间数据库所带来的经济效益和社会效益,影响到所有基于该空间数据库的应用、分析、决策的正确性和可靠性。但是,在对数据进行数字化的过程中由于人为的或者非人为的原因,生产出来的数据总会与源数据产生偏差,并且数据加工的过程中由于误差传播会进一步地扩大误差。因此,对数据质量进行控制就显得尤为重要。
当前,在GIS数据数字化过程中,数据的规范性、正确性、完备性等完全依赖于制图人员和质量检查人员,空间数据采集的高效率与相对落后的数据质量检查手段形成了较大反差,图形属性一体化的GIS数据成果质量已不是人工检查所能完全胜任的,空间数据质量控制成为制约地理信息产业发展的瓶颈。因此,研究GIS数据质量控制的方法,充分利用当今先进的计算机技术,提高数据成果的质量和质量检查的效率就显得十分必要。
1.GIS数据质量的定义
GIS数据质量是指GIS数据适用于不同应用的能力。通常用GIS数据的误差和正确率来度量。主要包括属性精度、数据源、点位精度、要素完整性和属性完整性、数据逻辑一致性、数据现势性等。空间位置、专题特征以及时间是表达现实世界空间变化的3个基本要素。GIS数据是有关空间位置、专题特征以及时间信息的符号记录。而数据质量则是基础地理数据在表达这3个基本要素时所能够达到的准确性、一致性、完整性,以及它们三者之间统一性的程度。只有了解GIS数据质量之后才能判断GIS数据对某种应用的适宜性。
数据质量是数据对特定用途的分析和操作的适用程度,但这只是数据使用者的观点,数据质量的概念对于数据生产领域和数据使用领域有着不同的含义。对于数据生产者来说,GIS数据质量是通过真实标记的原则将地理信息产品的特性和特征通过一定的方式进行标记;对于数据使用者来说,数据质量是按满足指定应用需求的原则进行标记。因此,数据质量可以全面地理解为地理信息产品满足特定需要的特性和特征的总和或提供应用服务的能力。
2.GIS数据质量元素
GIS数据质量元素是指记录数据集质量的定量成分,它是产品满足用户要求和使用目的的基本特性。按数据质量特性的详细程度,数据质量可分为一级质量元素、二级质量元素(一级质量元素的子元素)、三级质量元素(二级质量元素的子元素),依此类推[1]。
GIS数据质量由数据质量元素来描述。如图1所示,数据质量元素分为两类:数据质量的定量元素和数据质量的非定量元素。其中,数据质量定量元素包括数据质量定量元素子元素,用于描述数据集满足预先设定的质量标准要求及指标的程度,并提供定量的质量信息。数据质量非定量元素则提供综述性的、非定量的质量信息。
图1 空间数据质量信息组成
3.数据质量检查的主要内容
GIS数据的质量检查内容主要体现在以下几方面[2]。
1)数据档案:即数据的情况说明。数据档案需要对基础地理数据的来源、处理及相关数据信息等方面进行全面和详尽的描述,基础地理数据的数据档案通常以地理数据元数据的形式来表示,主要包括数据名称、生产日期、地理坐标系、高程基准、比例尺等。
2)定位精度:也称作空间位置精度,主要是指数据的地理定位精度,即空间数据库实体的坐标信息与真实地理位置的几何误差。由于通常以具有三维地理坐标的点、线、面作为研究对象并进一步表达空间实体,因此定位精度常表现为空间三维坐标数据的精度。定位误差包括数据平面误差、高程误差、数据接边误差等。
3)属性精度:是指空间实体的属性值与真实值的相符程度。空间实体的属性数据与地理数据的类型和定位精度紧密相关,属性精度包括要素分类和编码的准确性、要素名称的准确性、属性字段和属性值的准确性等。
4)逻辑一致性:是指地理数据元素之间逻辑关系的一致性,包括数据结构、拓扑关系、空间特征、时间特征以及属性特征的一致性。
5)数据完备性:是指地理数据在范围、内容及结构等方面的完整程度,包括数据范围、地理数据类型、数据库及表结构、实体空间关系、属性分类、空间实体描述、属性字段描述、实体与属性对应关系的完整性等。
6)数据现势性:即数据的时间精度,是指地理数据时间信息的可靠性。地理数据的更新周期较长,因此历史数据和实际数据存在一定差异,这直接影响了地理数据的有效应用,可以通过记录数据更新的时间和频率等来表示。
从理论上讲,GIS是按一定的数据模型和数据结构组织数据的,图形与属性、图形与图形、属性与属性之间存在一定的逻辑关系和规律。因此,通过设计模型和算法,开发相应的计算机程序,可以将数据中不符合规律、逻辑关系矛盾的要素挑选出来,实现对GIS数据的自动检查。下面是一些常见的GIS数据缺陷的质量检查方法。
1.定位精度质量检查
定位精度检查方法是采集一定数量的检测点和检测边长与空间数据中相应的点或边长比对,将比对的差值进行统计。
平面中误差计算
式中,(x'i,y'i)为检测点坐标值;(xi,yi)为空间数据中同名点的坐标值;n为检测点个数;mx、my以及mp分别为在坐标轴方向上的中误差和点位中误差。
相对边长中误差的计算
式中,mS为空间数据边长中误差;S'i和Si分别为检测边长和空间数据中相应的同一边长值;n为检测边数。
高程位置中误差的计算
式中,mH为检测点高程中误差;H'i和Hi分别为检测点高程和空间数据中同名点的高程;n为检测点个数。
定位精度质量检查一般采用测量检测点的坐标,然后与同名点坐标比对计算点位中误差的方法。这里介绍采用检测边长比对的方法,质量检查由于有一定的滞后性,在特殊的情况下(如控制点被破坏或密集居民区内部等)测量点的坐标是困难的,这时采用边长比对的方法是较实用的。从工作效率来说,丈量一条边比测量两个点坐标要容易得多。
2.图形质量检查
(1)回头线检查
回头线是检查线段有无打折的现象,以及是否存在角度比较小的褶皱。产生此错误的可能原因是数字化员在数字化线状地物时手抖动造成的。如图2所示,一条线的连续两段间夹角小于一定角度时认为此曲线存在回头现象,这种线叫回头线。
图2 回头线
回头线检查的方法如下:
设一线上的连续3点为point1、point2、point3,判断point3是否为回头点的步骤如下:
1)确定point3在以point1为起点、point2为终点的线段上的投影点pointProjection。
2)计算 point3和 pointProjection之间的距离d1。
3)根据输入的检查条件:3点形成的限差角度(3点形成的角度小于这个值就可认为3点中有个点为回头点),求出point3到以point1为起点、point2为终点的线段的垂直限差距离d2。
4)如果d1≤d2,则point3即为回头点。
(2)有向线方向检查
有向线方向检查主要是针对有特定方向的线地物进行的,如河流只能从高向低流,若反过来即为错误。错误产生的原因可能是在数字化河流等有向线时因粗心而造成。
河流方向的检查方法如下:
1)根据高程点构造出TIN网。
2)计算河流起点和终点的高程。
3)比较两点的高程得出方向是否正确。
3.属性数据质量检查
(1)结构一致性检查
根据项目系统设计要求建立数据模板,参考数据模板,首先检查图层的完整性(是否有多余图层或缺少图层);针对已有图层,检查字段顺序、字段个数(是否有多余字段或缺少字段);针对字段,检查字段长度、字段类型、字段可否为空等设置是否正确。
(2)编码合法性检查
参考数据模板,遍历各层对象的属性字段,检查是否符合数据规定的内容要求(如属性编码值域、属性组合正确性、要素逻辑关系等),是否有非本层要素及其他非法值存在。
(3)属性填写完整性
主要检查一些具体要素的属性项是否填写完整,如公路桥的国标码、名称、载重、层数均需填写完整。
4.拓扑检查
(1)Geodatabase中基于规则的拓扑关系管理机制
空间数据的拓扑关系及其处理方法在高级的空间分析处理和空间数据库数据质量保证方面具有相当重要的作用。随着ArcInfo升级到8版本后,全新的空间数据模型Geodatabase被引入,其中对拓扑关系的管理和处理方法发生了重大的改变,引入了拓扑关系规则。
(2)拓扑关系规则
拓扑关系规则可作用于同一要素数据集中的不同要素类或者同一要素类中的不同要素。用户可以指定空间数据必须满足的拓扑关系约束,如要素之间的相邻关系、连接关系、覆盖关系、相交关系、重叠关系等。所有这些关系都对应相应的规则。比较典型的拓扑规则例子是:多边形不能相互重叠(两个建设用地地块间不可相互重叠);点必须被多边形边线覆盖(建设用地的界址点必须在用地红线上);不能有悬挂结点(用地红线不能有多余的出头线段);两个线层不能相交(地下管线和道路中心线不能有交叉点)等。在ArcGIS中,总共给出25条可供选用的拓扑规则。对一个要素数据集,可以定义一个拓扑关系类,在拓扑关系类中,指定若干希望数据满足的拓扑关系规则。当然,通过修改拓扑关系类的定义,就能够方便地改变对拓扑关系约束的要求,这给管理空间数据带来了很大的灵活性。
(3)基于规则的拓扑检查
利用ArcGIS中提供的拓扑关系规则对空间数据的拓扑关系正确性进行检查。检查结果会作为一个特殊的图层加载到地图文档中供显示,所有存在拓扑关系错误的地方都会在该层中以特定(可自定义)的颜色和符号明显地显示出来。
质量控制是提高矢量地图数据精度的重要手段。笔者借鉴了常规地图生产的经验和检查绘图软件的技术基础,对地图数据的属性精度、位置精度、拓扑关系、逻辑一致性、数据完整性等方面检查与控制的原理、方法进行了系统的研究和探索。实践表明,通过改进GIS数据质量检查的方法,能够有效地提高质量检查的效率和数据质量。
[1] 彭强勇.矢量基础地理数据质量评价研究[D].南京:南京师范大学,2007.
[2] 詹美斌,贾济红,施志梅.GIS基础地理数据质量检查及其监控体系构建[J].现代测绘,2007(4):14-15.
On GIS Data Quality Control Method
LI Nuofu
0494-0911(2011)08-0066-03
P208
B
2011-03-09;
2011-06-20
李诺夫(1961—),男,广东韶关人,高级工程师,主要从事测绘产品质量的监督、检验工作。