张彦,于丽君
(1.重庆数字城市科技有限公司,重庆 400020;2.中国科学院遥感与应用研究所,北京 100101)
所谓空间数据质量是指空间数据在表达实体空间位置、特征和时间所能达到的准确性、一致性、完整性和三者统一性的程度以及数据适用于不同应用的能力。正是因为空间数据的质量需要对数据的空间位置、特征和时间三个方面进行评价,在评价的过程中,这三个有一定的关联性的评价标准既可能定性评价,又可能定量评价,而且针对不同的应用,需要评价的侧重点也不同。所以目前的评价方式多是根据经验人为主观评价判断,对评价元素的选定没有统一的标准,也没有形成一整套的评价体系。
层次分析法(AHP)原理简单,是定量与定性方法相结合的优秀决策方法。因此本文尝试采用层次分析法辅助选取空间数据质量评价元素,力争通过量化的方法进行空间数据质量评价,改变现有的采用主观方法进行评价的方式,使评价更加系统性、科学性。
目前,对空间数据的质量评价元素较多,不同的元素分别描述数据的空间位置、特征和时间。根据数据质量研究内容及对空间数据误差的量化,通过综合分析,可以基本确定数据质量评价元素主要有以下5个[1~3]:
(1)完整性:描述要素、要素属性及要素关系存在或不存在。完整性通过多余或遗漏两个子要素来体现。
(2)逻辑一致性:描述数据结构(包括概念的、逻辑的或物理的数据结构)、要素属性和它们间的相互关系符合逻辑规则的程度。可以分为概念一致性、拓扑一致性和结构一致性三个子要素。
(3)位置精度:描述要素空间位置的精度,分为平面精度和高程精度。
(4)时间精度:描述要素的时间属性和时间关系的精度。
(5)专题(属性)精度:描述要素定量或非定量属性精度和要素属性分类正确性及它们间的相互关系。
层次分析法是一种定性和定量相结合的、系统化、层次化的分析方法。所谓层次分析法,是指将一个复杂的多目标决策问题作为一个系统,将目标分解为多个目标或准则,进而分解为多指标(或准则、约束)的若干层次,通过定性指标模糊量化方法算层次单排序(权数)和总排序,以作为目标(多指标)、多方案优化决策的系统方法[4]。
(1)建立层次结构模型[5]
通过深入分析实际问题,将有关的各个因素按照不同属性自上而下地分解成若干层次,同一层的诸因素从属于上一层的因素或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用。根据空间数据的质量评价元素的确定以及不同的质量评价元素之间的关系,可以构建层次结构模型如图1所示。
图1 空间数据质量评价元素层次结构模型
(2)构造判读矩阵
分析各个层次中各因素间的关系,对同一层次各元素关于上一层次中某一准则的重要性进行两两比较,构造判读矩阵。在实际操作中通常根据专家意见,并结合项目质量评价特点,确定各因素的重要性程度,从而构造判读矩阵P。如两个评价因素同样重要,则在判读矩阵中填入1,稍重要则填入3,极端重要可以填入9。在空间数据质量评价过程中,对于新采集的空间数据,在质量评价过程中,根据实际情况,可以确定其逻辑一致性相对于时间精度就更重要一些,可以使用量化值7,而时间精度和完整性同样重要,则在判读矩阵中填入1,见表1。通过同一层次中的不同评价因素之间的两两比较,确定重要性因子,则可以构成多个判读矩阵。
判读矩阵样例 表1
(3)特征向量求算
构造判读矩阵后,需要对每一个判读矩阵均计算其特征向量。主要步骤有:计算判读矩阵各列各个元素的和;按照和将判读矩阵的各行元素的和进行归一化;对每行归一化后的向量即为所求权重向量Wi。公式如下:
Wi其中Pij为判读矩阵P的第i行第j列的数值。分子判读矩阵第 j行数值之和,分母为判读矩阵所有元素之和。
(4)进行层次总排序
计算出每一个层级中的判读矩阵的特征向量后,需要计算各层次对于系统的总排序权重,具体可以先求出每一层相对上一层的权值,然后求出最后一层对第一层的权值,最后求得的权值即为该评价元素的权重。因本文中子层级中的评价元素两两相比同样重要,例如多余和遗漏两个评价因素在实际检查中可以视为同样的评价因素,故子层级的判读矩阵均取值为1,所以针对本项目实验中不需要进行层次总排序。
(5)一致性检验
在计算出每个判读矩阵的特征向量后,需要检验判读矩阵的一致性,以保证结果的精确性。一致性的检验通过计算矩阵的最大特征根λmax和一致性检验值CR实现。
判读矩阵的最大特征根λmax计算公式如下,其中Wi表示W的第i个分量,n为矩阵阶数。
算出λmax后,需要计算一致性检验值CR,计算公式如下:
式中RI可查表2得出。
RI参考值 表2
若CR〈0.1,则说明判读矩阵满足一致性。否则,需要检查判读矩阵中是否有对权重影响比较大的特殊值,并重新咨询专家意见,对特殊值进行调整后,重新运算。
在对空间数据质量评价的实际操作中,本文针对两种不同应用的空间数据,采集加工建库类和更新数据类,分别应用层次分析法,算出每种应用中对空间数据质量进行评价的权重参考值[6]。
采集加工建库类数据主要针对外业数据采集,一般应用采集工具如GPS、全站仪等,现场实地采集外业数据后,内业进行加工录入处理。对于此类数据,在质量控制中,对采集的逻辑一致性要求比较高(需要判读采集的地物之间的逻辑关系,采集结构的规范性等,容易产生采集误差,故质量要求较高),而采集的时间精度和位置精度一般很准确,故质量要求较低。采集数量的完整性以及属性的正确性质量要求适中。
根据以上要求,构造判读矩阵如表3所示。
采集加工建库类判读矩阵 表3
数据归一化处理后,得出权重向量Wi,如表4所示。
采集加工建库类权重 表4
计算λmax,进行一致性检验得出CI/RI=0.089 633〈0.1(表5),通过检验,权重值Wi可以采用。
采集加工建库类检验值 表5
更新类数据一般是根据新的不同来源的数据,对现有的数据进行更新处理。这类数据对时间精度要求较高,而数据的完整性、逻辑一致性等质量要求适中,同时更新类数据的位置精度和属性精度来源确定,一般较少出现错误,故质量要求较低。根据实际情况,可以构建更新类数据的质量评价元素的判读矩阵如表6所示。
更新数据类判读矩阵 表6
数据归一化处理后,得出权重向量Wi,如表7所示。
更新数据类权重 表7
计算 λmax,进行一致性检验得出 CI/RI=0.054 389〈0.1(表8),通过检验,权重值 Wi可以采用。
更新数据类检验值 表8
根据以上的分析,运用层次分析法,确定了在实际评价采集加工建库类和更新类空间数据质量过程中,不同评价因素的权重值,从而可以定量地对一组采集数据的质量情况进行评价。同时在评价过程中,也可以对需要评价的多组数据的错误情况进行比较,使评级结果更具有说服力。
如实际在一组采集加工建库类数据的质量评价中,通过计算机辅助人工浏览检查发现完整性错误3个,逻辑一致性错误7个,位置精度错误2个,时间精度错误0个,属性精度错误1个,错误总数13个,则可以计算出此组数据的错误总数为各种错误的加权平均,即:
3*0.1715+7*0.4137+2*0.1224+0*0.0821+1*0.2102=3.8654
而另一组采集加工建库类数据的质检过程中发现完整性错误5个,逻辑一致性错误3个,位置精度错误5个,时间精度错误2个,属性精度错误3个,错误总数18个,而通过层次分析法确定的权重值,可以计算出此组数据的错误总数为3.505 4。表面上看第二组数据的错误个数更多,但是因为在对采集加工建库类数据的质量评价过程中,逻辑一致性的正确与否更加重要,因此,可以根据最后的加权错误总数大小,认为第二组数据的质量情况较第一组数据稍好。
本文针对不同用途、不同质量评价侧重点的空间数据,采用层次分析法,辅助给出了评价元素的权重参考值。并通过实验,对数据采集加工类和更新类的空间数据进行质量评价,确定了这两类空间数据的质量评价元素的权重。但是在本文中,判读矩阵的构造来源还比较单一,还有待收集更多的专家对评价元素的权重意见值,以便使评价结果更加可靠。另外,本文中的子层次的权重都取为1,如果针对比较复杂的情况,可以把子层次的权重一并考虑进入。
[1]GB/T 21337-2008.地理信息质量原则[S].
[2]GB/T 21336-2008.地理信息质量评价过程[S].
[3]胡圣武.GIS质量评价与可靠性分析[M].北京:测绘出版社,2006.
[4]常建娥,蒋太立.层次分析法确定权重的研究[J].武汉理工大学学报·信息与管理工程版,2007(1):153~156.
[5]徐晓敏.层次分析法的运用[J].统计与决策,2008(1):156~158.
[6]刘大杰,刘春.空间数据不确定性与质量控制的研究现状[J]. 测绘工程,2001,10(1):6~10.