赵 宁,宋国伟,张小玉,李维宇
(武威市自然资源局,甘肃 武威 733000)
随着计算机科学,遥感技术,导航产业的迅速发展,地理信息系统(GIS)已不仅仅作为一种信息处理的基础平台存在,而是成为社会公共卫生医疗、社会安全服务、减灾防害等众多产业研究和实施的基础。从应用于生产生活开始,GIS数据质量以及不确定性问题就引起了广泛的关注[1]。目前,GIS研究和应用领域越来越宽泛,使用的多源、多维、多时相、多尺度数据量也越来越大,应用GIS分析产生结果的可靠性成为衡量GIS可用性、决策性的主要指标。对于GIS分析的可靠性目前尚未有公认的定义,一些学者结合工程学、生命科学等学科对其进行了补充,如史文中等[2]、胡圣武等[3]。文章从GIS分析结果可靠性研究的内容体系出发,结合具体案例分析了可靠性的影响因素,并初步探析了研究分析结果可靠性的方法。
根据史文中等[2]对空间分析的可靠性初探,以及其他一些学者,如张朋吉[4]、孙方飞等[5]对GIS分析方法和数据可靠性的探究,结合《Accuracy 2012》国际会议提出的空间不确定性及精度评估问题的研究内容以及近年来国内外对于不确定性的研究,文章初步探究提出GIS分析结果可靠性研究内容体系(见表1)。
表1 GIS分析结果可靠性研究内容体系
通过GIS分析可靠性的定义以及GIS分析结果可靠性的研究内容可知,影响可靠性的因素主要有四个,这四个因素又可以归纳为三类:基本影响因子、交互影响因子、不可控影响因子。其中,交互影响因子对结果可靠性的影响最为显著,且可控性也最差。
基本影响因子包含数据和方法两个方面。数据作为GIS分析的基础,对结果的重要性显而易见。一般,数据对于分析结果的影响主要发生在数据产生和数据处理两个过程中。数据产生是一切分析结果的开始,而所有数据产生过程均会不可避免地出现数据误差,这些带有误差的数据,如传感器拍摄到云量覆盖较多的遥感影像、使用精度不高的GPS控制网采集的点集、矢量化后未添加属性信息的矢量文件等,都会严重影响结果的可靠性。数据处理实际是一个降低数据误差的过程,如对影像进行去云处理、对点集进行误差处理、对矢量化文件的逻辑错误进行纠正处理等都或多或少提高了数据的可靠性,然而在处理过程中也存在很大的不确定性,如处理算法的准确性和适用性。方法是GIS分析的核心,尽管空间分析中的基本方法体系逐渐成熟,但当前空间分析面对的问题通常需要结合几种基本方法或空间建模才能解决,这就极大增加了空间分析的不确定性,如进行居民点潜力测算[6]时,修正系数的计算、指标权重的确定以及数据标准化的方法都会影响测算结果。尽管基本因子会严重影响结果的可靠性,但事实上,这些影响因素绝大多数存在一定的可控性,并能将其影响力度减到理想状态。
一般而言,可以通过多种方法获取某一地理分析结果,由于不同的方法有不同的侧重点,因此对于同一数据,可以产生多个分析结果。若多个分析结果较为接近,则结果的可靠性较高或者较低(结果与客观事实相悖);若多个分析结果各不相同或可划分为几类,此时结果的可靠性就难以评估。
以文献为例,Andreas等[7]使用三种方法(物质平衡线转移、厚度变化参数化、冰川物质平衡模拟)模拟瑞士阿尔卑斯山冰川的未来变化趋势,尽管最后得出一致的结论,即冰川处于消融状态,但三种模型测算出的冰川变化面积和变化范围仍有较大差别,此时,很难判定哪种模型计算出的冰川变化面积以及变化范围更加准确,间接反映出分析得到的结果在一定置信水平下可靠度不确定。
使用同一种方法不同数据分析GIS问题导致结果的可靠性不确定是影响结果可靠性的主要部分。分析方法本身存在一定的局限性,对于同一种方法,可能只对某一特定空间、时间上的数据有较强的适用性,或适用于某一类型、某一数据源的数据。由于GIS面对的分析问题是海量的,不可能针对每一个问题建立一种分析方法或模型,因此GIS分析结果的可靠性受到影响是不可避免的。
以文献为例,姚晓军等[8]提出一种冰川中流线自动提取方法,该方法主要包含提取冰川最高、最低点,欧式分配冰川轮廓线两个主要步骤。在第一步骤中,使用了不同数据源的DEM(SRTM V4.1和ASTER GDEM V1.0),提取的最高、最低点出现了差异,增加了结果的不确定性。在第二步骤中,考虑到不同地区冰川特点不一,对冰川进行了分类,微修提取方法,不同类冰川采用不同的提取方法,保证了最终结果的可靠性。
尽管上文分析了影响GIS分析结果可靠性的客观因素,然而对可靠性认知的不同也会或多或少地增加结果的不确定性。不同的主体从不同的角度来看GIS分析的结果可靠性会有不同的理解。从研究者的角度看,可靠性就是最大程度上与客观现实保持一致,能帮助探究所分析客观现象的规律,这较符合GIS分析可靠性的内容。然而,从用户的角度看,可靠性就是满足客户需求、服务于应用决策或结果实用,此时,GIS分析过程中使用的数据和方法满足要求即可,无需过分关注其是否与客观现实存在矛盾。事实上,GIS面对更多、更广泛的主体是用户,这就产生了一种不可控的可靠性影响因素。
数据是GIS分析结果主要的影响因素之一,对其可靠性研究可参考现有的数据质量控制标准,如美国数字制图标准国家委员会(NCDCDS)制定的数字制图数据标准[2]。对分析方法的可靠性研究目前还没有参考依据,这将是GIS可靠性分析的一个研究趋势。
尽管胡圣武等[3]用梯度模型研究了GIS的可靠性,但效果不理想,且不能表达出GIS分析结果的可靠度。熵是信息论中的基本概念,是用以度量信息源不确定性的唯一量,对结果的不确定性度量有较好的效果,许多学者将其与信息论结合以度量GIS的不确定性,如李艳丽[9]、李大军等[10]。GIS分析结果的可靠性是建立在不确定性基础之上的。为此,可以引用熵理论度量结果的可靠性,将影响结果可靠性的基本影响因子、交互影响因子、不可控影响因子作为样本计算样本的信息熵,由最大熵方法确定样本分布概率,再根据此概率分布计算结果可靠度。
文章结合一些学者的研究成果对GIS分析结果可靠性做了初步的探究,系统地提出了GIS分析结果可靠性研究的主要内容,并分析得出对结果可靠性的影响主要有基本因子、交互因子、不可控因子三个要素。对结果可靠性的度量进行一定探索,提出结合熵理论研究结果可靠性这一设想。GIS分析结果可靠性是一个庞大而复杂的问题,对其具体详实的研究仍然是GIS可靠性研究的研究趋势,如何计算度量将是下一步研究的主要内容。