张光裕 李华朋
(东北林业大学,哈尔滨,150040) (中国科学院东北地理与农业生态研究所)
证据推理遥感分类背景下遥感影像证据支持度生成方法的对比
张光裕 李华朋
(东北林业大学,哈尔滨,150040) (中国科学院东北地理与农业生态研究所)
选择黑龙江省洪河自然保护区的ETM+遥感影像,对比分析了基于最小距离法(MD)和频率分布法(FD)两种不同证据支持度生成方法的证据推理遥感分类精度。结果表明,在使用前3个或更少的波段情况下,MD方法证据支持度质量比MD方法好,而在前4个或更多的波段情况下,MD方法生成的证据支持质量更高。证据支持度的合理与否直接影响证据推理的分类精度和效果,而MD方法在多波段情况下在证据支持度生成方面更具优势。
遥感分类;证据推理;证据支持度;最小距离法;频率分布法
遥感分类一直是遥感领域研究的重要内容之一,是遥感影像转换为可用的地理数据的核心[1]。已有研究表明,多源数据具有提高遥感分类精度的潜力[2],基于多源数据遥感分类已经成为遥感分类研究的主要方向。这给传统的基于统计学的遥感分类方法提出了挑战,因为这些方法不能处理多维数据[3],并且对数据的分布有一定要求(满足正态分布)[4]。因此,亟待提出新的方法解决这些问题。证据推理是两种能有效地处理多源数据的方法之一,已经有很多研究利用证据推理结合多源数据完成了一系列的分类任务[5-9]。
证据理论(Theory of Evidence)是基于Dempster-Shafer理论而建立起来的。它首先由Dempster提出,并由Shafer进一步发展完善起来。证据推理方法在结合多重信息方面具有优势,它能以详细记录的方式完成正式的概率推理[10]。该方法基于决策知识和信息的不确定、不完整性提出的,例如遥感影像分类。在遥感分类背景下,证据推理方法比传统分类方法更具优势,例如它是无参分类器,能处理不符合高斯分布的数据,并且能处理以任何尺度、数量及以任何测量方式记录的数据。
众所周知,证据支持度是应用 DS理论的关键一步[11-12]。然而,由于DS理论创立时考虑到其通用性,没有规定如何计算证据支持度,即基本概率分配(BPA)[13-14],这就给证据推理方法的应用带来了很多困扰。目前,有关从遥感影像生成证据支持度的研究不多,仅有的一些研究中,证据支持度生成方法较为主观,没有形成规范的、客观的模式。Peddle等人最早集中研究了不同数据类型的证据生成方法,针对遥感影像提出了频率分布(FD)方法计算证据支持度,很多研究都是基于该方法而完成的[15]。然而,该软件目前并未商业化,且其提供的方法繁琐。李华朋等提出了计算遥感影像证据支持度的最小距离法(MD),取得了较好的效果。笔者将通过证据推理遥感分类精度来对比MD与FD方法在计算遥感影像证据支持度方面的能力。
选择洪河湿地自然保护区极其周围地区为研究区,这一地区为重要的湿地保护区,高精度的遥感分类信息对于湿地管理和保护很有意义。该区属于温带湿润大陆性气候,其特点是冬长严寒,夏短炎热。年平均气温2.2℃,多年平均降水量为603.8mm,全年平均蒸发量为1 257.1mm。结合以往研究和笔者选择的影像的分类能力,将本区域分为6种类型:沼泽、草甸、旱田、水田、林地、建筑用地。
选择覆盖研究区1景Landsat 7 ETM+遥感影像,影像成像时间为2007年9月22日,行列号为118/26。影像成像时间天气情况良好,影像的含云量均小于5%。该影像从美国地质调查局地球资源观测系统数据中心(http://glovis.usgs.gov/)下载得到,数据在分发前经过了辐射校正和几何校正,达到了1 G质量水平。基于ERDAS软件对该影像进行裁切,裁切的影像包括了全部洪河保护区以及周围地区,面积约为4.94×103hm2。
精确训练样本的采集对于证据推理方法的成功应用至关重要。一般的训练样本采集方法是基于野外实地采样或直接从高分辨率遥感影像(Quick bird,IKONOS)上采样。本研究采取了野外采样点结合地形图及ETM+影像的方法采集各类别训练样本。有研究表明,TMETM+影像能识别的最小湿地斑块为大约11个像元组成的斑块[16]。因此,在训练点和验证点的采样过程中,确保选择的典型样点必须位于至少由11个像元组成的斑块内部,保证湿地斑块的可识别性和降低几何纠正误差对于采样的影响。利用分层随机采样方法采集了训练点7674个,其中芦苇2010个,建筑用地947个,水田1 094个,旱地1 295个,林地1 328个,湿草甸1 000个。
对于验证点采用与训练点相同的采样方法,即选择的典型样点必须满足最小距离其它类别边缘2个像元以上的条件。各类别验证点绝对不与训练点重复,保证精度验证的独立性。一般认为在遥感精度验证时每一类别至少保证30~50个验证点。本研究采用分层采样方法共采集了验证点904个,其中芦苇2010个,建筑用地947个,水田1 094个,旱地1 295个,林地1 328个,湿草甸1 000个。建立误差矩阵,计算Kappa系数来表示分类结果分类精度。
证据推理方法的识别框架、基本概率分配函数、证据累积规则、分类决策等问题已经有很多文献进行了陈述和讨论。识别框架是证据推理的基础,基于对本研究区的调查及本研究目标,制订了本研究识别框架:{沼泽,城镇,水田,旱地,林地,草甸}。因为在遥感背景下,本研究只对单子集感兴趣,因此识别框架可以简化为{沼泽},{城镇},{水田},{旱地},{林地},{草甸}。
FD(Frequency Distribution)方法主要以统计的样本点生成的证据支持度为基础,其突破点即其加入了一个滑动窗口,这样就保证了证据能传播到未出现在样本中的数值。并且滑动窗口具有证据权重分配功能,即越接近出现样本点的数值,其证据支持度越高。这符合地理学第一定律,即相邻的事物相似,远离的事物相异。其计算过程如下:设定f为类别n样本点i的出现频数(数量),则该样本点i的证据支持度为:
其中T为类别n所有样本点数量。为了满足地理学第一定律,通过滑动窗口生成的证据支持度需要满足条件:
滑动窗口的计算公式为:
式中:a为f(i)出现的频数;b为滑动窗口的大小;设定递减度为2,满足了地理学第一定律的要求,使得越靠近样本点的非样本点数值计算分配到的证据支持度越大。
该方法的突出优点是计算证据支持度数据源不需要满足正态分布规律,但其存在的最大问题是计算得到的证据支持度过小。以本研究区为例,第二波段对于水田和沼泽的最高证据支持度仅为0.138 4和 0.049 1(图1(a),(b)),这显然过小,不利用遥感分类研究中正确类别的有利识别。
图1 FD和MD方法生成的水田证据支持度
基于FD方法的不足,李华朋等提出了MD(Minum Distance)方法计算遥感影像证据支持度。它的原理同样是地理学第一定律。不同的是,它通过引入平均值,对比不同样本点与平均值的最小距离来分配证据支持度。最小距离平均值点越近的其分配到的概率越大,反之亦然。最小距离法最大的优势是可以实现多波段联合计算,从而生成合理的证据支持度。针对ETM+影像而言,本研究提出的针对比率数据的证据支持度生成方法共分为3步。
①计算所用ETM+影像6个波段每种类别的反射率平均值,构成6×1大小的平均值矩阵。平均值的计算来自于选择的训练样本,因为研究区共有6个类别,这样构成平均值矩阵 Mi,p的维度为6×6,i、p 分别表示类别、波段号。
②计算ETM+影像每一个像元到每种类别平均值矩阵的最小距离之和:
式中:Px,y,p表示 p波段像元在二维影像系统中坐标为(x,y)的像元值,Mi,p表示p波段类别i的平均值矩阵。通过上式的计算,可以将ETM+影像的6个波段信息纳入不同类别支持度生成中,充分利用了ETM+多波段光谱信息。
③将计算得到的像元Xi与平均值矩阵的最小距离归一化为基本概率分配:
di为式(4)得到的最小距离值,n为确定的识别框架的单子集类别数量。
分别建立6个证据推理的分类模型来表示使用遥感影像不同波段组合下证据推理分类精度变化特征。模型1代表利用ETM+影像的第1波段,模型2代表1+2波段,模型3代表1+2+3波段,以此类推。对于MD方法来说,直接利用波段组合生成各类别的证据支持度,以支持度最大为划分像元归属类别原则得到分类图;对于FD方法,则单独生成每一个波段对各类别的证据支持度,通过证据累积后,同样以支持度最大为划分像元归属类别原则得到分类图。分别对两种分类图建立误差矩阵,提取Kappa系数来表达分类精度变化情况(表1)。可以看出,随着累积波段数量的增加,基于FD方法分类模型的分类精度稳步升高,随着第2到第6波段的加入,其分类的Kappa系数从0.4753提高到0.661,多证据的累积不断地提高分类精度。而基于MD方法的分类模型,其分类精度随着波段数量的增加并不呈现出线性上升趋势。第2波
段的加入大幅度提高了分类精度,而第3波段加入后反而降低了分类精度,第4波段的加入又一次较大幅度提高了分类精度,但加入第5、第6波段后分类精度变化不大,反而有一定降低。
表1 基于两种证据支持度生成方法不同分类模型的分类精度变化特征
显然,在3个波段及以下的模型中,基于FD方法的证据推理分类精度比基于MD方法的分类精度高;而在3个波段以上的模型中,基于MD方法的分类精度显然高于基于FD方法的证据推理分类精度。这说明在使用多波段数据的(大于3)情况下,MD方法比FD方法在生成证据支持度方面更具优势;而在使用较少波段下,FD方法更具优势。事实上,大部分研究都是基于多个波段,这样可以充分利用影像的信息。因此,MD方法的提出为合理使用证据支持度生成方法提供了有益的借鉴。
图2表示了在使用ETM+影像6个波段情况下基于FD方法及MD方法的研究区证据推理遥感分类结果,显然,基于MD方法的分类结果更好。对于沼泽、林地、水田等研究区主要类别的识别准确率更高,而基于FD方法的分类结果中,只有城镇类别识别较好。这与图2中的结果相一致。
图2 使用ETM+影像6个波段情况下研究区证据推理遥感分类精度
在使用较少波段的情况下(3个波段及以下),基于FD方法生成的证据支持度证据推理遥感分类精度更高;而在使用多个波段的情况下(3个波段以上),基于MD方法生成的证据支持度证据推理遥感分类精度更高。并且,基于FD方法的证据推理分类精度随着波段的数量的累积,其分类精度稳步提高;而基于MD方法的证据推理分类精度则不呈现规律变化。尽管如此,研究发现使用MD方法可能达到的最高分类精度是FD方法所不能达到的。因此,总体上来看,MD方法比FD方法具有优势。本研究选择的区域和验证数据较为单一,未来研究应将这种对比研究应用于更多区域和更广泛的数据类型,进一步验证这两种方法在生成遥感影像证据支持度方面的能力。
[1] Cohen Y,Shoshany M.Analysis of convergent evidence in an evidential reasoning knowledge-based classification[J].Remote Sensing of Environment,2005,96(3/4):518-528.
[2] 李华朋,张树清,孙妍.合成孔径雷达在湿地资源研究中的应用[J].自然资源学报,2010,25(1):148-154.
[3] Franklin S E,Peddle D R,Dechka J A,et al.Evidential reasoning with landsat TM,DEM and GIS data for landcover classification in support of grizzly bear habitat mapping[J].International Journal of Remote Sensing,2002,23(21):4633-4652.
[4] Mertikas P,Zervakis M E.Exemplifying the theory of evidence in remote sensing image classification[J].International Journal of Remote Sensing,2001,22(6):1081-1095.
[5] Congalton R G.A review of assessing the accuracy of classifications of remotely sensed data[J].Remote Sensing of Environment,1991,37(1):35-46.
[6] Foody G M.Status of land cover classification accuracy assessment[J].Remote Sensing of Environment,2002,80(1):185-201.
[7] Lein J K.Applying evidential reasoning methods to agricultural land cover classification[J].International Journal of Remote Sensing,2003,24(21):4161-4180.
[8] 邓文胜,邵晓莉,刘海,等.基于证据理论的遥感图像分类方法探讨[J].遥感学报,2007,11(4):568-573.
[9] 方勇.证据推理应用于多源信息融合分析[J].遥感学报,2000,4(2):106-111.
[10] Peddle D R,Ferguson D T.Optimisation of multisource data analysis:an example using evidential reasoning for GIS data classification[J].Computers & Geosciences,2002,28(1):45-52.
[11] Peddle D R,Franklin S E.Multisource evidential classification of surface cover and frozen ground[J].International Journal of Remote Sensing,1992,13(17):3375-3380.
[12] Peddle D R.Knowledge formulation for supervised evidential classification[J].Photogrammetric Engineering and Remote Sensing,1995,61(4):409-417.
[13] Sun W X,Liang S L,Xu G,et al.Mapping plant functional types from MODIS data using multisource evidential reasoning[J].Remote Sensing of Environment,2008,112(3):1010-1024.
[14] Na X D,Zhang S Q,Zhang H Q,et al.Integrating TM and ancillary geographical data with classification trees for land cover classification of marsh area[J].Chinese Geographical Science,2009,19(2):177-185.
[15] Wilkinson G G,Megier J.Evidential reasoning in a pixel classification hierarchy-a potential method for integrating image classifiers and expert system rules based on geographic context[J].International Journal of Remote Sensing,1990,11(10):1963-1968.
[16] Wright C,Gallant A.Improved wetland remote sensing in Yellowstone National Park using classification trees to combine TM imagery and ancillary environmental data[J].Remote Sensing of Environment,2007,107(4):582-605.
Comparison Between Evidence Measures Generated from Satellite Images Under the Background of Supervised Evidential Classification
/Zhang Guangyu(School of Forestry,Northeast Forestry University,Harbin 150040,P.R.China);Li Huapeng(Northeast Institute of Geography and Agroecology,Chinese Academy of Forestry)//Journal of Northeast Forestry University.-2011,39(6).-80~82,113
Land cover classification;Evidential reasoning;Evidence measures;Minimum distance algorithm;Frequency distribution method
P237
张光裕,男,1984年6月生,东北林业大学林学院,硕士研究生。
2011年3月15日。
责任编辑:戴芳天。
A scene of ETM+imagery covered Honghe National Nature Reserve was chosen to compare the ability of two algorithms,the minimum distance(MD)algorithm and the frequency distribution(FD)algorithm,in generation EM for supervised evidential classification.Results show that the FD algorithm is superior to the MD algorithm when using the first three or fewer bands of ETM+imagery,while the MD algorithm is better when using the first four or more bands for classification.It indicates that the EM generation algorithm directly affects the accuracy of the supervised evidential classification,and the MD algorithm has advantages when using multi-bands of ETM+imagery for EM generation.