王明伟,王志平,赵春霞,马 跃,张 凯,阳凡林
(1.山东科技大学 测绘科学与工程学院,山东 青岛 266590;2.长江水利委员会 长江勘测规划设计研究院,湖北 武汉 430010)
基于最大似然和支持向量机方法的遥感影像地物分类精度评估与比较研究
王明伟1,王志平2,赵春霞1,马跃1,张凯1,阳凡林1
(1.山东科技大学 测绘科学与工程学院,山东 青岛 266590;2.长江水利委员会 长江勘测规划设计研究院,湖北 武汉 430010)
摘要:遥感影像的监督分类算法在环境监测、地质调查等领域均有重要应用。本文利用最大似然(ML)分类器和支持向量机(SVM)分类器对土地利用和地表覆盖问题中地物类型的提取和识别进行研究,系统分析两种不同分类方法对地物分类结果的影响。通过选取Landsat LT5和LE7卫星遥感影像数据及定义训练样本,对比分析利用ML和SVM分类器的分类成果精度,其中Landsat LT5和ML、SVM组合的分类精度分别达94.64%和94.98%,而Landsat LE7和ML、SVM组合的分类精度则分别达97.63%和99.29%。研究表明,对于LT5影像,ML和SVM两种分类器的精度相当,而对于LE7影像,SVM分类器的精度明显高于ML分类器。
关键词:分类;地物;最大似然;支持向量机;样本
土地利用和土地覆盖是全球环境变化研究的重要组成部分。利用遥感手段获得土地利用及覆盖信息的一个重要中间环节就是地物分类。遥感影像分类是计算机模式识别技术在遥感领域中的具体应用,其核心任务是确定不同地物类别间的判别准则[1]。
目前遥感影像分类方法繁多,从不同角度有不同分类方法。最常见的监督分类是根据先验已知类别及其训练样本对分类器进行训练和监督[2],如人工神经网络分类法(artificial neural network,ANN)、支持向量机分类法(support vector machine,SVM)、决策树分类法(decision tree classifier,DTC)等。与此同时,国内外诸多学者利用卫星遥感数据,通过不同监督分类方法,对土地利用和覆盖等地物类型参数进行研究[3]。但缺少对不同分类方法正确性和时效性的评判和比较研究。本研究通过定量分析,提供不同地物分类方法的参考精度。
本研究根据Landsat LT5和LE7卫星遥感数据,采用最大似然和支持向量机遥感监督分类方法,对试验区域几种地物分类结果数据进行精度评价,在评价过程中,分析和比较两种方法的优缺点,为以后进一步研究、应用及开发新的评价方法积累经验和知识。
1遥感地物分类与评价方法
1.1试验数据
目前,遥感影像的常用信息源有NOAA、MSS、TM、SPOT等航天遥感数据及部分不同尺度的航空像片。不同类型的遥感数据具有不同信息提取精度,适应于不同研究尺度。TM图像最小分辨率为30 m,在资源、环境动态、生态效益等综合调查中,具有明显技术与经济优势,可满足1∶5万、1∶10万以及1∶20万等大比例尺专题制图要求,适用于局部区域尺度土地利用和覆盖变化研究。
本研究分别选取两种卫星遥感影像,即Landsat卫星的LE7和LT5,其所采用的坐标参考系为WRS(worldwide reference system)。选取的区域范围内林地、植被、耕地较多,突出表现植被的特征,故采取432标准假彩色合成,即4,3,2波段分别赋予红、绿、蓝色,合成图像中红色即为植被[4]。
1.2分类方法
在遥感影像分类中常用的分类器一般可分为统计、线性与非线性三大类,本研究从统计与非线性分类器中各选择一种进行试验,并比较其分类成果[2]。统计概念的分类器选用的是最大似然分类器(Maximum Likelihood, ML),而非线性分类器则选用支持向量机分类器(support vector machine, SVM)。
最大似然分类器是根据统计原理中的极大似然估计定理(Maximum Likelihood theorem)提出的简易监督式分类器,其基本思想是从模型总体中随机抽取n组样本观测值,对样本进行合理的参数估计,寻找能够以较高概率产生观察数据的系统发生树。此分类器通常假设影像的分类特征具有多变量常态分布,计算训练样区每一类的共变异矩阵(covariance matrix)、平均向量(mean vector),再以式(1)计算第i类中X出现的概率[5-6]。
(1)
(2)
在分类时,比较某样本X在哪个类别中的概率密度函数最大,即可判断该样本为哪一类。其优点为计算快速,且不受无用的特征干扰。
支持向量机为基于统计学习理论而延伸的机器学习方法,常被用于分类回归分析[7]。其原理为利用最佳化工具找出高维度向量空间中的平面,通称为超平面(hyperplane)[3],通过超平面将两种类别分开。此平面有许多种可能性,因此需找出最佳的超平面(optimal separating hyperplane, OSH),使类别间区分距离最远,一般而言一个点距离超平面的远近可以表示为分类预测的准确程度。SVM就是要最大化这个间隔值,并同时拥有最小的训练误差,以达到最佳分类效果。SVM又可分为线性及非线性,本研究使用的非线性SVM,通过核函数(kernel)将资料投射到更高维度的特征空间,以解决更复杂的分类问题,研究中所使用的核函数为径向基核函数(radial based function, RBF)[8]。
1.3分类精度评估
最普遍的分类成果精度评估方式为误差矩阵(error matrix),通过矩阵的形式展现分类成果与检核资料之间的对应关系。从误差矩阵可估计整体分类正确率(overall accuracy,OA),生产者精度(producer’s accuracy,PA)及用户精度(user’s accuracy,UA),并计算Kappa指标值[9-10]。
鉴于试验区面积较大且包含的地物类型相对丰富,本文在试验区内人工选取部分资料作为地面真值,但由于并未进行实地踏勘,地真资料为参考遥感资源卫星航拍后制成的正射影像(digital orthophoto map,DOM),并经由人工判读和选取,统称为检核样本[2]。如表1所示,本文随机选取检核样本的1%作为训练样本,用于检验分类器的分类成果与精度。
表1 检核样本
1.4分类流程
在本研究中,分类流程如图1所示:首先,将遥感影像进行数据预处理,并根据影像特征提取分类参数和地物类型;然后,选定样本,分别输入两种分类器,即最大似然分类器和支持向量机分类器,进行监督分类;最后,输出结果为林地、农田、房屋、丘陵、水体等5类地物类别。
图1 分类流程图
2试验与分析
2.1试验区域
试验区域如图2所示,位于山东省中南部地区(35°05′15.05″N~36°59′55.76″N,117°12′26.67″E~119°47′50.39″E),该区地物类型较多,包括房屋、河床、裸露地、草地、农田、树木、道路等,适用于检测不同地物分类方法的有效性。主要数据为采用多时相、多分辨率遥感图像,进行全覆盖地物识别后的土地利用及覆盖分类矢量图。
2.2试验区地物类别
应用遥感观测技术进行土地分类时,常依据地表覆盖(land cover)或土地利用(land use)的种类来定义土地类别的项目,而依据不同应用目的,常采用不同土地分类项目,如常被用于定义地物分类目标类别的美国地质调查局(United States Geological Survey,USGS),依据遥感影像所定义的土地利用/地表覆盖分类表、英国土地利用分类表、中国土地资源利用分类表等进行分类。然而,在每个区域内不一定涵盖各分类表中所定义的项目。因此,本研究中根据试验区所涵盖的地物,参考以上分类表并予以适当选择[11]。
图2 试验区域
此试验区位于山东省中南部山区村落,地形包括山地、平坦地、丘陵及河流,山区的地物大部分为植被;平坦地因有人群居住,地物类型较多,包括道路、房屋、农田、草地等。定义为林地、农田、丘陵、房屋、水体等五种地物类别。原因如下:①林地:所选区域包括蒙山和沂山,山区的地物覆盖类型比较单一,主要为林地;②农田:大部分位于平原,此区域土壤肥沃,适于农耕,以玉米、小麦为主要作物,当采用标准假彩色合成图像时,由于突出表现了植被的光谱特性,因而多显示为红色且形状整齐[12];③丘陵:所选区域位于淄博市南部淄川区以及临沂市大部分地区,多为低矮的丘陵地带,分布不规则,由众多小丘连绵而成,高度差在平原和山地之间;④房屋:此区域的建筑物多为居民住房,建筑物低矮密集,当采用标准假彩色合成图像时,多显示为蓝色且形状整齐,易于区分辨认;⑤水体:此区域分布有黄淮水系,河流较多。
2.3试验样本选取
本研究利用ENVI(the environment for visualizing images)遥感图像处理软件定义训练样本,并依靠目视解译来创建感兴趣区(region of interest,ROI)。TM图像由7个波段组成,各波段之间的相关性较高。不同的RGB组合可以得到不同的彩色图像。因此,需根据分类种类以及地物光谱特性选择相应的图像增强方法,以区分各种地物类型[13]。首先在显示的假彩色图像上,目视解译出5类地物,再通过进一步分析图像,定义5类地物样本分别为林地、农田、丘陵、房屋和水体。
文中使用计算ROI可分离性(compute ROI separability)工具来计算任意类别间的统计距离,这个距离用于确定两个类别间的差异性程度。类别间的统计距离基于Jeffries-Matusita距离和转换分离度(transformed divergence,TD)来衡量训练样本的可分离性[14]。
因此,可通过计算分离度来量化特性间分布的距离,以客观估算特征对于各类别之间的分离性。分离度通过距离量表(表2、表3)表示两类别之间的分离程度,其定义为计算两类别间最小错误机率等价的最大机率距离量。
表2 各种类别分离度的计算公式
表3 各地物特征的分离度
2.4分类成果
不同卫星所采集的遥感影像分别采用两种方法,使用分类器进行分类,结果如表4所示,其中,两幅遥感影像分别为Landsat5卫星上的TM传感器和Landsat7卫星上的ETM+传感器所采集的原始数据,两种分类器分别为ML和SVM。
表4LT5和LE7卫星遥感数据分类成果
Tab.4Classification results of LT5 and LE7 satellite remote sensing data
2.5精度分析
表4中的样本数据截取自LT5与LE7遥感影像中涵盖多种地物的典型区域,并通过灰度级别对不同地物类别加以区分,其中包括林地、丘陵、农田、水体和房屋等五种地物类型。
分类精度可以用训练样本中分类正确的样本数和误分样本数来表示,也可用实际类型与预测类型的误差矩阵来表示,其中误差矩阵是目前研究者运用较多的一种方法。误差矩阵是一个m×m的矩阵(m是类别数),表示了训练样本中被分到某一类而经过检验属于某一类的数目。表5~8列出了分类成果,列表示参考数据,行表示分类数据。
表5 基于LT5的ML分类成果评价表
表6 基于LT5的SVM分类成果评价表
通过分析可知,对于LT5,LE7两种影像数据而言,采用支持向量机分类器的生产者精度(PA)平均值分别可达到93.23%和98.96%,其值略高于最大似然分类器。其中,对于LT5,当采用支持向量机分类器时,农田的分类精度达到了99.14%,同时,丘陵的分类精度达到了97.18%,其他地物类型的分类精度也普遍高于最大似然分类器;而对于LE7,当采用支持向量机分类器时,各种地物类型的分类精度均高于最大似然分类器。
表7 基于LE7的ML分类成果评价表
表8 基于LE7的SVM分类成果评价表
由表5~8可以看出,随着分类方法的改变,两种遥感图像的总体分类精度变化是相同的。其中,相对于最大似然分类器ML,支持向量机分类器SVM的效果显著提高,这也证明了该分类方法的可靠性。
表9 基于LT5、LE7的ML和SVM分类成果比较
通过分析可知,对于LT5,LE7两种影像数据而言,采用支持向量机分类器的生产者精度(PA)平均值分别可达到93.23%和98.96%,其值略高于最大似然分类器。其中,对于LT5,当采用支持向量机分类器时,农田的分类精度达到了99.14%,同时,丘陵的分类精度达到了97.18%,其他地物类型的分类精度也普遍高于最大似然分类器;而对于LE7,当采用支持向量机分类器时,各种地物类型的分类精度均高于最大似然分类器。
通过上述表5~8分析,并结合表9和图3,结果表明,对于LT5,两种分类器的精度相差不大;而对于LE7,SVM分类器的精度明显高于ML分类器。究其原因主要有以下几点:①LE7影像数据来源于Landsat7卫星,其机载传感器为ETM+,该设备增加了一个15 m分辨率的全色波段,显著提高了红外谱段的分辨率;②由不同地物的光谱特性曲线和试验区概况易知,植被对红外谱段具有较高反射率,在假彩色合成影像上较易区分,因而相对于TM影像(LT5)具有较高分辨率;③SVM分类器根据有限的样本信息,综合考虑特定训练样本的学习精度和学习能力,寻求最佳化解决方案,因而在处理高红外光谱分辨率的ETM+影像时拥有更高的分类精度。
图3 不同地物分类方法对分类精度的影响
为指导用户合理选择最优化的分类策略,本文在分析分类精度的同时,还通过测试ML和SVM两种方法分别消耗的时间比较其分类效率,从而量化时间差异,提高分类准确度。具体方案:①设计四个类别,即LT5+ML、LT5+SVM、LE7+ML、LE7+SVM,每个类别均进行五组试验,总计二十组试验,编号从01至20,其中,01和02,03和04,……、17和18、19和20分别基于同一组检核样本。②分别记录分类所消耗的时间,计算同一幅遥感影像分别利用ML和SVM方法分类的时间比,如表10中最后一列所示。③分别对不同影像在同一方法下的分类时间取平均值,再计算时间比。
表10 基于LT5、LE7的ML和SVM分类时间比较
通过大量试验比较分析,发现比值近似为一个常数,即1∶25.973,这表明SVM方法所消耗的时间明显高于ML方法,且随着试验次数的增加,时间差异趋于平稳,保持在1∶25.973左右。
3结论与建议
1)由上述试验结果可知,在处理TM影像(如LT5)时,由于两种分类方法精度相差不大,应选择算法更为简单优化的ML分类器,以提高分类效率;而在处理ETM+影像(如LE7)时,则应选择算法较为复杂的SVM分类器,以保证分类精度。
2)因此,本研究使用两种卫星影像数据,以五种地物类别即林地、农田、房屋、丘陵、水体展开分类统计,并针对不同分类器进行对比分析和精度评价。运用传统的监督分类思想对同一地区的遥感影像进行分类处理,通过定量分析,得出不同分类方法的特点并且分类结果也有一定差别。总体上,支持向量机的分类结果与实际情况最为接近,精度较高,对于地物分类模型的误差评判具有重要意义。
参考文献:
[1]VAMANAN R,RAMAR K.Classification of agricultural land soils:A data mining approach[J].International Journal on Computer Science & Engineering,2011,3(1):82-86.
[2]洪宇佳.全波形空载光达资料之波形特征分析与分类[D].台南:国立成功大学,2013:53-70.
[3]李爽,丁圣彦,许叔明.遥感影像分类方法比较研究[J].河南大学学报(自然科学版),2002,32(2):70-73.
LI Shuang,DING Shengyan,XU Shuming.The comparative study of remote sensing image classification[J].Journal of Henan University (Natural Science),2002,32(2):70-73.
[4]张宏伟.基于遥感影像的海岛(礁)提取技术研究[D].郑州:解放军信息工程大学,2011:6-12.
[5]崔宾阁,庄仲杰.基于最佳距离度量的两层最近邻分类算法[J].山东科技大学学报(自然科学版),2015,34(3):20-27.
CUI Binge,ZHUANG Zhongjie.Two-level nearest neighbor classification algorithm based on optimal distance metric[J].Journal of Shandong University of Science and Technology (Natural Science),2015,34(3):20-27.
[6]陶秋香.植被高光谱遥感分类方法研究[J].山东科技大学学报(自然科学版),2007,26(5):61-65.
TAO Qiuxiang.Vegetation classification methods based on hyperspectral remote sensing[J].Journal of Shandong University of Science and Technology (Natural Science),2007,26(5):61-65.
[7]郭琳,裴志远,吴全,等.面向对象的土地利用/覆盖遥感分类方法与流程应用[J].农业工程学报,2010,26(7):194-198.
GUO Lin,PEI Zhiyuan,Wu Quan,et al.Application of method and process of object oriented land use cover classification using remote sensing images[J].Transactions of the CSAE,2010,26(7):194-198.
[8]任广波.基于监督学习的遥感影像分类技术研究[D].青岛:中国海洋大学,2010:5-15.
[9]林莉萍.应用空载光达资料估计森林树冠高度模型及叶面积指数[D].台南:国立成功大学,2013:14-22.
[10]刘志刚,史文中,李德仁,等.一种基于支撑向量机的遥感影像不完全监督分类新方法[J].遥感学报,2005,9(4):363-373.
LIU Zhigang,SHI Wenzhong,LI Deren,et al.Partially supervised classification of remotely sensed imagery using support vector machines[J].Journal of Remote Sensing,2005,9(4):363-373.
[11]CONGALTON R G.A review of assessing the accuracy of classifications of remotely sensed data[J].Remote Sensing of Environment,1991,37(1):35-46.
[12]GUO L,CHEHATA N,MALLET C,et al.Relevance of airborne lidar and multispectral image data for urban scene classification using random forests[J].ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(1):56-66.
[13]张睿,张继贤,李海涛.地形数据辅助下的山区土地覆盖分类研究[J].山东科技大学学报(自然科学版),2007,26(1):38-41.
ZHANG Rui,ZHANG Jixian,LI Haitao.Classification study of mountainous land cover aided by topographic data[J].Journal of Shandong University of Science and Technology (Natural Science),2007,26(1):38-41.
[14]MALLET C,BRETAR F,ROUX M,et al.Relevance assessment of full-waveform lidar data for urban area classification[J].ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(6):71-84.
(责任编辑:高丽华)
Accuracy Evaluation and Comparison of Ground Objects Classification in Remote Sensing Images Based on ML and SVM Methods
WANG Mingwei1,WANG Zhiping2,ZHAO Chunxia1,MA Yue1,ZHANG Kai1,YANG Fanlin1
(1.College of Geomatics,Shandong University of Science and Technology,Qingdao,Shandong 266590,China;2.Changjiang Institute of Survey,Planning,Design and Research,Changjiang Water Resources Commission,Wuhan,Hubei 430010,China)
Abstract:Supervised classification algorithm for remote sensing image has been significantly applied in the field of environmental monitoring and geologic survey. A comparison of Maximum Likelihood (ML) and Support Vector Machine (SVM) classifiers was conducted on extracting and recognizing the types of ground objects for land use and surface cover. The impacts of these two methods on the classification results were analyzed systematically. By selecting Landsat LT5 & LE7 satellite remote sensing image and defining training samples, the classification accuracies of ML and SVM classifiers were compared. It is found that the classification accuracies of combining Landsat LT5 with ML & SVM are 94.64% and 94.98%, while the classification accuracies of combining Landsat LE7 with ML & SVM are 97.63% and 99.29%. The experiment results show that, for LT5 image, the accuracies of these two classifiers are almost the same, but for LE7 image, the accuracy of SVM classifier is significantly higher than that of ML classifier.
Key words:classification;Maximum Likelihood (ML);Support Vector Machine (SVM);sample
收稿日期:2015-11-09
基金项目:国家自然科学基金项目(41376108,41506210);测绘公益性行业科研专项经费资助项目(201512034);海洋公益性行业科研专项经费资助项目(201305034);中国博士后基金面上项目(2015M572064);卫星测绘技术与应用国家测绘地理信息局重点实验室开放基金(KLAMTA201408);海岛(礁)测绘技术国家测绘地理信息局重点实验室资助项目(2014A01)
作者简介:王明伟(1992—),男,湖北武汉人,硕士研究生,主要从事机载激光测深方面的研究. E-mail:ericking1992@foxmail.com 阳凡林(1974—),男,湖北荆州人,教授,博士生导师, 主要从事海洋测绘及GNSS应用等方面的研究,本文通信作者.E-mail:yang723@163.com
中图分类号:P236
文献标志码:A
文章编号:1672-3767(2016)03-0025-08