张 辉 (山西省科学技术情报研究所,山西太原 030001)
基于多分类器组合的遥感土地利用分类研究
张 辉(山西省科学技术情报研究所,山西太原 030001)
遥感影像在土地利用/覆盖变化研究中广泛使用。如何从遥感影像中快速、高效地获取较高精度的数据,已成为遥感行业数据提取的一大研究热点[1]。对待分类的遥感影像图,传统方法是采用分类效果最好的单分类器作为最后的解决方案[2]。一般来说,没有一种分类器能很好地区分所有样本数据,不同分类器错分类别也并不完全相同,这说明不同分类器之间可能存在互补信息,伴随着模式识别问题愈发复杂,人们开始尝试着去研究能否很好地利用这类分类互补信息,进而提出了组合分类的思想[3]。
基于多分类器组合的研究最早出现在模式识别中,而今它的很多相关理论和方法也得到发展[4]。从组合结构上来讲,多分类器组合可分为2类。当采用串行结构时,先执行的分类器为后执行的分类器提供帮助,并指引着后者的分类进程[5]。Liu等[6]利用专家系统分类,然后把得到的分类结果图用来辅助NN分类,结果提高了分类精度,也较准确地获取了研究区的土地利用信息。而当采用并行结构进行分类器组合时,实质上就是综合了各基分类器的结果[7]。
笔者首先利用最小距离分类器(MDC)、最大似然分类器(MLC)、神经网络分类器(NN)和支持向量机分类器(SVM)4种基分类器进行遥感图像分类,主要通过输出混淆矩阵和Kappa系数进行分类结果评价,选出精度指标较高的分类器作为基分类器进行组合,采用改进的加权投票方法进行分类,最后找出精度最高的多分类器组合。
1研究区与数据
选取山西省中部晋中市榆次区作为研究区。研究区地处黄土高原东部边缘,东部为太行山,西部为晋中盆地,地势东高西低,山地、丘陵、平川呈阶梯状分布。研究区面积为1 328 km2,区域内土地利用/覆盖类型较为复杂,土地覆盖的空间异质性显著。
覆盖研究区的Landsat TM数据来源于中国科学院计算机网络信息中心国际科学数据镜像网站(http://www.gscloud.cn),Landsat TM数据轨道号为125-34,获取日期为2011年8月5日,经过几何校正、影像裁剪等预处理后,选取1~5波段和7波段,共6个波段数据(图1)。以榆次区第二次全国土地调查数据1∶1万比例尺土地利用数据为参考,作为该研究遥感影像的训练样本、基本端元选取及分类精度评价的先验数据。
图1 榆次区TM影像5,4,3假彩色合成图
2多组合分类器原理
组合分类器是一种通过组合决策,充分利用各基分类器间存在的互补信息来提高分类精度而建立的遥感图像分类系统。这个分类系统包括基分类器生成、组合分类器结构以及组合决策机制3部分[8]。
2.1分类器组合方法投票法源于一种假定理论:群体的判断会优于个体判断[9]。
投票法组合方法:对于输入的X分类,将分类器ek的输出结果参与组合决策。投票函数为:
(1)
式中,Tk(X∈Cj)是类别Cj经分类器ek输出后得到的票数,若被判为j类,则给予1票;如若不是,则投0票。
通常投票规则:
(2)
式中,k值取1~R,i∈Φ;ek(X)=M+1时,分类器ek无法识别X;0<α<1。当α=1所有分类器ek输出的类别相同时,才会将这一结果作为像元归属类别,否则当不识别处理;当α=0.5超出半数的分类器ek输出的类别相同时,将这一结果作为最终决策类别;当α为很小的接近0的正数且某一类别获得相对较多的票数时,将这一类别作为像元归属类别,否则当作不识别处理。因此投票法依据α的值可以分类为:完全统一投票法、多数投票法、相对多数投票法。
2.2改进的加权投票法基于各分类器分类各有优势,也各有不足,所以要想使组合后的分类结果达到较高精度,即能充分体现各基分类器的互补优势,一般会通过衡量各基分类器的性能来求取加权值,对性能好的分类器赋予大的权值[10]。该研究将各基分类器分类输出的用户精度指标值作为投票法集成算法中的加权值。具体改进的组合方法公式为[9]:
(3)
对于输入的X值,分类输出得到的票数值为分类器ek输出的用户精度值。为了获得便于做分析的结果,该研究选用的α值为很小的接近0的正数,当某一类别获得相对较多的票数时,将这一类别作为像元归属类别。
改进后的投票组合规则为:
(4)
2.3组合结构首先选择了4种典型的监督分类器进行,这4种方法在遥感影像分类中各有优势,具有一定的算法独立性。然后选取分类结果较好的分类器参与组合分类,研究可形成4种不同组合形式的组合分类结果。
2.3.1最小距离分类(MDC)。最小距离分类法主要包含以下2种分类类型:最小距离判别法将待分像元归属于其与已知类别距离最小的一类;最近邻域分类法将某像元到每类别中的最小距离确定为其到该类别的距离,然后将其归属于与其距离最小的类别。最小距离分类法的优点是计算速度快;缺点是原理简单,分类精度不高。
2.3.2最大似然分类(MLC)。最大似然分类法首先假设研究区的总体分布是近似服从正态分布的,先求得均值、方差等特征参数,最后求取概率密度函数。但当总体分布不服从于正态分布时,则不适合采用这种方法进行研究。
2.3.3人工神经网络(ANN)。简称神经网络(NN), 神经网络算法是利用计算机模拟人类学习的过程。它不需要对数据分布的先验知识,且具有自学习、自组织能力,同样适用于非线性离散样本;还适合同时对遥感数据、辅助数据(如地形、坡度等)进行处理[19]。神经网络的优点是分类的正确率高,并行处理能力较强,具有联想记忆能力等;缺点是需有许多参数,学习的时间超长等。
2.3.4支持向量机(SVM)。支持向量机(SVM)经常被用于遥感影像的分类试验中并且能够得到较好的识别效果。它不同于ANN方法与传统统计方法,SVM并不是通过减少特征个数来控制模型复杂性的[20]。SVM的优点是可解决高维、非线性问题;缺点是对缺失数据较为敏感。
3基于多组合分类器的遥感分类试验
3.1训练样本和验证样本的采集依据榆次区土地利用类型的特点,所选样本可分为植被、建设用地、裸土、裸岩、阴影、水体6类。训练样本和测试样本使用不同的样本数据。试验所用的样本需要依据以下原则选取:尽量保证训练样本类别符合事实;样本数目应足够多且尽可能分布均匀。
3.2基于改进的加权投票法遥感分类试验
3.2.1基分类器的选择。每个基分类器在组合分类器中都起着重要的作用,其性能如何,直接决定组合分类器的最后分类结果。因而,选取合理的基分类器是组合分类结果取得成功的关键[11]。概括来说,它的选取应满足以下条件:较好的分类性能、多样性的分类效果以及较高的分类效率。此外,参与组合分类的基分类器的个数不宜过多。因为这样不仅会使分类的变复杂,而且难以保证上述的选取条件[12]。
在评价分类结果方面,除混淆矩阵外,Kappa分析能够准确地评价结果图与地表真实图的相似度,而且不容易受小的像元类别的变动影响。所以它能够有效地评判分类结果[13]。
(1)基分类器的分类。该研究整个分类过程都使用相同的训练样本进行遥感分类,用相同的验证样本进行精度评价。各基分类器的分类成果见图2。输出混淆矩阵等分类结果评价信息见表1、2。
(2)各单分类器分类结果分析。结合分类成果图和输出信息可以看出,运用各单监督分类器进行遥感分类时,各分类结果的各项精度精度指标值的差别并不是很大。当用MDC分类时有很多样本被归于未分类(尤其体现在植被类别的分类上),而用其他3种分类方法分类时所有训练样本都参与分类。当采用MLC分类时,有少部分裸岩被判别为水体。而当采用NN分类时,部分土地被判别为裸岩。总的来说,神经网络分类和支持向量机分类是比较好的遥感图像计算机分类方法,结果更为准确(较地面真实土地利用情况更为吻合)。
表1 各单分类器部分输出信息
表2 各单分类器用户精度输出信息(比值)
该研究依据上述基分类器的选取条件为基本标准,结合各分类器分类结果输出的各项精度指标值,从4种典型的监督分类器中选取MLC、NN、SVM这3种监督分类器作为基分类器。
3.2.2基于改进后的加权投票算法的多分类器组合分类。利用上述选取基分类器的用户精度指标值作为加权投票组合算法的加权值,然后任意组合可形成4种不同组合形式的分类结果。具体的实现过程如下:在ENVIIDL开发环境下编写源文件代码(.pro),通过手动参与分类的分类器数量、依次读取各基分类器的分类结果文件(.dat格式)来实现不同组合形式下的多分类器组合分类。分类结果见图3。分类结果的输出信息见表3。
图2 榆次区监督分类结果
图3 榆次区组合分类成果
多分类器组合总体精度∥%Kappa系数MLC+NN97.51480.9525MLC+SVM97.26090.9477NN+SVM98.44330.9527MLC+NN+SVM95.36780.9399
3.2.3精度对比分析及评价。从基于先进的加权投票算法实现的组合分类部分成果及输出信息等可以看出,组合分类器在某些组合情况下样本被错分、误分的机率小。从各分类精度折线(图4)可以看出,尤其是在MLC与NN 、NN与SVM、MLC与SVM两两分类器组合分类的时候,它们的总体分类精度较各基分类器分类时的最高值(95.27%)提高了2~3个百分点,应该是由于基分类器两两之间参与分类时的结合能力较强。而当MLC、NN、SVM 3个基分类器都参与组合分类时,可能是由于三者之间的结合能力不强,又或是由于这三者之间分类性能效果比较接近,所以三者组合分类的效果不太明显,分类精度指标值都要低于3个两两组合分类。但总的来说,研究结果在一定程度上证明了多组合分类器的可行性和有效性,达到了预期的效果。
图4 各分类精度折线
4结论
该研究采用榆次区Landsat TM遥感影像数据,首先利用MDC、MLC、NN和SVM这4种典型的监督分类器进行遥感土地利用分类,结果表明NN、SVM和MLC分类精度较高;之后利用上述3种精度指标较高的基分类进行组合,选取4种不同的多分类器组合方式,利用改进后的加权投票集成算法进行组合分类,结果表明,多分类器组合分类时的分类结果精度高于单独的基分类器的类,且两两基分类器的组合时的分类精度要高于3个基分类器组合分类时的结果。总而言之,试验证实了多组合分类器的有效性和可行性,能够提高传统分类方法的分类精度。
参考文献
[1] 刘小平,黎夏,何晋强,等.基于蚁群智能的遥感影像分类新方法[J].遥感学报,2008,12(2):253-262.
[2] 郑忠,曾永年,刘慧敏,等.并联结构组合分类器的误差分析[J].遥感技术与应用,2011,26(3):340-347.
[3] 温兴平.基于多分类器组合的高光谱遥感数据分类技术研究[D].北京:中国地质大学,2008.
[4] 周伟,马洪超.TM影像分类领域多分类器线性组合方法及差异性度量研究[J].黑龙江工程学院学报(自然科学版),2006,20(4):14-20.
[5] CAO J,AHMADI M,SHRIDHAR M. Recognition of handwritten numerals with multiple feature and multistage classifier[J].Pattern recognition, 1995, 28(2):53-160.
[6] LIU SKIDMORE A K,VAN OOSTEN H. Integration of classification methods for improvement of land-cover map accuracy [J]. ISPRS journal of photogrammetry & remote sensing,2002, 56: 257-268.
[7] XU L H,KRZYZAK A,SUEN C Y.Methods of combining multiple classifiers and their applications to handwriting recognition [J].IEEE Trans SMC, 1992, 22(3):418-435.
[8] 郑忠.适应性组合分类器遥感分类研究[D].长沙:中南大学,2013.
[9] 张少佳.多分类器组合及其遥感分类研究[D].长沙:中南大学,2010.
[10] JENSEN J R.遥感数字影像处理导论[M].陈晓玲,等译.3版.北京:机械工业出版社,2007.
[11] 李斌.基于多组合分类器的高光谱图像识别技术研究[D].北京:中国地质大学,2008.
[12] 彭正林,毛先成,刘文毅,等.基于多分类器组合的遥感影像分类方法研究[J].国土资源遥感,2011(15):19-25.
[13] 赵英时.遥感应用分析原理与方法[M].北京:科学出版社,2002:194-207.
摘要为了从遥感影像中快速、高效地获取较高精度的数据,按照分类组合的思想,根据山西省太原市榆次区Landsat TM影像数据,将传统监督分类中分类性能较好的分类器作为基分类器,运用改进后的加权投票算法进行多分类器组合,用于研究区遥感影像土地利用/覆被数据分类。结果表明,多分类器组合的分类结果精度要高于单独的基分类器分类精度,两两分类器组合的分类精度要高于三分类器组合的精度。研究结果证实了多分类器组合的可行性和有效性,能够提高传统分类方法的分类精度。
关键词土地利用;遥感分类;多分类器组合
Land Use Classification Based on the Remote Sensing Classification by Multi-classifier Combination
ZHANG Hui(Institute of Scientific and Technical Information of Shanxi,Taiyuan,Shanxi 030001)
AbstractIn order to get higher accuracy data quickly and efficiently from the remote sensing image,according to the thought of combination classification, using the Landsat TM image data of Yuci District in Taiyuan,Shanxi,we took the typical and high-accuracy supervised classifiers as basic classifiers of multiple classifiers, to studing how can adopt the improved wighted voting to making a simple research of land use /cover classification of the remote sensing image. The results show that the combination of multiple classifiers classification accuracy was higher than that of single classifier classification accuracy, two classifiers combination classification accuracy was higher than the accuracy of three classifier combination.This paper proved the effectiveness and feasibility of multiple classifiers integration, and proved that it can improve the accuracy of traditional classification by multi-classifier combination.
Key wordsLand use;Remote sensing classification;Multi-classifier combination
收稿日期2015-10-19
作者简介张辉(1984-),男,山西天镇人,助理研究员,硕士,从事农业资源利用、科技情报研究。
基金项目山西省农业科技攻关项目(20130311037-3)。
中图分类号S 127
文献标识码A
文章编号0517-6611(2015)32-389-04