王 耀,杨化超,王光辉,黄 杰,王 更,刘 笑
(1. 中国矿业大学,江苏 徐州 221116; 2. 国家测绘地理信息局卫星测绘应用中心, 北京 100830)
利用多分类器自适应级联模型的高分二号影像分类
王 耀1,2,杨化超1,王光辉1,2,黄 杰1,2,王 更1,2,刘 笑1,2
(1. 中国矿业大学,江苏 徐州 221116; 2. 国家测绘地理信息局卫星测绘应用中心, 北京 100830)
针对传统单一分类器分类效果不够理想,存在各自的不足,以及已有的多分类器级联模型不能根据待识别样本特征进行动态调整优化等问题,提出了一种基于多分类器自适应级联模型的遥感影像分类方法。该模型选取各类别最优分类器进行级联组合,以待识别样本在整体性能最优分类器的表现对类别最优分类器作出自适应调整,对高分辨率影像分割后的像斑对象输出类别信息。以杭州区域高分二号遥感影像进行分类试验,结果表明,本文方法相比于单一分类器及已有的级联模型具有更高的分类精度。
多分类器;影像分类;自适应模型;高分二号
对遥感影像提取类别信息,是遥感数据在各个领域得到广泛应用的基础环节,是遥感数据转换为可用地理数据的技术核心[1-2]。随着高分辨率遥感影像的快速发展,地物细节信息变得更加丰富与精细,但“同物异谱”现象的出现会对分类质量带来不良影响。传统单一分类器利用了影像某方面的特征和规则而忽略了其他方面的有用信息,存在一定的局限性与各自的不足,导致最终的输出类别精度无法满足实际应用的需要,因此,能够综合利用各种分类器的优势的多分类器集成方法成为学者研究的热点[3-5]。
多分类器集成对不同分类器之间的互补信息加以利用,可以构造优于单个分类器的融合器,从而显著提高分类精度。近年来,多分类器组合的方法逐渐应用在遥感影像分类领域中并取得了良好的效果。柏延臣等[6]分别给出了抽象级上相同训练特征多分类器组合、抽象级上不同训练特征多分类器组合和测量级上贝叶斯平均法多分类器组合,完成了Landsat TM多光谱影像土地覆被分类;韩建峰等[7]将组合分类方法引入到高光谱影像的分类过程中,针对影像特点,提出了级联与并联混合的组合策略;王惠英等[8]提出最近距离法和基于知识规则的模糊分类法相结合的混合分类法,使总体分类精度得到了提高;彭正林等[9]自定义规则对简单投票法、最大概率类别法及模糊积分法进行组合完成航摄数字正射影像的分类。这些方法在分类前选取了固定的参数进行多分类器集成,对任何测试样本均采用相同的分类器子集,系统结构固定,缺乏一定的灵活性。本文充分考虑分类器级联组合方式的严密性及已有级联方法的缺陷,提出一种多分类器自适应级联模型指导遥感影像分类。多分类器自适应级联模型能够利用不同分类器模型之间的互补信息,并根据测试样本自适应调整每一类别最优分类器的级联顺序,有较高的泛化能力与识别精度。
级联方式组合结构主要有类集合减少方法和重新判定方法[10]。多分类器自适应级联模型采用重新判定方法,即当待识样本输入分类器后,按照某个“规则”对其类别作出判断,如满足一定的条件,则对其类别作出判断,并终止后续分类器对该样本的判断。如不满足该条件,则该分类器对其拒识,将其输入下一级分类器,进行相应判断操作。这里采用的“规则”指的是,当输入样本通过某类别专家,若分类后结果为该类别,并且按照某个置信度进行判断,在该阈值范围内,则认为此样本属于该类;否则,若不满足上述两个条件中的任意一个,则该分类器对其拒识,交给下一级分类器处理。若所有级联模型分类器都拒识,则最终交给整体性能最优分类器去完成样本识别。算法原理如图1所示。
图1 自适应级联模型算法原理
在子分类器集成中,只有当子分类器之间所产生的错误表现出一定的差异性,其错误才能被其他分类器补偿。大量文献表明[11],不同算法的分类器之间会存在较大差异性。目前常用的遥感影像分类器包括最近邻分类器、贝叶斯分类器、支持向量机分类器、神经网络分类器、光谱角分类器、马氏距离分类器等,在试验中具有较高的分类精度。一般情况下,度量层次输出的分类器包含信息丰富,因此,本文将这些常用的具有度量层次输出的分类器作为候选子分类器集来构造多分类器动态模型。
为了测试候选分类器精度,在开发和优化数据挖掘模型的过程中需要将含有类别真值标签的训练样本分为两部分,一部分用作训练分类模型,另一部分用作检核精度。研究中使用四折交叉验证的方法。方法的基本思路是:将含有标签的样本集分成4份,轮流将其中3份作为训练数据,剩余一份作为测试数据进行试验,每次试验都会得到分类模型的正确率,以4次结果的正确率平均值作为该分类模型的精度指标。四折交叉验证技术能够有效地计算分类模型的精度,对分类器模型有一个良好的评估。
利用四折交叉验证方法,根据各候选分类器在训练样本中识别的精度对比,选取每个类别的最优分类器[12-13]。类别最优分类器选取的是对特定类有最高的识别准确率的专家分类器,即在样本被分为某一类的先决条件下,该样本确实属于这一类的概率最大。类别最优分类器定义为
(1)
(2)
将每个类别最优分类器组合成级联模型,由于类别最优分类器对各自类有最高的识别准确率,若类别j最优分类器将待测样本识别为类别j,则该样本属于类别j的概率非常高,因此可以将此作为级联模型的一个输出条件。
样本识别为某一类的判定概率不同,不同的分类器模型有不同的决策空间,除了类别最优分类器输出为该类别这一级联输出条件以外,还增加了类别识别概率满足在特定置信范围这个条件。如不满足该阈值范围,模型依旧将待测样本拒识并传入下一级分类器。
tj=[max(f(l)j)+min(f(l)j)]/2
(3)
式中,tj为类别j最优分类器对j的识别阈值;l=1,2,…,njj,njj表示在训练样本中类别真值为j且类别j最优分类器也将其识别为j的样本集。函数值f具有不同的物理意义,如最小距离分类器,该函数值为样本点与类别中心的距离,而对于SVM支持向量机分类器,该函数值为样本点的预测概率。因此,对于不同的基分类器模型,都应根据实际情况求出输出类别的阈值。
设样本有M个类别,则级联部分包括M个类别最优分类器。由于不同的级联顺序会对分类精度产生一定的影响,因此如何对M个专家分类器进行排序是个值得研究的问题。考虑到样本空间的差异,对于类别为j的输入样本,更希望类别j的最优分类器首先对其进行分类,因为这样拒识的概率会很小,很大概率直接输出该类别信息,若存在非类别j的专家分类器优于类别j专家分类器顺序进行分类判断,则只要顺序在类别j专家分类器之前的任一专家错分,都会导致分类结果与实际不符。因此,寻找一个分类函数能够对样本获得排序级或度量级的分类输出是自适应连接的关键。
根据训练样本中各分类器交叉验证精度可以选取一个整体性能最优分类器,能够对样本有最高的识别精度与较强的泛化能力。分类混淆矩阵常用于图像分类评价,包含了分类器在样本集上的全部分类结果和实际测得值,其表达为
(4)
(5)
式中,nsum表示样本总个数。整体性能最优分类器定义为
Expert*=argmaxk{CAk|k=1,2,…,K}
(6)
式中,Expert*表示整体性能最优分类器;CAk表示分类器k的总分类精度。
根据待测样本在整体性能最优分类器的分类情况,能够有一个预测类别排序,由此排序自适应地调整分类器级联顺序,能够有效地提高样本最终分类精度。自适应级联过程如图2所示,y1,y2,…,yn为样本降序排列的预测类别。
图2 自适应级联过程
试验数据为浙江省杭州市西湖区2015年8月高分二号PMS多光谱遥感影像。研究区域大小为5030×3300像素,包含4个波段。对预处理后的影像利用文献[14]方法进行分割获取分割矢量,考虑到尺度越小像斑数越多,分割尺度取120,形状因子取0.3,紧致度因子取0.5,分割后获取像斑数目为7452个。研究区域321波段合成的真彩色影像与局部影像分割结果如图3所示。对像斑进行特征提取,选取常见的光谱特征有分割像斑对象的各波段光谱均值、标准差、最大值、最小值等;常见的纹理特征有各波段灰度共生矩阵的特征,如二阶距、熵、相关度等;常见的形状特征有面积、长度比、紧致度等;常见的指数特征有归一化植被指数NDVI、归一化水指数NDWI等。再随机均匀选取共400个像斑作为训练样本集,类别标签包括:水域、裸地、道路、建筑区、草地、林地。
候选子分类器集选择具有度量级输出的最近邻分类器(KNN)、朴素贝叶斯分类器(Naive-Bayes)、高斯径向基核的支持向量机分类器(RBF-SVM)、BP神经网络分类器(BP-ANN)、光谱角填图分类器(SAM)、马氏距离分类器(Markov-d)这6种分类器。在训练集上运用四折交叉验证后计算得到的类别准确率如图4所示,总体分类精度和Kappa系数如图5所示。
图5 训练集不同子分类器总体分类精度和Kappa系数
从图4和图5中可以选取各类别最优分类器与整体最优分类器,得出水域和荒裸地的最优分类器为Native-Bayes,道路的最优分类器为SAM,建筑区和耕地的最优分类器为BP-ANN,林地的最优分类器为RBF-SVM,整体最优分类器为BP-ANN。将子分类器根据提出的自适应级联模型输出最终分类结果。
基于自适应级联结构的高分二号遥感影像分类结果如图6所示。本文方法对每种地物的分类精度见表1。
图6 自适应级联模型分类结果
表1 自适应级联模型分类精度 (%)
通过表1可以看出,本文的多分类器混联模型对各类地物具有较高的精度。为了验证本文分类方法的有效性与优越性,将子分类器分类结果、文献[15]采用的级联模型加入对比试验,来验证本文方法的有效性。
不同方法的总分类精度与Kappa系数见表2。
表2 不同分类方法精度对比
通过表2可以看出:
(1) 多分类器混联模型相比于单一子分类器具有更高的分类精度。子分类器中,BP-ANN总分类精度最高,本文方法总分类精度比BP-ANN高出2.52%,Kappa系数高出0.04,这是因为多分类器组合能够综合利用子分类器各自的优点,在本文中表现为对特定地物识别准确率最高的类别分类器,并且对于类别最优分类器拒识的待测样本,会最终传递到整体性能最优分类器中,因此,本文方法的分类精度会高于子分类器的分类精度,这体现了多分类器组合方法在遥感分类应用的优势。
(2) 本文自适应级联方法相比于文献[15]级联方法总分类精度高出1.75%,Kappa系数高出0.03,分类精度有所提高,这是由于文献[15]提出了一种多分类器组合的静态方法,没有将获取的专家分类器进行动态组合,缺乏灵活性,而自适应级联模型能够随识别目标根据特征空间自适应地调整组合模型,让某类别样本优先进入该类别专家进行判断输出,因此正确率更高。
本文针对传统单一分类器分类效果不够理想及已有的级联模型无法根据样本特征动态调整的问题,提出了一种基于多分类器自适应模型的遥感影像分类方法。该方法利用不同分类器模型之间的互补信息,并且能够根据样本在整体最优分类器上的输出概率自适应动态调整选取的每一类别最优分类器的级联顺序,以高分二号影像为例对多种分类方法进行对比,验证了本文方法具有更好的分类性能。
[1] 黄鸿, 郑新磊. 高光谱影像空-谱协同嵌入的地物分类算法[J]. 测绘学报, 2016,45(8):964-972.
[2] 刘小平, 黎夏, 何晋强, 等. 基于蚁群智能的遥感影像分类新方法[J]. 遥感学报, 2008,12(2):253-262.
[3] 杨海波, 王宗敏, 张涛. 基于混合多分类器结合算法的遥感分类[J]. 计算机工程, 2010,36(11):173-175.
[4] 鲍蕊. 光谱和空间特征联合的高光谱遥感影像多分类器集成方法[D]. 南京:南京大学, 2016.
[5] 郭云开, 曾繁. 融合增强型模糊聚类遗传算法与ISODATA算法的遥感影像分类[J]. 测绘通报, 2015(12):23-26.
[6] 柏延臣, 王劲峰. 结合多分类器的遥感数据专题分类方法研究[J]. 遥感学报, 2005,9(5):555-563.
[7] 韩建峰, 杨哲海. 组合分类器及其在高光谱影像分类中的应用[J]. 测绘科学技术学报, 2007,24(3):231-234.
[8] 王惠英, 苏伟, 周军其. 基于多分类器组合面向对象遥感影像信息提取方法[J]. 测绘工程, 2009,18(5):22-26.
[9] 彭正林, 毛先成, 刘文毅, 等. 基于多分类器组合的遥感影像分类方法研究[J]. 国土资源遥感, 2011(2):19-25.
[10] 唐春生, 金以慧. 基于全信息矩阵的多分类器集成方法[J]. 软件学报, 2003,14(6):1103-1109.
[11] 窦鹏. 基于投票法的多分类器集成遥感影像分类技术[D]. 兰州:兰州交通大学, 2014.
[12] 陈绍杰, 李光丽, 张伟,等. 基于多分类器集成的煤矿区土地利用遥感分类[J]. 中国矿业大学学报, 2011, 40(2):273-278.
[13] 薛梅, 郑全弟. 基于差异性度量的多分类器集成系统设计[J]. 计算机工程与设计, 2010, 31(23):5104-5107.
[14] 王更, 王光辉, 杨化超. 融合颜色-纹理模型的均值漂移分割算法[J]. 测绘科学, 2015,40(8):108-112.
[15] SUN J, LI H. Financial Distress Prediction Based on Serial Combination of Multiple Classifiers[J]. Expert Systems with Applications, 2009,36(4):8659-8666.
ClassificationofGF-2ImageUsedbyMultipleClassifiersSelf-adaptionCascadeModel
WANG Yao1,2,YANG Huachao1,WANG Guanghui1,2,HUANG Jie1,2,WANG Geng1,2,LIU Xiao1,2
(1. China University of Mining and Technology, Xuzhou 221116, China; 2. Satellite Surveying and Mapping Application Center, NASG, Beijing 100830, China)
Aiming at the shortcomings of traditional single classifier and the lacking that the existing multiple classifiers cannot adjust itself dynamically according to the characteristics of unknown sample, the classification method of high resolution remote sensing image based on the self-adaption cascade model of multiple classifiers is proposed. In this model, the optimal classifier and the whole optimal classifier are selected to dynamically assemble, making an self-adaption adjustment by performance of the sample which will be classified in this classifier, and the model can produce output category information. By GF-2 image on Hangzhou area classification test, the results show that the multiple classifiers self-adaption cascade model method has a higher classification accuracy compared to a single classifier.
multiple classifiers; image classification; self-adaption model; GF-2
王耀,杨化超,王光辉,等.利用多分类器自适应级联模型的高分二号影像分类[J].测绘通报,2017(11):32-36.
10.13474/j.cnki.11-2246.2017.0343.
P237
A
0494-0911(2017)11-0032-05
2017-04-04;
2017-06-15
国家自然科学基金(41371438)
王 耀(1992—),男,硕士,研究方向为遥感信息提取。E-mail:xz_wangyao@163.com