曹 浩,韩贤权,黎建洲*,吴 柯,刘慧泽
(1.长江水利委员会长江科学院,湖北 武汉 430010;2.中国地质大学(武汉) 地球物理与空间信息学院,湖北 武汉 430074)
高光谱数据具有维数高、冗余信息巨大等特点,在真实训练样本信息不足的情况下,易出现大量Hughes现象,这将极大影响地物探测和识别的精度[1]。支持向量机(SVM)自提出起就受到了广泛的关注。利用SVM空间构建的核函数,合理地避开了高维空间计算的复杂性,在线性可分的情况下能有效求解对应高维空间的决策问题。将这种单核SVM应用于数据量庞大的高光谱遥感影像分类、识别中,效果非常显 著[2-3]。2002年Smits G F[4]等在单核SVM的基础上提出了一种混合核SVM的高光谱影像分类方法,主要通过构建与组合不同的核函数来完成SVM的空间映射;相较于单核SVM,混合核能取得更好的分类效果;随后一些研究者陆续发展了不同形式的混合核SVM,并取得了良好的效果[5-8]。然而,利用混合核SVM的传统分类方法完全是从光谱维的角度来构建混合核SVM模型,并未考虑影像的空间结构信息,基于单一的光谱维的分类器并不一定能满足需求[9]。已有研究结果表明,将空间结构信息加入SVM模型能有效提高分类精度,如TAN K[10]等提出了基于空间形态学属性的分类模型,Tarabalka Y[11]等提出了SVM与马尔科夫随机场(MRF)相结合的模型,王晓玲[12]等提出了融合形态学特征的SVM模型等;但这些方法均是利用同一映射形式的单核SVM对空间信息与光谱信息的叠加信息进行统一处理,并未考虑混合核函数的形式。由于SVM不同核函数具有不同的特性,且空间信息与光谱信息存在差异性,因此如何构造混合核函数来有效地结合空间信息与光谱信息成为一个难点问题。
鉴于此,本文提出了一种全新的基于扩展的形态学剖面(EMP)与混合核SVM的高光谱影像分类方法。该方法既利用EMP提取了高光谱影像中的空间特征,并将空间特征与光谱特征进行有效结合,又在单核SVM的基础上构建了两种混合核SVM,充分发挥了混合核SVM的优势,进一步提高了高光谱影像的分类质量,尤其是对于一些混合情况比较复杂的区域,分类效果更显著,适用性更强。本文通过两组高光谱影像的分类实验验证了该方法的分类精度。
高光谱影像的EMP提取,是通过一系列半径增量相同的结构元素依次对影像做开运算与闭运算,从而得到一系列的开运算剖面与闭运算剖面[13]。开运算剖面的定义为:
式中,(x)为对尺寸为i的结构元素进行开运算操作;n为开运算剖面的总数量;x为图像上进行开运算的像素点,从而产生n维的特征向量。闭运算剖面的定义为:
式中,(x)为对尺寸为i的结构元素进行闭运算操作;n为闭运算剖面的总数量;x为图像上进行闭运算的像素点,从而产生n维的特征向量。
假设原始影像上的x为I(x),当式(1)和式(2)中的i=0,则OP0(x) =CP0=I(x)。此时将开运算与闭运算的剖面结合起来,就得到EMP,即
为了将EMP的提取应用到高光谱数据上,需要对高光谱数据进行特征提取。研究表明,对高光谱数据进行主成分分析(PCA),再选取方差较大的几个主成分进行形态学变换,能取得较好的效果。因此,对提取的每个主成分进行形态学变换得到一个叠置的特征向量,称为EMP。EMP一个维数为m(2n+1)的特征向量为:
式中,i=1,2,…,m,m为保留的成分数目。
SVM的核心思想是将数据映射到高维空间来寻求最优的分类超平面;由于小样本学习的特点,在统计样本量较少且特征维数较高的情况下,亦能获得良好统计规律[14]。对于给定的训练集{(x1,y1),…,(xn,yn)},xi∈RN,yi∈{-1,+1}以及对应的一个高维空间(希尔伯特空间)非线性的映射φ(.):RN→H,SVM主要求解的问题为:
式中,ξi为一定程度内允许的误差;c为对误差的容忍程度。
根据拉格朗日对偶算子,求解问题进一步转化为:
式中,0<αi<c且∑iαiiy=0,i=1,…,n。
由于SVM中的映射φ(.)都是以内积形式实现的,因此有核函数的定义为:
将式(7)代入式(6)求解对偶问题,得到对于预测数据向量x的分类决策函数为:
此时,SVM的核函数K由代表不同映射的核函数组合而成,其中一些常用的核函数为:①线性核函 数K(xi,x)=
根据Mercer定理可以推论:若在Rn×Rn上的空间,K1、K2均为核函数,对应的核矩阵半正定,则式(9)、式(10)的函数也是核函数[5]。
对于高光谱遥感影像,令每个像元为xi,像素点的光谱信息值为xis,像素点的空间信息值为xiw,本文构造了两种类型的SVM混合核函数。
1)权重累加混合核。
式中,μ为空间信息与光谱信息之间的权重系数,范围为0~1,可根据高光谱遥感影像的相关先验信息自行调整。
2)交叉信息混合核。
这是光谱信息与空间信息进行交叉内积时的一种交叉混合核。需要注意的是,在交叉信息混合核进行内积运算时,空间信息特征维数必须与光谱信息特征维数相同。
基于EMP与混合核SVM的高光谱遥感影像分类方法的主要步骤为:①利用基于相似性度量的波段选择算法提取光谱数据的光谱信息;②利用基于PCA的形态学运算提取EMP,作为空间信息;③构造空间信息与光谱信息相结合的SVM混合核;④进行高光谱数据的混合核SVM分类,如图1所示。
图1 基于EMP和混合核SVM的高光谱遥感影像 分类基本流程图
本文选取的分类精度评价指标为总体精度(OA)和Kappa系数。对于单核SVM,采用RBF函数;对于混合核SVM,空间信息的EMP采用RBF核函数,光谱信息采用多项式核函数。在累加权重混合核的参数设置中,惩罚参数c的范围为[1,200],且步长为1;对应空间信息的RBF核函数参数γ1的范围为[0.01,1],且增幅为0.01;对应光谱信息的RBF核函数参数γ2的范围为[0.01,1],且步长为0.01;权重参数λ的范围为[0.1,1],且步长为1,4个参数通过三重网格法交叉验证搜索得到。
常州夏桥数据由国产推扫式光谱成像仪(PHI)生成,研究区域为江苏省常州市夏桥及其附近区域;原始数据包括80个波段,删除2个噪声波段,剩余78个波段;影像大小为400×346,光谱范围为0.417~0.854 μm,如图2所示。影像中地物被分为道路、农田、碎石地、菜地、荒草地、水体6类,结合影像具体情况依次选取感兴趣区作为训练样本,数据的类别信息如表1所示。
图2 常州夏桥高光谱数据
表1 常州夏桥数据类别信息
实验在PCA提取前4个主成分的基础上,进行EMP提取;分别采用尺度为3×3和5×5的方形结构元素窗口对4个主成分进行对应的开运算与闭运算操作,每个主成分产生一个维数为5的EMP,最终的维度为20,如图3所示。
图3 EMP对夏桥影像运算的结果
本文分别利用单核SVM和混合核SVM组合不同的特征进行实验。
对于单核SVM,首先对原始光谱信息(OSI)、累计方差达99.18%的PCA前4个主成分(PCs)、利用波段选择得到的10维的最佳波段组合(SBs)和20维的EMPs等4种单一特征进行测试;再对EMPs+OSI、EMPs+PCs以及EMPs+SBs等3种组合特征进行测试。7种不同形式的分类结果如表2所示,可以看出,在利用单一特征进行分类的方法中,OSI的分类效果最差,OA为87.05%,Kappa系数为0.824;在利用组合特征进行分类的方法中,加入EMP作为空间信息后分类精度均得到了提高,EMPs+SBs的效果最好,OA为89.65%,Kappa系数为0.852;与EMPs+OSI相比,在数据降维后将光谱信息特征与EMP相结合能进一步提高分类精度。
对于混合核SVM,实验分为两种形式进行组合:累加权重和交叉信息。累加权重混合核组合了EMPs+ OSI、EMPs+PCs和EMPs+SBs等3种空间信息与光谱信息;由于交叉信息核中对应的数据维数必须相同,因此只选择EMPs+PCs,满足数据均为20维。 4种混合核的分类结果如表3所示,可以看出,混合核SVM的分类精度均高于单核SVM,其中EMPs+SBs的分类精度最高,OA达到了93.65%,Kappa系数为0.901。
表3 常州夏桥实验混合核的分类结果
为了更直观地比较分类的效果,OSI、单核EMPs+ SBs、混合核EMPs+PCs和EMPs+SBs的分类结果如图4所示,分类结果图与表2、3的统计结果一致,可以看出,4种分类图的局部差异较明显,对于碎石地和道路两个混杂类别,OSI无法较好地区分两种类别,尤其是图4a中道路基本上被误判为碎石地;单核SVM与交叉信息混合核SVM虽可改善该缺陷,但图4b、4c 中仍存在许多几何形态各异的离散点,且误判区域较多;累加权重混合核SVM能获取最好的分类精度 (图4d),较好地反映真实的类别分布情况。
图4 PHI数据混合核SVM与单核SVM分类结果对比图
表2 常州夏桥实验单核的分类结果
该实验数据由HYDICE传感器获取生成,获取时间为1995年10月,研究区域为美国德克萨斯州的Copperas Cove镇;原始影像包含210个波段,经噪声去除,剩余187个波段;光谱分辨率为10 nm,空间分辨率为2 m,影像大小为307×307,如图5所示。影像中的地物被分为沥青道路、草地、树木、屋顶、含阴影屋顶和混凝土6类,结合影像具体情况依次选取感兴趣区作为训练样本,数据的类别信息如表4 所示。
表4 HYDICE数据类别信息
图5 HYDICE高光谱数据
该实验仍分别采用尺度为3×3、5×5的方形结构元素窗口对PCA的4个主成分进行相应的开运算与闭运算操作,产生维度为20的特征分量,如图6所示。
图6 EMP对HYDICE影像运算的结果
与常州夏桥数据类似,对于单核SVM,首先采用OSI、PCs、SBs以及EMPs等4种单一特征进行测试;再采用EMPs+OSI、EMPs+PCs和EMPs+SBs等3种组合特征进行测试。7种形式的分类结果如表5 所示,可以看出,在利用单一特征进行分类的方法中,EMPs的分类精度最低,OA仅为74.23%,Kappa系数为0.682;在利用组合特征进行分类的方法中,EMPs+SBs的分类精度最高,OA为91.35%,比PCs和EMPs分别提高了2.01%和17.12%,同时,Kappa系数达到了0.868。
表5 HYDICE实验单核的分类结果
对于混合核SVM,累加权重混合核EMPs+OSI、EMPs+PCs、 EMPs+SBs以及交叉信息混合核EMPs+ PCs得到的4种分类结果如表6所示,可以看出,4种混合核的实验精度均达到了预期效果,在同等实验条件下,它们的分类精度均在91%以上,高于单核的分类精度;其中EMPs+SBs的分类精度最高,OA达到了92.69%,Kappa系数为0.881。
表6 HYDICE实验混合核的分类结果
OSI、单核EMPs+SBs、交叉信息混合核EMPs+PCs和累加权重混合核EMPs+SBs的分类结果如图7所示,可以看出,图7a左边局部区域出现了一些明显的误分现象,由于阴影的影响,屋顶、树木以及含阴影屋顶混杂在一起;图7b右下部分大面积的树木和草地的覆盖区域中,混杂有许多其他类别,存在明显的误判现象;图7c、7d极大地改善了这种误判,证明混合核SVM比单核SVM具有更好的分类结果。
图7 HYDICE数据混合核SVM与单核SVM分类结果对比图
本文提出了一种基于EMP与混合核SVM的高光谱遥感影像分类方法;并通过实验对比了单核SVM以及混合核SVM不同组合形式下的分类结果。结果表明,本文提出的方法比传统SVM分类模型具有更高的精度。本文方法的优势为:①利用EMP技术能将高光谱影像中的空间特征与光谱信息结合起来,有效提高分类精度;②构建了累加权重和交叉信息两种SVM混合核,能进一步提升单核SVM的分类质量。对于一些混合情况较复杂的区域,该方法的效果显著,适用性强。未来的工作将集中在探索一种更为自动合理的形态学结构元素与波段数选择机制。