有限样本类别城市高光谱数据SVM分类应用分析

2014-06-27 05:47:31孙晓霞李利伟高连如
测绘通报 2014年11期
关键词:后验类别材质

孙晓霞,李利伟,杨 玲,高连如

(1.中国科学院遥感与数字地球研究所数字地球实验室,北京 100094;2.河南大学环境与规划学院,河南 开封 475004)

有限样本类别城市高光谱数据SVM分类应用分析

孙晓霞1,2,李利伟1,杨 玲2,高连如1

(1.中国科学院遥感与数字地球研究所数字地球实验室,北京 100094;2.河南大学环境与规划学院,河南 开封 475004)

对比分析了线性核函数和非线性核函数支持向量机(SVM)算法在样本类别不足情况下城市高光谱影像分类中的应用。选用甘肃张掖地区高光谱影像作为试验区,依据高分影像和地面调研信息获取参考样本数据,利用非线性核函数和线性核函数的支持向量机进行影像分类,获取每一类别的分类后验概率图,并对分类后验概率图采用0.2、0.4、0.6、0.8、0.9的后验概率截断,分析了不同截断概率下的地物分类精度变化情况。结果表明,线性核函数和非线性核函数SVM方法的结论相似,随着截断概率的增加,分类结果中用户精度提高或保持稳定,制图精度下降或保持稳定,总体分类精度先提高后降低,但波动幅度不大。因此,SVM的后验概率可以用于指导类别不足时城市高光谱影像的分类。通过分析各类地物的混淆矩阵可知,非线性核函数的SVM方法比线性核函数SVM方法更敏感,在低后验概率下就可以准确提取出未分类信息,而线性核函数SVM在高后验概率下才能提取出未分类信息,而且还混入了许多训练过的类别信息。非线性核函数SVM方法的分类精度更稳定,利用后验概率提取未分类信息的可信度更高。

支持向量机(SVM);高光谱数据;后验概率;分类精度

一、前 言

近年来,支持向量机(SVM)作为模式识别分类算法在遥感数据分类中体现出很好的性能,特别是在高光谱数据分类中应用广泛[1]。通过统计SVM分类器的训练结果,利用下式获取分类后验概率rij[2]

式中,g(x)是由训练样本得到的决策值;A、B为待定系数,通过最小化可能性函数估计得到。为了提高后验概率的准确性,采用Cross Validation的方法多次训练,避免模型过拟合。

后验概率信息可以作为分类后处理的一个依据。通过后验概率分析进行地物空间上下文信息的获取提高分类结果精度[4],同时,通过分析分类后验概率可以指导获取未参加分类的地物信息,提高分类结果的用户精度,在遥感影像地物分类应用中有着实际意义[5]。在高光谱城市地物分类中,由于地物类别丰富且光谱特征复杂多样,常会遇到一些未训练的类别,例如,一种非感兴趣类别在训练阶段被故意排除,或无意忽略了影像上一些未知类别,此时,分类结果和精度就不能完全代表整幅影像的分类结果和精度[6]。但是,要确切知道一幅影像的所有类别是很困难的事情。此外,并不是所有研究都要确切定义全部类别,感兴趣地物往往只有其中的少数类别[7];而且,训练数据的获取是一件费时费力的工作,但在监督分类中定义非感兴趣类别往往又是必不可少的[8-9]。本文通过对比线性核函数SVM(式(2))

和非线性核函数SVM(式(3))

后验概率分类的精度,得出SVM的后验概率用于提取未训练类别的可靠性,以指导在样本类别不足的情况下SVM算法在城市高光谱影像信息提取中的应用。

二、数据与试验设计

1.数 据

试验选用2012年6月29日我国甘肃省张掖市河西学院周边地区机载CASI高光谱数据,波段数设置为48,光谱覆盖范围为380~1055 nm,半波宽为7 nm,空间分辨率为1 m,图像大小为1000像素× 1000像素。经过系统辐射定标、系统几何校正和地面反射率反演,显示如图1所示,其中R、G、B分别选择19波段、13波段、6波段。

图1 研究区域地表真彩色图像

基于高空间分辨率影像和地面调研信息选择8种类别,分别为灰色材质建筑、白色材质建筑、蓝色材质屋顶、裸地、植被、人造草、红色材质建筑、水体,并对每一类都选取一定数目的样本作为验证样本。在灰色材质建筑、白色材质建筑、蓝色材质屋顶、裸地、植被5种类别中分别随机抽取10%的样本,用于监督分类中的训练阶段,把人造草、红色材质建筑、水体合并为未分类,用于验证阈值截取结果的精度。因此,试验所用的训练样本包括5类,验证样本包括6类,增加了一类不确定区域“未分类”。验证样本和训练样本的个数统计见表1。

表1 不同类别训练样本和验证样本个数

2.试验设计

试验流程如图2所示。首先,结合研究区域的实地调研数据和高空间分辨率影像,选取8种地物的真实样本点,并在灰色材质建筑、白色材质建筑、蓝色材质屋顶、裸地和植被的样本中分别随机抽取10%的样本点作为训练样本;然后,运用线性核函数SVM和非线性核函数SVM的方法分别对原始数据分类,得到类别图和概率图。其中,非线性核函数SVM采用Cross Validation和Grid Search的方法优化SVM分类模型。

SVM分类结果的后验概率图表示像元隶属于地物类别的可能性。对分类概率图采用0.2、0.4、0.6、0.8、0.9的后验概率进行截断,分析不同截断概率下的地物分类结果及其精度变化情况。本文对所有类别的截断阈值采用统一的截断概率。

图2 试验流程

线性核函数SVM训练器的惩罚系数使用默认值100。非线性核函数SVM选用径向基核函数,用网格搜索的方法选择SVM训练模型的最优参数时,Cross Validation把训练样本三等分,Kernel核参数的最小值为0.1,最大值为1000,搜索倍数为10,惩罚系数的最小值为0.1,最大值为1000,搜索倍数为10,优化后,Kernel核参数值为10,惩罚系数值为100。

三、结果分析

对两种SVM方法分类后的概率图分别进行阈值截取。

横向对比发现,阈值为0.2时没有“未分类”被区分出来;阈值为0.4时非线性核函数SVM识别出了“未分类”中的水体,线性核函数SVM没有“未分类”被区分出来;阈值为0.6时,非线性核函数SVM又识别出了红色材质的屋顶,还区分出了小部分裸土和房屋阴影,线性核函数SVM识别出少部分的人造草,也区分出了部分裸土;阈值为0.8时,非线性核函数SVM的分类结果与阈值为0.6时相同,线性核函数SVM识别出了人造草、水体和部分红色材质建筑,还有更大区域的裸土;阈值为0.9时,非线性核函数SVM识别出了水体、部分人造草和红色材质建筑,还有更多的房屋阴影和裸土被区分出来,线性核函数SVM识别出了水体、大部分人造草和部分红色材质建筑,但也区分出了很多裸土和灰色材质建筑。

纵向对比各个阈值截取后的分类结果图,可以看出,随着截断阈值的增加,代表不确定性的黑色区域越来越多,且大部分分布于未经训练的地物类别中,但随着阈值越来越高,更多参与训练的类别也被划分入不确定区域。如阈值为0.8时,非线性核函数SVM区分出了小部分裸土,线性核函数SVM区分出了部分裸土和灰色材质;阈值为0.9时,非线性核函数SVM区分出了更多的裸土,线性核函数SVM区分出的裸土和灰色材质也有所增加。可见,在高截断阈值下提取未分类信息时会混入更多的误分信息。结果表明,无论是线性核函数还是非线性核函数,SVM分类方法的后验概率都可通过阈值截取识别出未分类的信息,但是,从后验概率的原理考虑,低阈值下体现出的信息是具有高度不确定性的信息,它们隶属于定义类别的概率都不高,容易被混淆,后验概率低。因此,如果在低阈值下准确提取出未分类信息,就说明后验概率的指示性强,进而说明非线性核函数SVM后验概率的指示性比线性核函数SVM后验概率的指示性更高。对各个阈值截取的结果进行分类精度评价,见表2和表3。

表2 不同阈值下非线性核函数SVM精度评价(%)

表3 不同阈值下线性核函数SVM精度评价(%)

从制图精度来说,在整体上,非线性核函数SVM的精度高于线性核函数SVM。在非线性核函数SVM方法中,阈值为0时,5种训练地物的精度都高于96%;阈值为0.4时,白色材质建筑的精度略微降低;阈值为0.6时,裸地、灰色材质建筑和白色材质建筑的精度都有所下降;阈值为0.9时,植被的精度波动不大,裸地、灰色材质建筑和白色材质建筑的精度下降明显,而蓝色材质屋顶的精度一直保持不变。在线性核函数SVM方法中,阈值为0时,5种训练地物的精度都高于90%;阈值为0.6时,白色材质建筑和裸地的精度略微降低;阈值为0.8和0.9时,灰色材质建筑、白色材质建筑和裸地的精度下降明显,蓝色材质屋顶和植被的变化也不明显。

从用户精度来说,在整体上,非线性核函数SVM的精度仍然高于线性核函数SVM。在非线性核函数SVM方法中,蓝色材质屋顶的分类精度最高,无论阈值如何截取,精度都保持100%;灰色材质建筑的精度次之,都在95%以上;裸地的分类精度保持在70%~80%;白色材质建筑的精度在60%上下波动;植被的精度波动相对较大,在阈值为0时,由于有未训练的类别,精度最低,随着截取阈值的增大,分类精度提高。在线性核函数SVM方法中,蓝色材质屋顶和灰色材质建筑与非线性核函数SVM方法中保持相同的趋势;白色材质建筑的精度要高于非线性核函数SVM的方法;植被的精度在0.8之后高于非线性核函数SVM方法;裸地的趋势与非线性核函数SVM方法中相同,但精度低。

从理论上讲,SVM算法的机理是利用选择的核函数寻找不同类别间的最优分类边界,得到的概率图代表每种类别的后验概率,每种类别概率图的像元值表示该像元代表的地物到该类别分类平面的远近,值越大,表示离分类平面越远,属于该类别的概率越高,值越小,则离分类平面越近,与其他类别混淆的可能性越大。当对概率图中的所有类别按同一阈值进行截取时,截取出的像元被认为是具有低可信度的像元,即本文中所提的包含有未参与训练的地物类别。

但是,从分类结果图和精度统计结果中发现,SVM分类方法具有稳定性,即无论是选择线性核函数还是非线性核函数,在相同条件下的分类精度相差不大;而且,通过后验概率阈值截取可以较准确地区分出未经训练的类别,在低阈值时识别出的未分类像元准确,在高阈值时虽然可以识别出更多的未训练类别,但也混入了较多的训练类别。可见,SVM分类方法的后验概率可用于识别未分类的信息,低后验概率识别出的未分类信息准确,高后验概率识别出的未分类信息准确度下降。为了分析不同类别在后验概率图中呈现的区别,从光谱曲线的角度进行分析,计算不同类别地物样本信息的平均光谱曲线,如图3所示。

图3 所有样本地物的类别平均光谱曲线

将不同地物的图像光谱曲线与类别在后验概率的可区分性进行对比分析,可知,蓝色材质屋顶相对于其他类别有其独特的光谱特征,在分类结果中无论是从制图角度还是从用户角度,都有很高的分类精度;植被和人造草的光谱在可见光范围内相似,在近红外波段虽然都有反射率的增加,但植被反射率的增加更显著,因此未训练的人造草被分为植被,虽然在低阈值时开始被提取出来,但达到高阈值(非线性核函数SVM中为0.998)时才基本提取完整;植被和水体的光谱在可见光范围内几乎重合,但在近红外波段之后波形完全不同,因此未训练的水体在分类结果中也被分为植被,但阈值截取后可以被完整提取出来;裸地和灰色材质建筑都经过训练,但可以看出两者的差异主要表现为反射率的高低,光谱特征差异较小,因此二者的制图精度和用户精度都保持相似的变化趋势,此外,研究区中分布有收割后的庄稼及正在建设的建筑工地,而且其中又混有少量植被,影响植被、裸地和灰色材质建筑的分类精度;红色材质建筑和白色材质建筑的差异相对于其他类别较小,白色材质建筑的制图精度随着阈值的增加而降低,用户精度也不高。

虽然利用SVM的后验概率不能完全准确地识别出未训练的类别,但试验表明它具有明显的指示性。这主要体现在具备明显曲线特征的水体在低后验概率下被区分出来,而光谱曲线形状相似的白色材质建筑和红色材质建筑、植被和人造草,在高后验概率下都被提取出来。因此,SVM分类器的后验概率可用于指示识别分类中未经训练的类别,从而进一步提高分类精度,而且非线性核函数SVM的指示性更好。

四、结束语

本文对比分析了线性核函数和非线性核函数支持向量机算法在样本类别不足情况下城市高光谱影像分类中的应用。结果表明,对于SVM的分类方法,无论是使用线性核函数,还是非线性核函数,都具有较高的稳定性,而且利用后验概率截断都可以对未训练的类别进行识别,从而提高分类的准确性和全面性。但是使用非线性核函数时,在低后验概率下提取出的未分类信息更多、更准确,线性核函数在高后验概率下提取出的未分类信息虽然更多,但是混入的训练信息也更多。因此,非线性核函数SVM方法的分类精度更稳定,利用后验概率提取未分类信息的可信度更高。但若要达到更准确的结果,需要人工参与设置更合理的截取阈值,这也是后续研究中需要进一步探讨的方法。

[1] YANG S,LUNETTA S R.Comparison of Support Vector Machine,Neural Network,and CART Algorithms for the Land-cover Classification Using Limited Training Data Points[J].ISPRS Journal of Photogrammetry and Remote Sensing,2012,70(4):78-87.

[2] WU T,LIN C,WENG R C.Probability Estimates for Multi-class Classification by Pairwise Coupling[J].Journal of Machine Learning Research,2004(5):975-1005.

[3] WU Bo,ZHANG Liangpei,LI Pingxiang.Unmixing of Hyperspectral Imagery Based on Probabilistic Outputs of Support Vector Machines[J].Geomatics and Information Science of Wuhan University,2006,31(1):51-54.

[4] RICHARDS J A,JIA X.A Dempster-Shafer Relaxation Approach to Context Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2007,45(5):1422-1431.

[5] LI L,MA J,WEN Q.Comparison of Local Transfer Function Classifier and Radial Basis Function Neural Network with and without an Exhaustively Defined Set of Classes[J].International Journal of Remote Sensing,2009,30(1):85-96.

[6] FOODY G M.Hard and Soft Classifications by a Neural Network with a Non-exhaustively Defined Set of Classes [J].International Journal of Remote Sensing,2002,23 (18):3863-3864.

[7] JEON B,LANDGREBE D A.Partially Supervised Classification Using Weighted Unsupervised Clustering[J]. IEEE Transactions on Geoscience and Remote Sensing,1999,37(2):1073-1079.

[8] LECKIE D G.Synergism of Synthetic Aperture Radar and Visible/Infrared Data for Forest Type Discrimination [J].Photogrammetric Engineering and Remote Sensing,1990,56(9):1237-1246.

[9] LEWIS H G,BROWN M.A Generalized Confusion Matrix for Assessing Area Estimates from Remotely-sensed Data[J].International Journal of Remote Sensing,2001,22(16):3223-3235.

[10] 李慧,王云鹏,李岩,等.基于SVM和PWC的遥感影像混合像元分解[J].测绘学报,2009,38(4):318-323.

[11] 杜培军,林卉,孙敦新.基于支持向量机的高光谱遥感分类进展[J].测绘通报,2006(12):37-40.

Classification of Hyperspectral Images by Support Vector Machines with Limited Defined Set of Classes

SUN Xiaoxia,LI Liwei,YANG Ling,GAO Lianru

P236

B

0494-0911(2014)11-0033-04

2013-11-06

国家科技支撑计划(Y16Z02101A);航空载荷协同处理和数据检验项目(Y2B001101A)

孙晓霞(1988—),女,山西吕梁人,硕士生,从事遥感图像处理工作。

孙晓霞,李利伟,杨玲,等.有限样本类别城市高光谱数据SVM分类应用分析[J].测绘通报,2014(11):33-36.

10.13474/j.cnki. 11-2246.2014.0357

猜你喜欢
后验类别材质
基于对偶理论的椭圆变分不等式的后验误差分析(英)
贝叶斯统计中单参数后验分布的精确计算方法
衣服材质大揭秘
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
雷达学报(2017年6期)2017-03-26 07:53:04
服务类别
新校长(2016年8期)2016-01-10 06:43:59
外套之材质对比战
Coco薇(2015年10期)2015-10-19 12:17:50
针织衫之材质对比战
Coco薇(2015年10期)2015-10-19 12:17:14
10KV配变绕组材质鉴别初探
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
中医类别全科医师培养模式的探讨