刘美爽 邢艳秋 李立存 杨 超 王 蕊
(东北林业大学,哈尔滨,150040)
森林生态系统作为陆地生态系统的主体,在维持气候稳定、调节全球碳平衡等方面有着不可替代的作用。森林生物量,是评估森林碳贮量的重要参数,其精确测量可以为森林经营与资源管理者制定政策时提供参考依据。森林生物量的估算,主要通过森林垂直结构参数与水平结构参数来实现。目前,星载激光雷达(ICESat-GLAS)数据已经成功用于反演森林垂直结构信息;而在反演森林水平结构信息方面,特别是森林类型,因方法不成熟等原因,结果不很理想[1-2]。
支持向量机(SVM),是一种基于结构风险最小化的新型机器学习方法,具有推广性能优越、全局收敛、不依赖经验信息等优点,在模式识别领域取得了一定的研究进展[3-5]。支持向量机,能有效的解决小样本条件下高维数据模型的构建问题,在解决有限样本、高维、非线性模式识别问题有更好的性能[6-7]。惠文华[8]提出了一种基于支持向量机的遥感图像分类方法,结果表明,支持向量机的遥感图像分类精度明显高于传统最大似然法的分类精度;刘志刚等[9]提出了一种基于加权无标识支撑向量机,并在此基础上提出了一种新的不完全监督分类方法,该方法在数据模拟和遥感影像分类中均达到了理想的分类精度;员永生[10]基于支持向量机研究了面向对象的新型土地覆被图像分类,并在此基础上提出了5类新型的遥感图像分类方法,研究结果显示,新型方法分类结果好于传统的K最邻近节点算法(KNN)面向对象的监督分类识别方法。对于线性不可分的问题,引进了线性不可分支持向量分类机(C-SVC),该方法的思想是通过引进一个非线性映射,将低维线性不可分问题转化为高维线性可分问题。
为提高星载激光雷达识别森林类型的精度,本文提出一种基于线性不可分支持向量分类机的星载激光雷达数据识别森林类型方法,并采用K-折交叉验证方法对核函数选择进行评价。
研究区为长白山汪清林区。该区处于寒温带森林生态系统,位于长白山系的中低山区(43°05'~43°40'N,129°56'~131°04'E),总面积 30.4 万 hm2。地面高程为360~1 477 m,坡度变化范围为0~45°。该区域植物种类繁多,结构复杂。针叶树主要有红松(Pinus koraiensis)、云杉(Picea)和臭松(Symplocarpus salisb);阔叶树多为椴树(Tilia)、蒙古栎(Quercus monglica)、枫桦(Betula davuric)、色木(Acermono)和白桦(Betula platyphylla)等。
ICESat-GLAS是极地轨道星载激光雷达设备,飞行高度600 km,用于全球地面的连续观测。GLAS脉冲激光器每秒发射40个激光脉冲,脉冲宽度为4 ns,每个激光脉冲在地面上覆盖的光斑直径大约为70 m,相邻光斑间距为170 m。ICESat-GLAS共提供15个数据产品,即 GLA01、GLA02、…、GLA15。其中,全球测高数据产品GLA01记录的完整波形数据,反映了对应地面激光光斑内的地物信息;与波形数据相应的地面光斑的地理位置和高程数据,由高程数据产品GLA14记录。本研究使用的GLA01和GLA14数据,由美国国家冰雪数据中心(http://nsidc.org/data/ice-at)提供,共获取了该研究区的2003—2009年的波形数据3 167组。
在2006、2007、2010年9月份,3次在长白山汪清林区根据预设计的采样计划,采用分层随机采样法,针对2种森林类型(针叶林和阔叶林),随机选取287个GLAS激光光斑进行相应的地面数据调查(其中:针叶林地96个,阔叶林地159个,其余样地为裸地、农田、草甸和湿地等)。以针叶林和阔叶林为研究对象,对255个样地进行分析;剔除8个无效样地后,在剩余的247个样地中,随机选取164个样地数据作为训练集(其中针叶林地60个,阔叶林地104个),其余83个样地数据作为验证集(其中针叶林地35个,阔叶林地48个),利用GLAS波形进行森林类型识别研究并进行验证。在样地调查过程中,利用GPS对已选定的激光光斑采样点进行定位。依据森林调查的统计原理,为有效地对样地内林木进行调查,首先测量样地的坡度;再以光斑中心点为圆心,建立水平投影面积为500 m2的圆形样地;记录样地内植被分布情况、植被类型和植被覆盖度。结合我国森林资源调查主要技术规定,将针叶林分布比例≥60%的样地定义为针叶林,而阔叶林分布比例≥60%的样地定义为阔叶林。
C-SVC具体算法如下:
(1)给定样本训练集。T={(x1,y1),(x2,y2),… ,(xn,ym)},其中n维输入向量xi∈Rn,yi∈{1,-1},i=1、…、n。
(2)选择适当的核函数K(xi,xj)和适当的惩罚参数C,构造并求解最优化问题。目标函数:
约束条件:
其中,核函数K(xi,xj)是满足Mercer条件的内积函数,采用不同的核函数,就可以构造不同的分类机。常用的核函数包括:q次多项式核函数、径向基核函数、Sigmoid核函数、Fourier级核函数和B-样条核函数等。前3种核函数,针对不确定性对象[11]、无背景数据[12]等有着相对优良的性能。考虑到研究区森林水平结构的非均质性,分别采用q次多项式、径向基以及Sigmoid三种不同的核函数构造分类机,具体函数表达式如公式(3)~公式(5)所示。
q次多项式核函数:
径向基核函数:
Sigmoid核函数:
参数C决定了误判样本的惩罚程度以及学习机器的复杂性;取值越小,表明对经验误差的惩罚越小,而且学习机器越简单;但是,增大了经验风险值。随着C的增加经验风险值会逐渐减小,当达到某个适当值时,训练误差达到最小,精度达到最大。参数的选择问题,本质是一个优化问题,主要包括交叉验证、贝叶斯法、梯度下降等,其中交叉验证是目前比较普遍的一种应用方法。采用K-折交叉验证方法进行K-交叉验证,是在实验过程中,将数据集分成K份,轮流将其中K-1份做训练1份做测试,K次结果的最佳值作为对算法精度的估计[13]。算法中K取10,采用十折交叉验证方法来计算准确率,进而确定合适的惩罚参数C及核函数中的系数r的值。
为进一步验证所选核函数C-SVC的分类效果,利用验证集的83组数据对其分类结果进行了分析评价。
ICESat-GLAS波形数据采用专门定义的二进制格式,包括元数据信息和其它数据信息。首先在IDL平台上将原始二进制数据转化成ASCII格式数据;为了有效比较波形数据,再对波形数据进行标准化处理,并利用高斯算法对原始ICESat-GLAS回波进行分解和拟合处理,在Matlab平台上输出波形数据,详细过程参考文献[14-16]。
从森林自身特征分析,由于存在叶片大小,形状和层片结构的差异,针叶林和阔叶林分别具有各自典型的垂直结构,会分别对应不同的典型激光雷达(LIDAR)回波波形特征;从数学角度分析,LIDAR回波波形可以看作是n个高斯曲线的组合[17],分别对应着森林不同层片及其分布的回波能量特征。据此可以推断,通过分析LIDAR回波高斯曲线特征的差异,可以实现森林类型的识别。
针叶林的垂直分层很明显地多于阔叶林,而针叶林层厚则明显小于阔叶林。因此,当LIDAR接收针叶林层间返回的能量时,与其相关的回波宽度要小于阔叶树的相应值。这样,针叶林对应的波形分解高斯曲线斜率就要大于阔叶林[18]。考虑到以上因素,基于拟合后的GLAS波形,提取并分析与高斯曲线斜率相关的波形特征参数,包括曲线斜率、曲线斜率的均值和曲线斜率的标准均方根误差,进行森林类型区分的研究。
除对应地面回波的最后一个高斯曲线外,对其余所有高斯曲线提取有效回波点处对应的时间值、波峰处标准化的能量值和波峰处对应的回波时间值,其中,有效回波的临界值由背景噪声峰值与4倍的标准方差之和确定(以图1所示的GLAS波形为例)。
图1 参数提取
当原始曲线分解为n个高斯曲线时,曲线的斜率Ki如公式(6)所示。
式中:Qi为第i个高斯曲线标准化能量值;t2i-1为第i个高斯曲线有效回波点对应的时间值;t2i为第i个高斯曲线波峰处对应的时间值。
曲线斜率均值¯K和曲线斜率标准均方根误差ΔK分别如公式(7)和公式(8)所示。
为克服各指标之间量纲的影响,首先将提取的波形参数进行标准化。采用Z-score标准化(标准差标准化)方法,将需要标准化的参数,包括高斯分解后第一个高斯曲线的斜率K1、冠层高斯曲线斜率的均值¯K和冠层高斯曲线斜率均值的标准差ΔK等3个变量如式(9)所示进行标准化。
式中:x*为标准化后的波形特征参数;x值为需标准化的波形特征参数;μ为针叶林和阔叶林各类分类样本对应的该波形特征参数均值;σ为各类分类样本数据对应的该波形特征参数标准差。在此后提到的K1、¯K和ΔK均为标准化后的参数。
基于2.3所述的算法及其运算步骤,以K1、¯K、ΔK三个变量的组合为输入量,利用3种核函数(多项式核函数(Poly)、径向基核函数(Rbf)和Sigmoid核函数)及不同的惩罚因子(0.01、0.10、1.00、10.00、100.00、1 000.00)来构造不同的分类机 C-SVC,对164组训练集样本进行森林类型分类训练,并用十折交叉验证法对分类结果进行精度评价。
基于 ICESat-GLAS波形数据处理,ICESat-GLAS波形数据在Matlab平台上输出波形数据如图2所示。
GLAS回波经高斯分解后得到的第一个高斯曲线反映了森林冠层的信息,考虑到阔叶林和针叶林的冠层结构存在着一定的差异,因此,利用第一个高斯曲线斜率值K1对森林的冠层进行分析,进而发现针叶林和阔叶林的不同特征。
图3、图4、图5分别为针叶林地和阔叶林地所对应的GLAS波形第一个高斯曲线的斜率K1、森林冠层高斯曲线斜率均值和森林冠层高斯曲线斜率均方差ΔK分布情况。综合分析图3、图4、图5及表1发现,针叶林的K1、和ΔK三个特征参数均值都大于阔叶林;表明这三个参数能够在一定意义上体现两种森林类型冠层的不同特征。因此,利用K1、、ΔK三个变量的组合作为输入特征参数,基于C-SVC方法进行森林类型识别。
图2 GLAS波形数据分解和拟合结果
图3 第一个高斯曲线斜率K1
图4 植被冠层高斯曲线斜率均值
表1 不同森林类型冠层K1、、ΔK值比较
表1 不同森林类型冠层K1、、ΔK值比较
注:表中“-”为负号。
波形参数 森林类型 最大值 最小值 平均值 标准差K1 阔叶 2.21 -0.90 -0.31 0.64针叶 4.04 -0.82 0.49 1.19¯K阔叶2.33-1.23-0.270.71针叶 3.99 -1.17 0.37 1.19 ΔK 阔叶 4.91 -1.26 -0.08 0.99针叶 2.58 -1.27 0.22 1.00
图5 高斯曲线斜率均方差ΔK
以K1、、ΔK三个变量的组合为输入量,利用上述3种核函数及不同的惩罚因子来构造不同的分类机C-SVC,对164组训练集样本进行森林类型识别训练,并用十折交叉验证方法对识别结果进行精度评价(见表2)。
表2 不同惩罚参数(C)及核函数对应的交叉验证分类精度对比
分析表2的结果,发现径向基核函数构建的CSVC分类效果最好,精度可达80.95%;多项式核函数次之;Sigmoid核函数最差(见表3)。
表3 不同惩罚因子(C)及核函数系数(r)所对应的交叉验证分类精度对比
利用径向基核函数构建的C-SVC对研究区森林类型进行识别,并进一步确定分类机最优惩罚因子(C)和核函数系数(r)。由表3可见,当C=100.00、r=1.000时,分类效果最好,交叉验证分类精度可达85.24%。
利用验证集83组数据,对径向基核函数构建的C-SVC分类结果(见表4)进行分析评价。阔叶林样地总数为48个,其中46个正确分类,分类精度为95.83%;针叶林总数为35个,正确分类21个,分类精度为 60.00%;总体分类精度为 85.24%,kappa系数为0.426 8。说明应用径向基核函数构建的CSVC对阔叶林的分类效果,明显比对针叶林的分类效果要好。这一结果表明,确定的三个森林类型分类变量K1、¯K、ΔK对阔叶林反应敏感,对针叶林反应不甚理想。造成这一分类结果的原因可能有二:其一,相对阔叶林地而言,针叶林地采样点偏少,未能全面客观地表现出分类规律,尚有待增加此类采样点,以进一步深入研究;其二,研究区内阔叶林地分布较广,且很多为纯阔叶林,但针叶林地内却常常混有一定比例的阔叶树,影响了GLAS回波的波形特征,为针叶林的正确识别造成了一定的困难。
表4 分类验证数据的分类结果
本文提取了GLAS波形参数(即第一个高斯曲线的斜率K1、森林冠层高斯曲线斜率均值¯K和森林冠层高斯曲线斜率均方差ΔK)作为输入量,应用CSVC分类方法和十折交叉验证方法进行森林类型识别并验证其精度。结果显示:应用C-SVC分类方法能较好地对阔叶林和针叶林两种林分进行识别,总体精度为85.24%。研究结果表明:目前构建的分类机C-SVC所选取的三个森林类型分类变量(K1、¯K、ΔK),对针叶林识别表现不理想,而且缺乏对针阔混交林的识别研究分析。因此,建议在今后的研究中补充对针阔混交林的采样,分析提取更适合用于森林类型识别的波形特征参数,结合其他分类方法对ICESat-GLAS识别森林类型的能力进行更加深入的探讨。
[1] Duong V H,Lindenbergh R,Pfeifer N,et al.Single and two epoch analysis of ICESat full waveform data over forested areas[J].International Journal of Remote Sensing,2008,29(5):1453-1473.
[2] Duong H,Pfeifer N,Lindenbergh R.Analysis of repeated ICESat full waveform data:methodology and leaf-on/leaf-offcomparison[C]//Proceedings:Workshop on 3D Remote Sensing in Forestry.Available online at:http://www.rali.boku.ac.at/3drsforestry.html,2006:239-248.
[3] 巫兆聪,欧阳群东,胡忠文.应用分水岭变换与支持向量机的极化SAR图像分类[J].武汉大学学报:信息科学版,2012,37(1):7-10.
[4] 张淑芬,邢艳秋,吴红波,等.基于GIS和RS技术的木材运输线路优化研究:以吉林省汪清林区为例[J].森林工程,2011,27(2):48-51.
[5] 臧淑英,张策,张丽娟,等.遗传算法优化的支持向量机湿地遥感分类:以洪河国家级自然保护区为例[J].地理科学,2012,32(4):434-441.
[6] 萧嵘,王继成,张福炎.支持向量机理论综述[J].计算机科学,2000,27(3):1-3.
[7] 李立存,张淑芬,邢艳秋.全站仪和测高仪在树高测定上的比较分析[J].森林工程,2011,27(4):38-41.
[8] 惠文华.基于支持向量机的遥感图像分类方法[J].地球科学与环境学报,2006,28(2):93-95.
[9] 刘志刚,史文中,李德仁,等.一种基于支撑向量机的遥感影像不完全监督分类新方法[J].遥感学报,2005,9(4):363-373.
[10] 员永生.基于支持向量机分类的面向对象土地覆被图像分类方法研究[D].杨凌:西北农林科技大学,2010.
[11] 陈佳,颜学峰,钟伟民,等.基于多项式核RVM的非线性模型预测控制[J].控制工程,2008,15(2):158-160.
[12] 林茂六,陈春雨.基于傅立叶核与径向基核的支持向量机性能之比较[J].重庆邮电学院学报:自然科学版,2005,17(6):647-650.
[13] 朱向荣,李娜,史新元,等.最小二乘支持向量机算法与紫外光谱法用于鉴别清开灵注射液四混中间体[J].分析化学,2008,36(6):770-774.
[14] 邢艳秋,王立海.基于ICESat—GLAS完整波形的坡地森林冠层高度反演研究:以吉林长白山林区为例[J].武汉大学学报:信息科学版,2009,34(6):696-700.
[15] 邱赛,邢艳秋,李立存,等.基于小波变换的ICESAT-GlAS波形处理[J].森林工程,2012,28(5):33-35.
[16] 李俊明,邢艳秋,杨超.基于森林类型光谱特征的最佳波段选择研究:以 HJ/1A高光谱影像为例[J].森林工程,2013,29(4):42-46.
[17] Wagner W,Ullrich A,Ducic V,et al.Gaussian decomposition and calibration of a novel small-footprint full-waveform digitising airborne laser scanner[J].ISPRS Journal of Photogrammetry and Remote Sensing,2006,60(2):100-112.
[18] Zhang J,De gier A,Xing Y,et al.Full Waveform-based analysis for forest type information derivation from large footprint spaceborne lidar data[J].Photogrammetric Engineering and Remote Sensing,2011,77(3):281-290.