基于LiDAR波形分解的点云SVM分类方法研究

2014-08-15 06:35李含伦张爱武胡少兴孙卫东
测绘通报 2014年1期
关键词:训练样本高程波形

李含伦,张爱武,刘 诏,胡少兴,孙卫东

(1. 首都师范大学 三维信息获取与应用教育部重点实验室,北京 100048; 2. 北京航空航天大学 机械工程与自动化学院,北京 100191; 3. 清华大学 电子工程系,北京 100084)

一、引 言

小斑点全波形机载激光雷达(LiDAR)与其他类型遥感相比,LiDAR全波形数据可以记录发射激光脉冲与地物作用形成的后向散射信号的全回波信息,是发射激光脉冲沿途遇到的所有目标回波信号的总和,揭示了地物的几何和物理属性,是地物分类的重要依据,并且增加了用于分类的激光数据信息,理论上能够提高地物的分类精度。然而当前基于全波形分解的地物分类研究较少,大多数算法仍然仅依靠激光数据的几何结构信息,如数学形态法、活动等高线法、样条内插法等。数学形态法是借助一个移动窗口,窗口内最低点被认为是地面点[1-2];活动等高线法和样条内插法的思路是先选出一部分可靠的点形成一个粗劣的面,然后计算其他点与该面的关系,判定是否是地面点,每加入一个点,平面改变一次,迭代进行直至剩余的点都不满足判定条件[3-4]。这些方法能够分出地面点,但不能细分非地面点。乔纪刚等提出一种利用高度纹理分类的方法,将点云数据栅格化,并使用灰度共现矩阵提取图像的高程纹理,然后使用神经网络分类[5]。该方法充分利用了城市楼房顶部高程的差别较小,而高大植被的不同部分高程差别较大的特点,将地物分离出来。然而,房屋与地面的交界处高程的差别也非常大,这会引起分类误差。由于不同的纹理都来源于同一幅高程图像,它们之间的相关性也需要考虑。也有学者提出点云与光谱数据融合的方法[6-9],将该像元的光谱信息作为点云的新维度进行分类。该方法克服了激光点缺少光谱信息的缺点,但点云与图像之间的精确配准问题依然是个难题。上述方法都没有深入发掘LiDAR数据所包含的信息。有的仅利用其中一个高程信息;有的则退而求其次,与其他遥感数据融合,不但增加了算法复杂性,而且损失了分类的定位精度。全波形LiDAR数据经分解后,可以提取振幅、波宽、回波次数等属性数据,并与高程信息结合,成为地物分类可靠的多源特征信息。本文提出一种基于波形分解的SVM分类方法,该方法充分利用了多源特征信息,提高了分类的精度。

二、方法介绍

1. 全波形数据分解

由雷达方程可知,激光打到的每个地物点返回的回波波形是呈高斯分布的,接收到的能量是由多个高斯函数叠加而成的,为得到振幅、波宽、回波次数等参数,需要波形分解方法。

目前最常用的方法是非线性最优化算法。它根据高斯函数的标准差、波峰对应的位置,以及振幅的初值,利用非线性最小二乘法得到初始误差平方和,之后不断优化初值,当目标函数的导数小于等于容差值或达到最大迭代次数时,停止迭代,得到最优的结果。

Levenberg 和 Marquardt采用了阻尼高斯-牛顿法来作优化。该方法利用线性模型f在x邻域线性逼近的性质[10],对于一个小的‖h‖,即x的增量,有泰勒展开

f(x+h)≈ξ(h)≡f(x)+Jxh

(1)

(2)

(JTJ+μI)hlm=-g

(3)

式中,g=JTf;μ>0;I为单位矩阵。

(4)

式(4)为判别公式,如果ρ>0,则根据式(3)求得x的增量,更新待优化的参数值,即x=x+h,然后重新计算新的h,重新判断ρ,并根据条件改变μ,不断地优化迭代,最终得到每个目标物的振幅和半波宽。

2. SVM分类

传统分类技术在具备大量样本的情况下,通过最小化训练样本的分类错误来提高预测样本的分类精度[11]。由于受现实条件的限制,研究人员并不能提供充足的训练样本,且究竟需要多少训练样本也缺少严格的定义,因此导致在训练样本较少的情况下,分类精度不高。并且即使提供了充足的分类样本也容易引起过度拟合,减弱分类器的可推广性。SVM以最小化结构风险为原则,在分类样本有限的情况下,在模型复杂性和学习能力之间寻求最佳折衷[12]。因此,SVM倾向于选择简单的模型,如二维空间的直线,三维空间的分类平面,多维空间的分类超平面。在线性可分的情况下,选择最大间隔分类超平面;在线性不可分的情况下,一方面将低维空间映射到高维空间,以增加可分性;另一方面引入松弛变量和惩罚系数,允许部分样本分类错误。与神经网络相比,分类超平面的构建只用到边界上的训练样本(支持向量),加快了训练速度;倾向于选择全局的线性模型避免陷入局部最优,增加了分类器的可推广性。

3. SVM特征空间的构建

振幅是回波信号的峰值,一般认为振幅的大小由目标物对激光脉冲的反射系数决定,而反射系数的大小取决于脉冲的波长、介质材料及介质表面的明暗程度。反射介质的表面越亮,反射率就越高[13]。

回波的宽度与地物本身的性质有关。绝大部分建筑物与地面激光点的回波宽度分布在一个较狭小的范围之内,而植被点的回波宽度相对均匀地分布在一个较宽的范围内。因此,通过一定的方法,使用回波宽度大致可以将植被点从建筑物点和地面点中分离出来。

对于每一条记录而言,将单个波形分离出来后再按照时间先后顺序编号,记录目标物的回波次数。只有一次回波的激光点大部分是地面点或建筑物顶部[14];具有多次回波的激光点大部分是植被及少数的建筑物边缘。因此使用回波次数可以将高大植被从建筑物或地面中区分出来。

高程是LiDAR数据中较稳定的信息,在平原城市地区,仅仅通过高程就能将地面点从地物点中区分出来。因此本文选择高程、波宽、回波次数、振幅4个属性作为SVM特征空间,具体做法详见第3节。

4. SVM分类参数的确定

常用的核函数有线性核函数、多项式核函数、径向基核函数、Sigmoid核函数。本文选择适用性最强的径向基核函数。确定了径向基核函数后,还需要确定惩罚系数C及径向基核函数内部的参数gamma。本文使用交叉验证和格网搜索的方法确定C和gamma。交叉验证的过程是首先将训练样本随机划分成V个样本子集,并依次使用其中的V-1个样本子集训练分类器,然后使用其中一个样本集验证分类的精度,直至每个样本子集都被验证一次,最终得到较精确的分类精度[15]。格网搜索的过程是首先确定C、gamma的取值范围,并确定二者的搜索步长,得到m个C和n个gamma,两个组合将得到m×n组参数,分别计算其精度,选择最优的C、gamma组合[16-17]。

三、试 验

1. 试验数据

本文采用的LiDAR数据是使用RIGEL激光扫描仪获取的,东西距离1012 m,南北距离708 m,区域内地面高程很小,可忽略不计,地物与地面最大高程差为30 m,总面积为716 496 m2,共5 875 267个激光点,点云密度为 8.2个/m2。

2. 试验流程

1) 本文所描述方法是将LiDAR数据转化成多图层的栅格数据,然后利用成熟的栅格数据分类方法进行分类。首先使用RIGEL扫描仪配套的处理软件将波形分解为波宽、回波次数、振幅3个属性,经过这种方法处理后,每条记录包含了X坐标、Y坐标、高程、波宽、回波次数、振幅6个属性;将X坐标、Y坐标分别与高程、波宽、回波次数、回波强度结合生成4个具有3个属性列的表文件;然后以1 m为分辨率定义1幅708×1012的图像,使用X坐标、Y坐标确定每个格网内的所有点,分别计算4个表文件中落到每一栅格内的点的第3列的平均值,将其作为该栅格的值,共生成4幅图像(如图1所示),最后将这4幅图像生成1副含有4个图层的图像。

2) SVM分类方法是一种监督分类方法,在分类之前应先采集训练样本和验证样本,分类时需要使用训练样本得到分类模型,分类之后需要使用验证样本验证分类精度。本文使用ENVI提供的ROI工具在生成的含有4个图层的图像中采集训练样本和验证样本。训练样本和验证样本分布分别如图2(a)、图2(b)所示,样本数目见表1。

图2 分类样本分布和验证样本分布

训练样本验证样本房屋33314668植被13741514地面51349997

3) 在使用SVM分类时,需要确定惩罚因子C和核函数内部参数gamma。目前遥感领域的研究人员大都使用分类软件默认的C和gamma,但软件默认的gamma和C并不一定是最优的,造成SVM良好的分类性能不能得到充分发挥。本文使用台湾林智仁博士libSVM开源包中的格网搜索工具grid.py。具体做法是先将分类样本保存成文本文件;然后使用式(5)将所有训练样本规定化至(0,1)区间,并将文本格式的训练样本转化成grid.py所需格式;最后确定最佳的C为32,gamma为128,如图3所示,试验流程如图4所示。

(5)

式中,z1为z归一化后的值;z为Z列的某一值;max(Z)为Z列的最大值;min(Z)为Z列的最小值。

图3 SVM分类器惩罚因子C和gamma的最优组合

图4 试验流程图

3. 试验结果与分析

分类结果如图5(a)所示,总分类精度96.248 2%,Kappa值为0.928 1。误差混淆矩阵见表2,地面分类精度最高,达98.94%,共有0.23%的地面被误分成房屋,0.83%的地面被误分成植被;房屋精度次之,为93.38%,2.19%的房屋被误分成植被,4.43%的房屋被误分成地面;植被分类精度最低,为87.32,5.94%的植被被误分成房屋,6.74%的植被被误分成地面。由图5(a)可以发现,大面积植被区域中有噪声,这是因为植被对激光的反射特性比地面和房屋对激光的反射特性复杂。大部分激光束在传播过程中遇到植物叶片的逐次阻挡,形成一定的波宽、回波次数、回波强度;少部分激光束在传播过程中遇到树干直接返回,这部分波形类似于房屋的波形;另外还有一部分激光束穿过树叶之间的间隙,直接发射到地面,这部分激光点的波形与地面的相同。在采样的过程中,一般直接采集大片的植被区域。

本文使用同样的试验数据和样本进行了最大似然法分类和马氏距离法分类。表3和表4分别是最大似然法和马氏距离法的误差混淆矩阵,将表2—表4进行对比可以发现,SVM各种类别的错误分类程度均小于最大似然法和马氏距离法的错误分类程度。由表5可以看出,SVM分类的总精度和Kappa系数均高于最大似然法和马氏距离法,分类精度分别高出1.12%、1.55%,Kappa系数分别高出0.020 0、0.030 2。SVM分类的各类别的制图精度和用户精度都高于马氏距离法,其中SVM的房屋制图精度比马氏距离法高3.34%;除了地面用户精度和植被制图精度外,其他4种精度均高于最大似然法,其中SVM分类的植被用户精度比最大似然高6.26%。

图5 分类结果

(%)

注:总分类精度为96.248 2%,Kappa系数为0.928 1。

表3 最大似然分类误差混淆矩阵 (%)

注:总分类精度为95.129 5%,Kappa系数为0.908 1。

表4 马氏距离分类误差混淆矩阵 (%)

注:总分类精度为94.696 8%,Kappa系数为0.897 9。

表5 3种分类方法对比

四、结束语

本文提出一种基于SVM和LiDAR全波形数据的分类方法。该方法首先从激光点的全波形数据中分出波宽、回波次数和振幅3个独立的属性,将这3个属性及点的高程属性分别与点的位置属性(点的横纵坐标X、Y)相结合,生成X、Y、高程,X、Y、波宽,X、Y、回波次数,X、Y、振幅共4个含有3个属性列的表文件;然后将这4个文件格网化成分辨率为

1 m的图像,再合成一幅含有4个图层的图像,在这幅图像上采集训练样本和验证样本,使用开源的libSVM中的grid.py工具确定SVM分类器中最优的惩罚因子C和gamma;最后进行分类和精度验证。为检验这种分类方法的分类性能,本文统计了SVM方法、最大似然方法、马氏距离法的误差混淆矩阵和这3个分类方法各类别的制图精度、用户精度及总的精度、Kappa系数。通过对比,可以确定本文提出的方法具有较高的精度。

参考文献:

[1] 赖旭东.机载激光雷达基础原理与应用[M]. 北京:电子工业出版社, 2010 :37-87.

[2] 罗伊萍,姜挺,王鑫,等. 基于数学形态学的 LiDAR 数据滤波新方法[J].测绘通报, 2011(3): 15-19.

[3] 熊娜,程新文. LiDAR数据特点及其滤波分类方法[J]. 中国水运, 2008,8(8): 151-154.

[4] 关辅兴, 李芳伟.LiDAR数据特点与分类算法探讨[J]. 测绘与空间地理信息, 2009, 32(3): 81-82.

[5] 刘文, 周兴华, 王振宇.机载激光系统的数据分类方法及其质量评估[J]. 海岸工程, 2008, 27(2): 32-39.

[6] 乔纪刚,刘小平,张亦汉.基于LiDAR高度纹理和神经网络的地物分类[J]. 遥感学报, 2011, 15(3): 546-553.

[7] 杨耘, 隋立春.面向对象的LiDAR数据多特征融合分类[J]. 测绘通报, 2010(8): 11-15.

[8] 管海燕,邓非,张建清,等. 面向对象的航空影像与LiDAR数据融合分类[J]. 武汉大学学报:信息科学版, 2009,34(7): 830-833.

[9] 龚亮,李正国,包全福.融合航空影像的LiDAR地物点云分类[J]. 测绘工程, 2012, 21(1) : 34-39.

[10] MADSEN K, NIELSEN H B, TINGLEFF O. Methods for Non-linear Least Squares Problems[M]. Denmark: Informatics and Mathematical Modelling Technical University of Denmark, 2004 : 1-57.

[11] 杨应,苏国中,周梅.影像分类信息支持的LiDAR点云数据滤波方法研究[J]. 武汉大学学报:信息科学版, 2010, 35(12): 1353-1458.

[12] 张铮,王艳平,薛桂香.数字图像处理与机器视觉[M]. 北京:人民邮电出版社,2011: 511-521.

[13] 徐光彩.机载LiDAR波形数据处理及分类研究[D]. 南京:南京林业大学,2010: 30-31.

[14] 曾齐红.机载激光雷达点云数据处理与建筑物三维重建[D]. 上海:上海大学, 2009: 54-57.

[15] Vladimir N V. The Nature of Statistical Learning Theory[M].[S.l. ]:Springer-Verlag, 1999.

[16] HSU C W. CHANG C C, LIN C J. A Practical Guide to Support Vector Classification[R]. Taiwan:University of National Taiwan, 2003: 1-12.

[17] 付阳,李昆仑.支持向量机模型参数选择方法综述[J]. 电脑知识与技术,2010, 6(28): 8081-8085.

猜你喜欢
训练样本高程波形
8848.86m珠峰新高程
人工智能
基于LFM波形的灵巧干扰效能分析
用于SAR与通信一体化系统的滤波器组多载波波形
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
基于ARM的任意波形电源设计
双丝双正弦电流脉冲波形控制
GPS高程拟合算法比较与分析