马文++耿贞伟++张小波
摘 要:本文主要讨论一种基于随机森林的输电线路点云数据自动分类方法。首先,基于点的邻域提取点的局部特征,然后,选取随机森林作为分类模型,采用Gini系数作为节点分裂的标准,使用手工分类的点云数据训练模型,成功地实现了输电线路走廊内杆塔、电力线路、地物等的自动分类,为处理机载激光雷达在输电线路巡视中产生的点云数据提供了一种数据处理方案。
关键词:随机森林;自动分类;输电巡线;激光雷达;LiDAR;点云
中图分类号:TP391.41 文献标识码:A 文章编号:1671-2064(2017)19-0147-02
1 引言
激光雷達技术(LiDAR)是一种主动式的对地观察和测量的技术,从上世纪70年代出现至今,发展迅速,在电力、公路、铁路、林业、矿山、城市规划等众多领域都有广泛地应用。机载LiDAR,就是将LiDAR系统挂载于机载平台(飞机、直升机以及无人机等),沿机载平台的飞行轨迹对地物进行扫描以获取空间信息。由于机载LiDAR可以完整地记录飞行路线及其两侧走廊范围内的三维信息,具有安全、高效、快速等优点,因此逐渐被引入到输电线路巡线中,特别是在地形复杂、条件恶劣的地区[1-3]。
机载LiDAR在进行输电巡线作业时会产生大量的扫描数据(点云数据),对点云数据的分析和应用主要包括:电力线路走廊点云分类、输电线路缺陷分析、输电走廊三维重建及可视化等多个方面。其中,电力线路走廊点云分类是其他应用的基础,只要在完成了点云分类以后,才能继续进行深入的分析和研究。传统的分类方法主要采用手动分类,即以人工方式选取点云,手动设置类别。同时,国内外也有众多的关于自动分类的研究,如K Zhang[4]等提取地面的方法;VU T[5]提出的将点云数据转化为图像后,利用图像学的方法采用K均值聚类法将数据分割成高层建筑物、地面点及其他地物三大类。而在输电巡线的点云自动分类领域,梁静[6]等提出的基于KD树聚类的提取方法;Kim等[7]使用回波和点的局部信息为特征,基于随机森林模型实现了电力线路的提取。
2 点云特征提取
本文所述的方法只使用点的空间信息,不使用回波、颜色等其他信息,逐个点地进行特征提取。对于任意点Pi及其邻域N,可知存在邻域N的协方差矩阵C,求解矩阵C的特征向量(λ1≥λ2≥λ3≥0)及其对应的特征值(e1,e2,e3),而特征向量能表达出每个点的局部几何特征[8],如下图1所示。
在此基础上,对Weinmann[9-10],Hackel等[11]所定义的特征进行分析,结合输电线路杆塔和导线所具有的空间特性,选取以下特征:表1所示。
3 随机森林
3.1 随机森林学习器
集成学习(ensemble learning)是通过构建多个学习器来进行学习,可获得比单一学习器更显著的泛化性能,这对“弱学习器(weak learner)”来说尤为明显。其中,Bagging是并行式集成学习方法的最著名的代表,它采用自主采样方法,最终得到T个采样集,每个采样集包含m个样本的。然后,基于每个采样集形成一个“基学习器”,再将这些基学习器进行结合,以取得更好的泛化结果。
随机森林(Random Forest,简称RF)是Bagging的一个扩展变体,RF以决策树为基学习器构建Bagging,并且还引入了随机属性选择。而且,随着基学习器数量的增加,RF通常会收敛到更低的泛化误差,且RF的训练效率通常优于Bagging[12]。
3.2 随机森林的构建
随机森林由T棵决策树构成,每一棵决策树在构造时,选择节点的分裂属性有很多种方法,如:信息增益、信息增益比、Gini系数等等,本文采用Gini系数作为节点分裂的选择标准。而对于随机森林中决策树的数量,根据文献[13]所述,建议其设置在64~128之间,可以取得计算性能和分类效果的最佳平衡。因此,本文选择128棵决策树。
4 实验结果
本文实验数据为某输电线路LiDAR数据,从#1~#4,共三档,所有数据都已经过人工分类。用#1~#3前两档作为训练集,#3~#4作为验证集。
按照上述定义的特征,计算特征值后,部分特征值的可视化效果如下图2-4所示。
使用随机森林进行模型训练后,在验证集上泛化性能评估混淆矩阵如表2所示,总体分类精度为90%。
5 结语
本文主要讨论了一种对输电巡线点云数据进行自动分类的方法,基于点的邻域提取每个点的局部特征,选取128棵决策树构建随机森林,采用Gini系数作为节点分裂的标准,并通过一系列试验过程实现了输电线路走廊内杆塔、电力线路、地物等的自动分类,为处理输电线路巡视中产生的点云数据提供了一种数据处理方案。
参考文献
[1]林昀,吴敦,李丹农.基于机载激光雷达的高精度电力巡线测量[J].城市勘测,2011,(5):71-74.
[2]孙晓云,王晓冬.应用 LiDAR 数据中提取电网信息方法初探[J].测绘技术装备,2010,(1):27-29.
[3]徐祖舰,王滋政,阳锋.机载激光雷达测量技术及工程应用实践[M].武汉:武汉大学出版社,2009.
[4]K Zhang,SC Chen,D Whitman,ML Shyu. A progressive morphological filter for removing nonground measurements from airborne LIDAR data[J].IEEE Transactions on Geoscience & Remote Sensing,2003,(4):872-882.
[5]VU T. Thuy,M Tokunaga,WAVELET AND SCALE-SPACE THEORY IN SEGMENTATION OF AIRBORNE LASER SCANNER DATA[J].Robotica.ipleiria.pt,2001,(3):53-57.endprint
[6]梁静,张继贤,邓喀中,刘正军.基于KD树聚类的机载LiDAR数据输电线提取方法[EB/OL].北京:中国科技论文在线,2012.
[7]HB Kim,G Sohn. 3D CLASSIFICATION OF POWER-LINE SCENE FROM AIRBORNE LASER SCANNING DATA USING RANDOM FORESTS[C].PCV,2010.
[8]G Guy,G Medioni,rard. Inference of Surfaces, 3D Curves, and Junctions from Sparse, Noisy, 3D Data[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1995,(11):1265-1277.
[9]M Weinmann, B Jutzi , C Mallet. Feature relevance assessment for the semantic interpretation of 3D point cloud data[C].Isprs Annals of Photogrammetry,2013, (II-5/W2):313-318.
[10]M. Weinmann, S. Urban, S. Hinz, B. Jutzi, and C. Mallet. Distinctive 2D and 3D features for automated large-scale scene analysis in urban areas[J] . Computers & Graphics, Vol. 49, pp. 47-57
[11]T Hackel,JD Wegner,K Schindler. Fast Semantic Segmentation of 3d Point Clouds with Strongly Varying Density[C].Isprs Annals of Photogrammetry Remote Sensing & Spatial Informa, 2016,(III-3):177-184.
[12]周志華.机器学习[M].清华大学出版社,2016.
[13]Thais Mayumi Oshiro, Pedro Santoro Perez, and Jose Augusto Baranauskas. How Many Trees in a Random Forest?[J].Lecture Notes in Computer Science,2012,(4):154-168.endprint