基于集成卷积神经网络的LiDAR数据分类

2021-10-07 03:35王爱丽张宇枭吴海滨王莹

哈尔滨理工大学学报 2021年4期

王爱丽张宇枭吴海滨王莹

摘要：针对人工设计的中低层特征难以对LiDAR数据进行高精度分类以及泛化性能较低等问题，提出了一种基于集成卷积神经网络的LiDAR数据分类方法。它是基于深度学习模型与随机子空间的集成学习框架。通过有放回的随机抽取LiDAR训练集构成子集，以深度卷积神经网络模型为单个子分类器，最后采用多数投票法确定最终样本的类别，以获得更好的分类精度。实验结果表明，所提方法在Bayview Park和Houston两个数据集上分别取得了93.31%和80.95%的总体分类精度，与其他3种分类算法相比具有更好的分类效果，由此证明该网络在拥有较高分类精度的同时还具有良好的泛化能力。

关键词：LiDAR;图像分类;深度学习;卷积神经网络;集成学习

DOI：10.15938/j.jhust.2021.04.019

中图分类号：TP391

文献标志码：A

文章编号：1007-2683（2021）04-0138-08

Abstract：Aiming at the problems of artificially designed middle and low-level features that are difficult to classify LiDAR data with high precision and low generalization performance， a LiDAR data classification method based on ensemble convolutional neural network is proposed. It is an integrated learning framework based on deep learning models and random subspaces. The LiDAR training set is randomly selected with replacement to form a subset， the deep convolutional neural network model is used as a single sub-classifier， and the majority voting method is used to determine the category of the final sample to obtain better classification accuracy. The experimental results show that the proposed method achieves 93.31% and 80.95% overall accuracy on the Bayview Park and Houston data sets， respectively. Compared with the other three classification algorithms， it has a better classification effect， which proves that the network has good generalization ability while having high classification accuracy.

Keywords：LiDAR; image classification; deep learning; convolutional neural network; ensemble learning

0 引言

激光雷达（light detection and ranging， LiDAR）是一种发射激光束并接收回波获取目标三维信息的系统[1]。LiDAR系统获取的点云数据通过去噪和栅格化处理可衍生出LiDAR數字表面模型（digitial surface model， DSM）[2]，是一种包含地表建筑物、桥梁和树木等高度的地面高程模型，在区分高度不同的地物上有极大优势，更适合应用于地物分类研究。

传统的人工神经网络模型的隐含层都只包含一层节点，有些甚至无节点，这些模型进行的是浅层学习[3-4]。浅层学习在处理复杂函数和提取高阶抽象特征能力有限，不能处理复杂的遥感图像分类任务，因此采用多层非线性变换方式进行自动提取特征的深度学习算法成为图像处理领域的主流[5]。其中卷积神经网络（convolutional neural network， CNN）是在神经网络的基础上构建深层的网络结构，具有参数多，容量大的特点，CNN不需要复杂的预处理，它可以通过非线性变换自动识别和提取有效的特征信息，并且泛化能力强[6]。所以本文将CNN运用到LiDAR数据处理中，进而达到对LiDAR数据的高精度分类。

为了解决训练样本有限的问题并获得更好的泛化性能，研究人员引入了集成学习方法。集成学习结合了不同的分类器，以减少模型分类准确性的方差，并提高分类模型的整体性能，在机器学习领域中发展良好。鲍蕊等[7]提出一种基于形态学属性剖面高光谱遥感影像集成学习分类方法，充分利用影像的空间信息并提高分类的稳定性。苏健民等[8]针对高分辨遥感图像分割问题，提出一种基于U-Net改进的深度卷积神经网络，采用了集成学习策略来提高分割精度，实现了端到端的像素级语义分割。叶秀芬等[9]提出了一种基于Dense-Unet网络和集成学习的改进语义分割方法，实现了高分辨率遥感图像中的高压电线一类细弱目标的精准分割。余东行[10]提出了一种联合卷积神经网络与集成学习的遥感影像场景分类算法，有效提高当训练数据较少时或深层卷积神经网络难以训练时遥感影像场景分类的精度。所以本文为了提高LiDAR数据分类精度，提出了一种基于集成卷积神经网络的新型LiDAR数据分类算法。

1 集成卷积神经网络

1.1 卷积神经网络

卷积层利用多个卷积核，对样本进行特征提取，卷积核的权值向量是不同的[11]。在此之后降采樣层实现数据规模的降低和平移、伸缩等形变鲁棒性的改善，激活函数层对输入数据的分布做出输出分布响应，Batch-Normalization层改善学习的性能，加快训练速率同时一定程度上抑制过拟合[12]，Dropout层通过随机“弃置”部分神经元产生更多组合的可能，增加网络的泛化能力，有效抑制过拟合现象。

1）卷积层

卷积层是整个卷积神经网络的核心，卷积层可以有效地提取样本特征。卷积核通过滑动的方式遍历整个样本，进行特征提取，局部特征提取后，即可标记该部分特征与其他特征的位置关系。

卷积神经网络对于特征的提取是非透明的，与传统的网络学习方法不同，卷积核运算有局部感知的特点，当学习到部分特征后，将特征输入到接下来的映射层，之后的映射层会继续进行分类的学习[13]。经过卷积层之后的样本利用周围样本的空间分布特征，可以得到更高的分类精度，而且利用网络获得更好的鲁棒性。

卷积层主要有两个优点：第一，局部连接。一般认为图片中距离相近的部分相关性较大，可能形成区分性的局部特征，因此，神经元只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息，这样就极大的减少了权重的数量;第二，权重共享。卷积层的每一个卷积核重复地作用于整个感受野中，并且每一个卷积核都共享相同的参数，包括相同的权重矩阵和偏置项。因此，权值共享可以探测出不同区域出现的相同模式。

对于输入一幅m×n的图像，卷积核大小为a×b的矩阵w，偏置为b，则经过卷积后的结果为

其中：*代表卷积操作;g（·）为激活函数。

常见的两种传统的激活函数：logistics函数和tanh函数。

以及本文中采用的激活函数：ReLU函数

ReLU函数具备以下特点：①单侧抑制;②相对宽阔的兴奋边界;③稀疏激活性。ReLU函数对输入的信号进行响应，当输入的信号为正时被激活，当输入信号为负时进入死区。信号经过ReLU层得到了相当程度的稀疏[14]。

经过比较，在深度学习领域ReLU函数最为常用，且被认为是一种性能较优的激活函数，但它对于学习率的有一定要求，使用时不可以将学习速率取得过大，防止传递参数更新过快，使得训练未达到最佳就进入死区。

2）池化层

池化层可以有效降低数据维度，池化层的输入是卷积层的输出[15]。卷积层输出N个特征图，经过池化层，降低数据规模。常用的池化层方法有最大池化和平均池化。

本文的卷积神经网络中引入最大值池化层来稀疏化隐层数据，最大池化的操作是保留池化区域的最大值，即去除矩阵内的非极大值，而提取该区域的极大值作为池化后的代表值。池化层的输出使网络的参数大幅度减少，一般使用最大池化时，核的大小为2×2，2×2大小的核可以使参数量减小到一半。有助于防止过拟合出现的情况，增强网络的鲁棒性。平均值池化对区域内矩阵进行求平均值运算，采用平均值来稀疏非重叠目标区域的方法。

3）Dropout层

Dropout层的作用是在网络训练过程中将部分神经元按照一定比率进行丢弃[16]。丢弃的过程不是永久性的，而是暂时的，即在每个训练批次中，随机使一定比例的节点不工作，尽管这些不工作的节点本次训练对输出不做贡献也不参与更新权值，但它们仍被保留下来并可能参与之后的训练，而在测试时则使用全部节点进行预测以得到最好的精度。如图1所示，图1（a）表示原始神经网络结构，（b）表示Droupout网络结构，原始的网络结构中所有的神经元都参与了训练，而（b）中，有部分神经元没有参与训练。Dropout是一种非常有效地抑制过拟合的方法，它的使用往往能给网络泛化性能带来极大提升，对应的公式变化如下。

1.2 集成学习

集成学习是对同一问题使用有限个数的个体学习器进行学习，并使用一定的策略把各个子学习器的结果进行整合[17]。子学习器的输出影响最终系统的输出。如果子学习器的表现良好，则最终系统的表现优于单个学习器的表现[18]。集成学习的基本结构如图2所示。

完整的集成学习系统包括以下两个步骤：

①确定子分类器。子分类器的选择应保证足够大的差异，当数据集确定时，可以通过选择不同的训练子集或不同的初始化参数等方式增大子分类器之间的差异性。此外，选择不同的子分类器，从根本上增大差异性。

②最终分类结果的确定。集成系统是由多个子分类器构成的，测试时，测试样本输入集成系统，每个子分类器都会产生一个判定结构，为了得到最终的分类结果，需要有固定的整合机制，常用的集合策略有多数投票法、加权投票法、平均法等。实验时，应选择合理的方法进行整合。在众多集合策略中，多数投票法最为常用。

1.3 基于集成卷积神经网络的LiDAR数据分类

为了提高现有集成学习系统用于LiDAR分类的单个CNN分类器的鲁棒性和泛化性能，本文提出了集成卷积神经网络。在集成卷积神经网络中，通过从原始训练样本中随机选择样本来构建随机子空间。最终通过多数投票法确定最终的分类结果。

X={（xi，yi），1≤i≤N}代表原始LiDAR数据集，数据集在选取训练集与测试集时，应尽量无重复，无交叉。子集样本从原始训练集中有放回、随机的抽取样本。随机的抽取样本可以保证最终模型的不同，有放回地抽取保证了每个样本在一次训练中都有均等的机会被选中，使最终投票达到了“求同”的效果。以此设计适当的体系结构。最后的集成方式是多数投票法。

首先对LiDAR数据集随机抽取M个样本作为训练样本，在这M个样本中每次随机抽取m

本文所提出的集成卷积神经网络方法框架如图3所示。可以看出，所提出的方法包括两部分：随机样本选择和CNN分类器。随机样本选择用于制定有效的多重分類器系统。最后，通过对单个分类器的结果进行多数表决来获得最终分类结果。

Div系数用来评估集成分类器的性能。Div系数是对集成分类系统中单个分类器之间差异的度量。单个分类器之间的差异越大，单个分类器之间的相关性越小，并且集成性能越好[19]。如果单个分类器之间的差异很小，则单个分类器的同质化会很严重，这可能导致严重的系统同质化，接而导致对某种样本分类结果严重失败。

首先，集成系统中任意两个子分类器之间的Div系数计算如下：

假设两个单个分类器的错误分类样本集分别为A和B，则可以表示为：

将集成分类器的数量定义为L，集合系统的Div系数是所有Div（i，j）值的平均值。

2 实验结果及分析

2.1 数据集描述

为了评估我们提出的分类方法的性能，在实验中使用了两个公共LiDAR数据集[20]。第1个数据集Bayview Park由300×200像素组成，空间分辨率为1.8m。该数据集来自美国旧金山，由WorldView2的传感器于2010年6月获得。该地点定义了总共7种不同的土地覆盖类别，分别为建筑物1、建筑物2、建筑物3、道路、树木、土壤和海水。假彩色合成图像如图4所示。

第2个数据集Houston由349×1905像素组成。Houston数据集是在2013年IEEE GRSS数据融合竞赛提供的美国得克萨斯州休斯顿大学市区范围内获取的。Houston数据集空间分辨率为2.5m，该数据集定义了15种土地覆盖类别。假彩色合成图像如图5所示。

本实验分别随机选择了600个带标签的Bayview Park和Houston数据集样本作为训练样本。其中Bayview Park数据集共有19537个样本，Houston数据集共有15029个样本。我们仅使用非常有限的训练样本进行训练。其余标记的样本用作测试样本。

2.2 实验结果及分析

在本文中，使用CNN作为单个分类器。表1中展示了网络的主要架构，共有3个卷积层，3个ReLU层和3个池化层。训练集的大小为600，学习率的参数设置为0.1，两个数据集训练迭代次数为80。

对于训练样本，首先分别从两个数据集中所有样本中分别随机选择600个带标签的样本作为原始训练样本。然后从原始训练样本中随机选择n个样本来设计合适的学习结构。在实验中，有两个超参数值得解释，它们是集成数量（单个分类器的数量E）和子空间大小（单个分类器中的训练样本数量S）。实验中确定参数E=（5，10，30，50）和参数S=（200，300，400，500）。

本文中实验的分类结果评价指标采用了遥感数据分类问题中常用的总体分类精度（OA），Kappa系数（K）和多样性（DIV）。

实验在配备GTX 1060 GPU的3.2GHz CPU上运行。所有实验均使用不同的随机训练样本运行了10次。表2展示了具有不同训练样本的子空间的分类结果。随着训练样本数量的增加和集成数量的增加，集成系统的准确性会提高。对于Bayview Park数据集，在集成数量和子空间样本数量中，最高分类精度为93.91%。对于Houston数据集，最高准确性为80.95%。由于Houston数据集包含的类别更加丰富，并且每个类别所占用的像素较少，其中人工草地、水、停车场2、网球场以及跑道所占用的像素仅有几百个，所以这几个类别的分类精度较低，导致Houston数据集的总体分类精度大幅度低于Bayview Park数据集。

从表2中可以看出，如果选择适当的子空间数量和集成数量，则可以获得更准确的分类结果。同时，表2展示了CNN集成的差异值，随着集成数量的增加，多样性呈减小的趋势。为了比较子分类器数量对集成卷积神经网络的执行效率的影响，表3为CNN集成分类方法训练时间，实验的训练时间随着整体的子分类器数量和单个分类器中的训练样本数量的增加而增加。为了验证深度学习模型CNN对LiDAR数据分类的有效性，本文的对比实验采用了集成SVM，实验结果见表4、表5，分别对比了OA、Kappa系数、多样性度量以及训练时间。可以看出，虽然集成SVM的训练时间比集成CNN的时间短，但是集成SVM的各项分类评价指标均大幅度低于集成CNN。

图6、图7分别显示了两个LiDAR数据各分类方法分类结果的假彩色图。假彩色图作为一种主观评价指标，可以更加直观地展示分类效果。本文提出的集成CNN方法分类边界更加平滑，已标记像元与背景像元的错分现象更少，更贴近真实地物分布。图8给出不同种方法的LiDAR数据分类结果的。从图8中分析可知，深度学习方法相比传统的方法SVM、决策树而言分类效果有很大的提升，错误分类的面积大大减少。

3 结论

本文提出了基于集成卷积神经网络的LiDAR数据分类方法，对比分析了不同的集成数量和子空间数量对分类结果的影响。当我们选择适当的集成数量和子空间数量时，集成卷积神经网络方法在Bayview Park和Houston数据集上的分类精度分别达到93.31%和80.95%。并与三种典型的分类算法进行对比，结果表明本文设计的网络分类精度较好，将来，我们将研究如何将其他深度学习方法与有限样本结合起来，以进一步提高分类准确性。

参考文献：

[1] 胡海瑛，惠振阳，李娜. 基于多基元特征向量融合的机载LiDAR点云分类[J]. 中国激光， 2020， 47（8）：237.

HU Haiying， HUI Zhenyang， LI Na. Airborne LiDAR Point Cloud Classification Based on Multiple-entity Eigenvector Fusion[J]. Chinese Journal of Lasers， 2020， 47（8）：237.

[2] KONG D， XU L， LI X， et al. A Real-Time Method for DSM Generation from Airborne LiDAR Data[C]// 2013 IEEE International Instrumentation and Measurement Technology Conference（I2MTC）， May 6-9， 2013， Minneapolis， MN， USA. New York：IEEE， 2013：377.

[3] 王宇，杨艺，王宝山，等. 深度神经网络条件随机场高分辨率遥感图像建筑物分割[J]. 遥感学报， 2019， 23（6）：1194.

WANG Yu， YANG Yi， WANG Baoshan， et al. Building Segmentation in High-resolution Remote Sensing Image Through Deep Neural Network and Conditional Random Fields[J]. Journal of Remote Sensing， 2019， 23（6）：1194.

[4] 严明，曹国，夏梦. 基于水平集演化和支持向量机分类的高分辨率遥感图像自动变化检测[J]. 哈尔滨理工大学学报， 2019， 24（1）：82.

YAN Ming， CAO Guo， XIA Meng. Automatic Change Detection of High Resolution Remote Sensing Images Based on Level Set Evolution and Support Vector Machine Classification[J]. Journal of Harbin University of Science and Technology， 2019， 24（1）：82.

[5] 于舒春，佟小雨. 基于CNN特征提取的粒子滤波视频跟踪算法研究[J]. 哈尔滨理工大学学报， 2020， 25（4）：78.

YU Shuchun， TONG Xiaoyu. Research on Particle Filter Video Tracking Algorithms Based on CNN Feature Extraction[J]. Journal of Harbin University of Science and Technology， 2020， 25（4）：78.

[6] 張晓男，钟兴，朱瑞飞，等. 基于集成卷积神经网络的遥感影像场景分类[J]. 光学学报， 2018， 38（11）：350.

ZHANG Xiaonan， ZHONG Xing， ZHU Ruifei， et al. Scene Classification of Remote Sensing Images Based on Integrated Convolutional Neural Networks[J]. Acta Optica Sinica， 2018， 38（11）：350.

[7] 鲍蕊，夏俊士，薛朝辉，等. 基于形态学属性剖面的高光谱影像集成分类[J]. 遥感技术与应用， 2016， 31（4）：731.

BAO Rui， XIA Junshi， XUE Zhaohui， et al. Ensemble Classification for Hyperspectral Imagery Based on Morphological Attribute Profiles[J]. Remote Sensing Technology and Application， 2016， 31（4）：731.

[8] 苏健民，杨岚心，景维鹏. 基于U-Net的高分辨率遥感图像语义分割方法[J]. 计算机工程与应用， 2019， 55（7）：207.

SU Jianmin， YANG Lanxin， JING Weipeng. U-Net Based Semantic Segmentation Method for High Resolution Remote Sensing Image. Computer Engineering and Applications， 2019， 55（7）：207.

[9] 叶秀芬，于淼，郭书祥，等. 遥感图像中细弱目标分割方法[J]. 哈尔滨工程大学学报，41（11）：1689.

YE Xiufen， YU Miao， GUO Shuxiang， et al. The Segmentation Method of the Thin and Weak Targets in Remote Sensing Images[J]. Journal of Harbin Engineering University，41（11）：1689.

[10]余东行，张保明，赵传，等. 联合卷积神经网络与集成学习的遥感影像场景分类[J]. 遥感学报， 2020， 24（6）：717.

YU Donghang， ZHANG Baoming， ZHAO Chuan， et al. Scene Classification of Remote Sensing Image Using Ensemble Convolutional Neural Network[J]. Journal of Remote Sensing， 2020， 24（6）：717.

[11]CHEN Y， LIN Z， ZHAO X， et al. Deep Learning-Based Classification of Hyperspectral Data[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing， 2017， 7（6）：2094.

[12]刘建伟，赵会丹，罗雄麟，等. 深度学习批归一化及其相关算法研究进展[J]. 自动化学报， 2020， 46（6）：1090.

LIU Jianwei， ZHAO Huidan， LUO Xionglin， et al. Research Progress on Batch Normalization of Deep Learning and Its Related Algorithms[J]. Acta Automatica Sinica， 2020， 46（6）：1090.

[13]景维鹏，张明伟，林敬博. 一种神经网络架构搜索遥感图像分类方法[J]. 哈尔滨理工大学学报， 2021， 26（1）：25.

JING Weipeng， ZHANG Mingwei， LIN Jingbo. A Network Architecture Search Remote Sensing Image Classification Method[J]. Journal of Harbin University of Science and Technology， 2021， 26（1）：25.

[14]王红霞，周家奇，辜承昊，等. 用于图像分类的卷积神经网络中激活函数的设计[J]. 浙江大学学报：工学版， 2019（7）：1363.

WANG Hongxia， ZHOU Jiaqi， LIN GU Chenghao. Design of Activation Function in CNN for Image Classification[J]. Journal of Zhejiang University（Engineering Science）， 2019（7）：1363.

[15]XIA J， YOKOYA N， LWASAKI A. Fusion of Hyperrspectral and LiDAR Data with a Novel Ensemble Classifier[J]. IEEE Geoscience and Remote Sensing Letters， 2018， 15（6）：957.

[16]WANG A L， HE X， GHAMISI P， et al. LiDAR Data Classification Using Morphological Profiles and Convolutional Neural Networks[J]. IEEE Geoscience and Remote Sensing Letters， 2018， 15（5）：774.

[17]CHEN Y， ZHAO X， LIN Z. Optimizing Subspace SVM Ensemble for Hyperspectral Imagery Classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing， 2014， 7（4）：1295.

[18]樊利恒，呂俊伟，邓江生. 基于分类器集成的高光谱遥感图像分类方法[J]. 光学学报， 2014， 34（9）：99.

FAN Liheng， LV Junwei， DENG Jiangsheng. Classification of Hyperspectral Remote Sensing Images Based on Bands Grouping and Classification Ensembles[J]. Acta Optica Sinica， 2014， 34（9）：99.

[19]孙博，王建东，陈海燕，等. 集成学习中的多样性度量[J]. 控制与决策， 2014， 29（3）：385.

SUN Bo， WANG Jiandong， CHEN Haiyan， et al. Diversity measures in ensemble learning[J]. Control andDecision， 2014， 29（3）：385.

[20]DEBES C， MERENTITIS A， Heremans R， et al. Hyperspectral and LiDAR Data Fusion：Outcome of the 2013 GRSS Data Fusion Contest[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing， 2014， 7（6）：2405.

（编辑：温泽宇）