基于图注意力卷积网络的城市点云场景层次化语义分割研究

2021-03-31 06:24

建筑与装饰 2021年8期

南京国图信息产业有限公司江苏南京 210036

引言

点云的语义分割旨在为每个点分配一个类别标签，这是许多工业应用[1]的基础，从土地覆盖图、数字城市、城市场景重建到自动驾驶等。本文专门针对使用移动激光扫描（mobile laser scanning,MLS）数据在大规模市区中进行语义分割的基础和理论问题。

在过去的几十年中，已经展开了许多MLS点云的自动语义分割的研究，这些研究从不同方面提高了准确性。在现有方法中，从局部邻域[1]中提取低层次特征引起了广泛关注。由于这些方法主要是各种类型的手工特征，并利用它们来训练传统的机器学习算法，而不考虑邻域中的相关信息，因此语义分割结果中可能存在明显的标签不一致之处。为了克服这些缺点，许多研究采用概率图形模型[2]来集成更多的上下文信息。但这些模型在复杂的场景中会忽略远程上下文信息，并且即使进一步提高了分割精度，也通常存在鲁棒性的不足。

近年来，随着计算能力和可用标记数据的增长，深度学习在点云处理方面取得了空前的成功。为了使用于点云的深度神经网络更直观和易于实施，一些研究人员将3D点云转换为体素[3]或2D图像[4]，但不可避免丢失信息。因此，更多的注意力已经投入到直接在不规则点云上工作的点卷积网络。为了满足MLS数据的特征，已经提出了一些新颖的卷积网络[5]。尽管已证明该操作在进一步提高分类性能方面非常有效，但是上述卷积忽略了属于同一物体的点之间的结构连接，并导致不良的物体描绘。为了解决这个问题，有几种方法求助于图卷积神经网络[6]，以更好地了解高维空间中的局部几何关系。对于复杂的城市环境，动态保留边界并适应无序点云中的对象结构仍然是挑战。

本文没有直接使用现有的基于CNN// GCN的模型进行分类，而是通过点云分割和分类过程的协作，采用了改进的GCN网络进行语义标记。

1 方法

本节将详细介绍提出的3D点云语义分割框架。整个工作流程可以分为四个阶段，如图1所示。首先使用拉普拉斯平滑法用于去除离群值并降低测量噪声，之后使用单个网络预测点的分组建议，从中可以直接提取全局结构特征。在第三阶段，引入图注意力网络，以充分利用局部结构特征，并表示点之间的关系，以增强点云的细粒度语义分割。最后，通过完全连接的条件随机场算法在对象之间使用上下文约束来进一步优化初始分类。

1.1 团簇分割网络

本文基于SGPN[7]，将3D去噪点作为输入和特征提取。提取特征后，通过将单个SGPN层传递到两个分支（分别是相似度矩阵和置信度图）来获得维特征矩阵。具体而言，维相似度矩阵S的每一行都可以表示一个组提议，小于设置为指示这些点在嵌入空间中属于同一组的阈值。为了使结果更好一点，在特征空间中相似的点应该靠近在一起，在实验中使用双铰链损失法。同一语义类别中不同对象的点的边距大于，而不同语义类别中的点的边距大于。如果点i和j是同一对象，则将定义的损耗项最小化。

图1 本文方法的流程

1.2 细粒度分割网络

假设给定的I维点云，考虑一个简单的局部有向图G=(V,E)，由一组顶点为和根据k最近邻(k-nearest neighbor,kNN)规则构造边，以确定特征转移的方向。为了更加关注邻域中最相关的部分，以便卷积核可以动态地适应对象结构。从关注机制在NLP和图像分类中的成功经验启发，根据空间邻居构造图后，通过计算节点之间特征空间中的关联度，引入图注意模块进行特征学习。允许所有邻居节点的特征都参与中心节点的特征计算，从而最大限度地解决了特征信息丢失的问题，并且聚合了点云识别任务最有用的结构特征。

所有节点的状态都随着时间的发展而变化，本文提出了一种新颖的节点状态更新功能，以更新图中每个节点的特征表示。连接聚集的特征和状态向量以及非线性映射操作后，它将捕获其附近的结构信息。本文的图注意力卷积网络是在具有不同空间尺度的点云图金字塔上实现的，它是通过交替应用图构造和粗化技术而构建的。注意模块应用于点云图金字塔各个尺度的局部特征学习。点云通过图池操作来学习局部特征，同时还降低了每个功能通道中的分辨率，并将顶点的整个邻域信息汇总到一个精度中。最后，将学习到的特征逐层插值回到最佳比例，并以最佳比例应用其他GAC层以进行特征细化，以避免损失特征保真度。

1.3 后端处理

标签预测结果中存在不同类别的相似性引起的局部误差。因此，考虑到中低级细节（例如RGB颜色矢量和反射率值）以及更多上下文，使用CRF算法进行分类细化。此类信息对于确保逐点标签预测的一致性至关重要，通常，使用以下公式将能量函数应用于CRF模型。

2 实验结果与分析

2.1 数据描述和评价标准

两个具有不同的城市场景数据集被用来检验了所提出框架的性能。数据集A是Paris-Lille-3D基准数据集，具有1.431百万个3D点，该数据集是使用安装在卡车后部的Velodyne HDL-32E LiDAR采集的，其旋转轴与水平方向成30°，全长约1.94公里。数据集B是使用安装在车辆上的SICK LMS511激光扫描仪从中国湖北省黄石市捕获的，覆盖全长约33.5km，大小为11.7GB。

本文的GCN模型性能是根据三个指标，即精确度、召回率和总体准确性（OA）进行评估的，这三个指标通常用于评估3D语义分割。精确度和召回率分别定义为正确分割的对象数相对于分割结果和真值中的对象总数，OA反映了测试集的总体性能。

2.2 实验结果和评估

通过使用两个数据集进行测试的实验结果，证明了本文模型在大规模城市环境中对点云语义分割的有前途的功能。表1中列出了相应的每类准确性混淆矩阵。如表1中这两个数据集的准确性和语义分段的回忆所示，该方法在识别城市物体方面具有良好的性能，总体准确性为95.5%，这两个数据集分别为94.6%。根据表1，本文方法可以正确分类大多数城市物体。

表1 本文方法在两个数据集语义分割的性能

2.3 性能比较

为了进一步验证本文方法的有效性，基于相同的测试协议，我们与现有工作进行了比较。如表2所示，要注意的是，本文方法在OA方面获得了最佳结果，可用于标记点云。本文方法的主要优点是更有效地保留对象边界。

表2 本文方法与其他方法之间的性能（OA）比较

总之，该模型可以在杂乱而复杂的城市环境中实现最新的点云语义分割性能。同时，比较研究启发我们通过增强模块嵌入的能力来优化GCN模型，这使本文网络模型具有较高的代表性和出色的鲁棒性。

3 结束语

本文提出了一种改进的层次图卷积神经网络，该方法通过将实例分割网络与细粒度分类网络相结合来进行3D点云语义标记，从而提高了对城市物体的识别精度。通过估计两个真实的城市现场LiDAR数据集的准确性，对所提出的网络进行了实验评估，验证了所提出的方法提高了整体准确性。总体而言，本文语义标记框架可以在大规模点云场景下更准确，更可靠地实现支配性能。