张 蕊,孟晓曼,曾志远,金 玮,武益超
华北水利水电大学 信息工程学院,郑州 450046
近年来,随着三维成像技术的快速发展与激光扫描设备的日益普及,3D点云数据[1-2]的获取变得越发便捷。点云是由一系列点组成的具有显著空间几何特征信息的点集。相较于二维图像数据[3-4],点云数据具有丰富的深度信息和空间信息等优势,能够有效地表达空间中物体的大小、结构、位置和方向,故其空间信息利用程度更高。但其稀疏性、随机性和非结构化的特点使得基于点云的语义分割[5-7]充满挑战。点云语义分割是将每一个点归类为其所属对象的语义类别的技术。它作为点云数据处理和分析的基础技术,在地图地理信息、导航定位、计算机视觉、模式识别等领域中都有着广泛的应用。在计算机视觉中的自动驾驶技术,自动驾驶技术的关键内容是环境辨别和路况检测,构建网络模型实现点云语义分割是环境辨别和路况检测的基础,模型分割精度越高,环境辨别和路况检测越精准,自动驾驶技术越成熟。在地理地图信息领域,由于地理面积庞大,地形复杂,人工处理需要消耗更多的人力物力,且效率较低,点云语义分割可以高效地识别并分割山川、河流、树木等目标,减少人力物力的使用,且处理效率高。在导航定位领域,点云语义分割技术的成熟程度决定导航技术的准确度,分割精度越高,导航准确度越高。
传统的卷积神经网络[8-9](convolutional neural net‐work,CNN)在二维图像语义分割[10-12]上取得了很好的分割效果。这类网络能很好地处理图像、文本和语音等这类欧氏空间数据,但其却很难直接对点云等不规则数据进行处理。在二维图像领域,一张图片可以表示为分布均匀的像素点,卷积神经网络通过卷积核在局部进行特征学习,从而获取图片的特征信息;而在三维数据领域,一个场景是由一系列点组成的,这些点(点云)具有非结构化、分布不均匀和数据量大等特点,传统卷积神经网络很难直接对其进行处理。为了使点云数据适用于卷积神经网络,研究者们将其转换为规则的结构(即多视图、体素和网格),作为网络模型的输入,但这种转换会丢失大量空间几何信息,因此研究者们开始广泛关注如何直接对点云数据构造深度学习模型。目前已有一些综述性论文[13-15]对基于深度学习的点云语义分割研究进行了总结和分析。它们将基于深度学习的点云语义分割方法按照间接法和直接法进行分类,并对这两类方法进行了详细划分。图卷积神经网络[16-17](graph convolutional neural network,GCN)直接在图结构上进行操作,根据节点之间的依赖关系,提取特征。由于其独特的特征提取方式特别适合对点云数据进行建模,近些年成为学者研究的重要课题之一。基于图卷积神经网络的点云语义分割方法研究属于直接法中的一类,虽然在上述几篇综述性文章中有所体现,但这些文章中对其介绍相对粗略,没有对其进一步详细划分。因此,本文对基于图卷积神经网络的三维点云语义分割方法进行分类整理,在算法内容上,添加了最近提出的新方法,总结了近几年多种三维点云语义分割算法,并且按照图卷积网络的类型对其进行分类。此外,介绍一些常用的点云数据集以及评价指标。最后对点云语义分割面临的挑战做出总结并进行展望。
随着卷积神经网络[18-19]技术的迅速出现,基于深度学习[20-21]的语义分割的精度得到了大幅度提高。深度学习已经广泛应用于二维图像的处理中,但由于3D点云数据的不规则性、无序性等特点,使其在点云语义分割上的应用仍面临着诸多挑战。
目前基于深度学习的点云语义分割方法可以分为间接方法和直接方法两大类,如图1所示。其中间接方法包括基于投影[22-24]、基于体素[25-27]、基于多视图[28-30]等方法。基于投影的方法通过投影能够缩小点云的维度和计算成本,但其存在离散化误差和遮挡等问题,会造成空间信息的丢失;基于体素的方法将点云转化为体素格式,与投影方法相比信息丢失得少,但是会引起体素的粒度以及边界的模糊等问题,使分割精度降低;基于多视图的方法利用多视角下的每个视图来表示三维模型,解决了点云数据的结构化问题,但这些算法空间信息损失较为严重,分割精度不高。直接方法包括基于点处理[31-33]、基于优化CNN[34-36]、基于RNN[37-39]、基于无监督[40-42]、基于图卷积[43-97]等方法。这类方法直接对点云进行操作,充分利用点云数据的特点,能够有效降低空间信息损失。本文主要介绍直接方法中的基于图卷积的方法。
图1 基于深度学习的点云语义分割方法分类Fig.1 Point cloud semantic segmentation method classification based on deep learning
根据图卷积网络的类型,本文将基于图卷积的方法分为标准图卷积方法、图注意力卷积方法、深度图卷积方法、全方位图卷积方法、扩张图卷积方法和其他方法,并在图2中依次列举了近几年的网络模型。根据收集到的点云语义分割网络模型,图3统计了近年来基于图卷积神经网络的点云语义分割方法的发展时间线。接下来,本文将依次对每一类方法进行详细介绍。
图2 基于图卷积神经网络的点云语义分割方法Fig.2 Semantic segmentation method of point cloud based on graph convolutional neural network
图3 基于图卷积的点云语义分割方法时间线Fig.3 Timeline of point cloud semantic segmentation method based on graph convolution
1.1.1 空间域
在图结构中,节点包含丰富的特征信息,边代表各个节点之间的依赖关系。基于空间域的图卷积方法利用点云中的每个点及其相邻点构成图结构,直接对点云数据进行卷积,充分利用点云数据的特点,能够有效降低空间信息损失。下面将介绍一些基于该类方法的网络模型,并在表1中对该类方法的网络模型进行了对比分析。
表1 基于空间域的方法模型的对比分析表Table 1 Comparative analysis table of method models based on spatial domain
Wang等人[43]首先将图卷积神经网络应用到点云处理的过程中,并将其与PointNet[31]相结合,提出了动态图卷积(dynamic graph CNN,DGCNN)网络,实现了对点云的直接语义分割。PointNet网络忽略了点之间的几何关系,无法提取点云的局部特征。为了解决这一问题,DGCNN网络用边缘卷积运算(EdgeConv)替换了PointNet网络中叠加的多层感知机(multilayer perceptron,MLP),EdgeConv可以在提取点云的局部几何特征的同时保持置换不变性。DGCNN网络所构建的图是动态的,在网络的每一层之后进行更新,构建新的图结构。该网络提高了分割性能,但空间变换网络的引入使得网络中可训练参数相应增加,从而增加模型的优化难度。DGCNN网络结构图如图4所示[43]。
图4 DGCNN网络结构图Fig.4 DGCNN network structure
为了减小网络模型的优化难度,Zhang等人[44]采用DenseNet[45]的思想,在DGCNN网络的基础上提出链接动态图卷积神经网络(linked dynamic graph CNN,LDGCNN)模型来处理上述问题。该网络将不同动态图的层次特征连接起来,计算出信息边缘向量,有效地避免了梯度消失的问题,减小了网络的规模,在Shape-Net数据集上获得了较好的语义分割结果。Xiu等人[46]对DGCNN网络进行扩展,提出了一种动态尺度图卷积神经网络(dynamic-scale GCN),旨在通过结合动态尺度采样和多尺度邻域图对多尺度局部结构信息进行建模。该网络采样和近邻图构造都是动态实现的,因此在训练前不需要对数据进行扩充或预处理。
点云特征的提取大都通过分层体系结构实现了优异的性能,然而以往的点聚集策略只是在原有的欧几里德空间中以固定的方式进行点采样和分组,不能适应更多不同的场景。为此,Liu等人[47]提出了一种新的分层点集学习体系网络结构(dynamic points agglomeration,DPAM)。DPAM网络具有动态点聚集的特点,在网络层次结构的每一层,根据训练点的基本分布对点进行采样、分组和池化,并对点的特征进行自适应权重聚合。该网络基于图神经网络,以点相似图为输入,在点之间进行消息传递,学习聚集矩阵。点聚集(采样、分组和池化)是一个轻量级模块,可以插入到大多数现有的体系结构中。此外,该网络还提出了一种参数共享方案,减少内存的使用并且减小计算量。
Liang等人[48]提出了一种分层深度图卷积神经网络(hierarchical depthwise graph convolutional neural net‐work,HDGCN)。HDGCN网络包含一个DGConv块,DGConv块具有从邻近点聚集特征和向邻近点传输特征的能力,可以有效地提取局部特征。为了减少内存消耗,HDGCN网络用1×1的卷积作为逐点卷积来取代空间图卷积。受层次结构在图像语义分割和点云语义分割中成功应用的启发,HDGCN网络将层次结构与DGConv块相结合,分层提取点云的局部和全局特征。层次结构增加了感受野,在不同层次提供不同尺度的形状信息。该网络在一致性方面存在局限性,点云分割精度有待进一步提升。
Khan等人[49]提出了新的点云语义分割网络(featurebased graph convolutional network,FGCN)。FGCN网络使用图卷积网络(GCN)将空间信息或局部邻域特征编码为对称图结构,对无向对称图中相邻点的空间排列进行编码,并将其与从2D CNN提取的特征一起传递到包含三层局部图卷积的图卷积网络,利用局部和全局特征对3D点云进行语义分割,以生成完整的分割图。该网络能够有效提高分割任务的整体性能,但与现有架构相比,需要占用更多的内存。
为了能够从局部结构中学习特征,以及将局部和全局信息进行聚合,Luo等人[50]提出了K-近邻搜索(KNN)和VLAD(vector of locally aggregated descriptor)[51]结合的图卷积网络(KNN searching and VLAD combined graph convolutional network,KVGCN),该网络通过多个MLP对KNN构造图的边缘进行卷积,提取具有代表性的局部特征,然后在特征编码块中嵌入VLAD层,聚合局部和全局上下文特征,并且多次重复使用特征编码块,将提取的特征采用跳跃连接的方式进行连接,增强网络的性能,从而提高语义分割的准确性。该网络中提出的特征合并编码器中引入了强大的池化机制,该机制具有可学习的参数,可以通过反向传播进行训练,从局部特征聚合全局表示,但其在KNN构造图中的参数K和VLAD中的参数D均为固定值,限制了密集区域特征学习的能力。KVGCN的网络结构图如图5所示[50]。
图5 KVGCN网络结构图Fig.5 KVGCN network structure
Lin等人[52]提出了一种用于点云分析的图卷积网络(3D-GCN)。3D-GCN网络可以提取任意形状和大小的无序点云信息,且具有平移不变性、缩放不变性和旋转不变性,对三维点云数据的识别和分割具有足够的鲁棒性。受图像卷积和池化技术的启发,Li等人[53]提出了一种新型网络,即PointVGG,该网络包含点卷积Pconv、点池化Ppool和用于点云特征学习的图结构,通过逐层连接学习丰富的高级特征。Wang等人[54]将图卷积网络(GCN)和多层感知机(multilayer perceotron,MLP)融合为一个新的网络结构(GCN-MLP),并结合注意力池化操作,建立了一个高效的点云特征提取模块。GCNMLP网络将语义和实例分割整合到一个统一的模型中,高效地实现了室内场景的分割结果。
借助图卷积神经网络的思想,Chen等人[55]提出了基于方向和距离的图卷积网络(graph convolutional network based on direction and distance,DDGCN)。DDGCN网络将方向和距离结合起来,进一步获取点云中的局部特征。首先,该网络以邻接矩阵的形式获取点云中的采样点,其次,通过计算每个点之间的余弦相似度,得到点云的相似度矩阵,然后选择KNN算法来提取最相似的点,形成局部邻域图,最后,对邻域图进行动态图卷积,得到点云的局部特征。实验结果表明,该网络在分类和语义分割任务中具有最佳的性能效果。
基于空间域的标准图卷积方法主要根据每个点与其邻节点之间的关系构成图结构,在图上进行卷积等操作。与直接基于点的方法相比,考虑了点之间的几何关系,能更好地捕获局部特征。但由于特征的各向同性,标准卷积在点云语义分割中存在固有的局限性,忽略了物体的结构,导致分割结果中物体轮廓差,杂散区域小。
1.1.2 频谱域
图的非欧几里德特性(如不规则的结构)使得对图的卷积和滤波相对图像的卷积和滤波较为困难。因此,研究人员从频谱的角度定义图卷积,谱图卷积的介绍[56]中定义了傅里叶域的卷积,这种方式在特征向量计算的基础上以矩阵-向量积的形式构造卷积,然而,使用特征向量会导致缩放问题。ChebyNet[57]利用Chebyshev多项式逼近谱卷积,直接使用拉普拉斯算子作为滤波器,提取局部特征,并且提高了测试精度。由于谱图卷积的计算复杂性,目前基于该类方法的网络模型较少,下面将介绍一些基于谱域卷积的网络模型,并在表2中对该类方法的网络模型进行了对比分析。
表2 基于频谱域的方法模型的对比分析表Table 2 Comparative analysis table of method models based on spectral domain
Wang等人[58]提出了一种新的网络模型(local spec‐tral graph convolutional network,LSGCN)。LSGCN网络在PointNet++[32]框架的基础上利用谱图卷积,并采取不同的池化策略能够有效解决现有点云深度学习方法的局限性。该网络将局部谱特征学习与递归聚类和池化相结合,为从无序点云中提取点集特征提供了一种新的体系结构,具体操作为:在点集特征学习中使用局部谱图卷积,在每个点的邻域中加入结构信息,动态构建图结构,以端到端的方式进行训练,并实时计算拉普拉斯算子和池化层次结构。该网络具有处理各种数据集和任务的多功能性,具有很大的使用价值。
Te等人[59]提出了一种用于点云语义分割的网络模型(regularized graph convolutional network,RGCNN)。RGCNN网络由三个图卷积层组成,每个层包含图的构造、图的卷积和特征滤波。该网络利用图谱论,将点云中的点特征视为图上的信号,并将不规则点云的特征矩阵和邻接矩阵作为输入,然后通过Chebyshev多项式逼近定义图上的卷积,通过设计层间特征关系的图拉普拉斯矩阵,实现了动态图结构的自适应捕获。同时,根据所学到的相关特征,不断更新矩阵。RGCNN网络不仅解决了点云的置换不变性问题,而且对点云中的噪声和密度具有较强的鲁棒性,但由于其边界划分不清晰,在一定程度上限制了分割性能。
Lu等人[60]提出了一种基于邻域图过滤器的深度学习网络模型(point neighborhood graph convolutional network,PointNGCNN)。PointNGCNN网络选择每个中心点周围的K个最近邻,并将其转换为基于中心点的局部坐标,将这些点的特征作为图信号,然后计算每个邻域的拉普拉斯矩阵,使用Chebyshev多项式作为提取邻域特征的图滤波器,将每个邻域的特征矩阵和拉普拉斯矩阵加入到网络中,使用最大池化操作得到每个中心点的特征。在邻域中使用图过滤器比使用多层感知机能更有效地提取邻域点之间的结构信息。
Li等人[61]提出了一种将点云转化为图数据的网络(double filter graph convolutional network,DFGCN),DFGCN网络首先过滤原始点云,去除噪声和异常值,并减少图合成的计算量。然后,使用点云中每个点的坐标和法向量将这些点转换为图中的节点,从而构建一个全连通图。最后,将数据视为一个信号,用低阶Chebyshev多项式逼近卷积运算,并采用低通道滤波思想减少计算量。实验结果表明,该网络模型具有较强的鲁棒性和通用性,但其扩展性较差,图结构发生变化时,需要重构拉普拉斯矩阵。
基于频谱域的标准图卷积方法使用依赖于拉普拉斯矩阵特征分解的图的频谱表示,相应的特征向量可以看作是谱图论谐波分析中的傅里叶基,谱卷积可以定义图上两个信号的傅里叶变换的元素乘积,这种谱卷积不能保证滤波器的空间定位,因此需要昂贵的计算,此外,由于谱方法与其相应的拉普拉斯矩阵相关联,因此,在一个图上学习的谱CNN模型不能转移到具有不同拉普拉斯矩阵的另一个图上,泛化能力较差。
注意力机制的基本思想是使系统忽略无关信息而关注重要信息。注意力机制通过神经网络算出梯度并且通过前向传播和后向反馈来学习得到注意力的权重。为了进一步提高精度,研究人员提出了将注意力机制引入到点云语义分割中。下面将介绍一些基于图注意力卷积方法的网络模型,并在表3中对该类方法的网络模型进行了对比分析。
表3 基于图注意力卷积方法模型的对比分析表Table 3 Comparative analysis table of standard graph convolutional method models based on graph attention convolution
Chen等人[62]将自注意力机制(self-attention)与GCN结合,提出了一种用于点云分割的网络(graph atten‐tion based point neural network,GAPNet)。GAPNet网络中的GAPLayer通过突出显示邻域中不同的注意力权重来学习每个点的注意力特征。此外,为了充分提取特征,该网络还采用了一种多头注意力机制用来聚合从不同的GAPLayer层获取的特征;为了增强网络的鲁棒性,该网络提出基于邻节点的注意力池化层来捕获局部信息。该网络模型最先在点云分割中加入人眼视觉系统中的注意力机制,但其对点云数据的泛化能力较差,不能高效、稳健地处理大规模的点云数据。GAPNet网络结构如图6所示[62]。
图6 GAPNet网络结构图Fig.6 GAPNet network structure
Li等人[63]提出了新的网络(graph attention neural network,GANN)。该网络利用注意力机制计算邻域内不同节点的关系,以构建图结构。Wang等人[64]提出了一种新的具有可学习内核形状的图注意力卷积神经网络(graph attention convolutional network,GACNet)。其中,GAC是一个通用的、简单的模块,保持了标准卷积的权值共享特性,可以有效地在图数据上实现,GACNet网络在分割目标的边缘部分取得了较好的效果。
Chen等人[65]提出了一种新的分层注意池化图网络(hierarchical attentive pooling graph network,HAPGN)。HAPGN网络利用门控图注意网络(gated graph atten‐tion network,GGAN)和分层图池化模块(hierarchical graph pooling,HiGPool)作为点云分割的构建块,直接处理原始点云。GGAN不仅可以突出不同邻域点的重要性,为不同邻域点指定不同的权重,还可以突出不同表示子空间的重要性,以增强局部特征提取。HiGPool是一个新颖的池化模块,它可以捕获点的空间布局,从而充分学习层次特征,且其在对噪声和低点云密度的鲁棒性实验中有较好的效果。
全局上下文相关性对三维点云语义分割具有重要的意义。Ma等人[66]提出了一个点全局上下文推理(point global context reasoning,PointGCR)网络模型,沿着通道维度捕获全局上下文信息。PointGCR网络使用图结构和自注意力机制来建模通道间的上下文依赖关系。PointGCR是一个即插即用、端到端的可训练模块。Jiang等人[67]提出了一种改进的深度学习网络架构,该网络将基于组提议的多尺度点云图与基于注意力机制的自适应图卷积核相结合,从而提高了标记精度。实验结果验证了该模型的有效性,表明该模型能够提高整体性能,但其重要模块的集成、嵌入能力有待提升。
为了充分提取点云的局部信息,Hu等人[68]提出了一种双通道多尺度局部信息聚合网络模型(a vector attention graph convolutional network,VA-GCN),该网络中包含一种高效的向量注意力模块(vector attention convolution,VAConv)。VAConv模块利用中心点与其相邻点之间向量的仰角和方位角关系构建边缘特征的注意力权重矩阵,同时,在局部信息中加入受相对向量约束的全局信息,丰富输出特征的语义。之后,VA-GCN网络通过叠加EdgeConv和VAConv,融合加权边缘特征和全局特征,并在全局语义中添加了低维和高维的相对几何关系。Kang等人[69]提出了一种端到端的网络结构——金字塔网络(pyramid attention network,PyramNet)。PyramNet网络中设计了两种新的算子——金字塔注意网络(PAN)和GEM。在增加接受野的同时,PAN不仅可以为每个点分配一些较强的语义特征,而且尽可能地保留了几何信息。GEM将点云结构和图关联起来,利用协方差矩阵探索点之间的关系,增强网络的局部特征表达能力。
Xie等人[70]提出了基于注意力的图卷积网络(atten‐tion-based graph convolutional network,AGCN)。AGCN网络充分学习和聚合局部结构信息,具有较低的计算开销和更快的训练速度。Du等人[71]提出了局部-全局图卷积方法(local-global graph convolutional method,LGGCM),LGGCM框架是包含LSA Conv(local spa‐tial attention convolution)和GSA(global spatial atten‐tion)两大模块。LSA Conv模块包括两个部分:生成由邻节点组成的局部图的加权邻接矩阵,以及更新和聚合节点特征以获得局部点云的空间几何特征。此外,LSA Conv模块中嵌入的中心点平滑模块,通过自适应地调整中心点的位置坐标,增强了卷积操作对噪声干扰的鲁棒性。带有门控单元(gated unit)的GSA模块旨在计算局部结构之间的相关性并学习点之间的依赖关系。AGCN网络可以进一步提高区分目标边界的能力,但其对点较稀疏的类别(如立柱、沙发等),分割性能有待提升。LGGCM的网络模型如图7所示[71]。
图7 LGGCM网络结构图Fig.7 LGGCM network structure
基于图注意力卷积的方法通过给不同的相邻点分配特定的注意力权重,从而忽略无关信息,关注重点信息,与标准图卷积方法相比,该类方法考虑物体结构,能更进一步提取点云特征,在一定程度上有效提升点云分割精度,但三维点云语义分割中类不平衡问题仍是一个具有挑战性的问题。对于点较多的区域(如天花板、墙壁等)分割精度通常较高,而对于点少的类别(如立柱、沙发等),分割效果还有待提升。
卷积神经网络中存在的梯度消失问题限制了网络的深度。ResNet[72]中引入输入和输出层之间的残差连接,极大地缓解了梯度消失的问题。目前为止,ResNets可以达到152层甚至更多,DenseNet提供了进一步的扩展,在跨层中引入了更多的连接。深层网络可能由于池化导致空间信息丢失的问题也通过扩展卷积[73]得到了解决。于是,研究者们将深度网络这一概念应用到GCN中。下面将介绍一些基于深度图卷积方法的网络模型,并在表4中对该类方法的网络模型进行了对比分析。
表4 基于深度图卷积方法模型的对比分析表Table 4 Comparative analysis table of models based on depth graph convolutional method
Li等人[74]提出了一种深度图卷积(deep graph con‐volutional networks,DeepGCNs)。DeepGCNs网络将残余连接、密集连接和扩张卷积进行融合,训练深层GCNs。并且在GCNs中添加跳跃连接,解决阻碍GCNs层数更深的问题。此外,扩张卷积有助于在不损失分辨率的情况下获得更大的接受域。即使在点的最近邻数很少的情况下构造图结构时,也能实现高性能的点云语义分割,但该网络的扩展能力较弱,不能转换到其他网络架构。DeepGCNS网络结构如图8所示[74]。
图8 DeepGCNs网络结构图Fig.8 DeepGCNs network structure
DeeperGCN[75]网络能够训练深层GCN,定义了可微的广义聚合函数,并提出了新的归一化层。Deep‐erGCN网络在节点属性预测和图属性预测的大规模图学习任务上的性能有了明显提升,但该网络层次深度较深,需要更多内存资源且消耗更多时间,训练模型会增加能源消耗。Li等人[76]将残差连接、密集连接和扩张卷积整合到一个图框架中,提出了深度GCN架构(Deep‐GCNs)。该网络成功训练112层的GCN网络。实验结果表明,该网络在分类和分割任务中取得了不错的结果。
Chai等人[77]提出的深度图注意力网络(deep graph attention convolutional network,DeepGAC)将图注意力卷积GAC与DeepGCNs结合,通过残差连接来加深图卷积网络层数,可以有效解决网络过深所导致的梯度消失和网络退化的问题。采用注意力机制可以使网络有选择地关注最相关的邻域点并为其分配不同的注意力权重,并且通过动态图卷积来生成更好的图结构。实验结果表明,该网络在窗户、沙发和桌子这类形状相似以及难以区分的目标物上效果良好,但对于柱体和杂物等这类特征信息不够明显的物体,测试结果略差。
由于DeepGCNs算法不能充分利用点云的全局特征进行语义分割,因此,Wang等人[78]提出了一种称为DeepGCNs-Att的新型网络结构来有效地聚合全局上下文特征。该网络使用ResGCN作为GCN主干块,在网络的输出层使用多层感知机进行降维,然后使用空间注意力和通道注意力,自适应地聚合全局特征。在相同的GCN层数下,该网络模型比其他模型具有更高的精度和更快的计算速度。实验表明,DeepGCNs-Att网络对采样密度变化具有很强的鲁棒性,并且具有很好的正确率。
基于深度图卷积的方法主要使用残差/密集连接和扩张卷积来解决深层网络存在的梯度消失问题,并且在一定程度上提升了网络分割性能,但该类方法网络设计和算法使用上面还有一定的进步空间,而且选择更合适的抽样方法能进一步提高分割性能。
PointSIFT[80]等最近的研究表明,空间结构信息可以提高语义分割的性能。现有的很多网络大多使用KNN搜索算法来生成图结构,这种方法会忽略某些空间结构信息,因此,一些研究者提出了多方位搜索图卷积网络。下面将介绍一些基于多方位搜索图卷积方法的网络模型,并在表5中对该类方法的网络模型进行了对比分析。
表5 基于多方位搜索图卷积方法模型的对比分析表Table 5 Comparative analysis table based on multi-directional search graph convolution method model
Cai等人[81]提出了用于点云语义分割的空间聚合网络(spatial aggregation net,SAN)。SAN网络首先,采用八角搜索法来捕捉每个采样点周围的邻近点,其次,使用多方向卷积来提取不同方向的采样点的信息,最后,使用最大池化来聚合来自不同方向的信息。实验结果表明,该网络对小物体在分割精度和时间复杂度方面都有良好的效果,但由于该网络处理大规模点云数据时训练时间较长,且大规模点云作为输入进行二次采样的过程会导致严重的信息丢失,而不能直接用于大规模的点云分割任务。
Zhang等人[82]通过在全方位图卷积神经网络结构中提出局部KNNs模式,以捕获全局和局部空间布局,称为LKPO-GNN,该网络将无序的三维点云转化为有序的一维序列,以便将原始数据输入神经网络和降低计算复杂度。LKPO-GNN网络选择全方位KNNs来形成质心的局部拓扑结构,用来描述点云中的局部形状,然后,使用GNN聚合局部空间结构,并将无序点云表示为全局图。该模型可以获得更深层次的特征表示,从而提高分类和分割性能,实验结果表明了该模型的简单性和有效性。
Feng等人[83]提出了一个局部注意力边卷积网络(local attention-edge convolution,LAE-Conv)来构造基于多方向搜索的邻域点的局部图。LAE-Conv网络将注意力系数分配给每条边,然后将中心点特征聚合为其邻域的加权和。该网络提出了一种新颖的逐点空间注意力模块,用来学习远程上下文信息并通过提高从LAEConv层获取的局部特征的表征能力来显著改善分割结果。该网络将LAE-Conv层与逐点注意力模块结合起来,可以学习丰富的局部特征及其上下文相关性,实验结果表明,该方法能有效提高分割结果,但网络参数还有待进一步降低,同时网络分割结果有待进一步提高。LAE-Conv网络结构如图9所示[83]。
图9 LAE-Conv网络结构图Fig.9 LAE-Conv network structure
Du等人[84]提出了一种基于多尺度特征融合框架的点云语义分割网络(semantic segmentation network based on multi-scale feature fusion,MSSCN),以聚合不同密度的点云特征,提高语义分割性能。MSSCN网络首先使用随机下采样获得不同密度的点云,其次利用空间聚合网络(spatial aggregation net,SAN)作为骨干网络从点云数据中提取局部特征,然后将提取的特征描述符在不同尺度上进行拼接,最后,利用损失函数结合不同密度点云的不同语义信息进行网络优化。该网络不仅对容易分离的物体(如天花板、地板等)分割效果较好,而且对很难分离的物体(如梁、柱等)也能达到良好的分割精度,且抗干扰性和鲁棒性较好,但该网络依赖于用于特征提取的骨干网,而且通过直接映射,在特征融合过程中仍然会丢失部分预测的点信息。
基于多方位图卷积的方法从多个方向搜索邻域点构造局部图,提取多方向空间结构信息,与标准图卷积方法以及图注意力卷积方法相比,该类方法能更充分地利用局部邻域点的几何相关性。但如何对整个点云场景进行预处理,并在不丢失几何信息的前提下提取出足够的点来满足有限存储空间仍是一个非常具有挑战性的问题,且该类方法在处理更复杂的场景分割任务中还有待探究。
点云的特征提取是三维场景点云分析和处理的重要内容,然而由于点云数据在三维空间中具有不规则无序的结构,如何充分利用点云数据的局部细粒度特征仍然存在挑战,Engelmann等人[85]评估了目前使用点卷积的方法中最常用的提高感受野的策略,提出了扩张点卷积(DPC)网络来显著增加感受野的大小。下面将介绍一些基于扩张图卷积方法的网络模型,并在表6中对该类方法的网络模型进行了对比分析。
表6 基于扩张图卷积方法模型的对比分析表Table 6 Comparative analysis table of convolutional method model based on dilated graph
Wan等人[86]提出了一种具有一定学习能力特征的基于扩张图注意力的网络(dilated graph attentionbased network,DGANet)用于点云局部特征的提取。DGANet网络利用改进的K近邻搜索算法为每个点构建局部扩张图,该图对每个点与其邻接点之间的几何关系进行建模,使得网络在进行卷积操作时以最大的感受野学习每个点的局部特征。DGANet网络中的扩张图注意模块(dilated graph attention module,DGAM)可以在构建的扩张图上动态地学习局部判别性注意力特征,并采用图注意力池化来聚合重要特征。DGANet网络能够充分提取点云上的局部特征,在三维物体分类和分割任务中都取得了可观的性能,但该网络架构对点云局部特征提取还有待进一步细化。DGANet网络结构如图10所示。
图10 DGANet网络结构图Fig.10 DGANet network structure
为了学习更多的三维几何信息,Wang等人[87]设计了一个基于随机采样和扩张近邻编码的端到端框架,引入了一种扩张的最近邻编码模块,扩大网络的感受野。该网络基于KNN算法,找到每个点的2K(K值是KNN算法中的一个超参数)个近邻点,随机选取50%作为关键点进行后续计算。在不增加网络参数的情况下,该网络模型对大规模点云的计算和存储都是高效的,并且在两个不同的网络(RandLA-Net[88]、Point Transformer[89])中评估了扩张近邻编码,验证了扩张近邻编码的有效性。
点云的语义分割通过密集地预测每个点的类别来产生对场景的全面理解。由于感受野的单一性,点云的语义分割对于多感受野特征的表达仍然存在挑战性,这个问题导致了对具有类似空间结构的实例的错误分类。因此,Mao等人[90]提出了一种基于扩张图特征聚合(di‐lated graph feature aggregation,DGFA)的图卷积网络DGFA-Net。为了提取多感受野特征,DGFA以扩张图卷积(DGConv)作为其基本构建块,旨在通过捕获具有各种感受区域的扩张图来聚合多尺度特征表示。实验结果表明,DGFA-Net网络优于基线方法,实现了不错的分割性能。
基于扩张图卷积方法主要扩大网络的感受野,从而更充分地提取点云特征,与前几种方法相比,该类方法能够学习更多的三维几何信息,该类方法对大规模点云具有较高的计算效率和存储效率,也是目前主流方法之一。但该类网络在点云局部特征提取方面还有待细化,如何将二维图像特征与三维点特征融合,进一步增强局部点的特征表示也将是研究的重点。
Landrieu等人[91]提出了一种新的基于深度学习的框架来解决数百万点的大规模点云的语义分割问题,点云特征可以被超点图(super point graph,SPG)有效捕获,SPG提供了物体之间上下文关系的特征表示,但SPG的分割结果对局部点密度非常敏感。在此基础上,Landrieu等人[92]又提出了一种用于三维点云重叠分割的监督学习框架,引入了图结构对比损失函数,和一个轻量级的架构——局部点嵌入器。Li等人[93]提出了泰勒-高斯混合模型(Taylor Gaussian network,TGNet),以有效地从点云中学习局部聚合特征。TGNet网络由基本几何单元TGConv组成,TGConv对不规则点集进行局部卷积。TGNet网络在多尺度邻域上使用TGConv提取从粗到细的语义深度特征,同时提高其尺度不变性。此外,该网络在输出层内采用条件随机场(conditional ran‐dom field,CRF)进一步改善分割结果。实验结果证明了该方法的有效性。
Bazazian等人[94]提出了新的网络(dynamic capsule graph convolutional network,DCG-Net)对点云进行分析,完成分类和分割任务。DCG-Net网络根据卷积网络每层的封装块网络的动态路由机制,聚合点云的特征来构建和更新图。Lei等人[95]提出了一种球形核来实现3D点云的高效图卷积。球形核保持平移不变性和不对称性,有助于精细的几何学习。标准卷积在3D点之间的特征关系进行了无差别的描述,呈现出较差的特征学习的内在局限性。因此,Zhou等人[96]提出了自适应图卷积(adaptive graph convolution,AdaptConv),根据点的动态学习特征生成自适应核。与使用固定/各向同性内核相比,AdaptConv提高了点云卷积的灵活性,有效且精确地捕获了来自不同语义部分的点之间的不同关系。
由于网络结构和局部特征聚合方法的粗糙性,目前很多网络都存在分割精度低、复杂度高等问题。为了克服这些问题,Kim等人[97]提出了一种用于三维点云分割的对抗图卷积网络(adversarial graph convolutional network,AGCN)。该网络训练了两个网络,一个分割网络和一个鉴别器网络。鉴别器网络在最后一个卷积层中计算来自分割网络的真实图和预测标签图的两个各自嵌入特征之间的差异,以训练分割网络。这种对抗性训练有助于提高分割网络的分割精度和训练稳定性,使网络能够学习平滑一致的真实标签的高级特征。Sun等人[98]使用曲面片作为更有效地表示,并提出了一种新的室内场景分割框架,称为曲面片图卷积网络(patch graph convolutional network,PGCNet)。为了更好地提取局部特征和聚集相邻信息,PGCNet网络构造了场景面片图(scene patch graph,SPG)和动态图U-Net(DGU)模块。在SPG中,将曲面片视为节点,其空间关系视为边,构造图结构。DGU模块在U形编码器-解码器中集成了动态边缘卷积操作,在DGU模块的每一层,通过动态边缘层更新图结构。但目前该网络的扩展性有限,还不能扩展到其他室内任务。表7中对这些网络模型进行了对比分析。
表7 基于其他图卷积方法模型的对比分析表Table 7 Comparative analysis table based on other graph convolutional method models
基于文章中1.1节至1.5节的内容,总结出各类点云语义分割方法的优点、缺点、适用范围和应用场景,以便更直观地对基于标准图卷积、图注意力卷积、深度图卷积、多方位搜索图卷积方法以及基于扩张图卷积方法进行比较,具体内容如表8所示。
为了验证所提出的算法对点云语义分割的效果,有效的数据集尤为重要。复杂的神经网络模型,需要大量的训练数据才能使模型有效,因此,含有丰富数据的数据集在模型训练中起着不可或缺的作用。一些研究机构提供了可靠的开源3D点云数据集。表9展示了这些数据集的年份、类别个数、训练集、测试集以及验证集。
表9 常见的3D点云数据集Table 9 Common 3D point cloud datasets
(1)PartNet数据集[99]2019年由英特尔人工智能研究人员与加州大学圣地亚哥分校和斯坦福大学合作开发,该数据集包含24种类别,573 585个零部件实例和26 671个3D模型,可用于形状分析、动态3D场景建模和可行性分析等任务。
(2)ShapeNet Part数据集[100]2016年由斯坦福大学、普林斯顿大学、Adobe研究人员、UT奥斯汀研究人员和TTIC的研究人员共同制作而成,该数据集包含16种类别,16 881个形状,共有50个物体零部件,其中每个形状通常包含2~5个零部件,可应用于物体零部件分割任务。
(3)S3DIS数据集[101]2016年由斯坦福的大学开发,该数据集包含6个区域,共272个3D空间场景,13种类别,用于室内场景语义分割任务。
(4)ScanNet数据集[102]2017年由斯坦福大学普林斯顿大学慕尼黑工业大学共同开发,该数据集是一个RGB-D视频数据集,共1 513个采集场景数据,包含21个语义类别,应用于3D对象分类、语义体素标签和CAD模型检索等。
(5)Semantic3D数据集[103]2017年由瑞士苏黎世联邦理工大学开发,该数据集包含8个语义类别,扫描范围包括各种城市户外场景,如教堂、街道、铁路、广场、村庄、足球场和城堡等,应用于自动驾驶等任务。
(6)vKITTI数据集[104]2016年由法国欧洲施乐研究中心计算机视觉小组和美国亚利桑那州大学研究小组共同开发,是一个大型户外数据集,由KITTI数据集模拟而成,具有真实世界场景,其中包含城市场景中的13个语义类别,应用于对象检测和多对象跟踪、场景级和实例级语义分割等。
(7)Paris-Lille-3D数据集[105]2018年由巴黎高等矿业学院的研究小组开发,是一个城市MLS数据集,包含1 431万个标记点,涵盖50个不同的城市对象类别。整个数据集由3个子集组成,分别为713万、268万和457万个点,可以用于自动驾驶等任务。
点云语义分割的评价指标主要有总体精准度(overall accuracy,OA)、平均精准度(mean accuracy,MA)、平均交并比(mean intersection over Union,MIoU)和加权交并比(frequency weighted intersection over union,FWIoU)等。
OA表示计算每一个随机样本的语义标签和预测值相一致的概率。OA的计算公式为:
MA表示对每个类别中随机样本的语义标签和预测值相一致的概率进行求和并取平均。MA的计算公式为:
IoU表示真实区域与预测区域这两个集合的交集和并集的比率,MIoU表示计算每个类别的IoU,然后求和再取平均。MIoU的计算公式为:
FWIoU是在MIoU的基础上,根据每一类出现的频率为其设置权重。FWIoU的计算公式为:
其中,k代表一共有k个类别,VTi代表每个类别的真实样本数,VPi代表每个类别的预测的真样本数,pi代表每个类别所占权重。
点云语义分割作为3D场景理解的基础,一直以来都是研究的核心之一。图卷积神经网络独特的特征提取方式特别适合对点云数据进行建模。本文对基于图卷积神经网络的三维点云语义分割方法进行了分类整理。针对1.1节至1.5节中不同类型的图卷积点云语义分割方法,逐一分析其面临的问题并进行展望:
(1)文中将1.1节中的标准图卷积的方法分为基于空间域的方法和基于频谱域的方法。基于空间域的方法考虑了点之间的几何关系,能更好提取点云局部特征,但其忽略了物体的结构,导致分割结果中物体轮廓较差,这一问题在1.2节介绍的方法中已经得到有效解决。为了进一步提高网络模型分割精度,未来需要在参数设置、网络架构等方面进一步优化。基于频谱域的方法使用依赖于拉普拉斯矩阵特征分解的图的频谱表示,需要昂贵的计算代价,且在一个图上学习的谱卷积神经网络模型不能转移到具有不同拉普拉斯矩阵的另一个图上,泛化能力较差,未来需要对该类方法网络模型进行优化,尽可能减少计算代价并且提高网络的泛化能力。
(2)1.2节中图注意力卷积的方法引入了注意力机制,解决了标准图卷积方法中存在的忽略物体结构问题,但三维点云语义分割中类不平衡问题仍是一个具有挑战性的问题。针对稀疏点云导致的分割精度不高的问题,是该类方法所需要研究的一个重点内容。此外,该类方法对点云数据的泛化能力较差,不能高效、稳健地处理大规模的点云数据,且重要模块的集成、嵌入能力有待提升,未来需要提高该类网络模型的泛化能力。
(3)1.3节中深度图卷积的方法引入了残差连接、密集连接和扩张卷积,解决了深层网络中存在的梯度消失问题,但分割精度还有待更进一步的提升。网络的扩展性较差,且由于网络层次深度较深,需要更多内存资源且消耗更多时间,训练网络模型会增加能源消耗。未来,该类方法在网络设计、模型优化、算法使用和网络扩展性等方面还有一定的进步空间。
(4)1.4节中多方位图卷积的方法,采用多方位搜索法来捕捉每个采样点周围的邻近点,能更充分地利用局部邻域点的几何相关性,但如何对整个点云场景进行预处理,并在不丢失几何信息的前提下提取出足够的点来满足有限存储空间仍是一个非常具有挑战性的问题,且该类方法在处理更复杂、更大规模的场景分割任务中还有待探究。未来,该类方法需要进一步优化网络模型,处理更复杂的点云场景数据,为人工智能等技术提供更好的模型支持。
(5)大规模场景的点云语义分割一直是重要的研究方向之一,1.5节中扩张图卷积方法扩大了网络的感受野,对大规模点云具有较高的计算效率和存储效率,但该类网络在点云局部特征提取方面还有待细化。由于场景信息的限制,单一的表示方法限制了分割精度,使用多模态(例如投影、体素和点云)进行语义分割可能会获得更高的精度。如何将二维图像特征与三维点特征融合,进一步增强局部点的特征表示也将是研究的重点。
(6)数据集的选定对网络模型的训练效果的好坏至关重要,训练网络模型需要大量的数据,现有的数据集并不能满足点云语义分割发展的需求。因此,收集一些数据丰富且高效的数据集是进行点云语义分割的首要条件。现有的户外数据集相对室内数据集而言较少,所以收集整理这类数据集对点云语义分割的发展至关重要。
目前,基于图卷积的方法是直接基于点云语义分割方法的研究热点。以上这些方法致力于全面探索逐点特征以及点/特征之间的联系。然而,其使用的邻域搜索机制,例如KNN、ball query和分层架构,容易忽略局部区域之间的低级特征,进一步增加了全局上下文特征提取的难度。因此,在算法设计和使用上还有待进步。
本文以图卷积技术为核心,对近几年的点云语义分割方法进行了综述。首先,按照网络的类型将这些方法分为了标准图卷积方法、图注意力方法、深度图方法、多方位图卷积方法、扩张图卷积方法和其他方法。其次,分别详细介绍了这六大类对应的网络模型,在表1至表7中对每类方法的网络模型在一些数据集上的性能表现进行了对比分析,并且在表8中对各类点云语义分割方法的优缺点、适用范围、应用场景进行了比较。然后,描述了部分常用的点云数据集和评价指标。最后,讨论了不同类型的点云语义分割方法所面临的问题,并进行了展望。随着深度学习技术的发展,图卷积神经网络被广泛应用于点云来完成语义分割,并取得了很好的分割结果。与其他方法相比,基于图卷积神经网络的方法不仅可以检测点之间的关系,还可以得到边界特征。图卷积神经网络在点云分割方面有诸多优势,但仍存在有待改进的问题,点云语义分割在图卷积神经网络上的研究仍然还有很大的进步空间。