融合注意力门控机制的大场景点云语义分割

2023-12-12 12:00朱芬芬李金萍
激光与红外 2023年11期
关键词:池化注意力语义

王 蕾,朱芬芬,李金萍,刘 华

(1.东华理工大学 信息工程学院,江西 南昌 330013;2.江西省放射性地学大数据技术工程实验室,东华理工大学,江西 南昌 330013;3.东华理工大学测绘工程学院,江西 南昌 330013)

1 引 言

随着激光雷达、RGB-D相机等3D传感器技术的迅速发展,激光点云数据作为基础的3D数据表达,包含真实世界丰富的信息,受到越来越多的关注。面向激光点云语义的高效分割可以更好地自动理解场景,已成为解决3D场景理解、环境感知的关键性技术,并在智能驾驶,机器人视觉等领域中发挥着关键的作用。

随着深度学习技术的兴起,利用数据驱动的方式对点云处理取得较好成果,通常可分为三类:基于投影的方法,基于体素的方法和基于点的方法。CHEN[1]和MILIOTO[2]把点云投影成多视角的二维图像,使用二维卷积神经网络对图像进行处理,图像分割结果被反投影回三维点云上,实现对三维激光点云的间接处理。MENG[3]和 RIEGLER[4]将三维点云体素化到稠密的三维网格,由体素网格上二进制变量的概率分布表示,然后使用三维卷积等规则化数据处理方法。以上方法解决了点云数据非结构化的问题,但在投影或体素化的过程中容易损失原始点云的几何信息。PointNet[5]为代表的直接处理点云数据方法,通过输入原始点云的几何坐标和RGB特征,用共享的多层感知机(MLP)独立地学习每个点的特征,然而这种方法使得点与点之间的局部关系表达不够。刘[6]提出在利用点云三维坐标信息的基础上,增加了点云RGB信息和归一化坐标信息,进一步提高了模型的分割精度。AC-Net[7]提出图注意力卷积自适应地学习局部区域特征,能够有效捕获目标形状和几何模式,但不能直接处理大场景点云(覆盖200 m×200 m的场景,包含百万甚至上亿个点)。

近年来,研究者们提出了许多面向室外大场景点云的深度学习算法。MVP-Net[8]提出一种新颖的点排序方法和多次旋转输入点云,实现多视角点云局部特征聚合和感受野扩张。RandLA-Net[9]是直接处理点云的先进标准模型,采用基于注意力的点云局部特征聚合模块和随机降采样方法。MSAA-Net[10]基于RandLA-Net,在编码与解码层的特征跳层连接处中增加了注意力机制,并从编码层和解码层中捕获点云的全局特征。然而上述方法在小尺度目标上的分割精度较低。

本文提出改进的大场景点云语义分割算法gRandLA-Net,主干网络基于RandLA-Net[9],首先,设计注意力门控单元,利用自注意力机制自适应地学习点云局部几何特征,同时利用多尺度局部特征融合将不同尺度邻域的点云特征相加,增强模块的几何特征表达能力,有利于网络学习细粒度的点云特征;其次,受pointMixer[11]的启发,设计平均池化单元,仅利用共享多层感知机(MLP)学习局部点云特征,计算简单,使得网络更容易收敛。本文方法在保证高效架构的同时,训练速度提高近一倍,分割更加准确,尤其是对小尺度目标的分割精度有明显提高。

2 本文方法

面对稀疏的室外大场景点云,本文方法gRandLA-Net采用随机降采样(Random Sampling,RS)策略逐层减小点云,以提高计算效率,设计平均池化单元和注意力门控单元为局部特征聚合模块(Local Feature Aggregation,LFA),融合多尺度领域点云局部特征,并逐层扩大每个点的感受野,以增强网络对复杂点云模式的感知能力,如图1所示。

图1 局部特征聚合与随机下采样模块示意图

2.1 平均池化单元(Average Pooling Unit)

图2 平均池化单元

2.1.1 局部空间编码(Local spatial encoding,LocSE)

编码空间位置关系:

W)#(AUTONUM*Arabic)

增强语义特征:

2.1.2 均值池化模块(Average Pooling)

2.2 注意力门控单元(Attentive Gating Unit)

图3 注意力门控单元

2.2.1 局部空间编码模块(Local spatial encoding,LocSE)

该模块的计算步骤同3.1.1,输入中心点坐标和特征pi∈3,fi∈din,利用KNN等算法输出增强的邻域特征包含了丰富的空间几何信息和语义信息。

2.2.2 注意力池化模块(Attentive Pooling)

2.2.3 多尺度特征融合

输入特征和局部聚合特征通过残差连接(Skipping Connection)相融合。用共享多层感知机调整输入特征fi通道数,由din变为dout,并与局部聚合特征相加,得到多尺度局部特征:

2.3 扩张残差模块(Dilated Residual Block)

该模块将平均池化单元和注意力门控单元堆叠,更高效地学习点云局部特征,如图4所示。该模块扩大每个点的特征感受野至K×K,并将最初的输入特征与第二层的输出特征相连接,融合低级、丰富的原始空间信息和高级的语义信息,得到更细粒度的局部特征,能更精准地表达相似点云模式之间的差异性。

图4 扩张残差模块

2.4 网络结构

本文方法的网络结构主要采用基于残差连接的编码-解码结构,如图5所示。网络首先利用共享MLP学习每个点的特征,其次用四个编码层和四个解码层学习每个点的特征,最后利用三个全连接层和一个Dropout层用来预测每个点的语义类别。

图5 本文网络结构图

网络输入:输入点云形式为(N×din),N是输入点数量,din是输入点特征,在SemanticKITTI[12]中是三维坐标x-y-z。

解码层:在每一个解码层,应用最近邻插值法从小点云中得到大点云的语义特征:在编码层中降采样后,原始点暂存起来,降采样得到的每个中心点都用KNN算法查找距离其最近的前一层中的点,将最近点的特征复制给中心点。随后将上采样的特征图与解码层中对应大小的特征图连接,得到多级融合的特征,增强网络的特征提取能力。

语义预测:最后三个全连接层和Dropout层推理得到每个点的语义预测。三个共享全连接层的输出特征张量形式为(N×64)→(N×32)→(N×nclass),Dropout参数为0.5。

网络输出:网络输出所有点的语义预测结果,张量形式为(N×nclass),其中nclass是类别数。

3 实验与分析

本文提出的方法在室外自动驾驶场景数据集SemanticKITTI[12]上进行实验,并将实验结果与其他方法进行对比分析,验证gRandLA-Net的有效性。

3.1 实 现

本文方法实验配置如表1所示。

表1 实验环境

其他设置:本文方法使用Adam优化函数及其默认参数,初始化学习率设置为0.01,每轮学习率衰减5 %,采用反密度加权的交叉熵损失函数应对类别不平衡问题,用KNN算法查找领域点,邻域点数量K为16,网络训练100轮。测试期间,所有的原始点云直接输入训练好的网络进行推理,不需要切块或体素化等预处理步骤,也不需要任何后处理步骤。

3.2 评估指标

本实验以均交并比(mIoU)为评估指标,均交并比首先计算每个类别的交并比,再计算所有类别交并比平均值,能较好地评估模型整体分割性能:

#(AUTONUM*Arabic)

其中,k表示类别数;i表示真实值;j表示预测值;pii是正确预测的正例;pij是将i误分为j的集合;pji是将j误分为i的集合。

3.3 量化分析和分割效果可视化

实验于室外大场景数据集SemanticKITTI[12]上进行。SemanticKITTI[12]由21个序列共43552帧标注的雷达点云组成,每帧包含8×104~1.2×105个点,覆盖160 m×160 m×20 m的三维空间,规定序列00~07和09~10作为训练集(19130帧),08(4071帧)作为验证集,序列11~21(20351帧)用于线上测试,原始三维点云只有三维坐标没有颜色信息。网络在08序列上推理时间为189 s(4017帧),约22 fps。

3.3.1 本文方法与其他先进方法的量化分析

本文将实验计算精度结果与一些先进的网络结果进行了比较,如表2所示。第一类是基于点的方法,第二类是基于规则化数据的方法。本文的方法较大幅度地超过了PointNet[13],SPG[14],SPLATNet[15],pointnet++[16],TangentConv[17],RandLA-Net[9],FG-Net[18]等基于点的方法;并且超过了SqueezeSegV2[19],RangeNet53++[5],PolarNet[20],LatticeNet[21]等先进的基于结构化数据的方法。

表2 多种方法在SemanticKITTI[13]上的量化比较

3.3.2 本文方法的分割效果

gRandLA-Net的分割效果展示如图6所示,(a)中将人造地带terrain误分为植被vegetation;(b)中将卡车truck误分为汽车car;(c)中将其他地物other-ground误分为人person。

图6 gRandLA-Net的分割结果图

3.3.3 改进前后模型在各类目标上的性能分析

改进前后方法在各类目标上的性能分析,如图7所示。纵轴是改进前后方法在各类别上的IoU分数,横轴是19个类别由左向右按样本数量从小到大排列。前5个小目标类上IoU均有较大提升,如motorcyclist 的IoU由7.2 %至11.4 %,提升了4.2 %,bicyclist的IoU由48.2 %至51.2 %,提升了2 %,bicycle的IoU由26 %至28 %,提升了2 %,motorcycle的IoU由25.8 %至31.2 %,提升了5.4 %,person的IoU由49.2 %至50 %,提升了0.8 %。

图7 改进前后网络在各类别上的IoU分数对比

改进后网络对小目标分割性能有明显提升,同时,网络平均性能mIoU提升0.6 %。

3.4 消融实验

为了验证分析gRandLA-Net模型的可行性和必要性,本文设置了消融实验。该部分通过对比多种算法来测试gRandLA-Net的效果,并进一步验证了平均池化单元、注意力门控单元在模型性能中发挥的具体作用。

消融实验均基于SemanticKITTI[12]数据集,评估指标为网络收敛速度(epoch),均交并比,为了保证本文方法可行、可信,本文取五次实验结果的平均数作为稳定的模型表现。

3.4.1 验证gRandLA-Net和各个模块的性能

网络各个模块消融实验结果如表3所示。

表3 不同消融网络的均交并比和收敛速度

RandLA-Net[10]收敛需要58轮,而基于Average Pooling Unit的RandLA-Net收敛需37轮;gRandLA-Net使用了Average Pooling Unit后收敛轮数由50降至30,因此平均池化单元使得网络收敛速度提高超过40 %。

对比第一组和第三组网络性能,注意力门控单元使mIoU提高了0.6 %;对比第二组和第四组网络性能,注意力门控单元使mIoU提高0.9 %,因此注意力门控单元能有效提升网络性能。

3.4.2 进一步验证注意力门控单元的有效性和作用

为进一步验证注意力门控单元的有效性和作用,本文做了两组对比实验,量化结果如表4所示。RandLA-Net[10]加上注意力门控单元后,mIoU提升0.6 %,motorcyclist的IoU提升了2 %,且在其他小目标(如motorcycle,bicycle,bicyclist,person,等)上IoU均有小幅提升。gRandLA-Net加上注意力门控单元后,mIoU提升0.9 %,在motorcyclist的IoU由6.2 %到11.4 %,提升了5.2 %,且在其他小目标(如bicycle,bicyclist,person,traffic-sign等)上IoU均有大幅提升。

表4 针对注意力门控单元的消融网络上部分小目标的交并比和所有19类目标的平均交并比的量化结果

因此证得,注意力门控单元利用几何上下文增强语义上下文,并融合多尺度感受野的局部聚合点特征,使得网络在稀疏的室外大场景点云中,对目标的几何模式感知能力更强,能够更加有效地感知相似模式的小目标点云之间的差异,对小目标的分割更加准确。

3.4.3 改进前后分割效果可视化对比

改进前后,模型在SemanticKITTI[13]序列08上的分割效果如图8所示。RandLA-Net[10]在(a)场景中未能正确分割出person,在(b)中未能正确分割bicyclist,而本文方法gRandLA-Net分割更加准确。

图8 改进前后模型在SemanticKITTI[13]验证集上的分割效果图

4 结 语

面对室外大场景点云中小目标点云难以识别的问题,本文提出注意力机制和多尺度上下文融合的方法,将点云不同局部感受野的几何模式结合起来,充分利用点云的局部几何信息,显著地提高了小目标的精度,同时还优化了网络训练速度。本文证明了融合多尺度的注意力上下文信息能够使得网络更加有效地感知具有相似模式的小目标点云之间的差异,在针对被大目标包围的小目标识别研究中具有明显的效用。

该方法虽然实现了更准确地分割,但是容易模糊各类目标点云的边界点,对边界点容易产生歧义。因此,下一步我们将研究增强网络对不同目标边界点的特征提取能力,以进一步优化对小目标的分割效果。

猜你喜欢
池化注意力语义
面向神经网络池化层的灵活高效硬件设计
基于Sobel算子的池化算法设计
让注意力“飞”回来
卷积神经网络中的自适应加权池化
语言与语义
基于卷积神经网络和池化算法的表情识别研究
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊