基于稀疏卷积的非对称特征聚合点云压缩算法

2022-02-10 08:42朱映韬陈冬杰王宝土

电视技术 2022年12期

黄炜，朱映韬，陈冬杰，王宝土 *，陈建，

（1.福州大学先进制造学院，福建泉州 362200；2.福州大学物理与信息工程学院，福建福州 350108）

0 引言

点云是三维空间中的点集，不仅能够表达物体与场景的几何信息，还包含了颜色或反射率等属性信息，比起传统的二维图像、视频，可以更逼真地展现三维世界，被广泛应用于沉浸式视频媒体、自由视点电视、移动机器人以及自动驾驶等智能领域。然而，点云庞大的数据量是限制其相关应用发展的一大瓶颈。因此，高效的点云压缩算法已成为新兴智能领域的研究热点之一。

近几年，动态图像专家组（Moving Picture Experts Group，MPEG）正积极推进着点云压缩的标准化进程。现有的点云压缩标准主要有基于视频的点云压缩（Video-based Point Cloud Compression，V-PCC）和基于几何的点云压缩（Geometry-based Point Cloud Compression，G-PCC），前者主要针对二类动态点云，后者则应用于一类静态点云和三类激光雷达点云。本文讨论的重点为一、二类密集点云的几何压缩方案。除了以V-PCC和G-PCC为代表的经典压缩算法，深度学习近年来也被成功应用于点云数据。基于学习的点云压缩方法倾向于采用自编码器网络[1-7]，从自重建中学习点云几何特征。然而，自编码器网络虽然能从自重建中学习全局几何特征，但其降维过程会丢失一部分高维丰富的局部特征，简单的重复降维与升维并不能实现较好的局部特征学习。此外，点云的庞大计算开销限制了网络设计时卷积层的深度与宽度，从而限制了压缩性能。针对这些问题，本文提出了基于稀疏卷积的非对称特征聚合点云压缩算法。

1 相关工作

在自编码器相关的点云压缩工作中，主流方法可分为基于点集的方法或基于体素的方法。基于点集的处理直接从三维点云数据中提取特征，而基于体素的方法使点云变得有序化和结构化，进而可对体素进行三维卷积特征提取，在当下能够实现更高的重建精度。GUARDA等人最早将点云体素化并分块进行特征学习与压缩[1]，该团队后续在此基础上进一步研究了显隐式量化结合[2]，在解码端进行由粗到细的多分辨率重建[3]。MILANI等人[4]则将自编码器网络与对抗网络的理念结合，实现更高精度的解码。然而在上述工作[1-4]中，解码端均通过固定阈值二分类判决重建点云的体素占用情况，对重建点云的准确度存在一定的影响。为解决这一问题，QUACH等人提出的GeoCNN[5]通过最小化输入点云与重构点云间的失真计算得到动态阈值，优化重建点云的准确度。FRANK等人[6]在Quach等人的基础上进一步研究通道熵建模，优化变分自编码器网络性能。WANG等人提出的Learned-PCGC[7]则通过匹配原始点云的点数提出另一种自适应阈值，进而优化率失真性能。

2 所提方法

本节对所提出的非对称特征聚合编解码网络进行阐述，并说明逐通道稀疏残差卷积的结构。

2.1 非对称特征聚合编解码网络

为解决现有自编码器网络不能有效学习局部几何特征的问题，本文设计了非对称特征聚合编解码网络。如图1（a）所示，在所设计的编码网络内部，稀疏卷积层与ReLU函数用于特征粗提取与通道、维度变换，通过卷积核尺寸为2×2×2，步长为2的稀疏卷积实现降维。鉴于自编码器相关的大量工作[1-7]已验证过，当自编码器网络的升降维次数为3时，可在保证良好的率失真性能的同时具有适中的复杂度与计算开销。在如图1（b）所示的解码网络中，使用卷积核尺寸为2×2×2，步长为2的转置稀疏卷积实现升维，同时为了避免栅格效应，在转置稀疏卷积后衔接一次稀疏卷积。蓝色虚线框所示的特征精提取结构则通过本文设计的逐通道稀疏残差卷积进行高效的特征学习；绿色虚线框所示的多尺度特征聚合支路将高分辨率特征降维匹配维度后级联传递至深层，保证进行良好的全局特征学习的同时，实现更好的局部几何特征提取；二分类判决层用于判断体素是否被占用，以确定非空体素集，迭代3次最终输出重建点云。可以注意到，应用自编码器的工作中[1-7]，编解码网络的结构设计通常是对称的。本文在解码网络中并没有对称地设计特征融合支路，这是因为，若保持自编码器网络的对称结构而在解码网络中设计支路传递特征，则理论上需要随着自重建而不断升维匹配特征维度，然而点云数据的计算开销极其庞大，解码支路不断升维会导致模型的复杂度过高，进而造成严重的过拟合。

图1 非对称特征聚合编解码网络模型

2.2 逐通道稀疏残差卷积

为实现更高效的特征精提取，受深度可分离卷积[8]启发，本文将稀疏卷积、瓶颈层、逐通道卷积和残差链接有机结合，设计了逐通道稀疏残差卷积。如图2所示，经稀疏卷积层粗提取的特征以V通道特征的形式输入到逐通道稀疏残差卷积，对经由卷积核尺寸为1×1×1且输出通道数为1的瓶颈层生成的跨通道特征逐通道进行稀疏卷积，每一个通道对应不同的权重矩阵，分别学习每一个通道的特征。由于点云极其庞大的数据特性，若不对深度可分离卷积做改进就直接应用于点云数据，深度可分离卷积本身的结构将造成巨大的计算复杂度，而在稀疏卷积神经网络[9]中，稀疏张量被定义为由三维空间坐标矩阵和特征向量矩阵组成的数据结构，通过索引坐标实现仅在非空的体素上执行卷积运算，将稀疏卷积引入深度可分离卷积可以明显提升计算效率。而相比直接输入同样卷积核尺寸的稀疏卷积层，逐通道稀疏残差卷积通过引入瓶颈层与逐通道卷积，并通过残差链接复用相邻模块的特征输入，捕捉网络中更长的依赖关系，在优化网络计算复杂度的同时也能提升整体的特征学习效果。此外，由于模块内部的每个稀疏卷积层的输入和输出均为1通道特征，激活函数可能导致较为明显的信息损失，因此在模块内部均不使用激活函数。

图2 逐通道稀疏残差卷积

2.3 损失函数

在训练过程中，本文的网络模型应用率失真优化模型作为损失函数，定义为

式中：λ为拉格朗日乘子，用于约束率失真性能的权衡，R即编码端输出码流的大小，D表示输入点云与重建点云之间的二元交叉熵。

由于解码端重建点云的过程可近似为二分类任务，升维后通过1或0来标识重建点云的体素是否非空，因此二元交叉熵可用于衡量编码输入与解码重建的失真，αn为输入点云中第n个体素占用与否的情况，αn的值为1时表示体素被占用，αn的值为0时表示空体素，pn为重建点云预测第n个体素非空的概率，由Sigmoid函数映射得到。

3 实验结果与分析

为了保证公平对比，本文的训练集采用Shape Net[10]数据集，共有24 641帧大小不等的点云，训练时随机抽取10%的点云作为验证集。本文的网络模型实现平台为Pytorch，采用Adam算法作为优化器，初始学习率设置为0.001，随着训练进程衰减至0.000 01，Batchsize设置为4，每个目标码率的模型统一训练100轮，训练与测试的硬件环境为Nvidia GeForce GTX 2080Ti GPU和Intel Xeon Gold 6230 CPU。为说明网络的率失真性能提升，本文在 8iVFB（8i Voxelized Full Bodies）和 Owlii（Owlii dynamic human mesh）数据集上进行测试，使用峰值信噪比（Peak Signal to Noise Ratio，PSNR）和码率（bits per point，bpp）作为客观评价指标，测量点到面误差的均方误差作为失真指标，与点云压缩经典算法V-PCC、G-PCC以及基于深度学习的点云压缩算法Learned-PCGC进行比较。ShapeNet、8iVFB与Owlii均为许多工作[1-7]广泛使用的数据集。

表1给出了本文算法相对于上述现有算法在不同数据集上的 BD-Rate（Bjøntegaard-Delta Rate）和BD-PSNR增益（Bjøntegaard-Delta PSNR）。其中，各实验对比算法的数据均来源于相关文献公开的测试结果与可复现的网络模型。从表1可以看出，本文的BD-Rate相对于经典算法和基于学习的算法都有不同程度的降低，BD-PSNR也有不同程度的提升，说明本文的编码性能是最优的。

表1 本文方法相比于各个算法在不同数据集上的增益

为了更直观地展示本文算法的率失真性能，选取测试集中的“longdress_vox10_1300”、“redandblack_vox10_1550”为例，将各个算法的测试结果绘制了相应的率失真曲线，直观地进行不同码率下的峰值信噪比评估，实验结果如图3所示。图3表明，本文方法在低码率情况下取得了与现有先进方法相近的重建精度。而随着码率的提高，重建精度的提升愈发明显，主要体现在曲线提升的幅度上。这主要得益于本文方法对局部特征学习的优化，高码率情况下丰富的局部特征学习能够更加精准地进行解码重建。相对地，极低码率情况下的重建更加依赖于全局特征，并且无法传输足够的特征进行解码。因此，本文方法在极低码率情况下的率失真曲线提升便没有高码率情况下显著。

图3 各个算法在不同数据集上的率失真曲线对比

除了率失真性能的比较，表2也以8iVFB数据集为例，展示了各个算法的时间复杂度对比。为保证对比公平，在同一设备上分别循环测试10次取均值计算数据。其中，各实验对比算法的测试结果均来源于相关文献可复现的网络模型。本文在实验中测试了各算法码率最低（Lowest Rate，LR）与码率最高（Highest Rate，HR）时的编解码所需时间，以评估各实验对比算法在极端情况下的时间复杂度。从表2可知，V-PCC算法的编解码时间最长，G-PCC算法耗时最短，本文方法提升率失真性能的同时合理控制了时间复杂度，与同为基于学习的点云压缩算法相比实现了较快的编解码速度，并在HR情况下取得了快于G-PCC的编码速度。

表2 各个算法在8iVFB数据集上的时间复杂度对比

除了客观指标评估，本文还以图3（a）中的“longdress_vox10_1300”点云为例，提供了现有算法与本文方法的视觉对比，实验结果如图4所示。图4（a）展示了该帧原始点云的人物整体以及放大的裙子细节，图4（b）为本文方法在码率为0.22 bpp时解码的重建点云，图4（c）—图4（e）则分别展示了Learned-PCGC，G-PCC，V-PCC算法在相应或更高码率情况下的解码重建结果。由图4可看出，本文方法在整体上比Learned-PCGC算法和G-PCC算法更准确地还原了原始点云，与整体稠密程度也明显较好的V-PCC算法相比，V-PCC算法在原本不存在点的位置重建了点，而本文方法在细节上不仅保留了应当重建的点，也相应保留了不应重建的位置，验证了本文算法对点云数据局部几何特征学习效果的提升。

图4 各个算法解码重建的视觉对比

4 结语

本文基于稀疏卷积与自编码器提出一个点云压缩算法。首先，为解决自编码器网络对局部特征提取相对不足的问题，提出了非对称特征聚合编解码网络，通过将特征学习任务的重心放在编码端，进行多分辨率特征的深层传递与聚合，合理控制模型复杂度以减少过拟合现象的同时，能够保证更好的点云局部几何特征提取。其次，为实现更高效的特征提取，本文设计了逐通道稀疏残差卷积，有效优化网络的压缩性能的同时合理控制计算复杂度。在8iVFB和Owlii数据集上选取多种点云的实验结果证明，本文所提出的网络相较现有算法有效提升了率失真性能，同时合理地控制了时间复杂度。