基于点云迁移的人体点云位置及颜色补全

2022-10-11 08:51安平陈星宇邓小宝陈亦雷
信号处理 2022年9期
关键词:预测人体颜色

安平 陈星宇 邓小宝 陈亦雷

(上海先进通信与数据科学研究院,新型显示技术及应用集成教育部重点实验室,上海大学通信与信息工程学院,上海 200444)

1 引言

近年来随着消费者级扫描RGB-D 相机的兴起,如Kinect、RealSense、iPhone-X 等,点云的数据获取日益简便。但是扫描设备所获取的点云信息往往存在单视、遮挡、稀疏等问题,不利于点云的下游视觉任务,诸如点云分类[1-2]、点云目标检测[3-4],以及点云配准[5-6]等。同时,数字化人体已经成为增强现实、虚拟现实、混合现实等的重要内涵之一,对于存在衣物细节的人体数字化[7-9]已经在远程社交、网上购物、机器人操作[10]等领域得到广泛应用[11]。点云作为三维(3D)表示的基础形式,在重建人体中有不可忽视的作用。人体点云补全是恢复结构信息的重要方法,但从3D 扫描设备中得到的人体初始点云往往受到多方面因素的影响,如性别、衣物、人种、体态等。这些因素相较于飞机、桌椅、汽车等刚性物体更加难以补全,并且由于数据集的限制以及技术困难,目前少有人体点云补全方法的报道。

现有3D 形状补全方法主要可以分为两类。一类是基于传统对齐、曲面平滑等方法[12-13],根据输入的几何特征重建3D 形状。但传统方法只适用于特定先验信息如对称性、表面法线和曲率等的点云进行一定程度的修补。另一类是基于深度学习的3D形状补全方法[14-15],根据其网络结构的不同粗略地分为3D 卷积神经网络(3D Convolutional neural network,3D-CNN)结构、多层感知机(Multilayer Perceptron,MLP)神经网络结构。基于深度学习的点云补全以单类物体的不完整点云作为输入,可预测完整点云。本文方法也属于深度学习方法一类,因此,下面将主要介绍深度学习方法。

随着卷积神经网络在图像补全、图像修复[16-17]等图像处理领域的大获成功,基于体素辅助的3D形状补全将2D 卷积神经网络引入三维的工作[18]中。近年来,基于该思想涌现出一批被广泛运用的成果,如GRNet[19]、3D-EPN[20]等。但3D-CNN 存在无法解决点云不规则结构以及无序化问题,因此需要借助体素网格的辅助将无序化的点云映射入构建好的三维体素网格,并且利用3D-CNN 强大的获取特征能力获取点云的结构信息。还有如VRC[21]等工作通过基于变分自动编码器的方法有效地捕捉到关联性结构。此外,虽然3D-CNN 存在成熟的应用体系,但3D-CNN 的精细化取决于体素大小,而受制于显卡算力,难以在更小的体素中进行3DCNN的计算是目前遇到的技术难点。

为了解决上述问题,自PointNet[22]出现之后MLP 神经网络方法开始流行,通过使用大量MLP 网络代替卷积操作解决点云的不规则结构以及无序化特性,使点云处理的各类任务得到统一标准。随后涌现出大量基于MLP 的神经网络的点云补全工作,如PCN[23]、FoldingNet[24]、TopNet[25]等。这些方法使用多层感知机简单有效地提取点云特征,无需转换的方式最大限度地保留了点云的空间特征,并通过多层点网的方式最大程度避免了结构信息损失,保留点之间的3D 关系。这些基于MLP 的生成类方法通过预测输出点与真值的倒角距离(Chamfer Distance,CD)损失取得不错的成效,但基于生成方法的点云不具备一一对应的关系,对于损失函数而言往往产生相异的对应点计算损失,不利于点云补全的表现。PMP++(Point Cloud Completion by Transformer-Enhanced Multi-step Point Moving Paths)[26]基于移动点云的方式完成,通过该方法提取输入输出两个点云之间的详细拓扑和结构关系并完成对点云的一一对应关系,但同时限制了其补全点云数量与输入点云数相同,同时也给出了简单的上采样方式。此外还有一些工作[27-28]基于Transformer将一维语义信息的提取引入点云补全,通过将点云表示成为一组无序的点代理,并采用Transformer 的Encoder-Decoder 结构进行点云生成。这些工作丰富了特征提取方式,结合PointNet 可获取更全面的点云结构信息。

目前关于人体点云补全的相关研究较少,分析原因主要是由于人体点云数据集的缺乏、人体点云重建的复杂性所致。但是对于下游的人体重建任务而言,人体点云补全能够为其提供更完善的信息,从而获得更好的重建效果,因此进行人体点云补全非常必要。鉴于基于生成方案对于复杂非刚性物体的补全存在点云离散问题,补全后的点云边缘粗糙且出现大量孤立点集,本文基于点云迁移补全的方法进行人体点云补全。

本文提出一种由粗到精的人体点云迁移补全方法,并通过全局特征扩散及特征提取获取全局特征信息,最后由多层感知机进行颜色预测。本文利用PMP++对于点云迁移重构的优势,提高了人体点云补全网络的重构效果,并根据预测点位置结合输入颜色信息进行颜色补全。本文创新性工作主要有:

1)针对人体点云补全任务,模拟真实环境创建带有精细服饰人体点云补全数据集。

2)探索人体点云补全任务的有效方式,采用由粗到精优化点云迁移网络的上采样。

3)为人体重建等下游任务,在原有的补全任务中加入颜色补全。

本文共分为四个部分。第一部分为引言;第二部分阐述本文提出人体点云补全网络结构与具体实施方法;第三部分给出具体的实验实施细节和结果比较;最后一部分是结论。

2 人体点云及颜色补全模型

本文基于THUman2.0[29]人体网格数据集,对人体模型泊松采样获取整体点云,由于泊松采样仅能采样大致数量的点云,对泊松采样的点云最远点采样获得统一点数的真值点云,对真值点云多方向采样生成部分点云数据集。本文在该数据集上进行人体点云补全研究。

本文提出的基于点云迁移的人体点云补全方法整体框图如图1 所示,主要包括人体点云补全网络(低分辨率人体补全模块、高分辨率人体补全模块)以及颜色补全网络。其中人体点云补全网络是通过引入低分辨率的粗略点云帮助网络学习到更好的整体结构,并通过数据集中构建的部分输入点云色彩信息,对人体点云的颜色信息进行预测。点云颜色预测采用关联点云位置信息与部分输入点云的颜色信息,通过补全网络获取稠密点信息并结合输入端部分点云的颜色信息预测稠密点颜色;将部分点云颜色信息扩散到全局,并且通过特征提取升维,最后由多层感知机完成预测。下面,本文将详细介绍该系统网络结构的具体设计和使用的损失函数。

2.1 基于点云迁移的补全网络设计

尽管基于生成的点云补全网络在Completion3D、PCN 等数据集上大放异彩,但是该类网络对于非刚性形状重建具有更小约束,补全后的点云发散于真实表面前后,对具有复杂结构的人体容易形成粗糙表面。因此,本文选用了最新的点云迁移补全方案PMP++实现人体点云补全,在原有的结构基础上通过多层次的网络结构对人体点云进行预测。通过RPA(Recurrent Path Aggregation)模块记忆先前路径的信息和推断每个点的下一个位置。与PMP++中的随机上采样相比,本文通过引入低分辨率的粗略点云帮助网络学习到更完备的整体结构,能够有效加强整体的约束,从视觉效果得到具有清晰边缘的人体点云。

对于一个具有N个点的点云{PI}来说,点云迁移网络仅能根据位移生成N个点输出点云{Po}。PMP++对残缺点云加入高斯噪声增强输入信息并完成点云上采样,这种做法存在噪声点不能完全代表原点云几何结构并且相较于不添加噪声的方法更容易出现人体表面的无规律毛刺,如图2 所示。为了减轻该现象,本文提出了一种双层网络结构,如图1 所示,使用第一层网络获取稀疏点云生成的粗略点云,同时为了不丢失完整的输入信息,加入原点云的输入细节,剩下的点使用噪声点补齐。这样的做法能够在减少噪声点输入的同时引入了部分全局信息。从图1 中看出,对于输入的人体点云数据Pi(X,Y,Z,R,G,B),选取Pi1(X,Y,Z)输入点云补全网络,通过第一个补全网络得到粗略点云Po1。对输出的低分辨率人体Po1,结合输入信息Pi1以及使用高斯噪声点N(0,1)补齐构成高分辨率网络的输入。这样做是为了在不影响输入点云细节的同时添加全局信息,如果仅输入低分辨率人体将不可避免地损失输入点云的部分几何信息。上述点云迁移补全的过程可用公式表示如下:

图1 人体点云及颜色补全网络结构Fig.1 Human point cloud and color complement network

图2 PMP++与本文方法的区别Fig.2 The difference between PMP++and our method

其中P01为低分辨率人体点云,P02是高分辨率人体点云,Pi1为输入点云的位置信息,Pi2为高分辨率人体网络输入,N(0,1)为高斯噪声点,F1为粗略点云补全,F2为精细点云补全。

图1是本文提出的人体点云及颜色补全网络模型整体框架,网络整体由低分辨率人体点云补全、高分辨率人体点云补全以及人体颜色补全三部分组成。人体点云补全网络由多层PMD(point moving distances)点迁移模块构成,每层PMD 模块使用多层SA(Set Abstraction)模块以及T(Transformer)模块编码,后通过RPA Recurrent Path Aggregation 循环路径聚合模块对特征先验信息选择性的记忆和遗忘。颜色补全网络由多层FP(Feature Propagation)特征传播模块、SA(Set Abstraction)特征提取模块以及MLPs多层感知机构成。

2.2 颜色补全模块

对于上游点云补全网络输出的位置信息,结合输入点云的RGB 信息进行颜色补全。参考点云补全的相关工作[21-23],通过部分点云的位置信息将其位置上的颜色信息扩散到全部点云,然后对该信息进行基于Encoder-Decoder 结构的颜色重建。编码器负责将输入点云中的几何信息汇总为特征向量。使用PointNet++[30]中多层SA(Set Abstraction)模型以及transformer进行特征提取及升维。该过程可以将6维全局特征在提升特征维度的同时不断减少点数,通过多层FP(Feature Propagation)网络来还原该点数得到原本位置的高维特征信息。利用该特征信息,通过一个多层感知机得到预测点云的颜色信息。颜色补全的过程可用公式表示如下:

其中Pdense为从部分输入颜色信息扩散到全局点云的颜色信息,Pi为(X,Y,Z,R,G,B)部分输入点云,Po2为预测稠密点位置(X,Y,Z),Pdense为全局稠密点颜色信息,Fdense为特征提取的高维点云颜色特征,Pcolor为预测颜色结果,Fp为特征扩散网络,Sa为Set Abstraction 点云特征提取网络,MLP 为一个多层感知机。

2.3 损失函数

由于倒角距离不能保证输入输出点云的一一对应关系,为了计算出其针对输入的点P 与输出点P'之间的距离,使用EMD(Earth Mover’s Distance)来学习满足上述的约束排列φ:

以上只保证了点云的一一对应性,但是两点之间的移动路径仍然无法得到保证。为了使得该距离最小,引入网络输出中的移动距离ΔP最小化距离矢量,即所有位移向量之和最小。其损失函数如下:

通过引入该直接移动损失,有助于基本固化两点之间的移动路径,极大避免了由于不同路径而导致的收敛缓慢,减少冗余移动决策,提高搜索效率。基于该思想本文可以得出点云补全网络的总损失函数:

其中倒角距离(CD)遵循式(7)的符号定义,对形变使用CD损失以及EMD损失正则化,总损失函数在最小化对应点的倒角距离的同时最短化点的移动路径。

2.4 评价指标

对于点云补全的评价主要指标为CD 距离,常用于计算生成点云与其真值之间的平均最短点距离。CD距离定义如下:

其中S1为预测稠密点云、S2为点云真值。CD 值越小表示点云补全的精度越高。CD 距离无需点云数量一致,因此本文使用CD 距离进行人体点云补全精度的评估。

3 实验结果与分析

3.1 实验实施细节

本文使用点云迁移网络模型PMP++,该网络的特征提取采用SA 与Transformer 组合的特征提取模块,得到与输入点数相同的高维特征,后通过RPA模型选择性记忆和遗忘特征。输入部分点云数为1024,重建稠密点云数为4096。

需要训练包含低分辨率点云补全、高分辨率点云补全、点云颜色补全在内的端到端模型。其中训练低分辨率点云补全使用1024 个部分点云得到相同点数的人体点云。用1024个部分点云、补全点云以及带有高斯噪声的2048 个相关点云训练高分辨率补全网络。对于颜色补全网络,为了确保其不受补全网络的影响,使用1024个颜色点云和4096个稠密点云位置进行训练。本文实验采用RTX 2080TI显卡,使用Pytorch 1.10.1对网络进行训练。点云补全和颜色补全训练的实验参数设置如下:使用Adam优化器进行初始化,训练的批量大小为8,学习率为0.0001,学习速率为0.7,共训练200个epoch。

3.2 人体点云数据集生成

为了训练人体补全模型,本文使用THUman 2.0[28]的人体网格数据集,包含500 个由密集DLSR设备捕获的高质量人体扫描。对于每次扫描提供3D模型。对该高清人体网格数据集进行泊松采样,并且通过最远点采样最大限度地保持人体网格模型的细节特征。对于泊松采样的10000左右个点云(泊松采样存在点数波动),通过最远点采样4096个点构成人体稠密点云,其中包含526 张人体点云数据集。对这526 张点云图,从UV 贴图中获取RGB信息。为解决由于人体数据集较小而在点云补全过程中出现的过拟合问题,本文提出了人体数据集的增广方法:模拟对人体三维数据采样的常规视点,即前后左右四个方向,生成2104 张训练集以及测试集。本文选择了包含衣物细节纹理的高清数据集,还原真实采样环境。采用426 张进行训练,100张进行测试及验证。

3.3 补全结果及分析

在本小节中,将本文方法与基于生成类的点云补全方法PCN[22]、FoldingNet[23]、VRC[20]、TopNet[24]、ECG[31]、Cascade[32]以及迁移方法PMP++[25]这些近年来代表性方法进行比较,在创建的数据集上计算各种方法的倒角距离CD,结果如表1所示。

从表1 中可看出,本文的方法取得了最高的补全精度。基于生成类的点云补全方法PCN、Folding-Net、VRC、TopNet 在重建具有复杂人体姿态、性别、服饰的效果较差,其编解码生成特性导致其无法做到输入输出端的一一对应,造成较大损失。本文提出的多层PMP++与原始非多层PMP++方法相比,补全精度也有明显提升,说明在网络输入端添加全局信息的方式能够帮助网络减少由于添加噪声而产生的非结构信息。与[25]中添加高斯噪声点上采样的方式相比,本文在保留原始部分点云输入信息的同时加入低分辨率全局人体,有效解决了点云粗糙及非均匀问题。

表1 不同方法人体点云补全结果定量比较(更低的是更优解)Tab.1 Quantitative comparison of human point cloud completion results with different methods(the lower is the better solution)

针对点云迁移网络的优化特性,本文通过实验进一步证明所提出方法的效果。使用不同生成类补全网络生成稠密点云,再利用点云迁移网络的特性对其补全。表2比较了用不同编解码方法提升点云分辨率与本文方法的CD 损失值,可见本文的方法优于使用生成类网络的上采样方式。利用生成类点云补全方法其上采样会造成原始点云结构性的丢失,而本文方法使用原始点云作为粗略点云模型可以获取一一对应的点云结构信息。

表2 不同粗略点云的多层人体点云补全(更低的是更优解)Tab.2 Multi-layer Human Point Cloud Completion with Different Coarse Point Clouds(the lower is the better solution)

图3为不同方法人体点云补全结果的可视化比较,可见本文的方法对人体形状有更准确的预测,而基于编码方案在预测复杂人体结构时更容易存在边缘模糊和断肢的现象。通过网络变形预测点云的FoldingNet方法对复杂人体的预测较差;PCN利用全连接层对全局潜在特征向量进行整个点云模型的直接输出,所以在局部细节的地方存在着一定的分布不均匀和不平整的情况;TopNet 由于采用多个全连接层来分层聚合全局特征,使得网络的参数量大,并且收敛速度慢,会存在一定的补全点云分布散乱的情况;VRC 变分关联点云补全在修复人体过程中存在少量离散点云,无法预测完整的边缘与整体形状;而直接使用PMP++网络在预测端缺少粗略约束,造成边界模糊。与其他方法相比,本文方法能够获得更优的细节特征及更平整的边缘信息,在视觉效果上优于其他方法,与真值(GT)最接近。

图3 不同方法人体点云补全结果的视觉效果Fig.3 Comparison of qualitative results

3.4 消融实验

为了进一步证明本文提出的由粗到精的网络结构能够提升点云补全的精度及效果,对有无该结构、有无部分点云与粗略补全点云的情况进行消融实验。表3列出了三种设置的点云补全CD值:无该网络结构的原始PMP++、缺失输入信息的多层PMP++以及本文的方法。将本文的方法与表中前两种消融方法比较,实验证明对于输入输出分辨率相同的点云迁移补全方法而言,在补全点云时会损失部分输入的结构信息,因此,本文的方法在精细化网络中加入输入点云,能够提升点云补全的精度。

表3 消融实验结果(更低的是更优解)Tab.3 Human point cloud completion of rough point cloud with different methods(the lower is the better solution)

3.5 颜色结果分析

在该小节中实验了两种方式:点云位置及颜色的多任务同时补全,点云位置及颜色的分任务补全。实验结果如图4 所示,其中左图为在经典网络PCN 点云位置补全的基础上加入颜色信息进行多任务补全结果,在原本的位置信息上加入对应颜色,同时训练并平衡位置及颜色补全损失函数;右图为本文提出的方法,在训练时借助真值点位置信息补全颜色,在测试时输入为补全网络预测的人体稠密点云,结合输入侧的残缺点云颜色信息进行预测。从图4 中可以直观地看出,在补全网络中添加颜色补全往往导致更糟糕的位置补全以及偏向于平均的颜色,而本文采用分离位置信息与颜色信息的方法可以有效提升颜色预测的准确率。由此本文得出,对于点云补全的网络不适合加入颜色信息进行同时预测。

图4 颜色重建结果比较Fig.4 Comparison of color reconstruction results

4 结论

本文主要解决人体三维点云数据在采集过程中由于遮挡、视角等问题导致的残缺点云修复问题。为此本文提出了一个基于点云迁移的多层人体补全网络结构,使用由粗到精的方式构建迁移点云。与编解码结构相比,使用更少的训练次数,通过一对一的迁移模式完成;并且基于补全的位置和输入的颜色信息进行颜色重建。在人体数据集上的点云补全结果与最先进的方法相比表现更好,并且在点云颜色重建上也取得了良好的效果。

猜你喜欢
预测人体颜色
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
人体“修补匠”
人体冷知识(一)
人体可笑堂
特殊颜色的水
人体运动小知识