三维点云数据超分辨率技术

2022-03-29 11:30潘鸣奇高伟男
中国光学 2022年2期
关键词:高分辨率分辨率深度

毕 勇,潘鸣奇,2,张 硕,高伟男

(1.中国科学院 理化技术研究所, 北京 100190;2.中国科学院大学, 北京 100049)

1 引 言

点云(point cloud)是空间中点的集合,是现实世界数字化采样的结果,包含了丰富的信息。近年来,随着人脸识别、自动驾驶、三维建模等技术的逐渐成熟,对高质量点云数据处理的需求越来越多[1-4]。在人脸识别领域,相较于二维识别技术,三维人脸识别技术可以有效克服环境变化对识别性能的影响[5]。在自动驾驶领域,三维激光雷达获取的点云数据为无人驾驶汽车的导航定位、路径规划和决策控制提供了信息支撑[6-7]。点云数据已成为继地图和影像后的第三类空间数据[8]。因此,如何高效地获取高精度的点云数据成为学术研究的热点[9-10]。

然而,受到当前传感器芯片技术水平的限制,直接采集到的三维点云数据通常分辨率较低,远不及可见光图像[11]。如目前量产的ToF深度相机分辨率普遍在240 pixel×320 pixel[12-13],这将会导致获取到的点云密度较低,难以满足使用需求。更高分辨率的设备会带来更高的成本,同时,为了能在同一传感器面积下容纳更多的像素,需要减小像元尺寸,而更小的像元尺寸会导致更低的信噪比[14]。随着传感器分辨率的提高,其功耗也会随之增加,这不仅会对散热系统提出更高的要求,也会限制点云数据在机器人等移动场景中的应用。

为了提高点云数据的分辨率,国内外很多学者开展了关于点云数据超分辨率算法的研究。超分辨率技术,是一种提升分辨率的图像增强技术。超分辨率的通常定义为[15]:给定某个场景的单帧或序列低分辨率(Low Resolution, LR)图像作为输入,结合一定的先验信息,重构得到该场景的高分辨率(High Resolution, HR)图像。超分辨率的本质是解出成像系统截止频率之外的信息,是一种“无中生有”的技术。因此,对于给定的输入图像,它的解并不是唯一的。超分辨率技术中,分辨率特指空间分辨率。20世纪60年代,Harris和Goodman首次提出了图像超分辨率的想法,并希望找到实现这一过程的方法[16-17]。在此之后,超分辨率技术受到了越来越多国内外学者的关注,其理论和技术手段不断取得新的进步[18-20]。点云数据不同于二维图像,它的数据具有稀疏性和不规则性。同时,点云数据对应的深度图像中,每个点均为体现物体表面空间结构与材质的距离值,而不是二维图像中包含的颜色或灰度信息,此时对深度图像使用二维图像超分辨率常用的处理方式变得没有意义。因此点云数据超分辨率的工作十分具有挑战性。

针对点云数据超分辨率的经典算法从输入上可以分为两类:基于深度图像序列、基于单帧深度图像与高分辨灰度图像融合。近年来,随着高性能计算设备的发展和机器学习技术的日益完善,基于机器学习的超分辨率方法越来越多地受到了国内外学者的关注,成为了点云数据超分辨率方法的一个重要分支。基于机器学习的方法主要以卷积神经网络(Convolutional Neural Network,CNN)、生成对抗网络(Generative Adversarial Network,GAN)、图卷积神经网络(Graph Convolutional Network,GCN)作为基础,针对点云数据超分辨率的具体需求发展出的一系列网络模型。本文将对主要的点云数据超分辨率方法进行分类介绍并进行对比。

2 经典超分辨率方法

最简单的点云数据超分辨率算法是插值法,主要包括最近邻插值、双线性插值、三次插值等。这类算法利用周围已知的深度信息估计当前缺失点的像素,具有模型简单、计算量小等特点,但这类算法得到的结果可能会带有锯齿,在边缘区域非常模糊,并且放大倍率有限,无法满足大多数实际需求,因此不做讨论。

本文将经典的点云数据超分辨率算法分为:基于深度图像序列的超分辨率方法和基于单帧深度图像与高分辨可见光图像融合的超分辨率方法。下面将进行详细的介绍。

2.1 基于深度图像序列的超分辨率方法

基于深度图像序列超分辨的方法是一类通过快速采集同一场景的多幅深度图像,利用时间分辨率提升空间分辨率,将LR的退化部分去除得到HR深度图像的方法。这种方法除了利用先验知识和单幅图像信息外,还可以应用相邻图像之间的互补信息进行超分辨率重建,得到比任何一幅低分辨率图像分辨率都高的高分辨率图像。这类方法的基本思想是将深度图像序列中的每一帧都看作是输出深度图像的一个退化结果,通过迭代、融合,求解出超分辨率处理后的HR深度图像。

2.1.1 基于凸集投影(Projection Onto Convex Sets, POCS)的序列深度图像超分辨率方法

POCS最早由Stark和Oskoui提出[21],用于解决二维图像超分辨率的问题。POCS是建立在集合的基础上,利用空域模型将各种先验信息定义为凸约束集合,理想的解就在凸约束集合的交集中,通过不断迭代,交替投影到各个凸集中,解出待复原的图像,即为超分辨率处理后的HR图像。Gevrekci等[22]提出了一种基于POCS的序列深度图像超分辨方法。该方法通过建立深度图像的成像模型,再运用POCS进行求解。成像模型和每个像素的残差分别表示为:

其中,Di为第i张LR深度图像;q为估计的HR深度图像;Hi为运动、模糊和下采样的线性映射;αi为曝光时间;ηi为加性噪声;f为光电转换函数(OECF),将每个空间位置的相位量转换为深度值。(l1,l2)和(n1,n2)分别为LR和HR深度图像中的像素坐标;hi为HR到LR的线性映射,将观测到的每个像素与HR深度图像中待估计的对应区域相关联;f-1为反-相机响应函数,表示相机自身的参数以优化噪声。将残差投影到最近的约束边界上,对HR图像进行迭代更新。

通过构建一个多曝光分辨率增强框架,利用低积分时间捕捉近场目标,利用高积分时间捕捉远场对象,算法从不同层次加权合并有用的深度信息并消除噪声,类似于高动态范围(High Dynamic Range,HDR)的效果,最终实现了深度图像的超分辨率。

基于POCS的超分辨方法能够充分利用现有的先验信息,灵活性高,同时也能较好地保留边缘细节[23],但解过度依赖初始估计,且解不唯一,由于其收敛性不好,造成运算量大。

2.1.2 基于双边正则化项的序列深度图像超分辨率方法

Schuon等[13]将二维序列图像超分辨率的思想应用到了深度图像超分辨率的问题上,认为LR深度图像序列中的每一帧是单个HR深度图像的退化结果,将序列LR深度图像进行对齐,即可合并生成一个HR深度图像。图像的形成过程为:

其中,Yk为单帧LR深度图像;X为待恢复的HR深度图像,即为超分辨率的结果;Dk为抽样算子,用于建立将HR图像下采样为LR图像这一过程的模型;Hk为模糊算子;Fk为超分辨率图像和当前低分辨率图像之间运动的平移算子;Vk为加性噪声。

加入权重为λ的双边正则化项γ后,此时HR深度图像估计值为:

该方法利用双边全变差正则约束项,限制图像总体能量,采用极大似然估计理论构建优化目标函数,对深度图进行超分辨重建。相对于基于联合双边上采样滤波器(Joint Bilateral Upsampling Filter, JBUF)的方法,该方法更有利于保护边缘细节,尤其针对可见光图像中边缘颜色变化不明显的区域。但由于需要利用多帧深度图像进行超分辨率处理,因此该方法只适用于静态场景;此外,该方法需要的计算时间较长,不适用于实时高效的超分辨率重建。

2.2 基于单帧深度图像与高分辨可见光图像融合的超分辨率方法

基于单帧深度图像与高分辨可见光图像融合的超分辨率方法主要是利用信息融合技术,通过搭建RGB-D系统,结合同一场景的高分辨率可见光图像,实现对低分辨率点云数据的高分辨率重建。这类算法思路非常明确,可见光传感器分辨率高且价格低廉,获取点云数据的激光雷达分辨率低但价格高昂,因此这种融合的方法也成为了研究热点。基于单帧深度图像与高分辨可见光图像融合的超分辨率方法主要有联合双边上采样滤波器、二阶广义总变分等以及它们的改进方法。

2.2.1 联合双边上采样滤波器

双边滤波器(Bilateral Filter)是一种有两个滤波核的边缘保持非线性滤波器,它综合考虑了像素空间域邻近度和颜色相似度,最初由Tomasi和Manduchi在1998年提出[24]。在此基础上,Kopf等[25]通过引入一幅高分辨率可见光图像,提出联合双边上采样滤波器,快速高效地重建出了高分辨率深度图像。联合双边上采样滤波器的滤波核权重由引导图像计算得到,而不是由需要滤波的图像得到,该滤波器可以表示为:

其中,Sp为高分辨率深度图像;kp为归一化系数;Sp↓为低分辨率深度图像;I为相同场景下的高分辨率可见光图像;p和q分别为高分辨率图像的两个像素点;p↓和q↓为低分辨率深度图像上对应像素点的坐标;‖Ip-Iq‖1为一个L1范式,表示两个像素之间灰度(颜色)的差值;‖p↓-q↓‖2为一个L2范式,表示两个像素之间的距离;f表示空间域邻近度高斯核函数;g表示颜色相似度高斯核函数;σf和σg分别为空间距离项和颜色相似项的标准差,取值大小决定了参与当前中心像素点深度重建的像素区域范围,与重建的像素区域范围成正比。

涂义福等[26]基于JBUF,提出了基于深度图像边缘特征引导的超分辨方法,解决了JBUF重建过程中的边缘模糊、纹理映射问题。该方法的改进工作主要是引入了低分辨率深度图像的边缘特征,利用低分辨深度图像含有的不连续边缘特征,引导深度图像在不同区域使用JBUF时,进行不同的颜色相似加权。同时针对JBUF中高斯核会引起边缘过度平滑的问题,在边缘部分加入了边缘保持项,更有效地保护了图像边缘的边界结构。该方法首先利用canny算子对同场景的高分辨彩色图像进行边缘提取,获得彩色图像边缘信息;然后对低分辨深度图像进行双线性插值,获得插值深度图像;并根据像素点与深度图像边缘的位置关系,将深度图像划分为:平滑区、过渡区、边缘区;最后根据深度图像的边缘特征划分的不同区域,利用联合双边滤波器模型,对不同区域进行重建。

此外,也有诸多学者基于双边滤波器进行点云数据超分辨率方法的研究。Yang等[27]为了解决双边滤波器边缘平滑的问题,构建不同的输出深度层,在不同的深度层结合双边滤波器,利用WTA(Winner Take All)的方法不断迭代,最终输出深度图像。Chan等[28]提出了具有噪声感知的双边滤波算法,根据窗口中的深度信息相似性进行加权,优化了纹理复制的问题。He等[29]为了解决双边滤波中出现的梯度扭曲问题,提出了基于引导图像的滤波器。该方法假设在窗口中的引导图像与输出图像之间具有线性关系,通过线性回归来估计参数。该方法解决了梯度扭曲的问题,并且算法更加高效。

基于JBUF的算法本质上是通过滤波器来进行超分,而这些滤波器都是由高斯核组成的。因此利用滤波的方法最主要的工作在于如何避免高斯核导致的点云数据不连续区域过度平滑的问题。

2.2.2 二阶广义总变分(Total Generalized Variation, TGV)

Ferstl等[30]提出了一种彩色图像约束的二阶TGV深度图像超分辨率算法。该方法假设高分辨率彩色图像边缘信息与深度图像的边缘存在对应关系,根据这种对应关系,对低分辨深度图像添加来自高分辨彩色图像的边缘索引,利用两者的信息,根据相机空间坐标系的映射关系,重新绘制高分辨的深度图像。该方法可以表示为:

其中,u为待求解的高分辨率深度图像;G为数据量,用来衡量u与Ds的保真度;F是以高分辨率彩色信息作为先验知识的正则化约束项。该方法首先将LR深度图像映射到同场景HR彩色图像空间中,获得稀疏的深度数据Ds;然后根据二阶TGV模型,以Ds作为模型的初值,高分辨率灰度信息作为正则化约束项,构建出模型的目标函数,从而将图像SR问题转化为目标函数最优化求解问题;最后通过不断迭代对Ds添加边缘信息,重建出高分辨的深度图像。该方法可以实现放大倍率为2×、4×、8×、16×的深度图像超分辨率,尤其在大于8×的放大倍率时,该方法的效果好于基于滤波和基于MRF的方法。

邸维巍等[31]在上述二阶TGV模型的基础上,在二阶TGV的颜色约束项中引入边缘指示函数,并以此作为新的约束项,提出了一种改进的彩色图约束的二阶TGV深度图超分辨率模型。该方法首先将LR深度图像映射到彩色空间中,然后利用带有边缘指示函数的二阶TGV彩色HR约束项,将深度图超分辨率重建问题转化成最优求解问题,最后通过迭代重加权和原-对偶算法进行求解,恢复出高分辨率深度图像。其主要工作是优化了原始二阶TGV模型中的正则化项,改进的二阶TGV正则项可以表示为:

其中,g为 边缘指示函数|,可以有效|表示图像边缘;c为一个非负常数。当较大时,说明该处有明显的波动或扭曲,对应了图像的边缘,此时g可以防止整体出现较大变化,因此能够有效地保护深度图像边缘结构特征。

王宇等[32]提出了一种插值深度图和彩色图像联合约束的方法,利用多尺度形态学预处理获取插值深度图的梯度信息,然后将插值深度图和高分辨率彩色图像两者的梯度信息联合,构造约束项再进行求解。这种改进方法也可以获得质量较好的高分辨率深度图像。

基于二阶TGV的方法可以有效保护边缘信息,但这类方法也有固有的局限性。基于二阶TGV的基本思想为建立模型并不断迭代优化来求解,但由于利用可见光图像作为约束项来进行优化,可能会导致可见光图像中的表面纹理信息映射到点云数据中,造成纹理复制的现象。同时,利用迭代求解的算法的共同问题是运算时间较长,不利于快速求解。

2.2.3 马尔可夫随机场(Markov Random Fields,MRF)

MRF的基本思想是:先对输出图像进行估计,利用输入图像与估计图像的差异来构建最大似然项,结合先验条件(即约束),将问题转化为求估计项的最优解。MRF在图像分割、目标匹配中已经有广泛的应用,并有良好的效果。Diebel等[33]最早将MRF运用到深度图像超分辨率中,将激光雷达获取到的深度值作为MRF的数据项(最大似然项),将像素点之间的颜色相似性作为MRF的平滑项(先验条件)。其模型表示为:

其中y为输出的点云;z为输入的点云;x为对应的彩色点;Γd和Γc分别为MRF中的深度数据项和深度平滑项。Γd用于衡量输入输出点云对应的有效像素点之间的深度值之间的二次距离,值越小则表示重建性能越好; Γc则用于衡量相邻像素点之间的距离,两个像素点颜色越相似,它们的权重越大,代表相邻的重建深度值越相近,反之亦然。

与其他方法相比,基于MRF的方法是一类基于全局优化的深度图像超分辨率方法,它能够保留更多全局的结构化信息,但该类方法得到的结果往往会出现部分像素点的深度值缺失或误差较大,并且可能会导致边缘过度平滑。针对上述问题有一些改进方法,例如陈金奇等[34]以MRF为基础,以高分辨率彩色图像为引导,通过充分挖掘深度图像与彩色图像的内在联系来构造局部特征结构模型,重新构造MRF的能量项,提升了原有方法的性能。考虑到在真实场景中,虽然颜色相似的地方有较大的概率存在相似的深度值,但颜色突变时并不意味着深度值也有突变。Park等[35]引入了非局部均值滤波的平滑约束项,对MRF的平滑项进行了修改,解决了MRF导致的边缘平滑的问题。

2.3 性能评价

目前对于点云数据超分辨率的评价标准并不统一,可以分为主观评价和客观评价。主观评价主要是通过人眼衡量超分辨率后图像的质量,但评价结果不够客观,不能定量比较不同方法之间的优劣。客观评价的方法是通过超分辨率处理前后的参数来进行评价,主要有:

(1)峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)

PSNR是信号的最大功率和信号噪声功率之比,用以测量已经被压缩的重构图像的质量,通常以分贝(dB)来表示。PSNR指标越高,说明图像质量越好。

其中,IMax表示的是图像各像素值中的最大值,MSE表示的两个图像之间对应像素之间差值平方的均值,单通道图像的MSE可以表示为

多通道(C通道)图像的MSE可以表示为

(2)均方根误差(Root Mean Squared Error,RMSE)

RMSE用于衡量观测值与真实值之间的偏差,表示为:

(3)结构相似性评价(Structural Similarity Index, SSIM)

SSIM是衡量两幅图像相似度的指标,其取值范围为[0,1],SSIM的值越大,表示图像失真程度越小,说明图像质量越好。

其中,µx和µy分别为图像X和Y的像素的均值,σx和σy分别为图像X和Y的像素的标准值,σxy为图像X和Y的协方差,C为常数,值为:

经典的点云数据超分辨率方法中,目前大多数工作都采用Middlebury数据集[36]来进行测试对比。数据集包含多组高分辨率彩色图像(分辨率为1 376 pixel×1 088 pixel)以及同场景的下采样倍数为4×(分辨率为344 pixel×272 pixel)和8×(分辨率为172 pixel×136 pixel)的低分辨率点云数据。为了方便对比,本文取使用较多的3组:Art、Moebius、Books。RMSE对比结果如表1所示。

表1 均方误差比较Tab.1 RMSE comparison

2.4 小结

本节对经典点云超分辨率方法进行了分类,并对几种具有代表性的方法进行了介绍。

基于深度图像序列的超分辨率方法利用多个点云之间的冗余信息互补,通常根据退化模型建模来实现超分辨率。这类方法仅利用深度图像,不需要可见光图像等其他信息,降低了采集系统的设计难度和成本,同时能够避免纹理复制的问题,也能够避免可见光图像中颜色、光照变化的干扰。但在应用中很难保证得到同一场景的多帧深度图像,这是由于该类方法依赖多帧点云数据之间亚像素级别的位移信息,因此只能适用于静态场景。同时相对于使用单帧深度图像的超分辨率方法,该类方法很难保证实时性,且更容易受到环境以及点云采集设备自身误差的影响。此外,利用多帧点云数据超分辨率的方法非常依赖深度图像配准技术,而在几乎没有明显深度不连续的场景中,配准是十分困难的,不准确的配准结果会影响超分辨率的准确性。目前大多数基于多帧点云数据的超分辨率算法没有考虑配准的问题,而是假设输入的点云序列已经对准。有些算法虽然加入了配准,但都是假设了运动已知、仅有平移运动等简单情况,但是实际应用中这样的假设过于简单而难以成立。这种不精确的配准直接影响到超分辨率的效果,也会对后续点云数据的应用造成影响。

基于单帧深度图像与高分辨可见光图像融合的超分辨率方法的研究较多。该类方法通过挖掘同场景下点云数据与可见光图像的对应关系,搭建RGB-D系统,充分利用了可见光图像包含的表面及边缘信息,仅需要原始的点云数据及对应场景的可见光数据,系统较简单,适用范围较广,效率较高,但同时存在纹理复制、可见光与深度数据梯度不对应等问题,影响超分辨率的结果。

经典的点云超分辨率方法还可以分为基于局部信息的方法和基于全局优化的方法。基于局部信息的方法一般有较高的运行效率;基于全局优化的方法通常能够较好地保持全局化的结构信息。

3 基于机器学习的超分辨率算法

2014年,Dong等[37-38]提出了首个用于二维图像超分辨率的轻量端到端网络SRCNN,该方法的提出可以视为基于机器学习进行超分辨率的里程碑。相对于二维图像的超分辨率问题,点云数据存在稀疏性和不规则性,因此用神经网络学习和分析点云数据一直以来是一个具有挑战性的工作。基于机器学习的点云数据超分辨率方法是以常见的CNN、GAN、GCN以及其他网络结构为基础,针对点云数据超分辨率发展出的一系列方法。

3.1 PU-Net

Yu等[39]提出了PU-Net来进行点云数据的超分辨率。PU-Net的核心思想是学习到每个点从局部到全局的多级特征,再在特征空间中扩大点集,最后将扩大的点集映射回三维。提取特征的方法基于PointNet++[40-41]。

基于PU-Net的点云数据超分辨率方法的主要步骤为:

(1)邻域选择。在模型表面上随机选择若干个中心点,然后指定一个距离的点和中心点一起作为一个补丁,可以改变距离的大小,从而形成不同尺度、不同密度的补丁。

(2)层次特征学习。采用了PointNet++的算法,得到了各个尺度上点的特征。注意:这里每层聚类的半径比较小,这样可以保留住更多的局部细节特征。

(3)多层次特征融合。越低层次的特征对应着越局部的特征。对于高层次的特征,网络采用了按归属(连接)关系将它们传递到每个点上。

(4)特征展开。如图1所示,N为点的数量,为特征的维度。目标是得到rN个特征,因此首先将N×扩展到rN×,然后通过各点之间的两个独立卷积核,最终得到rN×。

(5)坐标重建。通过全连接层将rN×化为rN×3,即把所得的张量转化为点云坐标,得到结果。

但PU-Net具有以下缺陷:

(1)PU-Net直接回归点坐标,而没有利用LR和HR点云之间的相似性,这使得训练变得困难。

(2)PU-Net提出了一个复杂的损失函数,并对HR点云的均匀分布有很强的假设。手动设计的损失函数往往会过分地适应人类的先验知识,从而无法捕获HR点云的许多其他属性,例如连续性。

(3)PU-Net不是为填补而设计的,因此不能填补大的漏洞和缺失的部分。

(4)无法为采样严重不足的微小结构添加有效的点。

PU-Net首次将机器学习运用到点云数据超分辨率的工作中,后续的诸多方法都是在此基础上发展而来的。

图1 PU-Net的网络示意图[39]Fig.1 The architecture of PU-Net[39]

3.2 MPU

Wang等[42]提出基于片元的渐进式点云数据超分辨率方法。主要思想为将点云数据分成若干部分进行上采样的过程,这样利于局部的细节保留。这个步骤可以理解为渐进式上采样。如图2所示,MPU网络由一组级联的上采样网络单元组成,每个单元都具有相同的结构,但是每个单元对应不同的细节级别。所有细节级别的信息通过跳接层进行共享,每个单元的输入是前一个单元的输出。其多步上采样网络包括:

(1)多步骤基于片元的感受野。点云没有规则的结构,为了实现感受野自适应的变换,利用k最近邻方法,感受野的大小由每个子单元的特征提取层中的kNN来定义。

(2)多步骤端到端训练。在训练过程中,每个单元进行两次训练。这种训练方式可以避免新单元影响之前单元的稳定。由于感受野内点的数量是固定的,因此随着级数的增加,空间尺度也在减小,即训练的特征尺度从全局转为局部。

若进行高倍率的超分辨率处理,由于生成的点数多,将会导致训练更为复杂,而MPU这种采用渐进式上采样的方法,可以有效解决这个问题。

图2 MPU上采样模型[42]Fig.2 Up-sampling model of MPU[42]

3.3 PU-GAN

GAN即为生成式对抗网络,由Goodfellow在2014年提出的[43],是近年来复杂分布上无监督学习最具前景的方法之一。GAN的核心思想是通过框架中两个模块——生成器和鉴别器的互相博弈学习产生结果。生成器通过输入生成图像,鉴别器将生成器生成图像作为负样本,真实图像作为正样本,来判别一张图片是不是“真实的”。通过生成器和鉴别器的交替训练,使得生成器生成的图像越来越接近真实值,鉴别器的判断能力也越来越强。Goodfellow从理论上证明了该算法的收敛性[43]。

点云的超分辨本身就是一种生成类的任务,因此Li等[44]在2019年首次提出利用生成对抗网络进行点云数据超分辨率的工作。PU-GAN依靠生成器对输入的点云进行上采样并输出,鉴别器对输出进行辨别并输出置信度,如图3所示。

图3 PU-GAN的网络示意图[44]Fig.3 The architecture of PU-GAN[44]

输入网络的是具有N个点的稀疏点云P,输出是具有rN个点的点云Q。生成器利用P生成Q,鉴别器用于区分Q与真实的高分辨率点云。其中,生成器的整体设计类似于PU-Net。而在上采样算法中,PU-Net的直接复制并分别处理点的特征,这种上采样的方法会导致生成的点过于相似。基于这个问题,PU-GAN在复制点的特征时利用了grid机制[45],避免了上述问题。在特征拓展模块中,PU-GAN使用的是up-down-up的拓展方法,首先将输入特征进行上采样,然后下采样到与输入特征相同的维度上,此时计算新的下采样特征和先前的原始特征差异,差异上采样得到拓展差异特征,最后与第一步上采样的结果相加得到拓展特征。这种类似于残差的特征拓展方法避免了复杂的训练,保留了更加丰富的细节信息。

3.4 PU-GCN

CNN网络中的卷积运算,本质上是通过滤波器来对某个空间区域的像素点进行加权求和,得到特征表示的过程。卷积核的系数即为加权系数。这种网络更加适用于欧式空间的数据,因此才有维度的概念,欧式空间的数据的特点就是结构很规则。而很多数据并不具备规则的结构,如点云数据,这类数据每个节点可能有不同的连接方式,将不再适用CNN网络来提取特征。GCN即为图卷积网络[46],顾名思义就是在图上使用卷积运算,与CNN的作用一样,GCN是一个特征提取器,只不过它的对象是图数据。相对于CNN,GCN主要针对的是:

(1)节点特征,每个节点都有各自的向量表示。

(2)结构特征,节点之间都具有携带信息的边。

GCN的目的就是提取拓扑图的空间特征,本质是提取图的结构特征,它可以有效地在具有不规则结构的数据中提取特征,更加适用于点云数据的处理。

Qian等[47]在2019年提出了PU-GCN,用于进行点云数据的超分辨率。该方法利用了GCN的特点,在特征提取阶段使用了图卷积的网络,因此可以更好地保留更多的结构和细节信息。

PU-GCN的网络结构如图4所示,主要由特征提取器和上采样器构成。在特征提取器中,首先通过1个GCN层和1个DenseGCN层来提取更高层次的空间信息。DenseGCN层的输出结果会通过若干个密集链接的Inception DenseGCN,然后将提取的多层次特征传递给上采样器。最后使用两组MLP将特征回归到三维坐标。

GCN是一种十分先进的网络模型,学者们也基于GCN提出了很多新方法。如Wu等[48]在2019年提出了一种基于对抗残差图卷积网络(AR-GCN)的点云超分辨率方法。该方法结合了GAN和GCN网络的优点,充分利用点云的局部相似性,并引入图对抗损失来代替手动设计的损失函数,取得了不错的效果。

图4 PU-GCN的网络示意图[47]Fig.4 The architecture of PU-GCN[47]

3.5 小结

基于机器学习的点云数据超分辨率方法的有效性主要依赖两个部分:上采样器和特征提取器。因此近年来各学者提出的新方法主要针对这两个方面来进行优化,提出了基于CNN、GAN、GCN等不同框架的方法。相对于经典的超分辨率方法,基于机器学习的超分辨率方法不依赖先验,也不依赖手工特征来学习如何上采样点云,目前已经取得了很大的进步,但仍存在一些问题:

(1)难以实现场景变换

现有的基于机器学习的点云数据超分辨率方法在训练时很少涉及到场景的变化,大多都针对单一场景进行训练。而在实际应用中,获取到的点云数据总是复杂的,可能会包含超越训练场景以外的情况,而此时还需要进行点云分割,分别进行处理。这会大大增加计算量及系统的复杂程度,而处理后的不完整的点云也会影响后续对点云数据的应用。因此,提高点云超分辨率算法的鲁棒性,使之能够直接处理现实中更加复杂的场景是有必要的。

(2)人工退化对网络训练的影响

退化是由于某种原因,图像从理想图像转变为实际的有瑕疵图像的过程。在现有的方法中,训练模型时通常用到HR点云数据以及其退化的LR点云数据。但这种人工退化的模型一般较为简单,而真实世界的图像退化往往是多种退化结合的、异质的[49]。原始的点云数据在其获取、存储、传输过程中,由于受到点云成像系统的缺陷、存储介质的缺陷以及传输过程中发生的问题等影响,使得最终处理系统获取到的点云数据不可避免地存在质量下降的问题,这是通过简单的退化算法无法模拟的。而不恰当的退化方法会导致神经网络的训练结果不准确,所得到的模型难以在实际应用中得到准确的结果。针对该问题也有学者使用模拟环境中计算机生成的数据来训练模型[50],得到了不错的效果。

(3)不适用于点云内有空洞的情况

Qian等[40]提到,当输入的点云数据有一个空洞时,目前大多数基于机器学习的方法都会将空洞填满。这是由于大多数方法都是为了生成尽量均匀分布的点云。因此在原始点云有空洞时,就会出现过度拟合的情况。

4 总结与展望

点云数据超分辨率技术是一种新兴的技术,它突破了设备的硬件限制,通过软件的方法提升了分辨率。点云数据超分辨率的核心思想是利用单帧点云数据之外的辅助信息,恢复出LR点云数据受到采集设备、环境条件等因素丢失的部分信息,获取HR点云数据。本文分类介绍了目前具有代表性的点云超分辨率的算法。

目前,由于点云数据超分辨率技术仍有很多问题需要解决,并没有得到广泛应用,更多地停留在实验室的研究阶段。未来,点云数据的超分辨率工作可以从以下方面开展:

(1)更合理的评价方法

目前超分辨率性能的常见评价指标有PSNR和RMSE等。然而,这些指标仅仅片面地反映了算法的理论性能,而对于超分辨率的实际效果,如人的观感、后续点云的处理及应用效果等则无法衡量。因此需要建立一个更符合点云数据超分辨率的评价新指标。

(2)更精确的配准方法

配准技术是部分超分辨率技术的重要组成部分,主要包含了多帧点云的配准、点云与可见光图像的配准,配准的结果直接影响到超分辨率的效果。现有的大多数方法认为输入的图像已经对准,或假设运动已知,图像间仅有平移,平移外的运动分量很少。在应用中,这种简单的假设难以成立。因此需要研究更准确的配准技术。

(3)提高放大倍率

对于点云数据超分,现有的研究集中在放大倍率为4×和8×的情况。更高的放大倍率目前鲜有进展。随着各种应用的普及和对高分辨率点云数据需求的提高,目前较低放大倍率的方法在三维重构中会变得更加困难。因此更高放大倍率的点云超分辨率方法有待研究。

(4)全面提升超分辨率算法的性能

不同的超分辨率算法没有绝对的优劣之分,没有一种方法能够在各个方面都达到理想效果。对于不同的应用场景,对超分辨率算法的性能、特点需求各不相同。例如文物等静态建模工作对实时性要求较低,但对于细节的精度要求较高;对于自动驾驶等实时性较高的应用,则需要具有较高的实时性,同时精度需满足目标识别的需求。因此,根据需求全面提升各类算法重建效率,获得更好的重建效果、实现更加丰富的细节,是未来的研究重点。

(5)超分辨率技术与后续工作的联合问题

点云数据作为三维重建的重要信息来源,记录了真实世界的空间点坐标,相对于二维图像在三维重建的工作中有巨大的优势。点云数据的分辨率越高,记录的信息量越多,以此重建的模型也就越准确。由于超分辨率技术可以在一定条件下超越系统分辨率,克服目前硬件设备的限制,因此成为了点云数据应用中十分关键的步骤。在现有的工作中,学者们更多地关注超分辨率技术自身的效果,而较少关注超分辨率输出的点云数据对后续应用的影响。

点云数据的超分辨率技术在目标识别、游戏娱乐、自动驾驶、文物保护等领域有很高的应用价值。目前,点云数据的超分辨率技术不够成熟。未来的工作应该更加注重点云超分辨率结果对后续处理过程的影响,保证高效、准确。针对不同场景的应用需求,结合该场景的特点设计、优化适合的方法,实现超分辨率效果最优化,这对于超分辨率技术投入应用具有重要价值。此外,通过超分辨率技术获得更高分辨率的点云数据,能够避免提高传感器分辨率带来的种种不足,例如额外的系统噪声、更高的成本等,更有利于点云数据的实际应用。总之,点云数据超分辨率技术的进一步研究必将拓宽其应用范围,带动相关领域的发展。

猜你喜欢
高分辨率分辨率深度
基于生成对抗网络的无监督图像超分辨率算法
四增四减 深度推进
探讨高分辨率CT在肺部小结节诊断中的应用价值
深度理解一元一次方程
高分辨率合成孔径雷达图像解译系统
简约教学 深度学习
原生VS最大那些混淆视听的“分辨率”概念
关于为“一带一路”提供高分辨率遥感星座的设想
高分辨率对地观测系统
从600dpi到9600dpi