基于自监督深度学习的全景图像深度估计研究

2024-04-28 12:27陈思喜张延吉李建微
电视技术 2024年3期
关键词:球面全景畸变

陈思喜,张延吉,李建微

(福州大学 物理与信息工程学院,福建 福州 350116)

0 引言

随着消费级全景相机的普及,获取全景图像变得更加便捷。全景图像相较于透视图像具有更广阔的视野,因此其深度估计研究逐渐成为热点。使用全景相机获取深度数据是一项费时且劳动密集型的任务[1]。自监督深度学习方法利用无标注深度的数据图像进行训练,降低了数据标注成本,成为完成全景图像深度估计任务的重要趋势和低成本解决方案。

OmniDepth是由Zioulis等率先提出的基于学习的全景图像密集深度估计工作,验证了将全景图像的等矩形投影(Equirectangular Projection,ERP)作为直接学习内容的必要性。SVS公司提出室内环境的立体全景数据集3D60,并利用几何模型推导球面视差模型,使用基于深度图像的渲染(Depth Image Based Rendering,DIBR)绘制方法合成垂直基线上的全景视图作为监督信号。HoHoNet将二维特征映射压缩到水平特征来表示,加快了训练速度,但是空间上下文的感知能力仍然存在不足。360-SelfNet将全景图像进行立方体投影转换成多个透视图像,利用视频的图像帧序列和相机位姿合成新的全景图像。OlaNet在Zioulis的框架基础上进行改进,引入空间金字塔和L1范数正则化以获得更具有健壮性的结果,但是其预测结果精度提升有限。StructReg同样遵循上述框架,利用消失点检测计算主导方向法向约束和平面一致的深度约束,不过也未解决全景图像畸变的问题。

基于此,为提升卷积神经网络远距离特征提取能力并解决图像畸变的问题,在CoordNet基础上加入跳跃连接,引入球面极地畸变补偿层,并设计通道优化多空间融合模块和全景感受野块。实验结果表明,此方法在多个数据集上领先之前的自监督算法。

1 相关工作

1.1 理论模型

总体网络架构如图1所示。基于球面视差模型,以球面视图重建方法合成的图像作为监督信号。将CoordNet作为主干网络,结合畸变补偿、注意力机制和全景感受野等模块,提升对全景图像的特征提取能力。

图1 总体网络架构

1.1.1 球面视差模型

三维空间中,球坐标系ρ=(r,φ,θ)与笛卡尔坐标系λ=(x,y,z)为一一映射关系。通过ERP定义球面图像,其像素坐标(u,v)对应角球坐标(ϕ,θ),当分辨率设为W×H时,可得到ϕ=2πu/W,θ=πv/H。全景图像的深度采用球心到球面坐标的欧氏距离r作为度量。鉴于垂直放置不受水平失真影响,视差模型将基线设置为垂直方向[2]。基于上述条件,可得球面坐标相对笛卡尔坐标的偏导数,公式为

视差γ=(γϕ,γθ)与角球面坐标的角度差σ=(θ,ϕ)相对应,垂直方向基线b=Pt-Pb,其中Pt和Pb分别表示目标物体在上、下视图中的位置,由此可推导出球面视差公式为

式中:dy为在笛卡尔坐标系下沿垂直基线y方向求解微分。

1.1.2 球面视图重建

文章采用DIBR进行球面视图重建,将每个源像素的贡献分散到目标画布中,通过双线性散射保证局部可微性[3]。对最终的渲染结果进行归一化,并应用软Z缓冲算法合成目标视图,这种方法能够适应多对一映射并有效处理遮挡。

1.1.3 球面总损失函数

球面总损失函数由光度图像重建损失Lrecon和深平滑度先验损失Lsmooth构成,计算公式为

式中:权重系数λrecon和λsmooth的和为1。

光度损失像素加权后的平均重建误差公式为

式中:A(p)为球面注意力矩阵,用于均匀聚合误差和梯度,Lphoto(p)为光度损失,Mt(p)为二进制掩码,p为像素坐标索引。

光度损失公式为

式中:η为相对权重因子,LD为结构差异项,ItM中的上标M表示目标帧It与M t的乘法,表示合成视图。

球面注意力矩阵公式为

深平滑度先验损失公式为

式中:∇Is(p)为对源图像像素进行均匀梯度计算,下标u、v分别为ERP图像中的横纵坐标,由于文章采用垂直基线,故对像素的v坐标进行在u、v方向的均匀梯度计算。

1.2 球面极地畸变补偿层

ERP图像纬度越高,畸变越严重,尤其是在两极地区畸变最严重。为此,引入极地畸变补偿模块,使用多个卷积层来提取高纬度区域特征,将输出映射输入至主干网络,以减轻局部畸变造成的影响[4]。

1.3 通道优化多空间融合注意力模块

鉴于卷积神经网络在远距离特征提取方面存在不足,有效融合3种注意力机制,构建了通道优化多空间融合模块(Channel-Optimized Multi-Spatial Fusion,COMSF),如图2所示。位置注意力机制被用来捕获同一特征图中两个像素之间的空间关联性和相似性,空间注意力机制用于强调空间位置的重要性,通道注意力机制则将二者融合,抑制噪声和冗余信息,以增强通道特征的表达能力和效率。通过引入通道优化多空间融合模块,强化像素之间的对比学习,增强类内的聚合性,使模型更好地提取远距离特征,从而有效利用上下文信息进行推断和预测[5]。

图2 通道优化多空间融合注意力模块的实现细节

1.4 全景感受野块

全景图像相比透视图像包含更为丰富的空间尺度信息。受人类视觉系统和感受野块启发,提出全景感受野块,如图3所示。它包含具有不同卷积核尺寸的多分支卷积层和不同扩张率的空洞卷积层。多分支卷积层的设计旨在通过使用不同内核大小的卷积层获得不同范围的感受野[6-7]。空洞卷积层的引入旨在充分利用上下文以获取更广泛的信息。针对全景图像的畸变和信息压缩,设置了精细的扩张卷积层,扩张率为[1,2,3,5],从而在特征提取过程中涵盖多样且更为精细的空间尺度。此外,将挤压激励(Squeeze and Excitation,SE)模块引入每个分支,使模型自适应调整每个分支通道,突出关键的特征信息。最后,在每个分支末端添加串联的1×1卷积层,生成多个特征映射,再连接合并成卷积数组。通过以上改进和扩展措施,使模型能够更好地适应全景图像任务,从全景图像中提取多尺度特征,加强模型对复杂场景的理解,并获得更准确的预测结果。

图3 全景感受野块的实现细节

2 实验与分析

2.1 数据集、评价指标和实验环境

在实验中采用在3D60进行训练,并分别在3D60、Matterport3D以及Stanford 2D-3D数据集上进行测试。使用的评价指标有均方根误差(Root Mean Squared Error,RMSE)、对数均方根误差(Logarithmic Root Mean Squared Error,Log-RMSE)、绝对相对误差(Absolute Relative Error,AbsRel)、平方相对误差(Square Relative Error,SqRel)以及阈值精度δ。实验基于PyTorch框架,在显卡RTX 3080上进行训练,输入图像大小为256×512。模型采用Xavier初始化和Adam优化器,(β1,β2)=(0.9,0.999)。学习率设置为0.000 1,权重(λrecon,λsmooth)设置为(0.95,0.05),α设置为0.85。

2.2 实验结果

在3种数据集上分别进行对比验证,结果如表1所示,其中箭头朝下表示数值越低越好,向上表示越高越好。文章提出的模型所有指标的性能均获得显著提升,且优于之前提出的自监督算法。同时,其与有监督算法相比,超越了SVS_SV算法,与HoHoNet算法表现接近,进一步缩小了与有监督算法之间的差距。

表1 对比实验的定量评估结果比较

在相同的实验环境下,对两个主要改进模块进行消融实验,详见表2。通过实验发现,两个模块均能够提升性能,其中PanoRFB算法的作用尤为明显。

表2 消融实验

预测实验如图4所示。观察发现,模型能够学习到物体的空间相对位置信息,从而准确预测房间布局、陈列物品的轮廓。相较于SVS算法,文章算法预测结果轮廓清晰,即使在最远处有一块无标注区域,模型仍能预测出较为准确的细节,这也体现出自监督算法的优势。

图4 3D60数据集对比预测实验

3 结语

文章提出一种全新的全景图像单目自监督深度估计方法,结合卷积神经网络和通道优化多空间融合注意力机制,解决了卷积神经网络远距离特征提取能力不足的问题。此外,设计全景感受野块,以捕捉多尺度上下文信息,在畸变的区域扩充感知范围,解决畸变带来的影响,提升了预测准确度。在公开数据集上的大量实验证明,文章方法在全景图像深度估计方面具备先进的性能。

猜你喜欢
球面全景畸变
戴上耳机,享受全景声 JVC EXOFIELD XP-EXT1
球面检测量具的开发
全景敞视主义与侦探小说中的“看”
在Lightroom中校正镜头与透视畸变
Heisenberg群上移动球面法的应用——一类半线性方程的Liouville型定理
从5.1到全景声就这么简单 FOCAL SIB EVO DOLBY ATMOS
全景搜索
球面稳定同伦群中的ξn-相关元素的非平凡性
辐射诱导染色体畸变的快速FISH方法的建立
拉伸筋在球面拉伸件拉伸模具中的应用