单 良,赵腾飞,洪 波,孔 明
(1.中国计量大学 信息工程学院 浙江省电磁波信息技术与计量检测重点实验室,浙江 杭州 310018;2.中国计量大学 计量测试工程学院,浙江 杭州 310018)
光场成像技术已被广泛应用于粒子图像测速[1]、运动恢复结构[2]、距离测量[3]、三维重建[4-7]等工业科研领域。在火焰测温和燃烧诊断领域[8],单光场相机可以利用火焰光场信息实时反演三维温度场,克服了多相机测温系统结构复杂,同步触发难等问题。东南大学的许传龙教授等[9-14]耦合了光场成像和火焰辐射传输模型,建立了基于光场分层成像技术的火焰温度场测量系统,还重建了不同火焰的三维温度场分布;哈尔滨工业大学的袁远教授等[15-16]对火焰辐射传输过程中各类参与介质的光场成像模型进行了研究;齐宏教授等[17-18]主要研究了火焰内部辐射传输和光场成像模型,实现了火焰的三维温度场重建。本课题组在火焰辐射光场成像模型和温度场三维重建也进行了持续的研究和探索[19-20]:结合光场重聚焦技术和光学分层法,实现了火焰的三维温度场分层重建,提出多曝光时间的图像融合测温方法和基于阻尼最小二乘QR分解和列文伯格马夸尔特算法(damping least squares QR decomposition-Levenberg-Marquardt with boundary constraint,LSQR-LMBC)的光场火焰三维温度场重建。
在对光场图像进行三维重建时,由于受到光场相机本身结构的限制,获取的光场图像分辨率不高,以致影响了三维重建的精度。因此,光场图像的超分辨率重建也是目前许多研究人员关注的热点。Lim等[21]通过数学方法解释了四维光场的角度数据如何包含空间信息,并根据角度数据提供的冗余信息增强空间分辨率。Alain等[22]将不适定的超分辨率问题转换为基于稀疏先验的优化问题,通过在光场5D块匹配滤波(light field block-matching and 5D filtering,LFBM5D)和反投影之间迭代,实现超分辨率光场图像的目标。Rossi等[23]采用类似多帧的超分辨率方法,并与图正则化(graph based regularization,GB)器耦合,避免了代价高昂的视差估计步骤。近年来,基于学习的方法成为超分辨率光场图像的主要研究方向。Yoon等[24]首先提出基于卷积神经网络的光场超分辨率算法(light field convolutional neural network,LFCNN),通过级联空间超分辨率网络和角度超分辨率网络,先增强每个子孔径图像的空间分辨率,再利用相邻视图之间的信息生成新颖视图。Farrugia等[25]表明光场补丁块存在于低维子空间中,并通过岭回归(ridge regression,RR)学习降维子空间之间的映射,该方法也被扩展于角度超分辨率。这些光场超分辨率方法在进行性能评估时,常会与经典的双三次插值方法(bicubic interpolation,BIC)[26]和基于卷积神经网络的单图像超分辨率方法(very deep convolutional network,VDSR)[27]进行对比。
非透明场景在成像时,图像传感器上的像素值仅与其表面发出的光线有关。对于半透明自发光火焰,将其视作一个个微元体组成的模型,每一个微元体发出辐射光线并穿过其他微元体进入到光场相机中,在传输过程中发生吸收、发射和散射,图像传感器接收到的辐射光线不仅与火焰表面微元体有关,也与火焰内部微元体有关。现有光场超分辨率算法应用在火焰介质上的效果如何需要进一步实验和分析。
本文采集三种不同类型火焰的光场图像,选取具有代表性的超分辨率算法:LFBM5D,GB,RR,LFCNN,BIC和VDSR进行超分辨率重建,从重建精度、视图一致性、视觉感知和光场极线平面图(epipolar plane image,EPI)[28]多个维度评估重建性能,并和公共数据集EPFL中的非透明光场图像的处理结果进行比较,探讨火焰半透明介质的光场超分辨率重建的可行性和改进方向。
LFBM5D稀疏编码算法的核心思想是利用光场角度和空间维度上的冗余,以及自然图像中出现的自相似性。算法中使用了硬阈值,硬阈值算法简单,但是适应性较差、去噪效果不佳。这个方法适合于宽基线和低放大倍数的光场。
基于图正则化的方法GB使用不同光场视图中的信息来增强整个光场的空间分辨率。特别是,将多帧范式与强制光场结构的图正则化器耦合,避免了昂贵且具有挑战性的视差估计步骤。其超分辨率结果可以有效提升中央视图的重建精度,但侧视图的重建质量还有待加强。
基于线性子空间投影的方法RR允许在光场的所有子孔径图像中以一致的方式增加不同视图的空间分辨率。该方法优点在于不需要大量的样本进行训练,但是对不同的数据集需要专门的训练。另外在投影到线性子空间的过程中,可能存在部分信息丢失。
基于卷积神经网络的方法LFCNN的空间超分辨率网络仅由三个卷积层组成,重建结果相比双线性插值和双三次插值都有所提高,同时验证了超分辨率后的光场图像可以有效提升深度估计时的精度。
双三次插值方法BIC是一种单图像的超分辨率方法,仅对每个子孔径图像单独放大,无法利用视图间的角度信息。通过两个多项式插值三次函数,计算得到目标图像的对应像素点的值。相比于双线性插值,可以得到更接近高分辨率图像的放大效果和更平滑的图像边缘,但也导致了运算量的急剧增加。
基于神经网络的单图像超分辨率方法VDSR结合残差块构建了非常深的神经网络。超分辨率的结果显示,VDSR方法的轮廓清晰生动,在去噪和压缩伪影去除上有较好的效果。
在图像的超分辨率重建领域,峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性指数(structural similarity index measure,SSIM)[29]常用作重建质量的测量方法,PSNR的数值越大,则表示重建精度越好,SSIM是一个0到1之间的数,越大表示输出图像和无失真图像的差距越小。相比于传统图像,光场图像可以认为是从空间的不同角度对同一场景进行捕捉得到的图像,光场图像的多视角图像间包含着视差信息,由视差信息可以求得场景的3D点云。子孔径图像间重建精度的标准差越小,说明光场的整体重建质量越高[22]。光场图像相对于传统图像的主要优势之一是可以获得对极平面图像EPI,它是具有恒定角度(垂直分辨率)和空间方向(水平分辨率)的2D切片。由于EPI仅由具有各种斜率的线组成,因此它使图像处理和优化易于处理。为此,本文将从重建精度、视图一致性、光场EPI和视觉感知四个维度进行超分辨率重建分析。
火焰光场图像使用Lytro Illum光场相机拍摄所得,火焰的光场图像如图1,图1中(a)为火焰光场的多视角图,其中(U,V)为角度坐标,(x,y)为空间坐标。(b)为采集火焰的中心视角图。
图1 火焰光场图像Figure 1 Light field image of flame
由Lytro Illum拍摄的光场图像的空间分辨率为434×625,角度分辨率为15×15,考虑到光场相机的实际图像在边缘角度处存在渐晕效果,仅选用中间的9×9的视角图。
在调用超分辨率方法前,对于LFBM5D方法,仅调整其中的角度分辨率参数为9×9。对于涉及多个参数的GB方法,选择翘曲模式为“SQ”,能量函数的权重分别为1.0、0.2和0.005 5。对于RR方法,使用基础的主成分分析(principal component analysis,PCA)算法和从作者提供数据集学习的转换矩阵。对于LFCNN方法,使用原文的训练数据集,并使用K折交叉验证策略来训练。对于单图像VDSR,使用原文训练的网络。
图像的重建精度主要通过峰值信噪比PSNR和结构相似性指数SSIM两个指标进行评价。
火焰光场图像都是大面积单一的黑色背景,这样的特征会导致重建精度的结果虚高,从而影响对重建效果的判断。为了减少背景的影响,通过火焰轮廓的水平和垂直方向切线来框选火焰主体,裁剪掉边框外的背景部分。由于针对同一类型火焰一组图片的重建精度效果相当,因此从每种类型的火焰中各选出一幅作为重建精度展示。表1中列出酒精_01、蜡烛_01和矿物油_01超分辨率重建后的定量评价,其中黑色加粗代表评价指标最优,下划线代表评价指标次优。
表1 火焰光场在六种超分辨率方法下的PSNR和SSIMTable 1 PSNR and SSIM of flame light field using six super resolution methods
从表1可以看到,对于酒精火焰光场和矿物油火焰光场,GB方法的重建精度都最高,这得益于其加入了图正则化器,能够从不同视图中获取信息。LFCNN方法表现也不错,通过卷积神经网络直接学习了低分辨率光场图像到高分辨率光场图像的映射,利用了不同视图间的有效信息,而不用考虑火焰辐射和光场成像模型。BIC方法虽然没有加入各种光场先验信息,但在酒精火焰重建上仅次于GB方法,由此可见,大部分光场超分辨率方法不能有效提取火焰光场中的冗余信息。RR方法也利用了视图间的冗余信息,并通过多元岭回归学习低分辨率到高分辨率的映射,但是由于PCA降维过程会丢失一些信息,最终结果还具有提升空间。VDSR方法表现中等,因为该方法只对每个子孔径图像单独进行超分辨率重建,如果加入视图间的冗余信息应该能有更好的效果。LFBM5D的重建精度和以上五种方法有明显差距,这是由于该方法主要适用于宽基线数据,而Lytro光场相机拍摄的光场图像基线非常窄,使得该方法在进行稀疏编码和反投影操作时性能受限。
对于蜡烛火焰光场,由于出现了过曝情况,内焰和外焰已经无法区分,失去了半透明的特性,在不同方法的处理效果上将和非透明光场进行比较。
从光场公共数据集EPFL上选取了三幅非透明场景的光场图像来和火焰光场的重建效果进行对比。为了和火焰光场图像的分辨率保持一致,将空间分辨率和角度分辨率分别调整为434×625和9×9,其中心视角图如图2。
图2 EPFL非透明光场的中心视角图Figure 2 Central views of the selected non transparent light field images of EPFL
图3展示了不同类型火焰光场和EPFL非透明光场在六种选定的超分辨率方法下重建精度的对比。
图3 火焰与EPFL非透明光场的重建精度对比Figure 3 Comparison of reconstruction accuracy of flame and EPFL non transparent light field
从图3中可以看出,半透明状态的火焰酒精_01和矿物油_01由于场景简单,在不同超分辨率方法下的重建精度都高于EPFL非透明光场。过曝的火焰蜡烛_01虽然场景也十分简单,但是内焰与外焰已经无法区分,不再符合燃烧的特征,其重建精度介于半透明火焰和EPFL非透明光场之间。另外,半透明火焰的场景间没有遮挡,内外焰结构分明,对于通过光场结构特性进行超分辨率的方法,特别是GB,可以有效找到待重建点在不同视图上的正确投影位置,这也使得GB在半透明火焰上的重建精度高于基于学习的方法。过曝的火焰在基于学习的VDSR和LFCNN上都有不错的效果,这和EPFL非透明光场的重建结果是一致的,也说明半透明火焰的特征与非透明光场的特征存在差异,想要通过学习的方法提高半透明火焰光场的分辨率,应该创建对应的火焰光场数据集。
对于视图一致性的评估应当回归到光场多视角图像中,当每一个子孔径图像的重建精度相近时,才能保证其中包含的视差信息得到保留。为此,对每幅光场所有视图的PSNR值计算了标准差(standard deviation,SD),标准差越大说明重建精度的离散程度越大,视图一致性越差。同时为了更直观的表现视图一致性,将每一个子孔径图像的PSNR映射到色块矩阵中,每个色块代表一个视图。图4的(a)、(b)和(c)分别为半透明火焰光场的酒精_01、过曝火焰蜡烛_01和EPFL非透明光场的Danger_de_Mort的色块矩阵图。视图一致性主要表现在边缘视角和中心视角位置,为了便于展示,从中选取了角度分辨率为1,3,5,7,9的色块,这一操作并不影响评估结果。
图4 色块矩阵图Figure 4 Color block matrix
从方差的结果可以看出,半透明火焰酒精_01在不同超分辨率方法下的视图一致性均好于过曝的火焰蜡烛_01和EPFL非透明光场的Danger_de_Mort。半透明介质在光场成像时,内部光线虽然被外部光线遮挡,但是内外光线形成一束叠加的光线投影到光场图像上,介质的内外信息都被采集到了。非透明场景因为存在遮挡问题,在光场成像时被遮挡的点只能投影到一部分视图上,对于整个光场来说,采集的信息是残缺的,因此在超分辨率重建时不同视图重建精度的离散程度比较大。从色块矩阵中可以看出,重建质量最高的视图位置与场景中明亮的位置对应。光场多视角图可以理解为从不同视角拍摄的图像,自然越是靠近明亮位置的视角成像质量越好。
场景中的点在EPI图像上表现为一条斜线,这条斜线的斜率与场景点的深度有关。以矿物油_02和Color_Chart_1为例,红色标线为选取的EPI图像的空间坐标位置,从不同视角提取该行像素,然后沿着角度坐标堆叠,即可得到EPI图像(图5)。
图5 不同超分辨率方法下的EPI对比Figure 5 EPI comparison of different super resolution methods
从重建后的EPI上可以看出,火焰光场和非透明光场在不同超分辨率方法下表现基本相同,都是在LFBM5D方法和RR方法上产生了伪影,在GB方法上效果较好,在LFCNN和VDSR方法上效果次之,在BIC方法上较为模糊。
相比于客观的数值计算,人眼的主观感受也是评价图像重建好坏的一个要素。通过人眼观察可以直观感受重建后的图像在哪些方面表现较好,在哪些方面变现较差。在视觉感知评估中,从半透明火焰光场和EPFL非透明光场中分别选取了矿物油_01和Danger_de_Mort图像,并放大局部细节。具体如图6。
图6 不同超分辨率方法下中心视图的视觉比较Figure 6 Visual comparison of center view under different super-resolution methods
可以看到,在矿物油_01上,LFBM5D在内焰边缘产生了一些伪影,GB在外焰到内焰的过渡上存在不自然现象,RR方法则在内焰边缘较为模糊,LFCNN与VDSR方法相差不大,表现都十分不错。这说明基于学习的方法在端到端的学习过程中没有引入过多冗余信息,保持了较好的视觉感知效果。
在Danger_de_Mort图像上,LFBM5D和RR方法产生了伪影,GB的视觉效果在BIC和LFCNN之间,基于学习的LFCNN和VDSR方法均优于其他方法。
从视觉感知的结果来看,火焰光场在现有光场超分辨率方法下与非透明光场重建效果相近。
在本文中,将现有光场超分辨率方法应用在火焰这种半透明自发光介质上,结果显示,火焰光场的重建精度值明显高于非透明光场,这主要是由于火焰结构相对于非透明光场结构简单且场景单一。对于半透明火焰光场,GB方法针对光场结构构造约束项,能适应不同类型的光场,重建精度最高;在视图一致性上,半透明火焰在光场成像时,随着视角的变化,内焰和外焰的不同组合叠加着投影到传感器上,非透明物体光场成像时只与表面的反射光线有关,且场景间的遮挡仅在部分视角上成像,因此半透明火焰光场的超分辨率离散程度也低于非透明光场;在视觉感知和光场EPI上,火焰光场与非透明光场重建效果较为相同,都在BIC方法上较为模糊,在LFBM5D和RR方法上产生了伪影。
未来在基于火焰的光场超分辨率研究上,应当从火焰的辐射模型和光场成像模型入手,耦合内外焰与传感器每个像素的关系,同时利用光场结构的独特性,从不同视图中提取冗余信息。对于卷积神经网络等基于学习的方法,主要是创建大量的火焰光场数据集,从端到端学习低分辨率和高分辨率之间的映射。