空间感知通道注意力引导的高动态图像重建

2022-12-21 03:23唐凌峰黄欢张亚飞李凡

中国图象图形学报 2022年12期

唐凌峰，黄欢，张亚飞，李凡

昆明理工大学信息工程与自动化学院,昆明 650500

0 引言

高动态范围(high dynamic range,HDR)成像旨在有效地捕捉和显示自然场景的照明。由于标准数码相机受限于设备传感器的性能，只能捕获有限动态范围内的光强，导致拍摄图像中出现过亮或过暗的区域，不能很好地反映出人眼在自然场景中感知到的明亮或黑暗区域的细节。虽然利用专业成像设备可以直接获取HDR图像，但这些设备通常十分昂贵，大多数用户无法负担。因此，利用HDR重建算法(范逵和周晓波，2014;朱雄泳等，2018)，即从传统数码相机捕获的图像中恢复出HDR图像的方法十分流行。

一些研究者试图利用单幅低动态范围(lour dynamic range,LDR)图像生成HDR图像(Eilertsen等，2017；Liu等，2020)。由于照相机传感器在捕获信息时存在量化误差和饱和工作区间，只利用单幅图像的信息难以达到较好的重建效果。具有不同曝光度的LDR图像分别包含了不同动态区间下的信息。因此，融合同一场景下的多幅不同曝光LDR图像可以重建出更高动态范围的图像。然而，现实生活中拍摄一组图像通常会存在相机位置的偏移、前景物体的移动以及饱和等现象。由于待融合图像的像素在空间位置上未对齐，会造成重建HDR图像出现鬼影、噪声和模糊的现象。为了解决这些问题，一些传统方法(Zimmer等，2011；Xu等，2010)试图使用光流法(Kang等，2003)先对LDR图像进行预先配准，然后进行融合。Gallo等人(2009)先检测运动区域，再预测由物体运动而导致的信息不一致区域，并将其摒弃来解决空间信息误对齐的问题。基于深度学习的HDR重建方法(Liu等，2020；Yan等，2019b)通常具有更强的恢复细节能力，但由于缺少对输入图像特征的有效挖掘和利用，阻碍了HDR图像质量的进一步提升。如Kalantari和Ramamoorthi(2017)利用光流法将输入图像与参考图像进行对齐，然后通过一系列卷积层对图像直接进行融合。Wu等人(2018)先利用单应性变换(homography transformation)对图像进行整体对齐，然后用基于U-Net或ResNet的网络架构来融合LDR图像。Yan等人(2020)仅从单一维度建立特征的相互关系，没有充分突出特征中的有效信息。现有基于注意力机制的方法虽然有一定效果，但由于没有充分考虑特征空间维度和通道维度的相互关系，因此在抑制鬼影、保持和恢复细节信息方面仍然存在很大的提升空间，如图1所示。

图1 不同HDR重建方法成像结果对比Fig.1 Comparison results of different HDR methods

本文方法着重解决因图像像素的未对齐而导致融合结果出现的“鬼影”、过曝光/欠曝光区域细节信息难以恢复以及融合过程中源图像边缘细节容易丢失的问题。为了解决上述问题，提出了一种空间感知通道注意力引导的HDR重建方法。

本文方法充分考虑了图像特征的空间相关性和特征通道的相关性，设计了空间感知通道注意力机制。这样一种集成式的设计，在挖掘通道上下文关系的过程中，通过提取特征通道维度的全局信息和显著信息，进一步强化特征的空间关系，实现对误对齐区域信息的进一步抑制以及有效信息的增强。此外，为强化网络挖掘输入图像中有益信息的能力，本文提出了多尺度信息重建模块，在增大网络感受野的同时，凸显了特征空间维度的显著信息，充分利用了不同尺度特征的上下文信息。这不仅有助于保留输入LDR图像的更多细节，还有助于恢复饱和区域丢失的信息。如图1所示，本文模型能构建出更高质量的HDR图像。为了评估本文方法的性能，在公开HDR数据集上将本文方法与其他HDR重建方法进行了比较，实验结果证明了本文方法的有效性和优越性。综上所述，本文的主要贡献包括：

1)提出一种全新的空间感知通道注意力机制。该机制在空间注意力的基础上，通过提取特征通道维度的全局信息和显著信息，进一步增强了有效区域信息在重构HDR图像中的作用，充分考虑了不同位置和不同通道特征之间的相关性和差异性。在抑制鬼影的同时增强了特征中有效信息的作用。

2)设计多尺度信息重建模块。该模块有助于增大网络感受野，强化特征空间维度的显著信息，还能充分利用不同尺度特征的上下文语义信息，来重构最终的HDR图像。实现保留图像细节的同时，有效恢复出饱和区域丢失的信息。

3)构建端到端HDR重建框架。该框架无需对图像进行预先配准，并在公开HDR数据集上取得了有竞争力的性能，充分证明了本文方法的有效性和优越性。

1 相关工作

1.1 基于对齐的方法

基于对齐的方法通常在进行多曝光图像融合之前，对LDR图像先进行对齐处理。Ward(2003)提出通过二值图计算整体像素偏移量来对齐偏移的图像。Zimmer等人(2011)提出基于光流的方法来对齐图像，但没有很好地利用未对齐部分的HDR内容。为增强融合结果中的图像细节，Sen等人(2012)提出通过优化基于图像块(patch-based)的能量最小化函数(energy-minimization formulation)，来解决对齐问题。这类方法通常在复杂场景以及图像之间存在目标物的大幅度移动时，对齐效果并不理想，导致融合结果中仍然有鬼影的存在。

1.2 基于运动检测的方法

基于运动检测的方法假定多幅LDR图像可以在最终的HDR图像中配准，并把LDR中的像素划分为偏移的像素和未偏移的像素来分别处理。Jinno和Okuda(2008)提出通过马尔可夫随机场预估出现的位移、遮挡和饱和的区域，并将这些区域的信息在最终的HDR图像中排除掉。Raman和Chaudhuri(2011)提出利用超像素分组(superpixel grouping)来检测场景的变化，并将信息不一致的块舍弃掉，以缓解HDR重建过程中可能出现的鬼影。Zheng等人(2013)提出使用模板匹配和空洞填充来检测和消除出现偏移的像素，以达到消除鬼影的目的。这类方法在运动区域处重构出的信息通常是低动态范围的，因为它们只是摒弃掉运动区域的内容，而没有充分利用运动区域所包含的信息。

1.3 基于深度神经网络的方法

深度学习技术通过端到端的训练让网络学习如何重建HDR图像。基于深度神经网络的方法通常包括两类实现HDR图像的方式：1)从单幅LDR图像中重构出HDR图像。2)通过融合多幅具有不同曝光水平的LDR图像重构HDR图像。在第1种方法中，Eilertsen等人(2017)设计了一个深度自编码器网络，旨在恢复出饱和区域丢失的信息，增强重构图像的细节表现。由于相机成像过程中有些步骤会造成信息丢失，Fotiadou等人(2020)通过稀疏自编码器从图像块的特征中建模不同的曝光条件，再利用模拟出的不同曝光水平从单幅LDR图像重建出HDR图像。

在第2种方法中，Kalantari和Ramamoorthi(2017)提出先用光流法对齐输入的图片，再用深度神经网络来预测重建的HDR图像。然而，这种方法需要对图像进行预处理，并且难以消除由于光流方法的局限性带来的误对齐。Wu等人(2018)从图像转化角度提出利用深度编码解码网络恢复出HDR图像的细节。但网络对抑制鬼影的鲁棒性不强。为进一步消除鬼影带来的影响，Yan等人(2019a)通过简单注意力机制构建特征空间位置关系，没有考虑特征通道间的关系。Yan等人(2020)又提出利用特征的空间相关性引导网络恢复出被遮挡区域的细节。但重建网络恢复图像细节能力有限。这些方法虽然能有效提升重构图像的质量，但在对饱和区域丢失细节的恢复或大尺度移动而引入的鬼影抑制方面，仍然存在较大的提升空间。

2 方法

本文方法框架如图2所示，主要包括特征提取网络、空间感知通道注意力网络、多尺度信息重建网络。其中，特征提取网络主要负责从输入的图像中提取出包含不同层次信息的特征；空间感知通道注意力网络用于凸显有助于提升图像质量的信息，避免鬼影效应对融合结果的影响；多尺度信息重建网络利用特征在空间层面的重构来增大提取特征的感受野，这有助于在更大的感受野内提取有效信息，并实现过/欠曝光和运动区域丢失细节信息的恢复。

图2 本文方法框架Fig.2 The framework of the proposed method

2.1 数据预处理与模型概述

给定一组动态场景下多曝光LDR图像{x1,x2,x3}。HDR图像重构的目标是根据输入的非参考图像{x1,x3},重构出一幅与选定的参考图像x2对齐的HDR图像，并且该图像包含了非参考图像{x1,x3}的细节信息。在待融合图像{x1,x2,x3}输入网络之前，本文根据Kalantari和Ramamoorthi(2017)方法的设定，先用gamma校正函数对LDR图像{x1,x2,x3}预处理，得到对应的HDR图像{H1,H2,H3}，其中Hi可表示为

(1)

式中，γ>1表示gamma校正参数，ti为LDR图像xi的曝光时间。根据Kalantari和Ramamoorthi(2017)，设γ=2.2，并将xi和Hi在通道上拼接起来，得到一个6通道的张量Xi=[Hi,xi],i∈{1,2,3}作为网络的输入。

2.2 特征提取网络

如图2所示，特征提取网络由4个3×3卷积层组成，每个卷积层输出的特征均为16通道。对于输入Xi∈RH×W×6(i=1,2,3)，第l个卷积层的输出可以表示为

(2)

式中，Conv表示卷积，k表示卷积核的尺寸，l∈{1,2,3,4}表示卷积层的序号。特征提取网络最后输出的特征Fi∈RH×W×64可表示为

(3)

式中，concat表示特征间的拼接操作。

2.3 空间感知通道注意力网络

图3 空间感知通道注意力机制结构示意图Fig.3 The structure of our spatial aware channel attention mechanism

(4)

式中,⊙表示哈达玛积。

(5)

(6)

(7)

Li等人(2021)提出通过计算特征图与图像的高级语义表示之间的关系来探索空间上下文。由于图像的高级语义表示不能保留原始特征图的像素级信息，因此在HDR重建任务中，高维特征图与图像的高级语义表示之间的关系无法充分表达原始特征维度的空间依赖。与Li等人(2021)使用的通道上下文模块不同，本文方法提出一种集成式的设计，在预测通道间的相互依赖关系时，通过提取特征的全局信息和显著信息进一步强化特征的空间关系，增强鬼影抑制能力。这一机制不仅可以有效抑制由于严重饱和以及物体运动造成的鬼影，还有助于突出与参考图像互补的特征，重建高质量的HDR图像。

2.4 多尺度信息重建网络

由于LDR图像中存在移动物体的遮挡和饱和区域，HDR图像一些局部区域在重建时无法从源图像对应位置的相邻区域获得充分的有用信息。所以需要增大网络感受野来捕获更多HDR重建时所需要的细节信息。为此，本文提出了多尺度信息重建模块(multiscale information reconstruction module，MIM)。该模块的具体结构如图4所示。该模块通过对特征分别进行全局平均池化和全局最大池化操作，在提取全局信息和显著信息的同时，增大重建网络的感受野，并捕获不同尺寸特征中包含的上下文信息。上采样操作则可以让网络将全局上下文信息传播到更高分辨率的特征中去。高层特征有助于削弱鬼影，而低层次特征中则包含更丰富的细节信息。因此，为了避免浅层特征中细节信息的丢失，在多尺度信息重建模块中还加入了跳跃连接，将下采样层的特征传递到对应上采样层的输入位置。

Fl1=Conv(concat(Fg1,Fh1),k=1)

(8)

图4 多尺度信息重建模块结构示意图Fig.4 The structure of our multiscale information reconstruction module

特征Fl1∈RH/2×W/2×C分别经过全局平均池化和全局最大池化操作后得到的特征可表示为Fg2∈RH/4×W/4×C和Fh2∈RH/4×W/4×C。将得到的特征拼接，经过1×1卷积后可得到

Fl2=Conv(concat(Fg2,Fh2),k=1)

(9)

对Fl2∈RH/4×W/4×C经过双线性插值上采样到Fl1相同的尺寸后，与经过3×3卷积层进一步特征提取的特征Fl1进行逐元素相加,即

(10)

FMIM=Upsample(F′l1)+F′SACA

(11)

2.5 损失函数

(12)

(13)

结构相似度(structural similarity,SSIM)可以度量两幅图像之间的结构信息的相似性，其数值越大表示两幅图像结构信息就越相似。为保证重构图像与标签图像具有较强的结构相似性，防止结构信息的丢失，使用如下的结构相似度损失来对模型进行优化，即

(14)

综上，总的损失函数可以表示为

L=Lpixel+LSSIM

(15)

3 实验

3.1 数据集

1)训练数据。当前已提出了一些HDR数据集，如Kalantari dataset(Kalantari和Ramamoorthi，2017)、Tursun dataset(Tursun等，2016)和Sen dataset(Sen等，2012)。为了达到更好的性能，选择使用带标签的数据集Kalantari来训练本文网络。Kalantari包括拍摄于不同场景下的74组训练样本和15组测试样本。每组样本中包含同一场景下的3幅LDR图像和对应的曝光偏差，以及该场景下的标签HDR图像。样本中每一幅图像的尺寸都为1 500×1 000像素。实验中设定具有中等曝光程度的图片作为参考图像，其余的2幅为非参考图像。由于该数据集的训练集仅包含74个样本，在训练阶段将训练样本中的图片随机裁剪成512×512像素，并对裁剪好的图像块使用水平翻转和垂直翻转来避免过拟合。

2)测试数据。在测试阶段使用了3个测试集对模型性能进行评估。包括Kalantari数据集的测试集、Sen数据集和Tursun数据集。其中Kalantari测试集的15组测试样本包含标签，用该数据集计算模型的定量指标。Sen数据集和Tursun数据集不包含标签图像，这两个数据集场景下的图像用于定性评估，同时进一步验证模型的泛化性能。

3.2 评价指标

为评价不同方法得到结果的质量，采用PSNR-L(peak signal to noise ratio-linear domain)，SSIM-L(structural similarity-linear domain)，PSNR-μ(peak signal to noise ratio-tonemapped domain)，SSIM-μ(structural similarity-tonemapped domain)，HDR-VDP-2(Mantiuk等，2011)作为重构结果客观评价指标。PSNR-L表示线性HDR域中标签HDR图像与网络输出之间的峰值信噪比。PSNR-μ表示μ-law域中标签HDR图像与网络输出之间的峰值信噪比。SSIM-L与SSIM-μ则分别表示线性HDR域与μ-law域中标签HDR图像与网络输出之间的结构相似度。HDR-VDP-2(Mantiuk等，2011)用来度量不同亮度条件下重构的HDR图像的可见性和质量。

3.3 实现细节

使用PyTorch实现提出的网络框架，训练和测试实验环境为Ubuntu20.04，实验设备搭载 Nvidia GeForce RTX 3090和64 GB内存。训练阶段，使用Adam优化器优化网络，优化器参数β1 =0.9，β2 =0.999。批大小设置为2。采用使用warm-up学习率调整策略，初始学习率设置为10-3，持续到第1 500代衰减为10-4，到第2 500代衰减为10-5，并保持学习率为10-5直至训练结束。模型总共训练5 900代。

3.4 方法比较

为验证本文方法的有效性，将本文方法与当前最新的几种方法在Kalantari测试集(Kalantari和Ramamoorthi，2017)、Sen数据集以及Tursun数据集上进行了实验对比。对比方法包括3种流行的HDR重建方法：基于补丁的方法Sen(Sen等，2012);基于单帧重建的方法HDRCNN(Eilertsen等，2017)和SingleHDR(Liu等，2020);基于深度神经网络的方法Kalantari(Kalantari和Ramamoorthi，2017)、DeepHDR(Wu等，2018)、AHDRNet(Yan等，2019a)和NHDRRNet(Yan等，2020)。需要说明的是，Kalantari的方法在图像输入网络前需要使用光流法对图像进行对齐预处理，DeepHDR需要先用单应性变换(homography transformation)对齐输入图像的背景。AHDRNet、NHDRRNet以及本文方法在测试时则不需要对图像进行任何预处理。本文中所展示的HDR图像均使用Photomatix(Wu等，2018)进行色调映射。

3.4.1 定量分析

在有标签图像的Kalantari测试集下对不同方法进行了定量评估。各方法所有结果在各项评价指标下的平均值如表1所示。各项指标数值越高表示重构图像的质量越好。从表1定量评价结果可以看出，本文SCAMNet更具优势。虽然DeepHDR和NHDRRNet也采用了多尺度特征融合，但集成空间感知通道注意力的SCAMNet获得了更好的性能。而Sen和Kalantari方法通常会在图像局部区域引入鬼影。HDRCNN和SingleHDR易在过饱和区域引入噪声。

3.4.2 标签数据集融合结果的视觉效果分析

图5和图6展示了不同方法在Kalantari测试集上的重构结果。两组测试样本均存在大范围前景目标物的运动以及局部区域的过/欠曝光。其中，图5(a)—(c)和图6(a)—(c)为LDR图像。图5(d)—(k)和6(d)—(k)为不同方法得到的HDR图像(色调映射后)的效果比较。为了便于观察，将每幅图像的对应标记区域进行了放大，并将其置于每幅图像的右上角和右下角。从图5(d)可以看出，融合结果不仅细节恢复不理想，而且还引入了畸变(如红色和绿色标注区域所示)，这主要是因为基于块的方法在对饱和区域进行块关系匹配时出现了误差。从图6(d)可以看出，虽然Sen方法能够重构出质量较高的HDR图像，但在部分区域(如树枝、手臂汗毛)对细节信息的恢复仍然不够理想。

表1 Kalantari测试集上不同HDR重建方法评价指标结果Table 1 Results of different methods for Kalantari testing dataset

图5 不同方法在Kalantari测试集中Parking-one场景下所得结果的视觉效果展示Fig.5 Visual effect display of results obtained by different methods on scene Parking-one in Kalantari testset((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari;(h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)

图6 不同方法在Kalantari测试集中Parking-two场景下所得结果的视觉效果展示Fig.6 Visual effect display of results obtained by different methods on scene Parking-two in kalantari testset((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari;(h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)

基于单帧重建的方法HDRCNN和SingleHDR虽然能在一定程度上避免鬼影和畸变信息的引入，但无法从非参考图像中获取必要的信息来重构边缘细节，且存在着较为明显的颜色扭曲。从图5(g)的红色和图6(g)红色、绿色标注区域可以看出，基于光流法的Kalantari输出结果出现了鬼影以及细节信息的丢失，这是由于Kalantari的卷积神经网络(convolutional neural network, CNN)结构过于简单，不能很好地解决因为光流法引入的误对齐。

虽然DeepHDR和NHDRRNet产生的结果整体效果较好，但从图5(h)(j) 绿色框标注的区域可以看出，手臂处出现了轻微的鬼影。同时，在图6(h)(j)的绿色标注区域没有很好地恢复出饱和区域物体的细节。AHDRNet和NHDRRNet虽然引入了注意力机制，在一定程度上缓解了鬼影现象，但由于没有考虑特征通道维度的相关性，不能充分突出有效信息的作用，因此重建的结果中仍然存在过饱和区域。在图5(i) 的红色框标注区域和图6(i)的绿色框标注区域内依然存在轻微的模糊和过饱和现象。与这些方法相比，由于本文方法从空间和通道两个维度同时突出了有益信息作用，并充分挖掘了多尺度特征信息，因此本文方法不仅能有效抑制鬼影的产生，而且还更有效地恢复出了清晰的图像细节。

3.4.3 无标签数据集融合结果的视觉效果分析

为验证模型的泛化能力，本文在Sen和Tursun两个无标签的数据集上对不同方法的性能进行了对比。每一个数据集展示了两个场景下的融合结果。图7和图8为Sen数据集两个场景下不同方法融合结果比较。从图7(a)红色放大区域可以看出，融合结果没能有效地恢复出清晰的图像细节。同时，该方法在图8(a)的红色和绿色放大区域内，在眼镜和下颌处引入了轻微噪声。这是因为基于块(patch)的方法Sen无法准确找到与饱和区域信息对应的块。

基于单帧重建方法HDRCNN和SingleHDR，因无法综合其他LDR图像的信息，导致其恢复的图像局部细节不清晰并且没有呈现较好的高动态范围效果。由于Kalantari在预先进行的光流对齐步骤中出现的偏差导致图8(d) 标注区域内引入了鬼影。此外，从图7(e)(g)的标注区域可以看出,DeepHDR和NHDRRNet不仅没能实现丢失细节的恢复，还导致了颜色的畸变和轻微鬼影。这是因为DeepHDR和NHDRRNet没能充分突出有效信息在图像重建过程中的作用。图7(f)中AHDRNet重建结果对局部细节的恢复并不理想，这是因为AHDRNet没能充分挖掘不同尺寸特征中包含的上下文信息，导致细节信息流失。相比而言，本文方法通过空间感知通道注意力机制有效增强了非参考图像中的有效信息，识别并抑制了误对齐区域的信息，因此能重构出无鬼影的HDR图像。

图9和图10给出了不同方法在Tursun数据集的两个场景下的重构结果。从这些结果可以看出，基于块匹配的方法Sen在图9(a)和图10 (a)中均引入了轻微鬼影，影响了重构结果的视觉效果。这是因为块匹配的过程中可能无法准确找到与饱和区域信息对应的块。方法HDRCNN和SingleHDR均造成了重构结果颜色的畸变和细节信息的损失。如图9(d)和图10(d)所示，Kalantari方法的重构结果出现了轻微的鬼影，原因是该方法不能很好地解决因为光流法引入的误对齐。虽然DeepHDR、AHDRNet和NHDRRNet等基于深度学习的方法能取得不错的效果，但依然会在局部区域引入鬼影，并且对细节信息的恢复也有提升空间。这是因为这些方法没能充分凸显对重构图像有益信息的作用和挖掘不同尺度特征中的上下文语义信息。从图9(h)和图10 (h)中可以看出，本文方法较为真实地重构了场景的结构，并清晰地恢复出了图像的细节，有效地避免了鬼影的产生。

图7 不同方法在Sen数据集中BabyOnGrass场景下所得结果的视觉效果展示Fig.7 Visual effect display of results obtained by different methods on scene BabyOnGrass in Sen dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

图8 不同方法在Sen数据集中LadyEating场景下所得结果的视觉效果展示Fig.8 Visual effect display of results obtained by different methods on scene LadyEating in Sen dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

图9 不同方法在Tursun数据集中Plants场景下所得结果的视觉效果展示Fig.9 Visual effect display of results obtained by different methods on scene Plants in Tursun dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

图10 不同方法在Tursun数据集中Museum1场景下所得结果的视觉效果展示Fig.10 Visual effect display of results obtained by different methods on scene Museum1 in Tursun dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

3.5 消融实验

本文通过消融实验验证了不同模块的重要性。实验中，把去除了SACAM和MIM的模型作为“Baseline”。将Baseline中添加了通道注意力的模型命名为“Baseline+CA”, 将“Baseline+CA”中的CA替换成SACAM的模型称之为“Baseline+ SACAM”， “Baseline+ SACAM”中添加了MIM的模型称之为“Baseline+SACAM +MIM”。图11给出了模型在不同设置条件下得到结果的局部视觉效果对比。

3.5.1 通道注意力的有效性

由图11(b)可以看出，与Baseline相比，Baseline+CA一定程度上减轻了鬼影现象，这得益于通道注意力调整了LDR图像的不同通道在重构HDR时的作用，并且通过提取特征通道维度的全局信息和显著信息，增强了有效区域信息在重构HDR图像中的作用。

图11 本文各模块对HDR图像重建的视觉效果影响Fig.11 The influence of each module on the visual effect of HDR image reconstruction((a)Baseline; (b)Baseline+CA; (c)Baseline+ SACAM; (d)Baseline+SACAM +MIM)

3.5.2 空间感知通道注意力机制的有效性

Baseline+SACAM在Baseline+CA的基础上加入了空间注意力。对比图11(c)相对图11(b)的变化，可以发现鬼影现象进一步被削弱，这是因为空间感知通道注意力能同时从空间维度和通道维度挖掘特征图中对重构图像有益的信息。并且通道注意力可以在空间注意力的基础上进一步凸显有效区域信息在重构HDR图像中的作用，从而进一步抑制鬼影。从表2所示的客观评价结果来看，当把通道注意力换成空间感知通道注意力之后，所有评价指标的性能均得到了进一步提升，这验证了本文所设计的空间感知通道注意力的有效性。

表2 本文模型中不同模块消融研究结果Table 2 The ablation results of different modules in our model

3.5.3 多尺度信息重建模块的有效性

为证明多尺度信息重建模块的有效性，比较了Baseline+SACAM与Baseline+SACAM+MIM产生结果的变化。如图11(d)所示，Baseline+SACAM+MIM的结果与Baseline+SACAM相比，鬼影得到了更加有效地抑制，并且局部细节(如栏杆、建筑)也得到了恢复。这是因为该网络有助于增大网络感受野，强化特征空间显著信息和充分利用不同尺度特征的上下文语义信息，来重构最终的HDR图像。这样不仅能充分保留图像细节信息，还能有效恢复出饱和区域丢失的信息。相比之下，表2中的客观评价指标也得到了提升，这表明了多尺度信息重建模块的有效性。

4 结论

本文提出了一个空间感知通道注意力引导的多尺度HDR图像重建网络(SCAMNet)。在一个框架内集成了空间感知通道注意力机制和多尺度信息重建模块，有效地解决了在拍摄过程中因目标运动而导致融合结果出现的“鬼影”和饱和区域缺失细节重建的问题。提出的空间感知通道注意力机制建立了特征在空间、通道维度的相互关系。在挖掘特征通道间相互依赖关系的同时，通过提取特征空间维度的全局信息和显著信息，进一步强化空间注意力特征的空间关系，凸显对重构图像有益的信息。SCAMNet还集成了多尺度信息重建模块。该模块充分利用不同尺度特征的上下文语义关系，进一步挖掘输入图像中的有益信息来重建HDR图像。强化特征空间显著信息的同时，还提升了感受野，增强了网络恢复细节信息的能力。定性和定量的评估都验证了本文方法与同类方法相比的优势。