刘 畅,钱宇华,2,王克琪,3,黄 琴,卢佳佳
(1.山西大学 大数据科学与产业研究院,太原 030006;2.山西大学 计算智能与中文信息处理教育部重点实验室,太原 030006;3.盘古深度智能信息技术有限公司,太原 030006)
低照度图像增强技术广泛应用于工业、公共安全和交通管理等领域。在智能城市管理方面,无人机(unmanned aerial vehicle, UAV)可以与计算机视觉技术集成,完成高级视觉任务[1]。为了在夜间或傍晚等不利条件下获得可靠信息,低照度图像增强是一个不可或缺的关键技术。户外无人机的巡视受到高速飞行、复杂环境和光照条件的影响,使其在光照不足的环境下很难获取丰富准确的图像信息。
图像增强技术主要完成图像对比度的增强,经典的增强方法分为3类:基于直方图均衡化的增强方法(histogram equlization, HE)[2]、基于Retinex理论的增强方法[3-5]和基于深度学习的增强方法[6]。基于HE和Retinex理论的增强方法会对图像某些区域进行过度增强,使得增强后的图像存在细节丢失、曝光失衡和偏色等问题。文献[7]提出一种多曝光融合框架(exposure fusion framework, EFF),利用基于光照估计技术的图像融合权值矩阵和相机响应模型合成多曝光图像。但在增强过程中,噪声易被放大,且较高的对比度增强易引发色彩失真问题。此外,图像复原技术[8-9]是图像处理领域中一类非常重要的处理技术,与图像增强等基本图像处理技术类似,可以借鉴其思想对低照度图像进行增强。这些传统优化算法忽略了像素间的亮度分布信息,虽然映射函数可有效提升亮度,但统一的参数和模型无法保证图像各个区域的亮度都可有效提升。近年来,随着神经网络研究的深入,基于深度学习的低照度图像增强算法的研究也迅速普及。大多数基于深度学习的图像增强方法良好的增强效果依赖于配对训练的数据集,如LLnet[10]、KinD[11]和Retinex-net[12]等方法。数据集构建问题是该类算法的研究痛点,一方面,在现实生活中,数据采集过程中无法保证白天和黑夜同一位置的场景信息完全一致;另一方面,为提高算法的学习能力和泛化性能,需要充足的数据量满足训练要求。为克服基于数据驱动的图像增强方法的不足,学者引入基于无监督的深度学习图像增强方法。基于生成对抗网络的无监督增强方法采用博弈论的思想,实现非配对数据集训练,如CycleGAN[13]、GLEAN[14]和Enlightengan[15]等无监督image-to-image模型已广泛应用于图像处理领域,通过精心设计的鉴别器和损失函数来训练网络,使得生成器生成的图像分布接近于样本图像分布。此类方法可有效增强图像的对比度,但存在由GAN引起的幻像和伪影模糊等局限性。最近,文献[16]提出一种基于深度学习的零参考深度曲线估计方法,该方法无真实标签监督,仅依靠非参考损失对弱光图像进行优化。然而,由于缺少真实世界信息的监督,上述方法存在色彩失真和噪声等问题。注意力机制为模型灵活学习真实图像信息提供了方向。文献[17]将循环神经网络模型与注意力机制相结合,通过对图像序列中特定区域进行高分辨率处理,有针对性地选择图像信息进行分类。文献[18]将Transformer理论[19]引入图像超分辨率任务,通过计算输入图像和参考图像特征矩阵间的相关关系以提升模型学习能力。该方法在超分辨率图像处理任务中取得了显著性突破。
现有的低照度图像增强算法虽取得了一定的进步,但是想要达到良好人类视觉感知效果仍有一定的难度,主要有2方面问题。
1)现有的低照度图像增强算法缺乏构建不同空间域特征映射关系的能力,使得增强结果易出现色彩过饱和以及曝光度失衡等问题。
2)由于无监督低照度图像增强算法缺乏强有力的外部监督形式以及真实丰富的图像信息,使得增强结果存在色彩畸变和噪声等问题。
为此,本文将联合硬注意力机制和推理光照矩阵近似函数表达式结合,设计出一种可学习的光照增强曲线,将低照度图像域通过非线性拟合函数映射到增强图像域,有效消除光照缺失的影响。经实验表明,本文方法适用于高速运动的无人机等拍摄设备夜间成像场景,可实现在极速快门和极小光圈设置下,保留场景细节信息,有效解决由光照不足或相机硬件设备受限等导致的图像退化问题。
图1、图2提供了低照度条件下拍摄的2幅自然图像。图1a是极低照度下普通成像设备捕获的原始图像,利用图像处理软件将图1a仅提高亮度后可获得图1b,由人类视觉感知可知,图1b存在噪声大、色彩失真等图像退化现象。图2a是傍晚时分利用无人机设备捕获的低照度图像,曝光时间1/1 000 s。这类设备作业期间要求曝光时间极短,感光度较高,导致捕获的光信号极少,因此图片成像效果差。用本文方法增强后的无人机图像如图2b,增强结果在保持曝光良好区域的同时增强曝光不足的区域。为此,开展高速快门诱导的低照度图像增强研究具有重要价值。
图1 低照度条件下拍摄图像示例
针对现有研究的不足,本文设计了一种新颖的弱监督框架(如图3),该结构由光照特征提取网络模块、联合硬注意力机制模块和光照曲线估计模块3部分组成。首先,将低照度图像和非配对参考图像同时输入到光照特征提取网络(illumination feature extraction net, IFE-Net),提取输入图像的相关特征量Q,K,V;然后将特征量Q,K,V输入硬注意力机制模块,通过矩阵运算生成联合注意力特征图;最后,将生成的特征图拆分为6组RGB通道特征,并通过光照估计曲线融合分组后的注意力特征图和低照度图像细节信号,经过6次迭代操作,输出增强图像。输出图像具有良好的全局光照信息、颜色和对比度,更为符合人类视觉感知。
在深度学习图像处理任务中,提取图像的语义特征是必不可少的环节,由此,本文设计了一种光照特征提取网络(IFE-Net)。具体结构如图3,IFE-Net由6个卷积层构成,为使得该模块适用于处理任何大小的输入图像,6层卷积层均使用32个大小为3×3卷积核,且步长均为1,每层卷积层后紧跟一个ReLu激活函数,每层卷积层均将获得的特征信息映射为一个32通道的特征量。IFE-Net第4层的输出为输入图像语义特征,第6层的输出为光照特征信息。该网络将低照度图像和参考图像作为输入,输出两者的光照特征信息和参考图像的语义特征,并分别定义Q,K,V特征量,其计算公式为
图3 高速快门诱导的低照度图像弱参考视觉增强网络框架
Q=IFEq(I1)
(1)
K=IFEk(Iref)
(2)
V=IFEv(Iref)
(3)
(1)—(3)式中:IFEi={q,k,v}(·)表示IFE-Net对应输出矢量的卷积层;I1表示输入的低照度光图像;Iref表示输入的参考图像。
注意力机制可分为硬注意力机制和软注意力机制2类,软注意力计算方法如(4)式,该注意力更加关注区域或通道,通过计算输入信息的加权平均选择信息,最终对每个查询量qi转移其相同位置的加权V值。但这样的操作可能会导致模糊效果,同时缺乏传递参考图像纹理特征的能力。
(4)
硬注意力更加关注像素点,选择输入某一位置上的信息。利用硬注意力机制作为索引对特征块应用索引选择,激励低照度图像和参考图像之间的联合特征学习,有效转移参考图像的真实信息,如色彩、光照等。
因此,本文设计了一个联合硬注意力模块(hard co-attention block, HCAB)以联合学习低照度图像和参考图像的重要特征。首先,根据(5)式和(6)式分别提取Q,K特征矩阵量的特征块,然后将2类特征块进行归一化操作,并计算内积,如(7)式。所得结果记为相关性特征R。
qi=unfold(Q),i∈[1,HI1×WI1]
(5)
kj=unfold(K),j∈[1,HIref×WIref]
(6)
(7)
(5)—(7)式中:unfold(·)表示特征向量展开操作;HI,WI表示图像的尺寸;QT表示矩阵转置。
(5)—(6)式本质上是特征嵌入过程,目的是实现高维稀疏特征向量向低维稠密特征向量的转换,以便后续处理和计算。训练过程中生成的qi和kj分别为25 600×288和288×25 600大小的特征量,计算获得的相关性矩阵R大小为25 600×25 600的特征量。Q,K特征量的归一化特征块部分可视化结果如图4,相关性矩阵可视化结果如图5(由于篇幅限制,只截取288×288的部分特征进行可视化展示)。
图4 Q,K特征量的归一化特征块
图5 相关性矩阵R的可视化结果
然后提取Q对于V相关性最高位置的特征值作为联合硬注意力转移特征M,即
Mi=Vθ
(8)
联合硬注意力转移特征M先通过一层卷积层输出18通道的曲线映射参数,并将其拆分为6组,每组包含3个通道并与输入图像的RGB 3个通道进行融合。与现有的图像增强算法相比,现有算法在处理过程中会将RGB图像转换为YCbCr颜色空间,仅将光照特征信息映射至Y通道,缺少对颜色细节的增强。因此本文所提出的增强算法可以更好地调节并保留原有图像的色彩信息。
图像的光照信息可近似映射为某种曲线,曲线设计满足以下3个条件:①图像的像素值应归一化,以加快算法收敛;②曲线的单调性可以保持相邻像素的差异;③在梯度反向传播过程中,曲线形式应简单且可微[16]。双曲正切函数是一种单调可微函数,函数值均在[-1,1]范围内,其函数表达式为
(9)
满足上述条件的同时,通过叠加低照度图像的原始信息以保留图像固有信息。因此,本文设计出一种新颖的光照估计曲线,用于构建输入图像与增强图像之间最佳的非线性映射关系,具体计算公式为
Ie(x,y)=Ie(x,y)+r·tanh(Il(x,y))
(10)
(11)
(10)—(11)式中:Ie(x,y),Il(x,y)分别表示增强图像和输入图像的像素矩阵;r是可学习的非线性映射参数矩阵,且元素取值范围在[-1,1]之间,用于调整曲线幅度和图像的曝光度;N为迭代次数。图像像素在处理之前均进行归一化操作,针对图像的处理均为像素级操作。由图3和(11)式可知,迭代使用光照估计曲线可实现重复增强,从而有效减少训练次数,获取更为丰富的图像调整信息。
本文使用文献[16]中提出的空间一致性损失、色彩恒常性损失、曝光控制损失和光照平滑损失对训练过程进行约束。同时,为了更好地预测增强图像与参考图像特征空间上的相关性,本文增加了转换感知损失[18]。
空间一致性损失Lspa用于保留输入图像和增强图像相邻区域之间的差异,同时增强图像的空间一致性表示
(12)
(12)式中:K为局部区域的个数;Ω(i)是以区域i为中心的4个相邻区域(上、下、左、右);Y和I为增强图像和输入图像中局部区域的平均强度值,局部区域的大小为4×4。
根据Buchsbaum提出的灰色世界理论[20],即视觉范围内有一个标准空间光谱均值存在来估计照度。本文利用色彩恒常性损失建立RGB通道间的关系,调整增强图像的颜色偏差,色彩恒常性损失Lcol表示为
Lcol=∑(Jp-Jq)2
(p,q)={(R,G),(R,B),(G,B)}
(13)
(13)式中,Jp表示增强图像在p通道 的平均强度值。
为了均匀全局曝光度,防止增强图像出现过曝或欠曝现象,定义曝光控制损失Lexp为
(14)
(14)式中:M是16个不重叠局部区域的个数,区域大小为16×16;Y为增强图像中局部区域的平均强度值;E为RGB颜色空间的灰度级,设置为0.4。
为了保持相邻像素之间的单调关系,定义光照平滑损失LtvA为
(15)
(15)式中:N为迭代次数;∇x和∇y分别表示水平方向和垂直方向的梯度操作。
感知损失的核心思想是增强预测图像与目标图像在特征空间上的相似性。转换感知损失Lper用于约束学习增强图像与转移特征T之间的相似语义特征,使得本文方法能够更有效地学习参考语义,定义为
(16)
最后,总体损失的计算公式表示为
Ltotal=Lspa+Lexp+ωcolL+ωtvALtvA+Lper
(17)
(17)式中,ωcol和ωtvA是损失权重。
现有航拍或无人机视频图像数据集[21-23]的图像信息均为单一的夜间或日间场景,且大多应用于目标检测任务,并不适用低照度图像增强任务。因此,本文收集了一个新的数据集,用于高速快门诱导的低照度图像增强模型的训练。
本文提出的低照度数据集包含340组真实俯拍图像,每一组包含极短曝光的低照度图像和相似场景下非配对的参考图像,参考图像均曝光良好。2个场景下拍摄的数据均按照6∶2∶2的比例分为训练集、测试集和验证集。该数据集由无人机搭载索尼ILCE-6000相机在户外航拍采集,图像的分辨率大小均为6 000×4 000。整个拍摄过程设置为相机自动连拍,无手动设置和人为干预。短曝光图像拍摄的时间段为19∶00—20∶00,曝光时间设置为1/1 000 s,ISO设置为800。参考图像的拍摄时间为16∶00—17∶00,曝光时间设置为1/1 000 s,ISO设置为200。2种拍摄场景均未设置光圈、闪光灯和焦距参数。由于低照度图像曝光时间极短,所以对于拍摄场景无绝对静止的要求。本文旨在基于高速快门诱导的低照度条件下产生感知良好的图像,而不是彻底消除所有噪声或最大化图像对比度。因此,允许良好曝光的参考图像可能包含一些噪声,只要求感知质量满足作为真实标签的要求。
本文使用无监督图像评价指标NIQE[24],Brisque[25],IS[26],JNBM[27],GM(信息熵),STD,(标准差),KID-mean[28],Bliinds2[29]和PIQE[30]对本文方法进行定量分析,其中NIQE,Brisque,Bliinds2,KID-mean和PIQE指标值越小越好,在表格中用↓表示;IS,JNBM,GM和STD指标值越大越好,在表格中用↑表示。
本文所提算法在训练过程中,模型输入为低照度图像和正常照度的参考图像,模型输出为增强图像,共进行200次训练,采用均值为0和标准差为0.02的高斯函数对每一层的滤波权重进行初始化,偏差为0。使用Adam优化器来优化网络,权重衰减率为10-4,学习率为10-4。(9)式中的光照估计曲线迭代次数N设为6,使用损失函数作为模型优化约束,损失权重ωcol的值设为0.5,ωtvA的值设为20。实验环境为NVIDIA Tesla P100 GPU设备。
本文利用低照度数据集验证本文所提算法的合理性和有效性,与现有的图像增强算法进行定量和定性分析,所有实验均在同一实验环境和设备上进行,对比方法包括图像处理传统优化算法EFF[7]、基于无监督的低照度图像增强方法ZeroDCE[16]和Enlighten GAN[15]。表1展示了本文算法与其他算法定量对比的结果。经过分析,本文算法在NIQE,IS,JNBM,STD,KID-mean和Bliinds2指标上均有提升,在Brisque和GM指标上分别仅次于ZeroDCE和Enlighten GAN算法。图6展示了本文算法与其他算法的对比结果,图6a为低照度的输入图像,图6b为EFF算法增强结果,图6c为ZeroDCE算法增强结果,图6d为Enlighten GAN算法增强结果,图6e为本文算法增强结果,图6f为非配对的相似场景参考图像。经过分析,传统算法虽然可以直接处理低照度图像,但不能较好地抑制图像噪声,同时难以提升极低照度图像的亮度。基于无监督方式的低照度图像增强算法可以较好改善图像的全局光照信息,但是仅借助损失函数约束的优化结果存在过曝、色彩失真和细节模糊等问题,图像的噪声也被放大,对图像质量的改善能力有限。本文算法与其他3种算法(EFF,ZeroDCE和Enlighten GAN)相比,利用硬注意力机制有效学习参考图像特征,建立低照度图像和增强图像2个图像域的映射关系,具有更好的特征表达能力,增强结果更好地保留了低照度图像原始信息,具有更清晰的图像细节、更准确的色彩信息,同时对噪声的抑制效果更好。通过上述实验分析,本文算法性能较优。
表1 本文算法与其他算法定量评估结果
图6 本文算法与其他先进算法定性评估结果
本节通过消融实验Ⅰ进一步证明本文算法基于硬注意力模块的重要性,消融实验Ⅱ验证(11)式的最佳迭代次数。
消融实验Ⅰ将联合硬注意力模块,仅迭代使用(11)式光照估计曲线对低照度图像进行增强,增强结果如图7。图7a为模型未加入联合硬注意力模块的增强结果,图7b为模型加入联合硬注意力模块的增强结果,对比结果证明转移参考图像的真实信息可以有效提升增强图像的色彩信息并在一定程度上抑制噪声。
消融实验Ⅱ对比了不同模型参数设置的结果。图7展示了光照估计曲线不同迭代次数的定性评估结果。迭代次数N=5,6,8时均可以产生令人满意的结果,这表明了弱参考视觉增强学习的有效性。图8展示了光照估计曲线不同迭代次数的定量评估结果。迭代4次以后,各项指标变化趋于稳定,综合图7的视觉效果选择迭代次数为6的模型作为本文模型。迭代次数为5时,测试图像在部分区域出现曝光不足问题(图中台阶处)。迭代次数为8时,测试图像出现过曝现象(图中湖面和草坪处)。迭代次数为6时,自然的曝光和适当的对比产生较愉悦的视觉效果。将迭代次数减少到1时,模型的性能明显下降,如图8b。这是因为只有一次迭代的曲线的调整能力有限,同时表明在本文方法中需要使用高阶曲线。图9 展示了各迭代次数的评价指标可视化结果。通过以上2组消融实验,充分证明了本文算法的有效性。
表2 消融实验Ⅱ定量评估结果
图7 消融实验Ⅰ定性评估结果
图8 消融实验Ⅱ定性评估结果
图9 消融实验Ⅰ定性评估结果
本文提出了一种高速快门诱导的低照度图像弱参考视觉增强方法,该方法利用光照特征提取网络有效提取输入图像特征,通过联合硬注意力机制,有效激励弱光图像和参考图像之间的联合特征学习,弥补了基于无监督方式的低照度图像增强方法的局限性,通过构建不同图像特征域的非线性映射关系,提升模型的表征能力。同时,通过将低照度图像增强任务设计为单调可微的光照曲线估计问题,利用迭代计算反复增强图像特征,加快网络收敛。最后,通过对比实验验证了本文算法的可行性和有效性,并通过消融实验验证了添加联合硬注意力模块的必要性。在未来的工作中,将继续对高速快门诱导的低照度图像弱参考视觉增强方法进行更深入的研究。