马铖旭,曾上游,赵俊博,陈红阳
(广西师范大学 电子工程学院,广西 桂林 541004)
图像增强在艺术片的拍摄、监控系统、卫星图像处理、医学等领域应用极为广泛。逆光图像一般指在极低照度、低照度、微暗照度等各类照度下产生的低亮度、低对比度的图像。在极低照度下产生的图像基本全是暗色区域,目前有许多针对该类逆光图像增强的算法,但是常常因为严重的噪声和图像失真隐藏在图像暗部而导致增强出来的图像细节严重丢失。除了要满足视觉需求还要保证最大程度地恢复图像原有的细节,甚至在颜色饱和度、去噪等方面设置要求,这样的图像增强任务给人类带来很大挑战与强大的算法硬核。目前,国内外对于逆光图像增强技术逐步验证:将传统的图像增强算法思想与现今研究热点的卷积神经网络相结合,能在逆光图像增强领域达到质的飞跃。
传统的图像增强算法Retinex[1]不同于直方图均衡化[2-3],Retinex专注于局部增强,这在一定程度上解决了全局增强算法对图像局部区域亮度增强不足的问题,可以在动态范围压缩、边缘增强和颜色恒常3个方面达到平衡,因此能对不同类型的图像进行自适应增强。而直方图均衡化利用灰度的统计特征,将原图像的灰度分布从较为集中的区间映射到整个灰度区域均匀分布,从而达到图像增强的效果[4-5],往往容易导致图像非逆光区域过度增强而出现颜色、细节丢失。多尺度Retinex[6]算法在增强过程中可以保持图像的本质特征,但受限于产生最终结果的方式, 增强出来的图像会在某些区域过度增强,会出现图像纹理不清晰、高频区域突出不明显等情况,基于Retinex理论改进的逆光图像增强算法[7-11]应运而生。文献[12]基于Retinex理论,只估计光照分量,这样做可以缩小解空间和减少计算量。但正因其依赖于光照分量,对极低照度图像增强会因光照照度不够导致增强结果过暗,对于低照度图像的亮度过大的背景区域又会出现过度增强的现象。
近年来,学者们陆续提出了许多基于卷积神经网络的方法。文献[13]提出了一个全局照明感知和细节保持网络(GLADNet),通过将输入的低光照图像与估计出的光照图连接后输入到三层网络里重建,但该方法在低照度图像增强中容易出现颜色和背景等失真问题。文献[14]提出Retinex-Net网络,作者受到传统Retinex算法的启发,将图像先分解成光照分量和反射分量,而后对得到的光照图进行增强处理,最后将增强后的光照图与分解出来的反射图进行相乘操作得到增强图像, 从该方法可以看出图像分解在某种意义上是可以达到增强图像亮度的效果,但在去噪方面有待提升。文献[15]的 KinD是目前低照度图像增强领域先进的算法之一,在去噪和图像增强方面相比较Retinex-Net有了质的飞跃,但增强后的图像会出现颜色饱和度不足等情况,并且其仅在极低照度图像上处理完美,对于低照度逆光图像的增强还有提升空间。
因此,为保证增强后的图像质量(包括在图像颜色饱和度、去噪等细节)的同时旨在扩大适用范围,本文设计一种基于卷积神经网络的逆光图像增强算法,并结合传统的Retinex思想,构建一种集分解、恢复、调节的新型网络架构(a new network architecture which integrates decomposition, recovery and adjustment inspired by Retinex), 简称RDRAnet。
RDRAnet分为图像分解、反射率恢复及光照调节3部分。Retinex的基本思想是从原始图像中去除或者降低光照图带来的影响,尽可能保留物体本质的反射属性。受Retinex理论启发,本文将图像中反映物体本身特性的那一部分分解出来,称之为反射图,并对反射图进行去噪、增强、纹理颜色保持等操作,对分解出的光照部分进行自适应调节,将分解出来的图像称之为光照图,最终将操作所得的光照图和反射图相乘得到增强图像。本文恢复网络中,考虑到逆光图像的反射图存在退化效应且分布复杂,所以使用处于良好光照下的反射图作为参考,这需要依赖于光照分布。引入光照分量,与图像的反射分量连接后一起输入到恢复网络中。在恢复网络中结合U-Net[16]思想并引入深度可分离卷积代替部分传统卷积来实现图像增强,与此同时加入颜色饱和度模块,使得图像增强过程中尽可能保留图像原有的色彩饱和度。在调节网络中,通过多次卷积运算提取图像特征,并将增强比率作为特征图与低光光照图合并后作为调节网络的输入,从而实现能够连续调节光照强度的机制。RDRAnet总体设计框架如图1所示。
图1 RDRAnet总体设计框架Fig. 1 Overall design block diagram of RDRAnet
Retinex理论的基本假设是人眼观察到的图像S(x,y)由入射光L(x,y)与反射图像R(x,y)决定,数学表达式为
S(x,y)=L(x,y)R(x,y)。
(1)
式中:L(x,y)指物体表面入射光,直接决定了图像中像素所处的动态范围;R(x,y)由物体表面的反射性质所决定,能直接反映图像的内在属性,且不易受到入射光的影响。受Retinex理论的启发,本文将逆光图像分解为反射图和光照图。
由图1可知,分解网络将逆光图像与其相对应的高光图像作为输入。具体的分解网络细节如图2所示。
图2 分解网络细节Fig. 2 Detail of decomposition net
采用典型的5层U-Net, 紧跟一个1×1卷积从特征空间投影出反射分量,最后使用Sigmoid函数将反射率约束在[0,1]范围内得到逆光图像与高光图像的反射图。而光照图由2个以ReLU作为激活函数的3×3卷积和一个3×3卷积连接到反射率分支的特征映射上,紧跟一个1×1卷积,便于信息融合,最后使用Sigmoid函数将光照分量约束在[0,1]范围内。
将原始空间解耦成2个类似的子空间,可以更好地正则化。实验数据集中包含逆光图像及其对应的高光图像。每次都获取成对的逆光/高光图像,并在逆光图像和高光图像的指导下学习逆光图像及其对应的高光图像分解。因为物体反射率是固有属性,不因光照变化而变化,所以假设图像无退化,对于某个场景获得的反射率应该相同。光照有很多不确定因素,但结构简单且相互一致。为了更好地估计反射率和光照,本文为分解网络设置了2个约束条件:1)逆光图像与高光图像共享反射率。2)光照映射平滑且相互一致。将以上2个约束条件作为损失函数嵌入到网络中,采用数据驱动[14]方式提取各种照明图像之间的反射率。
图像分解部分的损失函数L由重建损失Lrec、不变反射率损失Lr、平滑度损失Ls和相互一致性损失Lm共4部分构成,其表达式为
L=Lrec+λrLr+λsLs+λmLm。
(2)
式中λr、λs、λm分别为不变反射率损失、平滑度损失、相互一致性损失的系数。为了保证分解网络的正确性,理论上分解出来的反射图和光照图相乘后得到的图像要与原输入的图像相近。用Rlow、Ilow表示经过分解网络得到的逆光图对应的反射分量和光照分量,Rhigh、Ihigh表示经过分解网络得到的高光图对应的反射分量和光照分量,Slow、Shigh分别表示输入的逆光图像和高光图像。基于Rlow与Rhigh都能使用相对应的照明图重构图像的假设,重建损失Lrec数学表达式为
Lrec=‖Shigh-RhighIhigh‖1+‖Slow-RlowIlow‖1。
(3)
使用不变反射率损失Lr来保证反射率尽可能一致,其数学表达式为
Lr=‖Rlow-Rhigh‖1。
(4)
通常情况下,在输入图像强边缘区光照会发生较大变化,而在弱边缘区,光照分布应平滑。本文的平滑度损失Ls数学表达式为
(5)
(6)
图像恢复包括图像去模糊[17]、图像超分辨率重建[18]、图像去噪[19]等。对于逆光图像,其噪声分布往往是不均匀的,噪声大多分布在逆光区域,采用高光图反射分量作为去噪参考,使用U-Net网络对图像进行增强,修复暗光缺陷。深度可分离网络可以在既定感受野的情况下有限提高网络深度进而提高非线性,使用深度可分离卷积代替U-Net中部分传统卷积层来提取特征,可使得计算成本显著降低的同时不降低算法性能,还能实现效率提升。
退化在反射上的分布相对复杂且强烈依赖于照明分布,本文将光照分量与退化的反射分量连接后一起输入到恢复网络中。使用3×3卷积层从图像中提取特征,并使用ReLU作为激活函数,最大池化层的卷积核大小均为2×2。恢复网络沿用U-Net思想,网络前半部分对图像进行特征提取,后半部分进行上采样操作,将特征在通道维度上拼接在一起,有利于形成更深层次的特征。上采样进行4次,将深层与浅层的特征图进行结合,最后得到的恢复图像既具有丰富的全局信息,又不丢失局部细节,并且图像边缘等信息更加精细。深度可分离卷积由一个深度卷积和一个逐点1×1卷积结合,深度卷积用来降低空间维度,1×1卷积可以很好地扩展深度。具体的恢复网络细节如图3所示。
图3 恢复网络细节Fig. 3 Detail of restoration net
图3中用不同颜色的箭头代表卷积、池化、上采样等操作,用不同颜色的片状框代表经过相应卷积等操作所得到的对应特征图。
逆光图像的反射图有相对多的降质成分,本文恢复网络将高光图分解出来的反射图作为去噪标签,图像恢复部分损失函数Lre由4部分组成,如式(7)所示,
Lre=L2+Lssim+Lgrad+λrgbLrgb。
(7)
Lssim是一种结构相似性损失函数,考虑了亮度、对比度和结构指标,更有助于接近人类视觉感知,通常情况下会比L1、L2损失函数产生的结果更具有细节,不会使得图像过于平滑。本文将通过恢复网络输出的反射图用Rout来表示。Lssim、L2、Lgrad的表达式为:
Lssim=SSIM(Rout,Rhigh),
(8)
(9)
(10)
将原始图像从RGB颜色空间变换到 HSI 颜色空间, 然后构建网络模型去增强亮度分量,最后从HSI颜色空间变换到RGB颜色空间得到增强图像[20]的做法可以在一定程度上避免图像颜色失真,但其过程繁琐,本文在损失函数设计部分设计一个颜色饱和度损失函数Lrgb专门针对图像在恢复过程中易出现颜色黯淡与图像失真的问题。颜色饱和度不仅在视觉上扮演很重要的角色,在实际应用中也相当重要,以监控设备为例:若要对监控系统中逆光图像进行恢复增强,由于增强过度导致颜色出现伪影失真等,会导致判断出现偏差。Lrgb的数学表达式为
(11)
式中c=0.1。
对分解网络得到的逆光图像的光照图进行调节,并且将增强比率(目标光源与图像光源间的比值)一起作为图像调节网络的输入[15]。将增强比率记作α,其数学表达式为
α=Lt/Ls。
(12)
增强比率可根据用户需要弹性设定,这也是本文算法适用性广的优势之一。当逆光图像(图像光源)调节成高光图像(目标光源),增强比率大于1,曝光图像(图像光源)调节成高光图像(目标光源),增强比率小于等于1,本文实验将其设置为2。α的设计使得调节网络可以自适应将一种光照条件转换成另一种光照条件,这样设计的好处是使得最终通过调节网络输出的光照分量不至于过亮或过暗,可以最大限度避免图像失真。调节网络部分通过多次重复使用3×3大小的卷积核进行卷积操作来加深网络的同时减少参数数量,扩大感受野,通过叠加层将ReLU激活函数夹在卷积层之间,进一步提升网络表现力。通过加深层,可以分层次传递信息,能够高效地学习更高效的模式。最后一层卷积层使用1×1卷积核,便于图像特征图之间的信息融合。具体的调节网络细节如图4所示。
图4 调节网络细节Fig. 4 Detail of adjustment net
调节部分的损失函数Ladj的数学表达式为
(13)
(14)
(15)
LOL[14]数据集包含500张低照度图像及500张与其一一对应的高光图像。LOL数据集是第一个包含从真实场景中获取的用于低照度图像增强的图像对数据集[14],该数据集从各种各样的场景中捕捉图像,例如:建筑物、校园、俱乐部、街道等,图像分辨率为600×400,且其中大部分图像为极低照度图像。DICM[21]数据集与NPE[22]数据集中大多数图像属于低照度图像或微暗照度图像,且这2个数据集中的图像均没有相对应的高光图像作为参考。本文算法在LOL数据集上训练,为了验证本文算法的普适性,在LOL (极低照度)、DICM、NPE(低照度或微暗照度)这些不同照度的数据集中选取图像进行测试实验。数据集示例如图5所示。
图5 LOL、DICM、NPE数据集示例Fig. 5 Demonstrations of LOL,DICM,NPE datasets
整个网络在NVIDIA Geforce GTX1070 GPU 和 AMD Ryzen R9 3900X 12-Core Processor 3.8 GHz CPU上,搭载64 GiB内存,使用Tensorflow框架进行训练。训练阶段,在LOL数据集数据集上选取485对图像作训练,15对图像作为测试。在分解网络中,批处理大小为10,图像块大小设置为48×48,迭代2 000次,损失函数系数λr=0.01,λs=0.15,λm=0.2。在恢复网络中,批处理大小设置为4,图像块大小设置为384×384,迭代1 000次,颜色饱和度损失函数系数λrgb=3.3。在调节网络中,批处理大小设置为10,图像块大小设置为48×48,迭代2 000次。
为了评估本文算法的性能,将本文算法与LIME[12]、GLAD[13]、Retinex-Net[14]、KinD[15]4种算法在视觉上进行主观对比。出于本文算法在不同照度逆光图像上的效果考虑,在以下不同照度数据集中选取大量图像进行测试,包括LOL数据集、DICM数据集、NPE数据集。部分效果如图6~8所示。
图6(a)是LOL数据集中的一张极低照度图像。增强效果看, LIME在亮度上有欠缺,GLAD、Retinex-Net噪声过大。图中橘色看台区域,KinD在颜色饱和度上范围为47%~72%,RDRAnet在色彩饱和度上范围为50%~76%,数据集中高光原图的色彩饱和度范围为60%~81%,依据色彩饱和度越高色彩越鲜艳原则,本文RDRAnet处理的橘色看台颜色更接近于高光图像。在图像左上角座椅上,RDRAnet细节也更突出。图7(a)是NPE数据集上的一张低照度图。从天空纹理与颜色分析,根据逆光图像增强原则:图像逆光区域亮度增强的同时,非逆光区域的亮度、细节、颜色要与输入图像的非逆光区域保持一致。从对比效果图上可以看出,LIME与RDRAnet在天空纹理和颜色上最接近输入原图,LIME在天空的色彩饱和度范围为28%~59%,RDRAnet在天空色彩饱和度上范围为50%~76%,色彩饱和度数据显示RDRAnet在色彩饱和度上优于LIME。其他对比方法增强出来的天空颜色受亮度的影响泛白、泛紫,出现明显失真。而在地面纹理方面,RDRAnet较为清晰,LIME略微欠缺。
图6 与先进方法在视觉上的对比一Fig. 6 First visual comparison with advanced methods
图7 与先进方法在视觉上的对比二Fig. 7 Second visual comparison with advanced methods
图8(a)是DICM数据集上的一张微暗照度图像。其中LIME-DETAIL、KinD-DETAIL、RDRAnet-DETAIL分别对应于其方法所得到的增强效果图的细节图。GLAD在逆光区域增强亮度不够,而在非逆光区域的亮度又过大导致天空失真。Retinex-Net色彩饱和度范围在21%~89%,在颜色处理方面是所有方法中最优的,但衡量增强效果的还有噪声、纹理细节清晰度等指标,Retinex-Net在噪声处理上有很大的提升空间。从图中建筑物的柱子以及屋檐上的绿色花纹角度分析,RDRAnet的色彩饱和度范围在16%~57%,KinD范围在5%~26%,无论从色彩饱和度数据上还是视觉对比(通过放大细节图可观察),RDRAnet在保证增强后的图像不出现背景等失真的前提下,色彩饱和度也是较好的。
图6~8分别来自3个不同的数据集,从主观对比的效果图可以看出,LIME算法在极低照度图像上,对于遮挡部分亮度增强效果不好。GLAD算法整体亮度提高的同时会降低颜色饱和度以及在纹理等细节会丢失。Retinex-Net算法对于颜色的保留效果相当出色,但不能很好地解决噪声问题。KinD算法是在极低照度图像增强领域较先进的算法,但是其在图像色彩饱和度等细节方面还有提升空间。而本文方法在反射图上进行去噪、深度可分离卷积代替U-Net中部分传统卷积等操作,可以最大程度地保留物体本身属性在图像增强过程中不丢失且保证去噪效果好。光照图的自适应调节可弹性选择亮度,避免图像亮度过暗或过亮导致的图像失真问题。实验表明,本文方法在极低照度、低照度、微暗照度的逆光图像上均表现出色,并且在颜色饱和度上与较先进的方法对比有很大的提升,这离不开颜色饱和度损失函数的设计。
图8 与先进方法在视觉上的对比三Fig. 8 Third visual comparison with advanced methods
主观上的评价不够充分,并且可能会因为设备显示器差异、用户本身喜好等产生偏颇。为了进一步验证本文算法的可行性,使用结构相似度指数(SSIM[23])、峰值信噪比(PSNR[24])、非参考图像质量评价方法(NIQE[25])对图像质量进行评估。由于SSIM和PSNR 2种评估方法适用于成对图像数据集,所以在LOL数据集上选取15张图像进行测试,为了保证对比的公正性,排除测试图像中SSIM、PSNR极高或极低的情况, SSIM、PSNR的测试值均取15张测试图像的平均值。用SSIM、PSNR对LOL数据集进行定量比较的结果见表1。考虑到DICM和NPE数据集上的图像均是无参照,本文分别在LOL、DICM和NPE 3个数据集中选取部分图像进行NIQE评估,其结果如表2所示。
表1 用SSIM、PSNR对LOL数据集进行定量比较
表2 用NIQE对LOL、DICM、NPE数据集进行定量比较
SSIM与PSNR的值越高代表增强的图像越接近于真实的高光图像, 相反地,NIQE值越低则图像质量越好。由表1和表2可以看出,本文方法RDRAnet在极低照度图像、低照度图像、微暗照度图像上,增强效果均强于其余算法。从主观视觉以及客观定量比较可以看出,本文算法具有可行性、普适性。
本文将传统的Retinex思想与卷积神经网络相结合,将逆光图像分解成光照图和反射图。在反射图上进行去噪操作,光照图上自适应调节亮度。反射图上进行增强操作,可以最大程度地保留图像的颜色等细节,使得逆光图像不会因为亮度过大而出现颜色失真、纹理丢失、锐化等现象,或因为亮度过暗而出现增强亮度不够的现象。光照图上的自适应亮度调整可以依据用户喜好,特定场景需要而自行设定其增强比率,更注重用户感受,符合人工智能所遵循的理念。视觉效果和客观数据均显示本文算法在不同照度的逆光图像上增强效果强,细节纹理有很大的提升,颜色更接近于事物本真。可见本文基于卷积神经网络的逆光图像增强算法适用范围广泛,增强性能优异,在人工智能领域有较好的应用潜力。对于图像细节纹理的处理,未来工作考虑加入注意力机制以及更深层次的卷积神经网络进一步提取图像特征。此外,还打算轻量化该方法或增加时序处理,以便本文方法能用于视频后期处理。