燕雨洁,张煜朋,贾珍珠,苏红旗
(中国矿业大学(北京),北京 100083)
生活中,光线暗,照度低、曝光不足会导致图片整体亮度偏低,噪声大,边缘细节信息丢失严重,影响图像视觉效果,因此对低照度图像进行处理是极有必要的。
早年间,主要采用直方图均衡化、伽马变换、Retinex理论[1]等方法对低照度图像进行增强。虽然这些方法在一些程度上可以提高图像的亮度,增强图像的可读性,但同样存在一些棘手的问题无法解决,如:增强后的图像色彩不均,颜色失真,图像有大量光晕出现。后来,随着深度学习在不同领域的应用取得不错成果后,大量学者开始将目光投向于用深度学习的方法增强低照度图像。
目前,经过大量实验证明,基于深度学习的方法在低照度图像增强上具有可行性。增强后图像无论从主观的视觉体验还是客观的图像质量评价方面的表现都十分出色。
目前,应用比较广泛的传统的低照度图像增强算法主要分为4类,分别是基于色调映射算法、基于背景融合算法、基于直方图均衡化算法和基于模型算法[2]。
色调映射技术产生于20世纪90年代,主要通过扩展低照度图像的动态范围,提高图像的亮度,改善图像的光照不均匀性。色调映射方法可以大致分为两类:全局方法与局部方法。
全局方法对图像的动态范围变换中的每个像素应用相同的变换曲线,选择不同的曲线可以达到不同的视觉效果。这种算法计算简单,实现容易。但是由于对图像中所有像素的变换相同,得到的图像在色度、亮度和细节方面都有一定的损失。局部色调映射算法的实质是图像中每个像素的映射曲线都是同邻域像素信息相关的,其优势在于通过对图像局部特征进行处理,弥补了全局算法不能保留局部特征的缺点。
背景融合类算法是将白天的亮度信息融合到夜间的图像中,利用白天背景的亮度来增强夜间图像的像素,从而达到增强人眼视觉的效果。侯雷等人曾采用平均K帧的方法获取白天背景,再利用Retinex理论提取了白天背景和夜间视频帧的亮度,采用帧差法提取了夜间视频帧的移动物,将相同场景的白天背景亮度融合夜间帧的视频以达到图像增强的目的[3]。
直方图均衡化算法是图像增强空域法中最常用的图像增强的方法,其基本思想是将图像的灰度直方图从较为集中的某灰度区间拉伸至全部灰度范围内,扩大图像灰度值的范围,提升图像对比度并突出部分细节效果。直方图法能有效提高对比度,处理速度快,但容易出现色差,灰度合并会丢失细节信息。
基于模型的低照度图像增强算法常见的有基于Retinex模型和基于大气散射模型。Retinex模型是由Land等人提出的一种模仿人类视觉系统感知图像的亮度和真实色彩的模型。根据该理论可知人眼感知到的物体的颜色和亮度是由物体表面的反射特性决定的,与投射到人眼上的光谱特性无关。大气散射模型是因为反演后的低照度图像与浓雾条件下得到的图像相似,因此可以利用除雾算法对反演后的低照度图像进行处理和增强。
虽然基于模型的算法可以增强低照度图像的整体信息,但算法结构不灵活,局部信息增强效果不好,算法的可扩展性不佳。
近年来人工智能技术飞速发展,深度学习作为其重要的分支,在语音识别、图像识别等领域均取得了不错的成就。目前,虽然低照度图像的技术在不断更新,但是传统的方法依旧有难以解决的弊端,故众多学者将研究的思路转向了深度学习技术上。目前处理低照度图像常用的深度学习模型主要可以分为两类:深度生成式模型和深度判别式模型。判别式模型是完全根据数据得出结果,而生成式模型会有人为设定的条件建立模型,再通过利用假设建立的模型得出结果。
2.1.1 自编码器
自编码器是一种利用反向传播算法使输出值等于输入值的神经网络。它首先将输入压缩成潜在空间表征,然后通过这种表征来重构输出。自编码器由编码器和解码器组成。编码器将输入压缩为潜在空间表征,解码器重建潜在空间表征的输入。
2017年,Lore等[4]最早提出了将LLNet网络用于处理低照度图像的想法,并通过实验证明了其可行性,由此拉开了深度学习在图像增强领域应用的序幕。Lore利用LLNet网络将低亮度、低噪声的图像输入编码器进行训练,由于自编码器具有去噪的能力,低光图像通过自动编码器训练后,图像中的基础信号特征被学习,然后对信号特征进行重构,得到明亮的图像,从而达到对低照度图像自适应增亮和去噪的效果。但是在实际场景下将LLNet网络对彩色图像进行处理时会产生较多的冗余参数。因此王万良、杨小涵等[5]人在LLNet网络基础上提出了卷积自编码器的图像增强方法。将LLNet网络中进行低光处理的模块加入到整体网络框架中,将卷积操作当作自编码器的编码运算,得到低光图像的低维特征表示。此时网络学习到低光图像的隐藏特征,然后进行反卷积,得到重构明亮图像。该方法能够有效节约时间成本,减少网络参数,提高网络训练效率,得到更好的图像低维表示。
2.1.2 生成式对抗网络
生成对抗网络(Generative Adversarial Networks ,GAN)[6]是一种无监督的深度学习模型。该模型包括生成器和判别器,其原理是用生成器生成的数据来“欺骗”判别器。判别器用来判断样本的真实度,而生成器则不断加强自己的能力,使生成的样本越来越接近真实的样本。通过不断迭代,直至判别器区分不出接收的样本到底是来自真实样本还是来自生成的样本。
GAN与其他生成模型相比,只使用反向传播,不需要复杂的马尔科夫链,可以生成清晰真实的样本。2017年Ignatov等[7]提出了一种基于GAN模型的图像增强方法。该模型虽然具有一定的图像增强效果,但由于原始图像与目标图像之间有很强的对应匹配关系,是一个强监督过程,算法的通用性不强。后来,作者在此基础上进行改进,采用弱监督网络模型WESPE[8],使输入数据和输出数据分别是低质量图像和高质量图像,使得内容上不再需要对应。为了保证图像内容的一致性,采用VGG19网络计算内容损失,避免了原图像与目标图像之间强烈的对应匹配关系。
此外,为了解决低照度图像视觉感知差、图像内容分辨率难等问题,黄鐄等[9]采用卷积网络作为生成网络,加入具有二元分类功能的卷积神经网络(Convolutional Neural Networks,CNN)作为判别模型,使图像的亮度、清晰度和色彩恢复都有了很大的提高。陈清江,曲梅[10]先后提出了一种基于级联残差产生对抗网络的低照度增强算法,利用Retinex理论将RGB图像转换为HSV空间,并对亮度分量进行处理。该模型中的生成网络是一个级联残差网络,它可以建立低照度图像和正常图像之间的亮度映射关系,并通过反向传播算法训练网络的权值,以提高生成网络正常图像的能力。
2.2.1 卷积神经网络模型
卷积神经网络是一种常用的深度学习模型。典型的卷积神经网络由卷积层、池化层和全连接层三部分组成,卷积层负责提取图像的局部特征,池化层用于降低参数的量级,全连接层负责输出期望的结果。
由于卷积神经网络具有局部连接和权值共享的特性,减少了训练参数,降低了网络模型的复杂性,因此被提出用于低照度图像的增强。Shen等[11]在arxiv上发表的低光照图像增强的文章中提出了一个新颖的观点:传统的多尺度Retinex方法等效于有着不同高斯卷积核的前馈神经网络。随后提出了包含多尺度的对数变换、差分卷积和色彩复原函数这三部分组成的MSR-Net网络,直接学习暗图像到亮图像端到端的映射。但是由于该模型中接收的图像画面有限,会受到光晕效应的影响,使光滑区域(例如晴朗的天空)具有halo现象。2018年,Li等[12]提出了卷积神经网络弱光照图像增强算法(LNET) ,该方法利用Retinex模型,使用卷积神经网络来估计光照图像,利用用引导滤波优化光照图像,最后获得增强后图像。为了避免增强后的图像颜色失真,马红强等[13]提出了基于深度卷积神经网络(DCNN)的低照度增强的算法。首先将图像由RGB空间转换成HIS颜色空间。保持色度和饱和度分量不变,然后将亮度分量通过DCNN网络进行增强,最后再把合成后的图像转换回RGB空间。与其他算法相比,此方法明显改善了强增强现象,在主观感受和客观评价方面表现很好。
目前大多学者均是将卷积网络与Retinex模型结合起来估计光照图像或者反射图像进行处理。而程宇等[14]另辟蹊径,将弱光图像利用限制对比度自适应直方图均衡、伽马变换、对数变换、亮通道增强的方法首先生成四张派生图,然后将弱光图像同四张派生图一起输入到CNN网络中输出增强图像。该方法通过在合成数据集上的训练,成功学习到了映射规律,直接端到端地实现了图像的增强,效果很好。
2.2.2 循环神经网络
循环神经网络(Recurrent Neural Network,RNN)的原理比较简单,它跟传统神经网络最大的区别在于每次都会将前一次的输出结果,带到下一次的隐藏层中一起训练。
循环神经网络可以与其他网络相结合组成混合网络对图像进行训练,以此增强低照度图像的可见性。Ren[15]便利用循环神经网络提出了深度混合网络来增强低光照图像,该网络包括对内容和细节处理两部分,对内容的处理主要是用来预测输入图片的场景信息,是一个编解码结构,以此达到增亮场景的效果。但是,内容部分在处理过程中,编码器往往会丢失一些结构细节,故在处理细节部分时提出了一种空间变体的RNN结构,在另一个自动编码器的指导下对边缘细节进行建模,引入两个权重g和p作为输入特征加入到RNN的隐含层状态中,增强RNN结构获取的图像边缘,更好地预测结构化信息。
深度学习的背后是深度神经网络,它需要以大量的数据样本训练作为支撑,使最终的训练模型具有泛化性。所以,数据量的大小对于深度学习来说非常重要。目前对于低照度增强可使用的数据集有SID Dataset,MIT-Adobe FiveK Dataset等。SID Dataset数据集包含5 094张短曝光图像及其对应的长曝光参考图像。数据集包含了室内和室外的图像,其中室外场景照度在0.2 lux~5 lux,室内场景照度在0.03 lux~0.3 lux。MIT-Adobe FiveK dataset数据集是用单反相机拍摄的5 000张RAW格式照片,并在后期请专门的修图人员进行调整照片的色调得到的数据集,是现在很多做图像增强与图像修饰方面研究的人员经常会使用到的数据库。
此外,也有一些学者在进行实验前,自己构建数据集,如Ignatov等人用不同的拍摄设备在相同条件下拍摄多张图片构建了一个大型的数据集用于模型训练。
3.2.1 主观评价
主观评价是从视觉效果上对比增强后的图像与低照度图像的区别。即:对相同的低光照图片,用不同的算法进行处理,然后找其他人来做评价,选出最好的算法,但是人为评价会受到很大外界因素的影响,如:观察者对色彩的审美不同,观察角度不同等。这些因素导致了主观评价很难有一个固定的标准,不具有科学性。
3.2.2 客观评价
客观评价是将增强前后的图片通过使用数学模型给出量化值,计算某些指标来对图像的好坏进行判断。目前常用的评价指标有峰值信噪比(Peak Signal-to-noise Ratio,PSNR),结构相似性(Structural Similarity,SSIM)和自然图像质量评估(Natural Image Quality Evaluator,NIQE)。
PSNR是一种评价图像的客观标准。它是原图像与被处理图像之间的均方误差相对于的对数值(n是每个采样值的比特数)。PSNR的值越大,就代表失真越少,图像的质量越好。
SSIM是一种衡量两幅图像相似度的指标,它把与物体结构相关的亮度和对比度作为图像中结构信息的定义。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。其值越大越好,最大为1。
NIQE提取自然景观中的特征来对测试图像进行测试,并且将这些特征用于拟合一个多元的高斯模型。这个模型实际上是衡量一张待测图像在多元分布上的差异,这个分布是由一系列的正常的自然图像中提取的这些特征所构建的。
目前基于深度学习的方法在低照度图像增强领域应用十分广泛,它能够解决传统方法需要不断进行实验对参数进行调节的问题,同时增强后的图片在色彩上更加协调,边缘细节十分突出,图片中含有的噪声也得到了抑制。但是目前该方法依旧存在许多问题。由于训练时必须要给出大量同样场景下照度不同的图片,但是目前该种类的数据库资源不丰富,缺乏训练样本,在实施上带来了一定的困难。此外,对增强后的图像评价标准也存在一定的问题,比如若使用PSNR作为评价指标,但由于人眼的视觉对于误差的敏感度并不是绝对的,PSNR 的分数无法和人眼看到的视觉品质完全一致,有可能 PSNR 较高者看起来反而比 PSNR 较低者差。而NIQE是一个对图像的全局判断方法,在某些场合也并不十分合适,无法方便地拓展到对图像局部的判断。但是这些不足以影响该方法对于低照度图像增强的使用,相信随着更加深入的研究,基于深度学习的低照度图像增强方法会有更加完美的表现。