MIRNet-Plus:基于丰富特征学习的低光图像增强改进方法

2024-03-05 01:41余联想郑明魁
小型微型计算机系统 2024年3期
关键词:空间信息图像增强卷积

罗 林,余联想,郑明魁,2

1(福州大学 先进制造学院,福建 泉州 362200)

2(福州大学 物理与信息工程学院,福州 350108)

0 引 言

从低光图像中恢复出高质量的明亮图像是业界正在攻克的问题,大量的应用场景需要有效的低光图像恢复,如计算摄影、监控、自动驾驶汽车和遥感等领域.近年来,以卷积神经网络为主导的图像恢复技术取得了重大进展.在图像分类、目标检测、3D视觉以及军事探测等高级视觉任务的预处理中起着十分重要的作用.一般说来,图像增强可以被看作是对图像进行恢复的一种任务,其目的是对低质量图像进行增强.

近年来,基于深度学习的图像增强方法显示出了很强的优越性,在推理上时间上超过了传统的基于先验的方法.特别是卷积神经网络(CNN)的出现几乎主导了目前所有的图像增强方法.

现有的CNN图像增强方法通常遵循3种架构设计:1)编码器-解码器结构;2)高分辨率(单尺度)特征处理;3)多尺度跨分辨率结构.在编码器-解码器模型中[1-4],首先将输入图像逐步映射到高维空间(低分辨率)中表示,然后对高维特征进行逐步解码,反向映射到原始分辨率.通过这种方法,模型能够充分获取图像中的背景信息和语义信息,但是这种方法会导致空间信息细节丢失,使得在后期很难恢复,从而影响图像恢复质量.在第2种方法中,高分辨率(单尺度)[5,6]不采用任何下采样操作,因此可以很好的恢复空间细节.但是这种方法网络的感知域有限,对于上下文信息缺乏足够的理解.为了克服上述两种方法的缺点,在整个网络中保持空间精确的高分辨率表示,并从低分辨率表示中接收互补的上下文信息成为一种新型的做法.多尺度跨分辨率结构[7-9]被提出,这种结构的网络克服了上述两种方法的缺点,网络能够同时结合空间细节信息以及上下文信息,对网络的特征信息进行足够的探索,从而获得更好的结果.

Huang等人[7]首次在医学图像分割领域提出了多尺度的信息交换,取得了非常显著的成就.Zamir等人[8]在2020年ECCV上提出了MIRNet,采用多尺度跨分辨率的信息交换来实现图像增强,在当时取得了最领先的成绩.但是这种信息交换是不彻底的,依然遗漏了很多上下文信息以及空间细节信息.

基于Zamir等人[8]的工作,Fan等人[4]使用他们提出的SKFF以及DAU模块提出了HWMNet,同样得到了不错的结果.同时Zamir等人[9]在2022年的TPAMI期刊上进一步更新了他们的成果,提出MIRNet-V2,优化了原来的网络.但是上述的方法并没有解决跨分辨率信息交换有遗漏的问题,网络仍需进一步改进.

本方法采用的技术路线是多尺度跨分辨率网络结构,该网络结构能够在充分探索图像上下文信息的同时保留足够的空间细节信息,从而实现更好的图像增强效果.本文的主要贡献可以总结为以下几个部分:

1)采用Double SKFF,增强网络中间层对不同分辨率的信息交流能力,获得更多的上下文信息,增强网络空间信息以及上下文信息聚合能力.

2)设计了Depthwise Attention Module,用来共享特征张量中的信息,补充原有特征,增强网络中特征表现能力.

3)解决多颜色空间神经修饰模块不能进行多批次训练问题,并将其用于主干网络之后,提升网络健壮性.

4)构建了一个端到端的低光图像增强系统.

1 相关工作

近年来,随着计算机视觉领域的快速发展,卷积神经网络显示出了不可替代的优越性能,越来越多的学者对此展开了深入研究.

低光图像增强一直是计算机视觉领域中的基础任务,对于各方面的行业发展具有重要意义.许多学者注意到卷积神经网络的优越性能,并将其用于低光图像增强领域,涌现出了很多优秀的方法.

Chen等人[1]提出使用全卷积网络的端到端训练,对低光图像进行增强,取代了许多传统的图像处理方法.Zhang等人[2]利用Retinex 理论与CNN,将图像分解为两个组件,一个组件(照明)负责调节光线,而另一个组件(反射率)负责去除退化,取得了不错的结果.Wang等人[10]同样将Retinex理论与CNN相结合,构造了分解模块、注意力降噪模块和亮度调整模块来对低光图像进行增强.这两种方法虽然取得了一定程度上比较好的结果,但是这些方法对于图像特征的探索程度还是会欠缺很多.

在使用CNN进行图像增强时,许多学者采用的网络架构是编码器-解码器模型,这种网络模型容易导致不同分辨率的上下文信息以及空间信息出现缺失,不利于对图像进行恢复和增强.例如工作CURL[3]和HWMNet[4].CURL[3]虽然提出了多颜色空间神经修饰模块,但是由于网络结构的限制,在特征编码解码的过程中,缺乏对上下文信息和空间细节信息的关注,因此得到的结果并不足够理想,同时,在训练过程中,也只能使用单张图片进行训练而不能多张一起训练.HWMNet[4]的工作提出在网络中使用半小波注意块来丰富小波域的特征,取得了不错的结果,但是网络仍然缺乏对不同分辨率之间特征信息交流的关注.

低分辨率上可以获取到可靠的语义信息但缺乏空间信息,而高分辨率则相反,能够获得精确的空间信息但是上下文信息不太健壮.MIRNet[8]使用单独的CNN网络,探索了在获取更加丰富的特征对图像增强任务的影响,同时,他们还提出了对不同分辨率的特征信息之间进行交换,关注不同分辨率之间的上下文信息以及空间信息.这种做法取得了非常不错的效果,但是他们的信息交换不够彻底,对上下文语义信息和空间信息仍然有一定程度的遗漏.

针对上述方法的缺点,本文提出了改进型的方法MIRNet Plus,通过增强网络中间层对不同分辨率的信息交流能力,补充原有的特征信息,实现了更加细致的不同分辨率的特征信息交流,得到了更加准确的低光图像增强结果.通过实验,本文提出的方法优于其他基于MIRNet进行改进的方法.

2 改进策略

本文提出的方法改进主要是对Zamir等人[8]在2020年ECCV上提出的MIRNet的改进,本文将其称之为MIRNet Plus.本文提出的方法改进如下所述.

本文的网络的整体结构如图1所示,图2展示了本文所使用的多颜色空间神经修饰块.

图1 网络结构图Fig.1 Network structure

图2 多颜色空间神经修饰块示意图[3]Fig.2 Schematic diagram of multi-color spatial neural modification block[3]

2.1 Double SKFF

本方法采用了Double SKFF模块来获取更加丰富的上下文信息以及空间信息.Zamir等人[8]提出跨分辨率信息交换,同时捕获上下文信息以及空间信息,但是这种捕获是不彻底的,为了获得更加健壮的上下文信息同时实现更加充分的空间细节信息获取,本文采用双重选择融合交换和残差机制实现这一目的.单层的SKFF能够对上下文信息和空间信息进行一定程度上的交换,但是交换的特征信息不够彻底、精炼.

SKFF的网络[8]的示意图如图3所示,该模块能够对来自多个卷积流的特征进行操作,并基于自我关注进行聚合.网络的具体细节见[8].在融合部分,模块接收3个并行的特征输入,3个特征的分辨率并不相同,因此网络首先采用元素求和来组合这些不同分辨率的特征L=L1+L2+L3,然后在L∈RH×W×C的空间尺度上对其进行全局均值池化(GAP)来计算通道信息s∈R1×1×C,接下来使用通道下采样卷积操作来生成一个紧凑的特征表示z∈R1×1×r,其中r=C/8.最后,特征通过3个并行的通道上采样卷积层得到3个特征v1,v2,v3,其大小为1×1×C.在选择部分,首先对v1,v2,v3使用softmax激活函数,得到s1,s2,s3,然后自适应的分别与L1,L2,L3进行特征映射,特征重新校准与聚合定义为U=s1·L1+s2·L2+s3·L3.

图3 SKFF网络示意图[8]Fig.3 Schematic diagram of SKFF network[8]

2.2 DWM

Zamir等人[8]认为在使用SKFF模块获取上下文信息与空间信息的同时,还需要对张量中的空间和通道维度信息进行共享,因此设计了DAU模块,其网络示意图如图4所示,该模块的通道注意力与空间注意力机制相互独立.

图4 DAU模块网络示意图[8]Fig.4 Schematic diagram of the DAU module network[8]

DAU模块对输入M首先采用卷积、ReLU激活、卷积操作得到输入双重注意力机制的特征.在空间注意力(Spatial Attention)网络中,对特征采用全局均值池化与全局最大值池化,之后再将池化后的特征拼接起来,经过卷积之后使用sigmoid激活,然后与输入空间注意力网络的原特征相乘,得到空间注意力映射特征图.而对于输入通道注意力(Channel Attention)的特征,首先采用全局均值池化,再进行卷积、ReLU激活、卷积、sigmoid激活,再与输入通道注意力机制之前的特征相乘,得到通道注意力映射特征图.将空间注意力映射特征图与通道注意力映射特征图拼接之后经过卷积,再与输入M相加,即可得到DAU最后的输出.

在DAU模块中,输入特征首先要经过卷积、激活、卷积操作,之后才会对其使用双重注意力机制,且通道注意力与空间注意力相互独立,这种操作破坏了空间信息与通道信息之间的联系,不利于特征信息的空间信息与通道信息共享.通道信息中也有空间信息,二者并不是相互独立的,因此本方法提出DWM(Depthwise Attention Module),在同一支干网络上使用通道注意力机制与空间注意力机制,共享张量中的空间和通道维度信息.本文提出的DWM网络示意图如图5所示.

图5 DWM示意图Fig.5 Schematic diagram of DWM

在DWM中,输入特征需要经过3个部分运算,分别是Depthwise(DW)卷积、最大池化、均值池化.DW卷积网络示意图如图6所示,DW卷积分为两部分,第1个部分是以卷积核为3的卷积,用来提取特征信息,第2部分为以卷积核为1卷积,用来对提取的特征张量进行维度匹配,卷积操作完成之后,都会进行BatchNorm和使用ReLU进行激活.在使用DW卷积的同时,本文也对输入特征使用GMP(Global Max Pooling)与GAP(Global Average Pooling)操作,提取原有特征中的主要信息,之后与DW卷积得到的特征相融合.之后融合特征首先被输入到通道注意网路中,生成通道注意特征映射图,通道注意特征映射图与原模块输入特征相加,输入空间注意网络,生成空间注意特征映射图.通过这种操作,通道注意力特征图与空间注意力特征图相互作用,特征信息与原有特征之间相乘进行自适应的特征修正,在特征输出之前,首先要对进行层归一化再与输入特征相加,产生最后的输出.通过上述设计,网络可以达到共享空间信息与通道信息,对DAU模块进行补充的目的.

图6 DW卷积网络结构图Fig.6 DW convolution network structure

2.3 多颜色空间神经修饰块

为了提升网络的健壮性,同时调整图像的全局属性,如颜色、饱和度和亮度等,本方法同时引入了Moran等人[3]提出的多颜色空间神经修饰块.将已经估计出的增强图像,依次对其再次处理,在Lab、RGB、HSV 3种颜色空间中进行联合训练,进一步增强图像的质量.Lab颜色空间具有感知均匀性,网络在该颜色空间中能够学习到更多的亮度信息以及色彩平衡信息.RGB颜色空间通过3个颜色通道的颜色强度来对不同颜色进行表示,在该颜色空间中学习,能够提升网络对颜色深度的敏感程度.HSV颜色空间能够更加直观地表达颜色的色调、鲜艳程度和明暗亮度,在该颜色空间中学习,网络能够学习到颜色的定位以及图像明度、饱和度等信息.

需要说明的是,本方法仅仅使用了Moran等人[3]提出的多颜色空间神经修饰模块,而没有使用他们提出的多颜色空间损失函数.本方法依然使用工作[11]提出的Charbonnier损失函数,因为使用Charbonnier损失函数作为网络的损失函数能够对一些异常值有更好的处理,同时也能够提升网络的收敛速度与鲁棒性.而采用其他的损失函数会造成生成的图像过于平滑,图像缺乏真实感,在感官上会给人造成一种不真实的感觉.损失函数如下所示:

(1)

3 实验仿真与测试

3.1 实验细节

本文采用端到端的训练方式,不需要对网络中任何模型进行预训练,在实验过程中,网络包含3个RPG模块,每个RPG模块包含2两个MRB模块,每个MRB模块包含64,128,256这3个维度的特征信息.训练过程中使用Adam优化器,初始学习率为0.00016,采用余弦退火策略来稳定的下降初始学习率,最小值设定为0.000001,总共对模型进行70次迭代.

3.2 实验细节

本文在MIT-Adobe FiveK数据集上验证了本文提出的方法,该数据集包含5000张用单反相机在不同光照条件下拍摄的各种室内和室外场景的图像.所有图像的色调属性由5名不同的训练有素的摄影师(被称为专家A~E)手动调整.与[3,4,8,9]一样,本文将专家C的增强图像视为真实值.此外,前4500张图像用于训练,后500张用于测试.训练中图像的分辨率大小为256×256.

3.3 评价指标

本文采用峰值信噪比PSNR、结构相似性SSIM、平均亮度AB和视觉信息保真度VIF来对本文提出的模型进行评价.

PSNR:峰值信噪比,图像处理领域常用评价标准,数值越大,图像失真越小.

SSIM:结构相似性,两幅图像相似度评价指标,分别从亮度、对比度和结构3方面度量,数值越大,两幅图像越相似.

AB:图像平均亮度,用来衡量图像的明亮程度.

VIF:视觉保真度,是一种结合自然图像统计模型、图像失真模型和人眼视觉系统模型的图像质量评估参数,数值越高,图像质量越好.

3.4 实验分析

在表1中,将以文献[8]的工作为基线所发展出来的方法用粗体标识.本方法在MIT-Adobe FiveK[12]所得到的结果如表1所示,最优的PSNR、SSIM、VIF结果使用粗体标出,其中测试所用的500张图片的真实情况平均亮度AB为128.141.

表1 在MIT-Adobe FiveK上实验数据表Table1 Experimental data on MIT-Adobe FiveK dataset

通过表 1 的实验结果可以看出,本文提出的方法在与其他以文献[8]为基线发展的方法对比时,在PSNR上取得了最好的结果.根据方法[8]开源的官方模型测试结果,实测出其SSIM为0.887,与文献中的0.925不一致.

图7显示了本文提出的方法与其他的方法在MIT-Adobe FiveK数据集上的可视化定性对比结果.在图7中,第1列图像为输入图像,第2列图像为真实图像,接下来分别是表1中方法CURL[3]、MIRNet[8]、MIRNet-V2[9]、MIRNet-Plus(本文方法)对输入图像的处理结果,局部放大图像位于图像右上角.从图7中的结果可以看出,CURL对暗光图像的增强效果与其他方法相比具有较大差距,增强效果远远弱于其他方法.本文提出的方法与MIRNet和MIRNet-V2相比,更接近原始真实图像,色彩更加自然、柔和.对第1张人像图像进行处理时,MIRNet与MIRNet-V2的图像存在对人脸过度增强的问题,与真实值相比,人脸肤色明显泛白;在对第2张车辆图像处理时,MIRNet在引擎盖上伪造出了并不存在的阴影,MIRNet-V2的图像颜色存在曝光现象,与真实图像颜色有着一定差异;在对第3张图像进行处理时,MIRNet对于椅子上存在的干扰并不能很好的处理,使得出现了大片阴影.

图7 在MIT-Adobe FiveK[12]数据集上的图像增强视觉效果对比Fig.7 Comparison of image enhancement visual effects on the MIT-Adobe FiveK[12]dataset

本文提出的MIRNet-Plus方法能够有效增强低光图像的显示效果,图像的亮度和噪声抑制方面都能得到有效提升,同时,本方法的可视化结果明显更加接近真实图像,显示更加清晰,图像纹理更加自然、柔和.

4 总 结

针对低光图像增强任务,本文在分析MIRNet方法以及相关衍生方法的缺陷基础上进一步提出了MIRNet Plus网络.MIRNet Plus通过采用Double SKFF、Depthwise Attention Module以及多颜色空间神经修饰模块,通过充分交换不同分辨率的特征信息,实现了更好低光图像增强效果.本文在MIT-Adobe FiveK数据集上与最近的其他突出算法进行了比较,实验结果表明本文提出的方法在PSNR和VIF上达到了更好的结果,明显优于其他的方法,同时,在直观上可视化比较实验中,MIRNet Plus也能够输出更加接近真实图像的结果,图像更加真实,这说明了MIRNet Plus的有效性.

猜你喜欢
空间信息图像增强卷积
结合多层特征及空间信息蒸馏的医学影像分割
基于3D-Winograd的快速卷积算法设计及FPGA实现
图像增强技术在超跨声叶栅纹影试验中的应用
水下视觉SLAM图像增强研究
虚拟内窥镜图像增强膝关节镜手术导航系统
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
基于图像增强的无人机侦察图像去雾方法
《地理空间信息》协办单位
一种基于卷积神经网络的性别识别方法