王德兴,黄梓阳,袁红春
(上海海洋大学信息学院,上海 201306)
海洋占据地球70%以上的表面积,包含着大量丰富的资源[1]。而水下生物图像作为重要的信息载体,可以协助人们提高海洋资源开采的效率。根据水下光学成像原理[2],在采集水下图片时,随着水深的增加,不同波长的光在水中的衰减是非线性的,水对红光吸收能力最强,一般在水深5 m左右时就会消失,而蓝光、绿光分别在30 m以及40 m处才逐渐消失。并且由于白色雾状团往往出现在浅水区,获取的水下生物图像不仅在色彩上存在偏蓝、偏绿的失真,还存在对比度低和细节模糊等问题。虽然专业的硬件设备[3-4]可以解决一些水下图像退化问题,但其成本高昂,无法大规模普及。于是使用图像处理技术恢复水下图像成为研究热点,该方法克服了硬件平台方法的高昂成本;同时,可为后续高阶视觉任务,如水下目标探测[5]、水下机器人作业[6]做了图像预处理,提高了这些高级视觉任务的性能。
目前主流的水下图像增强算法主要分为三类:基于非物理模型、基于物理模型和基于深度学习的方法。基于非物理模型的方法主要通过调整水下图像的像素值来改善其视觉质量,如直方图均衡[7](HE),对比度受限自适应直方图均衡[8](CLAHE)。相较于单色的RGB模型,Ancuti等[9]与Ma等[10]融合多种色彩模型,提高水下图像的对比度。Huang[11]提出了相对全局直方图拉伸(RGHS),进行线性自适应拉伸优化,避免增强出过饱和的区域。但是这些方法忽略了水下成像原理,会引起其他色偏噪声等问题。而基于物理模型的方法利用不同的先验知识快速估计出原始图像的背景光(Back Light)和深度图(Transmission Map)实现水下图像有效的复原,其中包括暗通道先验(DCP)[12],水下暗通道先验UDCP[13]红色通道先验(RCP)[14],水下光光衰减先验(ULAP)[15]。但是当先验知识不适用时,图像恢复的效果会变差,泛化性不高。
在过去的几年里,随着人工智能在水下图像增强的广泛运用。Du等[16]利用多尺度模块的特征提取能力,实现水下图像的实时感知增强。Li等[17]提出水网 (Water-Net),把经过WB(白平衡),HE(直方图均衡),GC(伽马校正)的三幅图像作为模型的输入。Li等[18]将不同色彩空间的特征整合提出了U-color方法。除了上述的卷积神经网络(CNN)的思想,Sun等[19]首次提出Pixel2Pixel生成对抗网络进行水下图像增强。而循环对抗网络Cycle-GAN[20]在网络结构和循环损失上提供了一种新的思路。Fabbri等[21]提出了水下生成对抗性网络(UGAN)并利用Cycle-GAN训练生成配对的数据集。UWGAN[22]利用UGAN训练配对的数据集,在生成器中添加多尺度特征提取模块,增强图像质量。Islam等[23]使用5个编码解码器与残差连接构建模型FUnIE-GAN。Naik等[24]提出Shallow-Uwnet使用了最少的模型参数获得了与当时最优模型相当的性能。Huang等[25]提出一个基于半监督mean-teacher网络模型,将未标记的数据纳入网络训练,解决了水下图像增强领域缺少真实的配对的数据集等问题。Peng等[26]利用U形状结构的Transformer模型有效的消除水下图像的伪影和色偏,并发布了包含4 279个图像对的大规模水下数据集LSUI,有利于水下图像领域的进一步发展。然而,目前的基于深度学习的模型通常具有大量的参数和复杂的结构,难以在低配置设备部署,若追求模型的轻量化,往往达不到很好的增强效果。
针对上述方法的局限性,提出了一种轻量级神经网络模型,其中包含2个结构。设计了一个色温调整模块,通过两种池化方法对特征图的全局空间信息进行压缩并与Ghost卷积模块融合更好的提取图片特征。设计了一个多色彩模型校正结构,通过动态卷积模块对色彩的拉伸,将RGB颜色模型分别转换为HSI和LAB色彩模型进行动态自适应调整。最后进行图像融合,进一步增加水下生物图像对比度并去除色偏。
轻量级神经网络的总体架构如图1所示。
图1 网络总体架构Fig.1 Overall network architecture
该神经网络由色温调整模块和动态卷积多色校正模型两部分组成。原始图像将被压缩成256×256的尺寸大小。该图像经过2个模块对原始图像进行增强。2个模块分别基于图像的最大像素值和平均像素值为基准进行调整。在得到初步增强的两幅图像后,为了不增加网络复杂度,利用Ghost卷积模块将两部分特征图进行融合。为了更好地提取图片特征,残差增强模块采用基于Ghost卷积构成以加强模型的非线性能力。将合并的特征图结果馈送到动态卷积多色校正模块,在该模块中,首先将合并的特征图分别转换到HSI和LAB的色彩空间上,在每个色彩空间中通过动态卷积模块对图像进一步进行拉伸增强。其次,在动态卷积拉伸模块中动态融合不同阶段的特征,从而帮助模型更好地进行图像增强,最后将图像全部转为RGB色彩空间,同样利用基于Ghost的残差增强模块进行图片融合。该模型利用Ghost色温调整在保证图像增强的同时使模型具备轻量化的结构,使用动态卷积核和多色彩空间的融合能实现对输入图像的自适应力更全面地对图像进行校正,缓解模型对不同阶段特征的提取,有效地提高水下生物图像增强模型的表征能力。
1.2.1 全局平均池化和全局最大池化模块
水下的生物图像色温往往是不平衡的,由于不同波长的光在水中以不同的速率衰减,可见光中的红色光随着水深增加首先会被吸收,因为其具有最长的波长或最小的能量,一般来说在3~4 m的深度就开始消失,到达10 m会完全消失。蓝色和绿色波长较短,穿透能力不如红色,在水中也易扩散分散,正是因为水对光的吸收特性导致水下生物图像呈现蓝色或者绿色的色偏。所以首先对初始图像进行色温平衡校正,色温调整模块主要由全局平均池化和全局最大池化两个模块构成,能对图像进行初步的平衡。其具体结构如图2所示。图中AVG表示全局平均池化,GMP表示全局最大池化,两种池化方法与Ghost卷积进行相除形成线性组合,可以减少输入图像的无用的特征权重,强化模型对关键特征的关注度。
图2 全局平均池化和全局最大池化模块Fig.2 Global average pooling and global max pooling modules
该结构通过对图片的全局特征信息进行全局最大池化和平均池化操作,得到通道描述符,用于实现整体和局部的非线性特征,进而对图片的色温进行调整以提高对比度。这一步骤旨在满足灰色世界理论和白色补丁假设,而两者都是基于Von Kries假设。该假设[27]是一种应用于色彩适应的方法,该理论说明自动白平衡AWB使用对角矩阵就能进行色彩矫正。具体来说,该方法需要一个将增益独立地应用于每个锥体响应,以保持参考白色的适应外观恒定。其将眼球中3个视锥响应分别表示为L、M、S,将视锥的光谱灵敏度表示为l(λ),m(λ)和s(λ)。对于入射到视网膜上的任何给定刺激ir(λ)假定圆锥响应如公式(1)所示。
(1)
(2)
式中:k表示独立应用三个锥体的比例因子。
Von Kries假设虽然是在LMS锥函数空间来表示原始光源和新光源之间的适应性关系,在图像增强中,根据比色法定义可以扩展到其他三色颜色通道中使用,来调整色温平衡。在水下图像中,使用LMS基本原理能够将基于RGB色彩通道的图像与真实图像之间形成对应关系。但为了更进一步使得图像在水下不同光照的条件下,根据图像中的光谱分布自适应地调整图像的色彩平衡,考虑每一个颜色通道之间的校正关系,修改不同颜色通道的增益以获得更准确的颜色表现。利用神经网络的CNN的卷积思想Von Kries假设可以被写作公式(3):
I′=Conv1×1(I)
(3)
式中:I表示原始水下生物图像的像素,I′表示真实的图像像素,通过卷积操作可以更好地映射颜色之间的关联。相对于传统卷积而言,为了获得全面的特征提取能力,需要增加大量的卷积核数量和通道数,这会带来冗余和高计算量的问题。即使是使用1×1的卷积核,也难以避免冗余的情况。为了解决这些问题,可以使用Ghost卷积[28]这一轻量级的卷积模块。Ghost卷积通过仅运用少量的卷积核生成部分特征图,然后使用线性变换代替生成相似特征图的过程,从而在保证一定性能的前提下尽量减少计算量和参数量。因此,Ghost卷积可用于取代传统卷积层中的1×1卷积核。由于生成中间图的过程中会产生相似的特征图,Ghost卷积会将传统卷积分为两部分。首先,利用小卷积生成部分的特征图,以减少冗余。通过第二部分的分组卷积操作可以得到总特征图当中的一部分输出特征图,最后通过Identity恒等映射将前两部分得到的特征图进行相加。这样可以显著减少计算量和参数量。Ghost卷积与传统卷积的对比如图3所示。
图3 传统卷积和Ghost卷积的对比Fig.3 Comparison of ordinary convolution and Ghost convolution
Ghost卷积具有一个恒等映射。假设输出特征图数量为n,输入特征图的大小为h·w·c,输出特征图大小为h′·w′·n,卷积核大小为k·k可以推理出Ghost模块和标准卷积得到相同数量的特征图的理论加速比为公式(4):
(4)
式中:s表示线性运算的数量,每个线性运算核的平均内核大小为d×d。
普通卷积的计算量约为Ghost卷积的s倍,同样参数量的计算也约为s倍,这充分展示了Ghost卷积在计算量方面的优势。综上所述,利用Ghost卷积代替传统的1×1卷积可以加速模型的收敛速度和效率,同时又能保证对水下生物图像色温的校正。可以将公式(3)的校正关系可以进一步写作公式(5):
I′=GhostConv1×1(I)
(5)
使用Ghost卷积可以减少特征图的冗余,从而加快模型的收敛速度。为了进一步学习水下生物图像和真实图像之间的联系,受白色补丁算法的启发,在Ghost卷积的基础上引入特征图的像素最大值,以更好地恢复图像。白色补丁算法是一种基于图像全局亮度的增强方法,其核心思想是找到图像中亮度最高的区域,将该区域的像素值作为参考值,然后对整个图像进行线性变换,来调整图像的亮度和对比度。经过白色补丁算法处理后,图像变得相对更亮,能有效提高图片亮度。利用该思想相当于对Von Kries模型中的比例因子k进行优化,其优化后的结果如公式(6)所示:
GMPa=maxIa(x),a∈{R,G,B}
(6)
(7)
受到公式(6)启发,在公式(5)中添加GMP作为原始图片中像素中最大的值,意图在色温不平衡的区域中给予图像最大响应规范的白色刺激。实际模型中是通过对图像的高频部分进行全局最大池化操作,增强图像的纹理和边缘信息,让模型更加关注感兴趣的区域,取感兴趣区域内的最大值作为输出得到Igmp,利用全局最大池化思想,进一步将公式(5)的校正关系写作公式(8):
(8)
(9)
同理,受灰色世界理论的启发,灰色世界是一种基于图像全局颜色平衡的增强方法,其核心思想是假设图像中所有颜色的平均值相等,即整个图像的颜色是灰色的。通过对图像中的每个像素进行色彩平衡调整,使其颜色变得更加自然和准确。引入AVG作为原始图片中像素中平均的像素值,对Von Kries模型中的比例因子k进行优化,其优化后的结果如公式(10)所示:
(10)
(11)
受公式(10)的启发,在公式(5)中添加AVG作为每一种颜色通道的像素均值,通过调整图像中暗部和亮度的平均值让水下生物图像的色温变的平衡。实际模型中,使用全局平均池化思想计算特征图每个通道的平均值,并将其作为图像的灰度值。通过训练图像的局部对比度和细节信息,可以得到最终的输出特征图Iavg。全局平均池化是将感兴趣的区域进行平均值操作,进一步将公式(5)的校正关系写作公式(12):
(12)
(13)
最后将经过AVG和GMP的输出特征图与残差模块进行连接,将输出的两幅特征图通过3×3的Ghost卷积合并在一起得到经过最终校正的色温调整图。
1.2.2 残差模块
为了解决模型中梯度消失和爆炸而导致的模型无法继续优化,同时为了学习从X(失真图像)到期望Y(增强图像)的映射关系,便于更好加强水下生物图像与真实图像之间的联系,加强模型的性能,在GMP和AVG模块上引入残差增强模块。如图4所示。
图4 残差模块示意图Fig 4 Picture of Residual module
图中X为输入的特征图,Y为输出的特征图,其对应关系为公式(14):
Y=Tanh(GhostConv(X))
(14)
引入残差模块能进一步提升收敛速度,该结构由Tanh激活函数和3×3的Ghost卷积层实现的,旨在增加相邻像素之间的联系。3×3的Ghost卷积在轻量化的同时增加了模型的非线性度,提高模型拟合能力。Tanh激活函数可以将任意实数映射在-1到1之间,使神经元输出更加稳定。与具有相同值域的Sigmod激活函数相比,Tanh激活函数对输入信号的响应曲线更陡峭,使得它对特征图微小的变化更敏感,从而在一定程度上提高了模型的表达能力。
由于不同水深光的吸收程度不同,与真实图像对比之下,水下生物图像会产生蓝色绿色等不同的色偏,图像通常是由RGB色彩空间中存储和显示的。由于RGB三个分量高度相关,容易受到亮度、遮挡、阴影等因素变化的影响。相比之下,HSI色彩空间直观地反映了图像的色调、饱和度、亮度和对比度。LAB色彩空间使颜色分布更好,能够表达人眼可以感知的所有颜色。在动态卷积多色校正模块中,将经过色温调整的特征图分别转换到HSI路径,RGB路径和LAB路径,在每条路径中输入的特征图将经过动态卷积拉伸模块进行调整。动态拉伸模块如图5所示。
图5 动态卷积拉伸模块示意图Fig.5 Picture of dynamic convolution and stretching module
该公式设计的原理是有直方图拉伸演变而来,直方图拉伸常用于改善图像的对比度。直方图拉伸的目的是通过线性伸缩直方图的像素值范围,使得像素值分布更加均匀,从而增强图像的对比度。直方图拉伸将图像的像素值通过以下的数学变换映射到新的像素值范围中如公式(15)所示:
(15)
该方法的优点在于简单易实现,能够有效地增强图像的对比度。缺点是它可能会导致一些像素值被拉伸到极端值,从而失去细节。omax和omin的定义必须经过人工设置。为了增强图像的对比度,可以将omax设置为1,omin设置为0。但是缺点是可能无法实现最佳的效果。为了解决这一问题,受到Lin等[29]的启发,利用注意力机制对输入的图片进行Global Max Pooling操作,GMP是对全局求最大,只去找图片中像素分数最高的那个区域。而去忽略其他分数低的区域,在单个色彩空间中的特征图可以由经过公式(16)的转换,在不失去特征图细节的同时增强图像对比度:
(16)
为了更好地适应图像中不同的特征,在公式(3)中加入动态卷积[30]以便对后续的网络进行训练。校正关系可以进一步写出公式(17):
(17)
式中:Id表示 RGB 色彩空间中的直方图拉伸像素值。动态卷积利用了注意力机制,结合预先初始化好的卷积参数,可以实现动态变更,从而降低重复率。使用动态卷积可以提升卷积核生成的计算量而不是添加更多卷积或更多通道数来提升模型的精度。其结构如图6所示。
图6 动态卷积原理示意图Fig 6 Picture of dynamic convolution Principle
动态卷积的逻辑结构中包含一个attention模块控制每一个分卷积的权重,这里的Conv1和Conv2表示的是卷积层里的核大小k,把每一个k乘对应的权重πk,使用k个加和的权重对输入的特征图进行卷积操作得到最后的输出结果。由于动态卷积是根据关注度动态聚合多个平行卷积核,这些卷积核尺寸小,组合多个卷积核不仅计算效率高,而且由于这些内核通过注意力以非线性方式聚合,因此具有更强的表示能力。
同样的,将输出特征图与残差模块相结合,最后通过3×3的Ghost卷积将RGB路径的特征与HSI, LAB路径的相应特征紧密连接后形成最终的输出图像,可以更好地提升水下生物图像的对比度。
(18)
(19)
(20)
最终的组合损耗是MAE损耗、SSIM损耗和VGG感知损耗的线性组合,公式(21)如下:
Lfinal=LMAE+λ1LSSIM+λ2LVGG
(21)
式中:λ1和λ2根据经验分别设置为 0.25 和 1,以平衡不同损失的规模。
在深度学习模型训练中,数据集的数量和质量将对模型性能产生一定的影响,由Islam等[23]提出的EUVP数据集包含单独的成对和未成对图像样本集,EUVP数据集包含了大量的成对和未成对水下图像,这些图像虽然感知质量较差,但展现了良好的效果。该数据集使用了7种不同的相机,并在多个地点以及不同能见度下进行了采集。这些图像经过人工挑选,以适应数据中的各种自然变化。其中未配对的数据是由6个参与者进行目视检查后分开准备的,以支持对水下图像质量的人类感知偏好进行建模。同时,配对数据则是基于CycleGAN模型进行训练,以学习质量好和质量差的图像之间的域转换。EUVP数据集中共有超过12 000对配对实例和8 000个未配对实例。该数据集的重点在于促进感知图像增强,以增强机器人对场景的理解。本训练集采用了EUVP数据集中2 185张训练对进行训练,测试集方面采用EUVP数据集中已配对的515张包含了水下场景图像作为测试集A以及在3 700张水下生物图像随机挑选的90张图像作为测试集B。以求还原水下机器人拍摄的真实的水下图像拍摄环境。
本模型在ubuntu系统,CPU为AMD5950X,运行内存64GB,图形计算卡为NVIDIA GeForce RTX3090(24GB)的计算机上训练,使用PyTorch深度学习框架。训练时,批处理大小为 8,所有输入图像像素缩放为 256×256 像素,使用 Adam优化器对模型进行训练,设置初始学习率设置为0.01,训练轮数 epoch 为 100,在每个epoch之后,学习率会按照当前数值的5%进行递减,使训练过程更加稳定。
为了评估模型增强后的图像结果,本研究采用峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标。PSNR是基于图像的均方误差(Mean Squared Error,MSE)计算的,可以量化地描述图像重建的精确度,而SSIM是一种用于衡量增强后图像与参考图像相似度的指标,它考虑了图像的亮度、对比度和结构信息,更接近于人类视觉系统的感知特性,因此可以更好地反映图像的视觉质量。PSNR指标越大意味着输出图像和标签图像的内容更接近,而较高的SSIM分数意味着两个图像在结构上更相似。这两种评价指标从不同的角度评价图像质量,具有一定的互补性。既能全面地评估水下图像的质量,也便于与其他方法进行比较。此外,为了衡量本模型的复杂度,对于基于深度学习的模型,采用参数(Parameters)和浮点运算数(Floating point operations,FLOPs)两种指标。Parameters用来形容模型大小程度,模型中包含的参数的总数量越多说明模型越大,单位为M(10的6次方)。FLOPs也是理论计算量,用于衡量算法的运算速度,该值越小说明模型的运算速度越快,单位为G(109)。这两个指标分别从模型大小和计算效率的角度提供了对深度学习模型复杂度评估,通过综合考虑这两个指标,可以更全面地了解和对比不同模型的复杂度。
为了评估本研究提出方法的有效性并体现轻量化的特点,将本模型与现有的水下图像增强方法做对比分析,其中对比方法包括非物理模型的方法 (CLAHE[8]、HE[7]、RayleighDistribution[33]、UCM[34]、ICM[35]、RGHS[11])基于物理模型的典型方法(DCP[12]、UDCP[13]、IBLA[36]、ULAP[15]、MIP[37]) 基于深度学习的方法(Water-Net[17]、Shallow-Uwnet[24])。其中,直方图均衡HE,对比度受限自适应直方图均衡CLANE是典型的对比度增强方法,可改善低光图像的对比度。这两种方法采用单一颜色模型,能够与本研究模型的多色校正模块参照对比。RGHS使用了RGB和LAB两种颜色模型进行全局直方图拉伸,且同样采用灰色世界理论预处理图像与本模型的色温调整模块有相似处。ICM是基于集成颜色的模型,将水下图像里衰减最严重的蓝色和绿色通道进行拉伸,最后在转变成HSI颜色模型。UCM与本模型更接近,同样是基于Von Kries假设的选择性直方图拉伸色彩校正的方法。Rayleigh Distribution是利用Rayleigh函数结合ICM和UCM的变化对输入图像重新分布,提高对比度的方法。这4种方法都属于多种颜色模型,更加贴近人类视觉,能有效增加图像颜色的自然表现并增加图片亮度,减少过度增强和过饱和区域的引入。在此之上,与其对比能够突显出动态卷积模块自适应校正的优势。从水下光吸收的特性考虑,DCP、UDCP、MIP、ULAP、IBLA这5种模型分别基于暗通道先验、水下暗通道先验、最大强度先验、水下光衰减先验、模糊与光吸收先验的物理模型进行水下图像恢复。通过不同先验知识推导构建模型的关键参数,通过保留补偿恢复图像。这些方法通过水下成像机制,对于衰减的蓝绿色光有更好的校正效果,与这些方法比较旨在展示本模型的色彩恢复上的效果。与本模型相比,Water-Net网络模型同样采用了卷积神经网络并将图像的白平衡,直方图均衡,伽马校正与原始图像一起融合作为模型的特征输入,所以该模型的水下图像增强性优于大部分现有水下图像处理方法,能够很好地恢复色偏和图像细节。最后为了体现本模型在轻量化的同时仍具有较优的水下图像增强效果,与同样在使用较少参数条件下取得与当时最优效果的Shallow-Uwnet进行比较。这些方法在水下图像增强和恢复领域具有一定的代表性,并涵盖了多种技术特点和思路,与这些方法对比旨在展示本轻量化模型能够有效地复并修正图像的色偏与对比度。
图7为含有参考图像的测试集定性分析对比图,从图中可以看出,第一列图片显示了具有偏色、低对比度、模糊和噪声的水下退化图像,第二列到第七列展示了6种非物理模型的增强水下图像后的效果图,最后一列GT表示的是提供的高质量的参考图像。对比本研究提出的方法即倒数第二列图片(Ours),一方面能够解决水下图像色偏问题,整体色调更加接近提供的参考图像。另一方面整体保持颜色丰富,增强了对比度和亮度,色彩自然丰富,进一步提升了图像视觉感知,使得更接近于真实的参考图像。
图7 基于非物理模型方法在测试集A上的定性对比Fig 7 Qualitative comparison of methods based on non-physical models on the test setA
对图中各个方法进行主观分析可以得出,CLANE方法在处理图像色彩还原上饱和度较高色彩还原不真实,对于处理绿色色偏效果不理想,经过HE方法处理后的图片无法准确还原真实色彩图像,对于图像局部有亮度提升,在边缘细节上存在一定偏色。Rayleigh方法在图片上表现泛白,对于局部的颜色表现饱和度过高没有充分还原绿色色偏。UCM方法也存在相同的问题,对于深色图片退化表现较好,在视觉表现方面图像内容泛红,有些许失真。ICM在处理绿色图像时表现不错,但是对于浅色水下图像时,存在一定的泛白对深蓝色图像还原的也不够精准。RGHS方法增强效果还可以,但是视觉效果上还原的效果与真实图像还存在一定差异。在处理深蓝色图像的效果并不理想。对比其余的方法,本方法在对偏绿偏蓝的图像校正都有很好的视觉效果呈现,与参考图像效果最为接近,图像对比度较高,色彩较为准确。
同样图8为含有参考图像的测试集定性分析对比图,第二列到第六列展示了5种物理模型的增强水下图像后的效果图,最后一列提供的高质量的参考图像。
图8 基于物理模型方法在测试集A上的定性对比Fig.8 Qualitativecomparison of physics-based model methods on the test setA
可以很直观地看出本模型与参考图像无论是色温还是色彩对比度都最为接近。DCP的方法对色彩的校正很轻微,只有个别区域的色彩饱和度提升,UDCP不仅没消除应有的绿色蓝色色偏,图像反而变得更深效果很不理想。IBLA方法在个别图像上效果有提升,带来了更好的亮度和清晰度但是第一张图片产生了明显的偏色,绿色的背景增强后变成了亮蓝色。ULAP方法虽然在某些图片上消除了一定的绿色色偏,但是对于绿色背景的暗处细节表现很差,原图的细节已经丧失,MIP的方法在4副水下图像上都呈现出深绿色对图像的校正效果不好。从主观上看,本模型对绿色蓝色的色偏消除的很好,对色彩还原的很精准,没有加重或过多曝光图像的其他通道颜色产生明显色偏,与参考图像相比较下本文提出的方法在还原水下图像方面有很不错的效果。
为了更好地客观地评估各种方法的效果,表1展示了上述11种方法在515张图片上的平均指标值。
表1 传统方法在测试集A上指标值Tab.1 The index value of the traditional method on the test set A
表2 深度学习方法在测试集B上指标值Tab.2 The index value of the deep learning method on the test set B
对于有参考图像的测试集对比下,本模型在PSNR和SSIM的指标上都得到了最高的值,与非物理模型和基于物理模型的方法相比,本模型在对水下图像进行定量分析时取得了最好的效果,能够准确还原真实水下图像的色彩。
为了体现本模型在其他不同水下数据集上的适应能力,使用测试集B与深度学习方法Water-Net和Shallow-Uwnet进行了对比分析。Water-Net能自动学习水下图像特征并适应各种环境,在测试集B上的表现优于大多数现有的深度学习方法。但是,该方法具有较大的模型参数量。Shallow-Uwnet是一种轻量级的水下图像增强模型,适用于计算资源受限的场景。尽管其模型较简单,但它仍然具备自动学习和提取水下图像特征的能力,从而实现较为满意的图像增强效果,是一种在保持性能表现的同时,具有较高计算效率的水下图像增强方法。
图9是基于深度学习方法在测试集上的对比图,对图9进行主观分析可以看出,Water-Net对于蓝色绿色的消除有较好的效果,但是由于该方法是多幅图像融合的模型,第一幅图出现了重影,对第三幅鱼的图片出现了偏粉,在一些暗部细节表现不好。Shallow-Uwnet和本方法都有不错的效果校正,尽管对于第三幅的颜色还原不够准确,但是都能有效消除色偏,提升图片的局部亮度,细节清楚。
图9 基于深度学习方法在测试集B上的定性对比Fig.9 Quantitative comparison of deep learning methods on the test set B
同样也对基于深度学习的方法进行了定性分析比较,虽然本文方法在PSNR指标上不是最优的但是在SSIM指标上达到了最优的结果。
除了增强结果的质量,对于基于深度学习的模型,GFLOPs 和参数量也是重要的评估指标,通过这两个评价指标能准确反映出深度学习网络模型的复杂度。如表3所示,可以看出本模型采用最少的参数量和 GFLOP。与Water-Net对比本模型在参数量上比其少了106个参数,而Shallow-Uwnet作为很轻量化的深度学习模型,本研究模型在参数量上也比其少了105个参数。同时,本研究模型在GFLOPs参数上仅为Shallow-Uwnet方法的0.27%,是Water-Net方法的0.04%。说明了本算法得到的模型在参数量方面更小的同时,运算速度有一定的提升,满足在低配置设备部署的要求。
表3 模型的GFLOPs和参数量Tab.3 the model GFLOPS and parameters
2.5.1 色温调整模块
为了验证本研究设置的色温调整模块对本模型的性能影响,将含有完整色温调整模块的模型、只含有全局最大池化模块的模型、只含有全局平均池化模块的模型、完全不含有全局最大池化和平均模块的模型以及去除Ghost卷积的模型分别进行消融试验以证明本模型对水下图像增强的有效性。首先,分别在同样的条件下训练4个模型,然后在相同测试集进行指标定量分析,得到的结果如表4。色温调整模块的消融试验对比如图10所示。
表4 色温调整模块的消融试验Tab.4 Ablation test of color temperature adjustment module
图10 色温调整模块的消融试验对比图Fig.10 Comparison chart of ablation test of color temperature adjustment module
完整模型的增强图像具有最好的PSNR和SSIM指标,说明增强后的图像最接近真实图像。进一步分析消融试验结果,通过图10可以发现完整模块的输出图片在色彩最鲜艳与参考图像最为接近,部分不含与全都不含的模块在色彩表现上与参考图像上都存在一些差距。缺少GMP或者AVG模块在个别图像中出现了明显的偏色,图片的对比度比较低。在不包含Ghost卷积模块的模型上与完整模型仍存在一点差距,与真实图片相比,完整模型在图片细节上的表现更加鲜艳,对比度更高。但是个别图像与真实图片存在一定的色差。通过色温调整模块的消融试验表明,含有Ghost卷积和AVG,GMP两个模块的完整模型最能恢复并增强图像的颜色表现。
2.5.2 动态卷积多色校正模块
为了验证本研究设置的动态卷积多色校正模块对本模型的性能影响,将含完整动态卷积多色校正模块的模型,不含有HSI颜色通道的模型,不含有LAB颜色通道的模型,不含有HSI和LAB颜色通道的模型以及不含有动态卷积的普通卷积模型分别进行消融试验以证明本文提出的模块对水下图像增强的有效性。首先,分别在同样的条件下训练4个模型,在相同测试集进行指标定量分析,得到的结果如表5。
表5 动态卷积模块的消融试验Tab.5 Ablation experiment of dynamic convolution module
从表5的试验结果可以分析出,含有动态卷积和3种颜色空间的完整模型在PSNR和SSIM指标上达到了最好的效果,说明完整模型增强后的图像效果最好。
通过观察图11可以发现完整模型通过动态卷积自适应地从3个色彩空间增强图像,有效地恢复图像的自然色彩,与参考图像最为接近。全都不含HSI和LAB的图像在蓝绿色通道上能进行有效的校正但是出现了较明显的黄色色偏,分析表中数据,缺失LAB和HSI的单颜色通道的模型效果最差。
图11 动态卷积多色校正模块的消融试验对比图Fig 11 Comparison chart of ablation test of dynamic convolution multi-color correction module
虽然不含LAB和不含HSI的模型在指标上数值接近,但是观察图中可以发现,不含HSI的图像存在明显的绿色色偏,不含LAB的图像色温偏冷。不含动态卷积的图像在局部存在黄色色偏与参考图像存在一些差距。根据动态卷积多色校正模块消融试验表明,含有动态卷积的完整多彩校正模块具有最好的色彩饱和度和亮度,能够最有效地恢复增强图像色彩。
针对水下生物图像存在的色偏和对比度低等问题,本研究提出了一种端到端的轻量级神经网络模型,通过在色温调整模块中以非线性的方式,将两种全局池化方法与Ghost卷积组合,补偿了图像像素的色彩失真,有效减少了输入图像的冗余特征,降低了模型的复杂度。并且利用动态卷积自适应地调整网络参数,将多色模型各自的优势对色彩进行拉伸校正,进一步减少色偏,增强了对比度。本模型主要通过在对像素值直接调整从而进行水下图像色彩的还原,所以本模型仅占用41 KB大小的存储空间,有利于水下机器人的部署。在具有各种水下场景和水下生物图像的数据集EUVP上进行测试,本轻量化模型在PSNR和SSIM指标上分别达到了24.298和0.891,表现均优于基于非物理和物理模型的对比方法。对于Shallow-Uwnet和Water-Net两种深度学习模型,本模型的计算量仅各占两者的0.27%和0.04%,同时在参数量上分别少了105和106的情况下,经本模型增强后的图像在SSIM指标上分别比它们各提高了3.77%和6.72%。研究表明,本模型能在大幅度降低模型的参数量和复杂度的同时,保证水下生物图像的增强质量,具有一定的实用价值,未来可进一步优化模型的性能和适用范围,以更好地解决水下生物图像复原中的挑战。