基于融合逆透射率图的水下图像增强算法

2023-05-16 11:06:44张剑钊郭继昌汪昱东

浙江大学学报(工学版) 2023年5期

张剑钊，郭继昌，汪昱东

(天津大学电气自动化与信息工程学院，天津 300072)

水下可见光图像是获取海洋信息的重要来源之一，目前已经广泛应用于海洋能源开发、海洋环境保护、水下生物多样性检测和海洋军事等多个领域.由于水下悬浮颗粒、活性有机物引起的散射以及光子能量随水下传播距离呈指数型衰减等原因，导致水下图像颜色失真并主要呈现蓝绿色，还伴随着细节模糊、清晰度差、对比度低、噪声明显、亮度较低等问题，这严重降低了水下图像质量，对后续相关的科学研究和实际应用带来极大挑战，因此以提升图像质量为目的的水下图像增强算法有着重要的价值和意义.

水下图像增强可以分为传统的方法和基于深度学习的方法2类.传统方法在一定程度上能够提高水下图像质量，但是鲁棒性较差，不能得到稳定可靠的结果.例如，Iqbal等[1-3]提出的方法能够提升水下图像的视觉质量，却会出现不同程度的失真； Drews等[4]提出一种基于水下暗通道先验的方法，该方法对不同水下场景的适应能力较差；Li等[5-6]提出一种基于最小化信息损失和直方图先验分布的水下图像增强方法，该方法对于低亮度的水下图像处理效果不佳；Akkaynak等[7]提出修正的水下光学成像模型，之后又改进该模型，引入RGB-D图像有效地去除水下图像的蓝绿色偏差问题[8]，但是RGB-D水下图像数据集较难获取，该方法较难迁移到其他的水下场景中.

随着深度学习的发展，卷积神经网络能够自适应地调整卷积核的参数，学习原始水下图像和增强图像之间的非线性映射关系，从而更可靠地处理各种复杂的水下场景.Li等[9]通过生成对抗网络将RGB-D图像合成为水下图像，并利用合成的水下图像训练神经网络；FABBRI等[10]通过循环生成对抗网络生成了成对的水下图像数据集用于训练；Li等[11-12]提出的UWCNN模型，针对不同的水下图像类型训练不同的神经网络模型；Li等[13]通过融合白平衡（white balance, WB）[14]、直方图均衡化[15]（histogram equalization, HE）和伽马校正（gamma correction，GC）3种传统方法来进行水下图像增强，WB能够校正水下图像的色偏，而HE和GC则提高水下图像的对比度和亮度.Wang等[16]提出UIEC^2-Net，结合RGB、HSV空间以及注意力模块对水下图像进行增强；Li等[17]提出基于多颜色空间的Ucolor网络，并在网络中引入逆透射率（reverse medium transmission，RMT）图像，将其作为权重信息用来引导水下RGB图像增强.这些方法可以在一定程度上提高水下图像的视觉质量，但是单纯依靠神经网络学习参数再通过非线性映射得到增强图像的方式，在复杂的水下成像环境中很难有效地学习到水下光学成像的特点及规律，导致结果缺乏可靠性，因此解决不同场景中水下图像的质量退化问题仍然具有挑战性.

为了有效提高水下图像的视觉质量，本研究提出一种端到端的基于融合逆透射率图的水下图像增强网络（underwater image enhancement network via fusing reverse medium transmission map, URMTNet）.URMT-Net从跨模态跨尺度信息融合的新角度来构建网络，令传统水下图像增强方法和基于深度学习的方法实现优势互补，使得卷积神经网络能够更好地学习到水下光学成像的特点.将RGB图像和RMT图像作为输入，以双流编解码器结构作为基础框架，设计跨模态特征融合模块，融合多尺度的RMT信息和RGB信息.通过特征增强模块和残差解码模块，在解码器网络中引导RGB流的解码，减少信息损失，丰富特征的表达能力.URMT-Net由粗到细地逐级进行特征处理，最终输出增强后的RGB图像.实验结果表明，URMT-Net能够有效提升图像的视觉质量.

1 相关理论

1.1 水下光学成像模型

目前在水下光学成像中，应用最为广泛的模型为扩展的大气散射模型[18]：

式中：c为RGB三通道；x为像素点对应的坐标位置；Ic(x) 为相机拍摄到的原始水下图像；Jc(x)为清晰真实的图像；Ac为背景光；(x)∈[0,1]为媒介透射率，表示场景辐射光未被散射到达相机的百分比.

1.2 逆透射率图

式（1）中的媒介透射率可以使用文献[19]的方法获得较精确的结果：

式中：Ω (x) 为以x为中心点15×15大小的局部区域.用T(x)表示RMT图像得

式中：T(x)∈[0,1].

RMT图像能够反映出水下光学成像物理规律，其像素点的数值越高，对应位置的RGB图像退化越严重，也就需要更大的权重进行增强处理.以RMT图像引导RGB图像增强，能够区分不同区域的重要程度，从而进行不同程度的自适应增强.

2 网络结构

由于水下成像环境的复杂性，导致只采用一种增强方法难以有所突破，URMT-Net将传统的水下图像增强方法融入卷积神经网络中，以数据驱动的方式整合传统方法和基于深度学习方法的优势，提升水下图像质量，URMT-Net的结构示意图如图1所示.该网络以双流卷积神经网络为基础架构，将RGB图像和基于式（3）获得的RMT图像分别输入2个独立的编码器中进行特征提取，取后3层的RGB特征和RMT特征通过跨模态特征融合模块生成融合特征，并自适应的筛选标志性特征.之后在特征增强模块中引导RGB流的解码，增强特征对水下图像质量退化区域的感知能力.URMT-Net由粗到细的实现逐级编解码过程，在得到2倍下采样的特征图D2之后，逐步开始降维和压缩特征，最后通过sigmoid激活函数输出得到像素值为0～1.0的增强图像，之后将像素值恢复到0～255.

在图1中，Rn、Tn、Mn、Dn分别为经过n倍下采样的编码器部分的RGB特征、RMT特征、两者的融合特征以及解码器部分的RGB特征.残差解码模块通过残差连接，以特征复用的方式利用Rn对Dn进行修正和补充，进一步抑制冗余特征，丰富细节信息.C为通道数，未标注的地方如无特殊说明，默认为64通道，在保证精度的同时，减少计算量；使用的参数值为0.25的Leaky ReLU激活函数，以减少信息损失.在D2到最后的输出之间，为了去除冗余信息，卷积层后改用和3个模块中一样的ReLU激活函数.

图1 基于融合逆透射率图的水下图像增强网络结构示意图Fig.1 Architecture of underwater image enhancement network via fusing reverse medium transmission map

2.1 双流卷积神经网络

双流卷积神经网络被广泛应用于RGB-D显著性检测[20]中，通过双分支信息流能够有效地提取多模态特征.为了更高效地利用RGB和RMT信息，使用双流卷积神经网络做特征提取器，如图1所示.网络的2个输入（RGB图像和RMT图像）分别输入到网络的2个独立信息流（RGB流和RMT流）之中.RGB流使用ImageNet数据集预训练的ResNet-50[21]作为基础网络结构，去除最后一层池化层仅保留卷积层.为了减少信息损失，将其中的ReLU激活函数均换成参数值为0.25的Leaky ReLU激活函数.ResNet-50共有5层卷积层，将每一层的输出独立取出，并分别通过5个独立的1*1卷积，将通道数降维到64.每个卷积层均连接着批量标准化层（batch normalization layer）以及Leaky ReLU激活函数，可以提取得到RGB信息的5种不同尺度的特征（R2、R4、R8、R16、R32）.

双流网络通常会采取相同的网络结构提取特征，但是基于式（3）得到的是精度有限的RMT图像，存在一定的估计误差，需要通过神经网络强大的学习能力进行校正，并且不能占用太大的计算量，因此本研究设计了一个简单有效的针对RMT图像的特征提取器，如图2所示.在图2中，前3层网络使用步长为2的1*1卷积块升维和下采样，进行精细化调整，并将通道数从1升维至16、32、 64.第3层网络在1*1卷积块后还增加了步长为1、通道数为64的3*3卷积块做更精细化的处理，每一层卷积层后都连接着批量标准化层和参数值为0.25的Leaky ReLU激活函数，最后2层网络使用步长为2、3*3大小的最大池化下采样层去除冗余信息.

图2 逆透射率流的特征提取器Fig.2 Feature extractor of reverse medium transmission stream

由于浅层特征含有噪声较大，并且会导致计算量指数倍增长，因此只选择RGB信息流的后3层特征（R8、R16、R32）以及RMT信息流的后3层特征图（T8、T16、T32）成对地进行特征融合，得到图1中的融合特征（M8、M16、M32），并从深层特征开始逐级输入解码器网络，使深层特征能够指导浅层特征，由深到浅、由粗到细地进行跨模态跨尺度的信息交互和信息融合，鼓励特征复用以减少信息损失，抑制冗余特征，细化有效特征.

2.2 跨模态特征融合模块

在双流网络中，跨模态融合2条分支的特征能够丰富特征信息，提高网络的性能，考虑到在水下图像增强任务中，更加需要关注的是图像色彩信息，尤其是图像质量退化的区域，因此提出一种能自适应选择有效特征的跨模态特征融合模块，如图3所示.

图3 所提跨模态特征融合模块Fig.3 Proposed cross-modality feature fusion module

该模块使用不同感受野的卷积层分别对RGB特征、RMT特征以及两者的混合特征进行处理：使用3*3卷积提取RGB特征；使用填充率d=2，扩张率为2的3*3空洞卷积，通过5*5的感受野大小来提取RMT特征，获得丰富的局部区域特征；使用1*1卷积精细地处理RGB和RMT特征相加得到的混合特征，之后将这3种特征拼接在一起，再使用1*1卷积进行降维，得到粗糙的融合特征，再以该融合特征为辅助信息对混合特征进行特征调制，通过自模态和跨模态信息间的交互和融合，整合互补信息，使得网络能够自适应地选择与图像质量退化相关的特征，最终获得精细的多模态融合特征，丰富全局信息.

2.3 特征增强模块

为了进一步增强特征对图像质量退化区域的感知能力，丰富局部信息，提出特征增强模块.将融合特征Mn作为辅助信息，对解码器中的RGB特征Dn进行调制，再使用残差连接的方式强化该特征，之后经过2次卷积的RGB特征作为辅助信息再次对其进行特征调制，最后通过残差连接进行信息的补充和增强.该模块通过残差连接使RGB特征多次复用，可以有效地抑制冗余特征，减少信息损失，自适应地增强输出特征的表达能力，同时防止梯度消失，优化网络学习过程，增强网络的稳定性，特征增强模块如图4所示.

图4 所提特征增强模块Fig.4 Proposed feature enhancement module

2.4 损失函数

为了能够有效训练URMT-Net，选取3个损失函数分别为均方误差损失（mean square error loss）Lm，结构相似性损失（structural similarity loss）[22]Ls以及感知损失（perceptual loss）[23]Lp.其中均方误差损失函数能够保持图像内容的稳定性，结构相似性损失能够保持图像整体结构的稳定性，感知损失能够保持图像语义信息的稳定性.衡量三者的重要性赋予它们不同的权重，通过加权求和的方式得到网络的总损失函数：

式中：Lf为网络的总损失函数，权重系数λ1、λ2、λ3分别取1.0、2.0、1.0.均方误差损失函数为

式中：Jˆ 为参考图像，J为输出的增强图像，两者均为H行W列个像素点.结构相似性为

式中：x、y分别为以p为中心像素的11×11大小的参考图像和输出图像的图像块；α 、β为2种信息的权重，通常均取1.0；l(x,y)为参考图像与输出的增强图像间的亮度相似度函数，c(x,y)为对比度相似度函数.

式中：μx、μy为2幅图像的平均值，表示亮度信息；σx、σy为标准差，表示对比度信息；σxy为协方差，表示结构的相似程度；C1、C2取值分别为0.02、0.03.则结构相似性损失为

式中：K为图像中像素点的总个数.

感知损失是基于预训练的VGG网络提出:

式中：φj为VGG第j层的输出，选择VGG-16的conv4_3卷积层来测量参考图像Jˆ和输出的增强图像J的特征信息之间的差距.

3 实验结果与分析

UIEB[13]数据集包含890幅真实水下图像，对应的参考图像是由50名志愿者从12种增强方法中选出的视觉质量最佳的图像.该数据集的数量还不足以训练本研究的URMT-Net，因此除了从UIEB数据集中选择800张真实水下图像外，还从合成水下图像数据集[12]中加入1250张合成的水下图像，总共2050张图像作为训练数据集.合成水下图像数据集通过不同的衰减系数，将清晰的RGB-D陆地图像合成具有不同退化程度的水下图像，共含有10种不同类型.测试数据集选择额外的900张合成的水下图像，再加上UIEB数据集中剩余的90张真实水下图像，共990张图像.

3.1 实验细节

采用随机梯度下降法（stochastic gradient descent，SGD），以“poly”策略[24]训练网络，初始学习率设置为0.1，批量处理大小为16 ，学习衰减率、动量、权重衰减系数分别设置为0.4500、0.9000和0.0005.为了增加训练样本，对所有训练图像进行数据增广.将训练图像随机裁剪到320×320大小、并进行随机水平翻转和参数值为0.05的随机颜色抖动处理，初步训练125个回合（epoch）.之后为了获得更好的鲁棒性，在不使用数据增广的情况下，以0.02的学习率，设置批量处理大小为6并采用梯度累加的方式，再训练50个回合，一共训练175个回合.使用的机器配置为NVIDA 1080Ti GPU.

3.2 主观评价

主观评价是通过人的视觉系统对图像的视觉质量进行评价，各算法主观视觉对比结果如图5所示.选取6种水下图像增强算法，包括2种以调整全局像素值提升图像质量的传统增强方法WB、HE和4种先进的基于深度学习的水下图像增强算法Water-Net、UGAN、UWCNN、Ucolor.

如图5的(I)～(III)所示，从合成水下图像中选择3张比较有代表性的图像进行分析.从（b）RMT图像中,可以看到确实能够初步反映出不同位置的图像的退化程度，但是精度有限.传统方法WB、HE虽然能够去除大部分蓝色色调的影响，但是增强后的图像存在局部过亮或过暗的情况，失真严重；Water-Net能够明显地去除一部分图像的蓝色色调，并且恢复良好的色彩、对比度和亮度，但是仍有部分图像存在蓝色色偏的问题；UGAN并不能有效地去除蓝色和绿色色偏；UWCNN有10种不同的预训练模型，本研究选取的是type-1模型，它导致图像出现了多余的色彩和伪影；使用RMT图像的Ucolor与URMT-Net相比，对比度偏低，亮度较暗.URMT-Net的结果在所对比的算法中取得了最佳的效果，但是同参考图像相比还是偏向于黄色色调，这可能是训练数据集中真实水下图像的数量有限所导致的.

如图5的(IV)～(VIII)所示，选取5张退化程度较为严重并且比较具有代表性的真实水下图像进行分析，包含水下图像中常见的蓝色色偏、绿色色偏、黄色色偏或是亮度较低等问题.在这些图像中WB、HE、UWCNN都出现不太可靠的增强结果，反映出这些算法存在鲁棒性较差的问题.Water-Net、UGAN不能有效地色偏，整体对比度偏低，细节模糊，颜色失真较为明显.Ucolor同样没能有效地处理色偏的问题，局部对比度偏低，整体亮度偏暗并且颜色不够自然真实.URMT-Net在各种水下场景中，能够比较稳定有效地去除各种色偏，调整图像过暗和过亮的区域，提升图像的对比度、亮度和整体质量，使得色彩更真实自然，在部分图像的视觉效果上能够超过参考图像.

图5 各算法主观视觉对比结果Fig.5 Subjective visual comparison of each algorithm

3.3 客观评价

图像质量的客观评价具有可描述性和严谨性等优势，选取常在水下图像评价中使用的6种客观评价指标，包括3种全参考方法：均方误差（mean square error, MSE）、峰值信噪比（peak signal to noise ratio，PSNR）、结构相似性（structural similarity，SSIM），以及3种无参考方法：信息熵（entropy）、水下图像质量评估度量指标[25]（underwater color image quality evaluation，UCIQE）、水下图像质量指标[26]（underwater image quality measure，UIQM）.

MSE、PSNR都是基于参考图像的全部信息为参考，通过统计参考图像和待评价图像的全部像素点信息进行比较，从而得到评价指标的结果.PSNR数值越大，MSE越小，则表示待评价图像和参考图像相似程度越高.SSIM也是基于参考图像的信息为参考，主要是为了研究待评价图像结构的失真程度，从亮度、对比度和协方差来评价两者结构的相似性.

信息熵可以表示图像含有的信息量，越高的熵值说明图像信息越丰富，细节越好.UCIQE 是从图像的色度、饱和度和对比度3个方面对水下图像进行综合评价，UIQM则是从图像的色彩、清晰度和对比度来综合评价水下图像，数值越高一般说明图像视觉质量越好.虽然UCIQE和UIQM指标都声称考虑人类的主观视觉，在部分场景中还是会出现与人眼视觉感受不同的结果，所以往往需要结合主观评价进行分析.合成数据集和真实数据集上各算法的客观评价指标如表1、2所示.

表1中“↑”为越大越好，“↓”为越小越好，在所有的表格中，最优值均使用加粗表示，次优值用下划线标注.从表1可以看出，在合成的水下图像数据集中，URMT-Net在MSE、SSIM、Entropy上表现最好，在PSNR中表现次优，说明URMT-Net输出的增强图像在质量和结构上比较接近于参考图像，Entropy值高还说明URMT-Net信息损失最少，细节保留得最好，所含信息最为丰富.在所对比的方法中，UCIQE和UIQM中表现一般，分别排在第2位和第3位.结合对图像的主观评价分析，URMT-Net的增强图像在色彩和对比度上表现一般，却显得更加真实自然，而在这2个指标上获得最优表现的HE、UWCNN却存在局部对比度过高、色彩过于饱和、图像失真等问题，由此说明2个指标确实会出现与人眼视觉感受不一致的情况.综合来看，与所对比的算法相比，URMTNet在合成水下图像数据集中表现最佳，在保持水下图像细节良好的情况下提高了水下图像的视觉质量.

表1 合成数据集上各算法的客观评价指标Tab.1 Objective evaluation indexes of each algorithm on synthesized datasets

从表2可以看出，在真实水下图像数据集中，URMT-Net在MSE上表现最优，在PSNR、SSIM、Entropy上取得次优的效果，并且与最优值相差较小，在UCIQE和UIQM中均排在第3位，表现一般.结合URMT-Net在主观评价中的表现来看，URMT-Net的效果与所对比算法相比，具有优势.综上所述，URMT-Net的结果在真实数据集和合成数据集中均取得了不错的效果，充分说明了URMT-Net在所对比的算法中具有较为明显的优势.

表2 真实数据集上各算法的客观评价指标Tab.2 Objective evaluation indexes of each algorithm on real datasets

3.4 消融实验

为了进一步验证各个模块的作用，消融实验主观视觉对比结果如图6所示，合成数据集和真实数据集上消融实验的客观评价指标如表3、4所示.消融实验具体设置如下：1）无跨模态特征融合模块，用Rn和Tn特征直接相加并进行一次3*3卷积处理，替代原本的特征融合模块.在图6、表3、4中简写为无特征融合模块；2）无特征增强模块，用Rn和An特征直接相加并进行一次3*3卷积处理，替代原本的特征增强模块；3）无残差解码模块，去除残差解码器模块中的残差连接部分.

在图6中，各个实验都能很好的消除色偏，相比于完整算法，主要是在局部细节上存在颜色失真，对比度偏低的问题.通过与完整的URMTNet的结果进行对比，验证了各个模块的作用，跨模态特征融合模块能够丰富全局信息并提高全局对比度，特征增强模块则能丰富局部信息，残差解码模块则是对细节进行了修正和补充.

图6 消融实验的主观视觉对比结果Fig.6 Subjective visual comparison of ablation experiment

从表3、4得出，使用完整的URMT-Net在各项指标中几乎都达到了最优或次优的效果，综合主观和客观评价结果，完整的URMT-Net具备更明显的优势.单独去除某一个模块并不会使得算法性能出现大幅下降，说明本研究所提各个模块具有鲁棒性和有效性.

表3 合成数据集上消融实验的客观评价指标Tab.3 Objective evaluation indexes of ablation experiment on synthesized datasets

表4 真实数据集上消融实验的客观评价指标Tab.4 Objective evaluation indexes of ablation experiment on real datasets

4 结语

URMT-Net将水下光学成像模型有效地融入卷积神经网络中，从而让网络对水下图像更具有针对性，能够更好地学习到水下光学成像特点.利用深层网络强大的学习能力有效降低了RMT图像估计误差所带来的影响，由粗到细地进行跨模态跨尺度的信息交互和信息融合，最终能够在各种水下场景中有效地去除图像存在的色偏，提升图像质量，获得细节清晰、颜色真实自然的水下图像.

通过消融实验，验证了跨模态特征融合模块、残差解码模块和特征增强模块的有效性.对比其他算法，通过主观和客观的综合评价，URMT-Net在水下合成数据集和真实数据集中都具有较为明显的优势，说明将传统方法和基于深度学习的方法相结合是具有研究价值的，但是以何种方式进行结合最为高效仍需探索.