甄有恒
(1.四川大学计算机学院,成都610065;2.中国人民解放军95876部队,张掖)
红外成像技术利用目标热源信息差生成图像空间数值,能够有效克服可见光图像无法实现穿透检测的缺陷,已经在军事、工业、遥感、医学等领域有着广泛应用。然而,受红外传感器工艺限制,红外成像质量明显低于可见光成像,主要表现在成像分辨率低以及各类非均匀性噪声显著[1]。因此,提升红外图像分辨率具有重要的应用价值。面对硬件性能研发困难的问题,算法设计更能节约研发成本。
图像超分辨率重建是图像退化的反过程,其本质是回归问题[2]。从机器学习过程看,超分辨率重建方法可以分为人工传授、自主学习和半自主学习3种形式。人工传授基于传统算法模型设计,需要扎实的学科理论基础,但是设计过程需要具备丰富的图像处理先验知识;自主学习形式以深度学习为典型代表,依靠高维复杂的映射函数实现端到端的学习,但是往往需要高算力和海量数据。半自主学习形式融合人工传授和自主学习两种形式的优点,通常采用传统算法优化输入端,然后再自主映射学习,但是对模型设计能力要求高。
利用深度学习技术实现图像超分辨率重建的模型中,基于重构[3]、残差[4-5]、生成对抗[6]等的卷积神经网络方法处理可见光图像效果明显。受此启发,文献[7]首次将卷积神经网络用于红外图像增强处理,采用4层网络对图像进行端到端的重构。文献[8]对MNIST数据集进行伽马变换和高斯滤波方法实现红外数据仿真,利用多尺寸卷积核提取不同规模特征来实现增强对比度、突出红外弱小目标和抑制背景杂波。以上两种方法均采用小型网络结构,有利于低运算量条件下的部署,但是网络层数太浅导致模型对特征的非线性映射能力变得较差,无法提取更高频的红外图像特征信息。文献[9]在可见光图像亮度域完成特征提取、映射和重建过程的模型训练,通过迁移学习将训练模型用于初始化红外测试模型。
以上方法均取得了一定的效果,但是在高倍数重建任务中,网络模型缺少从低频特征向高频特征的信息补充,对细节特征的处理能力较低。因此,本文在VDSR网络模型基础上进行改进,提出一种级联重建网络模型CCNSR(Cascaded Convolutional Network for Super-Resolution)学习全局残差特征。该模型第一级网络利用卷积和反卷积操作进行编解码学习,第二级网络对编解码后的特征图进行递归残差学习,两个网络级联后,利用全局跳跃连接使得两级网络学习端到端的整体残差。实验验证了本文模型在VDSR模型基础上的改进效果,同时,对其他模型进行性能分析。
设ILR表示红外低分辨率图像,IHR表示高分辨率图像,ISR表示重建图像。重建模型描述如下:
其中ILR表示低分辨率图像,ISR表示超分辨率重建图像,(F)表示重构映射函数,υ表示(F)的参数集。
全局残差学习的主要优势在于:网络模型只需要学习输入输出之间的残差信息,充分利用残差特征的稀疏性用以实现训练过程的快速收敛。残差学习模型描述如下:
其中(R)表示残差映射函数,ω表示残差映射参数集。
模型目标函数如下:
其中N表示样本容量,通过对参数集ω的迭代训练,达到残差学习模型优化的目的。
本文前馈卷积神经网络结构主要由编解码子网络和递归残差子网络级联组成。网络结构及流程见图1。
图1 CCNSR网络结构及流程图
编解码子网络的设计主要参照UNet模型[10]。该模型在图像语义分割中有很好的表现,有利于快速提取图像轮廓特征。编解码结构设计中需要计算卷积操作后的特征图尺寸,其计算公式:
其中K表示卷积核尺寸,P表示边缘填充数,S表示卷积核步长;Fx表示卷积前的特征图尺寸,Fy表示卷积后的特征图尺寸,表示向下取整。反卷积计算公式如下:
在网络内部,卷积核和反卷积核参数均设为K=3,S=1,P=0。对称设置确保了特征图先降采样后升采样的编解码功能。子网络首位两端跳跃连接确保了低语义局部残差特征的快速学习。
递归残差子网络受DRRN模型[5]启发,在编解码子网络提取的初级残差特征基础上深度提取高频残差信息。该子网络内部全部采用卷积操作,卷积核统一设为K=3,S=1,P=1,用以保证特征图在输入输出前后始终保持一致。递归跳跃连接实现低频残差特征逐步向高频残差特征做补充,同时丰富的连接数量有利于反向传播梯度更新。文献[11]解释了批量正则化层(Batch Normalization,BN)对重建任务较为敏感,因此本文去除BN层。同时,取消递归部分连续三层卷积中最后一层的传递函数,用以消除网络结构冗余。
另外,除了两级子网络特征融合层卷积核数量设为1,其余层卷积核数量均设为15。激活函数统一采用Leaky ReLU函数,特点是在ReLU激活函数基础上对负向输出添加激励因子λ,适度更新神经元抑制参数。
本文采用L2损失函数用以最小化图像均方误差。定义如下:
其中W、H分别表示单个样本的宽和高,I(i)(j,k)Ii(j,k)表示图像某像素点的值。
参数优化采用目前主流的Adam算法[12],其在梯度更新方向和更新幅度方面很好的做到了自适应性。更新公式如下:
其中l表示网络层序号,k表示迭代次数,α表示学习率,β1(k)、β2(k)表示学习率衰减参数。
在式(7)中,O(l)(k,ω)表示从输入层到第l层的映射函数,ω(l)(k)表示第l层参数,g(l)(k)表示迭代计算到k次时O(l)(k,ω) 的梯度,并且当l为输出层时,O(l)(k,ω)=loss;式(8)表示带有动量的梯度下降迭代计算,用于控制梯度更新的方向,式(9)表示均方根梯度下降迭代计算,用于控制梯度更新的幅度。式(8)、式(9)分母用于修正数值;式(10)利用式(8)和式(9)调整后的新梯度进行权值参数更新。根号是对式(9)中各维度的梯度分别求平方根,ε保持分母数值稳定。
鉴于可见光图像集训练红外图像超分辨率重建模型的方法较为成熟[7-9],本文采用General-100[13]和Urban-100[13]两个可见光图像数据集,为红外图像提供丰富的细节特征。同时,高倍数差能够为拟合训练提供更高频的残差特征,因此设置高倍数训练条件。
构建训练集,首先对数据集进行数据增强处理,得到1600张图像,并分割成32×32的图像块;然后,利用双三次插值(Bicubic)对原始高分辨率图像进行8倍降采样和升采样,得到相同尺寸的低分辨率图像;最后,配对图像块后构成高-低分辨率训练集。测试集取自公开的LTIR红外数据集[14]和FLIR热红外数据集[15],共随机挑选24张图像,测试集组成方法同训练集。
下面介绍两种常用的评价指标:
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)从全局衡量图像重建效果。峰值信噪比公式如下:
其中MSE表示均方误差,Pmax表示图像像素最大值,对于8位图像取Pmax=255;PSNR值越高,图像重建质量越好。
结构相似性(Structural SIMilarity,SSIM)[16]基于人眼视觉感受,从图像亮度、对比度和结构三个方面全面评价图像整体复原质量。SSIM值处于0到1之间,越接近1越好.结构相似性公式如下:
其中μHR表示IHR的平均像素强度;μSR表示ISR的平均像素强度;σHR表示IHR的像素标准差;σSR表示ISR的像素标准差;σHR,SR表示协方差;C1、C2取常数用于稳定分母。
本文采用Caffe深度学习框架下的CPU训练模式,借助MATLAB和MatConvNet对实验结果进行分析。选取TEN、VDSR和DRRN三种典型超分辨率重建模型进行对照实验,具体操作如下:
(1)按照网络结构编写*.prototxt文件,将训练batch_size设为128,测试batch_size设为2,数据集保存成HDF5数据格式。
(2)编写Caffe网络训练配置*_solver.prototxt文件并初始化训练参数。卷积层权值参数初始化采用MSRA方法,初始学习率α=10-4,Leaky ReLU激活函数负向激励因子λ=0.2。参数优化选择Adam方法,其中学习率衰减参数β1=0.9、β2=0.999,衰减系数ε=10-8,最大迭代训练次数Iteration=50000。
(3)训练模型,迭代训练50000次后读取Blobs数据块并保存权值参数。输入测试集,使用MatConvNet框架读取训练好的权值参数并按照前馈流程生成重建图像,计算评价指标。
(4)对TEN、VDSR和DRRN模型分别按照(1)到(3)依次操作。调整VDSR和DRRN的卷积核数量为每层15个,得到VDSR(15)和DRRN(15),用以保证实验相对公平。
实验重点测试本文模型在VDSR基础上改进后的性能提升,并对实验中各个模型的网络结构属性进行了相关统计,见表1。
表1 各模型网络结构主要参数
其中TEN是基于重构的红外图像超分辨率重建代表模型;VDSR算法是本文方法的模型基础;DRRN算法用于验证BN层对重建任务的影响。本文模型的网络权值参数量是TEN的42%,是VDSR(15)和DRRN(15)的72%,网络结构参数量少。
实验分别对两组测试集进行测试,分别得到4倍和8倍放大倍数下的平均评价指标值,统计结果见表2,其中横向最优值加粗显示。图2、图3分别表示对应重建倍数的性能变化曲线。
由表2统计数据,结合图2、图3曲线分析可以得出:①本文方法在参数量减少的训练条件下,拟合PSNR和SSIM比VDSR模型稍有提升,但是在泛化能力上表现不足,这与编解码子网络中的卷积和反卷积操作过多有关,使得边缘分割严重。②传统的双三次差值方法和基于重构的TEN算法对低倍数下的图像重建效果较好,但是随着重建倍数的上升,重构方法的性能下降明显;基于残差学习的方法在不同倍数的重建任务中的影响,因此残差学习可以有效克服对模型参数量的需求。③带有BN层的DRRN模型在本文实验条件下的重建能力不太突出,原因之一是训练数据量少导致模型欠拟合,并从侧面印证了添加BN层的操作不一定适用于图像重建任务。
表2 各模型分别在4倍、8倍重建下迭代训练50000次的平均PSNR/SSIM值
图2 各模型对4倍重建的性能测试曲线
图3 各模型对8倍重建的性能测试曲线
图4展示了LTIR测试集中13号图像的局部重建效果。可以看出,对于8倍重建测试,本文模型的重建效果与其他较优模型相比性能相当;在4倍重建测试中,本文模型重建能力不太理想,说明参数量对网络模型的表达能力影响明显。
图4 重建效果展示
本文提出一种级联卷积神经网络的红外图像超分辨率重建模型。该模型利用典型模型的优势,通过将整体重建任务拆分为轮廓特征重建和纹理特征重建两部分,在VDSR模型的基础上对网络结构进行了改进,实现了网络结构的优化。实验在低数据量训练条件下进行,本文模型能够在参数量较少的情况下实现PSNR和SSIM指标以及拟合能力的提升,达到了相应的实验目的。