史梦阳, 张 弦, 王 丽, 施君南, 高叶盛
(1.上海交通大学电子工程系, 上海 200240;2.上海无线电设备研究所, 上海 201109;3.中国人民解放军96962部队, 北京 102206)
光学遥感图像处理中,目标检测一直是一个具有挑战性的课题。由于遥感的目标图像通常分辨率较低,并且伴随不同程度的降质,导致获得的目标特征不清晰,给目标检测带来难度。提升目标识别算法或处理硬件的性能都可以得到较高质量的图像。但是硬件性能的提升通常需要很高的成本,因此针对图像恢复的超分辨算法有着更广阔的应用前景。图像超分辨算法通常分为多张图像超分辨算法和单张图像超分辨算法,由于单张图像超分辨算法更为方便和直接,因此应用更为广泛。
单张图像超分辨算法主要包括3种,分别为基于插值的超分辨算法、基于优化的超分辨算法和基于学习的超分辨算法。
基于插值的超分辨算法[1-2]包括最近邻插值、双线性插值、三次插值以及各种基于插值的改进超分辨算法。基于插值的超分辨算法具有重建速度快的优点,但是重建效果有限,不能很好地恢复图像的细节信息。
基于优化的超分辨算法重点研究从高分辨率图像到低分辨率图像的退化过程。LI等[3]提出了一种基于通用隐马尔可夫树(hiding Markov tree,HMT)模型的遥感图像超分辨的最大后验概率方法。HMT 理论用于建立一个先验模型,以便从一系列模糊、下采样和噪声污染的低分辨率图像中重建图像。SCHULTZ 等[4]提出了一种利用最大后验概率估计高分辨率图像的贝叶斯方法。
基于学习的超分辨算法主要包括基于稀疏表示的方法和基于神经网络的方法。YANG 等[5]首先提出了一种基于稀疏表示的图像超分辨方法,该方法通过学习一个冗余字典,建立了高分辨率图像和低分辨率图像的映射。ZHENG 等[6]首先将稀疏表示法应用于遥感图像超分辨任务。基于优化和稀疏表示的超分辨算法可以充分利用先验信息,但也存在计算量大的缺点。
近年来,神经网络被广泛地应用于图像的超分辨算法。DONG 等[7]在2015年首次将卷积神经网络(convolutional neural network,CNN)引入图像超分辨算法中,取得了良好的效果。图像多蒸馏网络[8](information multi-distillation network,IMDN)是一个轻量级的图像超分辨网络,有较高的实用价值。LIEBEL 等[9]提出了用于遥感图像的卷积神经网络。LEI等[10]提出了局部-全局组合网络(local-global combined network,LGCnet),LGCnet充分提取了目标图像的局部信息与全局信息,因此可以得到很好的重建效果。HAUT 等[11]通过引入注意力机制,以很少的计算代价提高了遥感图像的重建质量。神经网络具有良好的性能,然而由于其独特的结构,导致其缺乏可解释性,不能灵活地利用传统的先验知识。
最近,一种将传统优化算法与神经网络相结合的图像重建方法被提出。该方法将传统的优化过程展开为一个网络,称为深度展开网络,算法中的参数可以通过训练得到。深度先验图像去噪网络[12](learning deep CNN denoiser prior for image restoration,IRCNN)和深度即插即用超分辨率网络[13](deep plug-and-play superresolution,DPSR)都是深度展开网络,都可以很好地利用图像的先验信息,并且取得了较好的图像重建效果。深度残差去噪网络[14](beyond a Gaussian denoiser:residual learning of deep CNN for image denoising,DNCNN)也是一个有效的去噪神经网络。ZHANG 等[15]提出了超分辨率图像深度展开网络(deep u nfolding n etwork for image super-resolution,USRNet)用于处理多重退化的图像超分辨问题,并获得了良好的结果。USRNet可以充分利用先验知识,但是并没有对网络进行良好的优化,导致网络的整体性能提升有限。
对于遥感图像处理算法,可解释性至关重要。并且遥感图像的数量有限,因此如何充分利用先验信息减小网络拟合的压力也是需要研究的。为了提高算法的可解释性和图像重建性能,本文提出一种基于多特征提取的深度展开图像超分辨网络。首先利用半二次分裂算法对目标函数进行迭代求解,接着将其展开为一个神经网络。为使网络可以充分提取目标图像的信息,提出一种多尺度空洞卷积注意力模块。该模块通过设计不同空洞率的空洞卷积组,扩大网络的感受野,使得网络可以充分挖掘图像的信息。在此基础上,引入通道注意力机制和空间注意力机制,使得网络可以更加注意重要的特征图和重要的空间位置信息。最终,在网络具有良好的可解释性的同时,得到较好的图像超分辨重建效果。
在遥感图像采集过程中,由于设备和环境的限制,图像通常受多种退化因素影响。本文考虑了图像模糊、随机噪声和图像降采样等几种典型的退化因素,使超分辨模型更加实用。退化模型可以表示为
式中:y表示低分辨率图像;k表示模糊核;⊗为卷积运算符;x表示高分辨率图像;↓表示降采样;S表示降采样因子;n表示噪声。基于此退化模型,目标函数可以表示为
式中:argmin(·)表示使目标函数为最小值时的自变量取值函数;‖·‖ 表示矩阵的2-范数运算;λ表示权重系数;ϕ(x)表示先验约束项。
在传统优化算法中,先验约束通常可以选择稀疏先验或者低秩先验。但是很多情况下,算法性能与先验约束的选择息息相关,如果先验约束选择不合理,会影响算法的性能。本文将先验约束设置为一个隐式先验,此隐式先验表达可以通过端到端的网络学习得到。这种方式可以降低先验约束选择的难度,并能大大提高算法性能。为了求解式(2),引入辅助变量z,式(2)可以被重新表示为
拉格朗日函数Lλ,β可以用于处理有约束条件的问题。其表达式为
式中:β表示惩罚系数。可以使用半二次分裂法[16]来对式(4)进行迭代求解。式(4)可以被分解为两个子问题,迭代公式分别表示为
式中:xi表示第i次迭代的高分辨率图像;zi表示第i次迭代的辅助变量。
对式(5) 进行闭式解求解,闭式解通过快速傅里叶变换(FFT)在频域求得,可以表示为
式中:F-1(·)表示逆傅里叶变换;F(·)表示傅里叶变换;表示傅里叶变换后取共轭。由于式(7)中包含隐式先验项,因此使用神经网络来求解。
本文提出一种基于多尺度特征提取的图像超分辨深度展开网络,网络的整体结构如图1所示。
图1 深度展开网络的整体结构
该网络包括x模块和z模块,每一模块都有明确的定义,并且分别执行不同的功能,因此网络是可解释的。x模块对应式(5)子问题的求解,而式(7)是式(5)的闭式解,主要完成去卷积操作。x模块可以充分利用模糊核的先验知识,可以完成图像的尺度变换和去模糊的任务。z模块对应式(6)子问题的求解,主要完成去噪的任务。噪声包含两部分,一部分是图像获取时引入的噪声,另一部分是x模块去卷积时引入的噪声。
Unet是一种经典的网络结构,可以有效地提取目标图像的多尺度特征。z模块在原始Unet网络的基础上,在最小尺度特征图转换时,引入了多尺度空洞卷积模块、通道及空间注意力模块,完成对特征图的多尺度信息的提取。z模块的主体结构如图2所示。
图2 z 模块的主体结构
首先设计多个尺度的空洞卷积模块组,对特征图进行信息的提取。不同尺度的空洞卷积采取不同的空洞率,可以产生不同感受野的卷积。较大的空洞率卷积可以更加关注图像的非局部信息,较小的空洞率卷积可以更加关注图像的局部信息。因此,不同空洞率的空洞卷积组可以更好地提取图像的局部信息和全局信息。
然后对空洞卷积组提取到的特征图进行注意力权重的分配。先进行通道注意力的生成,通过最大池化操作将每个通道的特征图映射为一个权重,给每个通道施加不同的权重,使得网络更加关注重要的特征通道。再使特征图通过空间注意力模块,通过最大池化操作将空间特征映射为不同的权重,使得网络可以自适应地学习特征图的空间信息。对当前重建像素比较重要的区域施加较大的权重,对不太重要的区域施加较小的权重,从而使得网络具有更好的重建能力。
在注意力模块的前后采取跳连接方式相连,将得到的特征图进行多次上采样,得到与原始图像大小一致的特征图。
综上,该网络迭代执行x模块和z模块,从而交替进行去模糊和去噪的操作。迭代流程与传统优化算法相同,每一步骤都有明确的定义并且完成相应的功能。最终实现图像的超分辨重建,并使用L1准则来计算最终的损失函数。
通过实验来验证所提算法的有效性。UC Merced Land Use数据集[17]是一个常用的公共遥感图像数据集,包含21 种场景,每种场景有100张图片,图片大小为256×256像素。从中挑选了10种场景作为算法评估的数据集。每种场景的前40个样本用来训练,再随机选择5个样本用来测试,最终得到400个训练样本和50个测试样本。选择文献[10]中的6种模糊核来验证算法的有效性,包括3个各向同性高斯模糊核和3个各向异性高斯模糊核,模糊核为21×21的矩阵。
实验在Py Torch 框架下进行,使用Titan RTX 进行训练。设置优化器为Adam、学习率为0.000 5、网络迭代次数为3。本文中的空洞率设置为2,4,6。由于在去卷积的过程中已经引入了噪声,为了实验的简便性,未再加入额外噪声。
用峰值信噪比(PSNR)作为评价指标,不同算法的图像重建结果如表1所示。可以看到,采用不同的模糊核,算法都表现出了较好的性能。本文所提算法与DNCNN、IMDN、IRCNN、DPSR等算法相比,重建图像的峰值信噪比分别高1.15,1.50,1.98,0.29 dB。由此可以证明本文所提算法的有效性。
表1 不同重建算法的图像峰值信噪比
图3是不同算法的超分辨重建结果,场景为飞机场。选择模糊核6,2倍下采样。其中LR 是由低分辨率图像进行最近邻插值得到的图像,OURS是采用本文所提算法重建的图像。可知,经过降质的图像已经变得不清楚了,无法分辨飞机的细节结构信息,对后续目标检测非常不利。经过超分辨复原后,所有超分辨算法都可以使降质图像变得清晰。其中IRCNN 的图像重建效果优于其他几种对比算法。而本文所提算法恢复的图像最清晰,最有利于进一步的目标检测。其他算法重建的图像能大致分辨物体的结构,但是对于较为精细的结构不能很好地分辨。
图3 不同算法的超分辨重建结果
综上所述,本文所提算法无论是重建图像的视觉效果还是峰值信噪比都是最好的,证明了算法的有效性。
本文提出了一种基于多特征提取的图像超分辨深度展开网络,网络的每一部分都有明确的定义和特定的功能,因此是可解释的。该网络通过半二次分裂法求解优化问题,并将求解过程展开成一个网络,使得网络同时具有基于优化方法的可解释性和神经网络强大的拟合性。为了使网络可以充分提取目标图像的信息,进一步提出了一种多尺度空洞卷积注意力模块。该模块通过设计不同空洞率的空洞卷积组,使得网络可以充分挖掘图像的全局信息和局部信息,并且关注图像中更重要的特征。实验证明所提算法可以对低分辨率图像进行有效的超分辨重建。