罗伊杭, 吴天昊, 李博扬, 李 淼, 凌 强, 吴 京
(国防科技大学电子科学学院, 长沙 410073)
红外图像是由红外探测器接收视野内物体辐射或者反射的红外线而形成的图像。 在红外成像设备内部,红外探测器将接收到的辐射转换成电信号,再经变大、变换等信号处理,形成最终的二维红外图像[1]。
由于探测环境及红外成像器件本身的影响,红外图像成像往往会受到多重干扰。 其中,探测环境噪声主要是由景物的辐射引起的,按照拍摄场所的不同而不同,具有随机性。 因此,在红外图像降噪中主要讨论红外成像器件产生的内部噪声。 受红外探测器制造工艺等因素的限制,红外图像会受到多种非理想因素的影响,使得红外数据具有对比度低、边缘模糊、清晰度低等缺点,造成红外图像的后续应用的局限性[2]。 因此,对复杂噪声的有效抑制是红外图像处理中的核心环节,是提高红外探测系统性能的重要预处理手段。
传统的红外图像降噪主要利用噪声高频特性,通过找出噪声分布规律后再进行相对应的降噪处理。 中值滤波[3]、均值滤波[4]等方法通过平滑图像来缓解噪声干扰,这些滤波方法通过设计合理的阈值参数对脉冲噪声和椒盐噪声能达到较好的抑制作用,但是对高斯噪声的抑制能力较差。 文献[5]提出能自适应调节拉格朗日乘子和惩罚参数Split Bregman 算法具有更快的收敛速度。 文献[6]针对红外图像中的条纹噪声,提出利用相邻行之间灰度值的继承性完成图像校正。
上述提到的方法将重点集中在处理某一场景噪声强度或某一类分布的噪声上,缺乏同时处理多类型、及强度多变的复杂干扰的能力。 实际红外探测设备中的噪声复杂,还存在敏感元的非均匀性,个别敏感元可能是哑元。 红外图像降噪算法应具备更强的鲁棒性和普适性。 本文借助深度卷积在自动提取图像特征上的优势,提出一种基于自编解码器与残差连接的红外图像降噪模型,能够降低红外图像中内部成像器件引起的复杂噪声干扰。 该模型由堆叠的深度卷积和反卷积组成自编码器和解码器,实现图像特征的自动提取和初步的图像重构,并通过残差连接补充细节信息。 通过给定噪声图像和原始图像作为模型的训练数据,学习其中的噪声分布,避免了复杂的人工特征设计过程,进而实现了红外图像中去除多类型分布多种强度噪声的需求。
红外光电系统是用来探测目标辐射的特征信息的光电仪器。 根据光电探测仪器自身是否带辐射源,红外光电系统可分为无源的被动式和有源的主动式两大类别[7]。
其中,被动式光电系统具有全天时、无源、隐蔽性好等特点,在军事上可用于目标检测、瞄准跟踪等。 非军事应用包括热效率分析、环境监测等。 本文主要基于被动式红外光电系统进行研究。 被动式红外光电系统信息获取的流程如图1 所示。 整体流程可以概括为:辐射源依次经过辐射的大气传输、光学成像、探测器光电转换和电信号放大和处理,最后得到探测信息[8]。 扫描型光电系统在进入光学系统前还会经过扫描采样。
图1 被动式红外光电系统信息获取流程图Fig. 1 Flow chart of the infrared and electro-optical passive system information acquisition
红外光电系统的探测性能受到外部环境和内部器件的噪声影响,其中外部环境的杂波受探测场景影响具有随机性,需要根据具体应用背景进行建模,因此本文主要讨论来自探测器和电路元件内部产生的随机电噪声。
在实际的红外图像中,各种噪声混杂在一起且产生机理各不相同,可用描述谱密度随频率变化的噪声功率谱表示。 下文中按照不同的概率密度分布对红外图像内部器件的噪声进行归纳和分析。
1.2.1 高斯噪声
在红外探测器中[8]由背景光子到达探测器敏感元速率起伏产生的光子噪声,探测器固有的约翰逊(Johnson)噪声、产生-复合(G-R)噪声、散粒(shot)噪声等噪声在时间和空间上都呈现随机分布的特点。 将这些噪声叠加起来,可将其建模成加性高斯噪声,因此模拟这些噪声污染的图片可以通过生成与图像尺寸相同,且服从正态分布的灰度值数据作为噪声,叠加到原图像上的手段。 其概率密度分布函数为:
其中,z表示每个像素点上的灰度值,μ和σ分别表示图像中所有像素灰度值的期望和标准差。
1.2.2 椒盐噪声
在红外光电探测系统内部有2 种噪声可以模拟为椒盐噪声。 分别是器件的盲元点噪声和在低频部分电子跃迁产生的1/f噪声。 这里,盲元点噪声主要在凝视型成像器件上焦平面的感光元器件中存在盲元时产生,表现为图像上呈现出亮暗点[9]。1/f声又被称为低频或闪烁噪声,通常认为是由于制造缺陷和器件中的杂质所导致的。 将2 种噪声建立成椒盐噪声模型,其概率分布密度可表示为:
其中,a、b均为灰度值,在红外图像中,一般设置a=0、b=255。a所在像素点在图像中呈现为一个暗点,b将显示为一个亮点。pa和pb分别表示亮暗点的出现概率。 在后续对于噪声的模拟中,本文使用k表示加入椒盐噪声的像素个数,进而控制噪声强度。
1.2.3 条带噪声
条带噪声多存在于扫描型成像器件产生的红外图像中[10]。 扫描型成像器件的焦平面呈现一维的线状分布,在成像时同时采集一行数据,并按照一定频率移动焦平面来产生多组数据,最终拼成完整的图像[8]。 因此与凝视型成像器件不同,当扫描型成像器件存在盲元时会在图像中产生沿扫面方向的亮暗线。 其构造原理类似于椒盐噪声,本文使用n表示条带噪声的条数。
自编码-解码器[11]是一种受启发于信息压缩与解压功能的神经网络,其设计理念为:过编码提取出原图片中的最具代表性的信息,再把关键信息送入网络学习,通过设置损失函数(loss)求出预测误差,进行反向传递,减小输入输出某方面的差距,实现网络参数的自动调整,最终使输入输出近似相等,从而达到从原数据中总结出每种类型数据的特征的目的。 在训练期间,每个样本经由输入层传递给中间层并在此对数据进行特征提取,相当于一个编码过程;再将中间层的数据传递给输出层进行还原,相当于解码过程。 当网络收敛,就学习到了可以表征输入数据的重要特征。
在降噪过程中,卷积编码器不可避免地会消除一些图像细节。 虽然解码器中反卷积层可以恢复一些细节,但当网络更深时,细节丢失的问题会进行累积,从而导致重建的图像可能会因为丢失过多细节而过平滑。 此外,当网络深度增加时,梯度扩散可能会使网络难以训练[12]。
为了解决上述问题,随即提出了深度残差连接[13]。 不同于直接将输入映射到输出,在本文的降噪模型中采用的残差映射如图2 所示。 将输入定义为I(Input),输出定义为O(Output),残差映射可以表示为F(I)=O-I。 一旦建立了残差映射,就可以将原始重建图像映射R(I)重构为R(I)=O=F(I)+I。由此,将直接映射问题转换为残差映射问题。
图2 直接映射和残差图Fig. 2 Direct mapping and residual structure
基于自编解码器与残差连接的红外图像降噪模型可以分为编码器和解码器和残差连接部分,整体模型如图3 所示。
图3 基于自编解码器与残差连接的红外图像降噪模型Fig. 3 Overall architecture of infrared image denoising model (EDR-IRDn) based on encoder-decoder with residual connection
自动编码器由7 个卷积模块组成,负责提取图像特征,从低到高抑制图像噪声,同时保留输入图像的基本信息,为了保留可能被去掉的目标特征信息,去掉残差前的ReLU层,放弃了学习残差的正约束。自动解码器同样由对应的7 个反卷积层组成,特征图在反卷积层被不断放大,直至与输入图像尺度相同,而后利用输出图像与原始图像之间的差异计算网络损失,调整卷积核参数,直至符合训练终止条件。 在每个卷积模块的对应的反卷积模块之间,使用残差连接将每个卷积层产生的特征向量传递给反卷积层,使得底层卷积的特征可用于恢复结构细节。最后,重建图像由最后一个反卷积模块输出。
为了增强网络对不同强度和不同分布噪声的鲁棒性,在训练时,将随机生成每个批次训练图像的噪声强度和分布。 测试时,直接将测试集数据作为输入图像,送入网络进行处理,输出图像则是经过降噪重建后的图像。 实验环境为Pytorch1.3.1 和Python 3.7.1,计算机配置为16 G 内存、Intel Xeon Gold 5117 CPU、NVIDIA Tesla V100 GPU。
在实验部分,利用对红外器件内部噪声根据上文的分析模拟生成仿真数据集。 分别在不同强度的噪声情况下和混合噪声情况下,使用所提模型和3种经典的降噪模型BM3D[14]、WNNM[15]和K -SVD[16]进行对比实验,并对实验结果进行展示和分析。
为了测试不同降噪方法的性能,采用PSNR(peak signal-to-noise ratio) 和SSIM(structural similarity index measure)来定量评估恢复后的图像质量。 这2 个指标是在像素级别比较恢复图像和原图像之间的差异,越大表示两者越接近。 同时,通过比较各个模型恢复的图像进行视觉效果评估,来定性分析各方法的降噪效果。
长时间工作的内部器件会使得产生的噪声强度发生变化,使红外图像噪声更加复杂,因此针对红外图像内部噪声的降噪方法应对噪声强度具备较好的鲁棒性。 本节实验以加性高斯白噪声为例,将噪声强度为σ=0.01、σ=0.02 和σ=0.14 的加性高斯白噪声分别添加到同样的100 张红外图像上,随即生成了A1、A2和A3测试数据,由这3 组数据组成300张A组测试集,并在A组测试集上进行不同噪声强度情况的降噪实验。
3.1.1 定量结果
使用本文提出的模型和对比降噪模型在A组测试数据上进行降噪实验,从而观测各个方法对噪声强度的鲁棒性。 在PSNR指标(单位为dB)和SSIM指标上各个方法的降噪结果见表1、表2。 每个指标的值都是对100 幅测试图像评价结果取平均得到的。
表1 各方法在A 组测试数据的PSNR 平均值Tab. 1 Average PSNR of each method by using test data in group A
表2 各方法在A 组测试数据上的SSIM 平均值Tab. 2 Average SSIM of each method by using test data in group A
使用3 组不同噪声强度数据进行测试,本文方法降噪后图像的PSNR和SSIM指标均高于比较的其他3 种降噪方法,说明本文的方法(EDR-IRDn)能够更好地降低不同强度的噪声。
3.1.2 定性结果
分别使用本文模型与3 种对比方法在不同噪声强度下的降噪结果如图4 所示。 其中,图4(a)从左至右依次为A1、A2和A3中的噪声图像,图4(b)、图4(c)、图4(d)和图4(e)分别为WNNM、K-SVD、BM3D 和EDR-IRDn(our)在对应噪声图像上的降噪结果。
图4 各方法在A 组测试数据上降噪效果Fig. 4 Results of each method by using test data in A group
由图4 可以看出,在A3数据集上虽然噪声强度较大,但本文设计的模型仍然能在一定程度上还原出原始图像,重构出图像的主要成分,这说明了所提方法对噪声强度的鲁棒性较强,能够用于重度噪声污染图像的处理。
在前文红外图像噪声分析中,本文将红外图像的器件噪声主要模拟为服从高斯分布的噪声、椒盐噪声和条带噪声。 在实际情况中,这些非理想因素可能会同时存在。
因此本节在对红外成像器件内部噪声分析基础上,进行红外图像噪声数据集的模拟,在100 张红外图像上分别添加σ=0.02 的加性高斯噪声与k=20的椒盐噪声的混合噪声、σ=0.02 的加性高斯噪声与n=2 条带噪声的混合噪声、σ=0.02 的加性高斯噪声同时与k=20 的椒盐噪声和n=2 条带噪声组成的混合噪声,从而分别生成B1、B2和B3组成的B组测试集,并在B组测试集上进行混合噪声情况下的降噪实验。
3.2.1 定量结果
使用本文提出的模型和对比降噪模型在B组测试数据上进行降噪实验,从而观测各个方法对不同类型噪声的鲁棒性。 在PSNR指标和SSIM指标上各个方法的降噪结果见表3、表4。
表3 各方法在B 组测试数据的PSNR 平均值Tab. 3 Average PSNR of each method by using test data in group B
表4 各方法在B 组测试数据上的SSIM 平均值Tab. 4 Average SSIM of each method by using test data in group B
从表3、表4 可以观察到,使用本文方法降噪后图像的PSNR指标高于比较的其他3 种降噪方法。同时,较高的SSIM指数也证明了本文方法具有更强的恢复细节的能力,能将更精细的结构信息与复杂的噪声区分开。 EDR-IRDn 在各个指标上都明显优于WNNM、K-SND 和BM3D,究其原因就在于这些传统方法针对的研究大多假设噪声是高斯分布且噪声强度相对较低,所以在高强度混合噪声图像上的降噪性能退化;另一方面,EDR-IRDn 基于数据驱动,从训练集中自主学习数据分布特性,提取图像不变特征,因此表现出更优异的降噪性能。
3.2.2 定性结果
分别使用本文模型与3 种对比方法在混合噪声下的降噪结果如图5 所示。 其中,图5(a)从左至右依次为B1、B2和B3中的噪声图像,图5(b)、图5(c)、图5(d)和图5(e)分别为WNNM、K-SVD、BM3D 和本文型EDR-IRDn 在对应的混合噪声测试图像上的降噪结果。
由图5 可见,在混合噪声情况下,本文方法依然能够较好地对各类噪声进行抑制,即进行降噪。 对比方法WNNM 能对混合的椒盐噪声和高斯噪声进行较好的处理,对于条带噪声无法完全去除,同时损失了过多细节,造成了过平滑;对于基于字典的KSVD 方法在混合噪声情况下将难以对复杂的噪声进行抑制;同样BM3D 在混合噪声情况下,也难以同时对多种噪声进行抑制,并且产生了很多虚影。
本文提出一种基于自编解码器实现红外图像降噪的方法,利用自编码器图像特征无监督学习的优点,解决红外噪声分布类型多样、强度多变的问题。进一步地,在编码层解码层引入残差连接解决细节缺失问题。 最终完成使用同一模型对红外成像内部噪声中普遍存在的条带、椒盐、加性高斯白噪声进行抑制。 通过实验证明了提出的模型对噪声分布和噪声强度具有较好的鲁棒性。 未来还可以在数据集设计、噪声模型和网络结构上进行优化。 另外,作为红外图像降噪的一个重要预处理手段,可以考虑将其和后续任务结合进行研究。