基于多任务学习的可见光与近红外虹膜融合研究

2022-11-16 02:24尤轩昂慕晓冬朱永清沈丹瑶
计算机工程与应用 2022年21期
关键词:多任务虹膜照度

尤轩昂,赵 鹏,慕晓冬,朱永清,沈丹瑶

中国人民解放军火箭军工程大学 作战保障学院,西安 710025

虹膜识别作为安全稳定的生物特征识别技术之一,已被广泛应用于智能解锁、户籍管理、法医取证等领域[1]。随着身份识别应用场景的日趋复杂,虹膜识别技术正朝着远距离、低照度的方向发展。

当前,虹膜识别在消费类移动设备上的推广使可见光虹膜识别正逐渐成为研究热点。但传统商用虹膜识别系统大多仍采用850 nm 单一波长的近红外照明,这是由于近红外成像易穿透虹膜色素,能清晰地显示出其结构纹理且有助于减轻暗光条件下人眼对补光灯的不适感[2]。不过相比于高信噪比的近红外图像,可见光虹膜图像具有采集距离远、颜色纹理信息丰富、部署容易等不可替代的优势。研究表明,可见光图像中丰富的颜色纹理特征有助于提高虹膜识别的精度。浅色虹膜在可见光成像下结构纹理清晰、成像效果好,识别性能优于近红外虹膜图像[3]。然而,深色虹膜区域因存在广泛分布的黑色素而呈现黑色或深褐色,导致其在可见光图像中的结构纹理不明显。并且深色虹膜的纹理区域狭窄,包含的结构纹理信息较少,还普遍存在眼睑和睫毛干扰等影响。另外,可见光成像自身还易受环境光照影响,存在角膜反射光斑、欠曝光等问题。以上因素都给可见光虹膜识别带来了巨大挑战。Hosseini等人[4]提出一种基于形状分析的可见光虹膜特征提取方法,并通过融合同一人的近红外和可见光虹膜特征提高了识别精度。融合多光谱虹膜图像还可有效编码互补信息以更好的对抗欺骗[5]。综上,近红外和可见光虹膜图像各有所长,研究可见光-近红外图像融合技术对于远距离、低照度识别场景下的虹膜质量增强具有重要应用价值。

1 相关研究

传统的可见光-红外图像融合算法可分为稀疏表示、多尺度变换、子空间分析等[6]。高雪琴等人[7]提出利用FPDE将源图像分解成高频分量和低频分量,再通过PCA获取高频细节和基于期望最大规则处理低频分量,重构后的融合结果边缘清晰、显著。Zhao等人[8]将融合任务看作回归问题,引入全变差惩罚和最大化期望算法,提出了一种基于分层贝叶斯方法的融合模型,突出了红外目标区域、改善了纹理细节。

传统的可见光-红外融合算法以人工精心设计的复杂融合规则为主,准确性和鲁棒性易受中间环节的影响[9-10]。近年来,深度学习技术如火如荼的发展极大促进了可见光-红外图像融合领域的进步。Chen等人[11]提出了一种基于改进U-net 和生成对抗网络(generative adversarial network,GAN)的图像融合模型,有效提升了融合结果的纹理细节与轮廓清晰度,凸显了红外目标,但在亮度均衡方面略有不足。Li 等人[12]针对传统DCNN 融合模型中的特征提取不足和退化问题提出了一种双融合层密集连接网络,提高了在融合多种任务上的性能,但所需大量配对标注的训练数据难以获取,近红外图像采用灰度代替一定程度上影响了训练效果。Jian 等人[13]提出了一种用于夜间环境的残差编-解码融合网络,该网络先在融合层利用残差块与前两个卷积层产生的中间特征和补偿特征进行融合,再通过元素选择得到重要特征输入解码器进行图像特征重建,降低计算量的同时有效减少了细节损失和伪影现象,但是当融合任务改变则需要手动调整超参数并重新训练。

综上,深度学习融合方法较传统算法在特征提取和数据表示能力方面更强,但同时需要提供的标签数据量也更大。然而,实际中获取标注数据较为困难且低用户配合度下采集的可见光虹膜图像可能同时存在多聚焦、多曝光等问题,使得以往被设计用于特定融合任务的模型显得捉襟见肘。本文基于顺序训练的多任务学习框架提出一种端到端可见光-近红外虹膜融合网络MTIris-Fusion。本文的主要内容如下:

首先,采用基于U-Net的编码-解码结构的融合主干网络,并在编码器部分加入设计的Dense Block,增强了特征融合能力。其次,针对实际虹膜样本曝光范围宽且存在离焦模糊的问题,采用多融合任务辅助训练并将预训练的ResNet50引入特征提取环节,提高了虹膜融合的鲁棒性。然后,着重设计了采用结构相似度损失(SSIM)、平均绝对误差损失(MAE)、梯度损失共同约束的单任务损失函数,并通过正则化方法减少网络训练过拟合。任务间采用弹性权重巩固(EWC)机制更新总损失函数在提高泛化能力的同时避免网络遗忘旧任务。最后,在PolyU_Cross-Spectral-Iris 数据集上的测试结果表明,本文提出的融合网络在兼顾可见光虹膜的颜色纹理与近红外高信噪比的结构纹理信息的同时,对可见光虹膜中的较大反射光斑有较好抑制作用。

2 虹膜融合网络设计

针对传统多模态图像融合方法纹理细节不清晰和重要信息保留不佳的问题。结合虹膜图像质量增强中消除反射光斑的实际需求,提出基于多任务学习的可见光-近红外虹膜图像融合方法。

2.1 多任务学习架构

在传统的深度学习图像融合方法中,实现多个任务的图像融合通常采用相同的网络结构对不同的任务训练各自的模型或将多任务的数据联合训练的方式。然而,这两种方式增加了网络学习参数的冗余度和调参成本,计算和存储开销大。高照度图像比低照度图像包含更多的纹理细节与形状等浅层特征,低照度图像中的空间结构等深层次信息占比更高。对于过曝和欠曝的虹膜图像,多曝光融合能很好地聚合两类图像中的浅层特征与深层特征。考虑到不同的图像融合任务(多模态、多曝光、多聚焦)之间既存在差异又隐含着联系且虹膜图像常包含多曝光与多聚焦数据,存在相互促进学习的可能。本文采用顺序训练的多任务架构[11],即将多个融合任务的数据按一定顺序输入网络依次训练,本文采用的多任务学习架构如图1所示。

2.2 弹性权重巩固EWC

在多任务学习网络中,训练新的任务时会造成对前序任务学习知识的丢失,即“灾难性遗忘”[13],进而导致网络性能下降。通常在不额外增加模型的前提下,解决“灾难性遗忘”问题存在以下几种不同思路。(1)利用新数据与旧数据信息竞争在减少对重要参数影响的同时促进网络对新知识的学习。(2)在多任务训练时,利用网络对新任务进行预测生成虚拟数据,在目标函数中设计约束项实现通过新数据约束旧参数来抑制遗忘。(3)引入概率分布思想,采用正则化方式约束参数更新。前2类方法多需要多分支网络实现,不适用本文单分支顺序训练的架构与数据。

因此,本文采用第3 种思路将弹性权重巩固损失(elastic weight consolidation,EWC)[13]引入虹膜融合网络,使模型可在不同任务间自适应学习参数,从而避免了模型遗忘旧任务学到的知识,实现持续学习。EWC的核心思想是利用正则化将前序任务中的重要参数保护起来,使其不易在新的训练任务中被更新。其表达式为:

式中,λ为调节权重更新的超参数,θi、θ*i分别代表网络在当前任务与前序任务学习的参数。新任务学习的每个参数都会受到前序任务学习到的参数值约束。Ωi表示网络学习到的重要权重,其理论推导为Fisher信息矩阵的对角线项,化简得:

2.3 网络设计细节

所提出的多任务虹膜融合网络(MTIris-Fusion)由编码器、解码器和融合模块三部分组成。为改善实验中出现的低照度可见光虹膜图像噪声干扰,导致融合结果中出现的颜色噪声问题,融合主干网络采用基于U-Net的编-解码网络架构。编码部分是由卷积层和最大池化层堆叠而成的下采样网络。逐步缩小特征图,增加通道数,使网络充分学习到全局和局部特征。解码器部分利用反卷积操作逐步扩大特征图并减少通道数从而上采样至原始尺寸。

在此基础上进一步改进网络。首先,取消最大池化操作以减少信息丢失。将编码-解码网络中所有的卷积层的滤波器大小设置3×3,步长为1。为减少训练过程中ReLU 在负半轴时因梯度为零而导致的局部神经元失效现象,将激活函数由ReLU替换成带泄露的修正线性单元(leaky rectified linear units,leaky ReLU),使神经元在负半轴区域更偏向于被激活。其公式如下:

式中,xi为输入,fi(xi)为输出。激活函数所固有的非线性因素决定了其负半轴的斜率过大反而会降低效果。因此,在实际训练中Leaky ReLU在负半轴的斜率ai通常取较小值,本文借鉴文献[14]中的设计将其斜率设置为0.2。由于输入图片归一化区间在[-1,1],在网络最后一层加入tanh 激活函数。在编码部分下采样层之间插入了密集连接块Dense Block,实现在层与层之间建立前馈快捷连接,从而在缓解梯度消失的同时促进了特征信息在网络中的流动。

文中的Dense Block 的结构如图2 所示,在内部每个3×3卷积前设置一个1×1卷积,在减少输入特征图的通道数的同时,通过先降维再升维的过程减少了参数与计算量,提升了训练的实时性。不同条件下参数量计算如表1所示,设输入特征图为H×W×C、经3×3卷积后输出通道数为C″,经1×1卷积后输出通道数为C′。在加入1×1卷积后参数量减少了90%左右。

表1 不同条件下参数量计算Table 1 Calculation of number of parameters under different conditions

另外,在卷积操作之前加入镜像填充(reflection padding)操作,实验显示这有利于减少输出结果的边缘伪影。解码器为4 层16 倍上采样,每层由卷积层(convolutional layer)、批标准化层(batch normalization,BN)、反卷积操作组成。在编码器与解码器的对应层间建立跳跃连接(skip connection),增强了多尺度的特征融合,不同层间的密集连接在训练中具有一定的正则化的作用,减少了过拟合的发生。

文献[12-18]指出,在可见光虹膜识别中有效特征主要来源于R 通道,与单个R 通道相比,RGB 三通道图像的识别精度反而有所降低。因此,本文仅选择可见光虹膜图像R通道分量与NIR图像输入网络进行融合。

本文设计的融合模块由特征提取网络、自适应信息权重生成2部分组成。首先,受迁移学习思想启发,特征提取部分采用在ImageNet数据集上预训练的ResNet50网络对输入的单通道可见光和近红外图像进行特征提取。其次,计算网络输出特征图的梯度值并对其进行Softmax 操作以衡量信息保留度,得到两个自适应权重ω1、ω2,由自适应权重决定了网络从不同源图像学习到的重要特征占比,考虑到可见光与近红外图像波长较近,使用常数c作为缩放因子来放大梯度gI1、gI2的差异。最终自适应权重ω1、ω2计算表达式如下:

上式中,gI1、gI2分别为可见光图像与近红外图像相应特征图的梯度。最终设计的多任务学习虹膜融合网络结构如图3所示。

2.4 损失函数设计

目前,图像融合网络的损失函数多采用结构相似度损失函数(SSIM)、MSE或SSIM+MSE的方式[19]。SSIM通过度量亮度、对比度及结构等信息的相似性程度来评价融合图像的失真程度,它能更好地保留细节纹理从而使融合结果更真实,更符合人类视觉感知。

梯度损失函数能够更好地保留近红外图像中的边缘和细节等高频信息。MAE损失函数在降噪效果上要优于MSE,但二者都忽视了图像的细节纹理。而对于虹膜识别来说,纹理细节的清晰程度决定了特征提取到的关键信息数量。因此,本文设计的损失函数综合考虑对可见光图像的降噪及近红外丰富高频信息的保留,将SSIM、MAE、梯度损失函数三者组合,最终的损失函数Ls如下:

其中,Lmae为平均绝对误差损失;Lgrad为梯度损失;Lssim为结构相似性损失;α为比例系数。

设输出图像为O,输入图像为I,可见光与近红外虹膜图像分别为I1、I2。总的SSIM损失Lssim、总的梯度损失Lgrad、总的MAE损失Lmae三项是对输出图像与可见光、近红外图像各自的SSIM损失、梯度损失、MAE损失分别赋予的上文中的自适应权值,并求其数学期望得到。表达式如下:

上式中,E[]· 表示求数学期望,ω1、ω2为根据源图像计算得到的自适应权值;SO,I1和SO,I2分别为输出与可见光图像的相似度损失、输出与近红外图像的相似度损失。其定义式如下:

式中,I=I1,I2,μI、μO为输入与融合图像的均值;σI、σO为输入图像与融合图像的方差;σOI表示输出结果与输入图像的协方差;常数C1、C2为稳定系数。

输出与输入的平均绝对误差损失(MAE)为输出与原图的之差的L1范数,表达式如下:

式中,N代表训练样本数;GO、GI为实际中为提高计算效率通过Sobel 算子计算得到的输出、输入图像的梯度。其定义式如下:

式中,第一项矩阵为水平方向上的Sobel算子,第二项矩阵为垂直方向上的Sobel算子。

因此,结合前文介绍的多任务融合网络EWC 损失更新机制,通过最小化损失函数L 来训练编码-解码网络,总损失函数表达式如下:

3 实验与结果分析

为验证融合模型的实际效果,本章分别从主观视觉效果与客观质量指标两方面对多组不同光照强度下的虹膜图像进行实验和评价。

3.1 实验设置与网络训练

本文实验的软硬件环境为:CPU为Intel®Xeon®Gold 6132 CPU@2.60 GHz;GPU为NVIDIA®T4 16 GB。操作系统为Ubuntu 18.04.5 LTS 64 bit;CUDA版本为10.1;深度学习框架为Tensorflow1.14;Python环境为3.6。

实验数据选择香港理工大学提供的可见光与近红外虹膜数据集PolyU Cross Spectral Iris。该数据集由209 名东亚个体的6 270 对可见光-近红外虹膜图像组成,所有数据均已配准和对齐。该数据集中包含大量相似样本,故仅选择其中168 人的336 组可见光与近红外配对图像作为训练集,其余82组图像用于测试。另外,还采用文献[20]提供的多曝光配对图像数据与文献[21]中的多聚焦配对图像用于后两个辅助任务的训练。

网络训练及超参数设置:由于可用于训练的图像对较少,本文将训练数据切割成大小为128×128 的补丁块,并进行随机翻转和放大的数据增强处理,最后,为便于数据转移与读取,将其打包成HDF5格式读取。初始学习率lr设置为0.001 并采用自适应策略更新,采用RMSProp 优化器更新网络的权值,损失函数中控制平衡的超参数α=20,λ=80 000、batch size 为32、训练的epoch参数分别设置为[3,2,2]。

为证明本文提出的引入自适应权重与EWC的损失函数的有效性,将所提网络与采用传统的MAE 损失函数的网络进行对比(传统的MAE 损失函数无自适应权重机制),训练过程中的不同损失函数下降曲线比较如图4 所示,采用本文损失函数的网络明显收敛速度更快,损失值更低,训练过程更稳定,更具优势。

3.2 主观质量评价

本节分别对比了高照度、低照度场景下的可见光与近红外虹膜图像在5 种不同方法下的视觉融合效果。部分实验样本分为3 组展示,如图5~7 所示。为更直观地展示,在图中对重点区域进行标注。

观察图5 和图6 可知,算法ADF、GFF、CBF 融合结果的眼部结构形态更接近可见光图像,与可见光原图相比,虹膜纹理在主观视觉上显著程度均有一定提升,过曝光现象得到不同程度的改善。这也在一定程度上反映了双光谱虹膜融合对图像质量的增强作用。然而,图5和图6中(c)~(f)的图像融合结果大多存在局部模糊,其中CBF算法的融合结果中的噪点较多甚至出现大面积失真现象。由图7 的第三组低照度样本实验结果可知,本文方法还较好地均衡了可见光与近红外虹膜图像的亮度,起到了补光作用。

如图5~7 所示,相比于其他算法,本文方法的结果不仅在形态上与近红外虹膜图像相似而且虹膜区域的结构纹理在径向与轴向分布上呈现更加清晰、细腻的特点。与近红外源图像相比,经本文方法融合后的虹膜边缘部分的颜色纹理信息更加丰富,轮廓更深,层次感更强。由此可见,本方法充分融合了可见光虹膜图像中所包含的颜色纹理信息。另外,其他融合算法结果中均存在可见光与近红外虹膜图像中的反射光斑,本文方法在可见光光斑区域融入了近红外图像对应区域的信息,进而较好地抑制了可见光图像中的补光灯反射光斑。综上所述,本文提出的方法比其他融合算法在主观视觉评价上效果更好,更具优势。

3.3 客观质量评价

结构纹理与颜色信息是影响融合后虹膜图像质量的关键因素,因此,融合结果中包含源图像信息量的丰富程度是衡量虹膜融合质量的重点。此外,许多融合算法视觉效果较为接近,仅考虑主观评价结果易受人为因素影响。因此,本文选择信息熵、标准差、峰值信噪比、空间频率、互信息5种评价指标对融合结果进行客观质量评价,其计算公式如下:

以上5种评价指标均为正指标,即值越大反映融合效果愈优。表2~3 分别为虹膜图像的高照度组与低照度组的不同融合方法在上述5 个指标上的客观评价对比结果。其中,标注加粗的数据为相应指标的最优值,标注下划线的数据为次优值。

表2 高照度组对比实验的客观评价结果Table 2 Objective evaluation results of contrast experiment in high illumination group

分析表2、表3可知,本文方法在高照度虹膜图像上的融合MI 指标明显优于其他融合方法,SD 指标和EN指标取得了次好值,接近最好值。由于CBF算法融合结果出现噪声和失真其SF 指标远高于其他几种方法,将其作为异常值考虑,比较时予以剔除。因此,本文方法的SF 指标实际为第二,略低于GFF 算法。对于暗光环境的低照度虹膜图像,本文方法在EN 指标达到最优且在SD、SF、MI 三个指标上均取得了第二。结合主客观质量评价结果分析,PSNR 指标衡量原图与融合结果的接近程度,值越大越接近清晰度越高。本文方法在PSNR指标上未优于其他几种方法可能是由于可见光虹膜图像中的反射光斑面积相对较大,融合后该区域信息由近红外图像的对应信息填补,进而导致了融合图像重建信息与原图的差异。另一方面,在存在光斑差异的前提下所提方法在PSNR 指标上仍取得了较好值。反映出算法对于原图的整体还原度较高且有效地去除了可见光虹膜图像中的光斑,相对于其他方法优势明显。

表3 低照度组对比实验的客观评价结果Table 3 Objective evaluation results of contrast experiment in low illumination group

为客观评价本文所提出方法的计算效率,如表4所示,分别统计5种方法在本文采用的虹膜图像数据上的平均单张融合时间。

分析表4可知,本文提出的方法在可见光-近红外虹膜图像融合任务上的单张平均计算时间为3.27 s,略高于ADF 算法和基于深度学习的Densefuse 方法,比GFF算法和CBF算法的计算复杂度更低,具有一定的优势。

表4不同方法在虹膜图像上的计算复杂度Table 4 Computational complexity of different methods on iris images

4 结束语

本文提出了一种基于多任务学习的端到端图像融合网络MTIris-Fusion并将其用于可见光-近红外虹膜图像融合。首先,将源图像中包含的信息量作为基准获取自适应的信息量指标,并且该自适应指标可学习,即可随着网络的训练而更新,从而保证了融合结果与原图的相似度。其次,在多任务框架下借助学习多曝光、多聚焦任务辅助可见光与近红外图像融合任务,实验结果表明,本文方法融合结果在多数客观评价指标上表现靠前,纹理细节更加丰富清晰,轮廓颜色纹理更深,虹膜边缘层次分明,较好抑制了可见光图像中存在的反射光斑噪声。通过对可见光与近红外两种不同频段成像条件下的虹膜图像进行双光谱融合,使两种虹膜图像互补的结构纹理信息与色素纹理信息,增加融合图像中包含的总信息量,增强了虹膜图像质量。下一步的工作可研究如何消除近红外图像中的小光斑目标,还可研究结合多任务学习双光谱融合的虹膜识别系统构建问题。

猜你喜欢
多任务虹膜照度
数字时代的注意困境:媒体多任务的视角*
双眼虹膜劈裂症一例
结合自监督学习的多任务文本语义匹配方法
地铁车辆照度试验方法和均匀性分析
面向多任务的无人系统通信及控制系统设计与实现
“刷眼”如何开启孩子回家之门
一种基于虹膜识别技术的车辆启动系统
“刷眼”如何开启孩子回家之门
基于Reworks操作系统的信息交互软件设计
游泳跳水馆场馆灯光照明系统的布局设计与照度测量