基于多语义融合与ArcFace损失的指静脉识别算法

2022-02-23 02:50王智霖徐文贵
关键词:残差卷积语义

王智霖,沈 雷,徐文贵,李 琦

(杭州电子科技大学通信工程学院,浙江 杭州 310018)

0 引 言

近年来,为保护个人信息安全,越来越多的技术被用于鉴别信息访问者的身份。传统的身份认证对个人信息的安全保护存在很大的局限性,难以满足安全的需求。静脉识别是一种新兴的生物识别技术,应用越来越广泛。目前,指静脉识别技术主要分为传统方法和深度学习方法。传统方法主要通过指静脉图像空间域和变换域中各像素之间的相关性与差异性来表征静脉,可以真实表达指静脉的物理结构。文献[1]首次采用线性跟踪法来提取静脉的纹路特征;文献[2]提出一种基于最大曲率的静脉纹路提取方法;文献[3]使用局部二值模式提取静脉的纹理特征,取得较好的识别效果;文献[4]采用尺度不变特征转换方法提取指静脉图像特征,对旋转平移具有一定鲁棒性。传统方法提取的特征能够真实反映图像中指静脉的边缘、角点线等细节特征和纹理结构信息,但包含较少语义信息,难以进一步表达指静脉信息,特征提取时受噪声干扰影响较大,导致提取的指静脉特征不稳定。在深度学习领域,卷积神经网络因其强大的特征表达能力而迅速发展。运用卷积神经网络在大量样本中学习,从而获取指静脉图像的高级语义特征。高级语义的较低级特征更加抽象,包含更多语义信息,有利于对指静脉图像进行分类表达。文献[5]使用空间金字塔池化实现了网络输入自适应,并通过缩小卷积核以获取更加细致的指静脉特征,但该网络仅有8层,不能充分提取具有高级语义信息的指静脉特征;文献[6]采用Resnet-18网络提取指静脉高级语义特征,但对于较模糊指静脉图像,所提取的高级特征仍不能满足准确分类的要求。虽然指静脉深度学习方法取得了一定成绩,但在识别过程中,未能充分利用指静脉的各级特征,仅利用指静脉在网络高层的特征进行识别,忽视了指静脉的低级特征。此外,指静脉图像采集时,受用户放置方式、同类图像平移旋转等问题的影响,导致类内距离偏大。虽然文献[7]加入中心损失来约束指静脉的类内距离,提升了识别效果,但指静脉图像静脉结构不明显且背景相似度高,异类图像中心点难以区分。导致训练难度提升。本文提出一种基于多语义特征融合网络与ArcFace损失的指静脉识别算法,充分利用指静脉图像特征,提出多语义特征融合网络,并在损失函数中加入ArcFace损失项,在角度域增加类间的角边距,实现了类间距离的分离和类内距离的收敛。

1 多语义特征融合网络

本文提出的多语义特征融合网络结构如图1所示,主要由特征提取网络、特征融合模块、平均池化层、Flatten层、全连接层构成。特征提取网络主要由输入卷积块与24个改进的残差单元组成,其中输入卷积块由1个实例规范化层、1个ReLU函数激活层、1个1×1卷积层构成,每个残差单元由2个3×3卷积层和1个SE模块(Squeeze-and-Excitation)组成。特征融合模块主要由1个实例规范化层、1个ReLU函数激活层、1个1×1卷积层、1个最大池化层构成。

图1 多语义特征融合网络结构

首先,将输入指静脉图像归一化为1×112×112,经过3×3输入卷积层、BN层、ReLU层后,输出尺寸为64×112×112的特征图,再依次经过24个改进的残差单元获取指静脉各级语义特征(512维);然后,经过特征融合模块得到指静脉的2 048维多语义特征;最后,经全连接层进行分类,反向传播更新损失。

1.1 多语义特征的提取

为满足多语义特征融合,应确保网络获取丰富的指静脉各级语义特征,并避免出现各级语义特征的重叠,因此,多语义特征提取网络的设计至关重要。本文对提取指静脉多语义特征网络进行改进。

(1)采用1通道输入卷积层,并使用3×3小卷积核,在降低参数量的同时减少因感受野增大带来的指静脉细节损失,使得网络提取的指静脉特征更细致、更真实,为后续进一步准确提取指静脉各级特征打下基础。

(2)为确保网络获取丰富的指静脉各级语义特征,改进残差单元结构。采用双卷积结构的残差单元来增加残差单元内有效特征的提取层数,拉大相邻残差单元输出特征的差异。为了进一步增强各级语义特征的代表性,本文引入特征通道注意力机制——SE模块,使网络能够学习不同特征通道的重要程度,增强网络对指静脉有效特征的表达以及对冗余特征的抑制,进而增强各级语义特征的代表性。

(3)为避免出现各级语义特征的重叠,采取阶跃式残差单元分布,增加网络高层残差单元数量,减少低层数量,提高网络各级特征的差异,使网络各级语义特征表达更加准确,最终网络残差单元分布数量依次为3,3,9,9。

1.2 多语义特征的融合

在深度学习指静脉识别算法中,神经网络低层卷积部分的感受野较小,主要提取静脉亮度、边缘角点等局部细节特征。在更高层次网络中,随着层数加深,进一步提取静脉纹理、几何形状等抽象信息,可以获取更加复杂抽象的指静脉语义特征。为了充分利用指静脉的各级语义特征,本文设计了特征融合模块,模块由4个特征预处理单元和平均池化层、Flatten层构成。

(1)为了保持指静脉各级语义特征作用的比例一致性,采用特征预处理单元对各级残差单元输出特征图进行尺寸、通道变化预处理,每个特征预处理单元由1个1×1卷积层、1个最大池化层、1个实例规范化层、1个ReLU函数激活层构成。为了避免出现因直接采用卷积层采样导致参数量成倍增加的现象,本文采用1×1卷积层进行特征通道变化,再采用池化层采样进行特征图尺寸变化处理。

(2)指静脉图像经各级残差单元卷积运算和非线性映射,输出各级语义特征,通过维度拼接,并由平均池化层与Flatten层进行降维得到指静脉图像的多语义融合特征。通过指静脉各级语义特征的融合,保留更多指静脉轮廓、角点等细节特征和纹理形状等结构信息,改善了目前深度学习网络分类损失仅取决于高级语义特征的问题,提高了网络提取指静脉多语义特征的能力。

1.3 损失函数的设计

由于指静脉存在于人体手指内部,图像背景模糊,异类图像背景相似度高,使得异类图像的类间距离小,而标准交叉熵损失函数未对类间距离进行约束,提取的特征易在类别间产生混淆。因此,本文在损失项中加入ArcFace损失,在角度域中为异类增加角度惩罚项,增加了类间距离,进一步聚敛类内距离。为了加快网络收敛速度,采用标准交叉熵损失引导ArcFace损失收敛。本文多语义特征融合网络损失函数采用的标准交叉熵损失和ArcFace损失如下:

L=LCrossEntropy+LArcFace

(1)

式中,LCrossEntropy为标准交叉熵损失,LArcFace为ArcFace损失,

(2)

式中,N为训练集中一个批次图像的数量,n为训练集中静脉图像的类别数,xi为全局平均池化层输出特征向量,Wj为全局平均池化层输出特征向量xi属于类别j的权重向量,b为偏置项[8]。

(3)

式中,N为输入图像的批量大小,s为超球面的半径,本文取s=64,m为角度惩罚项,本文取m=0.5,θj表示权重向量Wj与特征向量xi之间的夹角。

2 仿真实验及分析

2.1 实验准备

实验服务器的GPU为NVIDIA TITAN RTX,使用的深度学习框架为PyTorch,模型训练阶段批次大小为16,全局学习率为0.000 1,通过自适应矩估计(Adaptive Momentum Estimation,ADAM)优化器对损失函数进行优化,其中学习率为0.05,动量为0.09,指静脉特征向量维度为2 048。

实验的数据集包括3部分,分别是马来西亚理工大学指静脉集FV-USM、课题组通过实验采集的正常图像库和特殊图像库。

FV-USM数据集共有492根手指的信息,每根手指分2个阶段采集,每阶段采集6次,共5 904张图像。将FV-USM中的2个阶段数据集合并,共492根手指×12张图像。选取前400根手指的图像作为训练集,经过旋转、平移、缩放、亮度变换后,图像数量扩充至143倍,训练集图像数量为400×12×143=686 400张。剩余92根手指的图像作为测试集,图像数量为92×12=1 104张。

正常图像库由课题组自主研发的850 nm波长红外摄像头的指静脉模块采集,共有4 600根干净手指的信息,每根手指有6张图像,共24 000张图像。选取4 000根手指静脉图像作为训练集,经过旋转、平移、缩放、亮度变换后,图像数量扩充至143倍,训练集图像数量为4 000×6×143=3 432 000张。剩余600根干净手指静脉图像作为测试集,图像数量为600×6=3 600张。

特殊图像库由课题组自主研发的850 nm波长红外摄像头的指静脉模块采集,共有64根手指的信息,每根手指进行8种方式放置,每类方式有10张图像,共5 120张图像。

通过ROC曲线来分析识别率。ROC曲线中,横坐标为误识率(False Acceptance Rate,FAR),纵坐标为拒识率(False Rejection Rate,FRR)。1∶1匹配时,异类手指的静脉图像被判定为同类手指的比例称为误识率,不同时间采集的同类手指静脉图像被判定为异类手指的比例称为拒识率,FAR等于0时的拒识率称为零误识拒识率[11]。

通过统计Top1排序成功率来分析Top1排序。选取同类第1张图像作为模板,类内其余手指作为验证图像,将验证图像与模板和类外图像进行比对,模板排序为第一的比例即为Top1排序。

2.2 网络特征可视化

指静脉图像经过网络各级残差单元后,保存各通道的图像,得到网络各级残差单元输出特征图,输出的部分特征图如图2所示。为了方便对比观察,特征图均归一化到同一尺寸。

图2 网络各级残差单元输出特征图

从图2可以看出,网络低层卷积部分输出的指静脉特征图一般为静脉亮度、边缘、角点等局部细节特征,随着网络层数的增加,网络中层提取到指静脉纹理形状等复杂信息,经过一系列卷积运算后,网络高层输出的指静脉特征图更加复杂抽象,包含更多语义信息。

2.3 特征图距离

2.3.1 视觉效果

将同一指静脉图像输入到多语义特征融合网络中,保存各通道的图像,得到特征图如图3所示。图3中,为了便于人眼观察,选取第一级残差单元和第二级残差单元输出特征图。从图3可以看出,图3(a)和(b)中,特征图过渡更平滑,特征重复率高;图3(a)和(c)之间的差异更加明显,特征重叠率明显下降。

图3 不同残差单元结构的特征图

2.3.2 欧式距离

欧氏距离是度量图像差异度的常用指标,欧氏距离越小,图像之间的差异越小。分别统计单特征提取层结构(BottleNeck)和本文残差单元结构特征图的最小欧氏距离、最大欧式距离、平均欧式距离,结果如表1所示。

表1 不同残差单元结构特征图欧式距离

从表1可以看出,采用本文残差单元结构的欧式距离均高于单特征提取层结构,说明改进后的残差单元结构拉大了特征距离,减弱了各级语义特征的重叠。

2.4 识别性能

分别使用ResNet-18网络、ResNet-34网络、指静脉经典残差网络[7]、本文方法无特征融合网络、本文方法有特征融合网络进行特征提取,得到的ROC曲线如图4所示,Top1排序如表2所示。

表2 不同网络在不同数据集上的Top1排序 单位:%

图4 不同网络在不同数据集上的ROC曲线

从图4可以看出,当FAR为0时,采用本文有特征融合网络的FRR最低,与文献[7]网络比较,分别降低了8.89%,6.89%和14.68%,提高了识别率。

从表2可以看出,本文有特征融合网络的Top1排序最高,相较文献[7]方法,分别提升了2.85%,5.10%和9.07%。

本文还针对特殊图像库不同放置类型进行零误识拒识率与Top1排序性能比较,得到的5种网络的零误识拒识率和Top1排序如表3所示。

表3 不同网络在特殊图像库中的零误识拒识率与Top1排序 单位:%

从表3可以看出,在各类型特殊图像中,本文有特征融合网络的零误识拒识率均低于其他网络,Top1排序成功率均高于其他网络,说明本文有特征融合网络同样适用于各类特殊图像。

2.5 识别时间

选取FV-USM测试集(图像数量为92×12=1 104张),分别统计ResNet-18网络、ResNet-34网络、指静脉经典残差网络[7]、本文方法无特征融合网络、本文方法有特征融合网络的特征提取时间,结果如表4所示。

表4 不同网络的特征提取时间 单位:s

从表4可以看出,ResNet-18网络的层数较少,特征提取时间最短,本文方法的无特征融合网络和有特征融合网络较复杂,相较其他网络,识别时间更长一些。

3 结束语

本文提出一种基于多语义特征融合与ArcFace损失的指静脉识别算法。通过融合指静脉各级语义特征,弥补了指静脉低级特征利用率低的问题,提高了识别率和Top1排序性能。但是,本文算法的融合特征维度较大、运算时间偏长,后续将针对这些问题展开进一步改进和优化。

猜你喜欢
残差卷积语义
基于全卷积神经网络的猪背膘厚快速准确测定
多级计分测验中基于残差统计量的被试拟合研究*
基于FPGA的卷积神经网络加速优化方法
基于改进残差网络的热轧带钢表面缺陷研究
基于图像处理与卷积神经网络的零件识别
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
基于深度卷积网络与空洞卷积融合的人群计数
汉语依凭介词的语义范畴