基于Vision Transformer的虹膜—人脸多特征融合识别研究

2024-12-27 00:00:00马滔陈睿张博
中国新技术新产品 2024年18期
关键词:计算机视觉人脸识别

摘 要:为了提高生物特征识别系统的准确性和鲁棒性,本文研究基于计算机视觉的虹膜—人脸多特征融合识别方法。本文对面部图像中虹膜区域进行提取以及预处理,采用对比度增强和归一化操作,加强了特征提取的一致性,提升了图像质量。为了获取丰富的深度特征,本文使用Vision Transformer模型对预处理后的虹膜和面部图像进行特征提取。利用多头注意力机制将虹膜和面部的多模态特征信息进行融合,再利用全连接层进行分类识别。试验结果表明,该方法识别性能优秀,识别准确性显著提升。

关键词:计算机视觉;Vision Transformer;多特征融合;虹膜识别;人脸识别

中图分类号:TP 319" " " " " " 文献标志码:A

生物特征识别技术在现代信息安全和身份认证方面发挥了重要的作用,其广泛应用于个人身份识别、访问控制和电子支付等领域。传统的人脸识别和虹膜识别技术各有其优势和不足,在单独使用的过程中不能在复杂环境中保持高精度[1-2]。人脸识别应用广泛,但是易受光照、姿态和表情变化影响。虹膜识别具有高唯一性和稳定性,在准确性和防伪性方面表现优异,但是其使用环境要求较高。

为了弥补单一生物特征识别方法的不足,本文提出虹膜与人脸的多特征融合识别方法,该方法可以提升系统的鲁棒性和识别精度,已成为研究热点[3-5]。本文提出了一种基于计算机视觉的虹膜—人脸多特征融合识别方法。对面部图像和虹膜图像进行预处理和特征提取,使用Vision Transformer模型来获取深度特征表示,利用多头注意力机制融合多模态特征信息,完成高效的分类识别。试验结果表明,该方法表现优异,识别系统的性能显著提升。

1 图像获取与预处理

1.1 虹膜区域图像获取

本研究采用预训练好的YOLO模型进行人眼检测。YOLO模型具有高效的目标检测能力,能够在复杂背景和多种光照条件下准确定位人眼区域。使用YOLO模型输出人眼边界框,从原始图像中裁剪人眼区域。在检测的人眼区域内使用Daugman微积分算子精确定位虹膜的内外圆边界。Daugman计算图像中像素值变化最大的圆形边界来确定虹膜的内外边界,对虹膜区域进行有效分割。具体来说,Daugman求解积分—微分方程来确定最佳圆形边界,采用这种方法不仅能够准确分割虹膜区域,还能够解决光照和噪声引起的图像失真问题。基于Vision Transformer的虹膜—人脸多特征融合识别结构如图1所示。

1.2 预处理阶段

在预处理阶段,对虹膜区域图像和面部区域图像分别进行详细的预处理操作,提高图像质量,为后续特征提取和识别提供更好的数据基础。对虹膜区域图像的预处理主要包括灰度化、对比度增强和归一化等步骤。灰度化将原始彩色图像转换为灰度图像以减少计算复杂度,并专注于亮度信息的处理。灰度化处理将每个像素的红、绿和蓝(RGB)三色通道值按照一定比例(例如加权平均法)转换为单一的灰度值,简化了图像的表示形式。经过灰度化处理后,图像的数据维度从三维(RGB)降至二维(灰度),降低了处理复杂度。灰度图像保留原始图像的亮度信息,对后续的图像处理和分析来说非常重要。

经过灰度化处理后使用自适应直方图均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE)的方法增强虹膜图像的对比度,使虹膜纹理更加清晰可见,提高在不同光照条件下获取的图像质量。传统的直方图均衡化方法重新分配图像的灰度值,使灰度值分布更加均匀,增强图像的对比度。但是其有一个缺点,就是在光照不均匀的图像中可能导致噪声变大和过度增强。因此,本文采用CLAHE将输入图像划分为多个不重叠的小块(tiles),对每个小块单独进行直方图均衡化处理,计算其直方图并调整像素值。这样可以在局部区域内增强对比度,不会影响其他区域。当均衡化后的小块再拼接回整体图像时,为避免区域边界出现伪影,采用双线性插值进行平滑处理。对每个像素进行插值计算,结合相邻小块的均衡化结果,使过渡更自然。这种方法有效增强了图像对比度,同时避免过度增强带来的噪声放大问题。CLAHE能够调整不同小块的对比度增强程度,在光照不均匀的情况下也能提高图像质量。

归一化处理是图像预处理中的关键步骤,将像素值缩放至标准范围内(例如0~1),以减少光照变化和其他环境因素对图像处理的影响,使后续特征提取算法能够在统一的尺度中工作,提高处理的一致性和鲁棒性。具体的归一化过程包括以下2个步骤。1)遍历图像的所有像素,找到图像的最小像素值(min)和最大像素值(max),这些值的作用是确定图像中像素值的范围。2)利用线性变换将原始像素值缩放至0~1,如公式(1)所示。

Inormalized=(I-min)/(max-min) " " " " "(1)

式中: Inormalized为归一化后的像素值;I为原始像素值;min和max分别为图像的最小和最大像素值。将所有像素值标准化,保证输入特征提取算法的图像数据在同一个尺度中,减少由不同图像间亮度和对比度差异引起的特征提取偏差,提升算法的稳定性。

面部区域图像预处理也采取类似的处理步骤。首先,将面部图像转换为灰度图像,保留亮度信息以减少处理复杂度。其次,使用CLAHE方法提高面部图像的对比度,不仅突出了面部特征(例如眼睛、鼻子和嘴巴等)的细节,使其在不同光照条件下更容易检测和识别,而且避免过度增强带来的噪声放大问题,特别适用于光照不均匀的图像。归一化处理将像素值调整至统一范围,减少光照、阴影和反射等因素带来的影响,提高图像处理的一致性和鲁棒性。

2 模型构成

在预处理阶段后,模型主要包括特征提取、特征融合和分类识别3个关键部分。下面将详细介绍这些部分的原理。

采用Vision Transformer(ViT)模型对预处理后的虹膜和面部图像进行特征提取。Vision Transformer是一种基于Transformer架构的图像处理模型,能够有效捕捉图像中的全局特征。其特征提取过程如下。

将输入图像(大小为H×W×C,C为输入图像的通道数)划分为固定大小的非重叠小块(patches),每个小块展平为一个向量。假设每个小块的大小为P×P(P为patches的边长),输入图像可以划分为N=H×W/P2个小块,H和W分别为输入图像的高度和宽度。对每个小块进行线性变换,将其映射至高维特征空间。如公式(2)所示。

z0=[x1E;x2E;…;xNE]+Epos " " " " " " " " "(2)

式中:x1为第i个小块;E为可训练的线性投影矩阵;Epos为位置编码,其作用是保留位置信息。将线性嵌入后的特征向量输入Transformer编码器中进行多层处理。每层包括多头自注意力机制和前馈神经网络。注意力机制的计算过程如公式(3)所示。

(3)

式中:Q为查询向量;K为键向量;V为值向量;Softmax为归一化函数,其作用是将输入的值转换为概率分布;为缩放因子,其作用是调节点积结果的数值范围。

为了充分利用虹膜和面部的多模态特征信息,采用多头注意力机制进行特征融合。多头注意力机制可以捕捉不同特征之间的相互关系,并将其综合,形成更为全面的特征表示。将虹膜和面部图像的特征向量进行连接,形成综合特征向量Z。对Z应用多头注意力机制,多头注意力机制的计算过程如公式(4)所示。

MultiHead(Q,K,V)=Concat(head1,…,headi)W O" " " " " " " " " (4)

式中:MultiHead为多头注意力机制;Concat为拼接操作;headi为注意力头,其计算方式与单头注意力相同;W O为一个线性变换矩阵,通常称为输出权重矩阵。

完成特征融合后,将融合后的特征输入至全连接层进行分类识别。全连接层的作用是将高维特征映射至类别空间,并输出每个类别的概率。融合特征向量 Zf输入全连接层,进行线性变换和激活函数处理,如公式(5)所示。

y=Softmax(ZfW+b) " " " " " "(5)

式中:y为输出向量,表示经过模型处理后的最终输出;W为权重矩阵;b为偏置向量;Softmax函数的作用是将输出映射至概率分布。

上述步骤构建了1个基于Vision Transformer的模型,该模型能够有效提取和融合虹膜与面部的多模态特征信息,并利用全连接层进行分类识别。

3 试验设置与分析

3.1 数据集

本文采用中科院发布的CASIA-Iris-Distance数据集,在感兴趣的图像区域内,该数据集同时包括双眼虹膜和人脸。该数据集包括142个样本类,共2 567张图像。在试验中将数据集划分为训练集和测试集,按8∶ 2的比例进行分割,即训练集包括2 054张图像,测试集包括513张图像。为了增强模型的泛化能力,在训练集中采取数据增强操作,包括随机旋转、水平翻转、光照变化和噪声添加等。随机旋转操作过程是随机选择角度对图像进行旋转,使模型能够更好地适应不同角度的虹膜和面部特征。水平翻转操作能够增加数据的多样性,防止模型依赖图像的某些固定方向。光照变化是调整图像的亮度和对比度,使模型在不同光照条件下具有更好的鲁棒性。噪声添加是在图像中加入随机噪声,增强模型在处理低质量图像过程中的表现能力。

3.2 试验细节

本文采用批次大小为32、初始学习率为0.001的配置对模型进行训练。训练过程共进行100个轮次,优化器采用Adam算法。采用8层Transformer编码器,每层包括8个多头注意力机制。多头注意力机制可以捕捉输入特征的不同维度和模式,增强模型对复杂特征的建模能力。为了防止过拟合,在研究中使用了早停技术。在验证集中,模型性能连续10个轮次不提升,训练过程将提前停止。这个策略能够有效避免模型在过长时间的训练过程中陷入过拟合。在训练过程中,本文采用学习率衰减策略,在验证集中,模型性能在一定轮次内不再提升,模型的学习率将按一定比例进行衰减,以保证模型能够更好地收敛到最优解。为了提高模型的鲁棒性和泛化能力,在训练过程中,本文引入L2正则化技术,在损失函数中加入权重的平方和,限制模型参数的大小,防止过拟合。

3.3 评价指标

在模型的性能评估指标方面,本文采用准确率(Accuracy)和F1得分 (F1 Score)。准确率是最常用的分类性能指标之一,表示模型预测正确的样本数占总样本数的比例。F1 Score综合了精确率(Precision)和召回率(Recall),精确率表示模型预测为正类的样本中实际为正类的比例,召回率表示实际为正类的样本中被正确预测为正类的比例。结合这2个指标进行分析,在数据集存在类别不平衡的情况下,F1 Score能够更全面地评估模型在分类任务中的表现。F1 Score高表明模型不仅具有较高的精确率,还具有较高的召回率,保证分类结果的准确性和全面性。

3.4 结果分析

不同模型的Accuracy和F1 Score测试结果见表1。“虹膜”表示模型仅使用虹膜特征进行识别;“人脸”表示模型仅使用人脸特征进行识别。由表1可知,单独使用虹膜特征或人脸特征的模型在识别性能方面存在差异,但是均显示各自特征在身份识别中的有效性。当仅使用一种生物特征时,模型的识别性能有限,不能充分利用多模态特征的优势。

“无多头注意力”表示当融合虹膜和人脸特征时,模型未使用多头注意力机制,仅进行简单拼接。尽管这种方法已经显著提高了模型的识别性能,Accuracy为94.24%,F1 Score为95.26%,但是缺乏对不同特征之间复杂交互关系的深度挖掘,特征融合的效果比较差。简单拼接的方法无法充分捕捉虹膜和人脸特征之间的互补信息,导致模型未能充分利用多模态特征的优势。“完整模型”表示在融合虹膜和人脸特征的过程中使用了多头注意力机制。多头注意力机制捕捉不同特征之间的深层次交互关系,提升了模型的识别性能。使用多头注意力机制的模型Accuracy为98.47%,F1 Score为98.58%,与其他模型配置相比明显更强。这个结果表明,多头注意力机制不仅能够充分利用虹膜和人脸特征各自的优势,还能够有效整合两者之间的信息。在融合过程中,多头注意力机制能够观察不同特征的细节和全局信息,提升模型在各种复杂场景中的识别能力和鲁棒性。

综上所述,试验结果验证了多模态生物特征融合的有效性。将虹膜和人脸特征进行结合,利用多头注意力机制进行深度融合,模型在识别任务中表现最佳,准确性较高,鲁棒性较强。在识别任务中,单独使用虹膜特征或人脸特征的模型均具有一定有效性,但是性能受限于单一特征的信息量和稳定性;简单拼接虹膜和人脸特征的方法能够显著提升识别性能,但是不足以充分挖掘多模态特征之间的复杂关系;引入多头注意力机制的完整模型在特征融合过程中能够有效捕捉虹膜和人脸特征之间的深层次交互关系,显著提升模型的Accuracy和F1 Score,性能更优越。

4 结语

本文提出了一种虹膜—人脸多特征融合识别方法,使用Vision Transformer模型和多头注意力机制对虹膜和人脸特征进行高效提取和融合。试验结果表明,采用多模态特征融合和多头注意力机制的完整模型在Accuracy和F1 Score方面均取得了最佳表现,与使用单一特征或不采用多头注意力机制的模型相比,性能更优越。本文为生物特征识别领域提供了新的思路和方法,为实际应用提供更可靠和高效的解决方案。未来将致力于进一步优化模型结构,提高实时性能,探索更多的多模态融合方法,以应对更广泛的应用场景。

参考文献

[1]ALAY N,ALBAITY H H.Deep learning approach for multimodal"biometric recognition system based on fusion of iris, face, and finger vein traits [J]. Sensors,2020,20(19):5523-5539.

[2]DINCA L M,HANCKE G.The fall of one, the rise of many:A survey on multi-biometric fusion methods[J].IEEE Access,2017,5(99):6247-6289.

[3]王风华,韩九强,姚向华.一种基于虹膜和人脸的多生物特征融合方法[J].西安交通大学学报,2008,42(2):133-137.

[4]肖珂,汪训昌,何云华,等.基于深度学习的虹膜人脸多特征融合识别[J].计算机工程与设计,2020,41(4):1070-1073.

[5]汪训昌.基于人脸和虹膜融合的身份识别技术研究[D].北京:北方工业大学,2019.

基金项目:公安部科技计划项目“涉毒重点人员数字化物联监测设备”(项目编号:2023YY21)。

猜你喜欢
计算机视觉人脸识别
人脸识别 等
作文中学版(2022年1期)2022-04-14 08:00:34
揭开人脸识别的神秘面纱
学生天地(2020年31期)2020-06-01 02:32:06
基于(2D)2PCA-LBP 的人脸识别方法的研究
电子制作(2017年17期)2017-12-18 06:40:55
人脸识别在高校安全防范中的应用
电子制作(2017年1期)2017-05-17 03:54:46
基于深度卷积神经网络的物体识别算法
双目摄像头在识别物体大小方面的应用
机器视觉技术发展及其工业应用
危险气体罐车液位计算机视觉监控识别报警系统设计
计算机视觉在交通领域的应用
基于计算机视觉的细小颗粒团重量测量的研究