摘要:瞳孔中心是眼动追踪、人脸识别等计算机视觉领域中的精细参数,实现瞳孔中心自动检测具有广泛的应用价值。论文结合Faster RCNN模型,提出一种细分虹膜形状特征与图像梯度法的人眼瞳孔定位算法。首先,对图像进行光照补偿预处理,在此基础上,利用改进的ResNet50作为Faster RCNN模型的骨干网络来检测人脸和眼睛;其次,通过几何约束对眼睛区域进行选择,采用积分图像法实现虹膜区域检测;最后,通过图像梯度算法进行瞳孔中心定位。实验结果表明:该算法在GI4E数据集及自建的面部数据集上能够较精确地实现瞳孔中心定位,并且在归一化误差0.2阈值内,分别达到了100%和99.46%的定位精度,具有较好的鲁棒性和实时性。
关键词:瞳孔中心定位;Faster RCNN;图像梯度;ResNet50;积分图像
中图分类号:TP391.4;TP183文献标志码:A眼睛是面部特征归一化的突出特征,瞳孔识别是计算机视觉应用和众多面部生物识别应用的关键步骤。对于瞳孔中心定位,眼睛的检测起着重要的作用。然而,由于眼睛外观的高度差异性,眼中心定位仍然是一项艰巨的任务。所谓差异性是指眼睛结构差异,以及外部环境因素引起的变化,特别是虹膜大小、颜色的变化、图像质量和遮挡等。为了解决此问题,研究人员试图将面部和眼睛作为感兴趣区域(region of interest,ROI),以更好地定位眼中心。Voila-Jones和Boosted cascade人脸检测器[1]是目前常用的基于浅结构的人脸检测技术。对于眼睛检测,多使用图像梯度信息[2],也有实验使用卷积神经网络进行眼部检测,但性能在姿态和尺度变化下易下降。一般来说,瞳孔中心定位方法分为3类: 基于几何特征的方法、基于外观统计的方法以及混合方法。TIMM等[3]提出基于梯度向量和位移向量的点积进行眼中心定位,但镜面反射以及眼睛的反光会对梯度向量造成影响; 张婉琦等[4]通过改进的支持向量机(support vector machine,SVM)对低分辨率眼部图像进行瞳孔识别,虽然鲁棒性较好,但不满足实时性; LEVINSHTEIN等[5]提出一种基于级联回归树和梯度直方图特征的两阶段瞳孔中心检测方法,虽然精度较高,但计算量大; CHOI等[6]基于卷积神经网络定位出戴眼镜用户的瞳孔中心,但在姿势变化和模糊的图像中存在一定的局限性。
针对上述既有方法的不足之处,本文在Faster RCNN模型的基础上,提出一种基于强度和梯度的瞳孔中心定位方法。该方法利用Faster RCNN进行人脸检测确定ROI,并在ROI中重新利用Faster RCNN检测眼睛,加入高效通道注意力(efficient channel attention,ECA)的ResNet50作为其主干网络,完成眼部图像预处理; 通过细分虹膜形状特征并结合基于梯度的方法精确定位瞳孔中心。
1人脸和眼睛检测
1.1预处理
在实际的人脸和眼睛检测过程中,由于外界环境因素的影响,从而导致图像退化和应用价值减弱。为了确保目标模型检测的准确性,本文进行直方图均衡化[7],通过减少强度差来改善图像的光照变化。此外,由于深度学习的目标检测模型受到数据库的限制,因此,有必要进行数据增强,本文通过旋转、平移、翻转等多种方式处理现有数据集,以提高模型泛化能力。
1.2基于Faster RCNN的人眼粗定位
Faster RCNN[8]由两个模块组成,深度卷积神经网络(deep convolutional neural network,DCNN)作为区域建议网络(region proposal network,RPN),随后Faster RCNN检测器基于建议区域进行检测。本文使用ResNet50[9]作为特征图提取的基础网络。RPN模块使用注意力机制,使得Faster RCNN模块关注与目标相关的区域。Faster RCNN基础架构如图1所示。
RPN从基础网络的最后一层获取卷积特征映射,生成区域建议并预测目标的概率。非最大抑制(non-maximum suppression,NMS)删除与其他框重叠的框,然后将特征送入分类层和回归层,回归层将细化对象上的边界框,根据目标实际的位置和尺寸调整初始中心点和锚框的大小。
眼睛检测性能不仅取决于图像标注过程,同时受模型选择的影响。ResNet50可以直接用于人脸和眼睛检测,但精度并不理想,通过引入注意力机制虽然可以提高性能,但也会增加整体计算负担。残差网络可以在不使梯度消失的情况下帮助构建更深的网络,其计算复杂度不受残差网络的影响。因此,本文在ResNet50的残差块中引入ECA[10]模块,在提高识别精度的同时,尽可能地降低其带来的计算复杂度影响。图2为加入ECA模块前后的残差块结构图。
2瞳孔中心定位
虹膜区域的平均强度小于眼睛特征周围区域,细分虹膜形状特征主要对比区域的平均强度信息来区分虹膜和其它区域。在基于梯度的方法中,闭合的梯度向量朝目标中心对齐,梯度向量和位移向量的点积最大值提供瞳孔中心的位置信息[11],并且带有点积和位移向量的梯度向量角度分布可以更好地定位瞳孔中心,其中,角度分布是轴和位移向量间的夹角。
虹膜的原始形状特征由1个中心单元和周围8个相同大小的相邻单元组成。图3(a)为原始虹膜形状特征,由于虹膜区域的强度与眉毛、遮挡在眼部周围的头发以及镜片的强度相似,原始虹膜形状特征提取技术受此影响往往无法精准定位瞳孔中心,因此,本文提出了4种细分虹膜形状特征,细分区域仅包含虹膜及其邻近区域,如图3(b)—(e)所示,将4种特征进行组合以检测眼睛中心。周边区域(R1,R2,R3,R4)的平均强度大于虹膜区域(R0)的强度,如果R0的平均强度大于周围区域,则该像素位置为非眼睛像素。虹膜大小为面部的7%,其计算公式为
对于虹膜检测,仅考虑细分虹膜形状特征寻找虹膜区域,如果满足细分虹膜特征约束条件,则计算梯度向量的对齐分数。在瞳孔中心定位中,梯度向量对齐也是其中关键因素之一,大多数闭合的梯度向量向眼中心对齐[13],其更倾向于图像中圆形和半圆形物体的中心。进一步地,通过计算梯度与位移向量间的点积关系确定瞳孔中心,其目标函数表达如下:
3实验结果与分析
3.1实验数据
3.2评价指标
3.3结果与分析
为了证明所提出的方法在检测面部和眼睛方面的有效性,在labelimg中标记数据集用于训练Faster RCNN,eopch为100,批次为32,学习率为1×10-4,优化器为Adam。通过手动调整阈值获得具有高置信度分数的人脸和眼睛。表1展示了与现有人脸检测方法的对比,表中Faster RCNN的特征提取网络为原始ResNet50,“+”代表在其基础上添加模块。
从表1可以看出,Voila-jones和Boosted cascade人脸检测器使用手工制作的特征,在受控环境下表现良好,而在复杂环境下,性能会出现下降。相较之下,在经过数据增强和训练后的Faster RCNN模型中,准确率得到显著提升,在此基础上加入ECA模块改进特征提取网络,模型的准确率进一步提升,在GI4E和自行收集的数据集上准确率分别为97.42%和91.89%,计算时间分别为0.188 s和0.195 s。相比较基础Faster RCNN,所加入的ECA模块在提高性能的同时并没有过多的增加计算复杂度。
表2展示了本文方法与现有技术检测眼睛性能的对比,结果表明人脸检测将面部识别为ROI,Faster RCNN只在面部上进行眼睛检测,提高了精度和计算速度,在两个数据集上准确率分别为98.89%和93.07%,计算耗时分别为0.175 s和0.189 s。图7显示了在两个数据集上的人脸和眼睛检测结果,其中,第一行为GI4E数据集,第二行为自行收集的数据集的部分图例。
图8为本文在两个数据集中的瞳孔中心定位结果,白色圆心点即为定位的瞳孔中心位置。表3给出了瞳孔中心定位在两个数据集中的性能分析。实验结果表明本文方法在不同指标下的定位精度是可靠的,甚至在佩戴眼睛的情况下也能正确定位瞳孔中心。特别地是,自行采集的数据集是由50个儿童连续20帧图像组成,所获得的精准瞳孔中心定位对于实时性眼动追踪的研究具有代表性。
表4提供了在GI4E数据集上与现有先进方法的准确率比较。多数工作检测到的眼睛较为粗糙,并且使用手工制作的特征训练模型,造成后续眼睛中心定位精度不佳。本文通过深层特征进行眼睛检测,有效地提升了瞳孔中心定位性能。
表5展示了本文算法从检测眼睛到定位瞳孔中心的处理时间与其他文献的对比,可以看出,所提方法效率更高,速度更快,平均每张图像处理时间为41.25 ms。
4结语
实现瞳孔中心的自动检测,在疾病诊断、生物识别和驾驶员困意监测等领域有着广泛且重要的应用价值。本文提出一种基于光照补偿技术、Faster RCNN模型、虹膜形状特征和图像梯度的瞳孔中心定位方法。本文首先使用直方图均衡化对图像进行光照补偿,然后基于Faster RCNN模型定位人脸ROI,结合几何约束再次运用Faster RCNN模型提取眼部区域,通过积分图像计算强度以检测虹膜区域,最后基于虹膜形状的梯度信息求解目标函数的最大值获取双眼瞳孔中心位置。实验结果表明,本文所提算法较好地实现了瞳孔中心的精准快速定位,具有一定的实用性,但在实际应用中还需考虑闭眼、部分遮挡等情况下算法的优化。参考文献:
[1]AHMED M, LASKAR R H. Eye detection and localization in a facial image based on partial geometric shape of iris and eyelid under practical scenarios[J]. Journal of Electronic Imaging, 2019, 28(3): 033009.1-033009.17.
[2] 王晶仪, 王艳霞, 朱原雨润, 等. 一种基于ALO优化和图像梯度的瞳孔中心定位算法[J]. 电脑知识与技术, 2022, 18(17): 86-88.
[3] TIMM F, BARTH E. Accurate eye centre localisation by means of gradients[C]//Proceedings of the Sixth International Conference on Computer Vision Theory and Applications. Vilamoura: SciTePress, 2011.
[4] 张婉绮, 王志永, 刘洪海. 基于改进SVR的眼睛中心定位方法[J]. 模式识别与人工智能, 2019, 32(1): 17-23.
[5] LEVINSHTEIN A, PHUNG E, AARABI P. Hybrid eye center localization using cascaded regression and hand-crafted model fitting[J]. Image and Vision Computing, 2018, 71: 17-24.
[6] CHOI J H, LEE K I, KIM Y C, et al. Accurate eye pupil localization using heterogeneous CNN models[C]//Proceedings of 2019 IEEE International Conference on Image Processing (ICIP). Taipei: IEEE, 2019.
[7] 涂毅晗, 汪普庆. 基于多尺度局部直方图均衡化的矿井图像增强方法[J]. 工矿自动化, 2023, 49(8): 94-99.
[8] 张杰. 基于改进Faster-RCNN的小目标检测[J]. 现代计算机, 2023, 29(14): 14-18.
[9] 张典范, 杨镇豪, 程淑红. 基于ResNet50与迁移学习的轮毂识别[J]. 计量学报, 2022, 43(11): 1412-1417.
[10]李秉涛, 何勇, 袁琳琳. 基于ECA和YOLOv4的轻量级目标检测网络设计[J]. 传感器与微系统, 2023, 42(9): 100-104.
[11]AHMED M, LASKAR R H. Evaluation of accurate iris center and eye corner localization method in a facial image for gaze estimation[J]. Multimedia Systems, 2021, 27(3): 429-448.
[12]蒋睿, 张素文, 汪创. 基于智能手机平台的积分图像并行算法优化与实现[J]. 电子技术与软件工程, 2018(14): 61-62.
[13]王鹏, 苑硕, 董鑫, 等. 基于图像梯度和改进椭圆拟合算法的视线追踪方法[J]. 扬州大学学报(自然科学版), 2023, 26(4): 48-53,60.
[14]VILLANUEVA A, PONZ V, SESMA L, et al. Hybrid method based on topography for robust detection of iris center and eye corners[J]. ACM Trans Multim Comput Commun Appl, 2013, 9(4):1-20.
[15]JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the hausdorff distance[C]//Proceedings of Audio-and Video-Based Biometric Person Authentication(AVBPA). Heidelberg: Springer, 2001.
[16]KIM H, KIM J, PARK R. Efficient and fast iris localization using binary radial gradient features for human-computer interaction[J]. Int J Pattern Recognit Artif Intell, 2017, 31(11): 1756015.1-1756015.19.
[17]AHMED M, LASKAR R H. Eye center localization in a facial image based on geometric shapes of iris and eyelid under natural variability[J]. Image and Vision Computing, 2019, 88: 52-66.
[18]王鹏, 温宏韬, 王世龙. 基于近眼红外图像的高精度瞳孔中心定位方法[J]. 哈尔滨理工大学学报, 2022, 27(5): 38-46.
[19]XIA Y, LOU J, DONG J, et al. Hybrid regression and isophote curvature for accurate eye center localization[J]. Multimedia Tools and Applications, 2020, 79(1): 805-824.
[20]AHMED N Y. Real-time accurate eye center localization for low-resolution grayscale images[J]. Journal of Real-Time Image Processing, 2021, 18(1): 193-220.
(责任编辑:于慧梅)
Pupil Center Localization Based on Intensity and Image Gradient
CHENG Zihao1, PEI Yuyao1, ZHOU Yixiang3, ZHANG Wendong1, WANG Changqing1,
ZHOU Xuan WANG Yanling WU Qian
(1.School of Biomedical Engineering, Anhui Medical University, Hefei 230012, China; 2.School of Humanistic
Medicine, Anhui Medical University, Hefei 230032, China; 3.School of Health Management, Anhui Medical
University, Hefei 230012, China; 4.The Third People's Hospital of Hefei, Hefei 230022, China)Abstract: Pupil center is a precise parameter in eye tracking, face recognition and other computer vision fields, and the realization of automatic pupil center detection has a wide range of application value. Combined with the Faster RCNN model, this study proposes a pupil localization algorithm for the human eye based on the segmented iris shape features and the image gradient method. First, the image is preprocessed with light compensation, and on this basis, the improved ResNet50 is used as the backbone network of the Faster RCNN model to detect the face and eyes. Then, the eye region is selected by geometric constraints, the iris region is detected by the integral image method, and finally the pupil center is localized by the image gradient algorithm. The experimental results show that the algorithm can achieve pupil center localization accurately on the GI4E dataset and the self-built facial dataset, and achieves 100% and 99.46% localization accuracies within the normalized error threshold of 0.2, respectively, with good robustness and real-time performance.
Key words: pupil center localization; Faster RCNN; image gradient; ResNet50; integral image