胡 颖,穆志纯
(1.山西职业技术学院 电气工程与自动化系,山西 太原030006;2.北京科技大学 自动化学院,北京100083)
人体生物特征的识别应用越来越广泛,但是人体生物特征随着年龄及环境的变化而变化,因此选取的生物特征能保证其在一定时间的稳定性尤其重要.脸部特征和耳部特征最易提取,并且不易被复制,因此用来作为研究的对象.其中耳部特征随年龄变化更小些,不易被损伤,稳定性更好,在做识别过程中不需要人主动参与,有很好的隐蔽性.相对于脸部识别,人耳图像较小,在识别过程中计算量较小.因此,人耳识别成为目前研究的重点.
根据特征提取方法的不同,人耳识别一般分为基于几何形状特征的识别[1-5]和基于代数特征的识别[6-7]两种方法.前者需要提取外耳和内耳的边缘特征,具有直观、快速的优点,但与头部姿势、拍摄角度以及光照强度等有关,使得提取的特征不够稳定;后者要求数据集包含于全局线性结构,实际应用中难以满足.因此,本文在考虑识别速度和特征稳定性的基础上,提出一种基于卷积神经网络(Convolutional Neural Network,CNN)的人耳识别方法.
卷积神经网络作为人工神经网络一种,其识别的高效性引起了广泛的重视,主要应用在语音分析和图像识别领域.卷积神经网络具有独特的多层网络结构,利用空间关系将权值在各层之间共享,减少了需要训练学习权值的数量,有效地把网络模型复杂度降至最低.当输入是图像的时候,该网络的结构较其他网络的优势更加突出.卷积神经网络将图像分解后,用一小部分作为输入,减小已有算法中特征提取的复杂度,避免了数据重建过程[8-9].卷积神经网络已经在人脸识别和检测机器人导航、手写字符识别、路人检测中得到成功的应用[10-13].
本文首先介绍了卷积神经网络原理与结构,进而对其结构和算法进行了改进并应用于人耳识别中,通过与原有算法和三层感知神经网络识别对比,结果表明改进算法的识别率要优于以前的算法.
卷积神经网络一般由输入层、特征提取层(S-层)、特征映射层(C-层)和输出层等串联形成多层神经网络,每层由多个二维平面组成,每个平面(代表一个特征)包含若干神经元.S-面由相同特征的S-元组合构成,S-层由不同特征的S-面组成.提取相同特征的C-元组合在一起形成C-面,不同特征的C-面组成C-层.二维图像由输入层直接接受,每个输入级只含有一个输入层,S-层与C-层串接形成中间级,各层互连的结构中嵌入图像特征的提取.
卷积神经网络中,每个神经元对全局图像的识别只需连接感受野的局部图像,不需对全局图像进行连接,因此降低了参数数目.在特征提取层,每个神经元的输入与前一层的感受野相连,通过提取感受野的局部特征从而确定特征间的位置,将每层的特征组合起来就得到了全局的特征信息.对于图像上全部的位置都采用同样的学习特征,降低了运算复杂度.同时,在该网络中将激活函数用sigmoid表示,可以保持特征映射的位移不变性.
在识别时,为适应输入样本可能会产生的畸变,采用特有的两次特征提取结构.在这种结构中,卷积神经网络的局部平均与二次提取是通过每一个特征提取层(S-层)和对应的特征映像层(C-层)连接来求得.
卷积神经网络的典型结构如图1所示.本文的CNN是4层网络的结构,隐含层是由S-层和C-层组成.原始图像经输入层映射到Us2层的多个平面上,表示第一次提取了原始图像的多个特征.然后,以此类推,每层提取前一层的局部特征,通过训练,对S-层神经元的权值进行修正.为保持位移旋转不变性,同一平面对应的神经元权值相等,以保持位移、旋转不变性.
图1 卷积神经网络结构图 Fig.1 Convolution neural network structure
本文的CNN网络由输入层和输出层构成,输入层的节点数为400,2个输出层节点数,其中还包含了4层隐含层.网络结构如图2所示.输入、输出层的设计:输入层、中间层(隐含层)和输出层三层结构构成了基本的卷积神经网络模型.中间层可以是多层,但研究表明,中间层的层数和神经元的个数并非越多越好.为了更好地模拟人耳特征,输入窗口的大小设置为通用的20×20,输入层节点数为400,恰好对应于20×20图像窗口中的各个像素;考虑到识别结果只判断是否为人耳,因此分类的卷积神经网络类别数为2;输出层的节点数也定位为2.
中间层的设计:CNN的中间层由图像特征增强的卷积层、数据缩减的子抽样层和两个激活函数层构成.图像特征增强的卷积层的设计主要基于信号的卷积运算来实现图像的特征增强.将输入图像的信号矩阵分别与增强图像整体特征的两个拉普拉斯算子和强化了边缘特征的两个Sobel边缘算子构成的卷积核进行卷积运算后,得到4个18×18的待测图像.利用图像局部相关性的原理在子抽样层将卷积层输出的4个18×18图像作为输入,分别进行子抽样运算后得到输出为4个9×9图像.原图像相邻4个点求取平均值得到子抽样的样点值.该设计可以有效减少数据处理运算量,又保留了原图像的主要信息.
图2 基于卷积神经网络的人耳识别原理图 Fig.2 Ear recognition schematics based on convolution neural network
激活函数层的设计分为两层:第一层中对抽样层输出的4个9×9图像分别利用激活函数进行连结,得到相应的中间输出.第二层中将4个激活函数“并与”方式与输出层连接,得出神经网络的最终判断结果.本层训练所需激活函数为9×9×4+1×4个.
本文选用北京科技大学的USTB人耳库.该库现有790幅人耳图像,每幅图像的大小为100×150,部分图像如图3所示.实验将人耳集合划分为训练集、检验集和测试集,随机选取训练集的数据作为卷积神经网络的输入,前向传播得到网络的输出;利用输出值与标签值的最大熵准则,使用反向传播算法来调整卷积神经网络权重,在验证集中检验识别准确率,随机选取训练集数据,直至识别率收敛为止,这时模型参数训练完成.在测试过程中利用训练好的模型参数对测试机进行预测,获得此卷积神经网络的最终的识别准确率.
图3 人耳样本Fig.3 Ears sample
为了进一步证实维数与旋转角度对于识别率的影响,实验测试集本文选取旋转角度为5°~35°,间隔为10°的方法进行识别.每个偏转角度从10~100维取值,每隔10维取一个值.表1,图4和图5给出了对比实验结果.
图4 识别率曲线 Fig.4 Recognition rate curve
表1 两种神经网络识别率对比 Tab.1 Comparison of recognition ratio between two neural networks
图5 不同角度的人耳识别结果 Fig.5 Ear recognition results in different angles
由图5可以看出,随着维数的增加,三层卷积神经网络和三层感知神经网络的识别概率都趋于上升.与感知神经网络相比,本文提出的卷积神经网络具有更好的识别率.当旋转角度发生变化时,两种方法的识别概率均发生变化.当旋转角度为35°时,两种方法的识别概率均优于其他角度.综合图4和图5,可得以下结论:
1)嵌入维数越大,降维后所保留的特征信息越多,识别概率越大.
2)卷积神经网络的识别率基本不受维数影响或者是影响基本没有,而感知神经网络的识别率受维数影响较大.
本文将卷积神经网络用于人耳识别中,提出一种新的识别方法.能够直接提取人耳图像特征,再利用二次特征识别方法对人耳图像进行识别,可以有效提高识别率,尤其是在人耳角度从0°~35°范围变化时,本文算法识别概率最高可达99%.实验表明,在人耳姿态发生较大变化时,本文算法仍能保持良好的识别概率,稳定性高于传统的感知神经网络.同时实验还对比了维数与识别率的关系,综合考虑维数和识别率的关系,给出了不同维数下的识别结果,通过结果对比认为卷积神经网络基本不受维数影响,这对于今后研究姿态人耳图像识别具有一定的参考价值.
[1]Iannarelli A.Ear identification,forensic identification series[M].California:Fremont Paramount Publishing Company,1989.
[2]Burge M,Burge W.Ear biometrics in computer vision[C].Proceedings of the 15th International conference of Pattern Recognition.Barcelona,Spain,2000,2:822-826.
[3]Hurley D J,Nixon M S,Carter J N.Force field energy functions for image feature extraction[J].Image and VisionComputing(S0262-8856),2002,20(5/6):311-317.
[4]Hurley D J,Nixon M S,Carter J N.A new force field transform for ear and face recognition[C].Proceedings of the IEEEInternational Conference on Image Processing.Vancouver,Canada,2000,1:25-28.
[5]Hurley D J,Nixon M S,Carter J N.Force field feature extraction for ear biometrics[J].Computer Vision and Image Understanding(S1077-3142),2005,98(3):491-512.
[6]Chang K,Bowyer K W,Sarkar S,et al.Comparison and combination of ear and face images in appearancebased biometrics[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence(S0162-8828),2003,25(9):1160-1166.
[7]Zhang Haijun,Mu Zhichun,Qu Wei,et al.A novel approach for ear recognition based on ICA and RBF network[C].Proceedings of 2005 International Conference on Machine Learning and Cybernetics,Guangzhou,China,2005,7:4511-4515.
[8]Seung H,Lee D.The manifold ways of perception[J].Science(S0036-8075),2000,290(5500):2268-2269.
[9]Lu H M,Fainman Y,Robert H N.Image manifolds[J].Proceedings of SPIE(S0277-786X),1998,3307:52-63.
[10]Lecun Y.Generalization and network design strategies[R].Pfeifer:Connectionist Research Group,1989.
[11]Simard P Y,Steinkraus D,Platt J C.Best practices for convolutional neural networks applied to visual document analysis[C].Proc of the Seventh International Conference on Document Analysis and Recognition.Washington:IEEE,2003:958-962.
[12]Ranzato M A,Poultney C,Chopra S,et al.Efficient learning of sparse representations with an energybased model[C].NIPS 2006.Cambridge:MIT Press,2007:1137-1144.
[13]Jarrett K,Kavukcuoglu K,Ranzato M A,et al.What is the best Multi-Stage architecture for object recognition[C].Proc of ICCV.Kyoto:IEEE,2009:2146-2153.