李 芸,朱树先,祝勇俊
(苏州科技大学 电子与信息工程学院,江苏 苏州 215009)
随着模式识别领域的不断发展,身份识别验证领域越来越多地应用生物特征识别等方法。人脸与人体的其它生物特征(指纹、虹膜等)一样与生俱来,它的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提。其中,人脸识别因其便捷性、非强制性、非接触性、识别对象不易伪装等特点,已广泛应用于金融、司法、公安、边检、医疗及众多企事业单位等领域,在门禁考勤系统、档案管理系统、电子护照及身份验证、公安系统的罪犯身份识别、银行和海关的监控、信息安全和安全支付等领域有着重要应用[1]。
径向基函数(Radial Basis Function,RBF)神经网络广泛应用于人脸识别领域,并取得很好的识别效果,其具有良好的学习能力和很强的泛化性能,被公认为小样本条件下模式识别性能最好的神经网络之一[2]。同时,RBF 神经网络在智能控制和故障检测方面亦有较好的表现[3-4]。在模式识别方面,一般情况下,采用RBF神经网络作为分类器,所做的训练和识别为单类别识别,即每一类的样本都具有相似的属性特征。以人脸识别为例,单类别样本是指每一类的人脸图像都取自于同一个人,在这一类样本中选取一部分作为训练样本,一部分作为识别样本,对该类进行训练和识别。多类混叠样本是指每一大类包含两个或两个以上的人脸图像样本,把不同的人脸作为一大类样本进行训练、识别的分类方法。针对基于隐层神经元数目的增减、径向基函数中心、 宽度以及输出权值等参数的RBF 神经网络的优化问题已成为当前RBF 神经网络研究的一个热点。赵文可[5]提出的一种弹性RBF 神经网络结构的优化设计方法,基于神经元的活跃度以及神经元修复准则,调整RBF 神经网络隐含层神经元的各参数以及隐含层与输出层神经元之间的连接权值。该算法解决了网络结构过大或过小的问题,同时在分类器训练过程中,能够弹性适应同类图像的微小变化,从而提高分类器的识别准确率。蒙西[6]提出的基于快速密度聚类的RBF 神经网络设计。该算法能够基于快速密度聚类的方法以紧凑的网络结构和较快的收敛速度获取较好的非线性映射能力。而本文提出的基于RBF 神经网络的多类混叠人脸识别方法,并没有考虑如何通过修改隐层神经元数目的增减、径向基函数中心、宽度以及输出权值等参数优化RBF 神经网络,而是考虑能否牺牲部分识别率,换来与单类别人脸识别相比,更具有普遍性和实用性的多类混叠的人脸识别方法。
RBF 网络是一个三层神经网络,分为输入层、隐含层和输出层,如图1 所示。假定输入向量p∈Rn,表示p为一个n 维列向量。RBF 神经网络隐含层神经元的激励函数选为高斯函数,隐含层神经元的个数为N,输出向量p∈RM,是一个M 维的列向量,对于训练样本而言,需要提供一个标准的期望输出向量。例如,如果共分为三类,对第二类的训练样本,它的期望输出向量为最大元素所在的行数即为该样本所属的类别,即期望输出则RBF 核函数可表示为(0 1 0)T。其中,T 表示转置。对于测试样本而言,输出的列向量中哪一行的值最大,就表示输出的是哪一类[7]。
式中,隐含层神经元中的基函数用以实现从输入向量到Ri(p)的非线性映射;p 是n 维输入向量;ci是高斯函数中心;σi是该函数围绕中心点的宽度;‖p-ci‖为输入模式与中心向量之间的距离。
图1 RBF 网络的工作原理
输出向量实现从Ri→Ol的线性映射,见下式
RBF 网络的待定参数有基函数的中心向量ci,形状参数,隐含层与输出层之间的权值w。ci和σi可通过经验预先获得。
RBF 网络所具有的优异性能是在与其他广泛应用于模式识别的神经网络的比较基础上得出的。其中,最典型的就是BP 神经网络。在单类别识别且不涉及多类混叠前提下,关于两者性能的比较,本文作者已经做了详细的分析论证。与BP 神经网络相比,RBF 神经网络的各方面,诸如识别率、运算速度,稳定性等性能远远优于BP 神经网络,由于本文所述方法在于既可用于单类别模式识别,又可用于多类别混叠识别,鉴于BP 神经网络在单类别模式识别方面的表现远不如RBF 神经网络,故本文仅探讨RBF 神经网络的优点,而忽略对其他神经网络的比较[8]。
RBF 网络所具有的优异性能是和RBF 本身的性质密不可分的。RBF 是一个典型的局部性核函数,仅仅在测试点附近小领域内对数据点有影响,它使用局部指数衰减的非线性函数(如高斯函数)对非线性输出映射进行局部逼近。这使得在逼近非线性输入输出映射时,要达到相同的精度,RBF 网络所需的参数相对少了许多,且具有极快的收敛速度。因此,RBF 网络在泛化性和小样本分类方面都具极佳的性能[9-11]。
本文以Matlab7.5 为开发平台,神经网络工具箱为Matlab7.5 自带。本实验采用两种方案来进行训练和测试样本集的选择。方案一为多类混叠识别测试,方案二为单一类别识别测试。
本文假定以汽车或智能家居中的人脸自动识别系统为应用背景,将训练和识别对象分为主人、客人和陌生人三类。选取ORL 人脸库中的50 人,每人取10 张脸部图像为研究样本,共500 张人脸图像。将上述的500 张人脸图像分为5 组,目的是进行5 次的训练和识别实验。这样,每次实验以10 个人为一组,每组中选取2 个人划分为第一类,即主人,选取3 个人划分为第二类,即经过主人授权允许进入的客人,选取其余的5个人划分为第三类,即陌生人或非法入侵者。从样本划分来看,在多类混叠方面具有随机性和不确定性。
在训练样本和测试样本的选取方面,对于每个人的10 张人脸图像中,取4 张作为训练样本,6 张作为测试样本。5 组人脸图像共有300 张作为测试样本,与通常所用的单一类别测试结果相比较,识别准确度略有降低。在下面讨论过第二种,即单一类别样本的训练和测试和测试后将在表1 中对两种测试结果进行统一对照。
为了与前述的多类混叠识别方法相比较,方案二与方案一在样本上选取一致,即神经网络的输入变量是一样的,只是输出不同。例如,方案一训练的输出是3 行1 列的列向量,代表3 类。而方案二的输出是10 行1列的列向量,表示分为10 类,每一类是单一类别,也就是代表一个人。
同样选取ORL 人脸库中的50 人,每人取10 张脸部图像为研究样本,共500 张人脸图像。将上述的500 张人脸图像分为5 组,目的是进行5 次的训练和识别实验。这样,每次实验以10 个人为一组,这样每组分为10 类。
在训练样本和测试样本的选取方面,对于每个人的10 张人脸图像中,取4 张作为训练样本,6 张作为测试样本。5 组人脸图像共有300 张作为测试样本。实验发现,单一类别的识别率略微高于多类混叠识别方法。
表1 单一类别和多类混叠在识别性能上的比较
RBF 神经网络具有收敛速度快、识别精度高、稳定性强、算法相对简单等诸多优点,在多层前向网络类型中可作为首选。在模式识别领域中,对多类别混合后其性能是否退化尚未见有文献进行专门的讨论。通过对多类混叠后的人脸图像与单一类别的人脸图像进行试验对比,发现经过多类混叠后,与单一类别的识别相比,RBF 神经网络的识别性能在各组表现出的稳定性等指标没有出现明显的退化。从另一方面也证实了RBF 神经网络具有适应性强、稳定性好,在学习能力和泛化能力方面都有优异的表现。