张海英+闫德勤+楚永贺
摘 要:极端学习机作为传统单隐层前馈神经网络(Single-Hidden Layer Feedforward Networks,SLFNs)的拓展在模式识别领域成为新的研究热点之一,然而已有的极端学习机算法及其改进不能较好地利用数据蕴含的判别信息。针对该问题,提出一种基于判别信息的正则极端学习机(Discriminative Information Regularized Extreme Learning Machine,IELM)。对于模式识别问题,IELM引入同类离散度和异类离散度的概念,体现输入空间数据的判别信息,通过最大化异类离散度和最小化同类离散度,优化极端学习机的输出权值,从而在一定程度上提高ELM的分类性能和泛化能力。为了评价和验证所提出方法的有效性,使用Yale、Yale B、ORL、UMIST人脸数据进行实验。结果表明,该算法能够显著提高ELM的分类性能和泛化能力。
关键词:极端学习机;单隐层前馈神经网络;判别信息;同类离散度;异类离散度
DOIDOI:10.11907/rjdk.171232
中图分类号:TP317.4
文献标识码:A 文章编号:1672-7800(2017)007-0187-04
0 引言
近来,极端学习机(Extreme Learning Machine, ELM)吸引了越来越多学者的关注,Huang等[1-2]基于单隐层前馈神经网络(Single-Hidden Layer Feedforward Networks, SLFNs)结构提出了极端学习机。ELM不同于传统的单隐层前馈神经网络(SLFNs),而是在最小化训练误差的同时最小化输出权值[3]。ELM随机选择输入权值并分析确定SLFNs的输出权值,避免了传统SLFNs学习方法收敛速度慢及陷入局部极小解的可能。ELM具有更好的泛化能力和更快的學习速度,使其在在线和实时应用中具有较高效率。由于ELM高效及易于实施的特点,适用于分类和回归等问题[4-5]。ELM现已成功运用到不平衡数据学习[6]、人脸识别[7]、噪音数据学习[8]、在线连续数据学习[9]等实际问题中。
然而,ELM在学习过程中并未充分考虑到数据样本间的几何特征和数据蕴含的判别信息,因而在一定程度上限制了ELM的分类性能和泛化能力。为了克服ELM的上述缺陷,Alexandros Iosifidis等[10]提出了最小类方差极端学习机(Minimum Class Variance Extreme Learning Machine, MCVELM)。MCVELM通过最小化类内方差正则化ELM,不仅继承了ELM的优点,还在一定程度上克服了ELM学习过程中训练不充分及小样本问题,同时在学习过程中考虑到数据的类内分布特性及判别信息,体现出类间的判别信息。然而对于模式识别问题,不同类的数据样本位于不同的流形结构中,导致运用MCVELM时,数据样本出现信息重叠的现象,降低了ELM的分类性能和泛化能力。MCVELM在一定程度上未考虑到数据样本间的差异判别信息,同时MCVELM是在激活函数所在空间求得数据样本的离散度矩阵,而非数据样本的原始输入空间。文献[11]通过分析提出,在数据样本的原始输入空间求得数据样本的分布结构信息,使ELM获得了良好的泛化能力。因此,针对MCVELM存在的上述问题,本文提出一种基于判别信息的正则极端学习机(IELM)。对于分类问题,IELM同时考虑到数据样本的几何特征和数据蕴含的判别信息,通过最大化异类离散度和最小化同类离散度,优化极端学习机的输出权值,从而在一定程度上提高ELM的分类性能和泛化能力。
IELM方法的优势在于:①继承了ELM和MCVELM的优点,还在一定程度上避免了ELM学习不充分的问题;②在数据样本的原始输入空间求得异类离散度和同类离散度矩阵而非激活函数所在空间;③将异类离散度和同类离散度引入到ELM中,不仅充分利用了数据样本的差异判别信息,还避免了运用MCVELM方法时出现数据样本信息重叠的现象;④利用MMC[12]方法有效解决了最大化异类离散度和最小化同类离散度矩阵奇异问题。
为了评价和验证所提出的方法,实验使用Yale、Yale B、ORL、UMIST人脸数据,并将本文提出的方法与ELM、MCVELM[10]、RAF-ELM[13]、GELM[7]进行对比。实验结果表明,本文提出的算法能够显著提高ELM的分类准确率和泛化能力,效果优于其它算法。
1 ELM
黄广斌等基于单隐层前馈神经网络提出了ELM,ELM良好的逼近能力和分类准确率已被证实,统一框架下的ELM为不同的神经网络提供了一种统一形式。ELM隐层节点的输入权值和节点偏置值是随机产生的,只有连接隐层节点和输出节点的权值是经过计算求出的。与传统的单隐层前馈神经网络相比,参数的计算量大大降低,从而使训练速度大幅提升。N个不同的样本(xi,ti)可表示为X=(x1,x2,…,xN)∈RD×N,其中ti=(ti1,ti2,…,tiD),期望输出矩阵T=(t1,t2,…,tD)∈RD×N,网络中含有L个隐层节点,激活函数为f(x)。
∑Li=1wif(ai·xj+bj)=tj(1)其中j=1,2,…,N,ai=(ai1,ai2,…,ain)为连接第i个隐层节点与输入节点的输入权值向量,wi=(wi1,wi2,…,win)为连接第i个隐层节点的输出权值向量,bi为第i个隐层节点的偏置值,ai·xj表示ai和xj的内积。令隐层节点为L,上述方程(1)可写成矩阵形式:HW=T,W是输出权值矩阵,其中H是网络隐层输出矩阵:H=f(a1·x1+b1)…f(aN·x1+bN)f(a1·xN+b1)…f(aN·xN+bN)N×LW=w1wNL×M,T=t1tNN×M传统的SLFNs希望能够找到一些合适的ai,bi,β,i=1,2,…,N,使得:endprint
‖H(a1,…,aL,b1,…,bL)W-T‖=mina,b,W‖H(a1,…,aL,b1,…,bL)W-T‖(2)式(2)可利用梯度下降算法求解,huang等证明了输入隐层的权值及偏置值不需要像传统的SLFNs学习方法一样不断调整,当网络的激活函数连续可微时,可随机选取输入权值ai和隐层的偏置值bi。由式(2)可知,SLFNs网络的解可通过线性系统HW=T的最小二乘解得到。若隐层节点L等于训练样本数N,即L=N,此时矩阵H可直接求逆,但在大多数情况下L< j=1,2,…,N(3)其中ε为训练误差,式(3)的优化模型可通过拉格朗日乘子法转化为无条件最优化问题进行求解,进而求得W=(HHT+IC)HTT,其中I为单位矩阵,C为惩罚参数。给定训练样本X=(x1,x2,…,xN)和训练样本的期望输出矩阵T=(t1,t2,…,tD)∈RD×N,激活函数为f(x),隐层结点数为L,ELM算法可总结步骤如下:①初始化训练样本集;②随机指定网络输入权值ai和偏置值bi;③通过激活函数计算隐层节点输出矩阵H;④计算输出权值W=H+T,其中T=(t1,t2,…,tN)∈RN×M。 2 IELM 为了克服ELM学习过程中训练不充分及MCVELM学习过程中出现数据样本信息重叠的现象,提出一种基于判别信息的正则极端学习机(IELM)。 设SB为数据样本的同类离散度矩阵,SW为数据样本的异类离散度矩阵,SB和SW可表示为: SW=∑Ci=1(ui-u)(ui-u)T(5)上述定义中C为数据样本的类别个数,ui为数据样本的类内样本均值,u为数据样本的总体均值,异类离散度矩阵和同类离散度矩阵分别体现了輸入数据样本空间的分布特征和判别信息。同时,定义S=SB-(1-η)SW(0≤ε≤1),S称为信息差距阵,η为大于零的常量。上述定义中,参数η起调节类内判别信息和类间判别信息的作用,当参数η增大时偏向于类内信息,反之加大惩罚类间差异信息。因此,在适当的η下,IELM较好地利用了数据蕴含的判别信息,增强了ELM模式的分类能力。综上所述,IELM的优化问题可描述为: 3 实验结果及分析 在本节中将IELM与ELM、MCVELM、RAFELM、GELM进行对比,IELM与ELM、MCVELM、RAFELM、GELM均采用Sigmoid函数作为激活函数,隐层节点个数设置为人脸图像数据的维数。 为了实验的公平性,本文中的惩罚参数C都是一样的(本文尝试选择C的参数,这可以使所有实验都有很好的结果)。在Yale、ORL实验中随机选取训练集个数为L={4,5,6,7},剩余部分为测试集,在Yale B试验中随机选取训练集个数为L={25,30,35,40},剩余部分为测试集,每个实验分别重复10次以获取一个更好的识别率。不同人脸图像的训练集如图1所示,4个不同人脸数据库在人脸识别实验中的设置如表1所示。IELM与ELM、MCVELM、RAFELM、GELM的识别率如表2~4所示。 图2~4给出了5种不同的ELM算法在Yale、Yale B、ORL数据上的识别率曲线。由图可知,本文提出的方法IELM的识别率曲线显著高于其它算法,主要是由于IELM考虑到数据样本的几何特征和数据蕴含的判别信息。IELM不仅考虑到同类数据样本间的判别信息,而且考虑到了不同类数据样本间的差异判别信息,避免了运用MCVELM方法时造成数据样本信息重叠的现象,同时在数据样本的原始输入空间求得异类离散度和同类离散度矩阵,而非激活函数所在空间,优化了极端学习机的输出权值,从而在一定程度上提高了ELM的分类性能和泛化能力;在图2和图4中发现当训练集个数为6和7时,MCVELM出现了很大波动,主要是由于ELM算法自身的不稳定性,以及MCVELM造成数据样本信息重叠的现象,降低了ELM的稳定性和泛化能力;图3给出了5种不同算法在Yale B数据上的识别率曲线,当训练集个数为25时,MCVELM算法的识别率曲线低于ELM的识别率曲线,而当训练集个数增大时,MCVELM表现出较好的识别率。由此可以看出,当训练集个数较少时,并不适合使用MCVELM算法;在图2~4中,GELM算法的识别率曲线取得了良好效果,在图3和图4中GELM算法的识别率曲线还表现出了稳定的性质,这是由于GELM算法考虑到同类数据样本在具有相似性的同时,将该相似性利用拉普拉斯特征映射结构进行表示,进而引入到ELM的优化模型;RAFELM算法的识别率曲线高于ELM的识别率曲线,然而明显低于IELM、GELM、MCVELM的识别率曲线,这是由于RAFELM仅从激活函数的角度改进了ELM算法,而没有考虑到数据样本的几何特征和数据蕴含的判别信息。表2~4给出了识别率曲线对应的识别率,从表中可以看出,IELM的识别率明显高于其它算法。 4 结语 为了提高极端学习机在人脸图像识别中的分类性能和泛化能力,本文提出了一种基于判别信息的正则极端学习机(IELM)。本文的创新之处是考虑到人脸图像数据的联系和差异信息。因此IELM引入了同类离散度和异类离散度的概念,体现出输入空间数据的判别信息,通过最大化异类离散度和最小化同类离散度,优化极端学习机的输出权值。通过与ELM、MVELM、RAF-ELM、GELM算法的对比实验表明,本文提出的方法显著提高了极端学习机的分类性能和泛化能力,性能优于其它算法。 参考文献: [1]WANG DIANHUI,HUANG GUANGBIN. Protein sequence classification using extreme learning machine[C]. Proceedings of International Joint Conference on Neural Networks,2005(3):1406-1411.
[2]TANG J, DENG C, HUANG G B. Extreme learning machine for multilayer perceptron[J]. IEEE Transactions on Neural Networks & Learning Systems,2016,27(4):809.
[3]HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multiclass classification[J]. IEEE TransSyst Man Cybern B,2012,42(2):513-529.
[4]HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C].Proceedings of International Joint Conference on Neural Networks (IJCNN2004), 2004: 985-990.
[5]MICHE Y, SORJAMAA A, BAS P, et al.OP-ELM: optimally pruned extreme learning machine[J]. IEEE Trans Neural Netw, 2010,21(1):158-162.
[6]W W ZONG, G B HUANG, Y CHEN.Weighted extreme learning machine for imbalance learning[J]. Neurocomputing, 2013,101(3):229-242.
[7]YONG PENG, BAOLIANG LU. Discriminative graph regularized extreme learning machine and its application to face recognition[J]. Neurocomputing,2015.
[8]Q YU, Y MICHE, E EIROLA, et al. Lendasse, regularized extreme learning machine for regression with missing data[J]. Neurocomputing ,2013,102(2):45-51.
[9]J W ZHAO, Z H WANG, D S PARK. Online sequential extreme learning machine with forgetting mechanism[J]. Neurocomputing, 2012,87(15):79-89.
[10]ALEXANDROS IOSIFIDIS, ANASTASIOS TEFAS.Minimum class variance extreme learning machine for human action recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology,2013, 23(11):1968-1979.
[11]GAO HUANG, SHIJI SONG.Semi-supervised and unsupervised extreme learning machines[J]. IEEE Transactions on Cybernetics,2014,44(12):2405.
[12]LI H, JIANG T, ZHANG K. Efficient robust feature extraction by maximum margin criterion[C]. Advances in Neural Information Processing Systems, 2003.
[13]SHENGLAN LIU, LIN FENG, YAO XIAO. Robust activation function and its application: semi-supervised kernel extreme learning method[J]. Neurocomputing, 2014,144(1):318-328.
[14]V N VAPNIK. Statistical learning theory[M]. Wiley, NY, 1998.endprint