刘 彬,刘 静,吴 超,李雅倩,张亚茹,杨有恒
(1.燕山大学 电气工程学院,河北 秦皇岛 066004;2.燕山大学 信息科学与工程学院,河北 秦皇岛 066004)
极端学习机(extreme learning machine, ELM)[1]是由Huang等提出的一种单隐层前馈型神经网络,通过随机初始化输入层与隐藏层之间的连接权重和偏置,无需迭代调整即可求解出网络的输出权重。因其具有训练速度快、泛化能力强等特点,被广泛研究并应用于数据分析、工业预测[2~5]和图像分类等领域。其中,在图像分类领域,学者们提出了一系列的改进算法以提高网络分类性能[6~8]。然而,这些改进的ELM结构无法像卷积神经网络一样直接提取出图像特征,限制了ELM在图像中的应用。
因此,在特征提取方面,Krizhevsky等受卷积神经网络(convolutional neural networks, CNN)[9]启发,通过提出局部感受野极端学习机(local receptive fields based extreme learning machine, ELM-LRF)[10]有效地解决了这一问题。ELM-LRF将局部感受野与ELM相结合,使得网络可以直接对图像进行特征提取。由于ELM-LRF只有一层卷积池化层,其性能受到浅层结构的限制。因此利用多个卷积池化层增强特征提取能力,以获得更高级的特征表示,如深层卷积极端学习机(deep convolutional extreme learning machine, DC-ELM)[11]。为增强图像特征提取的灵活性,Huang等[12]提出了多尺度局部感受野的极端学习机(extreme learning machine with multi-scale local receptive fields, ELM-MSLRF),将不同尺度的感受野结合以提取图像特征。与单一感受野相比,不同尺度感受野相结合的方法在图像分类中获得了更好的效果。然而以上结构均只考虑了局部细节特征,图像全局轮廓特征未被充分利用到分类中,文献[13]利用极端学习机自编码器(extreme learning machine auto encode, ELM-AE)[14]训练出全局感受野,用于提取图像全局轮廓特征,提取出更全面的图像特征用于后续分类。为提高网络性能,文献[15]提出一种模仿人类视觉规律的方法,在执行识别任务时能够快速关注到图像的主要部分。其输入包含原始图像和局部重要区域图像2部分,使得输入图像中的重要部分被重复加强,利用附加的重要信息可以提高分类器的分类效果。但是只选取中间部分图像作为输入的一部分,使得中心区域以外的辅助信息未被有效利用,无法进一步提高网络性能。
在分类方面,由于传统的极端学习机存在隐藏层节点个数难以确定和过拟合等问题,文献[16]将ELM扩展到内核学习,解决了ELM参数随机初始化造成分类性能不稳定的问题,使得网络具有较好的鲁棒性。但是核函数的计算时间较长,当样本数量较多时,计算量庞大,导致网络复杂性增加。为解决这一问题,文献[17]提出近似核映射的方法,以近似核映射(empirical kernel mapping, EKM)的形式对隐藏层进行编码,产生低秩隐藏层,可用于快速训练和低内存存储。在精度近乎相同的情况下,训练速度提高几十倍,有效提高训练效率。然而,在一些复杂学习任务中,单核结构仅能够满足模型在某一方向的要求,而对其他方向上可能存在的高维特征不能全面的表示[18]。多核结构能够充分利用不同核函数的不同映射性能,使得数据在高维空间得到更全面的表示,提高模型辨识度,有效解决非线性分类问题[19~22]。然而,当样本数量较多时,多核结构会显著增加计算量,降低网络训练效率。
本文基于ELM-LRF提出多核近似学习网(multiple kernel empirical learning network, MKELN)。首先,利用二维高斯分布预处理原始图像,生成区域渐进增强图像。该图像在保留局部中心区域的同时,平滑地削减周围区域像素值。将此图像与原始图像并行输入网络,使得图像中心区域被重复增强,中心区域外图像也能够被合理利用。其次,将ELM-AE训练出的全局感受野与随机赋值的局部感受野结合使用,分别提取图像的全局轮廓特征和局部细节特征,并将所得特征矩阵串联。最后,结合近似核映射编码和多核结构的优点,提出多核近似算法。利用多核特征矩阵的低阶近似重新编码隐藏层,进而求解MKELN的输出权重,解决网络在多核结构下的高维运算问题,提高网络训练效率。
为充分提取图像中的特征信息,提高网络分类性能,本文提出MKELN,如图1所示,该网络结构主要由特征提取和多核近似分类2部分组成。
图1 MKELN结构Fig.1 Structure of MKELN
在特征提取部分,将经过二维高斯分布预处理后的区域渐进增强图像与原始图像并行输入网络。利用局部感受野和全局感受野分别提取图像的局部和全局特征,并将其特征矩阵串联,最终获得具有高辨识度的图像特征。
考虑到人类在辨别图像时,能够迅速关注到图像中蕴含的重要信息,而物体识别类图像的重要信息一般分布在中心区域。因此,网络将输入图像的中心区域作为注意力中心,将其完整保留,而围绕中心的边缘区域以低像素值提取信息。
由于高斯分布具有集中性、对称性和均匀变动性等特点,越靠近中心,矩阵元素值越大;越远离中心,其值越小,图2(a)即为原始高斯分布矩阵对应曲面图。因此,为保留图像中心区域的原始像素值,可以通过设定阈值,令部分中心部分区域的值设为1,即可得到图2(b),图2(b)即为保留中心部分且均匀削弱周围部分值的二维高斯分布对应曲面图,多核近似学习网输入中的区域渐进增强图像即是由图2(b)所示的二维高斯分布预处理生成。又由于高斯函数具有滤波特性,可以应用于图像滤波。因此,原始图像经过图2(b)的高斯分布矩阵预处理后,图像中心区域部分被局部保留,用于提取该部分的细节特征;中心区域外的图像经过高斯滤波,可以滤除噪声干扰,边缘轮廓变得更为显著,用于提取图像的全局轮廓特征。
图2 二维高斯分布曲面图Fig.2 2-D Gaussian distribution surface map
(1)
式中:xi+m-1,j+n-1为输入图像中第(i+m-1,j+n-1)个节点的像素值;am,n,k为该对应节点的正交化权重值k=1,…,K;i,j=1,…,(d-r+1)。
池化大小e表示池化中心到图像边缘的距离,池化特征图大小与卷积特征图大小一致为(d-r+1)×(d-r+1),则第k个池化图中组合节点(p,q)的值hp,q,k可计算为:
(2)
对于输入样本Y∈RNl×d2中每一个样本按照式(1)和式(2)计算其对应的卷积特征图和池化图的节点值,并将所有组合节点的值连接成行向量,即可获得隐藏层输出矩阵H1∈RNl×K·(d-r+1)2,由文献[16]可知,可以采用正则化最小二乘法解析地计算输出权重β1:
当Nl≤K(d-r+1)2时:
(3)
当Nl>K(d-r+1)2时:
(4)
利用ELM-AE原理编码全局感受野,得到全局轮廓卷积特征。假设输入Ng个ni维特征X∈RNg×ni,随机生成输入层与隐藏层输入权重w∈Rni×nh,隐藏层偏置b∈RNg×nh,其隐藏层输出矩阵为H2=g(Xw+b)∈RNg×nh,其中nh代表隐藏层输出特征维数。为使输入特征能够在训练过程中等效地表示为输出权重矩阵,令X作为输出特征来训练网络的输出权重β2,即X=H2β2,故求解网络输出权值问题可转化为求解约束条件下的优化问题。
当Ng≤K(d-r+1)2时:
(5)
当Ng>K(d-r+1)2时:
(6)
式中C2为惩罚项系数。
在训练阶段,原始图像经过局部感受野提取出的特征为X1,经过全局感受野提取出的特征为X2,将两者串联为特征矩阵X11;对于区域渐进增强图像按照与原始图像相同的方式提取特征并串联,得到串联特征矩阵X22。
在测试阶段,利用局部感受野和全局感受野分别提取出原始测试图像的特征Xt1与Xt2,并将两者串联为特征矩阵Xt11;对于区域渐进增强的测试图像按照相同方式提取特征并串联,得到特征矩阵Xt22。
在分类部分,利用局部映射核函数(高斯核函数)和全局映射核函数(多项式核函数)的线性组合进行多核映射,并调节2个核函数的比重系数,以增强特征的表达能力和非线性可分程度。推导多核近似算法,求解MKELN的输出权重,进行最终分类。
假设多核近似算法中的核函数是由M个基本核函数线性组合而成,则MKELN的输出表达式为:
(7)
式中:L为隐藏层节点个数,βm为网络输出权重,hm(x)为隐藏层输出,xi为输入样本,i=1,2,…,N,N为输入样本个数;λm为第m个核函数的比重系数,且λm≥0。
求解网络中输出权重β转化为求解等式约束下的最小值优化问题,即:
(8)
(9)
式中:C为惩罚项系数,ξi为第i个数据实际输出值与目标输出值之间的误差,ti为第i个训练数据对应标签。
由KKT条件及Mecrer条件,求解上式最小值等价于求解下式拉格朗日函数,其表达式如下:
(10)
式中:α和τ为拉格朗日乘数因子。
为求得L最小值,对式(10)中变量分别求偏导并进行化简得到:
(11)
由式(11)可以得到:
(12)
则有:
(13)
式(13)的等价核函数可表示为:
(14)
假设最终生成的特征需要被映射为特征矩阵E=[Φ(x1),…,Φ(xN)]T∈RN×l, 其中l为E的维度,Φ(xN)为在特征矩阵中任意抽取的行向量,由文献[17]可知核矩阵可根据近似核矩阵原理进行分解,得到其近似经验核,以代替传统核矩阵,即:
(15)
(16)
式中:Λl∈Rl×l和Ul∈Rl×l即为l个特征值和其相对应的特征向量,则可将式(15)写为:
(17)
(18)
则其等价多核近似矩阵即为:
(19)
由式(19)可求得网络输出权重β为:
(20)
即可以得到多核近似学习网的输出表达式为:
(21)
USPS是机器学习中常用的手写数字识别数据库,包含0到9的手写数字。其中,训练图像为7 500幅,测试图像为3 500幅。图像中数字居中,并被标准化为16×16像素。该数据库样本数量较少,因此用于验证本文网络的有效性。本文选取全部训练样本和测试样本进行实验。
针对USPS数据库,首先选取合适的网络结构参数,包括感受野总数G(G=Gl+Gg,局部感受野个数为Gl、全局感受野个数为Gg)、惩罚项系数C、高斯核函数参数、多项式核参数,高斯核函数与多项式核函数的比重系数λ1、λ2。卷积核尺寸为4×4,池化尺寸为3×3,惩罚项系数为{10-3,10-2,…,103},其余参数设置与文献[10]一致。感受野个数G和惩罚项C变化时网络正确率变化曲面如图3所示,当感受野总数为4时,正确率达到99%左右,随着感受野总数的增加,其正确率也在稳定增加。
图3 USPS数据库参数变化正确率曲面图Fig.3 USPS database correct rate surface map
将本文方法正确率与一些ELM改进方法的正确率进行对比,如表1所示。其中,本文结构参数如下:局部感受野个数为14,全局感受野个数为14、惩罚项系数C为1 000,高斯核函数参数为106,多项式核函数参数为10-1,对应比重系数为λ1=0.667、λ2=0.333。
表1 USPS数据库各网络时间和精度对比Tab.1 Comparison of accuracies and time on USPS database
由于感受野总数对正确率有较大影响,为公平比较,在同一实验条件下,选取MKELN、ELM-LRF和ELM-MSLRF这3个网络各自最优参数,只改变感受野总数进行比较,其正确率对比折线图如图4所示。从图4中可以明显看出,本文方法在感受野总数较少的情况下也能达到较高分类正确率。当感受野总数为28时,达到网络最高正确率99.83%。表2列出了3种方法的正确率与时间,与ELM-LRF相比,训练时间减少0.05 s时,正确率提高了1.31%;与ELM-MSLRF相比,训练时间增加0.05 s时,正确率增加1.19%。由此可以证明在小样本数据集上,本文网络能够有效地提取图像特征,提高分类正确率。
图4 3种方法在USPS数据库上对比折线图Fig.4 Three methods compared line charts on the USPS database
表2 统一实验平台利用不同方法测试USPS数据库Tab.2 The unified experimental environment uses different methods to test USPS database
为测试本文结构在简单大型数据库的分类效果,选择MNIST进行实验。MNIST数据库包含 70 000 幅0到9手写数字灰度图像,其中,训练图像为60 000幅,测试图像为10 000幅。图像数字居中,且大小统一为28×28像素。本文选择60 000幅图像进行训练,10 000幅图像进行测试。
各参数变化时MKELN分类正确率曲面如图5所示,由图5可以看出,随着感受野总数的增加,网络分类正确率也随之增加;随着惩罚项的变化,正确率在一定范围内上下波动。在感受野总数大于24时,平均正确率维持在98.5%左右。在感受野总数为48时,能达到网络最高正确率98.85%。
图5 MNIST数据库参数变化正确率曲面图Fig.5 MNINST database correct rate surface map
将本文结构与ELM系列方法进行对比,本文结构参数如下:局部感受野个数为24,全局感受野个数为24,惩罚项C为1,高斯核函数参数为105,多项式核函数参数为1,对应比重系数为λ1=0.73、λ2=0.27。表3列出已发表ELM系列各结构正确率。由表3可知,本文方法在训练时间较少的情况下,能够达到最高正确率。
见我不信,他给我讲了当下各种扶贫政策,他属于精准扶贫一类的。我一时还有些听不大明白,待他办了出院手续回来收拾东西,我说“真的没花钱?”
表3 MNIST数据库各网络时间和精度对比
为公平比较,在同一实验条件下,选取MKELN、ELM-LRF和ELM-MSLRF 3个网络最优参数,只改变网络感受野总数进行比较,结果如图6所示。
图6 3种方法在MNINST数据库上对比折线图Fig.6 Three methods to compare line charts on MNIST database
由图6可以看出,当感受野总数较少时,任意选取的特征向量无法使图像得到准确的分类,但当感受野总数达到16时就有了明显区分。在感受野总数相同时,MKELN分类正确率明显高于其它2种网络。如表4所示,在感受野总数为48时,与ELM-LRF相比,训练时间减少45.7 s,正确率增加0.95%;与ELM-MSLRF相比,训练时间减少68.6 s时,正确率增加0.75%。由此可以得出结论,本文网络对简单大型数据集有良好的分类效果。
表4 统一实验平台利用不同方法测试MNIST数据库Tab.4 The unified experimental environment uses different methods to test MNIST database
USPS和MNIST均为手写数字数据集,整体图像简单,为测试MKELN在复杂图像中的分类能力,本小节使用NORB数据集进行测试。该数据集包含5大类图像:人物、动物、飞机、汽车和卡车。每一类包含10个实例,共50个实例,利用不同的视点和不同照明条件使得每个实例有972幅立体图像,每幅立体图像包含左右2幅图像,实验时选择每个类别中的5个实例,共计24 300幅图像用于训练,使用每个类别剩下的5个实例共24 300个图像进行测试,并将所有图像大小统一为32×32像素。本文使用24 300幅图像进行训练,24 300幅图像进行测试。
首先,为充分说明高斯分布矩阵预处理原始图像的有效性,以此数据集为例,任选一张训练图像利用图2(b)高斯分布矩阵进行预处理,生成区域渐进图像,并将此图像对应的二维矩阵显示为曲面,如图7所示。左侧第一列为原始图像及其对应曲面图,由曲面图可知,像素值分布不均匀,错落明显;而右侧经过高斯矩阵处理后的曲面图,其中心部分仍维持原始像素值,但周围部分像素值被均匀减小。
从图7可以看出,图像中心区域外的图像经过高斯滤波后,局部细节特征被模糊,但其轮廓特征相比之下变得显著。结合全局感受野与局部感受野,提取出中心区域中的细节特征与整体图像的轮廓特征。
图7 原始图像与区域渐进增强图像及二维曲面对比图Fig.7 Comparison of original image and regional gradual enhancement image and its corresponding two-dimensional surface
其次,利用实例图像验证MKELN卷积池化的效果,如图8。第1和第2行是原始图像进行卷积和池化的特征图像;第3和第4行是区域渐进增强图像卷积和池化的特征图像。通过对比可看出,局部感受野提取出更多的图像细节信息,而全局感受野则提取出更加显著、平滑的整体轮廓信息。在MKELN结构下,将2幅图像生成的特征矩阵串联,使得中心区域的特征得到加强,最终得到的特征矩阵将携带更多有关这些部分的图像信息,而其余图像作为输入的辅助信息以增强该结构的分类能力。
图8 MKELN卷积池化特征图Fig.8 Convolution feature map and pooling feature map of MKELN
为测试全局感受野和局部感受野对任务的分类能力,将全部使用局部感受野、全部使用全局感受野以及2种感受野结合使用这3种特征提取方式分别进行测试。如图9所示,从这三者的折线图可以看出,2种感受野结合使用往往能够得到更高的分类正确率。从折线趋势来看,两种感受野结合使用的网络随感受野增加时,正确率增加更为稳定、平缓,说明了在特征提取时将两者结合使用是必要的。
图9 3种类型感受野正确率对比折线图Fig.9 Three types of receptive field correct rate comparison line chart
为进一步说明本文网络结构的有效性,将MKELN结构进行拆分再依次加入进行正确率和时间的对比,如图10、图11所示。由图10可知,在区域渐进增强(ELM-LRF+GER)、全局感受野(ELM-LRF+GER+G)及多核近似结构(ELM-LRF+GER+G+MKE)分别依次加入时,每一个感受野所对应的正确率都有不同程度的增强。与其余几种模型相比,本文提出的多核近似学习网正确率增加最明显,相对应的正确率增长曲线也更加稳定。由图11可知,由于MKELN中存在多核映射,使得在感受野个数较少时,训练时间明显高于其它3种方法。但是随着感受野总数的增加,其余网络训练时间明显增长,而本文网络仍然是抽取特定数量的特征矩阵训练,因而与其它3种方法时间差逐渐增加,在能达到最高正确率时所需要的时间相比其余网络所需时间短。
图10 4种网络正确率对比折线图Fig.10 Correct rate of four networks comparison line chart
图11 4种网络时间对比折线图Fig.11 Time of four networks comparison line charts
各参数变化时MKELN的分类正确率曲线图如图12所示,由图示可以看出,在多核函数的影响下,网络正确率受惩罚项影响较大;随着感受野的变化,正确率在一定范围内上下波动,在感受野总数大于32时,平均正确率维持在97%左右,在感受野总数为44时,能达到网络最高正确率为97.75%。
图12 NORB数据库参数变化正确率曲面图Fig.12 NORB database correct rate surface map
将本文结构与ELM系列方法进行对比,本文结构参数如下:局部感受总数22,全局感受野总数22,惩罚项为1 000,高斯核函数参数为106,多项式核函数参数为10-1,对应比重系数为λ1=0.76、λ2=0.24。表5列出文献中ELM相关算法的时间和正确率。由表5可知,本文网络在训练时间较少的情况下,能够获得最高正确率。
表5 NORB数据库各网络时间和精度对比Tab.5 Comparison of accuracies and time on NORB database
为公平比较,在同一实验条件上,将MKELN、ELM-LRF及ELM-MSLRF正确率随感受野总数变化曲线如图13所示,各网络均选取各自最高正确率。由折线图13可以看出,随着感受总数增加,正确率增加趋势稳定。
图13 3种方法正确率对比折线图Fig.13 Three methods to compare line charts on the NORB database
由表6对比3种方法的正确率和时间,在感受野总数为44时,与ELM-LRF相比,时间减少3.87 s时,正确率增加1.23%;与ELM-MSLRF相比,训练时间减少1.81 s时,正确率增加1.64%,取得的最高正确率为97.75%。由此,可以看出MKELN在时间和准确率方面都具有优势,表明了该网络在处理复杂图像分类问题上的有效性。
表6 统一实验平台利用不同方法测试NOBR数据库Tab.6 The unified experimental environment uses different methods to test the NORB database
通过以上实验可知,本文所提出的多核近似学习网能够充分提取出图像特征,当训练时间保持不变或减少时,在USPS、MNIST和NORB数据集上的分类正确率均得到有效提高,证明该网络在解决图像分类问题上具有一定优势。
本文在ELM-LRF基础上进行改进,提出多核近似学习网(MKELN),并将其应用到图像分类中。在特征提取时,将经过二维高斯分布预处理后的区域渐进增强图像与原始图像并行输入网络,局部感受野和全局感受野用于提取图像的局部和全局特征,使得全局轮廓特征和局部细节特征均能够被充分提取和利用。通过实例图像进行验证,此网络能够进一步提取图像中的可辨识信息,使更多的图像特征可被用于分类。在分类时,结合多核映射和近似核映射的优点,提出多核近似映射算法计算出网络的输出权重。实验表明,在训练时间相近或减少的情况下,提高了分类正确率,能够有效提升网络分类性能。然而,不同多核函数组合对于不同数据集需要不同的参数组合以获得最好的结果,其参数选取需要进行大量的实验。如何针对不同数据集提出更加高效的多核近似算法,将是下一步的研究方向。