徐涛 王晓明
摘 要:在提高字典鉴别能力的过程中,最大间隔字典学习忽视了利用重新获得的数据构建分类器的泛化性能,不仅与最大间隔原理有关,还与包含数据的最小包含球(MEB)半径有关。针对这一事实,提出泛化误差界指导的鉴别字典学习算法GEBGDL。首先,利用支持向量机(SVM)的泛化误差上界理论对支持向量引导的字典学习算法(SVGDL)的鉴别条件进行改进;然后,利用SVM大间隔分类原理和MEB半径作为鉴别约束项,促使不同类编码向量间的间隔最大化,并减小包含所有编码向量的MEB半径;最后,为了更充分考虑分类器的泛化性能,采用交替优化策略分别更新字典、编码系数和分类器,进而获得编码向量相对间隔更大的分类器,从而促使字典更好地学习,提升字典鉴别能力。在USPS手写数字数据集,Extended Yale B、AR、ORL三个人脸集, Caltech101、COIL20、COIL100物体数据集中进行实驗,讨论了超参数和数据维度对识别率的影响。实验结果表明,在七个图像数据集中,多数情况下所提算法的识别率优于类标签一致K奇异值分解(LC-KSVD)、局部特征和类标嵌入约束字典学习(LCLE-DL)算法、Fisher鉴别字典学习(FDDL)和SVGDL等算法;且在七个数据集中,该算法也取得了比基于稀疏表示的分类(SRC)、基于协作表示的分类(CRC)和SVM更高的识别率。
关键词:字典学习;泛化误差界;支持向量机;最小包含球;数字图像分类
中图分类号:TP391.41
文献标志码:A
文章编号:1001-9081(2019)04-0940-09
Abstract: In the process of improving discriminant ability of dictionary, max-margin dictionary learning methods ignore that the generalization of classifiers constructed by reacquired data is not only in relation to the principle of maximum margin, but also related to the radius of Minimum Enclosing Ball (MEB) containing all the data. Aiming at the fact above, Generalization Error Bound Guided discriminative Dictionary Learning (GEBGDL) algorithm was proposed. Firstly, the discriminant condition of Support Vector Guided Dictionary Learning (SVGDL) algorithm was improved based on the upper bound theory of about the generalization error of Support Vector Machine (SVM). Then, the SVM large margin classification principle and MEB radius were used as constraint terms to maximize the margin between different classes of coding vectors, and to minimum the MEB radius containing all coding vectors. Finally, as the generalization of classifier being better considered, the dictionary, coding coefficients and classifiers were updated respectively by alternate optimization strategy, obtaining the classifiers with larger margin between the coding vectors, making the dictionary learn better to improve dictionary discriminant ability. The experiments were carried out on a handwritten digital dataset USPS, face datasets Extended Yale B, AR and ORL, object dataset Caltech 101, COIL20 and COIL100 to discuss the influence of hyperparameters and data dimension on recognition rate. The experimental results show that in most cases, the recognition rate of GEBGDL is higher than that of Label Consistent K-means-based Singular Value Decomposition (LC-KSVD), Locality Constrained and Label Embedding Dictionary Learning (LCLE-DL), Fisher Discriminative Dictionary Learning (FDDL) and SVGDL algorithm, and is also higher than that of Sparse Representation based Classifier (SRC), Collaborative Representation based Classifier (CRC) and SVM.
Key words: dictionary learning; generalization error bound; Support Vector Machine (SVM); Minimum Enclosing Ball (MEB); digital image classification
0 引言
由于自然图像可以表示为字典原子稀疏的线性组合,字典在稀疏表示应用中起着非常重要的作用。字典学习(Dictionary Learning, DL)[1-4]是当前研究的热点之一,是计算机视觉和图像处理领域的有效工具(如:超分辨率[1]、图像降噪[2]和图像分类[3-4]等),并取得了较好的效果。在计算机视觉领域,为特殊的视觉任务构建恰当高效的字典并不容易;在图像分类领域,通过真实样本图像学习一个理想的字典,可以恰当并有效地完成图像分类任务。
面向分类的字典学习方法被称为鉴别性字典学习(Discriminative DL, DDL)[5-9]。目前,字典学习大致可分为无监督字典学习和监督字典学习方法。无监督字典学习通过最小化目标函数的重构误差获得一个恰当的字典,直接使得字典具有鉴别性,并利用重构误差准则分类。监督字典学习方法从监督学习和数据的鉴别信息出发,同时学习字典和分类器,并在字典的优化过程中充分解释数据的鉴别信息使得表示系数具有鉴别性,该方法使用表示系数作为新的特征进行分类。
K奇异值分解(K-means-based Singular Value Decomposition, KSVD)方法[5]通过对K邻域求解距离获得鉴别字典;Zhang等[6]在KSVD的基础上通过同时学习字典和分类器提出鉴别性D-KSVD(Discriminative KSVD)方法。Jiang等[7]在D-KSVD基础上通过施加鉴别信息对其进行了扩展,进一步提出了标签一致LC-KSVD(Label Consistent KSVD)方法;但LC-KSVD方法忽略了原子间的相似特征,鉴别性能提高有限。为此,Li等[8]利用局部特征和原子的类标构造嵌入约束的字典学习(Locality Constrained and Label Embedding DL, LCLE-DL) 算法。
Yang等[9]提出的FDDL(Fisher DDL)方法通过对字典学习模型施加Fisher鉴别准则来提高字典的鉴别性能;该方法提高了鉴别能力,但是算法在处理大规模的分类问题上时间花费巨大。相对于FDDL算法,Cai等[10]通过引入固定参变量提出支持向量引导的字典学习(Support Vector Guided DL, SVGDL)方法,证明了FDDL的固定权值分配策略仅是SVGDL自由分权模式的特例。
上述大部分鉴别字典学习方法都采用l0或l1范数作为稀疏控制条件,但是l0或l1范数计算开销非常巨大。
最近,文献[11-12]的研究工作中讨论了稀疏性在分类任务中对模型识别率的影响。
Mehta等[13]進一步分析了稀疏系数的工作机制和泛化误差界,认为稀疏性在DDL模型中是必要的。由于使用l1范数正则化稀疏系数的求解复杂度远远高于使用l2范数,尤其是当训练样本和字典原子巨大时,l1范数正则化稀疏系数的DDL无效性增加。
故此,SVGDL方法为了获得更快的运算速度和良好的分类识别率采用l2范数作为该模型的稀疏控制条件,通过真实数据分析了l1和l2范数对分类模型识别率的影响,模型的分类识别率对l2和l1范数并不敏感,并把这种不敏感性归结为只有少量的支持向量自动的引导字典学习。
最近,Cai等[14]提出的基于协作表示的分类(Collaborative Representation based Classifier, CRC)方法的模式分类模型中采用l2范数作为稀疏系数控制条件,并通过理论和分类实验验证,在模式分类任务中,相对于基于稀疏表示的分类(Sparse Representation based Classifier, SRC)[3]方法,CRC能取得良好的分类精度和节约大量算法的训练时间。
SVGDL采用标准的支持向量机(Support Vector Machine, SVM)[15]作为DDL模型的鉴别项,仅考虑了最大化间隔原理,忽视了SVM利用重新获得数据所构建的分类器的泛化性能不仅与大间隔原理有关,还与包含数据的最小包含球(Minimum Enclosing Ball, MEB)的半径有关的基本事实。
针对这个基本事实,泛化误差界指导的鉴别字典学习(Generalization Error Bound Guided Discriminative DL,GEBGDL)将SVM的泛化误差上界作为基于协作表示(Collaborative Representation, CR)的鉴别字典学习方法的鉴别条件,控制编码系数的更新。
由于SVGDL编码向量更新过程中没有考虑到MEB半径的变化限制了模型的泛化能力的提高。为进一步降低模型的泛化误差界,GEBGDL算法在模型的更新中充分考虑MEB半径的变化情况,同时在训练分类器的过程中减小相似编码向量间的距离,扩大异类编码向量的分类间隔,从而获得更加具有鉴别能力的字典,更好地完成分类任务。
为进一步提高鉴别字典的分类性能,本文提出GEBGDL算法利用SVM的泛化误差上界理论,扩大相异编码向量间的间隔,同时减小包含所有编码向量MEB的半径;采用交替优化策略分别更新字典、编码系数和分类器,充分考虑分类器的泛化性能,进而获得编码向量相对间隔更大的分类器促使字典更好地学习,减小了多分类任务中二分类器的泛化误差界,提升字典的鉴别能力;最后在手写数字识别、人脸识别、物体识别等数据集上验证算法的鉴别性能。
1 相关工作
鉴别字典学习的目的是通过样本训练字典提高表示系数的鉴别能力。本章的目标是为数字图像分类建立一个有效的鉴别字典学习方法。
1.1 支持向量引导的字典学习模型
支持向量引导的字典学习方法(SVGDL)是一种改进的鉴别字典学习算法。假定字典学习鉴别项中所有权值都是通过引入变量获得,参数化定义为一个函数,并通过理论证明鉴别项是SVM分类器。同时采用了SVM的最大化间隔思想学习得到鉴别字典。SVGDL算法模型可表述为:
其中:l(si, yi,w,b)是用以训练分类器的Hinge损失函数;θ是一个固定常数;〈w,b〉可用表示系数(支持向量)的线性组合表示。
1.2 支持向量机及其泛化误差界
SVM是典型的大间隔分类器,其基本的分类问题是二分类问题,进而采用不同策略扩展为多分类问题。
目前,SVM模式选择的研究主要集中于交叉验证技术、优化核函数评估标准和最小化期望风险上界三个方面。Vapink等[21]提出的留一法误差(Leave-One-Out Error, LOOError)风险上界估计方法是分类器真实错误率的无偏估计,寻优效果准确。LOOError数学化描述如下:
2 泛化误差界指导的字典学习模型
本章中首先建立二分类目标模型,并扩展为多类字典学习模型;其次給出模型的优化求解过程;最后给出模型的分类方法。
2.1 模型
支持向量引导的字典学习模型采用标准的SVM[15]作为新获得表示系数的分类器。监督学习方面,SVM作为大间隔分类器,在理论和实践中替代线性分类器取得了良好的分类效果。字典学习方面,SVM与DDL模型相结合的方法[10,22]已获得了良好的结果。
2.1.1 二分类模型
首先,使用基于半径/间隔界的R-SVM替换支持向量引导的字典学习模型(2)的鉴别条件。其数学化描述如下:
2.1.2 多分类模型
标准SVM将间隔平方γ2的倒数‖w‖2作为正则项。然而,SVM的泛化误差界依赖于R2/γ2(即:R2‖w‖2),这也是GEBGDL采用泛化误差上界改进SVGDL算法的动机。当训练样本固定,MEB的半径R是一个固定常数。然而,在DDL模型的更新过程中,由模型产生的表示系数S在迭代的过程中不断变化,即包含所有表示系数si的MEB的半径R也随之改变。
SVGDL算法简单地为表示系数空间乘以一个固定的常数可以增加正负样本间的间隔,但这并不是最真实分类效果。因此,为了获得真实的分类效果,SVM泛化误差上界理论对SVGDL模型分类器的改进提供了理论依据。
2.2 求解模型
由于多类字典模型(9)对于所有的变量并非联合的凸优化问题,因此,借鉴文献[10]所采用的交替优化策略对多类字典模型涉及到的所有变量进行交替优化。详细过程可以分为三个部分:固定S、〈W,b〉和R2,更新字典D;固定D、〈W,b〉和R2,更新表示系数S;固定D和S,更新〈W,b〉和R2可以转变成求解SVM和MEB最小包含球的两个子过程。
2.2.1 更新表示系数S
2.2.3 更新〈W,b〉和R2
当D和S固定后,更新〈W,b〉和R2。模型的更新问题转变成求解多类SVM和MEB最小包含球的两个子问题。通过多次求解二次规划问题获得其解。借鉴文献[21]方法,分别求得〈W,b〉和R2。
综合以上模型的求解步骤,概括GEBGDL算法的训练过程如下:输入 训练样本X∈Rm×n,初始化权衡参数λ和τ,惩罚系数θ,训练数据的类标签Y∈Rn,最大迭代次数T和收敛阈值。
输出 字典D和多类R-SVM的〈W,b〉。
1)初始化字典D,表示系数S,采用交替优化策略更新。
2)固定D,{W,b}和R2使用式(10)更新表示系数S:a)当迭代次数t=1和yi(wTcsi+bc)≤1时,使用式(19)更新S;
b)当迭代次数t≥2和yi(wTcsi+bc)>1时,使用式(14)更新S。
3)固定S,{W,b}和R2,使用式(20)更新字典D。
4)固定D和S,使用式(3)和(4)分别更新{W,b}和R2。
5)若相邻两次迭代后目标函数值之差小于收敛阈值,则迭代终止;否则返回2)继续执行,直到收敛或达到最大迭代次数T终止。
2.3 分类方法
模型训练完成得到字典D和R-SVM的最优分类超平面以及偏置{W,b}。当输入一个新的测试样本x,首先将x通过固定的矩阵M进行投影编码,映射成编码向量矩阵的列向量s=Mx,矩阵M=(DTD+λI)-1DT。然后,利用C个线性分类器{wc,bc}作用于编码向量s,通过式(23)预测样本x类别标签y。
结合算法的训练过程和测试过程,图1为GEBGDL算法的流程。
GEBGDL算法的训练过程采用交替优化策略分别更新字典D、编码系数S,支持向量机的分类法矢量W和偏置b以及最小包含球的半径的平方R2。
测试过程通过训练所得到的字典D获得映射矩阵M,将测试样本x映射成测试样本的编码系数s,
最后通过支持向量机的分类法矢量和偏置预测测试样本的类别,获得分类结果。
GEBGDL训练过程的时间开销主要由3个部分组成:更新学习字典D的时间复杂度是O(K3mn),更新编码系数的时间复杂度是O(K3mn),更新线性SVM和MEB的时间复杂度分别是O(Cmn)和O(mn)。由于目标优化函数是非凸函数,并不能获得全局最小值,经验上可以通过目标函数值的递减变化获得一个理想的字典和线性分类器。分类测试环节的时间复杂度是O(Km)。其中:m是样本维度,n是样本个数,K是字典原子个数(或编码系数矩阵逐列向量的维度),C是样本所包含的类别数。
3 实验与结果分析
为了对本文提出的鉴别字典学习方法进行定量评价,实验在7个标准数据集(包括USPS、Extended Yale B[24]、AR[25]、ORL和Caltech101[26]、COIL20和COIL100)上进行仿真实验。实验平台为处理器Intel i3-4130 @3.40GHz的64位Windows 7旗舰版,Matlab R2013b。
3.1 模型參数对识别率的影响
GEBGDL模型涉及3个主要参数,分别为平衡参数λ和τ,以及SVM和MEB的惩罚系数θ。为防止过拟合的产生,平衡参数均采用交叉验证自动选取。为保证实验的公平性,实验结果为独立运行20次后的平均识别率。
为了讨论多个参数变量的综合影响,实验中对3个主要参数进行了综合测试,首先,在Extended Yale B数据集上固定选取每一类别20个样本作为训练数据,同时固定训练数据和测试数据。
图2是在Extended Yale B数据集控制其中一个变量后,其余两个可变参数对识别率影响的曲面。
图2依次给出三个可变参数对SVGDL和本文算法在平均识别率上的影响,为模型的综合参数选择提供了实验依据。当两种算法参数设置一致时,通过图2中的颜色标签可看出,本文GEBGDL算法的识别率优于SVGDL,这说明本文算法采用SVM的泛化误差上界理论的改进可以提高字典的鉴别能力。图2的实验结论同时为交叉验证方法快速的参数选择提供了合理的参考范围。表1给出了通过交叉验证方法自动选取参数后模型对于7个标准数据集的参数设置。
3.2 标准数据介绍和实验设置及其结果
本文采用7个不同的标准数据集对方法SVM[15]、CRC[14]、SRC[3],近似对称人脸图像人脸识别和稀疏表示分类方法ASF-SRC[27]和其余几种不同的字典学习方法(D-KSVD[6]、LC-KSVD[7]、LCLE-DL[8]、DLSPC[28]、FDDL[9]、SVGDL[10]和BDLRR[29])进行对比实验,包含手写数字识别、人脸识别、物体识别。
数据集和实验设计如下:
1)USPS手写数字数据集收集了数字0~9的9298张图像,每一张是16×16像素。由于本文算法采用二范数的正则项作为稀疏控制条件和使用了SVM的分类理论作为鉴别性条件,故在USPS手写数据集上将本文算法和CRC、SRC、SVM、SVGDL进行对比。借鉴http://www.cad.zju.edu.cn的USPS数据集的实验设置方式,选择7291张图像作为训练数据,剩余的2007张作为测试数据,并固定字典原子。表2是不同算法的平均识别率,相对于CRC、SRC、SVM,本文算法的平均识别率提高了2~3个百分点,SVGDL提高了1~2个百分点,
这说明将SVM作为基于协作表示的字典学习的鉴别条件或者基于稀疏表达的鉴别条件,可以增强字典模型的鉴别能力,提高分类性能。
2)Extended Yale B人脸数据集收集了包含38个类别的2414张正脸图像。每一类别分别有192×168像素的64张正脸。
本数据集的识别难点在于多变光照条件和丰富的面部表情。借鉴文献[6]的实验布局方式,对Extended Yale B人脸集随机地为每一类别选择5、10、15、20张图像作为训练数据,其余的作为测试数据,每张图像裁剪为32×32大小,为了保证实验的公平性,借鉴文献[6]方法对所有算法的实验数据利用过主成分分析法(Principal Component Analysis, PCA)降低特征维度到m=300。
从表3可看出,本文算法的平均识别率比SVGDL算法提高了1.5个百分点,比其他方法提高2~8个百分点。
3)AR人脸数据集包含126个类别的超过4000张人脸图像。与Extended Yale B所不同的是,它具有更加丰富的面部表情(微笑、生气和尖叫等)和光照变化。借鉴文献[6]的实验布局方式,对于AR人脸集,分别选择50位男性和50位女性的共2600张图像(每人26张)作为实验数据;每一类别选取3、5、7张作为训练数据,剩余的作为测试数据,并利用PCA降低特征维度到m=300。从表4可看出,本文算法的平均识别率相对于其他算法提高了1~10个百分点,比典型的字典学习方法提高了1~3个百分点,比SVGDL提高了1.4个百分点。
4)ORL人脸数据集(http://www.cl.cam.ac.uk)包含了40个类别的400张人脸图像,每一个类别10张图像。该数据包含每一个人不同时期、不同视角、多变的面部表情和不同的面部细节。为了公平,所有实验采用64×64像素的图像作为训练数据,并随机选择2、4、6张图像作为训练数据,剩余的作为测试数据。
从表5可看出,本文算法的平均识别率比SVGDL算法提高了约1个百分点,比其他算法提高了约3个百分点。
实验中,为了说明采用PCA对裁剪后的图像降维前后对识别率和算法效率的影响,随机地为每一类别选择8张图像降维和不降维的实验,并在表6中给出了降维前后算法效率及识别率、标准差和耗时。
从表6可看出:采用PCA降维前后算法的平均识别率没有显著的变化,但是,降维后大幅降低了算法的运行时间。
5)Caltech101物体数据集包含了101个类别物体的29780张图像,每一个类别超过80张图像。借鉴文献[6]的实验布局和设置方式,由于物体数据集的固有特性,公平起见使用与该文献相同特征维度m=3000的图像作为训练和测试数据,并为每一类别物体选取5、10、15、20、25和30张不同图像作为训练数据,剩余部分作为测试数据,分别固定字典的原子数量K。从表7可看出:本文算法在增加训练数据、固定原子个数K的条件下识别率明显提高,说明了模型足够稀疏;模型在小样本5和10的情况下,识别率略低于SVGDL算法,但是随着训练样本的增加,本文模型表现出了更好的分类性能。
6)COIL20數据集包含了20个类别从不同角度拍摄的1440张图像,每一类别72张图像;COIL100数据集包含了100个类别从不同角度拍摄的7200张图像,每一类别72张图像,均并裁剪为32×32像素。借鉴http://www.cad.zju.edu.cn的实验数据设置,每一张采用32×32像素的图像。为了公平每次随机选取每一类别的5、10、15和20张图像作为训练数据,剩余的作为测试数据。每一张图像的特征维度m=1024,并分别为COIL20和COIL100固定字典原子。从表8~9可看出:在多类别不同物体的识别上,本文算法识别率相对于FDDL和SVM并没有显著提高,但是相对于SVGDL方法平均识别率提高了1个百分点,说明了本文采用SVM泛化误差上界理论对SVGDL方法的改进是有效的,对新构建分类器的泛化性能上考虑是必要的。
3.3 模型收敛性讨论
为了说明本文算法的收敛性质,给出优化目标函数(9)的数值的变化曲线。目标函数是一个单调递减的函数,迭代优化的过程中其值在每一轮迭代中呈现出递减趋势。图3为本文算法在3个数据集的收敛曲线,从中可明显看出:3个数据集上本文算法在5次迭代后迅速收敛到极小值,并在20次迭代范围内可以迅速收敛达到目标函数最小最优化目标,充分说明了本文算法的收敛性。
4 结语
为了提高字典的鉴别性能,在SVGDL算法的基础上充分考虑到重新获得数据构建的分类器的泛化性能,提出了泛化误差界指导的鉴别学习算法。在实际情况下,支持向量引导字典学习方法,通过学习后的字典映射到系数空间进行分类。
与SVGDL方法所不同的是,GEBGDL不仅考虑到了不同类别间的编码系数空间的大间隔分类,同时使得同类别间的分布更加紧凑,促使同类原子之间尽可能地反映类别信息,增强字典的鉴别能力。实验结果表明本文GEBGDL算法的识别率在大多数情况不仅比直接训练原始的SVM、CRC和SRC算法高,而且比D-KSVD、LC-KSVD、LCLE-DL、FDDL、BDLRR和SVGDL典型的字典学习算法高,人脸识别方面也比融合图像预处理的ASF-SRC的识别率高。因此,在模型的训练中考虑分类项的泛化性能,促使了字典鉴别能力的提高。由于在求解SVM和MEB的问题上时间花销巨大,下一步的研究方向是如何提高分类器的训练速度,减小字典训练过程的时间开销。
参考文献(References)
[1] WANG Z, LIU D, YANG J, et al. Deep networks for image super-resolution with sparse prior[C]// ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2016: 370-378.
[2] LUO Y, XU Y, JI H. Removing rain from a single image via discriminative sparse coding[C]// ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 3397-3405.
[3] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[4] LIU Q, LIU C. A novel locally linear KNN model for visual recognition [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1329-1337.
[5] AHARON M, ELAD M, BRUCKSTEIN A. K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322.
[6] ZHANG Q, LI B. Discriminative K-SVD for dictionary learning in face recognition[C]// Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2691-2698.
[7] JIANG Z, LIN Z, DAVIS L S. Label consistent K-SVD: learning a discriminative dictionary for recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2651-2664.
[8] LI Z, LAI Z, XU Y, et al. A locality-constrained and label embedding dictionary learning algorithm for image classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(2): 278-293.
[9] YANG M, ZANG L, FENG X, et al. Sparse representation based Fisher discrimination dictionary learning for image classification[J]. International Journal of Computer Vision, 2014, 109(3): 209-232.
[10] CAI S, ZUO W, ZHANG L, et al. Support vector guided dictionary learning [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision, LNCS 8692. Berlin: Springer, 2014: 624-639.
[11] RIGAMONTI R, BRWON M A, LEPTIT V. Are sparse representations really relevant for image classification?[C]// Proceedings of the CVPR 2011. Washington, DC: IEEE Computer Society, 2011: 1545-1552.
[12] ZHANG L, YANG M, FENG X. Sparse representation or collaborative representation: Which helps face recognition?[C]// Proceedings of the 2011 International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011: 471-478.
[13] MEHTA N A, GRAY A G. Sparsity-based generalization bounds for predictive sparse coding[EB/OL]. [2018-05-10]. http://www.jmlr.org/proceedings/papers/v28/mehta13.pdf.
[14] CAI S, ZHANG L, ZUO W, et al. A probabilistic collaborative representation based approach for pattern classification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 2950-2959.
[15] PLATT J C. 12 Fast training of support vector machines using sequential minimal optimization[M]// SOENTPIET R. Advances in Kernel Methods: Support Vector Learning. Cambridge, MA: MIT Press, 1999: 185-208.
[16] MAIRAL J, BACH F, PONCE J. Task-driven dictionary learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 791-804.
[17] RAMIREZ I, SPRECHMANN P, SAPIRO G. Classification and clustering via dictionary learning with structured incoherence and shared features[C]// Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 3501-3508.
[18] GAO S, TSANG W H, MA Y. Learning category-specific dictionary and shared dictionary for fine-grained image categorization[J]. IEEE Transactions on Image Processing, 2013, 23(2): 623-634.
[19] ZHOU N. Learning inter-related visual dictionary for object recognition[J]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 3490-3497.
[20] KONG S, WANG D. A dictionary learning approach for classification: separating the particularity and the commonality[C]// ECCV 2012: Proceedings of the 12th European Conference on Computer Vision, LNCS 7572. Berlin: Springer, 2012: 186-199.
[21] VAPNIK V, CHAPPLE O. Bounds on error expectation for support vector machines[J]. Neural Computation, 2000, 12(9): 2013-2036.
[22] LIAN X C, LI Z, LU B L, et al. Max-margin dictionary learning for multiclass image categorization[C]// ECCV 2010: Proceedings of the 11th European Conference on Computer Vision, LNCS 6314. Berlin: Springer, 2010: 157-170.
[23] SCHOLKOPF B, PLATT J, HOFMANN T. Efficient sparse coding algorithms[EB/OL]. [2018-05-10]. http://papers.nips.cc/paper/2979-efficient-sparse-coding-algorithms.pdf.
[24] LEE K C, HO J, KRIEGMAN D J. Acquiring linear subspaces for face recognition under variable lighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 684-698.
[25] MARTINEZA M, BENAVENTE R. The AR face database, TR #24 [R]. Barcelona, Spain: Computer Vision Center, 1998.
[26] LI F F, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories[C]// Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition Workshop. Washington, DC: IEEE Computer Society, 2004: 178.
[27] XU Y, ZHANG Z, LU G, et al. Approximately symmetrical face images for image preprocessing in face recognition and sparse representation based classification[J]. Pattern Recognition, 2016, 54: 68-82.
[28] WANG D, KONG S. A classification-oriented dictionary learning model: explicitly learning the particularity and commonality across categories[J]. Pattern Recognition, 2014, 47(2): 885-898.
[29] ZHANG Z, XU Y, SHAO L, et al. Discriminative block-diagonal representation learning for image recognition[J]. IEEE Transactions on Neural Networks & Learning Systems, 2017, 29(7): 3111-3125.