不同累计贡献率下PDEs对CCA的影响

2020-04-10 09:15雷田田范丽亚
关键词:降维贡献率分类器

雷田田 王 振 范丽亚 杨 静

(聊城大学 数学科学学院,山东 聊城 252059)

0 引言

图像特征抽取作为模式识别研究的核心问题之一,在机器学习、图像处理以及计算机视觉等相关领域有着广泛的应用背景[1,2].特征抽取在本质上就是寻找一种映射方式,利用这种方式将数据从高维原始空间映射到低维子空间中,使得降维后的数据仍保持尽可能多的识别特征,以便做进一步处理.对于高维噪声图像(光暗、有遮挡)的分类与识别任务,清洗图像以及抽取图像的有效特征是完成任务的关键.近年来,有关特征抽取方法的研究成果颇丰,其中线性判别分析(Linear Discriminant Analysis,LDA)[3,4]和主成分分析(Principal Component Analysis,PCA)[5,6]是最具代表性的两种方法.但是,这两种方法主要是针对数据的一组特征进行降维处理的.

随着信息时代的来临,相同的模式不可避免地会出现多个不同的特征表示方式,每个特征表示都反映了同一模式的不同特性.可以将多个特征表示首尾相连形成一个新的高维特征表示[7],也可以利用复向量将两组特征合并在一起[8],然后利用PCA,LDA等方法进行特征抽取.这样做在一定程度上可以提高图像的分类或识别质量,但却忽略了特征表示间的内在联系以及表示的多样性.为了改进这一点,本文选用典型相关分析(Canonical Correlation Analysis,CCA)[9,10]作为图像降维工具,其优势是考虑了多组特征间的线性相关性,但也出现了累计贡献率如何选取的问题.累计贡献率决定了降维子空间的维度,贡献率越高,维度越大,计算成本也越高,但分类精度并不一定越好.目前,针对累计贡献率还没有一个行之有效的选择方法,习惯上选为100%,这样一来很多时候起不到降维作用.

另一方面,尽管CCA通过考虑多组特征间的线性相关性,提高了特征表示的鉴别性与鲁棒性,但其在特征抽取过程中并没有考虑光照、遮挡对图像质量的影响,这限定了CCA处理高维噪声图像(光暗、有遮挡)的能力.2010年和2013年,Liu等人分别提出了将偏微分方程组(Partial Differential Equations,PDEs)应用于图像恢复和计算机视觉的方法[11,12].2017年,Fang等人[13]提出了一种基于PDEs的图像特征提取方法,所提方法既考虑了图像的判别信息,也考虑了图像在平移、旋转下的不变性以及对光照的鲁棒性,但没有考虑图像维数约减问题.2018年和2019年,江等人分别研究了PDEs的进化次数对图像特征质量的影响[14]以及对正则化SVM模型参数的影响[15].

为了弥补CCA的不足,本文选用文献[13]中提出的方法作为图像降噪方法,并借助于文献[14,15]的成果,研究了PDEs的进化对累计贡献率的影响.针对85%,90%,95%,100%四个累积贡献率,分别以支持向量机(Support Vector Machine,SVM)[16,17]和一对余多类SVM (One-versus-Rest Multi-class SVM,OVR- MSVM)[18,19]为分类器,在Extended Yale B数据集和Palm-print数据集上进行了大量的实验.

1 支持向量机

本节简要回顾文中要用到的二类分类器SVM和多类分类器OVR-MSVM.在本文中,分别用em=(1,…,1)T∈Rm和Im∈Rm×m表示m维1向量和m×m阶单位矩阵.

1.1 二类支持向量机

线性SVM通过构建下面的二次规划模型

(1)

(2)

算法1(SVM)

步5 构造分类决策函数f(x)=+b*.

1.2 多类支持向量机

(3)

(4)

算法2(OVR-MSVM)

步2 令Xi为正类,X-i为负类,选择适当的模型参数Ci>0.

步6 构造分类决策函数fi(x)=+bi.

步7 若i

从算法2中可以看出,OVR-MSVM需要学习K个SVM,相比于其他多类分类器,OVR-MSVM的学习时间短,速度快,但会产生数据不平衡的问题.

2 基于PDEs的图像降噪方法

(5)

(6)

其中η>0是迭代步长,

(7)

Z(i,m,n)=[Z(i,m,n)(p,q)]∈Rd1×d2,i=0,1,…,5,n=0,1,…,N-1,m=0,1,…,M.

下面给出具体算法.

算法3(基于PDEs的图像降噪方法)

步1 初始化.设k=0,ε>0,ρ=0.95,N=5,η=1,Δt=0.5.在[-1,1]中均匀采样得矩阵Ak∈RN×6.

步3 求解模型(5),得Wk,其中UN=(UN)k.

步6 更新η←ρη,并利用(6)式更新Ak至Ak+1.

步8 求解模型(5),得Wk+1,其中UN=(UN)k+1.

步10 若‖Ek+1-Ek‖F<ε,停止迭代,置A*←Ak+1,W*←Wk+1;否则,置k←k+1,转步5.

在文献[15]中,江等人研究发现通过PDEs的进化可以弱化模型参数的影响,甚至不需要考虑调参.为此,本文在实验中选取了固定参数.

3 基于PDEs的CCA

作为数据降维工具,CCA考虑了多组特征间的线性相关性,提高了特征表示的鉴别性与鲁棒性,但其在特征抽取过程中并没有考虑光照、遮挡等噪声对图像质量的影响,同时还出现了累计贡献率如何选取的问题.为了提高图像的分类精度,本节将PDEs融入CCA中,提出了基于PDEs的CCA作为图像的降噪降维方法.

3.1 CCA与累计贡献率

(8)

(9)

(10)

考虑模型(10)的Lagrange函数,并令其对wx,wy的偏导数为0,可将模型(10)转化为广义特征方程

(11)

算法4(CCA)

步2 为了避免矩阵的奇异性,置Cxx←Cxx+tIp,Cyy←Cyy+tIq,其中t>0是正则化参数.

步3 对Cxx做特征值分解:Cxx=U∑zUT,其中U∈Rp×p是正交矩阵,σ1≥…≥σp>0是Cxx的全部非零特征值且∑x=diag(σ1,1,…,σp).

步5 对矩阵B做奇异值分解:B=[P1∑B,0]QT,其中P1=[p1,p2,…,prB]∈Rp×rB是列正交阵,∑B=diag(λ1,…,λrB),λ1≥…≥λrB>0是B的全部非零奇异值.

步7 利用典型方向矩阵Wx=[wx1,…,wxd]∈Rp×d,Wy=[wy1,wy2,…,wyd]∈Rq×d进行降维,得降维数据集

从算法4中可以看出,累积贡献率取的不同,低维子空间的维度d也会不同.习惯上将累积贡献率选为100%,这样一来很多时候起不到降维的作用.若累积贡献率取的过低,将会导致数据判别信息的丢失,影响数据的分类精度.目前还没有一个行之有效的方法选择累积贡献率.

3.2 基于PDEs的CCA

算法5(CCAPDEs)

步1利用PDEs的进化对原始图像Im∈Rd1×d2进行降噪处理,得特征矩阵um∈Rd1×d2.

步5通过调整PDEs的进化次数,得最佳分类精度.

4 PDEs的进化对累积贡献率的影响

本节针对c(c≥2)类高维噪声(光暗、有遮挡)图像集,以分类精度为标准,通过实验研究PDEs的进化对累计贡献率的影响.对二类图像集,选用SVM作为分类器;对多类图像集(以三类图像集为例),选用OVR-MSVM作为分类器.分类器均采用五折交叉验证法.借助文献[14,15]的研究成果,分类器的模型参数取为0.5或0.01且PDEs的进化不超过7次.所有试验都在Extended Yale B人脸数据集和Palm-print掌纹数据集上进行,且考虑累积贡献率为85%,90%,95%,100%四种情况.

4.1 数据集描述

Palm-print掌纹数据集包含400个人的8000个掌纹,每人20个,前10个和后10个分别在不同时间获取,每个掌纹尺寸为32×32.随机选取12人的掌纹(见图1)组成6个二类图像集以及随机选取18人的掌纹(见图2)组成6个三类图像集进行试验

Extended Yale B人脸数据集包含38个人分别在12°,25°,50°,77°,90°的不同光照角度下的2414张面部图像,每张尺寸为32×28.随机选取8人(见图3),每人受光照影响较大的30张面部图像组成四个二类图像集(从左至右编号分别为1至8)以及随机选取12人(见图4),每人受光照影响较大的30张面部图像组成四个三类图像集进行试验.

4.2 PDEs对累积贡献率的影响

本节只考虑PDEs的进化对累积贡献率的影响,不考虑压缩函数的影响,故取g(x)=x.用λ表示累积贡献率,n表示PDEs的进化次数.n=0表示只是利用CCA进行降维处理,n=1,2,…,7表示利用CCAPDEs同时进行降噪降维处理,只是PDEs的进化次数不同.表1和表2给出了对二类图像集的影响,表3和表4给出了对三类图像集的影响.

表1 Palm-print数据集下PDEs对累积贡献率的影响 (二类,C=0.5)

表2 Extended Yale B数据集下PDEs对累积贡献率的影响(二类图像,C=0.5)

表3 在Palm-print数据集下PDEs对累积贡献率的影响(三类,Ci=0.01)

表4 在Extended Yale B数据集下PDEs对累积贡献率的影响(三类,Ci=0.5)

为直观起见,以每组实验中的最后一组数据为例,给出了影响柱形图(见图5)

从表1和表2中可以看出: 针对二类图像集,不论累积贡献率取为多少,最多经过4次PDEs进化就可达到同等条件下的最佳分类精度.对Palm-print数据集,分类精度至少提高了15%,尤其对85%的累积贡献率,至少提高了30%.对Extended Yale B数据集,除极个别情况外,分类精度至少提高了3.3%.从表3和表4中可以看出: 针对三类图像集,不论累积贡献率取为多少,最多经过5次PDEs进化就可达到同等条件下的最佳分类精度.对Palm-print数据集,分类精度至少提高了5%,对85%的累积贡献率,影响更为明显,分类精度至少提高了21.7%.对Extended Yale B数据集,分类精度最少提高了1.1%,对100%的累积贡献率,精度至少提高了2.2%.

综上所述,针对高维噪声图像(光暗、有遮挡)的分类问题,本文所提的CCAPDEs是一个有效和高效的降噪降维方法,且通过PDEs的进化可以弱化累计贡献率的影响,甚至不用调优累积贡献率,只需进行不超过5次的PDEs进化即可达到同等条件下的最佳分类精度.

5 结论

众所周知,对高维噪声图像(光暗、有遮挡)的分类问题来说,分类精度的高低严重依赖于图像降噪方法和降维方法的选择.目前,大部分的降噪方法不具备降维作用,同样地,大部分的降维方法也不具备降噪作用.本文提出的CCAPDEs算法可以同时降噪降维,但出现的问题是如何选择CCA中的累计贡献率.累计贡献率的大小不仅决定着降维子空间的维度,而且还影响着图像的分类精度,一般常选为100%,但这样一来很多时候起不到降维的作用.为此,本文研究了PDEs的进化对累计贡献率的影响.通过在Extended Yale B人脸数据集和Palm-print掌纹数据集上的实验表明,PDEs的进化可以弱化累计贡献率的影响,甚至不用调优累积贡献率,通过不超过5次的PDEs进化即可达到同等条件下的最佳分类精度.下一步我们将研究CCAPDEs算法对分类器的影响,尤其是对分类器模型参数的影响.

猜你喜欢
降维贡献率分类器
混动成为降维打击的实力 东风风神皓极
学贯中西(6):阐述ML分类器的工作流程
基于数据降维与聚类的车联网数据分析应用
基于朴素Bayes组合的简易集成分类器①
一种通用的装备体系贡献率评估框架
大气腐蚀数据降维最优维度研究
基于动态分类器集成系统的卷烟感官质量预测方法
降维打击
一种自适应子融合集成多分类器方法
14.8%