杨 林, 徐宏喆
(1.西安市特设检验研究院, 陕西 西安 710049; 2.西安交通大学计算机系, 陕西 西安 710068)
随着图像采集设备的迅速发展,工业上检测到的板形图像质量日益提高,图像特征的数目和维度不断增大,而传统图像处理方法在高维信息处理中存在着效率瓶颈的弊端[1].如何在保持图像关键信息无损的前提下,降低图像特征维度成为当前迫切需要解决的难题.主成分分析(PCA)是一种经典的基于统计分析理论的线性降维方法.目前,PCA的一个研究热点在于利用核函数进行非线性向线性转化的特征映射.
矫直机是工业上的一种主流钢板矫直设备.目前,大部分对矫直机自动控制矫直板材的研究都集中于基于板形知识库的智能选参模型上[2].由于该模型在训练状态和参数选择状态均涉及到对大量板形图片的处理和计算,而高维的板形特征不可避免地带来了巨大的运算量,这使得参数选择模型不能及时有效地将待矫直板材分类,影响了其选择工艺参数的实时性.对板形特征维数进行降维,不失为一种有效的解决运算量大、效率低的方法.
图1 KPCA的基本思想
PCA方法是一种经典的基于统计分析理论的线性降维方法[3],但PCA不能有效地提取出高维数据中的非线性特征, PCA的一个研究热点在于利用核函数进行非线性向线性转化的特征映射,即KPCA[4].
在图1中,输入空间Rm中的原始数据为非线性,无法直接实施PCA方法进行主成分提取,选取一个Rm→Rn的非线性映射φ,使得在特征空间Rn中,输入数据变得线性可分,然后再对映射后的线性数据进行PCA分析,便可以提取原非线性数据的主要成分,这便是核PCA(Kernel PCA,KPCA)方法的主要思想[5].
核的选取是当前核函数研究领域的热点和难点之一.目前核函数的选取主要采用的是领域专家选取法及试凑法,即根据各种常用核函数的特点及其适用领域来选择合适的核,表1展示了常用核函数的特点分析,其中全局核与局部核的概念参见文献[6].
表1 常用核函数的特点分析
由于高斯核属于局部核函数,它只能反映数据的局部非线性特征,而多项式核和Sigmoid核属于全局核函数,它们可以体现数据的全局特性.对于多项式核和Sigmoid核,虽然其同属于全局核函数,但前者适用于低阶非线性数据,而后者适用于高阶非线性数据,因此这3种核函数存在各有特点、优势互补的关系.
在以上分析的基础上,本文使用多核混合来解决实际问题中的多重特点数据问题,混合后的结果为:
(1)
在式(1)中,每个核本身具有可调的参数且同时具备权值系数wi,i=1,2,3,wi表明其相应的核在Km′(x,y)中所发挥作用的比例,且w1+w2+w3=1.如果实际数据更接近某个核的适用领域,则可以通过增高该核的权值来反映实际数据这一特点,从而使得多核能够得到问题更精确的解.同时由于增加了权值,也使得多核实际上成为经典核模型的一种推广,如当w1,w2=0时,Km′(x,y)退化为Sigmoid核,当w3=0时,Km′(x,y)退化为高斯和多项式的混合核[7].
表2 多核模型的可变参数集
式(1)中包含了所有可能导致多核Km′(x,y)发生变化的参数集,该参数集不仅包含每个核所具有的权值,同时包含单个核本身所具有的可调参数,如表2所示.
基于多核PCA的降维方法总结来说分为以下几个步骤:
(1)将输入矩阵s映射到高维空间F得φ(s);
图2 PCA与多核的降维效果比较
(2)对φ(s)进行标准化与中心化,得到标准的高维空间输入S;
(3)求S的协方差矩阵,解出其特征值λ1≥λ2≥…≥λn;
(4)根据降维要求,提取λ1≥λ2≥…≥λk,k (5)计算λ1≥λ2≥…≥λk对应的特征向量并标准化得t1,t2,…,tk; 使用遗传算法来进行参数优化,其过程如下[8]: (1)对参数集形成的解空间进行编码,构建染色体空间; (2)在染色体空间中随机选择一代种群O; (3)利用降维后的板形信息保持率计算O的适应度,转(7); (4)使用适应度计算的结果进行比例选择运算,即保留适应度高的染色体,淘汰适应度低的部分; (5)对染色体进行单点交叉运算和基本位变异运算,得到新一代种群N; (6)计算N的适应度; (7)若适应度满足要求,则解码最优染色体并退出算法,否则返回(4). 下面将通过展示50副板形样本数据的降维记录,来分析多核PCA的实际效果. 图2展示了多核PCA相对于PCA方法的优异性能. 从图2可以看出,对于绝大部分板形,多核PCA方法的降维性能均较大幅度地(约20%)优于普通PCA方法,这表明板形样本中平均约存在1/5的非线性成分,即PCA方法无法提取的高阶统计特性[9]. 本文进行了图像降维领域的研究,并以工业上高维的板形数据作为了研究的出发点,该研究方法和结果也可以作为其它图像降维领域的一种参照和借鉴.另一方面,本文对于核函数的深入研究以及给出的多核模型也可以为其它使用核函数的领域提供一个选择和构造核函数的新思路. 参考文献 [1] Berchtold S, Bohm C, Kriegel HP. The Pyramid Technique:Towards Breaking the Curse of Dimensionality[C]. Seattle,Washington:Proceedings of the International Conference on Management of Data,ACM SIGMOD,1998:142-153. [2] 刘 凯,徐宏喆.板材矫直机智能控制及应用[M].北京:机械工业出版社,2010. [3] Jolliffe IT. Principal Component Analysis[M]. New York:Springer-Verlag,1986. [4] Scholkopf B, Smola A, Muller K. Nonlinear component analysis as a kenrel eigenvalue problem[J]. Neural Computation,1998,10(6):1 299-1 319. [5] 赵丽红,孙宇舸,蔡 玉, 等.基于核主成分分析的人脸识别[J].沈阳:东北大学学报,2006,27(8):67-70. [6] Smola AJ. Learning With kernels[D]. Ph.D. Thesis,TU Berlin,1998. [7] Smits GF, Jordan EM. Improved SVM regression using mixtures of kernels[R]. Hawaii:IEEE, 2002. [8] Holland JH. Adaptation in Natural and Artificial Systems[M]. Ann Arbor, MI: University of Michigan Press, Ann Arbor, MI, 1975. [9] Scholkopf B, Smola A, Muller K. Nonlinear component analysis as a kenrel eigenvalue problem[J]. Neural Computation,1998,10(6):1 299-1 319.3 实验
4 结束语