★ 郭慧玲 曾辉 闫柏屹 赵晓娟 高文军 胡律江,2**
(1.江西中医学院 南昌 330004;2.湖南中医药大学 长沙 410208)
常用主变量筛选方法及其应用特性分析
★ 郭慧玲1*曾辉1闫柏屹1赵晓娟1高文军1胡律江1,2**
(1.江西中医学院 南昌 330004;2.湖南中医药大学 长沙 410208)
本文通过对几种常用主变量筛选方法及其应用特性进行分析可知,在选择主变量筛选方法时,要充分根据回归模型的属性、样本数据的大小、实现的难易程度及各主变量筛选方法的应用特性综合考虑选择合适的方法。
主变量筛选;应用特性;结合法
在数据分析的回归模型中,当所研究的问题涉及较多的自变量时,很难想象事先选定的全部自变量对因变量的影响都有显著性意义;也不敢保证全部自变量之间是相互独立的。因此,变量筛选问题就显得尤为重要。目前常用的主变量筛选方法有多元线性回归(MLR)法、主成分回归(PCA)法、偏最小二乘回归(PLS)法、人工神经网络(ANN)和支持向量机(SVM)法、遗传算法(GA)等[1,2],本文针对常用的变量筛选方法、结合法及其应用特性进行综合分析。
多元线性回归方法是使用最广泛的建立模型的方法。它的一般形式为:Y = a+b1X1+b2X2+……+bnXn式中,Y为因变量,X1至 Xn为自变量,b1至 bn为自变量的系数。由公式可知,自变量有多个, 因此在建立多元线性回归方程时,因根据各自变量对因变量的贡献大小进行变量筛选,剔除贡献小的以及与其他自变量有密切关系的自变量,从而求出精练的、稳定的回归方程。假设因变量Y受K个独立变量的影响,对K个独立变量进行筛选后,只选取P个变量(P 主成分回归法是在使得数据信息损失最小的情况下,对高维数据进行降维的一种方法。数据的信息一般指的是数据的变异程度,用方差来衡量数据的信息,方差越大,表示数据所包含的信息越丰富。主成分回归主要采用主成分提取的方法从解释变量中提取主成分,利用主成分与因变量建立回归模型,选择的主成份应是数据中方差最大的方向,并且主成份之间不相关。由于主成分的正交性,主成分回归可有效避免自变量之间的多重共线性问题,减少了回归变量的个数,提高了预测的精确度,把复杂的问题简单化,防止了过度拟合的情况,为数据找到了真实的维度。 主成分回归的本质就是降维的过程,寻找互不相关的主成分的过程。主成分分析步骤可概括如下[4]:①将原始数据矩阵进行中心化与标准化预处理;②构造新的协方差矩阵;③计算协方差矩阵的特征值与特征向量,并将特征值按从大到小排列;④计算主成分贡献率及累计贡献率,根据累计贡献率要求(一般大于70%), 选择前面的r个特征向量就能近似表示原始的数据; ⑤计算主成分载荷。 偏最小二乘回归法在提取主成分时,既要考虑主成分要包含数据的信息,还要与因变量的相关程度达到最大,使得主成分对因变量的解释程度达到最大。 偏最小二乘回归分析在建模过程中集中了主成分分析、典型相关分析和线性回归分析等方法的优点,在分析结果中,除可提供合理的回归模型外,还可以同时完成类似于主成分分析和典型相关分析的研究内容,提供更丰富、更深入的一些信息。偏最小二乘分析方法可以有效地将回归建模、主成分分析以及典型相关分析的基本功能有机地结合起来,一般认为“偏最小二乘 = 典型相关分析+主成分分析+多元回归”。目前,国外的很多专家学者,把偏最小二乘回归誉为第二代多元统计分析方法[5-7]。与传统多元线性回归模型相比,偏最小二乘回归能够在各自变量之间存在严重多重相关性的条件下继续进行回归建模,也可以在样本点个数少于变量数的条件下进行回归建模。偏最小二乘回归在最终模型中包含原有的所有自变量,因此,更易于辨识应用系统的信息与噪声(甚至一些非随机性的噪声),每一个自变量的回归系数也更容易解释其意义[8]。 偏最小二乘回归还提供了一种多对多线性回归建模的方法,特别是当自变量和因变量两组变量的个数均很多,且还存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的回归分析等方法所不具有的优点[9]。 人工神经网络(ANN) 是一门集神经科学、信息科学、计算机科学于一体的交叉性边缘学科,是一种模拟人类大脑思维方式的数学模型,它是由大量处理单元(神经元)互相连接组成的大规模、非线性、自适应系统。通过模拟人的智能行为,对样本数据信息的不断训练学习,可以拟合输入和输出之间的复杂的不确定的联系,处理非线性问题的能力一般高于传统统计分析[10-12]。因此,人工神经网络的变量筛选方法,可避免在建模过程中如何正确设定函数形式难点;还可扩充回归建模研究中的函数类型,使变量选择研究更具一般性,为在结构未知下的变量筛选开辟了途径。近年来,基于人工神经网络的变量筛选在参数优化[13]、工艺优化、影响因子的主次分析[14]等领域得到了广泛的应用。 支持向量机法是在统计学习理论基础上发展起来的一种新的分类和回归的工具[15-16]。通过结构风险最小化原理来提高泛化能力,较好的解决了小样本、非线性、局部极小点、高维数等实际问题,并在模式识别、信号处理函数逼近等领域得到了应用[17-18]。 SVM其基本思想是:首先通过非线性变换将输入空间变换到一个高维的特征空间,然后在这个特征空间中求取最优线性分类面使分类边界,即分类平面和最近点(支持向量)之间的距离最大,并且这种非线性变换是通过定义合适的核函数来实现,然后将SVM问题转化为一个二次规划问题,从而求解。 遗传算法[19]是仿照生物进化和遗传的规律,利用复制、交换、突变等操作,使优胜者繁殖,劣败者消失,一代一代地重复同样的操作,最终找出最优解。它具有智能式搜索、渐进式优化、全局最优解、并行式算法等特点。 遗传算法主要执行了以下步骤:(1)编码;(2)初始群体的生成;(3)计算适应度;(4)执行遗传操作;(5)反复执行(3)和(4)后,一旦达到终止条件,选择最佳个体作为遗传算法的结果[20]。 近年来,遗传算法由于具有全局寻优、自组织、自适应和自学习性等特性及其计算量也明显小于所有可能回归法的计算量,故广泛用于处理维数较大的数据[21],是一种较实用的变量筛选方法。 结合法,即将不同的变量筛选方法联合使用的一种变量筛选方法。如PLS-BP法:偏最小二乘回归方法能有效地提取对系统最佳解释能力的新综合变量,较好地克服自变量间的多重线性相关性,但不能有效处理因变量与自变量间复杂的非线性问题,而神经网络方法是解决非线性问题的有力工具,但由于输入数据的多重相关性使得网络的求解变得不稳定及收敛速度慢,因此将2种方法结合起来对变量进行筛选,既提高模型的稳定性,又扩展了模型的应用范围。现较常用的结合法有PCA-ANN[22]、PLS-ANN[23]、ANN-GA[24]、PLS-GA[25]等。 综上所述,处理回归模型的主变量进行筛选时,不同的变量筛选方法各有其特点,因根据模型的属性(线性模型与非线性模型)、样本数据的大小、实现的难易程度等因素选择合适的变量筛选方法。必要时,可以采用结合法,使得筛选的变量更符合要求。 [1]Blanco M, Villarreal I. NIR spectroscopy: A rapid-response analytical tool[J].Trends Anal Chen, 2002, 21(4):240-250. [2]褚小立,许育鹏,陆婉珍.用于近红外光谱分析的化学计量学方法研究与应用进展[J].分析化学评述与进展,2008,36(5):702-709. [3]金浩,高素英.最佳多元线性回归模型的选择[J].河北工业大学学报,2002,31(5):10-13. [4]Shen, HP,Huang, JHZ.Sparse principal component analysis via regularized low rank matrix approximation[J].Journal of Multivariate Analysis,2008,99(6):1 015-1 034. [5]张新安,田澎.购后行为意向的偏最小二乘建模与分析[J].工业工程与管理,2003,8(3):14-19. [6]Oliver R L.ACognitive Model of theAntecedents and Consequences of Satisfaction Decisions[J]. Journal of Marketing Research, 1980, 17(4):460-470. [7]Westbrook RA, Reilly M D.An Alternative to Disconfirmation of Expectations Theory of Consumer Satisfaction[J].Advanced in Consumer Research, 1983, 6(3):256-261. [8]黄敏杰,叶昊,王桂增.基于投影的回归分析方法综述[J].控制理论与应用,2001,18(z1):1-6. [9]杨栋.基于PLS回归方法的中国高技术产品进口影响因素分析[J].经济研究导刊,2009,(25):172-174. [10]Snow PB,Kerr DJ,Brandt JM,et al. Neural network and regression Predictions of 5-year Survival after colon carcinoma treatment[J].Cancer,2001,91(8):2 003-2 009. [11]Santos-Garcfa,Varela G,Sovoa N,et al. Prediction of postoperative morbidity after lung resection using an artificial neural network ensemble[J]. Artif Intell Med,2004,30(1):61-69. [12]Mehmed Kantardzic (USA). Data Mining Concepts,Models,Methods,and Algorithms [M].闪四清等,译.北京:清华大学出版社,2003. [13]徐富强,刘相国.基于优化的RBF神经网络的变量筛选方法[J].计算机系统应用,2012,21(3):206-208. [14]周伟,王建军,李继锐. 基于人工神经网络的影响高速公路社会效益量化的变量选择方法[J].西安公路交通大学学报,2000,20(3):63-66. [15]陈永义,俞小鼎,高学浩,等.处理非线性分类和回归问题的一种新方法(I)-支持向量机方法简介[J].应用气象学报,2004,15(3):345-354. [16]Vapnik V. An Overview of Statistical Learning Theory [J].IEEE Trans. on Neural Network, 1999,10(5):988-999. [17]张学工.关于统计学习理论与支持向量机[J].自动化学报, 2000,26(1):32-42. [18]梁路宏,艾海舟,张钹.基于模板匹配与支持向量机的人脸检测[J].计算机学报, 2002, 25(1):22-29. [19]Dominique M. and Alistair B. .Nonlinear Blind Source Separation Using Kernels [J].IEEE Trans. On Neural Networks, 2003, 14(1):228-235. [20]YUN Qing-Xia,HUANG Guang-Qiu,WANG Zhan-Quan. Genetic Algorithms and Genetic Programming[M].Beijing: Metallurgy Industry press,1997:11,21. [21]章元,朱尔一,庄峙厦,等. 遗传算法用于变量筛选[J].高等学校化学学报, 1999,20(9):1 371-1 375. [22]张雪伍,常晋义.PCA-BP在城市汽车保有量预测中的应用研究[J].计算机仿真,2012,29(12):376-379. [23]刘波平,荣菡,邓泽元,等.基于PLS-自组织竞争神经网络近红外光谱技术对鲜乳和掺假乳的检测方法研究[J].分析测试学报,2008,27(11):1 147-1 150,1 156. [24]刘德玲,关晓颖,黄艳萍,等.基于BP神经网络和改进遗传算法的钩藤碱提取工艺优化研究[J].计算机与现代化,2012,(8):17-20. [25]褚小立,袁洪福,王艳斌,等.遗传算法用于偏最小二乘方法建模中的变量筛选[J].分析化学,2001,29(4):437-442. 征稿启事 《江西中医药》所设的重点栏目有《明医心鉴》、《滕王阁医话》等。《明医心鉴》以介绍名老中医经验和中医临证心得为主,重点刊载中医关于疑难病的诊疗经验,要求观点、方法新,经验独到。《滕王阁医话》主要反映中医教学、科研、临床的一得之见,要求以小见大,有感而文,语言生动流畅,可读性强,富于知识性、趣味性。 TheCommonPrimaryVariableSelectionMethodsandItsApplicationCharacteristics GUOHui-ling1,ZENGHui1,YANBai-yi1,ZHAOXiao-juan1,GAOWen-jun1,HULv-jiang1,2 1.JiangxiUniversityofTraditionalChineseMedicine,Nanchang, 330004; 2.HunanAcademyofChineseMedicine,Changsha, 410208 This article through analysis the several common primary variable selection methods and its application characteristics, we can find that, it is necessary to select the appropriate method fully based on the properties of regression model, the size of sample data, the implementation of the difficult degree and the application features of primary variable selection methods. Primary Variable Selection; Application Features; Binding Method 郭慧玲,女,教授;从事中药制剂新技术研究,Tel:13870934562,E-mail:ghl6262@126.com。 **通讯作者:胡律江,男,博士研究生,讲师,从事中药制剂新技术研究,Tel:13767104131;E-mail:380085581@qq.com。 O 212 A 2013-05-31)2 主成分回归(PCA) 法
3 偏最小二乘回归(PLS) 法
4 人工神经网络(ANN) 法
5 支持向量机(SVM) 法
6 遗传算法(GA)
7 结合法