杨锦忠,宋希云
青岛农业大学/山东省旱作农业技术重点实验室,青岛 266109
统计分析专栏
多元统计分析及其在烟草学中的应用
杨锦忠,宋希云
青岛农业大学/山东省旱作农业技术重点实验室,青岛 266109
比较全面系统地介绍了多元统计分析方法。在阐述多元统计在烟草学中应用重要性、必要性和可行性的基础上,介绍了以下方法及其在烟草学中的应用:(1)直观分析和判读数据的多元作图可视化;(2)把数据化繁为简的主成分分析;(3)将数据分门别类的聚类分析;(4)诊断识别新样品的判别分析;(5)解析两组变量之间关联的典型相关分析。用一句话概述特点的方式,列出了典型变量分析、多元方差分析、对应分析等经典方法,以及空间统计学、支持向量机、投影寻踪、分类与回归树、偏最小二乘法、结构方程模型等新型方法。强调了Bootstrap重抽样对于增强多元统计分析结论说服力的重要性。
多元统计分析;烟草学;应用案例;新技术新方法
统计学研究对于烟草研究与应用的重要性不言而喻。作者曾分别以“烟草学术论文的统计学表达与展示”和“单一响应变量统计分析在烟草学中应用的若干问题”为题,与烟草学同仁进行了交流。随着烟草科技的进步,数据分析方法及计算机软件的快速发展与普及,多元统计方法在烟草学中的应用正在从深度与广度两个方向快速发展。本文旨在为广大烟草学研究、应用和管理人员打开一个全面系统了解多元统计的窗口。
多元统计在烟草学中应用的重要性体现在两个方面:第一、烟草学具有客观多元性。烟草的种植系统、加工系统、消费系统都是复杂的多组分系统。生态环境、烟草品种、种植措施、工艺等诸多因素,共同影响烟草产品的产量与质量;经济的、管理的、医学的诸多因素,共同影响烟草产品的营销和经营水平。多元统计恰恰就是专门面向多组分系统的数据分析方法。另外,当今科学方法论的发展趋势之一是更加重视科学研究的整体性和全面性,为了展现一个多组分系统中变量之间错综复杂的关系模式与格局,新型多元统计分析方法不断涌现。第二、多元统计优于一元统计。与一元统计相比,多元统计分析易于发现处理间细微判别,对事物的认识更深刻,更接近事物本来面目。
多元统计在烟草学中应用的必要性也体现在两个方面。一方面,数据采集手段与方法(环境因子传感器技术、数字图像处理和遥感等波谱技术、DNA测序及基因芯片技术等)进展迅速,自动化与半自动化测量仪器应用越来越广泛,多元数据的获取更加便利,数据量日益增多,这已成为烟草学理论研究和技术开发的常态,客观上要求采用多元统计的数据分析方法。另一方面,烟草营销和经营领域与农学等领域不同,通常无法开展控制条件下的随机化试验研究,只有“流水帐”式的事实数据。对于此类数据,只有采用多元统计方法,才能在错综复杂的大量数据矿产中挖掘出有价值的信息,阐明不同变量之间的关系,评价各个变量对营销和经营的重要性,探寻变量间作用模式和分布格局。
从现在往前推二三十年,在烟草学中应用多元统计遭遇以下障碍:受到研究手段和仪器设备限制,试验重复次数少或者样品数目小,测定项目少,难以获得大样本数据;计算复杂,凭借人工方式或者计算器辅助方式难以完成,必须使用计算机软件,而软件数量少且价格高;分析结果有时不易解读,基本假定时常难以验证。目前形势已发生了很大变化。经典多元统计分析方法在生物学、生态学和农学中的应用已经是常态,而且,随着数据分析新方法的不断出现,各种商用和免费的计算机多元统计软件也同步推出,互联网突破了统计新技术传播的时间和空间限制,大大方便了推广应用。统计软件的多元作图和可视化功能增强,在很大程度上增加了原始数据和分析结果的易读性和直观性。重抽样技术的兴起和普及,在较大程度上突破了一些基本假定的限制。除传统时间序列统计分析领域继续进步外,生态系统固有的空间变异属性受到了前所未有的重视,短短几十年内,空间统计学自诞生以来就一直飞速发展。所有这些都为我国烟草学领域广泛应用多元统计创造了良好条件,我们应该与时俱进,主动认识它,了解它,这对提升烟草学研究和生产水平具有重要意义。
二维和三维的散点图和密度图有助于识别离群点、极端点和聚合点,初步判断关联走向[1]。由两两变量散点图组成的阵列图能够展示诸多变量之间关联的分布模式和格局。具有动画的散点图软件还可以任意变换视角,选择展示变量关联的最佳角度。值得指出,图中坐标点既可以是原始数据,也可以是多元统计的分析结果。
统计脸谱图[1-2],也称Chernoff脸谱图,是多元作图的一种经典方法,能在平面上直观、形象地展示多变量数据的特征,它有多个变种。其中一种可以绘制最多36个变量的数据,一个变量对应面部的一个特征,左右半脸各对应18个变量。应用此技术有两个关键点,一是变量的归一化变换(最小值对应0,最大值对应1),二是面部特征与变量的对照表。利用人类对面部特征细微变化敏感的心理特质,借助脸谱图,既可以同时依据多个变量对样品进行相似性或者相异性的综合直观辨别,也可以识别离群点(例如两个以上变量取值异常生成极端脸形,又如某个变量取值异常,对应面部特征有显著变化)。
平行坐标图[3]是多元作图的又一种经典方法。平行坐标图与脸谱图一样,突破了笛卡儿坐标系只能表示二维和三维数据的限制,特别适合展示变量数目超过3个的多元数据。其技术原理很简单,首先对每个变量进行归一化变换,在横坐标轴上依次排列全部变量,变量值为纵坐标,一个样品的各点依次连接为一条折线。离群点看起来是离群的多边形。变量顺序对图形易读性有重要影响,一种顺序可能比另一种顺序更能反映数据变化的态势。使用颜色表示样品类别可以改善图的易读性。
双标图能够在图中同时显示由多个样品多个变量(离散型和连续型)组成的数据,可以展示主成分、典型相关、多维尺度分析、各种对应分析的结果[4]。
通俗地讲,主成分分析就是将复杂的多元数据进行简化,把多个相互关联的指标化简成少数几个相互独立的综合指标,而且,这些综合指标最大程度地保留了原来数据的信息。一个变量的信息量常用其方差表示,全部变量的方差总和就是多元数据的信息总量。用最简单的统计语言描述基本原理就是,首先寻找变量的线性组合中最大方差的那一个,称为第一主成分;接着,在剩余信息中寻找方差最大的、并且与第一主成分独立的变量线性组合,称为第二主成分;如此反复,直到剩余信息等于零为止。可以使用协方差矩阵或者相关系数矩阵计算主成分,这两种计算方法获得的结果并不相同。使用协方差矩阵意味着变量的信息量大小完全取决于其方差大小,而且,当变量量纲不同时,产生分析结果不易解释问题;使用相关系数矩阵则意味着不同变量的信息量相同,并且消除了量纲不同的干扰。主成分的主要用途如下:作为一种化简即所谓降维技术,构造综合指标;在二维或者三维空间中实现多元数据的可视化;作为其它多元统计分析的数据源,例如主成分回归、主成分聚类、主成分判别等。
主成分的简化能力取决于原始变量之间的线性相关性,相关性越强,简化效果越明显。例如,汪显国等[6]利用主成分方法综合评价烟丝产品中6种加香物质含量的均匀性,前两个主成分的累计方差和达到总方差的98.8%,这意味着已经把6个变量化简为2个新变量,同时几乎保留了原来6个变量的全部信息。
主成分分析最早根据多元联合正态分布推导而来,显然,连续性、正态性和线性相关成为基本假定。赵杰宏等人[7]的研究中烟叶变量(外观质量指标和评吸质量指标)都是有序变量而非连续变量,明显不符合主成分分析的连续性和正态性假定,显然不能使用普通相关系数,而应该使用Polychoric相关系数[5]。随着新型统计技术的出现,主成分分析正在突破早期的假定限制,如投影寻踪主成分等方法解决了主成分对离群点敏感的问题,提供了所谓的稳健主成分,又如核主成分等方法解决了经典主成分无法处理变量间非线性关系的问题,拓展了主成分的应用范围。
鉴于试验或者调查研究的结果总是样本结果,人们就用样本的主成分近似总体的主成分。样本结果的偶然性必然引起样本主成分的偶然性,这时,如何确定合理的主成分数目和如何准确计算主成分的标准误就成为影响主成分实际应用效果的重要问题。目前看来,Bootstrap等统计重抽样技术提供了一种切实可行的解决方案[8]。
聚类分析是根据“物以类聚”的思路,对样品或者指标(即变量)进行分类的一种多元统计分析方法。聚类分析属于数值分类的范畴,是一种探索性数据挖掘技术。样品聚类分析是在事先不知道应分多少类的情况下,进行探索性分析,对观察对象即样品依据某些数量特征适当分类。变量聚类分析是在事先不知道应分多少类的情况下,进行探索性分析,对观察对象的数量特征直接分类。样品分类的常用距离有:欧氏距离,马氏距离,闵可夫斯基距离等,样品间距离越小则划入同一类的可能性越大,反之亦然。指标分类的常用相似系数有:夹角余弦,相关系数,指标间相似性越大则划入同一类的可能性越大[9]。上述情形只限于连续型变量,对于二值变量组成的多元数据,最好构造特殊的距离或者相似系数[1]。为消去变量量纲不同或者变异幅度不同的影响,样品聚类时,要对变量进行标准差标准化或者极差标准化变换,而变量聚类时,同样要对样品进行标准化变换。
聚类分析的功能在于发现多元数据中自然存在的分组或者类型,广泛用于烟草基因型分类[10]、产地生态分类[11]、产品生理生化指标分类、作物性状分类[12]等领域。聚类分析基本步骤有两个:一是选择距离或者相似系数的计算方法,二是选择合并子类的计算方法。二者都没有公认的选择标准,主要根据聚类结果与专业领域经验的吻合程度加以判断。经典的聚类分析不考虑分类结果的稳定性,没有确定最终分类数目的准则,使应用效果受到较大影响。针对这些问题,Bootstrap等统计重抽样技术在一定程度上给出较好的解决方案,帮助确定最终分类数目,剖析分类结果的稳定性等[13],统计软件的较新版本都具有这种功能[14-15]。聚类结果通过实践检验以后,就可以进一步付诸判别分析,以解决新样品的归类问题。
判别分析是在多元数据中全部样品分类明确的条件下,建立判别函数和判别准则的一种多元统计分析方法。它的终极目标是根据一个新样品的多指标测量结果,即多变量观测值,判断它归属于已知类型中的哪一类。判别分析在烟草上有广泛应用,例如,根据遭受病害或者虫害的烟草植株或者器官或者组织的多个症状,诊断病害或者虫害的种类。根据烟叶或者烟丝的多个理化特性,识别其产地或者产品类别。根据烟草DNA指纹,识别其基因型身份。
判别分析的基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料即多元数据确定判别函数中的待定系数,并计算判别指标。据此即可确定某一新样品属于何类。目前常用的判别准则为极大似然法和贝叶斯法。经典的费雪线性判别函数适用于线性可分的分类和识别问题,并且要求不同类别具有同质的协方差矩阵。当协方差矩阵不同质时,可以使用二次判别函数以完成分类和识别任务[9]。使用核判别函数则可以解决更复杂的非线性分类与识别问题,已经成功应用于植物的种子识别和花朵识别[16]。
通过评价判别分析结果的稳定性,可以提高分析结论的说服力,因此,应该在判别分析时使用Bootstrap等统计重抽样技术,协助从全部变量中筛选稳健的变量子集,估计误判概率等[17-18]。
典型相关分析是研究两组变量之间线性相关的一种多元统计方法,通常用于研究初级阶段的探索性简化分析。用于典型相关分析的多元数据,事先必须将测定指标即变量,按照自然属性划分为两组。若两组变量地位相同,则可以把典型相关看作是研究它们之间相互关联的一种分析方法。若两组变量有依赖关系,则可以认为典型相关能够通过自变量组解释依变量组的变化。烟草学的不少实际问题可归结为典型相关研究,如烟草性状与环境因素之间的相关,育种目标性状和选择性状之间的关系[9],烟草两组性状,如物理性状和化学性状之间的相关等[19-20]。
典型相关基本原理是构造互不相关的若干配对的典型变量,每对典型变量分别来自两组原始变量的线性组合。它把复杂的组内变量相关和组间变量相关,化简为配对内典型变量间的相关。第一对典型变量间相关性最强,第二对次之,以此类推,典型变量配对数目的最大值等于两组变量数目的最小值,实际应用中只使用前面少数几对重要的典型变量[21]。从数学角度看,两个变量之间直线相关,以及一个依变量和多个自变量之间的复(线性)相关都是典型相关的特例。
和主成分分析一样,典型相关分析基于总体的联合正态分布假定,利用试验或者调查得到的样本数据,开展有关总体参数的估计和显著性检验。它对非正态数据或者抽样误差的敏感性超过其它多元统计方法。为提高分析结论的说服力,应该采用Bootstrap重抽样技术对典型相关、典型系数、典型结构等进行统计检验[22]。
还有很多其它多元统计方法可以应用于烟草学理论研究与技术开发,限于篇幅无法一一介绍。例如,典型变量分析用于剖析多个变量对类别间差异的作用格局[12,23],多元方差分析用于检验试验处理间的多变量综合差异[23],对应分析在卡平方独立性检验的基础上深入解析行变量和列变量的相互依存格局[1,9],因子分析用于发现对现有观测变量起到制约或者主导作用的一组潜变量[24-25]。
除上述那些经典方法外,还有一些值得关注的新型多元统计方法,诸如空间统计学用于描述作物各种特性的地理分布模式与格局[26-27],支持向量机回归突破了传统非线性回归只能拟合显式方程的限制[28],投影寻踪用于判别分析、聚类分析和回归分析,拓宽了这些经典多元统计技术的适用条件[29],分类与回归树巧妙利用简易的二叉树来解决变量数目多、彼此关系复杂条件下的分类与预测问题[30-31],偏最小二乘回归用于解决自变量数目多于样品数目时的多个依变量预测问题[32-33],结构方程模型用于一次性构建多个多层次因果关系模型[4,21,34],如此等等。
强烈推荐在多元统计分析时使用Bootstrap等统计重抽样技术,以增加分析结果的说服力。不过,在多元统计分析中使用统计重抽样技术,效果虽然优于不使用,但是,仍然不如直接进行验证性的实际重复试验更有说服力。
[1]沃尔夫冈·哈德勒,利奥波德·西马.应用多元统计分析[M].陈诗一,译.北京:北京大学出版社,2011.
[2]李绍石.农民能学会用的简单图示统计分析第四讲脸谱图示统计分析方法[J].植保技术与推广,2003(02):39-40.
[3]徐永红,高直,金海龙,等.平行坐标原理与研究现状综述[J].燕山大学学报,2008(05):389-392.
[4]Johnson R A,Wichern D W.Applied multivariate statistical analysis.[M].5thed.New Jersey:Prentice-Hall,2002.
[5]Kolenikov S,Angeles G.The use of discrete data in PCA:theory,simulations,and applications to socioeconomic indices[J].Chapel Hill:Carolina Population Center,University of North Carolina,2004.
[6]汪显国,申晓锋,刘泽,等.基于主成分分析法的烟丝加香均匀性评价[J].中国烟草学报,2013,19(5):33-42.
[7]赵杰宏,谢升东,王轶,等.GGE双标图在中间香型烟叶特色彰显度分析中的应用[J].中国烟草学报,2013,19(4):28-34.
[8]Babamoradi H,Frans van den Berg,Åsmund Rinnan.Bootstrap based confidence limits in principal component analysis — A case study[J].Chemometrics and Intelligent Laboratory Systems,2013,120:97-105.
[9]袁志发,宋世德.多元统计分析[M].北京:科学出版社,2009.
[10]刘雷,马炎,梁宇,王勇,等.四川地方晾晒烟品种叶面形状分析[J].中国烟草学报,2011,17(03):53-57.
[11]董贤春,王军,吴东,等.宜昌兴山烟区土壤主要养分变化分析及用肥分区研究[J].中国烟草学报,2012,18(06):65-68.
[12]李娜娜,杨锦忠,郝建平.逆境下玉米果穗形状及其与产量的关系[J].应用生态学报,2011(07):1782-1788.
[13]Kerr M K,Churchill G A.Bootstrapping cluster analysis:assessing the reliability of conclusions from microarray experiments[J].Proceedings of the National Academy of Sciences,2001,98(16):8961-8965.
[14]Suzuki R.Pvclust:An R package for assessing the uncertainty in hierarchical clustering[J].Bioinformatics,2006,22(12):1540-1542.
[15]Hampl V,Pavlícek A,Flegr J.Construction and bootstrap analysis of DNA fingerprinting-based phylogenetic trees with a freeware program FreeTree:Application to trichomonad parasites[J].International Journal of Systematic and Evolutionary Microbiology,2001,51:731-735.
[16]Baudat G,Anouar F.Generalized discriminant analysis using a kernel approach[J].Neural Computation,2000,12(10):2385–2404.
[17]Chernick M R.Bootstrap Methods:A Guide for Practitioners and Researchers[M].2nd Edition.New York:Wiley,2007.
[18]陈友义,涂冬生.判别分析中误判概率的展开估计、Jackknife估计和Bootstrap估计[J].应用概率统计,1987,03:203-210.
[19]邓小华,周清明,周冀衡,等.烟叶质量评价指标间的典型相关分析[J].中国烟草学报,2011,17(03):17-22.
[20]Li D,XU Z,CHEN J.Canonical Correlation Analysis between Main Chemical Components and Physical Properties in Flue-Cured Tobacco Leaves [J].Journal of Henan Agricultural University,2007,5:4.
[21]Lattin J M,Carroll J D,Green P E.Analyzing multivariate data[M].Pacific Grove,CA:Thomson Brooks/Cole,2003.
[22]Oslund E L.Canonical Correlation Analysis:A Step-by-Step Example in Commonly Available Software[J].Multiple Linear Regression Viewpoints,2010,36(2):29-39.
[23]Vučetić A,Petrović-Obradović O,Stanisavljević L Ž.The morphological variation of Myzuspersicae(Hemiptera:Aphididae)from peach and tobacco in Serbia and Montenegro[J].Archives of Biological Sciences,2010,62(3):767-774.
[24]林琳,曲亚玲,沈凤兰,等.真伪卷烟主流烟气指标的因子分析和聚类分析[J].中国烟草学报,2010,16(04):5-8.
[25]Radzius A,Epstein D H,Gorelick D A,et al.A factor analysis of the Fagerström Test for Nicotine Dependence(FTND)[J].Nicotine & Tobacco Research,2003,5(2):255-260.
[26]刘爱利 ,王培法 ,丁园圆.地统计学概论[M].北京:科学出版社,2012.
[27]Fischer M,Leung Y.Geocomputational Modelling:Techniques and Applications [M]/ Advances in Spatial Science.Berlin:Springer-Verlag,2010.
[28]张勇,丛茜,谢云飞,等.烟草组分的近红外光谱和支持向量机分析[J].高等学校化学学报,2009(04):697-700.
[29]成平,李国英.投影寻踪——一类新兴的统计方法[J].应用概率统计,1986,03:267-276.
[30]赵萍,傅云飞,郑刘根,等.基于分类回归树分析的遥感影像土地利用/覆被分类研究[J].遥感学报,2005(06):708-716.
[31]张松林.CART-分类与回归树方法介绍[J].火山地质与矿产,1997(01):67-75.
[32]Shao Y,He Y,Wang Y.A new approach to discriminate varieties of tobacco using vis/near infrared spectra[J].European Food Research and Technology,2007,224(5):591-596.
[33]Wang F,Chen D,Shao X G.Application of Wavelet Transform and Partial Least Square in Prediction of Common Chemical Compositions in Tobacco Samples[J].Tobacco Science & Technology/Inspection & standard,2004(3):31-34.
[34]王酉石,储诚进.结构方程模型及其在生态学中的应用[J].植物生态学报,2011(03):337-344.
Multivariate statistical analysis methods and their application in tobacco science
YANG Jinzhong,SONG Xiyun
Qingdao Agricultural University / Shandong Provincial Key Laboratory of Dry Farming Techniques,Qingdao 266109
The paper was intended to open a multivariate statistical analysis(MSA)window where researchers,practitioners and managers capture some systemic pictures of MSA from a view of comprehensibility.Importance,essentiality and feasibility were analyzed of MSA application to tobacco science.Five MSA methods and their applications in applied botany including tobacco were introduced in a concise way,plus advances in the methods.These methods include(1) graphs and visualization of multivariate data;(2)principle component analysis for dimension reduction;(3)cluster analysis for classification and categorization;(4)discrimination analysis for identification and diagnosis;(5)canonical correlation analysis for interdependence and dependence between 2 sets of variables.Three additional traditional MSA methods of canonical variate analysis,multivariate variance analysis and correspondence analysis were listed by means of one sentence summary of their functions.New MSA methods were also mentioned of geo-statistics,support vector machine,projection pursuit,classification and regression trees,partial least square and structural equation modeling.Bootstrap resampling technique was strongly recommended to use together with MSA in order to enhance the reliability of results.
multivariate statistical analysis; tobacco science; statistical application cases; new statistical techniques
10.3969/j.issn.1004-5708.2014.05.022
O212 文献标志码:A 文章编号:1004-5708(2014)05-0134-05
泰山学者岗位(20090510);山东省旱地作物水分高效利用创新团队(20121025)
杨锦忠(1963—),男,教授,从事数字农业研究,Email:jzyang@qau.edu.cn
宋希云(1963—),男,教授,从事作物遗传育种研究,Tel:0532-86080009,E-mail:songxy@qau.edu.cn
2013-10-12 Epub:2014-10-20