段小伟
[摘 要]传统的昆虫分类学以定性分类为标准,但是传统分类对操作人员的经验要求较高,近年来,随着统计知识的普及以及相应的软件的开发和使用,使用定量特征结合数学统计已经成为传统分类学的一种辅助手段,使其越来越多的应用于昆虫数量性状分类。本文主要阐述昆虫形态学标记中常见的几种多元统计方法。
[关键词]多元统计;昆虫;形态标记
昆虫形态学是昆虫学发展史中最悠久的分支之一, 是研究昆虫形态、结构及其功能的科学。而昆虫形态学标记是利用可以直接观察和测量昆虫的外部形态特征、行为特征、生理代谢特征等作为遗传标记,是遗传标记的一种,可以用来研究物种间的关系、分类和鉴定。形态学标记作为研究昆虫物种种间关系和差异的一种方法,可以分为定性和定量两个方面,定性是以昆虫的外部形态、内部结构依据,根据形态结构和功能相一致的原理,对昆虫进行分类鉴别,然而在实际研究当中,由于某些昆虫的形态特征不稳定、同种异型、异种同型以及近缘种形态结构十分相似等问题导致我们所得到的结果往往不够精确,最为主要的是,定性形态标记难以排除环境对其数量性状的影响,所以在某种情况下,需要使用定量的形态标记,并利用相关的生物统计学知识与其结合进行严密的分析。
统计学基本上包含基本统计和多元统计两个大类。而多元统计又是在解决实际问题中有效的数据处理方法,包括聚类分析、因子分析、主成分分析、典型分析以及判别分析等方法。目前多元统计方法在生物上的应用主要集中在群落分析和的研究上。例如周红、张志南就曾使用聚类分析、主成分分析等统计方法在底栖群落生态学的研究中。但是在物种间的遗传多样性研究中也有逐渐发展的趋势,如母华强、张泽钧等在四川藏鼠兔头骨形态的种群分化的研究中,首先使用单因素方差分析随后采用Bonferroni方法对有显著差异的变量进行多重比较得出“如果以颅全长作为衡量体型大小的指标,邛崃山系的藏鼠兔较凉山和岷山为小”的这一结论。再通过逐步判别分析分化从而得出“藏鼠兔头骨样本在山系间的差异主要来自于颧宽、眶间宽、鼻骨长等变量的影响”的结论。多元统计方法在昆虫形态标记中的应用也得到了相应的发展,如牙森·沙力高松等通过聚类分析和主成分分析对西藏飞蝗九个地理种群群居型形态特征进行了一个数量分析;蔡小娜,黄大庄等利用蛾翅数学形态特征用于夜蛾分类和鉴定的可行性研究中,使用判别分析、聚类分析等统计方法;秦绪栋,窦广民等对长白山林区21 种食蚜蝇的数值分类研究中采用聚类分析完成了对这21种食蚜蝇亲缘关系的鉴定。通过以上的事例不难发现,如今,多元统计方法和形态标记的结合使用已经成为了一种发展的趋势。通过查阅文献发现,多元统计在昆虫形态标记中的应用相对其在生物群落分析等研究中较为少见,而且,在昆虫形态标记的多数研究中,只使用单一的方法,本文以常见的多元统计方法阐述其在昆虫形态标记中的应用。在昆虫形态标记中常用的多元统计方法主要包括多因素方差分析、回归分析、聚类分析、判别分析、主成分分析与因子分析等方法,这些方法结合多元统计软件的使用能够有效的达到对昆虫亲缘关系的判断以及分类。目前,在生物统计上经常见到的统计软件有STATISTICA、SPSS、R软件等。关于统计软件的介绍请参考相关文献、书籍。
一、材料与方法
针对不同的昆虫,根据其习性、生活环境在采集样本的时候往往需要考虑相应的采集、毒杀以及运送的方法。使得到的昆虫样本尽可能的保持完整性,从而不使其研究价值打折。在采集到标本之后还要做详细的记录如:采集日期(年、月、日)、采集地点(省、县、乡)、采集人姓名等三项。除以上记载外还应该注意采集时的环境,其寄主系植物或动物,采集地点的海拔高度,采集方法,以及昆虫的生活习性等等都可以写在记录本上,而在标本上只要附一个相应的号码。 如有必要可以根据地理隔绝或分布点之间的距离进行相应的分组。根据其形态特征进行初步鉴定。
形态指标的选取主要依据传统的分类特征,并结合标本的观察比较。或者根据目前已有的测量标准进行选取如Ruttner1988年提出的的蜜蜂形态特征测定标准、第四届国际蝗虫学会(1936) 所规定的测量标准等测定标准进行选取。在选定形态指标后,利用游标卡尺进行数据测量。
二、数据分析
1.多因素方差分析
多因素方差分析是检验两个或两个以上的因素对一个因素之间的差异是否显著的一种方法。是以方差分析的原理对分析模型进行扩展,是把全部观测值之间所表现的变异(即总变异)分解为两个或多个部分,除了一部分代表随机误差的作用外,其他部分分别代表各因素作用,通过一定方法的比较,了解某个因素对结果变量是否有明显影响。常用的试验设计几乎都可以用多因素方差分析,如随机区组设计、裂区设计、交叉设计、析因设计等。
多因数方差分析在昆虫形态学标记中的应用有着一定的地位,由于是分析两个或两个以上的因素对一个变量的影响,其分析方法与单因素方差分析相差并不大。从中能够检验组间或变量间的均数之间的差别是否具有统计学意义。也就是通过将总变异分解为由随机误差造成的变异(即组内方差)与由均数差异造成的变异(即组间方差)两个部分。如果后者大于前者,并且具有统计学意义,我们将拒绝无效假设,接受备择假设:即总体中均数间存在差异。利用相应的统计软件还能获得相关的分析,例如协方差、相关系数、半正态图形等。使用时必须满足多因素方差分析的假定: 每个总体服从正态分布,方差齐性及观察值独立。
在实际应用中应结合自己的需求做相应的多元方差分析。在对于存在显著性的变量,我们通常需要对其进行“事后检验”。
2.回归分析
回归分析是寻找两个或两个以上的变量之间的相互关系。包括只有一个自变量的一元线性回归(一因一果)和有多个自变量的多元线性回归(多因一果)。在昆虫形态标记中,我们通常需要了解所选取的形态指标之间是否存在这相互关系,例如想要了解某种昆虫的体长与胫节长、翅长之间的相互关系就要使用多元回归分析,通过建立一个回归方程从而进行确定。
3.聚类分析
俗话说“物以类聚,人以群分”。“聚类分析”顾名思义就是按照事物本身的特点,通过对数据的测量和研究对事物分类的方法。确切的讲是一类将数据所对应的样品或指标进行分类统计的一类方法,是以分析数据为基础,根据对数据的分析,通过数据之间的相似性或相异性,将这些具有相似性或相异性的数据看成是数据各自对应的样品或指标之间的“距离”远近的一种度量,将“距离”近的归入一类不同类之间的距离较远,从而达到对样品或指标之间的分类的目的,这一类方法具有一个共同的特点:事先不知道类别的个数和结构。它们能合理地按样本或指标各自的特性來进行合理的分类。通常在进行聚类分析的一般原则是使同一类中的个体差异最小,不同类之间的个体差异最大。
目前,聚类分析有系统聚类结合(树状聚类)、快速聚类(K组平均数聚类)等方法。系统聚类是昆虫形态标记中运用最多的一种方法,开始对所有的样本或指标进行单独分类,然后将距离最相似的两个样本或指标合并成一类,重新计算新类和其他类的距离,再将距离相近的归为一类,如此反复直至所有指标合并成一类,最终用一张树状聚类图描述。通过聚类图,能够很直观的了解个体间的形态相似及分类情况,从而为以后对昆虫亲缘关系、物种鉴定等研究提供参考依据。
4.判别分析
判别分析是以判别个体所属群体的一种统计方法。换句话说就是可以通过对个体某些变量的测定来判断其是否属于总体的一种方法,在昆虫形态标记中,可以通过这种方法对昆虫进行鉴定和分类,在相应的统计软件中,如Statistica,可以通过散点图以及判别矩阵,直观了解分类情况,最终通过建立判别方程和累积形成一个数据库。
5.主成份分析与因子分析
主成分分析也是一种重要的多变量分析技术,它将多个变量并有一定相关性的数据变换成为少数不相关的变量。从这里看,主成分和分类分析与因子分析类似,都是对原始数据降维,构成少数不相关的变量,使其代表原变量对样品或指标进行分析。两者看似相同,但是它们又有明显的区别。首先是基本概念不同:主成分分析法是将多个指标转化为少数彼此不相关的综合指标(即主成分)的统计方法。而因子分析法是主成分分析法的推广和发展,它也是将具有错综复杂关系的变量综合为数量较少的几个因子,再根据不同因子还可以对变量进行分类,同时重塑原始变量与因子之间的相互关系。其次是原理不同:因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合;主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子;主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。最后是数据处理的过程同:主成分分析中不需要有假设,因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关;在因子分析中,因子个数需要分析者指定,指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。总之,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用,如:筛选数据;、聚类分析、判别分析(比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份分析对变量简化)等等。
三、总结
通过查阅相关的文献发现,多元统计方法在动物形态学、系统学和表观遗传研究中的具有重要作用,在昆虫形态标记的研究中主要集中在以上几种多元统计方法。由于多元统计方法种类繁杂,为便于昆虫形态标记研究工作有效和顺利的进行,通过对以上多元统计方法的介绍,虽然在对某些统计方法只作简略介绍,本文旨在介绍多元统计在昆虫形态标记中的应用。然而在昆虫形态标记多数研究中,均采用的是单一的多元统计方法。再者,通过对以上多元统计方法的介绍以及在昆虫形态标记中对昆虫形态指标数据的测量能够清楚的认识到在各种统计方法里面对数据的处理的工作量是很大的,建议以多元统计软件为工具利用多种统计方法相互配合、相互佐证,通过其形态数值的差异,从而达到对昆虫进行分类或判断其亲缘关系的的目的。结合多元统计软件的使用,可以使得我们快速、简便完善昆虫的鉴定、分类、以及昆虫间亲缘关系的判断等工作,能够节省出更多的时间和精力,能够在昆虫的表观遗传多样性研究中和保护中贡献出一个有价值参考意见。至今,不断有最新的多元统计方法的问世,但是这些方法在昆虫形态标记研究中的应用,尚待用更多的经验数据及应用来加以验证和完善。
参考文献:
[1]忻介六, 杨庆爽, 胡成业. 昆虫形态分类学[M]. 上海: 复旦大学出版社, 1985: 1-2.
[2]查玉平, 骆启桂. 现代技术在昆虫分类中的应用[J]. 江西林业科技, 2005(1):34-36.
[3]周红, 张志南. 大型多元统计软件PRIMER的方法原理及其在底栖群落生态学中的应用 [J]. 青岛海洋大学学报(自然科学版), 2003,33(1):58-64.
[4]母华强, 张泽钧, 张明春, 等. 四川藏鼠兔头骨形态的种群分化[J]. 四川动物, 2009,28(3):341-344.
[5]牙森, 沙力, 高松, 等. 西藏飞蝗九个地理种群群居型形态特征的数量分析[J]. 昆虫知识, 2010,47(6):1201-1207.
[6]蔡小娜, 黄大庄, 沈佐锐, 等. 蛾翅数学形态特征用于夜蛾分类和鉴定的可行性研究 [J]. 昆虫学报, 2012,55(5):596-605.
[7]秦绪栋, 窦广民, 左江. 长白山林区21种食蚜蝇的数值分类研究[J]. 吉林林业科技, 2014(1):32-36.
[8]刘凌云, 郑光美. 普通动物学野外实习指导书[M]. 第二版. 北京: 高等教育出版社, 1999.
[9]喻浩.色季拉山钩蝠蛾种群分化及其适生地地表节肢动物群落[D].广州:中山大学,2013.