于娜
摘 要: 分类或分组是多元统计学习的一个重要内容,聚类分析、判别分析、主成分分析及可视化分析都可以对变量或样本进行分类或者分组。每种分类方法不同,结果和解释的出发点也不同,但各种分类方法之间又有着千丝万缕的关系。本文从区别和联系的角度对这几种方法作简要阐述,希望对学习数据的分类问题有所帮助。
关键词: 分类与分组 聚类分析 判别分析 主成分分析 可视化分析
在生物、经济、社会等领域的研究中,存在大量量化分类问题。例如为了研究城镇居民的消费结构,需要将相关性强的指标归并到一起。在生物学中,为了研究生物的演变,生物学家需要根据生物的不同特征对生物进行分类[1]。多元统计分析中可以将变量或样本进行分类的方法很多,如判别分析,聚类分析,主成分分析,可视化分析等。尽管这些分析方法都可以基于所测量的一些特征,给出好的分组方法,对相似的对象或变量进行分组,但由于每种方法的原理不同,因此分组结果往往不同,从而解释不同。
聚类分析是将样品(或变量)进行分类时常用的统计方法。按分类对象的不同,分为样品聚类(型聚类)和变量聚类(型聚类)。样品聚类是进行判别分析前的必要工作。根据样品聚类的结果作判别分析,得到判别函数,进而对新的样本进行归类判别。变量聚类在寻找研究对象彼此独立的有代表性变量上发挥着巨大的作用[2]。
聚类方式是用来归类的某种规则,常用的聚类方式主要有系统聚类,K均值聚类,有序样品的聚类等。在系统聚类中,样品归为某一类便不能改变,因此要求各步骤的分类必须准确,分类方法恰当。另外,系统聚类需要计算样品(或变量)间的距离(或相似性)和类间距离,要保存“类间距离”矩阵,相应计算量比较大,占用计算机内存较多。但系统聚类可以对不同类数产生一系列的分类结果。K均值聚类是一种迭代计算方法,按要求先给出一种粗糙的分类,然后根据某种原则进行迭代,样品(或变量)可以在不同的类中有进有出,直到分类比较合理为止。K均值聚类对计算机性能要求不高,聚类结果比较简单易懂,适用于事先明确分类数目及样本量很大时的聚类分析;但K均值聚类只能产生指定类数的分类结果。鑒于系统聚类和K均值聚类的优缺点,在实际问题中,往往从样本中先选取少量数据进行系统聚类,选取合适的类数,然后采用K均值聚类的方法进行聚类。若样品的次序不可改变,则只可以采用有序样品的聚类方法。
主成分分析是通过一组变量的几个线性组合解释原来变量绝大多数信息的一种统计方法。聚类分析不改变原始数据,只是根据样本或变量之间的距离远近或者相似性进行分类。不同于聚类分析,应用主成分分析进行分类,是将原始变量转化为少数几个变量,这些少数的变量(主成分)是原始变量的线性组合。以每个样本的第一、第二主成分的值为变量进行聚类,或以第一、第二主成分为坐标轴,在平面上标出每个样本,根据图示,按照距离的远近对样本进行分类。另外,还可以以变量的因子得分做点图,得到变量的分类情况,从而加深对样本分类含义的全面理解。
主成分分类与一般的聚类方法相比,具有明显的优越性:首先,主成分分类可以以点图的方式将样本分类结果形象直观地呈现出来,有利于对分类结果的理解,也有利于对类型的形成原因进行探讨。其次,可以借助主成分分类的中间成果对因子载荷矩阵进行点图分类,这样不仅能得到变量的分类情况,还能加深对样本分类含义的全面理解。
在多元统计分析中,一些可视化的分析可以从不同角度对样本进行分类。例如反映多个变量之间相关关系的矩阵散点图。矩阵散点图不仅可以在二维平面上同时反映多个变量数值,而且可以根据图示。从某个变量的角度看,将样本根据距离的远近进行分类。依据矩阵散点图的分类结果,可以与系统聚类中只考虑一个变量的分类情况进行对比、分析。利用可视化分类分类结果形象、直观。
在生产决策和日常生活中,经常会遇到根据所观测的样本数据资料对所研究的对象进行分类判别的问题。例如某医院有部分患有肝炎、糖尿病、冠心病等病人的资料,记录了每个病人若干项症状指标数据。对于一个新病人,当测得这些指标时,如何利用现有的资料找出一种方法,判别患者患有哪种病。在市场预测中,根据以往调查所得的各项指标,如何判别下季度的产品是畅销、平销,还是滞销。判别分析就是判断所选样品属于哪一类型的一种多元统计方法。不同于聚类分析,主成分分类和可视化分类,事先并不知道类的数量和类别,判别分析是已知类的数量和类别,并且知道每个类的一些样本的观测数据,在此基础上,依据某种分类准则建立分类判别式,并对新给出的样本判别其的归属问题。实际应用中,判别分析和聚类分析往往是结合在一起使用的。当判别分析的类别不清楚时,可先用聚类分析等分类的方法对部分样品进行分类,然后用判别分析法建立适当的判别准则实现对新样品的分类。
综上,我们对聚类分析、判别分析、主成分分析及可视化分析等分类方法作了简要阐述。每种分类方法不同,结果和解释的出发点也不同,但各种分类方法之间又有着千丝万缕的关系,希望对学习数据的分类问题有所帮助。
参考文献:
[1]朱建平.应用多元统计分析[M].北京:科学出版社.
[2]王力宾.多元统计分析[M].北京:经济科学出版社.
本文为上海电力学院课程建设项目(No.20121207)。