摘 要:判别分析是统计学中的一种重要的数据处理方法,也是数据挖掘的重要技术之一。该文主要研究多元统计分析中的距离判别分析方法。第一,介绍了判别分析的基本思想。第二,主要围绕距离判别分析具体方法展开论述。首先,论述了距离的定义,主要介绍了闵可夫斯基距离和马氏距离的定义。其次,重点介绍了两总体的距离判别分析和多总体的距离判别分析的方法。分别从方差相等和方差不相等的两种不同情形进行展开论述。第三,阐述了判别准的评价,给出了误判率的估计值。
关键词:数据挖掘 距离判别分析 两总体的距离判别分析 多总体的距离判别分析
中图分类号:O21 文献标识码:A 文章编号:1672-3791(2015)09(c)-0155-02
随着大数据时代的来临,人们越来越重视数据挖掘技术。数据挖掘技术是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程[1]。统计学中的很多分析方法都能够很好的处理和分析数据,主要包括:数据描述性分析、回归分析、判别分析、聚类分析、主成分分析、典型相关分析和数值模拟分析等方法。本文着重介绍判别分析中的距离判别分析方法,希望能够应用该方法在数据中挖掘出有用的信息。
1 判别分析的基本思想
判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。判别分析是指事物的分类是清楚的,目的是通过已知分类建立判别函数,预测新的观察对象所属类别。判别分析适用于被解释变量是非度量的属性变量,而影响被解释变量的解释变量是度量变量。判别分析按判别的组数来分,有两组判别分析和多组判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别; 按判别对所处理的变量方法不同,有逐步判别、序贯判别等; 按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇(Fisher)判别等。该文着重介绍其中的距离判别分析。
2 距离判别分析
2.1 距离的定义
2.1.1 闵可夫斯基距离
设有维向量,则称为维向量、之间的闵可夫斯基距,其中为常数。当时闵可夫斯基距离就是常见的欧氏距离。
2.1.2 马氏距离
马氏距离是由印度统计学家马哈拉诺比斯(PC Mahalanobis)提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离:
(1)同一总体的两个向量之间的马氏距离。
设总体G的两个维观测向量,称为维向量、之间的马氏距离。其中为总体协方差矩阵,通常取为实对称正定矩阵,当Σ为单位矩阵时马氏距离就是欧氏距离。
(2)一个向量到一个总体的马氏距离。
总体G的均值向量为μ,协方差矩阵为Σ。则称为n维向量x与总体G的马氏距离。
(3)两个总体之间的马氏距离。
设有两个总体G1,G2,两个总体的均值向量分别为,协方差矩阵相等,皆为,则两个总体之间的马氏距离为。
2.2 两总体的距离判别分析
距离判别分析思想是:根据已知分类的数据,分别计算各类的重心即分组的均值,对任给的一次观测,计算其与每一类中心的距离,最后依据最小距离进行判别。若它与第类的距离最小,就判定其归属于第类。
2.2.1 两总体的协方差矩阵相等的情况
设两个总体、协方差阵均为,考虑维样品到总体、的马氏距离的平方差为:
,其中,、为两个总体的均值。于是判别准则为:。 在实际问题中、、为样本的估计值。
2.2.2 两总体的协方差矩阵不相等的情况
设两个总体、协方差阵分别为与不相等,均值分别为、。则样品到总体、的马氏距离的平方差为:,判别准则仍为:。两种情况的区别是判别函数不同。
2.3 多总体的距离判别分析
设有多个总体,均指向量分别为,协方差矩阵的分别为。对于待判样品,计算其到个总体的马氏距离,若存在第个总体使得则判定样品属于第个总体。
2.3.1 总体协方差矩阵相等时的判别
当每个总体的协方差矩阵都相等时,判别函数为:,则到的距离最小等价于对所有的,有。其中总体均值向量与协方差矩阵用样本的均值和样本协方差矩阵代替。
2.3.2 总体协方差矩阵不全相等时的判别
假设有个总体,则样品到各个总体的马氏距离的平方分别为:。若,则判定。
3 判别准则的评价
误判率是考察一个判别准则的优良性的一个指标。误判率的估计思想是:属于样品被误判为属于样品的个数为个个,属于样品被误判为属于样品的个数为个个,两总体样品总数为个,则误判率的估计为:。
4 结语
首先,该文系统的阐述了距离判别分析的基本思想和具体方法。按照统计学中的马氏距离的定义给出了判别函数。进行两组判别分析和多组判别分析,对应的构造了线性判别函数和二次判别函数。在今后的研究过程中也可以考虑使用闵可夫斯基距离构造判别函数,并和马氏距离构造的判别函数的判别效果进行对比分析,以考察哪种判别函数更合理,以及考察相互之间的联系和区别,从而能够从更多的角度去研究同一个问题,得到更好的分析结果。其次,该文只是研究了距离判别分析,但是判别分析的方法有很多种,还有贝叶斯判别(Bayes)分析、费歇(Fisher)判别分析等。在今后的研究和学习中要加强这些方法的比较研究,从而灵活应用每种方法分析数据,最后得出精确的分析结果。
参考文献
[1] 张良均,陈俊德,刘名军,等.数据挖掘实用案例分[M].北京:机械工业出版社,2013:5-10.
[2] 李柏年,吴礼斌.MATLAB数据分析方法[M].北京:机械工业出版社,2012:81-89.
[3] 姜喜春,高军,王永娟.基于MATLAB软件的回归分析[J].黑河学院学报,2014,5(6):126-128.
[4] 何晓群.多元统计分析[M].北京:中国人民大学出版社,2012:88-89.