基于判别分析原理的离群点检测算法

2015-09-09 19:00简述芬侯天子

电脑知识与技术 2015年16期

关键词：离群

简述芬侯天子

摘要：信息技术进入了数据时代，多属性高维数据广泛存在很多数据集中。基于判别分析的离群点检测算法是一种新的离群点挖掘的思路，通过一个数据实例验证该算法可以检测数据之中的异常数据。

关键词：离群；判别分析；检测算法

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）03-0090-02

Discriminate Analysis Based Outlier Detection Algorithm

JIAN Shu-fen1， HOU Tian-zi2

（1.Sichuan Police College，Luzhou 646000，China；2. The Procuratorate of Wuhou， Chengdu 610000，China）

Abstract：Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way，and the algorithm is proved that it can find out outlier in data by a instance.

Key words： outlier； discriminate analysis； detection algorithm

1 判别分析在基于离群点挖掘时的可行性

1.1判别分析方法的定义

有一种方法可以辨别所属的类别，这种方法是判别分析。其有着潜在的应用方面，比如说在预测新产品的成功率上，或者确定该学生能否被录用等方面。一般存在某种关系，如某个被解释的定性变量和定量的解释变量，判别分析方法比较适合。

判别分析方法是应用性很强的一种多元统计方法，判别分析方法对问题求解可以这样描述：假设存在n个k维总体[G1，G2，...，Gk]，分布函数或特征已知，（若已知的分布函数分别是[F1（x），F2（x），...，Fk（x）]分布函数或特征已知），对于给定一个新的样本x，要分析出样本出自哪个总体。

1.2判别分析方法与分类的异同

判别分析与数据挖掘中的分类技术并不等同。分类与判别分析目的都是出于给数据分类的目的，在这上面是相似的。

判别分析方法是数学统计中一种方法，需要严谨的逻辑推理来推导每个步骤，这与分类有所不同。分类是挖掘中的广泛应用的技术之一，如决策树、贝叶斯等，需构造分类器或模型来预测类属标号/。其中，只有贝叶斯分类也同时应用在统计学中。

1.3判别分析应用于离群点挖掘

离群点数据由绝大多数的正常数据和少数的异常数据组成，将判别分析缩减优化，优化到两个总体，将一个新样品x设定，通过推算得出它属于其中某个总体，如果判定结果是异常数据表示的总体，那么就可以判定某个样品是离群点，否则就属于正常数据的样品。这种离群点判别分析算法的优点在于它的动态性好。当新来品种，就可以很快分析出数据所属类别。

这种判别方法，类似贝叶斯分类法：利用贝叶斯原理构造出贝叶斯分类器，将费歇（Fisher）判别运用到离群点数据挖掘，用这种判定分析，进行离群点检测。

2 判别分析方法步骤

对判别分析方法的实现可分5个步进行。

第1步：检测判别分析对象

第1步：检测对象在提前分好的小组中的差异点，对获取进行分类。在这些变量中，分析判别差异时，观察其中解释较多的数据，这些数据对判定样品类别时起的作用比较大的。

第2步：判别分析设计

对解释变量和被解释变量，用判别分析加以摘选出来，设为定性变量。由于在判别分析中，对样本量与预测变量的个数的比率是敏感的，因此也需要考虑到样本的容量大小。

第3步：假定判别分析

在推算出判别分析函数前，首先假定解释变量的正态性，协方差阵相等，这样可以确保之后的计算满足条件。

第4步：判别模型估计与整体拟合评估

选择估计方法，推算判别分析函数，并找出其中的差异性，确定函数的有效性。

第5步：解释结论并验证

判别分析里有距离判别、贝叶斯判别、费歇判别等都是判别分析中的分析方法，判别方法不同，临界条件也不同。判别分析不仅对所判别的数据有成效，在另一方面也能够对已经的分类数据进行回判，从而验证数据的真实性。

关于判别分析的具体性质，详细的数学推导过程与证明可参见文献[1]。

3 费歇判别

在费歇判别中，投影是该判别方法的基本思想，假设k组p维数据向指定的一个方向投影，k个分组得到的投影分别放在k个不同地方，尽可能的缩短组内的距离。

在这只是把k=2这个值表明，随即分成两个类别，由离群点的概念可得，可把数据分成两类，分别是正常数据和异常数据。

样本G总数为n，表示为

[G=G1?G2=x（1）1，x（1）2，...，x（1）n1，x（2）1，x（2）2，...，x（2）n2 n=n1+n2]

令[a=a1，a2，...，ap′]，a是p维空间中的任一量，[ux=a′X]是X以a为法线的方向上的投影，则G1和G2的投影是：

[G1：a′x（1）1，a′x（1）2，...，a′x（1）n1 ]

[G2：a′x（2）1，a′x（2）2，...，a′x（2）n2]

? 组间关系[B0]：由第t组的平均值和与总均值的向量差的平方和：

[B0=t=12nta′X（t）-a′X2=a′t=12ntX（t）-XX（t）-X′a=a′Ba] （1）

其中[X=1nt=12j=1ntX（t）j]，[B=t=12ntX（t）-XX（t）-X′]。等式变换的原理参照矩阵的乘法规则。

? 组内关系[A0]：指第i组内，用组内第j个向量和第i组的均值向量差的平方和表示。

[A0=t=12j=1nta′X（t）j-a′X（t）2=a′t=12j=1ntX（t）j-X（t）X（t）j-X（t）′a=a′Aa] （2）

尽量分开不同组的所得投影，尽可能缩短组内数值的距离。

定义 4 -3：已知a是在[a′Aa=1]条件下使得[Δa=a′Ba]达到极大值的方向，称[ux=a′X]为线性判别函数。

据第二点的判别方法的过程表明，确定判别条件以后就可以进行判别分析。

4 利用判别原理进行离群点检测

在离群点挖掘中[2]引入判别分析的原理，简化费歇判别原理：

直到最后两个样本时，将费歇判别函数就可以写成：

[uX=X（1）-X（2）′S-1pX] （3）

这时阈值的计算方法见公式（4）

[u=12X（1）-X（2）′S-1pX（1）+X（2）] （4）

计算出总体样本的协方差矩阵估计值[Sp]的逆矩阵。

两个总体均值有明显差异需要检验，在检验是否有差异后判别函数的有效性。验证统计量F，用公式（5），公式中的D2 可以用（6）的公式计算。

[F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2]，n1和n2分别为两个总体的样本数（5）

[D2=X（1）-X（2）′S-1pX（1）-X（2）] （6）

[Fα（p，n1+n2-p-1）]表示α水平下的卡方分别，当[F>Fα（p，n1+n2-p-1）]时，表明判别函数是有效的，具体推导步骤参见文献[3]，将判别标准推导出

判[X∈G1]，当[u（X）>u]

判[X∈G2]，当[u（X）

待判，当[u（X）=u]

针对高维数据中离群点检测算法进行了分析和研究，提出了高维数据中离群点检测需要注意的一些问题，从而便于研究者以这些算法为基础，在此基础上提出新的改进算法。

参考文献：

[1] 高惠璇. 应用多元统计分析[M]. 北京：北京大学出版社， 2005.

[2] 张尧庭，方开泰. 多元统计分析引论[M]. 北京：北京科学出版社， 1982.