浅谈主成分分析

2017-12-29 01:17白伟华北方民族大学电气信息工程学院
数码世界 2017年7期
关键词:降维向量课题

白伟华 北方民族大学电气信息工程学院

浅谈主成分分析

白伟华 北方民族大学电气信息工程学院

在实际的课题或者事件中,为了全面分析问题,往往提出很多与此有关的因素。每个因素又都在不同程度反映了事件的某些信息。然而对每个因素逐个进行分析不仅会增加分析的复杂性,而且还可能忽略了它们的某些内在联系。因此,在如此多的因素之中,人们希望能够找出它们的少数“代表”来对某课题或事件进行描述,也即主成分分析。本文主要从理论的角度阐述了主成分分析在人脸识别中的重要作用。

因素 内在联系 主成分分析

1 主成分分析的基本概念

主成分分析,是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计方法;旨在利用降维的思想把多指标转换为少数几个综合指标。它是把各变量之间相互关联的复杂关系进行简化分析的方法,试图在力保数据信息丢失最少的原则下对这种多变量的截面数据进行最佳综合简化,也就是说对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易很多。

2 主成分分析的基本思想

当我们对事件进行全面分析时,会发现决定事件的变量很多,每个变量在不同程度上反映了事件的某些信息,并且这些变量彼此都有一定的相关性,那么他们所反映的信息就会有一定的重叠性。此时,我们会发现这些众多的变量会增加我们统计或分析问题的复杂性。在实际课题中,在进行定量分析的过程中,我们总希望在较少变量的情况下,获得更多的信息量。主成分分析正是解决这类事件的理想工具。

3 主成分分析的基本原理

主成分分析是对数据降维的一种方法。它是将原来具有很多具有相关性的一系列指标m1、m2、m3、、、mp(p个指标)重新组合成一组较少个数的互不相关的综合指标来代替原来的指标。

主成分表分析的第一步是将所有的指标数据进行标准化,标准化的一般方法为:(xij-xjmean)/δj,这里xij是样品i的第j个指标,xjmean和δj是第j个指标的平均值和标准偏差,通过标准化后,每个变量的平均值变成0,标准偏差为1。标准化的好处是可以消除不同指标间的量纲差异和数量级间的差异。

第二步计算出各标准化指标间的相关系数矩阵,从而判定出相关性很大的一些指标。我们可以用另外一个变量来表示这些指标间的协方差,同时把这个变量叫作第一成分。然后把第一成分去掉,计算剩余的相关系数矩阵,通过计算剩余的相关阵,可以发现第二组相关性很高的变量,此时我们用第二成分来代替它们的协方差,第二成分和第一成分是正交的。同理去除第二成分对原始数据的贡献后,计算第三组高度相关的变量。以此类推,直到原始数据的所有方差都被提取后结束。最后原始变量转化成了同样数量的新变量且这些新变量之间都是正交的。

4 主成分分析法的优缺点

4.1 优点

①使得各评估指标相互独立,互相没有影响。因为主成分分析法是把原始变量进行一系列变换,最终形成各自相互独立的变量,而且通过实践可以得出变量间的相关程度越低,主成分分析效果越好。

②有利于选择出具有决定性作用的指标,减少计算的工作量。对于其他评估方法,由于不能很好地消除相互间影响较大的一些指标,因此在进行指标选择的过程中会比较费力。而主成分分析法正好相反,它可以很好地消除指标间的相互影响,大大减少工作量。

③主成分分析中,按照主成分的分差大小,依次对各主成分进行排列。这样在分析问题时,我们可以保留前面方差较大的几个主成分代表原始的变量,从而可以减少计算的复杂度。用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,这样不至于因为舍弃了一部分主成分节省了工作量而影响整体评估结果。

4.2 缺点

①在主成分分析中,我们应首先确保所提取的主成分能够反映原始变量的绝大部分信息而且累计贡献率达到一个较高水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。

②对于所提取的每个主成分的解释其含义都有点模糊,不像原始变量的含义可以解释的那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分的数量往往明显小于原始变量的数量,否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。

5 主成分分析的应用

举个简单的例子,在一个课题分析中,选中30个指标,这30个指标对于这项课题都有着一定的重要性。但是30个指标给分析问题带来了很大的负担,而且过程比较繁琐,这时候就可以采用主成分分析方法进行降维,提取出能表达课题分析中最主要的特征信息。

主成分分析最著名的应用就是人脸识别中特征提取及数据维,假若我们输入100*100大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到10000维,这给后面的分类器的处理将带来很大的难度。

著名的人脸识别Eigenface算法就是采用主成分分析算法,用一个低维子空间描述人脸图像,同时保存了识别所需要的信息。它的原理就是将一个高维向量x通过一个特殊的特征向量矩阵U,投影到一个低维的向量空间中,表征为一个低维向量y,并且仅仅损失了一些次要信息。也就是说,通过低维表征的向量和特征向量矩阵,可以基本重构出所对应的原始高维向量。

[1]刘蕾.多元统计分析及其组合预测对质量的评估[D].渤海大学,2016

[2]王鹏,况福民,邓育武,田亚平,易锋.基于主成分分析的衡阳市土地生态安全评价[J].经济地理,2015,(01):168-172

猜你喜欢
降维向量课题
混动成为降维打击的实力 东风风神皓极
向量的分解
基于数据降维与聚类的车联网数据分析应用
我的微课题研究
聚焦“向量与三角”创新题
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
党的建设的永恒课题
降维打击
不忘的初心 永恒的课题
擦亮初心:党员干部的终身课题