毛宁 李益禛
摘要:随着城市化的进程,空气污染问题越来越严重。针对全国31个主要城市的空气质量问题,基于主成分分析方法,借助R软件,利用全国主要城市的空气质量环境影响因素数据进行主成分分析,得出影响空气质量的主要因素。
关键词:主成分分析;空气质量;R软件
中图分类号:F2
文献标识码:A
文章编号:1672—3198(2014)10—0049—02
1引言
随着城市化进程的不断推进,近年来,全国各大城市均频频出现“雾霾”天气,空气质量问题愈发严重。而影响空气质量的因素又是复杂的,只有找到最主要的因素,才可以较好的解决空气质量问题。随着多元统计分析的普及和应用,主成分分析法(PCA)已成为一种新兴的评价方法,在环境质量综合评价方面应用广泛。主成分分析(Principle Component Analysis,简称PCA)方法是一种把原来多个指标化为少数几个互不相关的综合指标的多元统计方法,可以达到数据化简、揭示变量之间关系和进行统计解释的目的。在实际应用中主要用来对数据集的属性去进行相关分析和降维。而其实判定一个区域的空气质量需考虑的因素十分复杂,进行主成分分析需要抓住其各因素之间的内在关系,寻找影响环境质量的最大因素。
2主成分分析方法
2.1基本原理
主成分分析方法是建立一种从高维空间到低维空间的映射,即把多个指标转化为少数几个综合指标的一种统计分析方法,其目的是在保证信息损失量最小的前提下,尽可能提取问题的主要方面,从而对多变量数据进行最佳综合简化。通常数学上的处理就是将原来m个指标作线性组合,得到一个新的综合指标。选取第一个线性组合Y1(即第一个综合指标)的方差来表示含有信息的多少,若Y1越大,则表示Y1包含的信息量就越多。如果在所有的线性组合中选取的Y1方差最大,则称Y1为第一主成分,其方差在总方差中所占比率称之为解释方差,其方差越大,它的贡献越大,其代表原始数据的能力就愈强。如果第一主成分不足以代表原来m个指标的信息,再考虑选取第2个线性组合Y2,与Y1共同反映原始信息,通常当前n个主成分的方差占总方差的85%以上即可认为这n个主成分能代表该数据的大部分信息。
2.2方法步骤
2.2.1数据标准化
为了排除数量级和量纲不同带来的影响,首先对原始数据进行标准化处理。设p维随机向量x=(x1,x2,…,xp)T,n个样品xi=(xi1,xi2,…,xip)T,i=1,2,…,n,n>p,构造样本阵,对样本阵元素进行如下标准化变换:
Zij=Xij-jSj,i=1,2,…p
其中xj=ni=1xijn,
sj2=ni=1(Xij-Xj)2n-1,
得标准化样本阵Z=(Zij)。
2.2.2相关系数矩阵计算
R=
r11r12…r1p
r21r22…r2p
rp1rp2…rpp
=
ZTZn-1
其中rij=nk=1(xki-i)(xkj-j)
nk=1(xki-i)2
nk=1(xkj-j)2
,i,j=1,2,…,p为相关系数。
2.2.3特征值和特征向量计算
解特征方程|λI-R|=0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列λ1≥λ2≥…≥λp≥0。
分别求出对应于特征值λi的特征向量ei(i=1,2,…,p),要求‖ei‖=1,即
pj=1e2ij=1,其中eij表示向量ei的第j个分量。
计算主成分贡献率及累计贡献率:
贡献率:累计贡献率:
λipk=1λk(i=1,2,…,p)
ik=1λk
pk=1λk
(i=1,2,…,p)
一般取累计贡献率达85%~95%的特征值λ1,λ2,…,λm,所对应的第1、第2、…、第m(m≤p)个主成分。
计算主成分载荷:
lij=p(zi,xj)=λieij(i,j=1,2,…,p)
各主成分的得分:
Z=
z11z12…z1m
z21z22…z2m
zn1zn2…znm
3实验分析
3.1实验数据介绍
实验分析选取了2009年北京、天津、石家庄、长春、哈尔滨、太原和银川等31个中国主要城市的空气质量指标数据,其中包括的污染因子为二氧化硫、二氧化氮、可吸入颗粒物三个变量(单位:毫克/立方米),应用上述主成分分析方法,借助R软件按上述的步骤进行计算。
3.2实验流程
(1)首先计算三种指标的相关系数矩阵,运用R软件中的cor(x)语句,计算结果如下:
3.3实验结果分析
从表4可以看出,第一主成分Z1的贡献率最大为6184%,3个变量系数均为负,可以得出第一主成分与X1、X2均有较强的负相关。从第一主成分的特征向量构成特征来看,X1、X2即可吸入颗粒物和SO2在整个空气质量中占有较重的地位。所以说,造成空气质量较差的原因中可吸入颗粒物和SO2占据主要地位,NO2相对较少。第一主成分中,X1、X2的系数都很大,且相差不多,X3虽相比较少,但基本相当。第二主成分中,X3系数最大,它主要反应了NO2的影响。第三主成分中,X1、X2的系数都很大,X3的系数很小,基本上没有反应NO2的影响。从因子载荷矩阵可以看出第一主成分和第二主成分可以包含空气质量的全部,从累计贡献率中也可以看出前两个全局主成分的累计贡献率为86.61%,它基本上概括了环境空气质量污染的绝大部分信息。环境空气质量污染的主要因素依次为可吸入颗粒物、SO2、NO2。这说明环境空气质量污染主要还是煤燃烧、工业排放的废气、粉尘等、生活排放的烟尘、机动车尾气等,所以还是要加大对这方面的检测和治理工作。
4结论
针对全国空气质量问题,本文介绍了一种主成分分析的方法,利用R软件对2009年的我国31个主要城市的空气质量进行试验,解决了空气质量评价需参考因素复杂问题。得出空气质量污染主要来自于可吸入颗粒物和SO2的结论,可以为控制大气污染提供支持。
在进行实验时,利用了R语言在主成分分析中的思路清晰、步骤简单且可以直接得出载荷系数的优点。应用主成分分析法,经相关变换,可以用少量综合变量取代原有的多维变量,使数据结构得到简化,并能从整体上对区域环境质量进行把握,与实际拟合度较好,因而是环境质量综合评价中一种简单易行的有效方法。可以实现将多个影响因素进行处理,集中到少量的具有重要影响的因素来进行分析。但是需要结合很多的相关知识,以实现全面的问题分析,且不同的分析方法有不同的特点,分析的结果只能做为参考。且本文应用主成分分析方法在此只是进行了一年的数据分析,如果要进行多年的空气质量对比评价和建立评价模型或预测模型,需要建立更优化的算法,但由于个人能力有限,只是实现了最基本平面意义上的分析。其实主成分分析在我们的进行很多项的复杂问题时提取重要信息有很大的贡献,尤其可以使原本具有复杂变量的问题简单化。尤其是在当今这样的大数据时代,用最少的变量去包含尽可能多的信息必成为大势所趋,所以主成分分析在综合分析中将会应用的越来越多,因此对算法的优化又成为首要的任务。
参考文献
[1]冯利华.环境质量的主成分分析[J].数学的实践与认识,2003.
[2]贾文利.北京市能源需求影响因素的主成分分析[J].城市探索,2011,(08).
[3]苏木亚.基于主成分分析的单变量时间序列聚类方法[J].运筹与管理,2011.
[4]李洁美.辽宁省水资源承载力研究[D].辽宁师范大学,2007.
[5]李玉珍,王玉怀.主成分分析及算法[J].苏州大学学报:自然科学版,2005.
[6]国家统计局.中国统计年鉴[M].北京:中国统计出版社,2010.
[7]商博.基于PCA的区域环境质量综合评价及应用实例研究[J].中国环境监测,2013.
[8]王丹.主成分分析法在大气环境质量评价中的应用[J].平顶山学院学报,2011.
[9]顾斌.地理信息系统及其应用[J].应用科技,2010.