主成分分析及其在北京市城市化发展和人民生活水平中的应用

2018-02-18 10:36李戈辉
中国科技纵横 2018年21期
关键词:主成分分析

李戈辉

摘 要:为了分析城市化发展与人民生活水平的关系,本文从时序数据出发,分别选出了11个反映城市化和体现人民生活的指标,以北京市为研究对象收集了2006年到2016年的数据,采用主成分分析的方法研究两者之间的关系。本文首先分别求出各自的主成分,然后求出每年的得分值,再根据特征值将主成分得分分别合成城市发展指标综合指标和人民生活水平综合指标,对两个综合指标做线性回归。结果表明,两者成正相关关系,即随着城市化发展,人民生活水平稳步提高,进一步地,两者回归系数约为0.9。

關键词:主成分分析;城市化发展;人民生活水平

中图分类号:F291 文献标识码:A 文章编号:1671-2064(2018)21-0220-02

1 引言

城市化(又名城镇化)包含一个地区生产力发展、科技进步以及产业结构调整,在人口从农村地区到城市集中的过程中完成从农业到工业和服务业的转变过程。在这个过程中,伴随着人口、社会、产业以及土地空间结构的变化,复杂的因素导致对城市化水平进行客观评价并非易事。同时,城市化的发展是否有利于人民生活水平的不断提高?由于衡量人民生活水平也需要考虑很多指标,这给问题的定量分析造成了一定难度。对多个指标的分析一种比较流行的方法是运用主成分分析对多变量进行降维,将多个变量转化为少数几个互不相关的综合变量(即主成分),其中每个主成分都是原始变量的线性组合,能够反映始变量的绝大部分信息,且所含的信息互不重叠[1]。利用主成分分析方法对城市化发展和人民生活水平进行分析已有很多研究,耿海清[2]、史文利[3]和岑晓雪[4]等主要从地理空间上进行分析,本文从指标时序数据出发,研究北京市城市化和人民生活之间的关系。

2 主成分分析方法

2.1 主成分分析的数学原理

假设研究对象为p维随机向量记为X=(X1,…,Xp)T,主成分分析的目标在于用k(

Fi=ai1X1+ai2X2+…+aipXp=aiX, (1)

其方差Var(Fi)最大能尽可能地反应原变量X所代表的信息。令系数矩阵A={aij},i=1,…,k,j=1,…,p,则主成分分析可以表示为求解:

(2)

其中Cov(Fm,Fn)为协方差,从几何上理解系数矩阵A旋转X1,…,Xp构成的坐标,使得新坐标系下的轴向样本方差最大。

在满足的条件下,运用拉格朗日乘子法,可以求得系数aij为X的协方差矩阵特征值λi(λ1≥λ2≥…≥λp)对应的单位正交特征向量。主成分一个重要的性质是因子载荷量,它反映主成分Fi与原变量Xj之间的相互关联程度:

. (3)

2.2 主成分分析的计算流程

主成分分析的具体步骤如:(1)计算相关系数矩阵。为消除变量之间量纲的差异,先对数据进行标准化处理,假设每一随机变量Xi有n个观测样本Xi=(xi1,…,xin),则X的协方差矩阵,相关系数矩阵为;(2)求矩阵R的特征值λi及相应的正交化单位特征向量ai,矩阵R的特征值λi对应第i个主成分Fi的方差,λi对应的单位特征向量ai就是Fi关于原变量的系数,即Fi=aiX,用主成分Fi的方差贡献率βi来反映信息量的大小,;(3)选择主成分。计算方差累计贡献率βsum来确定βsum=满足βsum>85%;(4)计算因子载荷量。因子载荷反映主成分Fi与原变量Xj之间的相互关联程度;(5)计算主成分得分。计算样本在m个主成分上的得分,Fi=ai1X1+ai2X2+…+aipXp,i=1,…,m。

3 主成分分析

3.1 城市化和人民生活水平指标数据

根据指标多样性和代表性原则,从2006年到2016年的《中国统计年鉴》选取11个与城市化发展相关的指标和11个反应人民生活水平的指标,如表1所示。

3.2 城市化水平主成分分析

先对数据进行标准化处理,然后用R语言进行分析,前3个主成分如表2所示,其累计方差贡献率为93%。主成分的因子载荷如表3所示,空白处表示因子载荷的绝对值小于0.1,表明主成分表示该因子的信息很小,几乎可以省略。第一主成分各因子的系数相差不大,表示城市化基本水平,第二主成分主要体现人口土地指标。

3.3 人民生活水平主成分分析

先对数据进行标准化处理,然后用R语言进行分析,前3个主成分如表4所示,其累计方差贡献率为93.6%。主成分的因子载荷如表5所示。第一主成分人民生活整体水平,第二主成分主要体现城市环境指标。

4 回归分析

4.1 综合指标

根据累计方差贡献率大于85%和特征值大于1的规则,分别采用前两个主成分信息,分别计算城市化发展和人民生活水平主成分得分F1c,F2c,F1r,F2r,城市化发展综合指标得分Fc=,λic为城市化发展主成分特征值,同理计算可得人民生活水平综合指标Fr,结果如表6所示。

4.2 线性回归分析

首先求得Fc和Fr的相关系数为cor(Fc,Fr)=-0.948,对其进行回归分析,得到两者之间的关系为Fr=-0.899Fc,回归的p值为8.76e-6,表明两者显著相关。由于城市化发展主成分因子载荷为负数,说明这里得到城市化综和指标F1c,F2c,Fc与城市化发展是相反的关系,因此我们可以对回归方程进行解释,即随着城市化的发展,人民生活水平也相应提高。

5 结语

本文定量分析了北京市城市化发展与人民生活水平之间的关系,通过主成分分析和回归分析,城市化发展是促进人民生活水平提高的,如果将回归系数理解为城市发展转化为提升人民生活水平的转化效率,则北京市的转化效率为0.9,我们相信在不同的城市由于其自身原因转化效率可能存在差异,这需要进一步的研究。

参考文献

[1]高惠璇.应用多元统计分析[M].北京大学出版社,2005.

[2]耿海清,陈帆,詹存卫,等.基于全局主成分分析的我国省级行政区城市化水平综合评价[J].人文地理,2009,(5):47-51.

[3]史文利,高天宝,王树恩.基于主成分分析与聚类分析的城市化水平综合评价[J].工业工程,2008,(3):112-115.

[4]岑晓雪,秦江涛.基于主成分分析法的西部人民生活水平价[J].改革与开放,2016,(2):81-84.

猜你喜欢
主成分分析
Categorizing Compiler Error Messages with Principal Component Analysis
关于AI上市公司发展水平评价
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用