金文彪 姚永杰 金哲植
摘 要 为更好地反映长春市大气环境状况,以长春市2014年PM2.5监测数据作为主要指标进行研究分析。借助SAS统计分析软件,采取线性插值法对样本数据缺失值进行补插。鉴于各指标变量之间具有强相关性及异方差现象,不满足一般多元线性回归基本假设条件,应用极大似然法对样本数据进行Box-Cox非线性变换,并基于主成分分析理论建立回归模型,成功地消除了以上弊端。检验预测证明模型能够用以预测分析长春市未来大气环境状况.
关键词 PM2.5 线性插值 Box-Cox变换 主成分分析 预测分析
中图分类号:X823 文献标识码:A DOI:10.16400/j.cnki.kjdkz.2016.11.071
0 引言
从长春市2014年10、11、12月份月平均PM2.5浓度以及优良级天数监测结果(数据来自吉林省环境保护厅)可以看出:这三个月长春市优良级天数比例均小于50.0%,几乎整个冬季都处于连续污染状态,雾霾问题严重,再加上严寒的天气,使得市民易于感染呼吸道疾病,甚至加重比如敏感、哮喘病等类患者的病情。因此准确预测并及时公布大气环境状况变得越来越重要。
近年来,专家学者开展了一些相关的研究工作。刘小生等①提出了一种基于基因表达式编程的PM2.5浓度预测研究;彭斯俊等②提出了一种基于ARIMA模型的PM2.5预测模型;陈俏等③提出了一种基于支持向量机和回归法的大气污染物浓度预测模型。这些文献通过研究个别因素对大气环境状况提出了预测方法,但是气象因素对PM2.5的影响是十分复杂的,实际情况中往往是不同气象因素相互影响的结果。尤其是ARIMA模型只突出了时间因素在预测中的作用,没有考虑到外界具体因素的影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化往往会有较大偏差。
本文旨在用与PM2.5浓度相关性强的因素,综合考虑PM10、CO、NO2、SO2四项指标对PM2.5浓度的影响,并基于主成分分析理论提取几个互不相关的主成分进行回归分析,最终得到准确度较高的大气环境预测模型。
1 材料与方法
1.1 数据预处理
1.1.1 补充缺失数据
本文数据来自天气后报网,共研究PM2.5、PM10、CO、NO2、SO2五项指标,个别日期(共4天)的数据缺失。这时,我们使用SAS统计分析软件,运用插值法补全缺失值。
1.1.2 Box-Cox非线性变换④⑤
将原始数据中PM2.5、PM10、CO、NO2、SO2等因子依次记为、、、、,因事先由散点图分析可得,PM2.5与PM10、CO具有良好的线性关系,考虑到变换的简便性最终选定对PM2.5、PM10和CO做变换€%d的值为0,记变换后的PM2.5、PM10和CO为、和;对NO2和SO2进行Box-Cox变换的过程中,最优€%d的取值是依据最大似然估计的方法原理来确定,由SAS统计软件计算得到,最终选择NO2和SO2的最优€%d值依次为0.5、0,经过Box-Cox变换后的NO2和SO2依次用下列符号标记:和。
1.2 主成分分析原理
主成分分析⑥是将多指标化为少数几个综合指标的一种统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合,且各个主成分之间互不相关。这样在研究复杂问题时就可以只考虑少数几个主成分且不止于损失太多信息,从而更容易抓住主要矛盾,解释事物内部变量之间的规律性,同时使问题得以简化,提高分析效率。
2 结果
2.1 主成分分析
本过程主要通过SAS软件⑦实现,详细程序参照附件。输出结果(表1)给出了各变量之间的相关系数矩阵。可以看出:与之间的相关系数为0.8341,呈现非常强的相关性;
与,与之间的相关系数均为0.6800以上,有较强的相关性,其他变量之间相关性则相对较弱。不满足多元线性回归的基本假定条件,这也是本文选择主成分回归的主要原因之一。
输出结果(表2)给出了相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率以及累计贡献率。可以看出,第一主成分的方差贡献率为71.34%,前两个主成分的累计贡献率已达87.69%,因此,只需前面两个主成分就可以概括这组数据。根据相关系数矩阵的各个特征值的特征向量,可以写出前三個主成分得分:
2.2 主成分回归
现在用对前两个主成分和做普通最小二乘回归,得到主成分回归方程为:
=3.93932+0.36567€Ha0.01363 (3)
但是斜率的t检验p值0.4123>0.05,未通过显著性检验,即认为与之间的线性回归关系不显著,需对模型进一步的调整。
经过多次对u和主成分、、之间进行不同模型模拟对比分析,最终采用逐步回归法选取与、做最小二乘回归,输出结果如表3。虽然信息量从原来的87.69%降到了79.78%,但截距和斜率的t检验p值<0.0001,有显著的线性关系。最终得到主成分回归方程:
为了得到和、、、之间的关系,运用R软件⑧编写计算系数的函数代码作变换,得到还原后的主成分回归方程为:
3 结果分析
3.1 残差分析
回归方程通过了t检验,只是表明变量之间的线性关系是显著的,但不能保证数据拟合得很好,也不能排除由于意外原因而导致的数据不完全可靠,比如异常值出现、周期性因素干扰等。借助SAS统计分析软件以回归预测值作横轴,以残差 =€Ha作纵轴,将相应的残差点画在直角坐标系上,得到残差图如图1。
从残差图上看出,残差是围绕随机波动的,表明模型中不存在异方差、相关性问题,模型的基本假定是满足的。
3.2 预测
为了更好地反映模型的拟合效果,我们对2015年1月2日到3月27日的PM2.5进行预测,并与实际值对比。预测曲线图如图2,除了少数几天PM2.5预测值偏差较大外,其它模拟效果比较乐观,而且相对误差相对较小,很大程度上接近了PM2.5的实际观测值。进一步地证明该模型能够较准确地预测未来短期的PM2.5趋势和水平。
4 结论
本文利用长春市2014年空气质量历史数据,基于主成分分析理论建立了大气环境预测模型,并预测2015年1月至3月的污染物PM2.5浓度,通过将其与实际值检测值进行对比分析,表明运用此模型在PM10、CO、NO2、SO2各项指标已知的情况下,能够对PM2.5进行准确性预测。
模型的判定系数和修正分别为0.9225和0.9221,均方残差平方根为0.1866。这说明回归方程的拟合效果非常好,能够很好地反映并及时公開大气环境状况,让公众更加精确地感知到本地空气质量的真实情况,还可以有的放矢地治理大气污染,通过数据分析找出污染源头。
注释
① 刘小生,李胜,赵相博.基于基因表达式编程的PM2.5浓度预测研究[J].江西理工大学学报,2013.34(5):1-5.
② 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM2.5预测[J].安全与环境工程,2014.21(6):125-128.
③ 陈俏,曹根牛,陈柳.支持向量机应用于大气污染浓度预测[J].计算机技术与发展,2010.20(1):250-252.
④ 张诚.基于Box-Cox变换的城市火灾起数的模型研究[D].合肥工业大学硕士学位论文,2013.
⑤ 胡宏昌,樊献花.广义Box-Cox变换[J].周口师范学院学报,2006.23(5):17-19.
⑥ 何晓群.应用回归分析(第三版)[M].北京:中国人民大学出版社,2011.
⑦ 汪远征,徐雅静.SAS与统计应用教程[M].北京:机械工业出版社,2007.1
⑧ Robert I.Kabacoff. R in Action: Data Analysis and Graphics with R[M].Manning Publications Co,2011.