郗君甫
(邢台职业技术学院信息工程系,河北邢台054035)
因子-偏相关与多元回归大气污染物浓度影响关键因子识别
郗君甫
(邢台职业技术学院信息工程系,河北邢台054035)
为了探析引起大气污染常规污染物浓度变化主要制约因素,通过因子分析和偏相关分析的方法识别大气污染常规污染物浓度影响关键因子,并利用多元线性回归方法分析得到大气污染常规污染物浓度变化与其关键因子非标准系数多元线性回归方程,该方程式整体上能够反映出大气污染常规污染物浓度与关键因子之间的关系,为环境空气质量预报预警系统提供有效的输入因子和大气污染防控提供科学依据。
大气污染物浓度;关键因子;因子分析;偏相关分析
目前环境空气质量预报系统主要采用统计和数值模式,这两种模式都是基于大气污染物浓度值或污染物指数值的浓度预报[1]。《环境空气质量标准》中规定大气污染常规污染物包括SO2、NO2、PM10、PM2.5等六项,环境空气质量的预报本质主要针对六项污染物浓度值的浓度预报,为此开展大气常规污染物浓度影响关键因子识别研究。本文以中国河北邢台市大气污染物作为研究对象,通过因子分析、偏相关分析、多元线性回归手段,得到大气污染物浓度影响关键因子,并建立了大气污染物浓度与关键因子的定量关系,为环境空气质量预报预警系统提供有效的输入因子和大气污染防控提供科学依据。
1.1 数据来源
采集了邢台市(2015年1月1日至2017年5月19日)的气象和空气质量800多条数据,数据来源于“中国气象局”官方网站发布气象数据和“中华人民共和国环境保护部”官方网站发布空气质量数据,其中气象数据包括每日平均温度、平均海平面气压、平均能见度、平均风速、最大持续风力、最高温度、最低温度等,空气质量数据包括大气常规污染物的日均浓度、AQI值和污染等级。
利用多元统计分析软件SPAA19.0,通过因子分析和偏相关分析相结合的方法,分析大气污染物浓度影响关键因子(以大气污染物PM2.5为例)。
2.1 因子分析浓度影响关键因子
利用SPAA19.0分析软件,对变量因子(平均温度、平均海平面气压、平均能见度、平均风速、最大持续风力、最高温度、最低温度、总降水量、PM2.5日均浓度)进行KMO和Bartlett球形度校验,检验结果如表1所示。
表1 KMO和Bartlett球形度检验
由检验结果可知,经KMO检验,KMO度量值为0.734,大于0.7,表明变量间相关性还好;经Bartlett球形检验,显著性概率值为0.000,小于0.001,表明变量间存在显著相关性。通过对变量因子做KMO和Bartlett球形度检验结果表明气象和空气质量数据变量适合做因子分析[2,3]。
利用SPAA19.0分析软件对气象和空气质量数据变量进行因子分析,其中抽取选取相关性矩阵分析和基于特征值抽取、旋转选取最大方差法和旋转解输出,变量主因子总方差解释如表2所示,前三个变量因子的方差累积贡献率是81.37%,且变量因子初始特征值和旋转后特征值均大于1,为此选取前三个因子作为主因子。
表2 变量主因子总方差解释
旋转后变量因子载荷矩阵和变量因子得分系数矩阵如表3所示,由表3中数据可知,第一主因子累积方差贡献率为43.951%,其在平均温度、平均海平面气压、最高温度三个指标具有较大载荷,第二主因子累积方差贡献率为23.377%,其在平均风速、最大持续风力两个指标具有较大载荷,第三个主因子累积方差贡献率为14.043,其在平均能见度、总降水量、PM2.5浓度两个指标具有较大载荷。
表3 旋转后变量因子载荷矩阵和变量因子得分系数矩阵
2.2 偏相关分析浓度影响关键因子
对PM2.5日均浓度和气象因子(平均温度、平均海平面气压、平均能见度、平均风速、最大持续风力、最高温度、最低温度、总降水量)的偏相关分析,得到PM2.5日均浓度与气象因子之间的偏相关系数及显著性如表4所示。
由表4中数据可知,PM2.5日均浓度与气象因子之间的偏相关系数值不是很高,但显著性较明显,初步选取偏相关系数值大于且等于0.3及显著性数值小于0.001的气象因子为PM2.5日均浓度相关的初选关键因子,即平均温度、平均能见度、平均风速、最高温度、最低温度。根据初选的关键因子在因子分析主因子中都有体现,故可对初选关键因子进行线性回归,进行大气污染物浓度与关键因子的定量分析[4]。
表4 PM2.5日均浓度与气象因子之间的偏相关系数及显著性
初选PM2.5日均浓度影响关键因子(平均温度、平均能见度、平均风速、最高温度、最低温度)进行多元线性回归分析,因变量PM2.5日均浓度系数如表5所示。
表5 PM2.5日均浓度系数表
由表5中数据可知,常量、平均温度、平均能见度、平均风速、最高温度显著性数值均小于0.005,说明显著性明显,最低温度显著性数值大于0.05,说明显著性不明显[5]。为此得到PM2.5日均浓度影响关键因子与平均温度、平均能见度、平均风速、最高温度,得到非标准系数多元线性回归方程为:
P=167.217-7.587x1-4.367x2-7.926x3+8.569x4(1)
式(1)中,P表示PM2.5日均浓度,x1表示平均温度,x2表示平均能见度,x3表示平均风速、x4表示最高温度。按照此关系式可知,随着平均能见度、平均风速数值增大时,PM2.5日均浓度呈减小趋势;随着平均温度和最高温度提高,影响平均能见度数值变化,通常平均温度和最高温度越高,能见度越大,冬季气温较低,空气水雾不易扩散,能见度随之降低,夏季气温较高,空气水雾易扩散,能见度随之增大,由此可知平均温度和最高气温增大时,反而PM2.5日均浓度程减小趋势。
1)通过因子分析和偏相关分析,并不是所有的气象因子对PM2.5日均浓度起主要影响作用,经过分析筛选得到PM2.5日均浓度影响初选关键因子,在做多元线性回归分析中,初选关键因子中最低温度显著性不明显,最终得到PM2.5日均浓度影响关键因子为平均温度、平均能见度、平均风速、最高温度。
2)依据PM2.5日均浓度与其关键影响因子得到PM2.5日均浓度与其关键因子非标准系数多元线性回归方程,该方程式整体上能够反映出PM2.5日均浓度与关键因子之间的关系,因此对于大气污染防控有重要指导意义。通过PM2.5日均浓度筛选影响关键因子和建立非标准系数多元线性回归方程方法,可进行其他规定大气污染常规污染物识别方法研究。
[1]王喜全,虞统,孙峰,等.北京PM10重污染预警预报关键因子研究[J].气候与环境研究,2006,11(4):470-476.
[2]辛督强,韩国秀.因子分析法在科技期刊综合评价中的应用[J].数理统计与管理,2014,33(1):116-121.
[3]何莉,董梅生,丁吉海,等.安徽省高校自然科学学报学术影响力综合评价分析——基于因子分析法[J].中国科技期刊研究,2014,25(3):402-405.
[4]白晓华,宋迪.滇池CHla与水质及气象指标的偏相关分析[J].环境科学与技术,2016,39(1):187-192.
[5]沈劲,钟流举,何芳芳,等.基于聚类与多元回归的空气质量预报模型开发[J].环境科学与技术,2015,38(2):64-66.
Identification of Key Factors Affecting the Concentration of Air Pollutants Based on Factor Partial Correlation and Mul⁃tiple Regression
XI Jun-fu
(Information and Engineering Department,Xingtai Polytechnic College,Xingtai 054035,China)
In order to study the atmospheric pollution caused by changes in the concentration of conventional pollutants the ma⁃jor constraints,the key factors influencing the concentration of factor analysis and partial correlation analysis method for identifica⁃tion of atmospheric pollution and conventional pollutants,using multiple linear regression analysis method of non standard coeffi⁃cient multivariate linear regression equation of atmospheric pollution conventional pollutant concentration changes and its key factor,this equation can reflect the whole the relationship between air pollution and conventional pollutant concentration of key factors,to provide scientific basis for forecasting and early warning system of environmental air quality to provide the input factor and air pollution prevention and control effectively.
Air pollutant concentration;key factors;factor analysis;Partial correlation analysis
TP311
A
1009-3044(2017)21-0190-02
2017-04-28
河北省科技计划项目(16273723)
郗君甫(1982—),男,河北邢台人,讲师,硕士,主要研究方向为信息检索及智能优化算法。