汾渭平原空气质量数据的函数型主成分分析∗

2021-11-30 04:53李妍琳石小平胡锡健
关键词:平原空气质量曲线

李妍琳,石小平,胡锡健

(新疆大学 数学与系统科学学院,新疆 乌鲁木齐 830046)

0 引言

随着我国城镇化和工业化的快速推进、能源消耗量的持续增加,大气污染问题已成为社会各界普遍关注的热点.大气污染防治面临着严峻考验,尤其是对汾渭平原的大气污染防治,已成为当地环境质量改善工作的重点和难点.汾渭平原的能源结构以煤为主,煤炭在能源消费中占约90%,远高于全国的平均水平(60%).从地理位置来看,汾渭平原北起山西省代县,南抵陕西省秦岭山脉,西至陕西省宝鸡市,呈东北-西南方向分布,受山脉阻挡和背风坡气流下沉作用的影响,该地区容易形成反气旋式的气流停滞区,在污染阶段地面辐合形式明显,污染物辐合后被困,不易扩散.近年来汾渭平原的大气污染事件频发,已经引起国家和社会的高度重视,但众多学者对空气质量状况的研究,主要集中在中国东部地区,尤其是京津冀、长三角和珠三角等传统的空气污染重点治理区域,对西部地区的研究相对较少.汾渭平原的生态环境有恶化趋势,大气污染防治压力骤增.2018年7月,国务院印发《打赢蓝天保卫战三年行动计划》,汾渭平原被纳入环境污染三大重点防控区域之一[1].

现今,基于各个地方的空气质量情况,我国建立了空气污染指数(API)、空气质量指数(AQI)及各类污染物指标数据的监测发布平台.由于京津冀地区的地理位置原因,其空气质量问题一直是政府关注的重点.汾渭平原紧邻京津冀地区,是京津冀地区的南部屏障,各级政府非常重视本地的环保工作.PM2.5浓度偏高对环境和人体健康有着不可忽视的影响,楚德见等[2]分析了PM2.5对高层建筑中人们生活环境的影响.因此,需要对汾渭平原空气质量数据做更为科学及系统化的分析,以期对汾渭平原的空气质量改善提供更好的科学依据.

由于空气质量数据在时间尺度上有明显的函数特征,而且累计数据是从2013年至今,已达到上亿条,这对分析空气质量精细化奠定了坚实的基础,面对如此庞大的数据集,常采用插值或平滑方法将离散的空气质量数据拟合成曲线,运用函数型数据分析(Functional Data Analysis)方法分析.Ramsay[3]于1982年率先提出这种全新的数据分析思路.Ramsay和Sliverman[4−5]对函数型数据做了进一步详细的描述并讲述了诸多关于FDA的应用.与传统方法相比,函数型数据分析方法不仅在处理高维观测数据上能给出更加合理的直观解释,而且在分析数据时能保留更多的数据信息,从而得到更精确的分析结果.函数型主成分分析作为函数型数据分析的有力工具,得到了众多学者的广泛应用[6],与传统多元主成分分析相比,函数型主成分分析展现出了更大的优越性,并且能够提取更多的重要数据信息.目前,国内很多学者对该方法都进行了研究,吴京旺等[7]将该方法应用到了金融领域中;唐裔等[8]运用函数型主成分方法分析了我国城市人口的变化差异.在对空气质量数据的研究中,梁银双等[9]运用函数型主成分分析方法对京津冀地区PM2.5污染特征进行了分析,并且得到了较好的结果.目前还没有学者利用函数型数据方法对汾渭平原地区的空气质量进行研究.本文以汾渭平原11个城市的空气质量问题为研究重点,采用傅里叶基函数,选取各城市2019年1月1日至2019年12月31日的PM2.5浓度数据作为研究数据,将汾渭平原地区11个城市2019年的PM2.5浓度离散数据转化为连续的函数型数据,应用函数型主成分分析寻找主成分指标,刻画各城市PM2.5浓度随时间的变化规律.

1 数据说明与方法

1.1 研究数据

本文选取汾渭平原(包括河南的洛阳、三门峡,陕西的西安、咸阳、宝鸡、铜川、渭南,但不含杨凌,山西的吕梁、晋中、临汾、运城)11个城市作为研究对象,整理了2019年汾渭平原地区11个城市的7项空气质量数据(PM2.5、PM10.0、SO2、NO2、O3和CO的监测数据及空气质量指数(AQI)),数据来自中国空气质量在线监测分析平台.图1为2019年汾渭平原地区11个城市PM2.5浓度变化折线图.

图1 2019年汾渭平原地区11个城市PM2.5浓度变化折线图Fig 1 Line graph of PM2.5 concentration changes in 11 cities in the Fenwei Plain in 2019

1.2 函数型主成分分析

作为传统主成分分析的一种推广,函数型主成分分析将多元主成分分析技术与函数型数据分析相结合,在面临更大的“维数灾难”时,可以得到更加精确的分析结果.

1.2.1 曲线拟合

假定有n个观测样本,每个样本有N对数据序列,第i个样本的数据序列为(t1,xi1),(t2,xi2),···,(tN,xiN),将离散点对拟合成函数形式xi(t),此时的xi(t)满足xi(tj)=xij+∊i.采用基函数方法拟合数据序列,利用傅里叶基函数展开,选择一组基函数Φ(t)={φ1(t),φ2(t),···,φK(t)}的线性组合来估计函数xi(t)的值:

其中:xi(t)为第i个样本的曲线拟合,φk(t)为第k个基函数,cik为对应的系数.通过最小二乘法得到系数的估计值,从而拟合曲线xi(t).

1.2.2 函数型主成分分析原理

假设已经得到拟合曲线xi(t)(t ∈T,i=1,···,n).各个函数曲线的主成分得分为:

其中:β(t)为权重函数.

从而,求解第一主成分就变成了求解如下带有约束条件的优化问题:

通过求解这个优化问题,就得到了第一主成分β1(t).

同理,可求得第k个主成分,在满足前k−1个主成分权重函数相互垂直的基础上,求解上述优化问题,即

这个优化问题的求解与传统的主成分分析的方法类似,通过拟合曲线的协方差函数矩阵,求解函数型主成分的权函数β(t).记协方差函数为:

那么权重矩阵β(t)满足特征方程:

定义积分变换:

这里的V 为协方差算子,它将权重函数以协方差函数ν(s,t)为内核做积分变换,则

类比传统的主成分分析,同样使用特征值的累计贡献率来衡量主成分的占比:

一般累计贡献率要求不小于85%.

1.2.3 函数型主成分分析原理

设函数xi(t)的基函数展开式如(1)式,令函数向量X(t)=(x1(t),x2(t),···,xn(t))′,Φ(t)=(φ1(t),φ2(t),···,φK(t))′,则所有曲线的基函数展开式为X=CΦ,协方差函数的矩阵形式为

现假定特征函数β(t)的基函数展开式为:

其中:b=(b1,b2,···,bk)′,则上式可写成矩阵形式β(t)=Φ(s)′b,从而得

2 汾渭平原空气质量数据的函数型主成分分析

2.1 曲线拟合

本文选取汾渭平原11个城市2019年的空气质量监测数据,采用傅里叶样条基函数拟合,并基于R语言编程[10]绘制出函数化的PM2.5浓度变化曲线,如图2所示.

从图2可以看出,原始数据经过傅里叶样条基函数处理后得到了光滑函数曲线,反映2019年汾渭平原11个城市的PM2.5浓度变化趋势.图像显示PM2.5浓度有一定的季节性和周期性变化特征.总体上PM2.5浓度表现为冬季浓度高于另外三个季节,1 月、2月、12月的PM2.5浓度值都较大,达到最高峰值;夏季浓度最低,6―7月的PM2.5浓度值均在0∼50μg/m3,属于良好的空气状态.PM2.5浓度有这样的变化动态主要原因是冬季处于采暖期,随着气温的回升和雨季的到来,大气污染物排放量逐渐减少,大气对PM2.5的稀释和湿沉降能力增强,PM2.5浓度逐渐下降.

图2 2019年汾渭平原地区11个城市PM2.5浓度变化曲线Fig 2 Concentration curve of PM2.5 in 11 cities in the Fenwei Plain in 2019

2.2 相关描述性分析

采用傅里叶基函数拟合得到2019年汾渭平原11个城市的PM2.5浓度均值曲线以及标准差曲线图,如图3所示.由均值曲线可以看出2019年汾渭平原的PM2.5浓度大约在1月份处于最高水平,最高峰在220 μg/m3左右.5―10月的PM2.5浓度达到良好状态.2―3月,11―12月PM2.5浓度处于轻中度污染.由标准差曲线可以看出1―2月的PM2.5浓度变化差异最大,紧接着是4月、11―12月、5―10月PM2.5浓度变化差异最小.

图3 2019年汾渭平原11个城市PM2.5浓度均值曲线和标准差曲线Fig 3 The mean curve and standard deviation curve of PM2.5 concentration in 11 cities in Fenwei Plain in 2019

2.3 函数型主成分分析

利用前面所述的函数型主成分分析方法,实现汾渭平原11个城市的PM2.5浓度变化的实证分析.根据表1的结果显示,前四个主成分的方差累计贡献率达到96.4%,对全部数据已经达到相当全面的解释效果,因此在这里选用前四个主成分来分析汾渭平原PM2.5浓度的整体变化模式.图4为前四个主成分偏离均值的效果图.实线为11个城市的PM2.5浓度变化的均值函数,图中“+”“−”表示在均值的基础上加、减主成分的常数倍数.

表1 函数型主成分分析的贡献率和累计贡献率Tab 1 Contribution rate and cumulative contribution rate of functional principal component analysis

图4 前四个函数型主成分权重函数Fig 4 The first four functional principal component weight functions

从图4可以看出,第一个函数型主成分显示2019年PM2.5浓度曲线在1―2 月、11―12月份的变化显著,主要描述汾渭平原地区气候温度对PM2.5浓度变化的影响.从汾渭平原采暖期与非采暖期的大气污染状况来看,由于1月,11―12 月为采暖期,PM2.5浓度明显偏离均值,故第二主成分主要描述汾渭平原地区采暖期与非采暖期对PM2.5浓度变化的影响.第三个函数型主成分显示2019年PM2.5浓度曲线在3―4月份的变化显著,主要描述汾渭平原地区湿度对PM2.5浓度变化的影响.第四函数型主成分显示2019年PM2.5浓度曲线在10月份前后的变化显著,主要描述汾渭平原地区南北部PM2.5浓度变化差异.

图5是函数型主成分分析的第一和第二主成分得分图,图中左下角区域的第一、第二主成分得分都为负,而且值都很小,表明这些地区的PM2.5浓度全年相对较低,是汾渭平原地区空气质量最好的地方;右上角区域的第一、第二主成分得分都为正,尤其是咸阳市,第一、第二主成分得分都很大,这表明该市的PM2.5浓度全年都较高,是汾渭平原地区空气质量最差的城市,其次是临汾市,该市PM2.5浓度在采暖期波动最大;中间区域的第一、第二主成分得分均接近0,表明这些地方的PM2.5浓度接近汾渭平原地区的平均水平,空气质量居中.因此,对汾渭平原地区PM2.5浓度曲线的函数型主成分分析,可以很好地解释PM2.5浓度的变化形式,根据第一、第二主成分得分图,可将11个城市按照空气质量的不同状况,由好到差分为三类:吕梁、晋中、铜川为一类,洛阳、三门峡、宝鸡、渭南为一类,运城、西安、临汾、咸阳为一类.综上所述,汾渭平原地区的PM2.5浓度变化有明显的气候特征和地域特征.

图5 第一和第二主成分得分图Fig 5 First and second principal component score plot

3 结论

本文对汾渭平原大气污染进行分析,根据数据高维性、复杂性的特征,结合函数型分析方法,采用傅里叶基函数生成PM2.5浓度曲线,运用函数型主成分分析方法,对汾渭平原地区PM2.5浓度数据进行分析,结果表明:

(1)汾渭平原地区11个城市的PM2.5浓度受季节、气候条件影响较大.冬季的空气质量相对较差,PM2.5浓度偏高,尤其是临汾市最高PM2.5浓度达到400 μg/m3左右.故气候温度是导致PM2.5浓度差异的首要因素.

(2)汾渭平原地区11个城市的PM2.5浓度在采暖期和非采暖期有较大差别.采暖期的PM2.5浓度明显高于非采暖期,尤其是咸阳市的空气质量,受供暖影响较大.

(3)由于汾渭平原地理位置的复杂性,河谷平原的PM2.5浓度明显高于两侧山地,且呈现出向两侧山地递减趋势.其中运城市和渭南市平原地区的PM2.5污染严重,这样极易形成连片的高污染区域.

(4)大数据时代面对实时监测数据这样庞大的数据集,函数型数据分析已成为行之有效的数据处理工具.将空气质量数据函数化,可以直观展现数据本身的变化,避免重要信息的丢失,从而使分析更加全面准确.

猜你喜欢
平原空气质量曲线
那一片平原
未来访谈:出版的第二增长曲线在哪里?
乌海市雾对空气质量的影响
江淮平原第一关——古云梯关探秘
平原的草
幸福曲线
浪起山走
梦寐以求的S曲线
曲线的华丽赞美诗