融合时空特征的PCA-PSO-SVM 臭氧(O3)预测方法研究

2021-03-17 07:20董红召王乐恒佘翊妮浙江工业大学智能交通系统联合研究所浙江杭州004杭州市环境保护科学研究院浙江杭州004杭州环研科技有限公司浙江杭州004
中国环境科学 2021年2期
关键词:臭氧浓度臭氧时空

董红召,王乐恒,唐 伟,杨 强,佘翊妮 (.浙江工业大学,智能交通系统联合研究所,浙江 杭州 004;.杭州市环境保护科学研究院,浙江 杭州 004;.杭州环研科技有限公司,浙江 杭州 004)

近年来,我国臭氧(O3)污染问题日益显现,京津冀及周边地区、长三角地区、汾渭平原等区域臭氧浓度呈上升趋势,尤其是在夏秋季节已成为部分城市的首要污染物[1].臭氧作为氮氧化物(NOx)和挥发性有机物(VOCs)等污染物在大气中发生光化学反应生成的二次污染物[2-5],对人体的心血管和呼吸系统具有强烈的刺激性作用,会导致多种疾病的发生[6-8].此外,臭氧还会对生态环境产生严重的危害.对臭氧污染的提前预测可以为政府实施环境管理决策提供依据.

臭氧浓度预测方法分为统计预测、数值预测两大类[9].统计预测以历史大气污染物数据和气象数据作为基础,运用数学统计方法建立污染物预测模型.数值预测目前主要使用光化学网格模型WRFCMAQ(x)、WRF-Chem 等[10-12].相较于数值模型,统计预测模型构造简单,数据资料要求较低,易于操作,因此在大气污染物预测中应用广泛[13-16].常用的统计预测方法有多元线性回归、决策树[17]、神经网络[18]、支持向量机[19]等.丁愫等[17]利用决策树算法建立臭氧浓度预测模型,并采用线性回归集成方法进行预测修正,相关系数在0.5~0.64;梁卓然等[20]考虑环流因子与臭氧的关系,将客观环流分析法与逐步回归模型结合对臭氧日最大8h 平均浓度进行预测,可决系数R2达到0.75;Gao 等[21]利用人工神经网络模型对臭氧浓度进行预测,R2达到0.73.目前统计预测方法在进行单站点预测时往往只采用该站点的大气污染物历史数据,并着重考虑臭氧与气象因素的关系,忽略了臭氧污染的时空特征,即未考虑臭氧传输、扩散的区域性和在时间周期上的强自相关性的影响[22-24],预测精度仍存在较大的提升空间.

针对上述问题,提出一种融合时空特征的PCAPSO-SVM 臭氧组合预测模型.组合预测模型包括基于小波分析的臭氧时间序列变化的主周期获取,和基于系统聚类的区域内站点臭氧浓度变化相似性分析及分类,并通过主成分分析(PCA)进行特征提取,获取最优特征子集,将其输入粒子群算法优化的支持向量机模型(PSO-SVM)开展对臭氧日最大8h 平均浓度预测,以期获得更高的预测精度.

1 数据与方法

1.1 数据来源

图1 国控站点和气象站位置分布Fig.1 Position of national atmospheric monitoring points and meteorological station

使用的大气污染物浓度数据为2016~2018 年杭州市10 个环境空气质量国控站点逐小时监测数据,主要污染因子为O3、PM2.5、PM10、CO、NO2监测浓度.计算臭氧日8h 平均浓度,筛选得到臭氧日最大8h 平均浓度ρ(O3-8h),将PM2.5、PM10、CO、NO2、O3-1h日均浓度定义为辅助大气污染物浓度.气象资料来源于杭州市地面气象站,主要为与大气污染物监测数据平行的逐时气温、气压、降水量、风速、相对湿度.选定2016 年1 月1 日~2018 年5 月31 日作为训练样本集,2018 年6 月1 日~2018 年9 月31日这一臭氧高值时段作为测试样本集.

1.2 组合预测方法

臭氧浓度变化受其前体物排放源、气象、地形环境等多因素的综合影响,具有高度复杂性、非线性的变化特征,采用传统线性预测方法难以得到较好的预测效果.此外臭氧浓度影响特征较多且特征之间相关性较强,若将特征全输入至预测模型中会加大模型训练负担、降低训练效率.因此提出一种融合时空特征的PCA-PSO-SVM 组合预测模型,模型结构如图2 所示.

图2 组合预测模型结构Fig.2 Structure of the combining ozone prediction model

在特征获取阶段,考虑到臭氧时间序列存在强相关性和城市内臭氧变化的区域性[25-26],利用小波分析和系统聚类分析臭氧浓度变化规律和区域内站点的臭氧浓度空间分布的相似性关系,以获得时空特征.小波分析是一种可应用于非平稳序列的时间-尺度分析方法,可以降低臭氧时间序列噪声的影响,分析其隐藏的变化周期和规律[27-28];系统聚类通过距离准则评价样本之间的相似性,并依据相似性对样本分类,利用系统聚类方法可以有效地将臭氧浓度变化相似度高的国控站点归为一类[29-30].

在建模预测阶段,利用主成分分析方法将高维且相关性较强的臭氧浓度影响特征映射为低维且互不相关的主成分,消除臭氧影响特征之间的冗余性和相关性,从而获得最优特征子集[31].支持向量机适用于解决非线性预测问题,因此可以运用于臭氧浓度预测,其构造高维特征空间的线性函数如下:

式中:x 为臭氧预测最优特征子集; f ( x) 为臭氧浓度预测值;ω 和b 分别为法向量和偏移量.通过引入拉格朗日乘子 αi和采用拉格朗日乘子法进行求解得到最优超平面的回归函数:

式中: κ( x, xi)为核函数.选用径向基核函数(Radial Basis Function,RBF)作为预测模型的核函数.

在基于径向基核函数的SVM 预测模型中,惩罚系数C 与核参数γ 对其预测能力有直接的影响[32].粒子群算法是一种模仿鸟类觅食行为的优化算法,具有参数少、迭代简单的优点,其核心思想是在规定的空间内,经过多次迭代,对粒子的速度和位置进行更新,来获得最优的适应度值.粒子群算法的数学表达如下:

1.3 臭氧预测流程

1)对初始样本数据进行标准化处理.

2)利用小波分析对臭氧时间序列进行小波变换处理,获取主周期N,提取tT−N~tT−1日待预测站点sj的臭氧浓度作为时间特征;通过系统聚类提取tT−1日的站点sj所属集合内所有站点的臭氧浓度作为空间特征;对影响臭氧浓度变化的气象、辅助大气污染物因素进行相关性分析,获取辅助特征.

3)通过主成分分析算法获取臭氧的最优特征子集.

4)初始化粒子群算法(PSO)参数,随机生成粒子的位置与速度,采用SVM 模型训练,对参数( C, γ) 进行迭代寻优.

5)确定最优参数( C, γ) 代入SVM 模型,输入测试集,输出结果检验预测精度.

图3 融合时空特征的PCA-PSO-SVM 组合模型预测流程Fig.3 Workflow of PCA-PSO-SVM ozone predicting method considering spatial-temporal features

1.4 评价指标

为了检验预测模型的预测精度,通过平均绝对误差(MAE)、均方根误差(RMSE)、可决系数(R2)3个指标对预测结果进行评价,表达式如下:

2 结果与分析

2.1 特征分析

2.1.1 时间特征分析 由图4可见,2016~2018年杭州市臭氧日最大8h 平均浓度时间序列,如图所示杭州市臭氧浓度变化具有明显的季节性特征.对臭氧时间序列进行小波分析,并绘制小波系数实部图和小波方差图(图5).小波系数实部图中小波系数大代表臭氧浓度高,小波方差图中波峰所对应的尺度可定义为臭氧的主周期.由图5(b)可知,臭氧时间序列存在3 个震荡周期,分别发生在70~90d、40~50d、10~20d,第一主周期为82d,第二、第三周期分别为43d、14d.3 个周期反映了臭氧时间序列的变化特征.结合图6 可以看出,臭氧时间序列存在较强的自相关性,但当滞后天数大于30d 后,相关系数趋近于0,若将待预测日前82d 或前43d 的臭氧浓度序列作为时间特征输入,会导致特征冗余.因此选择预测日前14d 的臭氧浓度TIMEO3-8h(tT-1,T-2,…,T-N,Sj)共14 维向量作为时间特征输入模型.

图4 ρ(O3-8h)时间序列Fig.4 Time series of ρ(O3-8h)

图5 臭氧时间序列小波系数实部图与小波方差图Fig.5 Real part and variance diagram of wavelet coefficients concerning ozone time series

图6 臭氧时间序列时间滞后自相关系数Fig.6 Lagging self-correlation coefficient of ozone time series

2.1.2 空间特征分析 对杭州市10 个国控站点的臭氧日最大8h 平均浓度数据进行系统聚类,结果如图7 所示.根据站点臭氧浓度的欧氏距离大小,将其划分为类1(朝晖五区、和睦小学、浙江农大、城厢镇、滨江)、类2(临平镇、下沙)、类3(卧龙桥、云栖、西溪).结合站点周边环境和地理位置进行分析,类1 中的国控站点周边环境皆为居民住宅区;类2 中的国控站点周边存在较多工业区;类3 中卧龙桥、云栖站点位于西湖景区中,西溪站点位于西溪公园内,皆为景区站点,此外每一类中的站点距离相近,这表明周边环境的不同会导致区域内臭氧浓度变化存在差异性,相近站点的臭氧浓度变化会存在较高的相似性.在建立预测模型时,将tT−1日的与待预测站点同一类站点的臭氧浓度序列SPAO3-8h( tT−1, Sh)作为空间特征输入.

图7 ρ(O3-8h)聚类分析Fig.7 Cluster analysis tree of ρ(O3-8h)

2.1.3 辅助特征分析 表1、表2 分别为臭氧与气象因素、辅助大气污染物的相关性统计.由表1 可知,温度与臭氧呈正相关,且相关系数较大,温度升高导致光化学反应增强,从而造成O3浓度升高[33].气压和湿度与臭氧浓度呈显著负相关,高湿度的环境易遏制臭氧污染的产生[34],降水与风对臭氧存在清除作用,与臭氧呈负相关[35].

由臭氧与辅助大气污染物日平均浓度的相关性统计可以看出臭氧与辅助大气污染物皆为负相关,由于NO2作为臭氧形成的前体物,通过光化学反应生成臭氧[22],与臭氧浓度呈负相关.高浓度的PM2.5和PM10会导致气溶胶光学厚度增大,降低了O3光化学速率,减少O3的形成,因此也和臭氧浓度呈负相关[36].综上所述,在建立预测模型时,选择将tT-1日的待预测站点的辅助大气污染物浓度和tT日的气象预报数据共10 维向量作为辅助特征输入模型.

表1 ρ(O3-8h)与气象因素相关性统计Table 1 Correlation statistics between ρ(O3-8h) and meteorological factors

表2 ρ(O3-8h)与辅助大气污染物相关性统计Table 2 Correlation statistics between ρ(O3-8h) and air pollutants

2.2 基于PCA 算法的特征降维

以朝晖五区(类1)、下沙(类2)、西溪(类3)3 个不同类的国控站点为例,结合时间特征、空间特征、辅助特征构建初始特征集,通过PCA 算法进行特征降维,结果如表3 所示.

对3 个站点的初始特征集进行KMO 检验,结果均大于0.9,表明特征之间存在较强的相关性,很适合主成分分析[25].通过主成分分析,分别从3 个监测站的初始特征集中提取到11、12、12 个主成分,且主成分的累积方差贡献率皆超过90%,表明所提取的主成分可以有效反映原特征集的信息,因此将提取到的主成分作为3 个最优特征子集,输入PSO-SVM模型.

表3 典型站点PCA 降维结果Table 3 Dimension reducing outcome of the typical stations by PCA method

2.3 PCA-PSO-SVM 模型预测结果

为检验PCA-PSO-SVM 模型建模时输入时间特征和空间特征能否提升待预测站点的预测精度,建立未融合时空特征的传统PCA-PSO-SVM 模型(仅采用待预测站点t T−1 日臭氧日最大8h 平均浓度和辅助特征构建特征集)进行预测精度对比.采用残差(真实值与预测值的差值)评价模型的预测效果,结果如图8 所示.

图8 四种PCA-PSO-SVM 模型部分样本残差比较Fig.8 Prediction difference comparing among four PCA-PSO-SVM models

由图8 三个站点的预测结果可知,融合时空特征的PCA-PSO-SVM 组合预测模型预测值与真实值波动较为符合,其残差在零值附近波动且波动范围较小,不易出现突变值,相较于另外3 个模型预测效果最优,而传统PCA-PSO-SVM 模型突变值较多,预测效果较差.建模时加入时间特征可以使传统模型学习臭氧浓度变化趋势,加入空间特征可以使传统模型结合臭氧浓度区域性变化的影响,皆可以提升传统模型的预测精度.以3 种评价指标对四种模型进行评价,如表4 所示.3 个站点的融合时空特征PCA-PSO-SVM 组合模型的RMSE 均值为22.1μg/m3,相较于传统PCA-PSO-SVM 模型预测精度提升19%,这表明在模型构建时融合时空特征可以有效地提升预测精度.

表4 四种PCA-PSO-SVM 模型预测效果对比Table 4 Comparison of predicting outcome of four PCA-PSO-SVM models

2.4 适用性分析

为检验融合时空特征的PCA-PSO-SVM 组合模型的适用性及PCA、PSO 算法对SVM 模型的优化效果,对10 个国控站点皆进行预测实验,并以RMSE、R2两个评价指标对预测结果进行评价并绘图,如图9 所示.从3 种模型(SVM、PSO-SVM 和PCA-PSO-SVM)预测结果来看,PCA-PSO-SVM模型的预测精度最高,PSO-SVM 模型次之,SVM 模型预测效果最差.这说明通过PSO 算法对SVM 模型的核参数准确寻优和PCA 算法对初始样本集的特征降维,可以有效提升模型的预测精度.系统聚类分析表明,类1、类2、类3 的站点的监测区域分别为居民区、工业区、景区.由10 个国控站点的预测结果可知,预测模型对居民区、景区站点的预测结果优于工业区的站点,可能是因为杭州东部经济技术开发区、萧山区、大江东地区的工业企业排放较多臭氧前体物[37],致使站点臭氧浓度波动较大,且工业区的站点数量仅有2 个,模型对空间特征获取有限,从而影响预测效果.融合时空特征的PCAPSO-SVM 组合模型在10 个站点的RMSE 均值为22.8μg/m3,R2皆高于0.75,表明该模型在不同类型的区域内皆可以较好地模拟臭氧浓度的变化情况.当前上海市应用的臭氧数值预测模型WRF-Chem对臭氧日最大8h 平均浓度预测的RMSE 值达到31.2μg/m3[38],对比而言,提出的臭氧预测模型有更高的预测精度.

图9 融合时空特征的3 种预测模型RMSE、R2 比较Fig.9 RMSE, R2 comparing among three predict models considering spatial-temporal features

图10 10 个站点超标天累计和融合时空特征的3 种模型预测准确率比较Fig.10 The number of days exceeding the standard and the comparison of prediction accuracy among three models for the ten stations

臭氧浓度高值预测的准确性也是衡量模型预测能力的一个重要指标.根据国家标准[39],当臭氧日8h 平均浓度大于160μg/m3和215μg/m3,分别为臭氧浓度超标和其IAQI 污染等级达到中度污染.为评价融合时空特征的PCA-PSO-SVM 组合模型的臭氧高值预警能力,统计2018 年6~9 月各个国控站点臭氧超标和达到中度及以上污染天数,采用准确率P评价3 种模型的臭氧高值预测准确性,其计算公式如下:

式中:TN 为臭氧高值预测正确天数;TF 为臭氧高值预测失败天数.

各个国控站点超标天数累和及融合时空特征的3 种模型预测准确率如图10 所示.由图可知2018年6~9 月各站点臭氧超标天数累和分布在27~45d.景区站点的臭氧超标天数均值为31d,低于居民区站点和工业区站点,主要是因为景区站点周边存在较少臭氧前体物排放源.PCA-PSO-SVM 模型在10 个站点的臭氧超标预测准确率皆高于PSO-SVM 模型和 SVM 模型,结合表 5 可知融合时空特征的PCA-PSO-SVM 模型对臭氧超标预测的准确率皆高于79%,且对10 个站点中度及以上污染等级的预测平均准确率达到68%,表明该模型可以较好地实现臭氧超标预警,具有较好的适用性.

表5 融合时空特征的PCA-PSO-SVM 模型预测准确率统计Table 5 Statistics of prediction accuracy of PCA-PSO-SVM model considering spatial-temporal features

2.5 误差敏感性分析

采用气象预报数据作为统计预测模型的部分输入对大气污染物进行预测,可以获得更好的预测效果[40-41].而实际应用中,气象预报数据往往与气象要素实测值存在误差,因此分析融合时空特征的PCA-PSO-SVM 组合模型对气象数据误差的敏感性是有意义的.依据现有研究选取影响臭氧浓度的主要气象因素:温度、相对湿度和风速进行误差敏感性分析[5,17,42-43].将测试集中的上述气象要素数据按下式设置不同尺度的随机误差来模拟预测误差,再输入模型得到预测结果.

式中:Met 为测试集中原始气象数据;Met′为经过误差模拟后的气象数据; U ( −λ , λ)为均匀分布随机数,λ 为误差尺度,由于实际气象要素预测中3 个气象要素的预测精度存在差异[44-45],因此设定3 组模拟随机误差实验,不同的气象要素设置对应的误差尺度,如表6 所示.考虑到部分相对湿度高值经过放大后会超过100%,设定相对湿度放大阈值为98%.

表7 为融合时空特征的PCA-PSO-SVM 组合模型误差敏感性分析结果,采用RMSE、臭氧超标预测准确率两个指标评价模型的预测效果.由表可知,当气象要素的误差尺度较低时,模型对误差的敏感性较低,对臭氧超标预测的准确率保持在76%.当误差较大(误差尺度为 λ3),模型的RMSE 均值虽达到28.8μg/m3,但其准确率仍高于70%,具有一定的预测效果.为评价3 个气象要素各自对模型预测精度的重要性,分别对温度、相对湿度、风速进行10%尺度的随机误差变换并输入模型,得到影响权重分布:温度对模型预测精度的影响最大,权重达到0.58,相对湿度次之,权重为0.29,风速影响最小,权重为0.13.现有研究表明对时效24 小时的温度预报误差可达到1℃~2℃[46],即融合时空特征的PCA-PSO-SVM 组合模型在当前的气象预报精度下可以较好地实现对臭氧污染的预测.

表6 气象参数误差尺度设置(%)Table 6 Error scale setting of meteorological elements(%)

表7 不同误差尺度下模型预测敏感性Table 7 Predicting sensitivity of the model in case of different error scales

3 结论

3.1 杭州市臭氧日最大8h 平均浓度存在显著的周期性变化;周边环境的不同会导致区域内臭氧浓度变化存在差异性,相近的站点的臭氧浓度变化会存在较高的相似性.

3.2 主成分分析可以有效消除特征之间的相关性和减少特征数量,提高预测精度.

3.3 融合时空特征的PCA-PSO-SVM 组合模型具有更好的预测精度和良好的适用性, 对臭氧超标预测的准确率高于0.79,与传统PCA-PSO-SVM 模型预测结果相比,精度提升19%.

3.4 气象因素中温度对臭氧预测效果影响最大,当气象预报数据存在误差时,融合时空特征的PCAPSO-SVM 组合模型仍有较好的预测效果.

猜你喜欢
臭氧浓度臭氧时空
不同品种小麦灌浆期旗叶光合特性及光合基因表达对臭氧浓度升高的响应
跨越时空的相遇
文印室内臭氧散发实测分析及模拟
镜中的时空穿梭
2018年8月上半月南京臭氧污染浓度变化分析
玩一次时空大“穿越”
看不见的污染源——臭氧
沈阳市臭氧浓度时空分布与变化特征分析
利用臭氧水防治韭菜迟眼蕈蚊
时空之门