来鹏飞
摘 要:本研究对淮南市2015—2021年PM2.5浓度进行了时间序列分析和算法预测。结果表明:PM2.5浓度最高值出现在每年12月到次年1月,最低值出现在每年7、8月。浓度值在2020年之前处于上升趋势,2020年开始有所下降。为验证预测结果的准确性,使用了CNN-GRU预测模型进行预测,预测结果的MSE、RMSE、MAE、MAPE和SMAPE分别为122.07、11.05、9.67、24.64%和21.18%。预测结果表明,PM2.5浓度的实际值变化趋势有所下降,可为日后环境治理提供参考。
关键词:淮南市;PM2.5预测;CNN-GRU;时间序列
中图分类号:X513 文献标志码:A 文章编号:1003-5168(2022)12-0128-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2022.12.027
Analysis and Prediction of PM2.5 Concentration Change in Huainan City
LAI Pengfei
(School of Electrical and Information Engineering, Anhui University of Technology, Huainan 232001,China)
Abstract: The time series analysis and algorithm prediction of PM2.5 concentration in Huainan city from 2015 to 2021 were carried out. The results show that the highest value of PM2.5 concentration occurs from December to January, and the lowest value occurs in July and August. The concentration was in an upward trend before 2020, and began to decline in 2020. In order to verify the accuracy of prediction results, CNN-GRU prediction model is used for prediction. The predicted MSE, RMSE, MAE, MAPE and SMAPE were 122.07, 11.05, 9.67, 24.64% and 21.18%, respectively. The prediction results show that the actual value of PM2.5 concentration decreases, which can provide reference for future environmental governance.
Keywords: Huainan City; PM2.5 prediction; CNN-GRU; time series
0 引言
霧霾天气在我国多个地区频繁出现,导致环境问题日益加重。淮南市作为我国的主要煤生产基地之一,在煤矿开采的过程中,由于运输燃烧等方式会导致许多烟尘释放到空气中,其中包含了大量的细颗粒物(PM2.5)[1]。本研究采用2015—2021年的数据研究PM2.5的特征及变化,了解PM2.5的污染状况,为淮南市大气污染防控提供数据参考。
PM2.5是指环境空气中空气动力学直径小于等于2.5 μm、大于0.1 μm的颗粒物。PM2.5对能见度以及空气质量有着很大的影响,并且PM2.5中含有的重金属、微生物等有害物质,也对人类的健康有着严重的危害,可能会引发呼吸疾病[2-4],同时对气候的变化也有着很大的影响[5-7]。因此,对PM2.5浓度变化进行分析以及准确预测对环境的治理和人类的健康有着重要的意义。
以往研究多是基于多元时间序列模型或多元线性回归的方式实现对PM2.5浓度的预测。随着人工神经网络的发展,出现了如卷积神经网络(CNN)[8-10]和循环神经网络(RNN)[10-11]这一类的深度神经网络。CNN的优势主要体现在图像处理中,在时间序列上的预测效果并不明显,RNN本身是处理时间序列的模型,可以将多种因素和时间序列考虑在内,但只能对短序列进行建模。本研究采用CNN-GRU[12]网络对PM2.5浓度进行预测和趋势分析,并与GRU[13-14]、LSTM[15-16]和ARIMA[17]的结果进行比较分析,以期为PM2.5污染治理提供依据。
1 数据来源与方法
1.1 数据来源
本研究使用2016年1月至2021年12月的每日数据为研究基础。数据源自美国国家气候数据中心(NCDC),隶属于美国国家海洋及大气管理局(NOAA)。提供自1942年以来的中国地面气象数据下载。下载的数据格式为ISD-Lite,是一种简化了的ISD(Integrated Surface Data)数据。每个文件按天保存,内容包含时间间隔为1 h的单日AQI、PM2.5、PM10、SO2、NO2、O3以及CO的值。
1.2. 数据处理方法
首先通过python代码对按日排列的数据进行整合,使其从按日存储的表格变为按年存储的表格,然后通过python与MySQL数据库建立连接,将其存储到MySQL数据库中,按照需求将淮南市每日12 h的月均值PM2.5数据查询出来进行数据处理分析。根据最终结果绘制月均浓度趋势图并进行预测分析,以便研究淮南市PM2.5的变化。
2 结果与分析
2.1 PM2.5浓度的变化
如图1所示,近年来PM2.5浓度呈周期性变化,每年PM2.5浓度呈现出“V”字形变化。最高值出现在每年12月到次年1月,浓度最高出现在2018年1月,为108.65 μg/m³。最低值出现在每年7、8月,浓度最低出现在2021年7月,为16.29 μg/m³。淮南市PM2.5的浓度主要分布在35~75 μg/m³这个范围内。从图1中可以看出,2020年之前PM2.5月均值浓度一直处于上升的趋势,2020年开始有明显的下降趋势。
如表1所示,将一天24 h里检测到的PM2.5浓度的值求平均值,按照空气质量标准,将空气质量等级共分为6个等级,分别为优、良、轻度污染、中度污染、重度污染以及严重污染。从表1中可以看出,近年来淮南市空气质量等级主要处于优、良以及轻度污染三个水平,并集中在良这个等级。2020—2021年出现轻度污染的月份每年仅有1个月,而空气质量为优的月份增加到了每年5个月,这说明了淮南市的空气质量在近年有所改善。
2.2 时间序列预测分析
2.2.1 卷积神经网络。卷积神经网络(Convolutional Neural Networks,CNN)是深度学习神经网络模型中的一种。在图像处理、视频处理等方面有着广泛的应用,并表现出优异的性能,实现对输入特征的提取。CNN一般有卷积层、池化层和全连接层组成。卷积层是CNN网络的核心,通过对输入的数据进行卷积运算,降低噪声,并增强输入数据的特征;池化层的功能是将卷积层的输出作为输入,通过最大值、平均值池化等操作,保留特征的同时,减少参数实现对数据的降维;全连接层是将经过卷积层、池化层处理过的数据进行整合,得到分类或者回归的结果
2.2.2 GRU网络。GRU网络是在LSTM网络的基础上进行改进的,组成有更新门以及重置门。更新门的作用是判断目前时间的输入与前面的隐藏状态是否更新到候选隐藏状态。重置门是将目前时间的输入与前面的隐藏状态相结合,来判断是否将候选隐藏状态中的信息遗忘。更新门更适用于中长期序列中,而重置门更适用于短期序列中。更新门和重置门的计算公式如式(1)、式(2),候选隐藏状态的计算公式如公式(3)所示。
式中:zt、rt、xt、ht分别是更新门的输入、重置门的输入、当前时间状态的输入以及上一时间状态的隐藏状态;xt是t时刻的输入;ht-1是t-1时刻的隐藏状态;Wz、Uz、Wr、Ur是权重矩阵;br、bz是偏差矩阵;σ(·)表示sigmoid函数,它将得到的激活结果变换到0与1之间。
最后利用网络计算出当前时刻的最终状态ht,公式如式(4)。
2.2.3 CNN-GRU。本研究使用的是一种融合CNN和GRU的神经网络混合模型,可以更好地学习数据中的特征和规律,准确地预测出结果。模型结构如图2所示。输入数据,经过卷积层的计算来得出输入数据中的特征信息;池化层中采用最大池化的方法进行池化,保留最主要的特征;Dropout层随机丢弃一些神经元来防止出现过拟合现象;在GRU层中,通过不断地训练调整自身的参数,不断优化并进行预测,最终在全连接层中对输出进行处理得到预测的结果。
在进行预测时,首先对原始数据进行处理,对淮南PM2.5时间序列数据的数据特征进行归一化处理,并将数据映射到区间[0,1];然后将数据集按照6∶1分为两个部分:训练集和测试集,当训练结束后对预测出的结果进行反归一化;最后将2021年数据作为测试集与预测结果进行对比。
为验证预测结果的可靠性,另外使用了GRU、LSTM、ARIMA三种算法进行预测对比。图3展示了GRU、LSTM和ARIMA算法对未来1年时间的预测结果与原始数据的对比情况。结果表明,三种算法预测的趋势基本一致,都呈现出“V”字形的变化。但GRU算法预测结果只有3月和6月的浓度比真实值低,其他月份都略高于真实值;LSTM预测结果全部高于真实值;ARIMA预测3月、8月、10月、11月、12月结果比真实值低,其余月份高于真实值。这说明了2021年PM2.5浓度值相较于之前的变化有所降低。
表2为CNN-GRU、GRU、LSTM和ARIMA预测结果的评价指标比较。分别选取了均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和对称平均绝对百分比误差(SMAPE)作为评判标准。从表1中可以清晰地看出,四种算法预测的结果中,CNN-GRU预测的结果最为准确,分别是119.53、10.93、8.77、24.42%和20.46%。
3 结语
本研究分析了2015—2021年淮南市PM2.5的变化趋势并使用了相应的算法对数据进行预测分析。结果表明,2020年之前淮南市PM2.5浓度具有缓慢上升的趋势。其中最高值出现在每年12月与次年的1月,最低值出现在每年7、8月;空气质量等级主要处于优、良以及轻度污染三个水平,主要集中在良的水平。2020年开始,淮南市PM2.5浓度开始下降,出现轻度污染的月份有所降低。使用CNN-GRU算法与其他算法预测结果比较得出,CNN-GRU算法相較于其他算法预测准确性更高。预测结果显示,预测值略高于真实值,表明淮南市近1年PM2.5浓度有所降低。
参考文献:
[1] 胡煜,郑刘根,程桦,等.淮南市PM2.5中PAHs污染特征及来源分析[J].环境监测管理与技术,2016,28(6):33-37.
[2] 王玮,汤大钢,刘红杰,等.中国PM2.5污染状况和污染特征的研究[J].环境科学研究,2000(1):1-5.
[3] BELL M L,FRANCESCA D,KEITA E,et al. Spatial and temporal variation in PM2.5 chemical composition in the United States for health effects studies [J]. Environmental health perspectives, 2007,115(7):989-995.
[4] 王庚辰,王普才.中国PM2.5污染现状及其对人体健康的危害[J].科技导报,2014,32(26):72-78.
[5] TAI A P K,MICKLEY L J,JACOB D J. Correlations between fine particulate matter (PM 2.5 ) and meteorological variables in the United States: Implications for the sensitivity of PM 2.5 to climate change [J]. Atmospheric Environment, 2010,44(32):
[6] 王薇,陈明.城市绿地空气负离子和PM_(2.5)浓度分布特征及其与微气候关系:以合肥天鹅湖为例[J].生态环境学报,2016,25(9):1499-1507.
[7] 陈波,鲁绍伟,李少宁.北京城市森林不同天气状况下PM2.5浓度变化[J].生态学报,2016,36(5):1391-1399.
[8] 陸继翔,张琪培,杨志宏,等.基于CNN-LSTM混合神经网络模型的短期负荷预测方法[J].电力系统自动化,2019,43(8):131-137.
[9] 罗文慧,董宝田,王泽胜.基于CNN-SVR混合深度学习模型的短时交通流预测[J].交通运输系统工程与信息,2017,17(5):68-74.
[10] 范竣翔,李琦,朱亚杰,等.基于RNN的空气污染时空预报模型研究[J].测绘科学,2017,42(7):76-83,120.
[11] 李洁,林永峰.基于多时间尺度RNN的时序数据预测[J].计算机应用与软件,2018,35(7):33-37,62.
[12] 姚程文,杨苹,刘泽健.基于CNN-GRU混合神经网络的负荷预测方法[J].电网技术,2020,44(9):3416-3424.
[13] 王增平,赵兵,纪维佳,等.基于GRU-NN模型的短期负荷预测方法[J].电力系统自动化,2019,43(5):53-58.
[14] 赵兵,王增平,纪维佳,等.基于注意力机制的CNN-GRU短期电力负荷预测方法[J].电网技术,2019,43(12):4370-4376.
[15] 王鑫,吴际,刘超,等.基于LSTM循环神经网络的故障时间序列预测[J].北京航空航天大学学报,2018,44(4):772-784.
[16] 白盛楠,申晓留.基于LSTM循环神经网络的PM2.5预测[J].计算机应用与软件,2019,36(1):67-70,104.
[17] 吴玉霞,温欣.基于ARIMA模型的短期股票价格预测[J].统计与决策,2016(23):83-86.