刘媛媛
摘 要: 针对空气质量预测中复杂的时空问题,本文构造了多站点间的交互时空特征,搭建了结合CNN和LSTM的深度时空模型,并引入注意力机制学习多特征之间的权重分布,找出对空气质量指数(AQI)影响较大的特征重点关注,构造了融合CNN-LSTM和注意力机制的AQI预测模型。使用2019年1月至2020年12月间运城市各站点的小时粒度数据进行实验,结果表明,该模型对空气质量指数的预测较基模型具有更优的性能。
关键词: 空气质量指数; 时空模型; CNN; LSTM; 注意力机制
中图分类号:TP391 文献标识码:A 文章编号:1006-8228(2022)01-58-03
Air quality index prediction based on CNN-LSTM and attention mechanism
Liu Yuanyuan
(Department of Mathematics and Information Technology, Yuncheng University, Yuncheng, Shanxi 044000, China)
Abstract: Aiming at the complicated spatiotemporal problems in air quality prediction, this paper constructs interactive spatiotemporal features between multiple sites, builds a deep spatiotemporal model combining CNN and LSTM, and introduces an attention mechanism to learn the weight distribution between multiple features to find out the features that have a greater impact on the quality index, so as to construct an AQI prediction model combining CNN-LSTM and attention mechanism. Experiments were conducted using hourly granularity data of various stations in Yuncheng City from January 2019 to December 2020. The results show that the model has better performance in predicting air quality index than the base model.
Key words: AQI; spatiotemporal model; CNN; LSTM; attention mechanism
0 引言
近年來,随着人们环保意识增强,空气质量预测受到了更广泛的关注,随着深度学习技术的发展,空气质量预测也由单一的CNN,RNN模型向着综合考虑时空因素的CNN-RNN组合模型发展。黄婕[1]等基于RNN-CNN集成深度学习模型对中国大陆地区1446个监测站点的PM2.5小时浓度进行了预测,冀林[2]等使用CNNs-GRU模型,综合考虑了时空因素,对无锡市PM2.5进行了预测,Chiou-Jye[3]等采用CNN提取空气质量相关数据的时间特征关系,并结合LSTM用于预测PM2.5的浓度。这些组合模型,最终都被证明其预测效果优于单一的CNN、RNN模型。近年来,随着注意力机制的发展,开始有学者将这一技术引入空气质量预测中,余长慧[4]等使用基于注意力机制的Seq2seq模型对PM2.5浓度进行了预测,结果表明,该模型与基模型相比取得了更好的预测效果。
基于这种情况,本文提出了一种融和CNN-LSTM和注意力机制的模型。该模型构造了结合多站点多模态的时空特征,并使用CNN-LSTM模型进行空间及时间特征提取,最后引入注意力机制,对重要特征进行关注,从而提升预测效果。
1 模型理论介绍
1.1 CNN-LSTM模型
空气质量预测是典型的时序问题,但基于其特殊性,空间特征对空气质量的影响巨大,因此,本文将相邻站点的空气质量数据纳入参考特征[5],综合考虑了空间和时间因素,构造了一种多站点时空特征。
模型的卷积神经网络(CNN)部分使用Conv1D结构来进行特征提取。由于相邻站点之间的空气质量相关特征呈现交叉性的影响,因此在建模时将多站点的特征在每一个站点上展开成为综合各站点数据的二维结构,然后利用CNN进行多站点多特征空间下的特征提取,具体过程如图1所示。
在RNN的选择上,本文选用LSTM来替换SimpleRNN,以解决长时间序列下的梯度消失问题。LSTM使用门控机制控制信息选择性的通过:遗忘门将上一单元的输出ht-1 和这一单元的输入xt 输入到sigmoid 函数,得到“遗忘系数”ft;输入门使用sigmoid 函数决定要更新的数值,同时使用tanh 函数产生新的候选项,组合后完成当前单元状态更新;输出门使用sigmoid函数计算哪些单元状态需要被输出,最后经过tanh函数得到输出ht[6]。其基本结构如图2所示。
1.2 注意力机制原理
注意力机制来源于人类大脑的注意力运行机制,可以使模型在特定时间对特定的信息加以关注,从而过滤出对模型影响最大的特征[7-8]。
对于某长度为Tx的输入序列,ati为历史输入的隐藏状态对于当前输入状态的注意力权重,其计算公式为:
[ati=exp(eti)i=1Txexp(eti)] ⑴
其中,
[eti=VtanhWht-1+Uhi+b] ⑵
其中,U,V,W为权重矩阵,b为偏置项。
将ati与输入序列历史输入节点的隐藏层状态(hi)的乘积进行累加,可以得到特征向量Ct,其计算公式为:
[Ct=i=1Txatihi] ⑶
最终输出的最后节点的状态值记为Ht,其计算公式为:
[Ht=f(Ct,ht-1,yt-1)] ⑷
2 融入注意力机制的CNN-LSTM模型构造
针对AQI预测过程中存在的时空问题,本文构造了一种融入注意力机制的CNN-LSTM模型。该模型主要优势在于考虑了相邻站点之间特征的交互性,完善了时空模型,将相邻站点的空气质量相关因素作为特征引入,得到多站点间的交互时空关系,并构建结合了CNN和LSTM的时空模型,使用一维CNN结构Conv1D进行特征提取,使用LSTM在时间维度上根据设定的窗口进行未来空气质量指数的预测,并在LSTM之后使用注意力机制,通过局部注意力机制学习多站点交互时空特征之间的权重分布,提升预测效果,该模型结构如图3所示。
3 试验与结果分析
本文所使用的试验数据来自中国环境监测总站的全国城市空气质量实时发布平台发布的运城市五个国检站点的小时粒度数据,包括AQI指数,SO2,NO2,CO,O3,PM10和PM2.5等指标。除此之外,考虑到气像因素对AQI指数的影响,又获取了温度、湿度、风速、风向,降水量等相关气象数据。本文使用运城市2019年1月至2020年12月两年间的小时粒度数据作为训练集对2021年1-3月的空气质量指数进行预测,时间窗口选择为12,即:使用前十二小时的数据对未来一小时的AQI指数进行预测。
3.1 模型评价指标
AQI预测属于回归问题,因此,为了更好的对模型进行评估,本文采用均方根误差RMSE和平均绝对误差MAE两个指标来评价各个模型的预测效果。
[RESE=1ni=1nyi-yi] ⑸
[MAE=1ni=1nyi-yi] ⑹
其中,n为样本个数,yi为第i天AQI指数的实际值,[yi]为第i天AQI指数的预测值。
3.2 模型性能比较
为了验证融合注意力机制和CNN-LSTM(S-CNN-LSTM-A)模型的性能,本文建立了多个对比模型,其中LSTM,CNN-LSTM模型作为基模型,并构造了引入空间特征的LSTM(S-LSTM)和CNN-LSTM(S-CNN-LSTM)。以编号为2175A的站点为例,各模型的性能指标如表1所示。
从表1可以看到,引入空间特征的LSTM(S-LSTM),CNN-LSTM(S-CNN-LSTM)模型,其RMSE较未引入前的33.71,26.97分别降低到了30.06,24.27,MAE也分别由24.95,21.79 降低到了20.28,15.54。而同时引入注意力机制和空间特征的深度时空模型(S-CNN-LSTM-A),其RMSE和MAE也分别降低到了21.84,15.07,获得了比基模型更好的性能,其实际值和预测值的比较如图4所示。通过模型对比发现,本文提出的融入注意力机制和空间特征的CNN-LSTM模型较基模型具有更高的精度,在空气质量指数的预测上能够取得更好的效果。
4 结束语
本文考虑了AQI预测过程中时空因素的影响,建立了多站点多特征基础上的CNN-LSTM模型,并引入注意力机制来进一步提高模型的性能。结果表明,在单一站点模型基础上引入多站点空间特征后,模型性能有了一定程度的提高,在此基础上融入注意力机制后,模型性能又有了进一步的提升。因此,本文提出的融入注意力机制和空间特征的CNN-LSTM模型较基模型具有更優的性能。但由于数据获取途径有限,与运城当地生产生活相关的数据如污染企业分布,人民群众生活习俗等数据获取不够,因此对运城本地的空气质量预测精度还不够高,这也是下一步研究的重点问题。
参考文献(References):
[1] 黄婕,张丰,杜震洪,等.基于RNN-CNN集成深度学习模型的PM_(2.5)小时浓度预测[J].浙江大学学报(理学版),2019,46(3):370-379
[2] 冀林.基于CNNs-GRU深度学习的PM2.5预测研究与实现[D].重庆邮电大学,2019
[3] Chiou-Jye Huang and Ping-Huan Kuo. A Deep CNN-LSTM Model for Particulate Matter (PM2.5) Forecasting in Smart Cities[J].Sensors,2018,18(7)
[4] 余长慧,刘良.基于注意力机制的Seq2seq模型在PM2.5浓度预测中的研究[J].测绘地理信息,2021-07-13:1-9
[5] 姚红岩,施润和.基于周边站点优化选取的随机森林PM_(2.5)小时浓度预测研究[J].环境科学学报,2021,41(4):1565-1573
[6] 张冬雯,赵琪,许云峰,刘滨.基于长短期记忆神经网络模型的空气质量预测[J].河北科技大学学报,2020,41(1):67-75
[7] 李雪.基于注意力机制的PM2.5浓度预测模型[D].山东大学,2020
[8] 彭玉青,乔颖,陶慧芳,刘宪姿,刘元剑.融入注意力机制的PM2.5预测模型[J].传感器与微系统,2020,39(7):44-47