摘" 要: 提出了一种融合图注意网络(GAT)和带注意力机制的时间卷积网络(ATCN)的创新模型——GAT-ATCN,旨在提高空气污染物浓度预测的精度和效率. 在通过GAT捕捉监测站点间的复杂空间依赖关系,利用注意力机制,自适应地加强重要节点之间的连接,从而提取空间特征. ATCN被用来处理时间序列数据,通过学习时间维度上的长期依赖关系,捕获污染物浓度随时间变化的动态特性. 选取中国江浙沪地区7个城市2018—2020年的实际空气质量监测和气象数据,构建数据集并进行实验,验证了GAT-ATCN模型的有效性. 实验结果显示:GAT-ATCN模型在多个评价指标上均表现优异,能够更准确地预测空气污染物浓度.
关键词: 空气污染物浓度预测; 图注意网络(GAT); 带注意力机制的时间卷积网络(ATCN); 深度学习
中图分类号: TP 301""" 文献标志码: A""" 文章编号: 1000-5137(2024)03-0315-07
Method for air pollutant concentration prediction based on graph attention network and temporal convolutional network
CHEN Weihong1, YANG Ru1*, WANG Hao2, ZHENG Zhonghua3
(1.College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai
200234,China; 2.Shanghai Newtouch Software Co., Ltd., Shanghai 200127, China;
3.Anhui Boryou Information Technology Co., Ltd., Hefei 230601, Anhui, China)
Abstract: An innovative model that integrated graph attention networks (GAT) and attention-based temporal convolutional networks (ATCN), named GAT-ATCN was proposed to improve the accuracy and efficiency of air pollutant concentration prediction. Firstly, the complex spatial dependencies between monitoring stations through GAT were captured, using an attention mechanism to adaptively strengthen the connections between important nodes, thereby extracting spatial features. Secondly, the ATCN part was used to process time series data, learning long-term dependencies in the time dimension to capture the dynamic characteristics of pollutant concentration changes over time. Finally, actual air quality monitoring data and meteorological data from seven cities in the Jiangsu-Zhejiang-Shanghai region of China from 2018 to 2020 were selected to build a dataset and conduct experiments, which verified the effectiveness of the GAT-ATCN model. Experimental results showed that the GAT-ATCN model performed excellently across multiple evaluation metrics and could predict air pollutant concentration more accurately.
Key words: air pollution concentration prediction; graph attention network (GAT); attention-based temporal convolutional network (ATCN); deep learning
0" 引言
近年来,随着大数据技术的发展和空气质量监测能力的提升,大量空气污染物和气象数据被实时采集,为空气污染研究提供了新的机遇,同时也对数据处理和分析,尤其对空气污染物大范围传播的分析提出了挑战. AL-JANABI[1]和ZHU等[2]应用机器学习的方法来处理传感器获取到的大量数据,并对空气污染物的传播扩散过程进行建模,这些方法并未从空间维度上进行建模. 由于空气污染物的传播扩散是一个动态变化的过程,现有模型对于有效捕捉其内在演变规律存在瓶颈,导致模型预测的精度以及效果不佳.
GOURAVJ等[3]将历史的空气污染物浓度变化视为一个时间序列,使用自回归移动平均(ARIMA)模型建模,并预测了印度新德里未来月度及季度的空气质量. LU等[4]采用Lasso回归、随机森林模型实现特征选择,并使用了通用多尺度空气质量(CMAQ)模型对空气污染物臭氧进行逐小时预测;针对于四川高原地区特性,应用了长短期记忆-循环神经网络(LSTM-RNN)模型进行空气污染物的预测. NAGRECHA等[5]提出了卷积神经网络-长短期记忆(CNN-LSTM)模型根据传感器获取到的数据,预测PM2.5浓度. 祁柏林等[6]提出了图卷积神经-长短期记忆(GCN-LSTM)模型,应用于沈阳市浑南区14个小微型监测站对空气质量数据的预测,得到了较好的结果,并用实验结果证明了使用图结构来对空间特征进行建模的有效性. TAN等[7]提出了一个基于图注意网络-长短期记忆(GAT-LSTM)和图注意网络-时间卷积网络(GAT-TCN)的混合模型,使用强化学习的方式实现对空气污染物PM2.5浓度的预测,效果超越了现有的25种基线模型. DUN等[8]结合空气污染物的时空特征,提出了一个基于灰色关联分析的动态图计算方法和多通道GAT[9]的动态图卷积-多通道时间卷积网络(DGC-MTCN)的预测模型,并应用在北京和抚顺两个真实数据集上,预测结果表现出更好的时间稳定性以及泛化能力.
本文作者将GAT和带注意力机制的时间卷积网络(ATCN)相结合,构建了GAT-ATCN模型,对空气污染物浓度在时空层次上的传播演变过程进行建模,并预测了未来一段时间的空气污染物浓度值.
1" 模型描述
1.1 空间图构建
将研究区域内分布的监测站点视为图的节点,根据监测站点之间的距离来判定两个节点之间是否存在连边关系. 具体来说,A_ij代表的是节点i和节点j之间的邻边关系,1代表两者之间相连,0代表不相连,则
A_ij={(1,""" d(i,j) ≤D ,@0,""" d(i,j) gt;D,)┤"" (1)
其中,d(i,j)代表节点i和j之间的欧式距离;D为判定两个节点之间是否存在连边关系的阈值,本研究设定为300 km. 节点的特征矩阵是监测站点所采集到的真实数据,根据空间邻边关系和时间顺序构建时空图序列
X_t={x_t^1" ,x_t^2" ,…,x_t^N} ," (2)
X={X_1" ,X_2" ,…,X_C} ,X_i∈R^(C×N×F) ,""" (3)
其中,N代表研究区域内监测站点数量;C代表输入的时间序列长度;F代表每个站点的特征数量;x_t^i代表t时刻下监测站点i的特征矩阵;X_t代表t时刻研究区域内所有站点的特征矩阵.
1.2 GAT
GAT利用自注意力机制来聚集图中关键节点的信息,节点i和节点j之间的注意力相关性计算如下:
e_ij=a_tt (Wx_i" ,Wx_j) ,"" (4)
其中,e_ij代表节点i对节点j的重要性;a_tt (⋅)是一个单层前馈神经网络;x_i代表节点i的特征向量;W为模型训练的参数. 节点i和节点j之间的注意力分数计算如下:
α_ij=s_oftmax (e_ij)=(exp(e_ij))/(∑_(k∈Q_i)▒〖exp(e_ik)〗) ," (5)
其中,Q_i代表所有与节点x_i存在连边关系的节点集合,在此基础上引入非线性激活函数LeakyRelu,最终的注意力分数计算如下:
α_ij=(L_eakyRelu [a_tt (Wx_i" ,Wx_j)])/(∑_(k∈Q_i)▒〖exp{L_eakyRelu [a_tt (Wx_i" ,Wx_j)]}〗) . (6)
本研究中,采用GAT的自注意力机制计算每个城市的空间关联度分数
x_i^'=σ(∑_(j∈Ν_i)▒〖α_ij Wx_i 〗) ."""" (7)
通过组合多个自注意力头,形成多头注意力机制,
x_i^'=‖_(k=1)^K σ(∑_(j∈N_i)▒α_ij^k" W^k x_j ) ,"""" (8)
其中,K为注意力头的个数.
链接部分计算如下:
x_i^concat=α(1/K ∑_(k=1)^K▒∑_(j∈Q_i)▒α_ij^k" Wx_j ) ." (9)
1.3 ATCN
TCN模型由一维全卷积网络构成,可以处理任意长度的输入序列,主要组成部分为因果卷积、膨胀卷积和残差连接.在因果卷积中,对于一个一维的输入x和卷积核f,第t个输出y_t只依赖于x_t或之前的输入值,
y_t=〖(x*f)〗_t=∑_(s=0)^k▒f_s ⋅x_(t-s) ," (10)
其中,*代表卷积操作;f是卷积核,大小为k+1;f_s是时间向前回溯s步的卷积核权重. 因此,输出y_t不会受任何未来输入(x_(t+1)" ,x_(t+2)" ,…)的影响.
在保持参数数量不变的情况下,TCN采用膨胀卷积(图1)增加感受野,膨胀卷积中的卷积核的元素之间会间隔一定数量的点,这个间隔也被定义为膨胀系数. 对于一个给定的膨胀系数d,不同于标准卷积操作,每个输入为原输入序列上跳过d-1个点的数据,
F(s)=(x*_d f)(s)=∑_(i=0)^(k-1)▒f(i)⋅x_(s-d⋅i) ," (11)
其中,F(s)代表在时间步的膨胀s卷积操作输出;x∈R^n是膨胀卷积操作的输入序列;*_d代表膨胀卷积操作;f:{0,1,…,k-1}是卷积滤波器;k是卷积滤波器的大;d是膨胀因子;x_(s-d⋅i)表示由当前时间步s、膨胀因子d和卷积滤波器中的位置i确定的输入位置.
TCN为了处理长时间序列中梯度消失和梯度爆炸的问题,引入了残差模块缓解长时间序列带来的性能退化问题,
o=A_ctivation (x+F(x)) ,""" (12)
其中,o是输出向量;F(x)表示残差模块中,膨胀卷积层对输入x的处理结果;A_ctivation (⋅)是激活函数. 跳跃连接确保了即使网络层次很深,信息也能有效地传播,不易丢失.
1.4 GAT-ATCN模型架构
图2为GAT-ATCN整体模型框架,模型输入层的数据是研究区域内所有站点监测到的历史数据. 根据时间序列和站点之间的距离关系构建时空图序列数据,将数据输入到空间特征提取层,使用GAT提取整个区域内的空间特征,经过展平操作之后形成空间特征向量,并按照时间进行排序,将空间特征序列向量输入到时间特征提取层,使用TCN进行时空特征提取,得到一个包含整个序列的时空特征序列,将其输入到注意力层,捕捉其中的关键信息,输入到输出层中,使用全连接网络计算出模型的预测输出值.
GAT-ATCN模型的伪代码如图3所示.
算法1:GAT-ATCN模型
输入:
X={X_1,X_2,…,X_C},X_i∈R^(C×N×F)" # N个监测站点的历史数据集,每个X_i表示i时刻下整个区域的特征向量
G=(V,E)" # 时空图,V是监测站点集合,E是基于距离的站点间连接
输出:
Y={y_1,y_2,…,y_T} # 预测的目标站点空气污染物浓度
过程:
1:初始化空间特征序列S = []
2:for t = 1 to T do
3:G_t = 构建子图(X_t,G)"" # 根据当前时间步t的数据构建子图
4:S_t=GAT(G_t)"" # 应用GAT获取t时刻的空间特征
5:end for
6:T_seq" = T_CN (S)"" # 将空间特征序列S通过TCN处理,得到时间特征序列Tseq
7:K = A_ttention (T_seq)""" # 应用注意力机制,提取关键时空特征K
8:Y = F_CN (K)""" # 将关键特征通过全连接层转换为预测值Y
9:returnY
2" 仿真实验
为了证明所提出方法的有效性,选取了江浙沪地区中7个城市的数据集,预测未来一段时间的空气污染物浓度值,并与5种基准模型(LSTM,TCN,CNN-LSTM,GCN-LSTM和GAT-LSTM)进行对比,验证模型的有效性.
2.1 数据集与预处理
在7个城市总共47个站点所获取的数据集上进行模型的有效性验证,城市以及站点数量分别为:上海,9个;杭州,11个;绍兴,3个;南通,5个;苏州,7个;无锡,8个;嘉兴,4个.
数据集按照训练集80%,测试集20%的比例进行划分,学习率初始设置为0.000 1,最大训练轮次为100轮.GAT模块的多头注意力头数为8,TCN模块设置为3层隐含层,其中的神经元个数分别为128,64和24.
2.2 评价指标
使用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R^2)作为评价指标. 模型取带L2正则化的均方误差(MSE)作为损失函数,训练过程中,MSE的值越小,说明模型的预测效果越好,
R_MSE=√(1/n ∑_(i=1)^n▒〖(y_i-y ̂_i )^2 〗)," (13)
M_AE=1/n ∑_(i=1)^n▒|y_i-y ̂_i | , (14)
其中,y_i是观测值;y ̂_i是预测值;n是观测点的数量.
R^2=1-(∑_(i=1)^n▒〖(y_i-y ̂_i )^2 〗)/(∑_(i=1)^n▒〖(y_i 〖-y ̅)〗^2 〗) ,""""" (15)
其中,y ̅是观测值的平均值;R^2是模型预测值的变异数占总变异量的比例.
带L2正则化的MSE计算如下:
L_oss=1/n ∑_(i=1)^n▒〖(y_i-y ̂_i )^2 〗+λ∑_(j=1)^p▒w_j^2" ,""" (16)
其中,λ是正则化参数,用于控制L2正则化项的影响程度;w_j是模型的第j个权重;p是权重的总数.
2.3 对比实验
取2018—2020年的站点检测数据作为模型的训练集,使用滑动窗口的方法获取样本序列数据,滑动窗口设置为24 h,预测窗口设置为6 h,用前一天24 h的数据来预测目标站点未来6 h的数据,实验结果如表1所示.
由表1可知,所提出的GAT-ATCN模型的R_MSE,M_AE及R^2都优于其他模型,说明了使用GAT和ATCN模型可以有效揭示空气污染物传播过程中,不同空气污染物与相关的气象数据的复杂关系,能更加有效地对区域内各个监测站点不同污染物数据的传播、扩散和演变过程进行建模. 从表1的数据可以得出:1) 相较于单纯只考虑时间建模的LSTM和TCN模型,综合考虑时间和空间关系建模的CNN-LSTM,GCN-LSTM,GAT-LSTM和GAT-ATCN模型,预测效果更佳. 2) 对于将空间结构构建成图结构数据的GCN和GAT模型比直接采用矩阵编排方式的CNN模型预测效果更好. 3) 在时间特征提取维度上,仅对短期时间序列建模和预测结果可以看出,TCN模型比LSTM模型更有优势,并且由于其自身地网络结构特点,TCN模型计算迭代速度更快,而且可以更好地利用图形处理器(GPU)的并行特性.
3" 结论
本文作者提出了GAT-ATCN空气污染物浓度预测模型, 通过使用GAT对空间特征进行特征提取,使用ATCN对GAT输出的空间特征进行时间特征提取,将获取到的时空特征进行联合训练,最终获得空气污染物传播、扩散的复杂关系,为对大气污染物传播、扩散方式的研究提供了一种新的视角. 本方法还存在一些不足的地方,例如由于空气污染物并没有固定的传播路径,在后续工作中可引入更多的影响因子,例如交通流量、地形地貌等数据,考虑多模态融合的方式是未来可以改进的方向.
参考文献:
[1]""" AL-JANABI S, MOHAMMAD M, AL-SULTAN A. A new method for prediction of air pollution based on intelligent computation [J]. Soft Computing, 2020,24(1):661-680.
[2]""" ZHU D X, CAI C J, YANG T B, et al. A machine learning approach for air quality prediction: model regularization and optimization [J]. Big Data and Cognitive Computing, 2018,2(1):5.
[3]""" GOURAVJ K R, REKHI J K, NAGRATH P, et al. Forecasting air quality of Delhi using ARIMA model [C] // Advances in Data Sciences, Security and Applications. Singapore:Springer, 2020:315-325.
[4]""" LU H, XIE M, LIU X, et al. Adjusting prediction of ozone concentration based on CMAQ model and machine learning methods in Sichuan-Chongqing region, China [J]. Atmospheric Pollution Research, 2021,12(6):101066.
[5]""" 祁柏林, 郭昆鹏, 杨彬, 等. 基于GCN-LSTM的空气质量预测 [J]. 计算机系统应用, 2021,30(3):208-213.
QI B L, GUO K P, YANG S, et al.Air quality prediction based on GCN-LSTM [J]. Computer Systems and Applications, 2021,30(3):208-213.
[6]""" NAGRECHA K, MUTHUKUMAR P, COCOM E,et al. Sensor-based air pollution prediction using deep CNN-LSTM [C]// International Conference on Computational Science and Computational Intelligence. Las Vegas: IEEE, 2020: 694-696.
[7]""" TAN J, LIU H, LI Y, et al. A new ensemble spatio-temporal PM2.5 prediction method based on graph attention recursive networks and reinforcement learning [J]. Chaos, Solitons amp; Fractals, 2022,162:112405.
[8]""" DUN A, YANG Y, LEI F. Dynamic graph convolution neural network based on spatial-temporal correlation for air quality prediction [J]. Ecological Informatics, 2022,70:101736.
[9]""" VELIČKOVIĆ P, CUCURULL G, CASANOVA A, et al. Graph attention networks [J/OL]. arXiv: 1710.10903, 2017[2023-10-01]. https://arxiv.org/abs/1710.10903.
(责任编辑:包震宇,郁慧)