基于图注意力网络与双阶注意力机制的径流预报模型

2022-06-21 07:16胡鹤轩隋华超胡强张晔胡震云马能武

计算机应用 2022年5期

胡鹤轩，隋华超，胡强*，张晔，胡震云，马能武

（1.河海大学计算机与信息学院，南京 211100； 2.水利部水利大数据重点实验室（河海大学），南京 211100；3.西藏农牧学院电气工程学院，西藏林芝 8 60000； 4.河海大学商学院，南京 211100；5.长江勘测规划设计研究有限责任公司，武汉 430010； 6.长江空间信息技术工程有限公司，武汉 430010；7.湖北省水利信息感知与大数据工程技术研究中心，武汉 430010）（∗通信作者电子邮箱huqianghhu@163.com）

胡鹤轩1，2，3，隋华超1，2，胡强1，2*，张晔1，2，胡震云4，马能武5，6，7

为了提高流域径流量预报的准确率，考虑数据驱动水文模型缺乏模型透明度与物理可解释性的问题，提出了一种使用图注意力网络与基于长短期记忆网络（LSTM）的双阶注意力机制（GAT-DALSTM）模型来进行径流预报。首先，以流域站点的水文资料为基础，引入图神经网络提取流域站点的拓扑结构并生成特征向量；其次，针对水文时间序列数据的特点，建立了基于双阶注意力机制的径流预报模型对流域径流量进行预测，并通过基于注意力系数热点图的模型评估方法验证所提模型的可靠性与透明度。在屯溪流域数据集上，将所提模型与图卷积神经网络（GCN）和长短期记忆网络（LSTM）在各个预测步长下进行比较，实验结果表明，所提模型的纳什效率系数分别平均提高了3.7%和4.9%，验证了GAT-DALSTM径流预报模型的准确性。从水文与应用角度对注意力系数热点图进行分析，验证了模型的可靠性与实用性。所提模型能为提高流域径流量的预测精度与模型透明度提供技术支撑。

图神经网络；注意力机制；编码器-解码器；长短期记忆网络；时间序列预测；水文预报

0 引言

准确可靠地预测流域径流量对于洪水风险评估和防洪安全决策起着至关重要的作用［1］。在水文预报领域，学者们一直都在尝试对结构与参数进行耦合从而在流域内进行降雨-径流建模，其模型参数是通过长期实践和对水文规律认识基础上建立起来的，具有明确的物理意义，即传统意义上的过程驱动模型。随着研究的深入，过程驱动水文预报模型也从集中式模型向分布式模型发展，空间复杂度和时空复杂度提高，这对基础数据的精度和采集频率提出了更高的要求。但水文模型复杂度的提高并不意味着精度的提高，同时还会受到异参同效的影响，使预报结果增加了不确定性［2］。

随着水利信息化的进一步发展，流域水文资料与气象资料得到了极大的丰富与补充。与此同时，随着神经网络模型的不断优化，数据驱动模型在降雨-径流建模过程中的应用愈加广泛。数据驱动模型方法是从时间序列自身的角度挖掘其变化的规律并进行预测，具有较好的数理统计基础。目前在数据驱动径流预报模型中使用最多的是神经网络［3］，人工神经网络（Artificial Neural Network， ANN）是模拟人脑中大量神经元密集连接，最终由多个神经信息传递得到一个准确输出的工作方式，其中隐含神经元之间的相互作用就是挖掘数据的过程［4-5］。但是，水文预报是一个时间序列预测，应用于时间序列分析的人工神经网络最主要缺点就是丢失了有关输入顺序的相关信息。而递归神经网络（Recursive Neural Network， RNN）［6］则是一种以序列数据为输入进行建模的深度学习模型，很好地弥补了人工神经网络的不足。Carriere等［7］和Hsu等［8］先后使用循环神经网络模拟降雨-径流关系，后者将循环神经网络与传统人工神经网络进行了比较。Nagesh Kumar等［9］也将RNN用于月径流预测，发现循环神经网络在预报精度上比传统的人工神经网络更为出色。但是因为RNN中的时间维度共享了参数矩阵，导致计算隐态时会循环计算矩阵乘法，所以当使用反向误差传播算法求解梯度时出现了参数矩阵的累乘［10］，使得RNN很难保持较长时间的记忆，即可利用的历史数据是有限的。

长短期记忆网络（Long Short-Term Memory network， LSTM）［11］是由RNN扩展而来，在设计之初就用于解决RNN长期依赖的问题。Kratzert等［12］将LSTM应用于降雨-径流模拟，其优点是它能够学习网络提供的输入和输出之间的长期依赖关系，这对于水文预报建模是必不可少的。Zhang等［13］根据雨量计和水位传感器的公开数据，比较了不同神经网络在德拉门模拟和预测地下水位的预报性能，并通过实验验证了LSTM比没有记忆门的传统神经网络结构更适合于多步预测。朱跃龙等［14］使用了图卷积神经网络（Graph Convolutional Network， GCN）对流域的拓扑结构进行空间挖掘，结合门控循环单元实现了流量过程智能模拟，取得了较好的实验效果。

模型的可解释性与结果的准确性是决定水文预报模型是否能投入实际应用的两个重要因素，但数据驱动的模型仅从历史数据中挖掘径流量演变趋势，模型内部结构不可见，相关模型参数不具有物理可解释性［15］，这使得防洪策略的选择具有很强的不可控因素。在某些情况下，必须选择较为复杂的黑箱模型，如循环神经网络，而不是预报精度较低但更具可解释性的传统模型，如新安江模型。这种权衡给水文预报带来了挑战，因为准确性和可解释性都很重要。随着深度学习的不断发展，学术界对于模型的可解释性进行了广泛的研究与探讨。正如Chakraborty等［16］所述，模型可解释性的概念并不是一个整体的概念，而是反映了几个不同的维度，具体如下：

1）模型透明度。即模型在执行过程中内部的运转方式。这部分主要包括：①可模拟性，指是否可以使用输入数据和模型来重现进行预测所需的每一个计算步骤。②可分解性，指是否对所有模型参数都有直观的解释；③算法的透明度，指这本质上是解释学习算法工作的能力。

2）事后可解释性。即在无法准确阐述模型内部的工作机制的情况下，通过对模型相关参数可视化来较为直观地展现输入数据与模型结果的关系［17］，或通过局部解释计算特定输入向量对输出结果的影响，使人类加深对黑盒模型的理解［18］。

在深度学习可视化方面，Samek等［19］提出了一种基于区域扰动的方法来对输入数据进行评估，并可视化为热图，解释了深度神经网络得出特定分类的决策依据。

神经网络模型是基于多个神经元组成，一个性能良好的深度学习网络往往包含成百上千个参数，所以神经网络模型的透明度较低，可解释性也较差。因此，神经网络模型的自解释性只能通过引入额外的解释性模块来实现，一种有效的方法是引入注意力机制。Choi等［20］提出通过复杂的注意力机制生成过程来提高医疗诊断的预测精度，同时保持表示学习部分的简单解释，使整个算法有较好的准确和可解释性。王天罡等［21］提出建立基于可解释的层次注意力网络，用于提前预警患者抢救过程中可能并发的危急重症。在水文预报方面，Ding等［22］在长短期记忆网络的基础上，通过时空注意力机制使长短期记忆网络能识别出相关的时空信息，提高长短期记忆网络的水文预报性能。

基于上述研究进行优化，本文提出了一种基于双阶注意力机制和图神经网络的径流预报模型应用于中长期水文预报，主要的工作如下：

1）将图注意力网络（Graph Attention neTwork， GAT）［23］与双阶注意力机制进行结合，通过流域站点的拓扑关系，构建由上游站点指向下游站点的有向图。通过图注意力机制对同阶上的不同节点进行赋权，充分反映出上游节点对预测节点的贡献度，挖掘了流域的空间关系。

2）将所提模型与ANN、CatBoost（Categorical features and gradient Boosting）、GCN和LSTM等模型进行预报性能比较，以多个评价指标为基础分析各个预报模型之间的预报性能差异。

3）提出了一种热点图分析方法，使用一种数值扰动的方式保证注意力系数热点图能充分反映模型特征，提高模型的透明度和可解释性；并从水文角度分析热点图的可行性，即热点图是否符合人类在径流预报领域的经验推断。

1 相关工作

1.1 注意力机制

近年来，注意力机制的应用极大地促进了图像分类、机器翻译、多媒体推荐等领域的发展，在原有的深度学习基础上进一步提升了模型的效果。注意力机制帮助神经网络识别输入数据与输出结果之间的关系，帮助神经网络拥有信息捕捉的能力，该机制首次被提出是为了提高神经机器翻译中序列到序列模型的性能。注意力机制不仅能获取输入数据和输出结果之间的相关性，还提高了预测结果的准确性，同时具有良好的模型可解释性。

1.2 图注意力网络

图注意力网络（GAT）［23］引入了基于图卷积神经网络的注意力机制，通过聚合为节点和邻接节点的特征计算权重，同时遵循一种自我聚合的策略。图注意力网络可以更好地提取节点的空间特征关系，在有向图的应用中优于图卷积神经网络［24］。GAT的输入是每个节点的特征向量，模型输出的是经过注意力机制计算后新的特征向量。

GAT是通过各个节点的注意力机制计算出一个新的特征向量集合：

注意力系数计算式如下：

根据节点的空间关系特点，引入masked attention机制，通过计算节点的邻居节点的注意力系数将注意力机制引入到有向图中。如图1所示，如果计算节点的注意力权重，只需计算其邻近节点即和的相关度和即可，并使用softmax对所有相邻接点计算出的注意力系数进行归一化处理，从而更好地分配注意力系数，使其便于计算与比较。综上所述，的计算式为：

为了使模型更具有健壮性，本文采用了多头注意力机制计算K组注意力系数，并使用取平均操作来对多个注意力头进行整合，计算式如下：

式中：K代表注意力头的数量；代表第k组的注意力系数；代表第k组的特征变化权重矩阵。

多头注意力机制独立计算了K组注意力系数，通过取均值的方式综合评价了模型的多次训练效果，从而获得了更为全面的信息，并丰富了模型的特征提取能力。

图1 图注意力网络计算示意图Fig. 1 Schematic diagram of graphic attention network calculation

1.3 长短期记忆网络

长短期记忆网络［11］是递归神经网络的改进版本，旨在解决循环神经网络可用历史数据有限的问题。

LSTM每个神经元的内部结构由记忆储存和3个门控组成，其中记忆储存负责记忆神经元状态，输入门和输出门用来接收、修正和输出状态参数，遗忘门负责控制上一个单元层状态的被遗忘程度，具体内部结构如图2所示。

图2 长短期记忆网络内部结构Fig. 2 Internal structure of LSTM

2 本文径流预报模型

流域的降雨量、蒸发量和总产流量等输入数据实际上都是特征范畴相互独立的时间序列数据，但都与流域的径流量在同一时刻具有非线性关系，与此同时，在某一时间步长内的输入时间序列数据对流域站点径流量的预测也起到了一定的作用。本文提出了使用图注意力网络和基于长短期记忆网络的双阶注意力（Graph Attention neTwork and Dual-stage Attention mechanism-based Long Short-Term Memory network， GAT-DALSTM）模型分别对流域的时空关系进行提取，结合长短期记忆网络对流域的径流量进行预测，具体流程如图3所示。

图3 GAT-DALSTM模型流程Fig. 3 Flow chart of GAT-DALSTM model

2.1 流域拓扑关系提取

从图论的角度看，同一流域的水文站点在空间上具有依赖性，即上游的降雨事件往往会对下游的径流量产生一定的影响，因此同一流域的水文站点在空间分布上具有天然的图结构关系。将水文站点与水系结构抽象为由顶点和边构成的图，其结构关系定义如下：

式中：G表示水文站空间分布上的拓扑结构关系；V表示各个水文站；E表示站点与站点之间的一组边。

受洪水坦化作用的影响［25］，不仅要考虑站点本身的水文数据信息，更要考虑站点之间的地理距离。如果两个具有上下游关系的水文站点的地理距离过大，则上游降雨事件对下游径流量的影响相对较小，且在大多数情况下，下游的降水事件对上游的影响微乎其微，该特征符合有向图的定义。因此，本节使用邻接上游站点的水文时间序列数据作为节点特征，构建有向图网络，图的邻接矩阵A用来描述邻近水文站点的上下游关系，其中。如果站点位于站点的上游，则、，构建邻接矩阵A如下：

图注意力网络节点输入数据如下：

当上游突发极端降雨事件、水库拦洪蓄水或开闸放水，往往会对下游河流的径流量产生较大的影响。式（3）中的注意力机制需要训练的权重矩阵W与式（4）的相关度函数a只与节点输入特征有关，改变节点输入特征即可在空间上实现自我调节水文站点之间的注意力系数。

2.2 水文时间序列数据生成

已有的数据驱动水文预报模型仅仅将降雨量、蒸发量和流量作为模型的输入数据进行降雨-径流建模，没有将流域的地理高程、土壤和植被信息考虑在内，故该类数据模型不能很好地反映一个流域的特征。本文在原有特征值的基础上，使用数字高程数据、土地覆盖数据和土壤属性数据对下垫面地形、植被和土壤特征定性估算栅格尺度张力水蓄水容量，并计算每个栅格的产流量，然后将所有栅格的产流量累积到流域出口段，从而计算出流域的透水产流和非透水产流，该类值能在一定程度上反映流域的下垫面特征［26-28］。

2.3 编码器

注意力机制的主要目的是从对当前目标更关键的信息中选择。受Qin等［29］在时间序列预测中的相关工作启发，当长序列数据输入到编码器-解码器模型中时，前面的信息将被后面所覆盖。编码器实际上是一个递归神经网络，它将输入的特征序列数据编码为特征表示。对于时间序列预测，给定输入特征序列，编码器可以应用于学习从输入序列到递归神经网络的隐藏状态之间的映射，如式（16）所示：

通过引入注意力机制可以提取序列数据中的重要信息，以更好地预测目标值，如图4所示。引入LSTM单元对时刻隐藏层状态和单元层状态提取参数权重，是训练后得到的注意力系数，用来表示输入时间序列的特征值和对目标序列的影响程度，同时使用softmax函数用来确保注意力系数的和为1。注意力系数计算式如下：

t时刻的隐藏状态可以更新为：

2.4 解码器

时间注意力机制可以自适应地调整编码器中神经网络的隐藏层状态，如图5所示。通过LSTM单元前一时刻的隐藏层状态和单元层状态来计算每个时间步的注意力系数，即不同时刻对目标序列的贡献权重。

图4 输入注意力机制Fig. 4 Input attention mechanism

图5 时间注意力机制Fig. 5 Time attention mechanism

在解码器解码后，将解码器的当前时刻隐藏层状态与由外部因素组成的离散特征拼接起来，解码后将解码器的当前隐藏层状态与时间注意力模块t时刻的输出特征进行拼接，输入到一个全连接神经网络，最终得到目标预测值。

3 对比模型与评价指标

3.1 对比模型

3.1.1 人工神经网络

本文采用多层感知机（Multi-Layer Perceptron， MLP）作为对比模型中人工神经网络的具体算法。多层感知机是一种易于构建的神经网络模型，其相邻层中的神经元节点相互连接，而同一层中的神经元节点不完全连接。输入数据由输入层通过一个或多个全连接层输入，全连接层中的每个神经元都可以拟合原始数据，最后通过输出层输出数据。多层感知机采用梯度下降算法迭代优化损失函数，并通过反向传播算法更新模型参数，具有较好的预报性能，是一种常见的数据驱动水文预报模型。

3.1.2 CatBoost算法

决策树是具有较强可解释性和模型透明度的典型机器学习模型。CatBoost算法由梯度提升（Gradient Boosting， GB）算法和类别型特征（Categorical Features，GF）两部分组成，具有能更好地处理范畴特征的能力，同时组合范畴特征对特征维度进行了提升。CatBoost通过添加先验分布项的策略使噪声和频率较低的数据不过度影响数据分布，并同时使用整个数据集进行训练，该种策略最大限度上避免了算法过度拟合，如式（25）所示：

CatBoost引入了先验项和权重系数，其目的在于减少从低频范畴特征中获取的噪声。CatBoost将目标树作为元学习机，并将目标树中每个叶节点的索引编码对应为一个长度等于树深度的二进制矢量。在目标树的整个层次上采用相同的分割准则，使目标树达到平衡，不易过拟合，其权限系数能较好地反映输入数据对于决策选择的影响。

3.1.3 图卷积神经网络

卷积神经网络在图像识别、自然语言处理等领域应用十分广泛，取得了较大的成功。但传统的卷积神经网络只限于处理欧氏空间的数据，生活中广泛存在的图数据并不能应用于该类模型。基于此，图卷积神经网络通过提取图结构的拓扑关系生成拉普拉斯矩阵，使用层次线性模型约束和切比雪夫多项式计算谱卷积解，实现了卷积神经网络在图数据上的应用。图卷积神经网络主要由输入层、图卷积层和输出层组成，该模型能较好地提取流域的拓扑结构。

3.2 评价指标

由于没有一种评价指标能够完全体现出一个水文模型的一致性、可靠性、准确性和精确性，因此有必要使用多种性能指标对模型进行基准测试。在本文实验中采用了纳什效率系数（Nash-Sutcliffe Efficiency coefficient， NSE）、均方根误差（Root Mean Squared Error， RMSE）和平均绝对误差（Mean Absolute Error， MAE）作为评价指标。

NSE评估预报结果的误差，常用于验证水文模型模拟结果的优劣：

MAE是所有个别观测值与算术平均值之和的绝对值的平均值，主要评价平均预报误差对模型的影响，其计算式如下：

RMSE评估回归结果的准确性，能较好地衡量出预测值与观测值之间的偏差，其与MAE的区别在于，RMSE先对偏差进行平方计算，使其误差的离散度更高，更能凸显局部预报误差对评价指标的影响，其计算式如下：

4 实验与结果分析

本文研究采用了屯溪流域12个雨量站的降雨蒸发资料和1个流量站的每小时平均径流量资料，如图6所示。屯溪流域数据集共包含49 532个样本，共收录1981—2001年汛期的相关资料，数据长度为1981—2001年。本文选用1981—1996年的汛期资料作为模型训练集，利用1997—2001年的汛期资料对模型进行验证，时间步长为1 h，具体数据结构如表1所示。在传统的河流流量过程模拟中，流域的径流量、降雨量、蒸发量等因素对河流径流量的影响较为显著。

经多次实验验证后可得，本文实验采用的最佳超参数组合为：长短期记忆网络采用Adam算法对神经网络的超参数进行寻优，设置学习率为0.05，batch_size为200，dropout为0.2，迭代次数为300。模型结构采用双层长短期记忆网络和一层全连接网络，激活函数为sigmoid函数，其损失函数为均方根误差。图注意力网络设置层数为2，学习率为0.005，批大小为32，多头注意力头数为8。

图6 屯溪流域站点分布Fig. 6 Distribution of Tunxi watershed stations

表1 实验数据的数据结构Tab. 1 Data structure of experimental data

4.1 模型评价指标比较

在逐小时滚动未来7 h的径流预报实验中，分别计算五种模型预见期为1 h～7 h的评价指标。该实验能从统计指标的角度上展现流域下垫面特征提取模块对于模型预报精度与准确度的提升。

本文采用多评价指标交叉验证的方式进行实验分析，将测试集所得到的预测值作为模型评价的标准，模型预报性能的评价指标结果如表2所示。在预测步长为时，GAT-DALSTM模型相较其他基准深度学习模型在NSE上差距较小，但从RMSE和MAE指标上可以看出，GAT-DALSTM的局部误差和平均误差均远远小于其他基准深度学习模型，表明模型的拟合效果较好，其变化趋势与实际流量值更为贴近。随着预测步长的增加，指标下降较为明显，表明随着预测步长的增加，模型的鲁棒性和泛化性会逐步变差，但这是符合预期结果的。相较于其他基准模型，GAT-DALSTM在到时间段的准确性差别不大，但随着预测步长的增加，GAT-DALSTM模型的准确性下降速度明显放缓，表明GAT-DALSTM模型在多步预报中预报精度优势更为明显，其原因在于GAT-DALSTM模型中的图注意力网络和双阶注意力模型能够提取流域的拓扑关系与时空信息，指导深度神经网络更好地学习降雨-径流过程。但因为其训练过程较为复杂，GAT-DALSTM模型的训练时间较长，相较基准模型的耗时增加了20%～80%不等。

表2 模型预报性能统计指标汇总Tab. 2 Summary of statistical indicators of model forecast performance

4.2 注意力系数可视化

注意力系数热点图如图7所示，将热力图定义为二维矩阵中预定义的网格，将输入时刻作为横坐标，将输入数据的注意力系数作为纵坐标，每个特定位置的注意力系数是范围在0～1的常数，由式（18）计算所得，其详细计算过程见2.2节和2.3节。为了更好地体现外界因素对流域径流量的影响，本节的注意力系数热点图选取了到时刻的降雨量、蒸发量、透水径流、非透水径流和上游站点拓扑关系特征等相关信息得到。

由图7可知，在任意时间步中流域降雨量的权重占比较高，这是符合预期结果的，因为降雨-径流过程的模拟就是基于前一时刻的降雨量进行产流和蒸散发计算，时间步长内任意时刻的实际降雨量值都会对预测径流量值产生巨大影响；其次，透水产流总量和不透水产流总量所占权重较高，且在各个时段权重均较大，这是符合预期效果的，因为透水产流和非透水产流在经过汇流过程之后才会对径流量产生影响，所以会有一定的时差。

图7 注意力系数可视化Fig. 7 Visualization of attention coefficient

图注意力网络生成的拓扑关系特征向量在一定程度上反映了上游来水对预测值的影响。图7中，图结构拓扑特征至分别代表屯溪流域的上游邻阶站点，即休宁、石门和五城气象站。其中，五城站点对屯溪站点的影响程度相对较小，观察图6屯溪站点与五城站点的距离可以推断其地理距离相差较远。从水文角度分析，地理距离相差越大，洪水的坦化作用就越明显，故五城站点的降雨量对预测径流量的影响相对较小，而休宁和石门站点均能较好地反映出上游节点对预测节点的贡献度。

图中蒸发量占比相对较小，但仍然在特定时刻发挥着理论指导作用：在非降雨时段，降雨量、透水产流总量和不透水产流总量均为0，其对应的注意力系数对神经网络的指导作用暂时失去效果，但蒸发量仍然会通过注意力系数对预测值产生影响，保证模型在旱期与汛期均有较好的预报精度。

在本节主要验证了图神经网络和注意力机制在功能上的作用：GAT-DALSTM模型主要依靠注意力机制提供时间和空间两个维度上对输出数据的权重关系，通过热点图进行可视化。当上游发生降雨事件导致上游来水出现异常情况时，能通过图神经网络的特征提取机制与注意力机制相融合共同反馈到径流预报值上，将流域空间关系融入到径流量预报之中。流域中透水径流、非透水径流、降雨量、流量和蒸发量是属于该流域特有的时间序列数据，通过注意力机制区分降雨时段与非降雨时段输入数据对径流预测量的影响，两者均提高了模型的预报精度与健壮性，并通过热点图从水文角度分析其模型可靠性。

4.3 基于注意力系数热力图的模型评价

本文所提模型可解释性评估方法是基于注意力系数矩阵的数值扰动方法，其基本思想是在原注意力系数矩阵的基础上，将高斯噪声以越来越大的方差加入到注意力系数矩阵中，评估每个噪声水平下模型性能的变化。标准差为0的选择让模型在不改变注意力系数总和的情况下，合理地评估每一个注意力系数对模型输出的影响。具体来说，添加的噪声来自于5个不同方差的正态分布：。

模型评价结果如图8所示。虽然模型的性能随着注意力系数矩阵中噪声的增加而退化，但是这种退化并不是突然变化的，而是随着噪声水平的增加而平滑发生，表明注意力系数能有效计算特定输入向量对输出结果的影响，并对神经网络的训练起到了指导作用，在提高模型预报精度的基础之上，使人类加深了对黑盒模型的理解，并有了判断模型可靠与否的依据，提高了模型的透明度与可解释性。

图8 高斯噪声扰动下的纳什效率系数变化趋势Fig. 8 Change trend of Nash-Sutcliffe efficiency coefficient under Gaussian noise disturbance

5 结语

本文在分析屯溪流域径流量随时间和空间变化趋势的基础上，利用图神经网络提取流域站点拓扑结构，并结合双阶注意力机制指导长短期记忆网络更好地学习输入水文时间序列数据与预测值之间的非线性关系。通过多个模型的预测结果与误差分析比较发现，本文所提出的基于图神经网络和双阶注意力机制的径流预报模型在多个评价指标下均保持了较好的预报精度，且随着预报步长的增长，其精度衰减相较纯数据驱动模型明显变缓。

此外，通过可视化注意力系数形成热点图，实现从时空角度分析注意力机制对模型训练的指导作用，并从水文角度分析热点图的可行性，即热点图是否符合人类在径流预报领域的经验推断。最后，使用一种数值扰动的方式，通过向注意力系数中添加高斯噪声保证注意力系数热点图能充分反映模型特征，实验结果表明模型的预测值受到了较为明显的影响，验证了模型的有效性与可靠性，有助于提高模型的透明度与可解释性。

在后续的研究中，需要考虑流域本身的下垫面特征，将更多相关领域的物理知识与工程理论加入到深度学习之中，增加了“黑盒子”模型的透明度与物理可解释性。

[1] 芮孝芳.论流域水文模型［J］.水利水电科技进展，2017，37（4）：1-7，58.（RUI X F. Discussion of watershed hydrological model ［J］. Advances in Science and Technology of Water Resources，2017， 37（4）： 1-7， 58.）

[2] 黎云云，畅建霞，金文婷，等.基于SWAT模型的渭河流域分区径流模拟研究［J］.西北农林科技大学学报（自然科学版），2017，45（4）：204-212.（LI Y Y， CHANG J X，JIN W T， et al. Runoff simulation in subzones of the Wei River Basin based on the SWAT model ［J］. Journal of Northwest A amp; F University （Natural Science Edition）， 2017， 45（4）： 204-212.）

[3] ZOUNEMAT-KERMANI M， MATTA E， COMINOLA A， et al. Neurocomputing in surface water hydrology and hydraulics： a review of two decades retrospective，current status and future prospects ［J］. Journal of Hydrology， 2020， 588： Article No.125085.

[4] DAWSON C W， ABRAHART R J， SHAMSELDIN A Y， et al. Flood estimation at ungauged sites using artificial neural networks ［J］. Journal of Hydrology， 2006， 319（1/2/3/4）：391-409.

[5] HALFF A H， HALFF H M， AZMOODEH M. Predicting runoff from rainfall using neural networks ［C］// Proceedings of the 1993 Symposium： Engineering Hydrology. New York： American Society of Civil Engineers， 1993： 760-765.

[6] RUMELHART D E， HINTON G E， WILLIAMS R J. Learning internal representations by error propagation ［M］// COLLINS A， SMITH E E. Readings in Cognitive Science： A Perspective from Psychology and Artificial Intelligence. San Francisco： Morgan Kaufmann， 1988： 399-421.

[7] CARRIERE P， MOHAGHEGH S， GASKARI R. Performance of a virtual runoff hydrograph system ［J］. Journal of Water Resources Planning and Management， 1996， 122（6）： 421-427.

[8] HSU K L， GUPTA H V， SOROOSHIAN S. Application of a recurrent neural network to rainfall-runoff modeling ［C］// Proceedings of the 1997 24th Annual Water Resources Planning and Management Conference. New York： American Society of Civil Engineers， 1997： 68-73.

[9] NAGESH KUMAR D， SRINIVASA RAJU K， SATHISH T. River flow forecasting using recurrent neural networks ［J］. Water Resources Management， 2004， 18（2）： 143-161.

[10] BENGIO Y， SIMARD P， FRASCONI P. Learning long-term dependencies with gradient descent is difficult ［J］. IEEE Transactions on Neural Networks， 1994， 5（2）： 157-166.

[11] HOCHREITER S， SCHMIDHUBER J. Long short-term memory［J］. Neural Computation， 1997， 9（8）： 1735-1780.

[12] KRATZERT F， KLOTZ D， BRENNER C， et al. Rainfall-runoff modelling using Long Short-Term Memory （LSTM） networks ［J］. Hydrology and Earth System Sciences， 2018， 22（11）： 6005-6022.

[13] ZHANG D， LINDHOLM G， RATNAWEER H. Use long short-term memory to enhance Internet of Things for combined sewer overflow monitoring ［J］. Journal of Hydrology， 2018， 556： 409-418.

[14] 朱跃龙，赵群，余宇峰，等.基于时空特征挖掘的流量过程智能模拟方法［J］.河海大学学报（自然科学版），2021，49（1）：7-12.（ZHU Y L， ZHAO Q， YU Y F， et al. Intelligent simulation method of runoff process based on spatiotemporal feature mining［J］. Journal of Hohai University （Natural Sciences）， 2021， 49（1）： 7-12.）

[15] YIN Z K， LIAO W H， LEI X H， et al. Comparing the hydrological responses of conceptual and process-based models with varying rain gauge density and distribution ［J］. Sustainability， 2018， 10（9）： Article No.3209.

[16] CHAKRABORTY S， TOMSETT R， RAGHAVENDRA R， et al. Interpretability of deep learning models： a survey of results ［C］// Proceedings of the 2017 IEEE SmartWorld， Ubiquitous Intelligence amp; Computing，Advanced amp; Trusted Computed， Scalable Computing amp; Communications， Cloud amp; Big Data Computing， Internet of People and Smart City Innovation. Piscataway： IEEE： 2017： 1-6.

[17] LAURENS M van der， HINTON G. Visualizing data using t-SNE ［J］. Journal of Machine Learning Research， 2008， 9： 2579-2605.

[18] RIBEIRO M T， SINGH S， GUESTRIN C. “Why should I trust you？”： explaining the predictions of any classifier ［C］// Proceedings of the 2016 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . New York： ACM， 2016：1135-1144.

[19] SAMEK W， BINDER A， MONTAVON G， et al. Evaluating the visualization of what a deep neural network has learned ［J］. IEEE Transactions on Neural Networks and Learning Systems， 2016， 28（11）： 2660-2673.

[20] CHOI E， BAHADORI M T， KULAS J A， et al. RETAIN： interpretable predictive model in healthcare using reverse time attention mechanism ［C］// Proceedings of the 2016 30th International Conference on Neural Information Processing Systems. Red Hook： Curran Associates Inc.， 2016： 3512-3520.

[21] 王天罡，张晓滨，马红叶，等.可解释的层次注意力机制网络危重症预警［J］.计算机工程与应用，2021，57（5）：131-138.（WANG T G， ZHANG X B，MA H Y， et al. Early warning of critical illness based on explicable hierarchical attention mechanism ［J］. Computer Engineering and Applications，2021， 57（5）： 131-138.）

[22] DING Y K， ZHU Y L， FENG J， et al. Interpretable spatio-temporal attention LSTM model for flood forecasting ［J］. Neurocomputing，2020， 403： 348-359.

[23] VELIČKOVIĆ P， CUCURULL G，CASANOVA A， et al. Graph attention networks ［EB/OL］. ［2021-03-09］. https：//arxiv.org/pdf/1710.10903.pdf.

[24] ZHU L P， WAN B H， LI C Y， et al. Dyadic relational graph convolutional networks for skeleton-based human interaction recognition ［J］. Pattern Recognition， 2021， 115： Article No.107920.

[25] 夏军，谢平.论概念性元素的推移和坦化作用［J］.水利学报，1995（10）：65-68.（XIA J， XIE P. On the transposition and attenuation of conceptual elements ［J］. Journal of Hydraulic Engineering， 1995（10）： 65-68.）

[26] YAO C， LI Z J， YU Z B， et al. A priori parameter estimates for a distributed， grid-based Xinanjiang model using geographically based information ［J］. Journal of Hydrology， 2012， 468/487/488/469： 47-62.

[27] 王斌，黄金柏，宫兴龙.基于HWSD的流域栅格土壤水分常数估算［J］.水文，2015，35（2）：8-11.（WANG B， HUANG J B， GONG X L. Grid soil moisture constants estimation based on HWSD over basin ［J］. Journal of China Hydrology， 2015， 35（2）： 8-11.）

[28] 杨哲，张行南，夏达忠，等.基于包气带厚度的流域蓄水容量计算及水文模拟［J］.水力发电学报，2015，34（3）：8-13.（YANG Z， ZHANG X N，XIA D Z， et al. Calculation of maximum thickness of unsaturated zone and modeling of hydrological process in Xingxing watershed ［J］. Journal of Hydroelectric Engineering， 2015， 34（3）： 8-13.）

[29] QIN Y， SONG D J， CHEN H F， et al. A dual-stage attention-based recurrent neural network for time series prediction ［C］// Proceedings of the 2017 26th International Joint Conference on Artificial Intelligence. California： IJCAI Organization， 2017： 2627-2633.

Runoff forecast model based on graph attention network and dual-stage attention mechanism

HU Hexuan1，2，3， SUI Huachao1，2， HU Qiang1，2*， ZHANG Ye1，2， HU Zhenyun4， MA Nengwu5，6，7

（1.College of Computer and Information，Hohai University，Nanjing Jiangsu211100，China；2.Key Laboratory of Water Big Data Technology of Ministry of Water Resources（Hohai University），Nanjing Jiangsu211100，China；3.College of Electrical Engineering，Tibet Agriculture and Animal Husbandry University，Linzhi Xizang860000，China；4.Business School，Hohai University，Nanjing Jiangsu211100，China；5.Yangtze River Survey Planning and Design Research Company Limited，Wuhan Hubei430010，China；6.Changjiang Space Information Technology Engineering Company Limited，Wuhan Hubei430010，China；7.Hubei Research Center of Water Conservancy Information Perception and Large Data Engineering Technology，Wuhan Hubei430010，China）

To improve the accuracy of watershed runoff volume prediction， and considering the lack of model transparency and physical interpretability of data-driven hydrological model， a new runoff forecast model named Graph Attention neTwork and Dual-stage Attention mechanism-based Long Short-Term Memory network （GAT-DALSTM） was proposed. Firstly， based on the hydrological data of watershed stations， graph neural network was introduced to extract the topology of watershed stations and generate the feature vectors. Secondly， according to the characteristics of hydrological time series data， a runoff forecast model based on dual-stage attention mechanism was established to predict the watershed runoff volume， and the reliability and transparency of the proposed model were verified by the model evaluation method based on attention coefficient heat map. On the Tunxi watershed dataset， the proposed model was compared with Graph Convolution Neural network （GCN） and Long Short-Term Memory network （LSTM） under each prediction step. Experimental results show that， the Nash-Sutcliffe efficiency coefficient of the proposed model is increased by 3.7% and 4.9% on average respectively，which verifies the accuracy of GAT-DALSTM runoff forecast model. By analyzing the heat map of attention coefficient from the perspectives of hydrology and application， the reliability and practicability of the proposed model were verified. The proposed model can provide technical support for improving the prediction accuracy and model transparency of watershed runoff volume.

graph neural network; attention mechanism; encoder-decoder; Long Short-Term Memory network (LSTM); time series prediction; hydrological forecast

TP183

1001-9081（2022）05-1607-09

10.11772/j.issn.1001-9081.2021050829

2021⁃05⁃19；

2021⁃10⁃08；

2021⁃10⁃09。

国家重点研发计划项目（2018YFC0407904）。

胡鹤轩（1975—），男，江苏南京人，教授，博士，CCF会员，主要研究方向：人工智能、机器学习、水利大数据；隋华超（1997—），男，山东青岛人，硕士研究生，CCF会员，主要研究方向：数据挖掘、人工智能、水利大数据；胡强（1992—），男，江苏镇江人，博士研究生，CCF会员，主要研究方向：机器学习、人工智能；张晔（1976—），女，江苏南京人，讲师，博士，主要研究方向：水利大数据、人工智能；胡震云（1968—），女，江苏南京人，教授，博士，主要研究方向：水资源管理；马能武（1965—），男，湖北天门人，教授级高级工程师，博士，主要研究方向：水利水电安全监测。

This work is partially supported by National Key Research and Development Program of China （2018YFC0407904）.

HU Hexuan， born in 1975， Ph. D.， professor. His research interests include artificial intelligence， machine learning， big data of water conservancy.

SUI Huachao， born in 1997， M. S. candidate. His research interests include data mining， artificial intelligence， big data of water conservancy.

HU Qiang， born in 1992， Ph. D. candidate. His research interests include machine learning， artificial intelligence.

ZHANG Ye， born in 1976， Ph. D.， lecturer. Her research interests include big data of water conservancy， artificial intelligence.

HU Zhenyun， born in 1968， Ph. D.， professor. Her research interests include water resource management.

MA Nengwu， born in 1965， Ph. D.， professor of engineering. His research interests include water conservancy and hydropower safety monitoring.