基于GCN-LSTM 的钱塘江南源水质预测研究

2024-01-12 14:28李余隆张兰李立
人民黄河 2023年12期

李余隆 张兰 李立

摘 要:流域水质数据存在时间和空间上的双重依赖性,针对现有水质预测模型大多建立在时间维度上,不能有效利用水质空间相关性问题,提出了基于图卷积神经网络GCN 和长短时记忆网络LSTM 的水质预测模型。首先建立流域监测点间的拓扑结构,并将监测点沿河道的距离作为权重表征监测点间连接的强弱;然后采用图卷积神经网络GCN 捕获每个输入时刻监测点间的空间关系,再通过LSTM 捕获其时间上水质变化特征;最后通过多层感知器MLP 得到水质预测结果。将钱塘江南源作为研究对象,对流域内15 个监测点的pH 值、溶解氧DO、高锰酸盐指数CODMn进行预测,结果表明:相较于LSTM,GCN-LSTM 模型水质预测结果平均百分比误差MAPE 分别下降15.29%、11.77%、9.8%;监测点间的连接具有差异性,通过距离来表示监测点间连接强弱可以使水质预测结果更为精确。

关键词:水质预测;图卷积神经网络;长短时记忆网络;时空预测模型;钱塘江南源

中图分类号:P338 文献标志码:A doi:10.3969/ j.issn.1000-1379.2023.12.015

引用格式:李余隆,张兰,李立.基于GCN-LSTM 的钱塘江南源水质预测研究[J].人民黄河,2023,45(12):83-87,95.

钱塘江位于浙江省西部,受亚热带季风气候影响,流域内降水丰富、气象灾害种类繁多,加上工厂排污、畜禽养殖场粪便排放等人为因素影响,流域水量年际变化幅度较大,水环境污染严重[1] 。水体污染会对当地居民生产生活造成一定影响,甚至制约社会经济发展。水质评价及预测可以清晰地反映水体污染现状及水质未来变化趋势,据此可及时调整水资源保护措施,将水体污染由事后治理转变为事前预防,降低水污染治理成本[2] 。

常用的水质预测模型分为机理模型和神经网络模型两种,其中:机理模型包括SWAT 模型、HSPF 模型等[3-6] ,通常需要大量实测数据支撑,且计算过程复杂、模拟精度较低[7] ;神经网络模型拥有很强的非线性表达能力,常用的时间序列预测模型包括循环神经网络RNN[8] 、长短时记忆网络LSTM[9] 等,这些序列模型能够提取水体水质时间序列特征并对其进行预测[10-15] 。流域水质预测时,某点的水质变化不仅与其历史变化規律有关,而且与其上游水质变化有关,而这种空间维度上的传播影响在单一时间序列模型中无法表现,应合理利用流域各监测点间的空间关系辅助模型进行水质预测。常见的空间信息提取模型有卷积神经网络CNN,但其只适合在欧氏空间内进行特征提取,对于交通网、水网等复杂的非欧空间,若强行将非欧空间转化为欧氏空间,则会丢失空间上各监测点间的连接信息,无法反映各监测点间的空间位置关系及连接的强弱。图卷积神经网络GCN 是一种可以提取非欧空间特征的网络结构,通过图中心节点与其周围节点之间的拓扑结构,对图的拓扑结构和节点属性进行编码,进而学习得到各节点的空间依赖关系。有关学者[16-18] 将图卷积神经网络GCN 应用于交通网路段速度预测等表明,其具有高可靠性。水网相对于交通网更为复杂,监测点之间有明显的上下游关系,在构建拓扑结构时要考虑监测点间的地理位置信息、流域地理地貌特征等[19-20] 。