基于LSTM⁃TCN的地下水位数据修复及应用

2023-06-08 08:10袁志洪
现代计算机 2023年8期
关键词:鉴别器卷积矩阵

袁志洪,陈 雨

(四川大学电子信息学院,成都 610065)

0 引言

水资源与人类的生存和发展息息相关,日益成为世界各地关注的热点之一。由于地表水缺乏,2008 年德克萨斯州抽取地下水进行农业灌溉的量占总用水量的81.4%[1]。然而,随着灌溉农业的不断发展及人口数量的增加,过度开采地下水引发了水井枯竭,地表塌陷,农民农业经济收入减少[1],生态系统稳定性被破坏[2]等问题。因此,准确预测地下水位对合理开发利用水资源,促进地区的农业经济发展等具有重要价值。

数据在采集过程中可能因为环境干扰或者采集装备发生故障等,使得观测数据集中存在数据缺失和异常值[3],从而造成模型预测精度下降。为减少数据集因存在缺失值对预测精度的负面影响,有关学者采用了多种方法修复缺失的数据,这些方法包括:①删除法[4],直接删掉数据集中的缺失数据,但当缺失率较高时,该方法往往会忽略缺失数据中所包含的关键信息,对模型的预测性能影响较大;②插补法,常采用三次样条插值[5]、均值插补、基于K近邻的插值对数据进行修复[6],该方法关注于原始数据集的众数、中位数等统计学特征,却未考虑时间序列数据具有时序性这一关键特征,插补精度较低;③生成法[7-8]在数据修复中得到了较为广泛的使用,该方法通过学习原始数据集的分布特点生成新数据以填补缺失值,其中,生成对抗式插补网络(generative adversarial impu‑tation networks,GAIN)中引入了提示矩阵以辅助鉴别器判断,促使生成器生成趋于真实数据分布的数据,以填补缺失值,可以较好地修复非序列数据或图像中的缺失值,但由于该方法未采取相关措施处理时间序列数据中的时序特征,使得GAIN 模型在修复具有时序性的数据时难以发挥其效果。

因此,本文对GAIN模型的结构进行了改进,采用深度长短时记忆网络(long short term memory,LSTM)[9]作为生成器的核心部分,深度因果卷积网络(temporal convolutional network,TCN)[10]作为鉴别器的核心部分,提出了基于LSTM‑TCN的地下水位数据修复模型。LSTM‑TCN 模型在插补缺失值时考虑了原数据集的时序特性和分布特点,所以经该方法生成的数据能更准确地反映真实地下水位数据的变化规律和局部特征,有效提高了数据集质量。由于LSTM 网络[11-12]在地下水位预测上具有良好的表现,多头注意力机制(multi‑head attention mechanism,MA)[13]可为模型的输入变量赋予不同的注意力权重,所以本文将两者相结合进行地下水位预测,以进一步提高LSTM网络的地下水位预测准确度。

1 基于LSTM⁃TCN的地下水位修复模型

LSTM‑TCN 是基于GAIN 模型提出的地下水位数据修复模型,框架如图1所示。该插补方法的基本结构由生成器、鉴别器两个核心模块组成。其中,生成器网络通过学习真实地下水位数据在不同时间尺度上的特征信息和分布特点,生成更接近于真实数据的填充矩阵,并将传入到鉴别器网络中;鉴别器网络通过捕获的时序特征和变化规律,分辨出该矩阵中哪些元素是真实值,哪些元素是生成值。通过迭代训练LSTM‑TCN 模型,直到鉴别器网络无法判别中元素值的真伪为止,此时生成器的输出就是修复后的地下水位数据。

图1 基于LSTM⁃TCN的地下水位数据修复框架

1.1 基于深度LSTM的生成器

本文构建的生成器网络模型如图2所示,该网络模型的输入包括含缺失信息的数据矩阵=1,2,…,d)、D 维随机噪声向量Z以及掩模矩阵M=(M1,M2,…,Md),输出的填补矩阵与的维度一致。

图2 生成器网络架构

式中:*代指未观测到的数据;⊙表示同位元素进行相乘。M中的元素值为{}0,1 ,表示该位置的对应元素分别是缺失值、真实值,因此,生成器生成的数据矩阵中既有真实值,也有生成值。生成器网络中各模块的作用如下:

首先,通过堆叠3 个LSTM 层以增加生成器网络中隐藏层到隐藏层之间的网络层数,将前一时刻的LSTM 层输出的ct-1和ht-1作为后一时刻的LSTM 层输入,以此控制向后层神经网络传递的信息,从而使得深度LSTM 网络相较于浅层LSTM 网络能更好地学习真实地下水位数据在不同时间尺度上的特征信息,促使生成器网络生成更符合原数据分布特点和时序性的假数据。然后,将深度LSTM 网络的输出矩阵经过全连接层处理后,得到的矩阵维度等于的输入维度。最后,输出层中使用sigmoid 激活函数,使得的值域映射在[0,1]之间,便于后续将输入到鉴别器网络中进行训练。因此,所提出的生成器网络更适用于捕获原数据集的分布特性和时序特征,使生成的更接近真实地下水位数据。

1.2 基于深度TCN的鉴别器

图3 TCN网络模型

TCN 网络由因果卷积,膨胀卷积以及残差模块3 部分组成。其中,因果卷积是TCN 网络的关键特征,指的是当前t时刻的输出值yt仅依赖于前一层t时刻和t时刻之前发生的元素卷积,具有因果性。膨胀卷积通过控制感受野大小来控制卷积核的学习范围,其表达式为

式中:X={x1,x2,…,xt}为输入值;k表示卷积核的大小;*为卷积运算符;d为膨胀因子。残差模块进一步优化了该网络模型,能较好地解决由于神经网络层数较深时出现的过拟合以及梯别度器消网失络等的问一题部。分因,此有,利采于用鉴T别C器N网网络络作判为断鉴中的对应元素值的真伪。

1.3 提示机制

LSTM-TCN 模型中的提示机制H,用于向鉴别器提示信息,促使生成器生成符合原数据集分布特点的数据,以插补缺失值。H定义为

式中:D维随机变量B取值为{0, 1};H取值为{ }0,0.5,1 。当H中的元素值为0 或1 时,用于提示鉴别器此值是生成的假数据(取值为0)还是真实数据(取值为1);当元素值为0.5 时,鉴别器自行判断此元素值的真伪。

1.4 评估函数

评估函数通过最大化正确预测M的概率来训练鉴别器,最小化鉴别器能正确预测M的概率来训练生成器,其公式定义如下:

式中的G和D分别表示生成器、鉴别器。

2 多头注意力机制

Transformer 模型[13]中的多头注意力机制是一种特殊的自注意力机制,它的基础单元是单头注意力机制,其第i个单头的注意值为

式中:Q、K、V三个矩阵的维度均为dk,分别表示查询、键、值;缩放因子dk为序列的输入维度,用于调节hi的值,避免反向传播时产生梯度消失的现象。将多个单头注意力机制并联后经过线性层映射得到多头注意力机制,其计算公式如下:

式中:⊕表示向量之间进行拼接操作;W0为权重矩阵;n为总头数。

3 实验设计及结果分析

3.1 研究数据来源

观测井位于德克萨斯州奥加拉拉含水层,数据的时间范围为2001 年6 月7 日到2022 年4 月8 日,以周为单位进行提取,获得共1088条时序数据作为实验数据,经初步整理后发现,地下水位数据集中的缺失数据条数为62 条,缺失率约为5.70%。由于缺失数据较多,因此预测前需要使用合理方法修复缺失数据,以提高后续地下水位的预测准确度。

地下水数据来源于德克萨斯州水资源开发委员会,引入的降水、温度和蒸发量数据均来源于PRISM 卫星,分辨率为4 km。可将遥感图像中提取获得的气象数据和地下水位数据相结合,用于预测地下水位数据的动态变化[14]。因此,实验中使用修复后的地下水位数据、降水、温度及蒸发量数据整合后作为预测模型的输入值,以地下水位作为预测模型的输出值。

3.2 实验准备

进行地下水位预测前,将实验数据集的前80% 作为训练数据集,后20% 划分为测试数据集。并将输入数据和目标数据均归一化到[0,1]之间,避免因数据尺度影响模型的预测效果。然后采用滑动窗口法对实验数据集进行处理,使用前10周的地下水位来预测未来1周的地下水位。

3.3 评价指标

为衡量本文所提模型的地下水位预测效果,使用均方根误差(root mean square,RMSE)和平均绝对误差(mean absolute error,MAE)作为评价指标,公式如下:

RMSE定义为预测值与实际值之间的误差平方根的均值,反映了两者之间的偏差程度;MAE用于评估预测值与真实值之间的平均绝对误差。两者数值越小,模型预测性能越好。

3.4 地下水位数据修复

由于地下水位数据集中包含缺失值,导致不能直接评估不同插补算法的插补精度,因此,文中借助地下水位的预测结果来间接评估不同插补方法的插补精度。为验证所提方法的可靠性,文中的实验由两部分组成。

(1)从地下水位数据集中选择一部分完整连续的子序列作为样本数据,首先按照不同比例随机缺失样本数据以构造缺失子序列,然后使用各种插补方法填补缺失的子序列,将插补后的子序列与真实子序列进行对比,可直接验证不同插补方法在小数据集上的插补精度。

(2)对于含缺失值的整个地下水位数据集,首先使用不同插补方法对该数据集进行插补,然后将不同方法插补后的地下水位数据集与相关气象变量(降水、温度及蒸发量数据)整合后分别输入到不同模型进行训练及预测,最后通过地下水位的预测结果间接验证LSTM‑TCN 插补方法的有效性。

分别将LSTM、TCN 网络进行组合后得到另外3 种插补方法,即TCN‑LSTM,LSTM‑LSTM,TCN‑TCN(生成器-鉴别器)。为验证所提LSTM‑TCN方法的修复效果,将上述3 种插补方法、GAIN 网络以及常用插补方法作为插补实验的对照组。

首先,从原始地下水数据集中筛选出不含缺失值且连续的子序列作为样本数据,对应时间为2012 年2 月12 日 至2020 年8 月2 日,长度为443 条。然后,按照缺失率5%,10%,15%,20%,25%分别模拟随机缺失数据,图4展示了缺失率为5% 的子序列未插补缺失值之前的效果。最后,使用多种插补方法对不同缺失程度的子序列进行插补,以评价指标RMSE来衡量各插补方法的修复效果,如表1 所示。

表1 不同缺失率下的子序列插补误差

图4 缺失率为5%的子序列

对比表1 中RMSE的值可看出,对不同缺失率下的子序列进行插补时,本文提出的LSTM⁃TCN方法的插值精度均明显优于其余插补方法。在子序列的缺失率分别为5%、10%、15%、20%、25%时,相较于GAIN 模型,采用该方法插补后其RMSE分别降低了50.29%、41.41%、48.60%、37.09%及33.22%。

3.5 基于MA⁃LSTM模型进行地下水位预测

影响地下水位的输入变量较多,且输入变量存在重要程度差异性。因此,本文将MA 与LSTM 相结合来预测地下水位,通过各单头注意力机制为输入变量赋予不同的注意力权重,使MA⁃LSTM 模型可更好地捕获输入变量中的关键特征,从而进一步提高模型的预测准确度。为验证MA⁃LSTM 模型的预测效果,实验中使用了几种经典预测模型:ARIMAX、LSTM、Bi⁃LSTM进行对照实验。

多元自回归移动平均模型(autoregressive moving average with extra input,ARIMAX)根据数据集的单位与检验和差分次数确定该模型的d为0,设置p和q值均为0~20之间,再结合贝叶斯准则[15]和网格搜索法得到ARIMAX 模型d、p以及q值的最佳组合。以网格搜索法选择其余预测模型的超参数,如网络层数、训练批数、学习率、神经元个数等。

将LSTM⁃TCN 方法修复后的地下水位数据集(缺失率为5%的子序列)及相关气象变量数据整合后输入到各预测模型中进行预见期为1周的地下水位预测,图5 展示了各预测模型在修复后的子实验数据集上(2012 年2 月12 日至2020年8月2日)进行地下水位预测时的误差。

图5 各预测模型的误差对比

由图5中RMSE和MAE的数值可知,使用修复后的子实验数据集分别进行训练及预测时,MA⁃LSTM 模型对应的RMSE和MAE值均最小,该模型的地下水位预测效果最佳。MA⁃LSTM 模型相较于Bi⁃LSTM 模型、LSTM 模型及ARIMAX模型,其RMSE分别降低了3.50%、14.25%、22.10%,其MAE分别降低了4.79%、15.56%、15.59%。

为进一步验证不同插补模型对地下水位预测结果的影响,分别使用各插补模型修复含缺失值的整个地下水位数据集,然后将修复后的整个地下水位数据集及相关气象变量数据整合后作为实验数据集,各自输入到AIMAX、LSTM、Bi⁃LSTM 及MA⁃LSTM 模型中进行地下水位预测,所得RMSE和MAE如表2所示。

表2 不同插补方法修复整个序列后各预测模型的RMSE和MAE

从表2 可知,使用LSTM‑TCN 方法插补后的实验数据集分别训练ARIMAX、LSTM、Bi‑LSTM、MA‑LSTM 模型,均获得了更高的预测精度。在各预测模型中,MA‑LSTM 模型的预测性能最佳,LSTM‑TCN 方法修复后的地下水位数据及MA‑LSTM 模型的预测值如图6 所示。相较于GAIN 网络,使用LSTM‑TCN 方法修复后的数据集训练MA‑LSTM 模型,能够使MA‑LSTM 模型的RMSE 和MAE 分别降低21.27%、32.66%,获得了更准确的地下水位数据预测结果。因此,可认为使用LSTM‑TCN 模型修复含缺失值的地下水位数据集时,能更有效地提高数据集的质量,使得各预测模型能从修复后的数据集中学到更精确的特征信息,从而提高了模型的地下水位预测精度。

图6 LSTM⁃TCN模型修复整个序列后的预测结果

4 结语

针对地下水位数据集中存在较多缺失值情况下的高精度地下水位预测需求,本文提出了基于LSTM‑TCN 的地下水位数据修复模型,改进了GAIN 网络的结构。改进后,LSTM‑TCN 模型能够较好地学习原数据集的分布特点和时序特性,采用该修复模型对不同缺失率的地下水位数据集进行插补时,均能生成更接近真实值的假数据,显著提高了地下水位数据集的质量。然后,对于地下水位预测模型,本文引入了多头注意力机制为输入变量赋予不同的注意力权重,使得LSTM 模型能更好地捕获实验数据集中的关键特征,进一步提高了地下水位的预测精度。

猜你喜欢
鉴别器卷积矩阵
基于多鉴别器生成对抗网络的时间序列生成模型
基于3D-Winograd的快速卷积算法设计及FPGA实现
卫星导航信号无模糊抗多径码相关参考波形设计技术*
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
阵列天线DOA跟踪环路鉴别器性能分析
初等行变换与初等列变换并用求逆矩阵
矩阵
矩阵
矩阵