基于数据驱动的黄河三角洲地下水位预测模型

2020-03-01 08:22张传奇王晓曦
环境保护与循环经济 2020年12期
关键词:聚类观测驱动

张传奇 王晓曦

*2

(1. 辽宁绿管家环保科技有限公司,辽宁沈阳 110179;2. 辽宁省环境规划院有限公司,辽宁沈阳 110161)

1 引言

地下水是重要的环境资源,在工业、农业、社会生活及生态系统中起着重要的作用。因此,对地下水资源进行有效管理十分必要。地下水位是地下水资源的主要特征之一,科学预测地下水位的动态变化可以为地下水资源的规划和管理提供有用的信息[1]。

在过去的几十年里,许多科学家在预测地下水位方面做了大量的工作[2-4]。通常,地下水位模型可以分为两大类:物理模型和数据驱动模型。然而大多数基于物理的数值模型都很复杂,需要一些不易获取的不同输入数据,使得建模过程非常昂贵和耗时。而数据驱动模型由于不需要提供任何信息,因此对于估计复杂的非线性模式特别有用。当潜在的物理关系没有被完全理解或者没有足够的数据来应用数值模型时,数据驱动模型将展示出极好的预测能力。

近年来人工神经网络(ANNs)、自适应神经模糊推理系统(ANFIS)和支持向量机(SVM)3 种数据驱动方法在各个领域得到了广泛的应用[5-7]。本文采用地下水位动态时间序列数据,建立3 个基于ANNs,ANFIS,SVM 的黄河三角洲地下水位动态模拟模型,并比对分析3 种模型的性能及适用性,以期探索一种更可靠、更准确的地下水位动态模拟方法。

2 基于数据驱动的地下水位动态预测模型

基于数据驱动的地下水位动态预测模型由3 部分组成:第一部分是数据的预处理,以适应数据驱动模型的输入要求;第二部分是确定模型输入向量;第三部分是利用确定的输入向量,构建基于数据驱动的地下水位动态预测模型。

2.1 数据预处理

数据驱动模型的建立需要事先进行训练和验证,方可用于模型的进一步预测。为了实现有效的网络训练,需要使用适当的转换方法将数据进行正态化处理。相关研究表明[8],经过对数转换后的数据有利于模型取得更好的性能和更快的收敛速度。

本研究使用下列方程式,独立地对所有时间序列资料进行转换:

z=alog10(G+b)

式中,z 是地下水位的转换值;a 是任意常数;G 是地下水位,m;b 设置为1,以避免在log 函数中输入0地下水位。然后,使用下式对最终预测结果进行反变换:

G=10z/a-b

2.2 确定输入向量

地下水位动态数据构成了一个时间序列{xi}={x1,x2,x3,…,xn}。依据时间序列理论,时间序列的历史数据能揭示现象随时间变化的规律,并且这种规律可以延伸到未来,以进行预测[4]。对xt+1进行预测,就是要寻找xt+1与前m 个时刻地下水位含量值x1,x2,…,xt-m+1之间的关系,即xt+1=f(xt,xt-1,…,xt-m+1),其中f(xt,xt-1,…,xt-m+1)是一个非线性函数,表示地下水位含量未来值与历史值之间的非线性关系。自相关函数(ACF)和偏自相关函数(PACF)反映了一定时间内水流的前向流态,通过分析ACF 和PACF 的显著相关特征,综合确定对预测的地下水位有显著影响的地下水位滞后变量。

作为输入变量确定的参数是用于查找对预测的地下水位有显著影响的地下水位滞后的地下水位值的数目。ACF 和PACF 通常用于诊断自回归过程的阶次,也可用于预测建模。

2.3 基于数据驱动的预测模型建立

2.3.1. ANNs 模型构建思路

建立一个典型的基于BPA 算法的3 层前向神经网络模型,用于预测地下水位时间序列。输入向量是根据先前的自相关和部分自相关分析确定的。输出层在t+1 时有一个神经元对应于预测的地下水位,确定输入和输出数据的比例。

选择输入输出变量后,进一步确定神经网络结构,并通过试错法确定隐层神经元的最佳数目(N)。根据均方根误差(RMSE)选择隐藏神经元的数目,最后得到性能最优的神经网络模型。

2.3.2 ANFIS 模型构建思路

ANFIS 采用了一种混合学习算法,该算法结合了反向传播梯度下降和Jang 提出的最小二乘估计方法。在ANFIS 系统中,第一层的每个输入参数建立模糊规则,第三层的多个隶属函数参数建立模糊规则。因此,随着规则数量的增加,参数的数量变得非常庞大。为了解决这一问题,采用了减法模糊聚类,该方法有助于模糊规则的管理。Chiu 提出减法聚类是一种基于特征空间中数据点密度测量的方法。假设特征空间在每个维度上都是规范化的,所有数据都被一个单位超立方体所限定。首先,将每个数据点看作一个潜在的簇中心而不是网格点,然后在数据点XI 处的密度测量定义为:

其中正常数是定义簇中心邻域的半径。计算每个数据点的密度测度后,选择密度测度最高的点作为第一个聚类中心。当选择点作为其密度测量值时,每个数据点的密度测量值将修改为:

2.3.3 SVM 模型构建思路

核函数在建模过程中起着重要的作用,因此,在SVM 中应选择合适的核函数以获得更好的性能。径向基函数(RBF)是核函数的最佳选择。在本研究中,RBF 也被用作地下水位预测的核心函数。影响RBF模型性能的有2 个参数:C 和σ。1/(2σ2)作为一个独立的参数进行计算。交叉验证用于寻找最佳参数C和σ。然后,选取最佳参数C 和σ,对整个训练集进行训练。

3 基于数据驱动的黄河三角洲地下水位预测模型

3.1 研究区域及数据获取

研究地点黄河三角洲位于中国东部,117°31′-119°18′E 和36°55′-38°16′N 之间。北临渤海,东临莱州湾,平均海拔不到15 m,属暖温带大陆性季风气候,年降水量596.9 mm,年蒸发量1 900~2 400 mm,年平均气温12.9 ℃。由于长期的地面沉降和河流作用,该区覆盖着大量第四纪沉积物,厚度400~500 m。一般来说,地下水的行为受地表环境的影响。

本研究数据来自地球系统科学数据共享网的黄河三角洲2004—2005 年野外定点观测数据集。地下水位采集于区内黄河入海口的DZ08 观测井,该监测井靠近海岸。地下水位采集期为2004 年4 月5日—2005 年12 月28 日,每间隔5 d 记录1 次。表1给出了用于培训和验证模型的地下水位的一些统计数据。

表1 地下水位数据的基本统计值

3.2 模型构建

3.2.1 输入项筛选及确定

根据对数转换后的序列,绘制其ACF 和PACF图,见图1。通过分析图1 发现,序列均表现出拖尾特性。

图1 预处理后时间序列的ACF 和PACF

通过图1 可知,ACF 在95%置信水平下表现出显著相关性,DZ08 观测井的时滞数为11。ACF 的逐渐衰减模式显示出显性自回归的存在。此外,PACF显示,对DZ08 观测井,显著不为0 的时滞为1 和3。

综合ACF 和PACF 分析,对DZ08 观测井的预测模型确定2 个输入量,即{xt-1,xt-3}。

3.2.2 基于数据驱动的预测模型建立数据驱动模型一:ANNs 模型

根据先前的自相关和部分自相关分析,DZ08 观测井共识别出2 个输入变量。输出层在t+1 时有一个神经元对应于预测的地下水位,输入和输出数据分为训练数据(65%)和验证数据(35%)。

选择输入输出变量后,确定DZ08 观测井神经网络结构为“2-N-1”。采用试错法,确定最佳数据N为4。

数据驱动模型二:ANFIS 模型

通过反复试验,确定了最佳聚类半径为0.20~0.50,增量为0.05。在验证阶段选择最大相关系数(R)作为最佳聚类半径,用于进一步分析。经试错处理,DZ08 观测井的最终聚类半径为0.25。ANFIS 模型的建立是基于Takagi-Sugeno 模糊系统。输入成员函数类型为“gaussmf”,默认输出成员函数类型为“linear”。“and”方法是“prod”,默认的“or”方法是“probor”。模型建立的规则为10。

数据驱动模型三:SVM 模型

在本研究中,利用Libsvm 工具箱3.11 版本(2011)对2 个参数C 和σ 进行计算和优化,最终得到了DZ08 观测井的最佳参数(C,σ)=(0.1,20.091 5)。

4 结果和讨论

为定量评价模拟效果,模拟结果使用相关系数(R)、RMSE、平均绝对百分比误差(MAPE)以及纳什系数(NS)作为评价指标。R 越接近1、RMSE 及MAPE 越接近0,则模拟精度越高。NS 越接近1,模型可信度越高;NS 接近0,表示模拟结果接近观测值的平均值水平,即总体结果可信,但过程模拟误差大;NS 远小于0,则模型是不可信的。它们的计算公式如下:

为了有相同的比较基础,对所有开发的上述模型使用了相同的培训和验证数据集。3 个模型的性能指标结果见表2。

表2 各模型评价性能指标统计

表2 显示,模型的统计性能令人满意,并且模型在训练期和验证期以合理的精度预测了地下水位值。R 值表明预测值与观测值之间存在显著的线性相关关系。所有RMSE 均小于0.22 m,显示了预测地下水位与观测地下水位的整体拟合优度。所有的MAPE 均低于15%,显示了这些预测模型的良好性能。结果表明,ANNs,ANFIS 和SVM 模型在预测地下水位中具有较好的适用性。

在训练期,ANFIS 模型的预测效果最好,SVM 模型次之,ANNs 模型相对较差。在验证期,SVM 模型的性能优于其他模型,而ANFIS 模型的性能最差。

综上分析表明,ANFIS 模型在训练期取得了最好的效果,但在验证期无法保持稳定的预测精度;SVM 和ANNs 模型在验证期的效果优于训练期。ANFIS 预测模型在地下水位突变点的预测结果比ANNs 和SVM 模型更为准确。各模型的地下水位预测结果见图2。

图2 3 种预测模型预测结果

5 结论

采用ANNs,ANFIS 和SVM 3 种方法,建立了黄河三角洲地区历史地下水位预测模型。采用4 种标准的统计绩效评估方法对所有预测模型的绩效进行评估。由ANNs,ANFIS 和SVM 建立的模型适合于预测地下水位的波动。ANNs,SVM 模型的预测效果优于ANFIS 模型。总体上,3 种模型都能在滨海地区准确地估计地下水位波动,尤其是ANFIS 模型能较好地预测地下水位的突然上升或下降变化趋势。

猜你喜欢
聚类观测驱动
数据驱动世界。你得懂它 精读
基于模糊PI控制的驱动防滑仿真系统分析
屈宏斌:未来五年,双轮驱动,砥砺前行
深入实施创新驱动发展战略
天文动手做——观测活动(21) 软件模拟观测星空
2018年18个值得观测的营销趋势
基于高斯混合聚类的阵列干涉SAR三维成像
可观测宇宙
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法