张 健
(阜阳水文水资源局,安徽 阜阳 236000)
随着全球气候变化的进程加快,极端天气事件如洪水、台风和干旱的出现频率和强度都在不断增加,对人类社会和自然生态系统产生了深远影响[1-2]。有效的水位监测和准确的预测方法对于减轻这些事件的灾害风险、优化水资源管理、保障人民生命财产安全以及支持可持续发展战略的实施至关重要[3-4]。传统的水位监测方法依赖于历史数据和经验法则,在某些情况下可能无法及时响应快速变化的环境条件[5-6]。随着数据采集技术的进步和计算工具的发展,现代水位监测正逐渐转向更为精确和响应迅速的预测模型,以期对极端水文事件做出更迅速和更为准确的响应[7-8]。
本文旨在分析并评估基于季节性自回归积分滑动平均(Seasonal auto-regressive integral moving average,SARIMA)模型的水位预警系统的效果。SARIMA模型作为一种先进的时间序列预测方法,通过结合季节性因素、趋势和噪声等多个方面的特性,提供了一种有效的预测框架。它能够处理数据中的非平稳性和季节性变化,使其特别适用于水文时间序列数据的分析。在水位监测中,该模型可以基于历史水位数据,预测未来的水位变化,从而为灾害预防提供关键的时间窗口。研究的主要目的是通过应用SARIMA模型与实际的水位数据,评估其在预测未来水位变化方面的准确性和效果。研究将涵盖模型的建立、参数优化、预测精度评估,以及与传统水位预测方法的比较。通过这些分析,探讨SARIMA模型在现代水资源管理和灾害预防中的潜在应用价值,为未来的水位监测技术提供理论和实践上的指导。
水位监测及预警是洪涝类灾害的有效预防手段,水位的监测预警需要大量的水文数据作为模型的预测依据。监测数据一般由监测时间及监测数值构成,具有明显的时间特征[9-10]。城市水位监测数据也是如此,且城市水位的监测数据还具有明显的季节性变化[11-12]。利用这类带有明显时间序列特征的数据进行预测类研究时,通常采用时间序列预测模型[13-14]。在时间序列分析中,基于数据的特征和性质,可将时间序列模型大体分类为平稳时间序列模型和非平稳时间序列模型。平稳时间序列模型主要用于分析统计特性不随时间变化的序列,这些序列的未来行为能够较好地被历史数据所预测,因为它们缺乏趋势或者季节性的变化,表现出一定的规律性和周期性[15]。非平稳时间序列模型适用于具有明显趋势或以非常规方式随时间变化的序列,这些序列可能会呈现出趋势变化、季节性模式或其他结构性的变动,需要更为复杂的模型来捕捉其内在的动态特征。
自回归积分滑动平均(Autoregressive integral moving average,ARIMA)模型是一个经典的非平稳模型,它涵盖了差分操作,可以将非平稳序列转换为平稳序列,以便预测和分析。当非平稳时间序列展现出明显的季节性规律时,季节性时间序列模型成为一种更为合适的分析工具。这种模型不仅考虑了数据的一般趋势和随机波动,而且还将季节性周期纳入模型构建中。而SARIMA模型是这一类模型中极为著名的代表,它结合了ARIMA模型的特点,并通过内置的季节性差分和季节性自回归移动平均项,来捕捉数据中的季节性结构。基于SARIMA模型的城市水位监测模型的建立,分为数据预处理、平稳性检验、参数的确定及模型检验4个阶段,具体流程见图1。
图1 SARIMA的建模流程
SARIMA模型是由自回归模型和移动平均模型组成,主要参数包括自回归模型的滞后阶数p、移动平均模型的滞后阶数q、季节自回归阶数P、季节移动平均阶数Q、季节差分次数D及序列周期m。自相关图与偏相关图可以确定SARIMA模型参数p、q、P、Q的范围,利用自相关图与偏相关图确定参数范围时,需要利用赤池信息准则(Akaike Information Criterion,AIC)进行计算,计算公式如下:
式中:k为模型的参数数量;L为最大似然函数。
水文监测中的数据通常是连续采集的,在监测记录的过程中,常因为各类环境或人为因素,导致数据存在缺失。因此,水文监测数据通常具有结构简单、相关性强、随机缺失数据的特点。结构简单、相关性强的特点可以有效提高模型的预测准确率,而数据随机缺失则会导致模型精度严重下降,因此在对SARIMA模型进行验证时,需要事先对收集的数据进行预处理。常见的数据缺失处理方式包括填充、删除及不作为3种方式,删除及不作为两种处理方式均会导致模型的预测精度下降,而水文监测数据具有结构简单的特点,研究以填充方式作为水文监测数据缺失的预处理方式。数据填充方法分为3个阶段,分别是缺失数据的检索、缺失数据的计算、缺失数据的递归。
城市内涝灾害会对人们的生命财产安全造成严重影响。X市是我国中部的重要城市,地理位置独特,位于多条内陆河的交汇处,城市拥有丰富的水资源。由于地势相对低洼,该市在雨季或极端气候条件下特别容易出现积水情况,加之城市内众多的河流和湖泊,在面对持续降雨或上游水量增加时,尤其容易受到洪水的威胁。该市的市内湖泊是城市景观的重要组成部分,也是生态和休闲活动的中心,但这些水体在雨季也可能成为洪水的来源。当河流水位上升时,城市排水系统的压力增大,河流泛滥和湖泊溢出的风险随之升高,不仅影响市民的日常生活,也对城市基础设施造成压力。研究以该市为研究对象,取该市1990-2020年的城市水位监测数据作为SARIMA预警模型的训练及检验数据,该市某地区的城市水位监测点分布见图2。
图2 城市水位监测点位分布
该地区共设置9个城市水位监测点。其中,2、3、6号监测点均设置在城市水体中,负责监测城市水体水位的变化情况;1、5、8号监测点均设置在城市建筑中,负责监测建筑内水位变化情况;4、7、9号监测点均设置在城市主干道路附近,负责监测城市道路的水位变化情况。
为了对该模型进行训练验证,研究构建一个基于SARIMA模型的水位监测预警模型。取1990-2010年的数据作为模型的训练数据,2010-2020年的数据作为检验数据。所有模型测验及数据检验均利用实验室设备完成,设备操作系统为windows 7 64bit,数据分析平台为MATLAB。X市的水位变化具有明显的周期性,研究采用移动平均法对训练数据的周期值进行确定,并以6个月及12个月作为基数,对训练数据进行移动平均值的求解,结果见图3。
图3 不同基数下的移动平均线
由图3(a)可知,以6个月作为基数时,X市的水位移动平均线的最高水位为300mm以上,而最低水位在50mm以下;1990-2010年的水位移动平均线以6个月为基数进行计算时,仍略显曲折。由图3(b)可知,以12个月为基数后,X市的水位移动平均线的最高水位低于200mm,最低水位高于50mm;1990-2010年的水位移动平均线以12个月为基数进行计算时,曲折度大幅下降,相较于以6个月为基数的移动平均线,更加平滑。因此,研究将模型的参数周期定为12。
确定周期后,研究将步长设置为12,对训练数据进行一阶差分计算,结果见图4。
图4 训练数据的一阶差分结果
由图4可知,经过一阶差分后,所有的训练数据均在基点上下进行浮动。1990-2010年,共有12个一阶差分后的水位数据在200mm以上。其中,有4个数据的水位在400mm以上;水位在500mm以上的数据有3个;在-200mm以上的数据共20个;-400mm以上的数据共2个。训练数据经过一阶差分后,测试统计值为-8.55,P值检验结果也远小于0.05,训练数据1%的临界值为-3.45,5%的临界值为-2.87,10%的临界值为-2.57。训练数据的测试统计值小于1%、5%及10%的临界值,经过一阶差分处理后,训练数据为平稳序列数据。
为了确定SARIMA的p、q、P、Q参数,研究绘制一阶差分后的自相关图及偏自相关图,见图5。
图5 一阶差分后的自相关图及偏自相关图
图5(a)为训练数据一阶差分后的自相关图。可以看到,滞后系数为1、7、8、9、10、11、16、17、20、21、22、23、27、29、33时,自相关系数大于0,训练数据在这些时间间隔上呈正相关;在其余滞后系数中,自相关系数小于0,训练数据在这些时间间隔上呈负相关。滞后系数为33时,训练数据的自相关系数最大,为0.065;滞后系数为27时,自相关系数仅次于滞后系数为33时的自相关系数,此时自相关系数为0.048;滞后系数为13时,训练数据的自相关系数最小,为-0.202;滞后系数为34时,自相关系数仅大于滞后系数为13时的自相关系数,此时自相关系数为-0.101。仅在滞后系数为13时,自相关系数的绝对值大于0.200;其余滞后系数下,训练数据的自相关系数的绝对值均小于0.100。
图5(b)为训练数据一阶差分后的偏自相关图。可以看到,与自相关图结果相似,在滞后系数为33时,偏自相关系数最大,为0.089;滞后系数为22及23时,训练数据的偏自相关系数仅小于滞后系数为33时的偏自相关系数,此时偏自相关系数为0.071;滞后系数为13时,训练时数据的偏自相关系数最小,为-0.223;滞后系数为34时,训练数据的偏自相关系数仅大于滞后系数为13时的偏自相关系数,此时偏自相关系数为-0.073。
因此,由图5可知,p、q、P、Q参数是[0,2]之间的任意值。
长短时记忆(Long Short Term Memory,LSTM)网络是当前常见的一种预测模型,研究训练后的SARIMA模型,与该模型进行预测结果拟合的比较,结果见图6。
图6 水位预测结果比较
由图6(a)可知,在2010-2014年,SARIMA模型的预测结果大部分时候都小于实际结果。在这段时间内,实际水位共4个峰值,在第一个峰值,预测结果与实际结果相差100mm左右;在第二个峰值,二者相差350mm左右;在第三个峰值,二者相差250mm左右;在第四个峰值,二者相差150mm左右。在2015年以后,预测结果大部分时候都高于实际结果。在2015年后,预测水位出现4个峰值,在第一个峰值,二者误差在100mm内;在第二个峰值,二者误差在100mm左右;在第三个峰值,二者误差在200mm左右;在第四个峰值,二者误差在100mm内。除峰值外,SARIMA模型的预测结果与实际结果的拟合效果较好。由图6(b)可知,与SARIMA模型拟合结果较为相似,但在水位峰值区域,SARIMA模型的拟合效果更好。
为了进一步验证SARIMA模型的有效性,研究比较二者的训练及检测均方根误差(Root mean square error, RMSE)值,结果见表1。
表1 模型RMSE比较 /mm
RMSE可以表示预测值与实际值之间的平均偏差,该值越小,模型的拟合效果就越好。由表1可以看到,ARIMA模型的训练RMSE值及检验RMSE值分别为86.37及85.94mm,而LSTM模型的训练RMSE值及检验RMSE值分别为106.92及99.86mm。研究表明,SARIMA模型训练及检验的RMSE值均低于LSTM模型,SARIMA模型拟合效果较好。因此,SARIMA模型可以有效监测城市水位变化,对城市内涝灾害做出有效预警。
为了提高城市面对极端天气灾害的预警能力,本文提出了基于SARIMA模型的城市水位预测模型,对城市水位进行监测。SARIMA模型结合了自回归模型、移动平均模型和季节性差分操作,是预测具有明显季节性和非平稳特性时间序列数据的理想选择。结果显示,训练数据的周期为12,p、q、P、Q参数是[0,2]之间的任意值,相较于LSTM水位预测模型,基于SARIMA模型的水位预测模型拟合效果更好,SARIMA模型的训练RMSE值较LSTM模型低20.55mm,检验RMSE值低13.92mm,表明研究提出的模型有效提高了城市水位的监测及预警能力。