李 青
(安徽省安庆水文水资源局,安徽 安庆 246003)
洪水过程是水文领域中一项复杂非线性时间序列命题。传统统计预测方法和物理驱动模型往往无法解决数据维度高、非线性关系复杂问题。近年来,受益于计算科学计算日益发展,机器学习方法在时间序列模拟中得到广泛应用。其中LightGBM采用基于梯度提升算法,通过分裂数据集来构建树,使得每个叶子节点尽可能纯净,进而提高模型的精度和泛化能力。文中以LightGBM 回归模型为探究对象,研究秋浦河洪水过程,并对影响洪水过程的各因素展开分析。
秋浦河位于皖南池州、属长江下游支流,流域范围为113.3~115.6E、32.5~34.2N,流域面积2 235 km2,总流程150 km。属长江下游丘陵、山地、峡谷、盆地复杂地形,海拔介于50~2 768 m,地形崎岖破碎。区域冬季受西伯利亚高压控制,夏季受西北太平洋季风影响,形成亚热带季风性气候,多年平均气温13 ℃~16 ℃,年降水量800~1 200 mm,其中夏季降水量可达50%以上,具有冬凉夏热、雨热同季特点。区域年均径流量达24.34 亿m3,年内呈现丰枯变化,由于降雨强度大和强烈地表破坏,导致流域内土壤侵蚀严重,极易诱发河道淤积和洪水。
LightGBM(Light Gradient Boosting Machine)是一基于决策树的梯度提升框架,其采用了梯度提升和GOOS 技术,因此比传统决策树模型具有更好学习能力与运行效率。其通过梯度提升的单边采样和排他性特征,突破了树模型对信息增益限制。GOSS 保留那些较大梯度的信息而随机放弃小梯度实例,以减小不同树之间输出偏差进而提高最终预测准确性。对于一个具有n 个实例的训练集{x1…xn},式中xi是空间Xs 中维数为s的向量。在梯度提升迭代中,损失函数对模型输出的负梯度表示为{g1…gn}。对于剩余由梯度较小实例组成集合Ac,随机抽取大小为b×|Ac|的子集B,并根据子集A 上的向量Vj(d)的估计方差增益:
数据来源于安徽省水文中心。以秋浦河流域内7 个雨量站2020年7月19-21日逐小时降水资料,以及水文断面过境径流量数据为基础,各数据间隔为1 h,数据时间序列长度为89,以第1-60 h的样本为训练集,第61-89 h的样本为测试集。对雨洪模拟使用的资料包含逐小时的降雨、径流数据,为避免量纲差异和数据噪声,使用Man-min函数进行归一化处理进而缩放至[0,1]区间。参考相关研究经验,将雨洪相关资料处理为时间序列变量,例如设置为t-n时刻的降雨资料、和t时刻径流数据,其中n为预见期时长,R表示过境断面流量,P1~P7依次为各雨量(共7个)站观测资料。XGBoost模型输入为时间序列窗口,包含了9 个特征时间步长,即在模拟过程中窗口逐次向前滑动直至训练集末尾。预处理数据形式如表1。
表1 研究区数据预处理后时间步长形式表
秋浦河此次洪水是当地暴雨所形成,山地丘陵区河道狭窄、蜿蜒曲折,径流汇聚快、红枫过境稍慢,其涨洪约为16 h,退峰约24 h,洪峰持续时间约50 h。由于局部降水不均,洪水前峰尚未落平、后峰接踵而至,形成复式洪峰。
对于洪水预测模型的构建,本文采用以下步骤:基于训练集使用Python 开源程序设计LightGBM 模型,并初始化模型参数,使用GridsearchCV方法(交叉验证)进行参数调优。该模型关键参数调节范围如下:
在LightGBM的回归模型中,链函数是默认的“Sigmoid”,它的输出范围在[0,1]之间。对于数量的预测应该采用Quantile Regression,文中的选取了分位数为0.90,从而训练出的LightGBM回归模型的准确性得到了有效保证。
利用训练好的模型对预见期洪水过程进行模拟,其具体效果见图1。图1a-f分别表示预见期为1、2、3、4、5、6 h条件下的洪水模拟与预报值,可清晰看出预测值与实际值十分贴近,其最大相对误差Bias小于20%,且较好识别了涨洪退洪过程、洪峰等洪水特征,表明其整体模型效果较好。表2进一步给出了6种预见期条件下LightGBM模型精度参数。当预见期为1 h,其预报精度最高,具体的R2达0.96,RMSE 和Bias 依次为101.50 m3/s、4.57%,当预见期为6 时,其模拟精度最低,相应地R2为0.69,RMSE和Bias依次为192.30 m3/s、19.52%。仔细分析发现,当预见期小于4时,其预测精度变化缓慢;而当预见期大于4时,其模拟精度迅速下降,表明预见期为4是其有效预测阈值。综合来看,随着预见期增加,LightGBM 模型预报精度随之降低,这是由于预见期越长而输入与输出样本之间间隔越宽,导致数据序列之间关联性逐次下降。
图1 不同预见期条件下LightGBM模型模拟洪水精度图
表2 不同预见期下LightGBM模型模拟洪水精度表
文章建立了基于XGBoost树形结构的统计模型来模拟洪水过程。具体结论如下:①以LighrGBM为代表的机器学习模型利用非线性拟合技术,使用同期影响洪水过程的敏感变量可准确模拟和预报洪水过程,这展示了机器学习技能在水文过程、径流量序列变化仿真中良好前景。②预见期的设定严重影响模拟精度,这也表明LighrGBM算法对未来雨洪模拟存在一定局限性,即该模型对短预见期的洪水过程预报精度更高。此研究存在一定不足,例如仅使用了历史径流气象数据进行模型训练,然而洪水过程不仅与气候降雨密切相关,还与指标条件、土壤质地、蒸散发等存一定关联,而这些自然要素与径流汇聚、洪水过程之间存在滞后耦合。因此后续研究可利用EEMD特征分解的径流过程分量来描述降雨-径流过程中时滞特性,并增加更多敏感变量作为输入,进而改善增强模型对洪水物理过程的认知。