基于DA⁃TCN⁃BiGRU的坡面泥石流预测研究

2024-09-14 00:00:00韦凯李青姚益周睿
现代电子技术 2024年6期

摘 "要: 为解决当前坡面泥石流预测中存在的多因素数建模问题,并提高预测的精确度,提出一种融合双注意力机制、时间卷积神经网络和双向门控循环单元(DA⁃TCN⁃BiGRU)的坡面泥石流风险预测方法。通过模拟平台进行坡面泥石流模拟实验,采集多类传感器数据得到风险度大小,并以此表征所处的风险阶段。实验结果表明,所提模型短期预测的均方根误差、平均百分比误差和平均绝对百分比误差分别为0.013 59、0.010 407和1.182 64,中期预测的均方根误差、平均百分比误差和平均绝对百分比误差分别为0.019 01、0.015 17和1.729 46,优于其他比较模型。

关键词: 坡面泥石流; 风险预测; 双注意力机制; 时间卷积神经网络; 双向门控循环单元; 风险评估方法

中图分类号: TN927⁃34; P642.23 " " " " " " " " " 文献标识码: A " " " " " " " " " "文章编号: 1004⁃373X(2024)06⁃0001⁃08

Research on slope debris flow prediction based on DA⁃TCN⁃BiGRU

WEI Kai, LI Qing, YAO Yi, ZHOU Rui

(National and Local Joint Engineering Laboratory of Disaster Monitoring Technology and Instrument, China Jiliang University, Hangzhou 310018, China)

Abstract: In order to improve the accuracy of slope debris flow prediction, a slope debris flow risk prediction method combining dual attention mechanism, temporal convolutional neural network, and bidirectional gated recurrent unit (DA⁃TCN⁃BiGRU) is proposed to address the multi⁃factor modeling problem in current slope debris flow prediction. By conducting slope debris flow simulation experiments on a simulation platform and collecting data from multiple sensors, the magnitude of risk is obtained, which represents the risk stage. The experimental results show that the short⁃term prediction of this model has a root mean square error, average percentage error, and average absolute percentage error of 0.013 59, 0.010 407, and 1.182 64, respectively. The mid⁃term prediction has a root mean square error, average percentage error, and average absolute percentage error of 0.019 01, 0.015 17, and 1.729 46, respectively, which outperforms other comparative models.

Keywords: slope debris flow; risk prediction; dual attention mechanism; temporal convolution neural network; bidirectional gated recurrent; risk evaluation method

0 "引 "言

坡面泥石流灾害对人们生命安全造成了极大的威胁。目前,国内外研究者主要通过雨量预报泥石流发生的可能性,大多针对某一地区的降雨量临界值来实现泥石流的预报[1]。疏杏胜等人基于对桓仁水库流域历史数据预测未来降雨数据,提出人工神经网络(ANN)、极限学习机(ELM)以及支持向量机(SVM)预测模型[2],对桓仁水库流域未来1~3天降雨进行多模式集成预报,验证了基于机器学习模型的多模式降雨集成预报方法可行,能够提高短期降雨预报的精度。唐旺等采用长短时记忆神经网络(LSTM)方法对短时降雨进行预测,并收集了研究区254条泥石流数据和日累计降雨数据,采用统计分类的方法划定了泥石流的降水预警阈值,将预测值和阈值进行比对,进而给出预警等级和泥石流发生的可能性,形成一体化的预警方法[3]。P. Hewage等人基于时间卷积神经网络(TCN)和LSTM的结构,提出了一种新的轻量级天气预测模型,它可用于对选定的细粒度地理位置进行长达9 h的天气预报[4]。J. Hirschberg等利用瑞士阿尔卑斯山区域17年的降雨记录和67次泥石流确定临界降雨阈值,通过随机森林模型(RF)进行预测,提高了数据中挖掘开发信息并用于提高预警性能的准确性[5]。

综合坡面泥石流方面预测的研究可知,仅根据降雨量往往不能得到坡面泥石流灾害的完整预测信息,多传感器的综合预测方法与合适的预测模型是实现更加准确的坡面泥石流预测的有效途径。同时坡面泥石流预测仍然存在相当大的挑战,包括风险评估困难和多因素的非线性建模等[6]。面对以上挑战,本文提出一种基于DA⁃TCN⁃BiGRU的坡面泥石流预测方法。考虑注意力机制处理相同时刻数据之间的依赖性,时间卷积(TCN)的特征提取能力和在时间序列预测建模中的良好表现,以及双向门控循环单元(BiGRU)的长期依赖关系的特点,建立DA⁃TCN⁃BiGRU坡面泥石流预测模型,自动提取坡面泥石流数据之间的预警特征和长期依赖关系,并通过坡面泥石流模拟实验对预测模型进行验证。

1 "DA⁃TCN⁃BiGRU模型

1.1 "时间卷积神经网络

卷积神经网络(CNN)最常用于图像处理,用于时序预测的CNN称为时间卷积神经网络(TCN)。Bai Shaojie等人在2018年序列预测建模中成功使用卷积神经网络,采用了空洞卷积,使得CNN具有因果卷积的时间约束模型能够捕获更长的依赖关系[7],TCN因此有更大的感受野。TCN的模型结构更简单、更有效,并且很多学者已经将TCN扩展到了多元时间序列预测领域[8]。

TCN是由多个残差块(Residual Block)[7]组成,每一个残差块中,卷积层的输出将被添加到残差块的输入中,并馈送到下一个残差块。为了调整残差张量的宽度,添加了一个1×1卷积来完成此操作,此时TCN的感受野宽度是原来的基本因果层的2倍。因此,感受野大小r可以通过式(1)获得。

[r=1+i=0n-12k-1bi=1+2k-1bn-1b-1] (1)

式中:k表示卷积核的大小;b表示膨胀基的大小,且两者满足k≥b。

残差块的数量n与输入张量的长度l相关,计算公式如下:

[n=logbl-1b-12k-1+1] " " " "(2)

1×1卷积在残差块的输入和输出之间保持相同的长度,而膨胀的因果卷积保证输出不会受到未来信息的影响[9]。

1.2 "双向门控循环单元

门控循环单元(GRU)是LSTM神经网络的简化,用于处理和预测序列数据[4]。GRU的结构如图1所示,图中rt和zt分别表示重置门和更新门。

门控循环单元(GRU)公式如下:

[rt=SigmoidWrht-1,xt] " " " "(3)

[zt=SigmoidWzht-1,xt] " " " "(4)

[ht=tanhWrt⊙ht-1,xt] " " " "(5)

[ht=1-zt⊙ht-1+zt⊙ht] " " " "(6)

式中:[rt]是GRU的重置门;[zt]是GRU的更新门;Sigmoid为激活函数;tanh表示双曲正切激活函数;Wr、[Wz]、W分别为对应的权重矩阵。

在传统的GRU中,每个时间步的输出仅仅依赖于它之前的输入和隐状态,而双向门控循环单元(BiGRU)则考虑了输入序列中每个时间步之前和之后的输入以及隐状态信息[4]。BiGRU中正向GRU按照时间步从前向后计算,而反向GRU则按照时间步从后向前计算,最终将两个方向的输出拼接在一起作为整个序列的输出。BiGRU具体结构如图2所示。

BiGRU的公式和GRU类似,但需分别计算正向和反向GRU输出,BiGRU的更新公式为:

[ht=GRUxt,ht-1] " " " " "(7)

[ht=GRUxt,ht+1] " " " " " (8)

[ht=[ht,ht]] " " " " " " " (9)

1.3 "注意力机制

注意力机制首先用于图像任务,以实现对图像重要特征的加权。注意力机制实际上就是得到权重矩阵,计算注意力权重的过程可以看作是键值对中的查询[10],具体步骤为:

1) 计算Q和K的相似度,可以通过求两者的向量点积来得到。

2) 对权重进行归一化,以获得直接可用的权重。

3) 对权重和值进行加权求和,以获得注意力值。

[αt=Softmax(QTK)=exp(QTK)jexp(QTK)] " "(10)

[α=tαtVt] " " " " " " (11)

[Q=WqiXt] " " " " " "(12)

[K=WkiXt] " " " " "(13)

[V=WviXt] " " " " " (14)

式中:[αt]是t时刻注意力权重;Softmax是激活函数;[α]是权重与变量的加权求和的结果;Q、K、V分别表示注意力机制的查询、键值和值;[Wqi]、[Wki]、[Wvi]分别是对应的权重。

1.4 "DA⁃TCN⁃BiGRU模型架构

融合双注意力机制、时间卷积神经网络和双向门控循环单元模型(DA⁃TCN⁃BiGRU)的整体框架如图3所示。

DA⁃TCN⁃BiGRU模型的输入是一个由坡面泥石流时间序列数据组成的数据,输入阶段的注意力机制(I⁃Attn)的输入为t时刻的n个传感器数据和t-1时刻的隐含层,输出为t时刻的注意力权重。I⁃Attn通过残差块框架经过TCN,再通过Attention机制生成一个权重向量与TCN的输出相乘,得出TCN输出后的注意力机制(T⁃Attn);之后经过BiGRU层,输出最终的预测值。

由于实际坡面泥石流实验中,传感器数据是以连续一串数组形式传回给上位机,因此本模型的动态滑动预测采用滑动窗口实现,以此处理动态数据,如图4所示。图4中,输入为Ti长度的6维传感器数据,输出为未来To时间步的坡面泥石流风险度,滑动窗口随着时间步向前移动,同时输出预测值。

2 "坡面泥石流模拟平台及实验数据

2.1 "坡面泥石流模拟实验平台

坡面泥石流是由水和固体物质组成的混相流体,其产生过程较复杂。陡峻的地形和固体物质的补给是坡面泥石流发生的内在因素,强降雨是产生坡面泥石流的外界诱发因素[11]。

坡面泥石流模拟平台的构建是为了模拟真实的坡面泥石流,图5为坡面泥石流模拟平台实物图。坡面泥石流模拟平台的结构包括降雨模拟装置、传感器测量装置和载土试验箱。

在坡面泥石流模拟实验平台中安装了6个传感器,分别是翻斗式雨量计、地表位移传感器、土压力传感器、剪切波速传感器以及2个土壤含水率传感器,传感器的安装位置如图6所示。

2.2 "坡面泥石流实验数据及分析

在坡面泥石流的整个模拟过程中,使用传感器来监测坡面泥石流过程,监测量包括降雨量、浅层土壤含水率、深层土壤含水率、剪切波速、地表位移和土压力。坡面泥石流模拟平台将降雨工况设为前期降雨和强降雨拟定实验工况:

前期降雨:采用10 mm/h雨强,共需降雨历时60 min,分为2个阶段,降1 h,停1 h。

强降雨:采用100 mm/h雨强,共需降雨历时30 min,分为2个阶段,降0.5 h,停1 h。

模拟降雨期间载土箱通过液压升降杆保持在30°,监测系统每隔1 s采集一次数据,实验最终获得20 000组数据,用于坡面泥石流数据建模。

根据得到的坡面泥石流数据集,绘制的坡面泥石流传感器数据归一化曲线如图7所示。

分析坡面泥石流过程与不同传感器数据之间的关系,得出如下结论:

1) 降雨量是坡面泥石流发生的诱发因素,它的变化直接影响土壤含水率的变化。

2) 随着降雨的进行,地表水逐渐入渗到地下,深层含水率会逐渐提高。在整个坡面泥石流形成到滑流再到稳定的过程中,浅层含水率的增长速率会逐渐减小,深层含水率的大小最后与浅层含水率相近。

3) 随着土壤整个土层含水率发生变化,土壤抗剪强度也随之发生变化。本文使用剪切波速表征土壤抗剪强度的大小,土壤含水率未达到临界含水率时,土壤抗剪强度与剪切波速存在正相关的关系;反之,土壤抗剪强度与剪切波速存在负相关的关系[12]。在地表位移发生之前,剪切波速有明显的上升趋势,土压力同样增加,都可以作为坡面泥石流发生的前兆预警特征。

4) 当坡体进入滑流阶段之前,土壤含水率达到饱和,不再出现明显增加的趋势;随着强降雨的进行,土体进入滑流阶段,呈现流动状,地表位移急剧增加。

5) 进入稳定阶段后,土体背坡面径流影响减小,土壤表面的冲刷和侵蚀作用减弱。

坡面泥石流风险预测模型的训练过程是使用滑动窗口,关于DA⁃TCN⁃BiGRU方法,已在本文第1节中详细阐述。

DA⁃TCN⁃BiGRU的输入为过去时间步的5类传感器数据,坡面泥石流风险预测的目的是预测未来时间步的坡面泥石流风险度。因此,预测模型的输出为下一时间步坡面泥石流风险度大小。训练集、验证集与测试集数据的比例为6∶3∶1。训练过程使用监督学习的方法,并20次迭代训练DA⁃TCN⁃BiGRU的模型参数。

3 "风险评估方法与模型测试

3.1 "风险评估方法

由坡面泥石流模拟实验平台得到的传感器数据无法直接反映坡面泥石流过程的风险程度,因此需要对数据进行特征提取,得到综合评价指标,即坡面泥石流风险度,坡面泥石流风险度表征坡面泥石流即将发生的风险程度。观察剪切波速和土压力数据可知,第一次地表位移发生之前,剪切波速有一段明显上升的趋势,之后每一次发生位移前,土压力以及剪切波速都会有逐渐增大的预警特征,这点可以作为坡面泥石流风险度的重要特征。

对坡面泥石流传感器数据进行风险评估的方法众多,本文采用TOPSIS熵值法得到坡面泥石流风险度,流程如图8所示。

TOPSIS熵值法处理传感器数据的流程为:首先将坡面泥石流传感器数据进行简单的预处理,之后利用归一化的数据计算权重[pij]、熵值[ej],公式如下:

[pij=xiji=1Nxij] " " " "(15)

[ej=-1lnNi=1Npijlnpij, "ej∈[0,1]] " " "(16)

计算每个数据对应的信息熵,并计算信息效用值,公式如下:

[dj=1-ej] " " " " " "(17)

信息效用值就是差异系数,信息效用值越大,对应的信息量也就越多。

然后确定传感器数据的权重大小,公式为:

[ωj=djj=1Ndj] " " " " (18)

再对数据进行归一化和标准化,并构造加权矩阵,公式如下:

[zij=xiji=1Nx2ij] " " " " " " (19)

[z*ij=zij⋅wj] " " " " " "(20)

寻找最优方案[z*+ij]和最劣方案[z*-ij],并确定最优距离[D+i]和最劣距离[D-i],构造相似度Ci,公式如下:

[z*+ij=max(z+1,z+2,…,z+i)z*-ij=max(z-1,z-2,…,z-i)] " " " (21)

[D+i=j(z*ij-z*+ij)2D-i=j(z*ij-z*-ij)2] " " " " " " "(22)

[Ci=D-i(D+i+D-i)] " " " " " " " "(23)

最后按照相似度大小Ci进行排序,得到最终的坡面泥石流风险度大小。本文改进了最后的风险度大小,加大了土压力和剪切波速的权重,改进后的风险度计算公式如下:

[Ri=λSi+(1-2λ)Ci] " " " " (24)

式中:[Si]表示第i个时间步的传感器土壤应力和剪切波速的数据;[Ci]表示第i个时间步的原坡面泥石流风险度大小;[λ]表示加权的权重大小;[Ri]表示第i个时间步的改进后坡面泥石流风险度。具体权重大小可人为设定或根据智能优化算法选取,此处人为设定[λ=0.3]。

图9所示为坡面泥石流风险度曲线。对比坡面泥石流过程中的位移、土压力、剪切波速以及改进前后的坡面泥石流风险度可知:改进前的坡面泥石流风险度更大程度上反映的是坡面泥石流位移量的变化情况,当位移量增大时,风险度迅速增加;改进后的坡面泥石流风险度加大了土压力和剪切波速的因素,不仅反映位移量的改变情况,也具有前兆预警特征。原因是剪切波速和土压力具有预警先兆,刚开始发生位移变化的前一段时刻,剪切波速具有明显上升的趋势;之后每次位移变化前,土压力增大,反映了坡面泥石流即将发生较大滑流的特征。改进后的坡面泥石流突出了具有先兆预警特征的传感器数据,能提前反映坡面泥石流即将遇到的风险情况。

3.2 "模型性能对比实验

为测试DA⁃TCN⁃BiGRU模型的性能,对比GRU、BiGRU、TCN、TCN⁃BiGRU和自注意力机制时间卷积和双向门控循环单元(ATCN⁃BiGRU)。评价性能好坏的指标为平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE),具体公式如下:

[MAE=1Ni=1Nyi-yi] " " " " " " (25)

[RMSE=1Ni=1N(yi-yi)2] " " nbsp; "(26)

[MAPE=1Ni=1Nyi-yiyi×100%] " " " "(27)

模型运行环境为:R5⁃5600G CPU,Windows 11,NVIDIA GeForce GTX 3060 GPU,16 GB内存,Python 3.6,Keras 2.6.0,TensorFlow 2.6.0。模型测试分为两类滑动窗口,分别是100⁃10和100⁃50,分别反映不同的输入数据长度与预测长度。DA⁃TCN⁃BiGRU模型的参数设置为:滤波器filters=32,批次大小batch size=128,卷积核大小kernel size=8,单元数gru_units =16。其中注意力机制的激活函数为Softmax,TCN模型的参数设置为:滤波器filters=32,批次大小batch size=128,卷积核大小kernel size=8。LSTM、GRU、BiLSTM和BiGRU模型的参数设置为:单元数为16,深度为32层,激活函数为ReLU,优化算法为Adam,初始学习率为0.001,后续会根据损失函数调整学习率。为防止过拟合,均采用正则化dropout=0.2。不同的模型分别测试20次,统计每个模型性能指标的平均值,性能对比统计的结果如表1所示。

表1表明:当滑动窗口为100⁃10时,DA⁃TCN⁃BiGRU的RMSE、MAE和MAPE指标较低,相较于GRU分别下降了82.01%、75.71%和76.46%,相较于BiGRU分别下降了65.43%、51.42%和52.88%,相较于TCN⁃BiGRU分别下降了36.64%、37.34%和37.25%,相较于ATCN⁃BiGRU分别下降了13.05%、10.59%和10.23%;当滑动窗口设置为100⁃50时,DA⁃TCN⁃BiGRU的RMSE、MAE和MAPE指标相较于GRU分别下降了74.77%、71.03%和72.25%,相较于BiGRU分别下降了66.91%、56.92%和58.28%,相较于TCN分别下降了57.13%、46.81%和50.97%,相较于TCN⁃BiGRU分别下降了20.13%、24.11%和24.31%,相较于ATCN⁃BiGRU分别下降了7.14%、10.08%和11.39%。

对比不同预测长度的模型性能,可知预测长度越短,性能指标越小,预测效果越佳。当预测长度较长时,注意力机制捕获长时间依赖特性愈发凸显。对比ATCN⁃BiGRU和DA⁃TCN⁃BiGRU模型,DA⁃TCN⁃BiGRU中双注意力机制可以最大程度上降低信息损失,进一步提高模型的准确性。

为更加直观地展现出坡面泥石流风险预测的实际误差情况,绘制出不同模型的误差绝对值曲线,如图10、图11所示。

图10和图11直观展现了模型预测2 000个时间步时坡面泥石流风险度的误差情况。在窗口100⁃10中,误差从高到低分别为GRU、BiGRU、TCN、TCN⁃BiGRU、ATCN⁃BiGRU和DA⁃TCN⁃BiGRU;在窗口100⁃50中,误差从高到低分别为GRU、BiGRU、TCN、TCN⁃BiGRU、ATCN⁃BiGRU和DA⁃TCN⁃BiGRU。

图10和图11结果表明,DA⁃TCN⁃BiGRU模型的误差最低,预测效果较好。对比两种窗口可知:预测长度越长时,模型的误差越大,预测难度越大;有注意力机制的ATCN⁃BiGRU和DA⁃TCN⁃BiGRU效果较佳,其中DA⁃TCN⁃BiGRU的预测精度较高。

4 "结 "语

坡面泥石流风险预测是岩土工程、计算机科学等学科的交叉研究领域。本文进行了坡面泥石流模拟实验,通过实验得到5类传感器数据,经过改进后TOPSIS熵值法得到客观的坡面泥石流风险度,表征坡面泥石流发生的风险情况。为了提高预测准确度,将TCN⁃BiGRU引入坡面泥石流风险预测领域,并融合双注意力机制,考虑了重要信息对预测的影响,有效提取了传感器数据的特征。由对比实验结果可知,DA⁃TCN⁃BiGRU模型在坡面泥石流风险预测方面具有有效性和可行性。

注:本文通讯作者为李青。

参考文献

[1] 王子寒,张彪,景晓昆,等.土工格室防治坡面型泥石流启动机理研究[J].自然灾害学报,2022,31(5):140⁃149.

[2] 疏杏胜,王子茹,李福威,等.基于机器学习模型的短期降雨多模式集成预报[J].南水北调与水利科技,2020,18(1):42⁃50.

[3] 唐旺,马尚昌,陈锐.基于LSTM的川西北地区降雨型泥石流预警方法[J].桂林理工大学学报,2020,40(4):719⁃725.

[4] HEWAGE P, BEHERA A, TROVATI M, et al. Temporal con⁃volutional neural (TCN) network for an effective weather forecasting using time⁃series data from the local weather station [J]. Soft computing, 2020, 24(21): 16453⁃16482.

[5] HIRSCHBERG J, BADOUX A, MCARDELL B W, et al. Limita⁃tions of rainfall thresholds for debris⁃flow prediction in an Alpine catchment [EB/OL]. [2022⁃12⁃11]. https://www.xueshufan.com/publication/3164977424.

[6] 熊江,唐川,陈明.泥石流早期识别与监测预警研究进展探讨[J].自然灾害学报,2021,30(1):165⁃173.

[7] BAI S, KOLTER J Z, KOLTUN V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling [EB/OL]. [2023⁃01⁃14]. https://blog.csdn.net/LawenceRay/article/details/89789231.

[8] XU Y, HU C, WU Q, et al. Application of temporal convolu⁃tional network for flood forecasting [J]. Hydrology research, 2021, 52(6): 1455⁃68.

[9] WAN R, MEI S, WANG J, et al. Multivariate temporal convolu⁃tional network: a deep neural networks approach for multivariate time series forecasting [J]. Electronics, 2019, 8(8): 876.

[10] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. California: ACM, 2017: 6000⁃6010.

[11] 余国安.两类泥石流形成机制的再讨论[J].自然灾害学报,2022,31(1):238⁃250.

[12] 吴鑫,李青.基于剪切波波速的土体抗剪强度测量装置研制[J].科技通报,2022,38(1):73⁃76.

[13] REN Yajie, ZHAO Dong, LUO Dan, et al. Global⁃local temporal convolutional network for traffic flow prediction [J]. IEEE transcation on intelligent transportation systems, 2022, 23(2): 1578⁃1584.