张健飞 叶亮 王磊
摘 要:混凝土坝变形测点数据丢失或者新增测点测量时间太短都会导致这部分测点的数据量不足,使得变形预测精度受到影响。为了提高这些小数据量测点的变形预测精度,提出了将时域卷积网络(TCN)与迁移学习相结合的变形预测方法。以数据量充足的测点为源域,以缺少数据的测点为目标域,将在源域上训练好的TCN 模型的结构和参数迁移到目标域模型中,固定其中的冻结层参数,利用目标域中的数据对目标域模型可调层参数进行调整。同时,采用动态时间规整选择与目标域数据序列相似度最高的监测数据作为最佳源域数据,提升迁移学习效果。工程实例分析表明:迁移学习后的目标域模型的均方根误差和平均绝对误差与利用足量数据训练的TCN 模型的预测误差相比,差异仅分别为1.73%和8.09%,小数据量情况下TCN 预测模型的精度得到了提高。
关键词:时域卷积网络;迁移学习;动态时间规整;变形预测
中图分类号:TV698.1 文献标志码:A doi:10.3969/ j.issn.1000-1379.2024.04.024
引用格式:张健飞,叶亮,王磊.基于TCN 和迁移学习的混凝土坝变形预测方法[J].人民黄河,2024,46(4):142-147.
混凝土坝是大坝的主要坝型之一,目前全球坝高250 m 以上的大坝超过一半为混凝土坝。这些混凝土坝在运行过程中受到循环荷载、环境侵蚀、人为破坏及自然灾害等因素作用,局部和整体安全性能将逐步下降。变形是一种能够直观反映混凝土坝安全状态的综合效应量。通过大坝变形分析和预测,能够实时掌握大坝工作性态、及时诊断大坝异常,因此依据实测数据建立变形预测模型对混凝土坝的安全运行具有重要意义[1] 。目前,应用较广的混凝土坝变形预测模型主要有统计模型、确定性模型、混合模型、组合模型、时空分布模型和人工智能模型等[2] 。
随着深度学习的快速发展,长短期记忆网络(LongShort?Term Memory,简称LSTM)和卷积神经网络(Convo?lutional Neural Networks,简称CNN)等深度神经网络已经在混凝土坝变形预测中得到了应用。其中LSTM 在长时间序列数据学习训练中克服了梯度爆炸和梯度消失的瓶颈,具有较强的长序列数据学习能力,在混凝土坝变形预测中研究成果较多[3-5] ,但LSTM 模型的每一步预测都依赖上一步的隐藏状态,并行性较差,且存在训练耗时长、处理长序列时容易丢失信息等问题[6] 。时域卷积网络( Temporal Convolutional Network, 简称TCN)的提出为时间序列建模提供了一种新的思路。TCN 由具有相同输入和输出长度的膨胀因果卷积层组成,具有占用内存小、梯度稳定、并行性好和感受野灵活的优点,较之LSTM 等循环神经网络,概念更加简洁明了,记忆能力更加长久[7] ,已经在降水量预测[8] 、天气预测[9] 和用电量预测[10] 等方面得到了较多应用,并开始用于大坝变形预测[11] 。
LSTM 和TCN 等深度学习模型虽然都取得了优良的预测效果,但是其训练需要足够长的连续监测序列数据。实际工程中,有的大坝变形测点因仪器故障、误操作等而造成前期监测数据大量丢失,有的新建测点因监测周期短而使得监测数据偏少。对于这些监测数据不足的情况,深度学习模型容易出现过拟合,模型的泛化性能变差、预测精度下降。因此,有必要研究在缺少监测数据条件下的深度学习预测模型的有效训练问题。迁移学习是一种将源域中学习到的知识迁移到目标域的学习过程。采用迁移学习,可以将具有足量数据的同类或者不同类测点的信息迁移到数据量不足的测点,从而在一定程度上解决训练样本不足的问题,分为基于模型、基于实例、基于特征和基于关系的迁移学习4 类。目前,在时间序列预测领域,基于模型的迁移学习研究较多,其次是基于实例的迁移学习,而基于特征和关系的迁移学习相对较少。王学智等[12] 提出了一种土壤湿度时空预测模型,采用三维卷积层和长短期记忆网络提取源域中的空间和时间特征,利用目标数据集对网络参数进行微调。史凯钰等[13] 以数据充足的光伏系统为源域,以数据有限的光伏系统为目标域,建立了一种基于LSTM 的光伏发电功率预测模型。Ma 等[14] 提出了一种基于迁移学习的双向LSTM 空气质量预测模型,以小时间分辨率数据为源数据,以大分辨率数据为目标数据,采用源数据对模型进行预训练,采用目标数据对剩余网络层进行调整。Hu 等[15] 采用具有丰富数据的已建风电场的数据对深度神经网络进行训练,利用新建风电场的数据对网络参数进行微调,实现不同风电场信息的相互迁移。Chen 等[16] 采用TrAdaBoost 算法建立了一种基于实例迁移的LSTM 模型,从相关测点完整监测数据中获取有用的信息,实现大段连续缺失数据的填补。
本文提出一种基于TCN 和迁移学习的混凝土坝变形预测方法,用于在缺乏足够监测数据条件下建立有效的变形预测模型。首先以具有足够监测数据的测点为源域,以缺乏数据的测点为目标域,采用TCN 建立源域和目标域的预测模型,然后根据动态时间规整(Dynamic Time Warping,简称DTW)距离选取与目标域数据相似度最高的源域数据对源域模型进行训练,目标模型的低层网络权重直接从源域模型中获取,高层网络权重在源域模型权重的基础上利用目标域数据进行调整,从而实现源域知识向目标域的迁移,提高监测数据量不足情况下的变形预测精度。
1 基于TCN 和迁移学习的预测模型
1.1 时域卷积网络
TCN 是一种用于时间序列建模的卷积神经网络,核心组件是因果膨胀网络,其主要特点是:网络的输入与输出具有因果关系,感受野的大小可以通过改变超参数进行调整。假设输入序列为{x0,x1,…,xT },预测输出序列为{y0,y1,…,yT },时刻t 的预测值yt 由输入序列值的卷积运算得到,并且满足因果关系,即yt只依赖于t 时刻及之前的输入x0、x1、…、xt ,而与未来的xt +1、xt +2、…、xT无关,这种卷积被称为因果卷积。对于时间序列预测,网络通常需要记忆长期的信息,也就是需要TCN 具有足够大的感受野。原始的因果卷积的感受野与网络深度成线性关系,为扩大模型的感受野,需要堆叠较多的卷积层,从而增加了网络训练的计算量和难度。TCN 中使用了膨胀卷积,在卷积核的相邻节点间设置特定数量的空隙,从而使得感受野大小与网络深度成指数关系,在不改变卷积核大小的情况下可以获取更大范围的信息。因果膨胀卷积输出序列的第s 个元素的卷积运算函数F(s)定义为
式中:fi为卷积核,k 为卷积核尺寸,d 为膨胀因子。
在膨胀卷积中通常按网络深度的指数方式增大膨胀因子,这样可以保证卷积操作覆盖到有效范围内的所有输入元素。深层网络在训练过程中容易出现梯度消失和梯度爆炸的问题,残差链接被证明是训练深层网络的有效方法,它使得网络能够跨层传递信息。本文用于混凝土坝变形预测的TCN 模型结构如图1 所示,包括输入层、若干膨胀卷积残差块和输出层。
每个膨胀卷积残差块由膨胀因果卷积层、ReLU激活层和随机失活层(Dropout)组成。输入序列{x0,x1,…,xT }依次经过若干个膨胀卷积残差块,在每个残差块中,输入元素经过一系列变换后得到的元素与原始输入元素相加,并通过ReLU 激活层、随机失活层运算得到输出元素。
TCN 预测模型由残差块完成对输入序列时间特征的提取,输出层为全连接层,负责将残差块的多维输出元素组合后作为下一时刻的预测值。
1.2 迁移学习
迁移学习涉及源域Ds 、源任务Ts 和目标域Dt 、目标任务Tt 。迁移学习的目标就是在Ds ≠Dt 或者Ts ≠Tt的情况下,用Ds 和Ts 的知识,来提升目标任务Tt 的完成效果。本文采用的是基于模型的迁移学习方法,源域为具有足够长变形监测数据序列的测点,源任务为源域测值的预测,目标域为变形监测数据量不足的测点,目标任务是目标域测值预测,通过迁移学习将源域上训练好的模型结构和参数选择性迁移到目标域模型中,为目标域提供有价值的信息,提升目标域的测值预测能力。
迁移学习流程如图2 所示,在迁移过程中,预训练网络的若干低层残差块为冻结层,高层残差块和输出层为可调层,也就是说在利用目标域数据进行训练时,只对高层残差块和输出层的参数进行调整,其余各层的参数保持不变,从而大大减少了训练参数,降低了对训练数据量的要求。迁移学习具体步骤如下。
1)预训练。建立源域变形预测TCN 模型,利用源域数据对源域模型进行训练,保存模型的结构和参数。
2)网络调整。读取源域模型结构和参数,建立目标域变形预测模型,利用目标域数据对目标域模型进行训练,训练过程中固定冻结层参数,仅对可调层参数进行调整。
3)网络验证。将目标域测试集数据输入目标域模型得到预测值,与实测值对比,分析迁移后的模型性能。
1.3 基于动态时间归整的时间序列相似度匹配
迁移学习并不总是有效的,当源域和目标域数据分布差异较大时会出现负迁移现象,即源域知识反而会导致目标域学习性能下降。本文采用DTW 方法衡量源域和目标域数据序列的相似度,选取相似度最高的源域数据对目标域预测任务进行增强。DTW 是一种比较两个长度不同的时间序列的方法,其基本原理是通过对两个时间序列进行局部拉伸和压缩,使其相互之间尽量相似,然后通过累加对齐点之间的距离得到时间序列之间的距离,用于衡量时间序列之间的相似度[17] 。目前,DTW 方法已经在语音识别[18] 、手势识别[19] 和故障诊断[20] 等领域得到了广泛应用。
给定两个长度分别为n 和m 的时间序列Q ={q1,q2,…,qn }和C ={c1,c2,…,cm },构造一个n×m 的矩阵D,矩阵中元素qi和cj 的距离为d(qi ,cj ),一般为欧氏距离。规整路径W 为一条通过矩阵D 中若干格点(i,j)的路径,路径通过的格点即两个序列进行计算的对齐点。W 的第k 个元素定义为wk = (i,j)k ,从而得到规整路径:
W ={w1,w2,…,wK } [max(m,n)≤K≤m+n+1](2)
这条路径需要满足连续性和单调性约束,因此如果路径已经通过了格点(i,j),那么下一个通过的格点只可能是(i+1,j)、(i,j+1)或(i+1,j+1)。满足这些约束条件的路径很多,动态时间规整的目的就是在这些路径中找到一条累计距离最小的最优路径。为了求解最优路径,构建累计距离矩阵γ,其中的元素γ(i,j)为當前格点距离d(qi ,cj )与可以到达该点的邻近元素的最小累计距离之和:
γ(i,j)= d(qi ,cj )+min[γ(i-1,j-1),γ(i-1,j),γ(i,j-1)](3)
采用动态规划算法求解式(3),从(0,0)点开始匹配时间序列Q 和C,到达终点(n,m)后,得到的累计距离就是最后的DTW 距离,距离越小表示这两个时间序列越相似。
2 实例验证与分析
2.1 工程实例
某混凝土重力坝,坝顶高程117.5 m,最大坝高85.83 m,坝顶总长719.7 m,共分为34 个坝段,如图3所示。大坝和船闸的水平位移采用垂线及引张线进行观测,垂直位移主要采用静力水准观测,引张线和静力水准测点均接入自动化监测系统,每天自动观测1 次。本文所使用的变形测点布置如图3 所示,包括:坝顶引张线测点EX2-7、EX2-8、EX2-13、EX2-14 和EX2-21,廊道引张线测点EX1-8,以及船闸闸墙引张线测点SS41;坝顶静力水准测点J9、J10、J15、J21、J26 和坝基静力水准测点JJ15-1。引张线测点监测时段为2005-01-01—2021-02-27,坝顶静力水准测点监测时段为2004-04-15—2021-03-23,坝基静力水准测点的监测时段为2006-06-10—2021-03-14。大坝变形主要受温度影响,呈现较强的年周期变化规律,船闸闸墙主要受温度和闸室水位影响。
为了对TCN 进行训练,需要采用滑动窗口的方法把原始监测序列数据转化为一系列子序列,形成如式(4)所示的数据对:
{ST - W ,ST -( W -1) ,…,ST -2,ST -1}→{ST } (4)
式中:{ST - W ,ST -( W -1) ,…,ST -2,ST -1}为输入序列;{ST }为预测值;W 为滑动窗口的宽度,也是输入序列的长度。
滑动窗口每次向前移动1 步,从而对于长度为N的监测序列数据,可以形成N -W +1 个数据对,作为TCN 的训练和测试样本。
2.2 网络超参数
神经网络模型的结构和超参数对其性能具有很大的影响,本文利用EX2-14 测点的实测数据和网格搜索法对神经网络结构和参数进行搜索寻优,模型的评价指标采用5 折交叉验证均方根误差。TCN 网络的搜索超参数包括:残差块中膨胀卷积的卷积核尺寸和卷积核个数,搜索格点分别为2、4、8 和16、32、48,共计9种超参数组合。搜索得到的最优超参数组合为:卷积核尺寸2,卷积核个数32。残差块的个数根据输入序列长度与感受野覆盖关系确定,分别测试了输入序列长度为15、30、60 三种情况,当输入序列长度取值30时,预测效果最好,因此本文输入序列长度统一取30。根据TCN 网络感受野要能覆盖输入序列长度的要求,本文TCN 包括5 个膨胀卷积残差块,每个残差块中的膨胀因子分别为1、2、4、8 和16。
LSTM 网络参与比较。分别对包含1 层、2 层和3层LSTM 的网络结构的不同超参数组合进行了比选,搜索超参数为每一层LSTM 的输出维度,搜索格点为16、32、48。一层LSTM 结构共计3 种超参数组合,二层结构共计9 种超参数组合,三层结构共计27 种超参数组合,综合考虑精度和效率后选用二层网络结构,每层输出维度均为32。
2.3 TCN 预测结果与分析
为了检验TCN 在混凝土坝变形预测中的效果,本文采用图3 所示测点的监测数据对TCN 进行训练和测试,并与LSTM 网络进行了比较,训练集、验证集和测试集的划分比例取6 ∶ 2 ∶ 2。各测点在测试集上的均方根误差( 简称RMSE) 和平均绝对误差( 简称MAE)见表1。可知:TCN 和LSTM 在总体上具有较高的预测精度,TCN 在多数测点上的精度略高于LSTM,对于如图4 和图5 所示规律性较差的JJ15-1 测点以及测试集存在突变段的EX2-21 测点,TCN 的预测精度明显高于LSTM,说明TCN 具有更强的时间特征挖掘能力和预测能力。
2.4 迁移学习结果分析
为了说明训练数据量对模型精度的影响, 以EX2-14测点为例,分别截取原始训练数据序列长度的100%、75%、50%、25%、10%和5%作为训练数据集,即训练数据序列长度分别为5 269、3 952、2 635、1 317、527 和263。测试集统一取最后一年的监测数据,其有效监测期数为359,避免测试集样本及其数量的不同造成预测误差计算的基准不同,使得误差不具有可比性。图6 为TCN 模型在EX2-14 测点不同长度训练数据集上10 次计算的预测结果的箱线图。数据足量时误差均值最小,RMSE 和MAE 分别为0.392 3 mm 和0.206 5 mm,随着训练数据量的下降,预测误差的均值逐渐增大,预测误差分散程度也逐步增大,当训练数据量较大时误差增大幅度較小,且运算结果稳定,当数据量降为原有数据量的10%以下后,误差大幅增大,预测结果更加分散,当数据量降至原有数据量的5%时误差均值最大,RMSE 和MAE 分别为0.750 5 mm 和0.524 8 mm,说明训练数据量对于模型的精度和稳定性都具有重要影响。
为了验证本文提出的迁移学习策略的效果,选取具有5%训练数据长度的引张线测点EX2-14 作为数据量不足的目标域,以表2 中的其他测点作为源域,这些源域数据集的选取分别考虑了坝段类型、测点类型和距离等因素。同时,为了选取最佳迁移方案,分别对3 种不同的迁移方案进行了测试:方案1,图2 中仅输出层可调整;方案2,卷积残差模块5 和输出层可调整;方案3,卷积残差模块4、5 和输出层可调整。表2给出了不同源域和不同迁移方案的迁移学习效果。可知:与图6 中同等训练数据量的预测结果相比,经过迁移学习后的目标域模型的预测精度较迁移学习前得到了大幅提高,不同源域的迁移效果各不相同,迁移方案2和3 整体上优于方案1,方案3 较之方案2 没有明显效果提升,说明过度增加可调整层不能进一步提高迁移效果。因此,本文选取迁移方案2 作为最终的迁移方案。
考虑到监测数据缺失周期内大坝不同测点对不同工作状态的反应可能存在不一致的情况,从而造成这些测点的监测数据之间存在较大差异。为了选取最佳源域测点,获取最佳的迁移学习效果,采用DTW 方法衡量源域监测序列与目标域监测序列的相似度,选择相似度最高即DTW 距离最小的监测序列作为源域数据。DTW 距离越小,通常迁移学习效果越好(见表2),从图7 也可以看出,DTW 距离与迁移学习后的预测误差基本为正线性相关,随着DTW 距离的减小,预测误差相应减小。因此,DTW 距离可以作为源域选取的依据,即选取DTW 距离最小的测点作为源域。
数据量不足的EX2-14 测点经过最佳源域测点EX2-13 迁移学习后,目标域TCN 模型在测试集上RMSE 和MAE 分别为0.399 1 mm 和0.223 2 mm,与利用足量数据训练的模型预测误差相比,其差异仅分别为1.73%和8.09%。经过最佳源域测点EX2-13 迁移学习后目标域TCN 模型在测试集上的预测曲线及其与迁移前的比较见图8。可以看出:迁移学习后目标域模型的预测精度得到了很大提高,预测曲线与实测曲线更加吻合。说明选择合适的源域,经过迁移学习,可以大幅提高缺少数据的目标域TCN 模型的预测精度。
3 结论
首先建立了混凝土坝变形预测的TCN 模型,然后针对缺少数据的测点,采用迁移学习策略,将数据量充足的源域中学习到的知识迁移到缺少数据的目标域,提升小数据序列情况下TCN 模型的预测能力。主要结论如下:
1)混凝土坝变形预测的TCN 模型具有较高的预测精度,特别是对于比较复杂的变形监测序列,较之LSTM 模型能够取得更高的预测精度;
2)通过模型迁移,可以将数据量充足的源域预测模型的知识迁移至数据量不足的目标域模型,从而提升目标域模型的泛化能力和预测精度;
3)通过DTW 可以选择与目标域数据相似度高的监测数据作为源域数据,进一步提升迁移学习效果。
本文所述迁移学习是在同一工程的不同测点之间的知识迁移,未来还将研究不同工程之间的迁移学习问题。
参考文献:
[1] 周仁练,苏怀智,韩彰,等.混凝土坝变形的长期预测模型与应用[J].水力发电学报,2021,40(9):122-131.
[2] 吴中如,陈波.大坝变形监控模型发展回眸[J].现代测绘,2016,39(5):1-3,8.
[3] 胡安玉,包腾飞,杨晨蕾,等.基于LSTM-Arima 的大坝变形组合预测模型及其应用[J].长江科学院院报,2020,37(10):64-68,75.
[4] 周兰庭,柳志坤,徐长华.基于WA-LSTM-ARIMA 的混凝土坝变形组合预测模型[J].人民黄河,2022,44(1):124-128.
[5] YANG Dashan,GU Chongshi,ZHU Yantao,et al.A ConcreteDam Deformation Prediction Method Based on LSTM with At?tention Mechanism[J].IEEE ACCESS,2020,8:185177-185186.
[6] 左乘旭,胡文俊.基于Attention-TCN 的液化气日订单量预测模型[J].计算机应用,2022,42(增刊1):87-93.
[7] 王军,高梓勋,单春意.基于TCN-Attention 模型的多变量黄河径流量预测[J].人民黄河,2022,44(11):20-25.
[8] 徐冬梅,王亚琴,王文川.基于VMD-TCN 的月降水量预测模型[J].水文,2022,42(2):13-18.
[9] 孔震,张华鲁,岳圣凯,等.基于时域卷积网络的多尺度双线性天气预测模型[J].图学学报,2020,41(5):764-770.
[10] 李扬帆,张凌浩,雷勇,等.基于时间卷积网络和门控循环单元的短期用电量预测方法[J]. 水电能源科学,2021,39(8):198-201,173.
[11] 曾欣,马力,戴子卿.基于动态MIC 优化TCN 的混凝土坝变形预测模型研究[J].水力发电,2022,48(10):58-63.
[12] 王学智,李清亮,李文辉.融合迁移学习的土壤湿度预测时空模型[J].吉林大学学报(工学版),2022,52(3):675-683.
[13] 史凱钰,张东霞,韩肖清,等.基于LSTM 与迁移学习的光伏发电功率预测数字孪生模型[J].电网技术,2022,46(4):1363-1372.
[14] MA J,CHENG J C P,LIN C,et al.Improving Air QualityPrediction Accuracy at Larger Temporal Resolutions UsingDeep Learning and Transfer Learning Techniques[J].At?mospheric Environment,2019,214(C):116885.
[15] HU Qinghua,ZHANG Rujia,ZHOU Yucan.Transfer Learningfor Short?Term Wind Speed Prediction with Deep Neural Net?works[J].Renewable Energy,2016,85:83-95.
[16] CHEN Zeng,XU Huan,JIANG Peng,et al. A TransferLearning?Based LSTM Strategy for Imputing Large?ScaleConsecutive Missing Data and Its Application in a WaterQuality Prediction System[J].Journal of Hydrology,2021,602:126573.
[17] GIORGINO T.Computing and Visualizing Dynamic TimeWarping Alignments in R: The DTW Package[J].Journalof Statistical Software,2009,31(7):1-24.
[18] 祝禛天,焦继业,刘泽琛.语音识别中动态时间规整算法的硬件加速实现[J].电子设计工程,2022,30(7):21-25.
[19] 杨尊俭,张淑军.基于DTW 和CNN 的仿真驾驶手势识别及交互[J].重庆理工大学学报(自然科学),2021,35(2):144-151.
[20] 万书亭,马晓棣,陈磊,等.基于振动信号短时能熵比与DTW 的高压断路器状态评估及故障诊断[J].高电压技术,2020,46(12):4249-4257.
【责任编辑 张华岩】
基金项目:国家自然科学基金资助项目(12072105)