于海英,王文斌,解全才,马迎春
(1.中国地震局工程力学研究所地震工程与工程振动重点实验室,黑龙江哈尔滨 150080;2.地震灾害防治应急管理部重点实验室,黑龙江哈尔滨 150080)
大地震工程震害表明近断层地面永久位移是建筑物或公路结构物(如大跨桥梁)最终倒塌的主要原因,永久位移的求解是地震工程领域中难解的课题之一,备受关注。然而,我国强震动台网主要利用滤波技术的传统强震动记录零基线校正方法,仅能满足地面运动没有永久位移的情况,难以求解有仪器墩发生倾斜的大地震近断层地面永久位移,且目前现有方法依赖于研究者主管选取仪器倾斜时刻,难以实现大规模的自动化基线校正。
在利用近断层强震加速度记录计算位移时程时,理论上的理想情况是经过2 次积分后可以得到稳定的永久位移,但实际上由于仪器噪声和仪器倾斜的因素导致基线偏移的问题始终存在。在长时间以来,各国研究者都对该项研究提出了独创的解决办法。
Iwan 等[1]、Boore 等[2]对力平衡式加速度计进行过广泛的研究。其基本思想是通过对加速度进行积分,从而得到速度时程,利用速度末端直线进行拟合,获取拟合的直线的斜率,再从加速度时程中逐点减去斜率量值,而后对加速度进行2次积分,从而得到永久位移。最后通过与具有GPS的台站数据进行对比来确定方法的可行性。因此此类方法会对于GPS 数据有一定的依赖性,从而无法给出唯一的基线校正结果,无法准确确定永久位移。
长短期记忆模型LSTM(long-short term memory)相比于其他神经网络模型,更适合处理时间序列数据,已经被广泛应用于各类信号处理[3]。由于地震动记录是在一个时间维度上,且具有连续性和相关性的一组时间序列数据,因此选择LSTM模型作为文中的基本方法是可行的。
文中基于Iwan、Boore的方法,选择包含汶川地震,日本311地震,四川庐山地震,台湾集集地震获得的强震动记录作为数据集。提出一种基于LSTM模型的近断层强震动记录的零基线校正方法,通过对LSTM进行训练,使其对强震动记录进行识别分类。利用噪声参数模型修正法对原有强震动记录进行修正,然后交由长短期记忆模型进行判别,如果基线校正完全则作为校正后结果输出,反之则调节步长,再次校正。从而克服传统强震动记录零基线校正方法单一性,突破难以求解大地震近断层永久位移的瓶颈,解决大地震近断层地面运动的研究停留在对峰值加速度和反应谱的研究阶段的困惑,满足建筑物或公路结构物抗震对地面永久位移的需求。
训练数据集由1 214条汶川地震强震动记录,758 条日本311 地震强震动记录,1 011 条四川庐山地震强震动记录,1 000条台湾集集地震强震动记录,共计3 983 条强震动记录组成,国内强震动记录来源于国家强震动数据中心,日本强震动记录来源于K-net。数据集涵盖了国内外加大规模的地震的强震动记录,因此训练出的方法应具有普遍性。其具体的强震动记录的断层距占比统计分布如图1所示。
从图1中可见,所用强震动记录的断层距涵盖范围较大,因此数据应具有比较好的代表性。文中不仅收集了大量的近断层强震动记录,还收集了大量中远场的强震动记录,因此,训练数据集可以满足多次地震中所能得到的强震动记录群训练LSTM模型的需要。
图1 强震动记录的断层距占比Fig.1 The proportion of fault distance recorded by strong motion
从上述数据中挑选3 000 条数据作为训练集,对模型进行优化及训练;取距离断层较近的数据500 条作为验证集,从而判断模型训练的停止时刻;取剩余383条数据作为测试集,用于衡量整个方法的结果好坏。
将同一台站强震动记录利用Hashmap存储,按照EW,US,UD为索引进行存储,从而方便相关映射操作,提高打入数据效率。利用obspy 包中的read 函数进行读取,将其存储在trace 里面,从而形成以0.05s 为单位的时间序列。
利用梯度积分法对上节所述的强震动记录时程数据进行积分,得到速度时程和位移时程,将其按照对应方向存储在EW,US,UD的相应索引下。
强震动记录出现基线偏移,其原因一般分为2 种,一是由于背景噪声,即包含了场地噪声与电磁噪声。背景场地噪声即由于周围环境带来的噪声,包含由于人为活动带来的振动,电磁噪声即仪器本身工作带来的电磁干扰,这一部分往往通过滤波的方式进行过滤,从而减弱其对于最终结果造成的影响。二是基线偏移的主要原因是近断层强震所导致的仪器倾斜,这也是文中要处理的重点。因此基线校正的基本准则,是减少由背景噪声和仪器倾斜带来的基线偏移,使所采集到的强震动记录数据尽可能贴近实际的地面的真实的加速度历程。如图2 为集集地震未经校正的加速度、速度和位移时程图。
图2 集集地震TCU052 EW向的原始加速度时程及一次和二次积分得到的速度时程和位移时程Fig.2 The original acceleration time history of the Jiji earthquake TCU052 in the EW direction and the velocity time history and displacement time history obtained by the first and second integration
自20 世纪80 年代起,强震动零基线校正已经经过40 多年的发展,零基线校正方法可大体上分为2 类,一是由美国地调局(USGS)提出的,针对于低频误差的校正方法,由于其在滤波时会过滤掉本应求解的永久位移,因此文中不做过多赘述。二是源于由加州理工大学Iwan 针对传感器磁滞效应,于1985年提出的加速度零基线校正方法,以及基于其衍生出来的,Boore[4-5]、王国权等[6]提出的单一段拟合速度末端的方法,于海英等[7-8]提出的多段拟合速度末端的方法。Iwan针对传感器的磁滞效应提出的方法是,将加速度时程划分为初始段、震动发生段和结束段。Iwan 提出选取2 个参数t1和t2,来分别代表加速度记录首次到达50 cm/s2阈值的时刻和加速度记录最后一次到达50 cm/s2阈值的时刻,随后基于加速度时程中后两段的偏移值对其进行校正。
但随着力平衡加速度传感器的技术进步和研究的深入,大多数情况基线偏移的原因并不是传感器的磁滞效应,因此基于Iwan 的方法,王国权在处理我国台湾集集地震的时候,将Iwan 的校正方法,简化为V0校正方法。于海英在V0校正方法的基础上,对汶川大地震的近断层强震动记录进行了处理,同时提出了在发生两次或多次震动的情况下进行多段处理的校正方法。荣棉水[9]则引入“位移尾段均方差”,“时移斜率比”,“拟合段标准差”3个参数,对上述方法进行进一步优化,从而确定V0校正法中拟合直线与基线交点以及拟合直线的斜率等,从而基线进行校正。Wu等[10]在之前研究成果的基础上,为了选取最佳的t1和t2的取值,引入了判定参数平坦度的概念,以平坦度最大的一组t1和t2为最佳的校正的取值(WU Y-M,WU C-F,2007)。周宝峰[11]提出利用Hermite插值来优化t1和t2附近的曲线。金明培等[12]多个辅助参数,包含tp即P波到达时刻,tPGA即峰值加速度时刻和te即记录结束时刻,构建了一种自动迭代方法,从而实现了一种自动化基线校正方法,其优势在于可以实现自动化计算,程序实现简单。在2018 年Whitney 博士[13-14]冲识别和线性基线识别的方法,优势在于降低基线校正时主观性和经验性。
综上所述,可以看到基线校正的好坏往往取决于t1和t2的选取,众多研究者也在这个问题上贡献出自己的方法,但这些方法首先是普遍依赖于GPS 位移来验证,因此上述的各种基线校正方法并不能较好地得到唯一的基线校正结果[15],其次是大部分难以实现自动化校正,且具有较强的主观性[16-17]。
文中提出一种新方法,基于长短期记忆模型LSTM 可以很好的解决这个缺陷,利用大量数据的训练从而学习强震动记录的特征,准确预测强震动记录时序数据,并以此为分类来将强震动记录分类,识别其是否得到完全校正和是否还存在基线偏移的情况。并以此为导向对未校正完全的数据进行再次校正从而进一步修正模型。从而唯一确定永久位移开展研究,完善零基线校正方法。
LSTM 模型是一种源于循环神经网络RNN(Recurrent Neural Network)的特殊的RNN,主要是为了解决长序列训练过程中出现的梯度下降和梯度爆炸问题[18-19],相比于传统的RNN 模型只有一个传输状态,长短期记忆模型增加了隐藏层的传输概念,因此,针对一个时间序列来说,LSTM 使用当前的输入和上一个状态传输下来的ht-1拼接训练后得到3个状态。因此LSTM模型不像原有的RNN模型只是单纯的数据叠加,而是可以通过门状态控制,让信息选择性的通过,从而实现记住需要长期记忆的,忘记不重要的信息[20]。
图3 表示LSTM 单个记忆单元的结构。如图所示,LSTM 结构中存在3 个门单元:输入门、记忆门和遗忘门,即当前层数据Xt和上一层的中间信息组合后,令其通过Sigmoid 层。Sigmoid 输出的即是一个向量,每个输出元素都是一个在0 和1 之间的数字,给每个在细胞状态Ct-1中的数字,其具体数字代表了每个部分有多少的量可以通过,1表示“全部保留”,0则代表了完全舍弃。Ct则代表了在神经网络中,不断更新和维护的一个参数,由于每次经过细胞节点,需要保留和丢弃的数据不一致,故会在每一个阶段不断进行更新。It为当前层需要保留的信息,将其与Ct组合记为nCt,根据式(1),
图3 LSTM记忆单元结构【21】Fig.3 LSTM memory cell structure【21】
从而得到Ct。现有输出Xt经过tanh 层和sigmod层最终得到ht.
基于以上所述,将基线校正问题看作为一个多分类问题,对任一记录进行分类,从而对未校正完全的地震记录进行自动化校正。已有的大量研究表明,可以利用神经网络对地震记录进行分类和识别[22],文中主要利用LSTM模型对地震记录进行分类。根据上文数据类型对进行数据集的划分,利用训练集进行训练,而后利用LSTM 模型对末尾阶段的时序数据进行分类预测,从而对输出数据进行分类,从而判断已有加速度时程是否存在基线偏移的情况。基于长短期记忆模型LSTM零基线校正流程如下图4所示。
如图4所示,基于LSTM 的零基线校正方法中确定零基线校正参数是重要步骤,零基线校正参数包括两个时间参数t1和t2。用这2个参数来表征记录中零基线偏移的开始和结束时刻,确定t1和t2具体步骤如下:
图4 长短期记忆模型LSTM零基线校正流程Fig.4 Long and short-term memory model LSTM zero baseline correction process
(1)从整个加速度时程中减去震前部分(0~20 s)的平均值;
(2)计算参数tPGA;
(3)对加速度时程进行积分获得速度时程与位移时程并计算参数tPGD和tf;
(4)建立约束条件:t1位于tD0与tPGA之间,t2位于tPGD与tf之间;
(5)取初值,用V(t)=V0+at拟合速度时程的末尾部分,a为速度时程零线的斜率,求得a和拟合直线与时间轴的交点t1,t2则为最后一次到达该值所对应的时间;
(6)经零基线校正后的数据由LSTM 进行识别,若识别为负则重新调整权重进行再次校正直至识别为正。由于LSTM 主要可以实现时序数列的预测,这里预测的结果就是校正结果是否为正确。确定零基线校正参数的流程图如图5所示。
图5 确定零基线校正参数流程图Fig.5 Flowchart of determining zero baseline correction parameters
参数说明:峰值加速度时刻为tPGA,未校正位移时程中位移最后一次经过0值的时刻为tD0,在tD0前的峰值位移时刻为tPGD,强震动结束时刻为tf,记录结束时刻为te。
由上述流程图中,训练后的长短期记忆LSTM 模型用于判断校正结果,模型的主要作用为分类,将校正后的结果进行分类,对分类结果为负即未校正完全的数据根据步长调整t1和t2后进行再次校正,从而实现自动化校正,并可使校正结果达到相对准确。
根据3.2所示步骤,利用已有数据对模型训练后进行校正,计算分类准确率即模型结果准确率。文中计算分类准确率的计算公式如式(2):
对于分类结果正确的定义为所得到的加速度时程经过一次积分后速度时程曲线是否发生偏移,具体的偏移程度是在记录结束末尾取10 s的数据,利用均值与记录前10 s进行对比,相差在15%以内即为准确。
在利用数据对模型进行训练后,根据设置不同的学习率,可以发现在不同的学习率下有着不同的准确率,具体如表1所示。由于学习率为0.003是收敛速度最快,因此,在确定学习率为0.003时,模型结果准确率为85.7%。经过诸多参数的分析整定后,最终采取的模型参数为隐层神经元个数为d=150。学习率和神经元个数可以作为模型参数。
表1 不同学习率所对应准确率Table 1 Accuracy corresponding to different learning rates
上文提出了一种基于LSTM 模型的零基线校正方法,理论上地震动停止时,位移时程末尾的值即为台站点在此方向上的位移。因此下文将以此为根据,将GPS 位移与之对比。由于在台湾集集地震之前,强震动台站与GPS 台站同址,因此实际实验结果将以集集地震为主要分析对象。根据上述模型及流程,选取TCU052 台站、TCU054 台站、TCU056 台站、TCU060 台站、TCU074 台站和TCU078 台站强震动记录进行处理,校正后结果如图6~图8所示,结果分别按照台站顺序呈从左到右排列,图中呈现了每个台站的校正加速度记录时程,速度时程,位移时程。
图6 TCU052台站和TCU054台站EW方向校正后时程数据Fig.6 Time history data after EW direction correction for TCU052 and TCU054 stations
图7 TCU056台站和TCU060台站EW方向校正后时程数据Fig.7 Time history data after EW direction correction for TCU056 and TCU060 stations
图8 TCU074台站和TCU078台站EW方向校正后时程数据Fig.8 Time history data after EW direction correction for TCU074 and TCU078 stations
由图8可见,文中方法可以较好的完成对近断层强震动记录进行零基线校正,即在二次积分得到位移时程末端出现明显的平稳性,可以较好的实现校正。
同时为了检验文中所提出的零基线校正方法,文中选取集集地震的6 个台站,即TCU052、TCU060、TCU079、TCU074、TCU078、TCU120 和TCU102。由历史数据可知,强震和GPS 在位移程度较大的时候,具备比较高的吻合度,因此选取3 类位移程度的台站。利用Wu&Wu 方法和Whitney 方法计算,编写程序并参考利用已有方法的公开程序,3种方法采取同一数据。文中方法分别进行零基线校正并进行对比,从而验证文中方法的有效性。实验结果如表2所示。
表2 不同方法所得到的强震动位移与GPS位移对比Table 2 Comparison of strong vibration displacements obtained by different methods and GPS displacements
对于文中方法,主要利用台湾集集地震进行验证,根据实际验证,针对集集地震多个台站的永久位移处理都能得到很好的校正效果。在上表中选取了6 个具有典型特征且有相应的GPS 台站对应的台站进行参照。由上表对比可见,相对于传统方法,Wu&Wu方法和Whitney方法均可以取得比较好的效果。限于篇幅,选取以上6个具有典型特征的台站为例。
文中提出一种基于长短期记忆LSTM 模型的近断层强震记录零基线校正方法。首先利用选取不同国家地理和震中的数据作为数据集,并划分为训练集,测试集和验证集,其次利用通过LSTM 模型对加速度,速度,位移时程数据进行特征提取,使其能够通过对序列数据的预测从而实现对地震数据的分类,从而判断是否发生偏移。利用其实现自动化的调整偏移开始时刻t1和偏移结束时刻t2,从而实现了对汶川地震和集集地震的典型近断层强震动记录的处理。获得的结论如下:
(1)在3 000条数据的情况下,可以完成训练模型的作用,实现模型准确率可以达到85.7%。
(2)文中的优化校正方法可以很客观的获得t1和t2的校正范围,通过模型的分类反馈,可以很好的评估校正的准确性,从而对t1和t2实现自动化的调整。
(3)通过对汶川地震和集集地震的数据处理结果与实际GPS 台站的数据对比表明,文中的校正方法可以较好地恢复速度,位移波形,实际的位移与GPS数据差值在合理范围内,是一种可行,合理的优化方法。