郑 晶, 吴志祥, 李德伟, 邢立文
(中国矿业大学(北京)a.煤炭资源与安全开采国家重点实验室;b.地球科学与测绘工程学院,北京 100083)
微地震监测技术通常用于非常规油气勘探和CO2捕集与封存(Carbon Capture and Storage,CCS)工程的安全监测[1-2]。对于微地震监测技术而言,去噪是其数据处理技术的重要组成部分[3]。因为微地震(小震级)信号的振幅总是比传统地震信号弱得多,实测数据始终受到噪声的污染,所以与主动源地震事件相比,其信噪比(Signal-Noise Ratio,SNR)要低得多,故而原始的观测数据难以直接进行事件到时拾取及定位等工作。大多数传统的降噪方法都是基于域变换算法以及一些阈值化手段而提出的,例如时频分析和时间(频谱)-空间(波数)域分析[4-6]。域变换后的结果在反变换前通常先经过阈值处理,以达到噪声滤除的目的。域变换的主要目的是为了获得记录数据的稀疏表示,因而如何选择更好的变换方法和阈值策略将对降噪性能产生很大影响。
近年来,基于机器学习的地球物理数据处理方法得到了广泛的研究和发展。一些研究侧重于将字典学习应用于观测数据更好的稀疏表示,以实现更好的降噪性能[7-8]。近年来,深度神经网络以其极其复杂的表示能力在地球物理数据去噪中获得了越来越多的应用。基于深度卷积神经网络(Convolutional Neural Network,CNN)开发的去噪模型是噪声衰减最常用的网络模型[9-10]。
除了CNN之外,生成对抗网络(Generative Adversarial Network,GAN)也具有图像和语音处理的能力,在各个领域展现出巨大的应用和发展前景[11-12]。与基于CNN的方法相比,因为GAN网络的损失函数不是最常用的简单均方误差或交叉熵损失[13],所以GAN可以克服CNN对输出数据分布假设的缺点。Alwon[14]应用基于条件样式转换类型的GAN网络从含噪声的地震记录剖面中预测干净数据,但这种方法中必须将地震剖面作为二维图像来考虑。
本文基于GAN网络提出一种用于单通道微地震记录降噪的方法。网络的输入是来自微地震仪器记录的原始时间序列,在此之前不需要进行任何转换,可以进行端到端的训练。网络包括生成器G和判别器D,构建G来生成处理后的数据。训练后,G将恢复干净数据,D负责区分真实数据和虚假数据。
Goodfellow等[15]2014年首先提出了Generative Adversarial Nets(GANs)。GAN包括两个模型:一个是表示为G的生成器;另一个是表示为D的对抗判别器模型。G执行映射过程以学习实际数据分布;D像二进制分类器一样工作以确定G的输出是真实的还是虚假的。该网络的工作流程如图1所示。该网络用于去噪,因此,它不同于传统的GAN,后者的输入只是噪声。
图1 基于GAN的去噪网络的工作流程示意图
图2所示的生成器G网络采用了全卷积编码器/解码器结构。与传统的全卷积编码器/解码器结构相比,没有用于下采样的最大池化过程。采用>1的整数设置卷积步长来实现G网络中的降采样,该降采样方法在GAN网络中比其他池化方法更稳定。同时,G网络还采用类U-net网络在编码器和解码器的相应层之间添加“跳过并复制”步骤[16]。生成器是一个生成模型,该模型构建映射结构以使潜在表示z从简单的先验分布p(z)中学习训练数据P(data)的分布。通过训练过程,生成器能够最小化p(x|θ,z)和P(data)之间的差异。因此,G不仅记忆输入输出对应关系,而且能学习数据分布特征。
图2 生成器G网络结构
判别器D是由卷积编码器部分和全连接层部分组成,网络结构如图3所示。D是一个参数模型,其旨在判断输入x是从G网络生成的数据还是干净数据,可以将其视为判断输出是“真”还是“假”的一个二分类器。D的训练目标为同时最大化D(x)(实际数据分类结果的损失)和最小化D(G(x))(生成的数据分类结果的损失)。D帮助G将其输出波形朝干净的数据分布进行校正,以避免生成的数据被判断为是伪造的。
图3 判别器D网络结构
生成器G和判别器D通过反向传播进行训练,与传统深度卷积神经网络不同的是,GAN网络的训练分成3个步骤进行:
(1)使用带噪音的和干净的数据作为输入,对D进行训练,并标记输出为“真”;
(2)利用G生成的数据和干净的数据作为输入,并标记输出为“伪”,再次训练D;
(3)固定D,使用生成的数据和干净的数据作为输入,并标记输出为“真”来训练G。
随着训练,G和D网络将变得越来越强大。训练后,G将能够恢复实际信号分布并使去噪后的数据与干净的数据相似;D将无法区分实际的不含噪音的数据和生成后的去噪数据。
应用合成数据训练网络,并使用实测数据集进行实验以评估网络的性能。对于训练数据集使用不同的速度模型生成信号以考虑信号的多样性。训练数据集由30 000个波形组成,这些波形具有不同的SNR条件。
实测数据由共振频率为4.5Hz±7.5%并包含12个通道的地面传感器收集,通道在表面上不成一条直线对齐。系统将以2 ms的间隔连续几个小时收集、存储和传输数据。为了对比文中提出的滤波算法与其他方法在实际数据中噪声压制上的性能,选用了3个不同事件的多道微地震数据记录进行实验,并将3种方法分别应用于3个实测数据集。3个实测数据集如图4(a)、5(a)和6(a)所示,它们的事件到时时间、对应道上信噪比都有一定的差异。信噪比的差异由不同震源强度和仪器噪声水平等导致。实测数据和其经过3种方法处理后的结果见图4~6。在图4所示的第1个示例中,残余噪声在EEMD方法中最大,而在DWT方法中一些脉冲干扰未消除,因此这两种方法均不被认为是成功的,而经本文方法去噪的数据获得了更好的结果,之前的噪声几乎已消除。在图5所示的第2个示例中,EEMD和DWT方法都留下了显著的残留噪声,而从本文方法中获得的去噪数据有更好的效果,事件的初至清晰。在图6所示的第3个示例中,EEMD方法留下了更多的残留噪声,DWT方法在初至之前导致了一些不稳定的波形,但本文方法仍然可以获得更好的结果。如果可以提供更多的训练数据集,则该方法可以表现出更好的性能。
图4 不同方法对实测数据集1的去噪效果对比
图5 不同方法对实测数据集2的去噪效果对比
图6 不同方法对实测数据集3的去噪效果对比
实现了基于生成对抗网络的端到端微地震数据降噪方法。该模型分为两个部分:一个是生成器G,使用编码器-解码器全卷积结构生成去噪数据集;另一个是判别器D,负责学习某种损失,以使G的输出看起来真实。G部分的结构类似于U-net。在编码阶段,将输入信号投影并压缩用以学习数据的稀疏表示。在解码阶段,将去噪后的数据恢复为输入数据的原始分辨率。G的损失函数也因D中的学习而具有自适应性。该方法不仅可以在含噪声的记录中清楚地检测出能量较高的波形,而且去噪后能清楚地检测出能量较低的波形。对含噪声的合成数据和实测数据集的测试表明,该算法在强噪声水平下获得了令人满意的结果。从重建的信号中可以清楚地识别出信号的初至,这意味着本文方法可以帮助事件拾取人员在低SNR的情况下拾取初至。测试结果表明,该方法是可靠的并且是当前方法的有效替代。
科学研究既要追求知识和真理,也要服务于经济社会发展和广大人民群众。广大科技工作者要把论文写在祖国的大地上,把科技成果应用在实现现代化的伟大事业中。
——2016年5月30日,习近平在全国科技创新大会上讲话