徐雷良 徐维秀
(中石化石油工程地球物理有限公司胜利分公司,山东东营 257000)
地震勘探技术的发展对地震资料质量监控技术的要求越来越高。早期,仅凭肉眼和经验查看监视记录每天即可完成二维地震数十道、上百道的单炮质量监控。地震勘探技术与地震采集设备以及计算机技术的发展催生了现场地震资料处理技术[1],并以此作为现场延时质控的重要手段。随着高精度、高密度三维地震勘探技术的出现以及地震采集设备的不断升级,陆续出现了地震资料现场实时质控技术[2-3],并研发了大量软件成果[4-7],完全改变了依靠监视记录和部分资料抽检进行人工定性监控模式,现场实时质控技术具有比较全面、定量化及相对科学的特性[7]。以小面元、大道数为典型特征的“两宽一高”与高效地震采集技术的发展应用在持续推动技术进步的同时,也引起了数据量的急剧攀升,亦即俗称的“海量地震数据”。近年来,三维区块部署的单炮数据量动辄数百兆字节,而相邻两炮激发的时差已在半分钟内(井炮),甚至仅有数秒(可控震源),因此传统定性质控模式很难有效监控海量地震资料,现有的定量化监控技术与评价软件面临巨大挑战[7-8]。地震资料评价技术是质量监控技术的重要组成部分,二者同步发展。从最初人工定性分析发展到基于标准进行多因素评价[4-5,7],再发展为基于单个属性的资料评价[2-3],直到如今多元地震属性综合统计分析评价[6-7],逐步形成了由激发、接收、环境噪声及地震属性等全方位要素参与的评价体系,特别是基于地震属性的资料评价模式已由单炮记录面貌转向内部特征,为目前油气勘探开发所急需的高精度、高分辨率地震资料提供了更为可靠的质量保障。地震记录一般是在连续地表与地质条件及相同激发与接收环境下获得的,因此各炮之间存在天然的、隐性的联系,需要一种自学习算法寻找其潜在的关系,以快速完成单炮记录品质评价。目前,人工智能[9-10]已在许多领域取得成功,显著地改变了人们的生产、生活方式。它在地震资料评价方面也有一定应用成果,但其着眼点主要是针对地震成果数据[11-13],在现场资料评价方面的应用才刚刚起步[14]。本文首先讨论了目前常用的单炮记录评价理论方法,接着探讨了基于随机森林(Random Forest,RF)[15-16]的海量地震资料智能评价流程及其关键技术。
国家标准[17]和一些行业标准、企业标准中对地震资料分级制定了明确的技术规范,这些规范是对地震仪器、设备、激发与接收等各种因素性能指标的限定,是多年地震勘探实践所形成的确定性指标。例如,TB时差、不正常道数量或占比、断排列数、震源畸变超限等。根据标准,把这些参数硬性指标的考核称为确定性评价模型。目前,通用或商用监控软件[7,18-20]全部采用了该模型。这类确定性评价模型专注于施工因素监控,但并不能充分反映地表与地质、环境以及偶然因素对地震资料的影响,该评价模式并不对单炮记录品质进行评判。
这种模型是通过新老资料对比确定地震属性阈值,利用单一属性的阈值是否超限进行资料分级[3],该模型的优势在于针对性强,对于特定油气勘探目标资料品质分析具有指导意义。但不同地震属性体现资料的不同特征,且每种地震属性对资料品质的反映具有片面性和模糊性,依赖单一地震属性判定原始单炮记录合格与否显然是不科学的。
多元属性单炮记录评价的实质是多元判别分析问题,以下先讨论两级分类。
(1)
(2)
式中Σ1、Σ2分别为G1和G2属性的协方差矩阵。
生产炮合格判定的准则可描述为
(3)
(4)
式(4)为单炮记录两级分类判别准则。如果做三级分类,可增加一个阈值。
实际生产中,也可采用品质好的生产炮替代试验炮。为了确保协方差矩阵的秩存在,炮数应大于地震属性个数,一般选择最近采集的20~30炮为宜。考虑到多线束施工模式,这些炮应兼顾到每束线、每个排列,空间分布应相对均匀,从而使其更具代表性。如果选取一条优质生产炮记录S(称为标准记录)作为G1的重心,判别准则变为
(5)
式中:μi、si分别表示生产炮X和S炮的第i个属性;θi为设定的第i个属性的阈值,且有θi≥0。
所有与S炮具有相似地表和地下地质条件、相同激发与接收及环境因素的生产炮以式(5)为判别准则。但是,一旦与以上条件不符,如不同激发药量,就需要建立新的炮集重心。因此,同一个工区可建立多个区域,每个区域形成一个炮集G1,每个炮集只有一条标准记录(重心)。图1为据此开发的监控软件M[8]所设计的多区域海量地震资料评价流程。
多元属性评价模型理念易于接受、方便计算机实现,适于现场实时监控与评价。工程技术人员利用经验并结合老资料可检验分类效果,通过标准差、方差对监控结果进行统计分析,并将结果叠合在遥感影像上,便于全区资料分析,指导地震采集施工。图2为M软件在某工区的合格炮能量分布图(背景为卫星照片),可见单炮能量与沙丘高程呈正相关。
图2 某工区合格单炮能量分布(背景为卫星照片)
多元属性评价单炮的分类模式隐含着“异类即错”的思想,目的在于严格实时监控废炮,以便及时补炮。该模型的主要局限在于阈值θi的定义,主观性太强,难以适应多变的地震地质条件,生产中不易把握且极易引起争议。
人工智能是利用数字计算机或者数字计算机控制的机器开发用于模拟、延伸和扩展人类智能的理论、方法、技术及其应用的一门新兴技术科学[9,21]。实现单炮记录智能评价有多种途径,但需要结合应用领域知识才能获得正确的解决思路。
地震属性研究已产生了丰富的研究成果,定义的地震属性多达几百种[22],其中振幅、能量属性就有30种之多。海量地震资料采集单炮数据量大、炮数多,但提取的地震属性,特别是反映单炮记录品质的基本属性相对较少。表征野外单炮记录特征的属性可分为单炮、单道、初至前、初至区及目的层等的能量、频率、信噪比等。多个工区的实验分析表明,同一工区的单炮记录属性大多呈高斯分布或偏态分布(图3a),这一特征为地震属性的数据预处理和统计学分析提供了数学基础。
地震属性体现单炮品质的程度不同,其间相关性差异较大。图3b是该工区炮集能量与目的层能量对比图,图中蓝色折线为炮集能量分布,黄色折线为目的层能量分布,显然,这两类能量间具有较强的相关性。一般地,机器学习应避免相关性强的属性参与。通过对这些属性所反映的单炮品质深入挖掘,发现其潜在联系,进而形成分类模型。
图3 某工区地震属性分布特征(a)目的层能量分布;(b)炮集能量与目的层能量曲线对比
图4为基于RF的单炮记录智能评价流程。使用前期勘探成果及试验炮建立初始样本集,提取样本属性并构建协方差矩阵,求解该矩阵的特征值和特征向量,利用主成分分析法(该步可选),在剔除强相关属性后,将对地震资料品质更具敏感的属性挑选出来,基于这些优化属性并结合废品库,扩增样本以满足机器学习样本数量;对训练集样本进行RF训练,如果没有通过验证,则调整参数后重新训练;输入生产炮,按RF分类,在模型评估后,如果没有达到精准度要求,则调整参数处理后重新进行分类;如果达到精准度要求,在输出分类结果后检测样本集是否完备,若需要则把生产炮作为学习样本补充到样本集中,重新组成模型训练,否则,关闭训练模型,陆续对生产炮进行自动分类。
图4 单炮记录智能评价流程图
样本集是人工智能学习的基础,必须具有大量代表性及多样性的样本所建立的分类模型才能防止过拟合[15,23],且各类别样本数目尽量平衡,否则,样本数特别少的类别分类精准度低。
利用以往勘探中地理位置邻近或地表、地质条件及激发与接收因素相似的地震采集工区成果,抽取具有代表性的单炮记录,如一、二级品记录、低频炮、低信噪比炮;废炮库是由不同激发条件和接收因素以及在各种地表地质条件下所采集的不合格单炮组成,如断排列炮、串感炮、噪声炮等;试验资料具有当前工区地震激发与接收的广泛代表性,可将其作为一、二级品样本以减少对前期成果样本的过度依赖。以上这些单炮组成初始样本集。
在智能评价建模应用初期,初始样本集普遍存在样本不足的情况,需要扩增样本,在增加样本数量时应尽量避免由此造成的过拟合问题,扩增渠道包括对部分样本做样本增强技术[23-24]及纳入后期正确分类的生产炮,扩增方法一般通过数学变换或增加噪声方式实现。
由于高斯白噪的功率谱密度服从均匀分布,幅度分布服从高斯分布,利用高斯白噪声对原始样本集进行重构,形成新样本集。假设地震波有效信号为W(t),时间为t,环境噪声为H(t),高斯白噪声为nG(t),则重构信号Y(t)为
Y(t)=W(t)+H(t)+nG(t)
(6)
在样本扩增时,对nG(t)做如下限定
-E(Y)≤λE(nG)≤E(Y)
(7)
式中:E(Y)为重构信号能量;E(nG)为高斯噪声能量;λ为约束因子,|λ|≤1。
为了更好地反映特定工区中的一些特殊勘探目标要求,在试验炮属性提取后,按照高斯白噪声分布规律,在限定范围内由试验炮重构新属性。设试验炮数为M1,新增样本数为M2,于是,新增样本i(i=1,2,…,M2)的属性值w′i为
(8)
式中:wj为第j个试验炮的属性值;nGi为高斯白噪声因子。式(8)中的λ确定了新样本类别,由勘探目标及工区地表地质条件等因素确定。
图5为LJ工区样本扩增10倍前后单炮能量与最小优势频率对比,定义|λ|≤0.20为一级品,0.25<|λ|≤0.50为二级品,0.55<|λ|<1.00为废炮。图中横轴为单炮能量的自然对数值,纵轴为最小优势频率(Hz)。需要说明的是,此处出现了0.20~0.25、0.50~0.55的数据间隙,这是因为统计分析认为该范围内生成的新样本存在二义性(即可能为上一级,也可能为下一级)。
图5 LJ工区样本扩增前后单炮能量与最小频率交会图
w′p=xi+rand(0,1)×(yk-xi)
(9)
将原始废炮与二级品样本结合(式(9)),比单独增加新废炮样本方式(式(8))更能改善样本集性能,提高分类效率。
3.4.1 分类建模算法
基于RF单炮记录分类建模过程如下:
(1)从原始样本集G1中以样本放回方式随机抽取M个样本组成训练集G,按如下过程递归生成决策树:
1)从N个地震属性中采用放回方式随机抽取K(K 2)在具有K个连续属性的M个样本中求最优属性,以最优属性建立分支节点; 3)分别判断分支节点的左右支样本集中各样本的类别标签(一级品、二级品和废炮)是否属同一类,或是叶节点,如果不是,K=K-1,返回2); (2)重复步骤(1)P次,生成P棵决策树,形成RF; (3)对于生产炮,遍历RF的每颗决策树,统计每棵树的分类结果,取最多的类别为该炮类别。 3.4.2 连续性属性的分支节点构建 基于RF的单炮记录分类最基础也是最重要的工作是分支节点的建立。 通常,决策树采用离散值作为节点,而地震属性是连续数据。为此,对于由M个样本组成的训练集G,若每个样本只取K个属性,则G可表示为G={(xi,1,xi,2,…,xi,K,li)|i=1,2,…,M},其中,xi,j为样本i的第j个属性,li为样本炮i的类别标签。 为了从K个地震属性中最优构建决策树的分支节点,定义信息增益作为决策树最优属性的衡量指标。地震属性j的信息增益定义如下 (10) (11) 式中pk为第k(k=1,2,3)类(分别对应一级品、二级品和废炮)样本在样本集G中的占比。 3.4.3 RF单炮分类建模参数 决策树数目P决定了RF规模,也体现RF分类性能。理论上,P越大,分类效果越好[25],但计算量会随之提高。通常,参考样本扩增后的样本数及其属性数确定P值,如果这些数目较多,决策树的数目可相对少一些,一般以一百到数百棵为宜。 仅从决策树角度看,为减少异常噪声影响,防止过拟合,需要对决策树剪枝处理[23,25],利用以下参数进行预剪枝:最大深度、内部节点划分所需最小样本数和叶节点最小样本数,这些参数的选取和调整参数的顺序与具体数据分布有关,可根据局部寻优方法依次确定[26]。文献[16,23,25]说明:RF中两个随机性(随机样本和随机属性抽取)的引入使分类算法完全可避免过拟合现象,况且样本集扩增已采取了多样性增强措施。但考虑现场计算能力,也可对决策树通过预剪枝以减少计算量。目前,一些开源实用开发库[27]已提供成熟的算法较好地优化这些参数,本文不再探讨。 3.4.4 单炮记录RF分类结果评估 在上述算法中,构建所有决策树使用了P×M个样本,但其中包含大量相同的样本。因此,从概率上分析,样本集中仍有36.8%的样本未参与训练[28],可用作验证样本。 利用单炮分类正确率(C)和废炮识别率(R)作为验证分类标准,其中,后者必须达到对废炮的完全识别(100%),它们分别定义为 (12) (13) 式中:M5为验证样本总数;Uk为验证样本经RF分类后k类样本的正确分类数;M6是验证样本中的实际废炮总数;U3是验证样本经RF分类后正确分类的废炮数。 人工智能技术如今发展迅速,已建立了多种开源的机器学习平台、系统、框架、工具包和类库等。利用Scikit-learn 0.21.2开源库[25],实现了单炮记录分类算法,并根据现场计算机配置自动调整线程并行数以提高性能,该算法已集成到M软件中。 利用中国西部沙漠ZH6J工区资料进行应用测试,共提取了18种地震属性,但没有使用图4流程中所提的主成分分析法做参数优化。通过样本增强与吸收生产炮,建立了4500炮的样本集。在RF模型训练时,以分类正确率C作为分类泛化能力的检测依据。参数按如下顺序调优:首先确定决策树的数目P使算法稳定;再确定决策树的最大深度和内部节点划分所需最小样本数以控制算法复杂度;然后,联合调试内部节点划分所需最小样本数和叶节点最小样本数以增强决策树的泛化能力;最后,获得最大随机属性数K。在完成训练后对生产炮自动分类,并与人工分类结果对比,表1是两次统计结果。对某天采集的600炮数据自动分类,与人工分类结果相比,正确率达到97.33%,且准确识别出当天全部废炮。在参数调优后,对工区所有56797炮自动分类(已无废炮),正确率达98.70%。需要指出的是,人工评价与实际分类存在一定误差。 表1 ZH6J工区单炮记录分类结果统计表 多因素确定性评价模型是地震采集工程现场质控的重点内容之一,是其他评价模型不可替代的;多元属性判别分析评价模型设计思路简明,便于发现废炮,适于实时单炮监控。以上两种模型相结合一般能够及时发现异常道、异常排列和废炮。智能评价模型从众多已有标签的样本及其各类地震属性中学习,分类方式客观,可用于实时监控单炮质量,也可用于单炮的延时分析评估,在标准记录选择与阈值设置困难的勘探程度相对较低地区,该模型优势尤其明显。 以上三种评价模型适用于不同地震采集方式。海上或过渡带、多波多分量地震资料等有其独特性,主要体现在地震数据记录方式,可根据各自的特点首先进行资料预处理,然后采用上述模型分类处理。例如,双检单炮记录包含了陆检和水检分量,需把单炮记录解编为陆检和水检单炮数据结构后[28],再分别建模分类。 影响海量地震数据采集实时质控的因素主要包括网络传输速率、单炮数据解编与属性提取、分类评价等。实验表明,目前决定实时质控效率的关键是传输。例如,10万道接收的单炮若采用7s长度和1ms采样,以SEGD格式存储单炮数据量约为2.6GB,若采用野外较通用的千兆网传输,该单炮数据传输与存储约耗时31.32s;若采用先进的光缆传输与高效的固态硬盘存储大约需要5.9s。因此,应专门研究这种瞬时大数据流和持续大数据量的数据传输与存储模式,以适应实时质控需求。 不同于数据传输受限于网络和硬盘读写等物理因素,单炮数据解编与属性提取采用内存映射、多线程并行等综合优化技术后实际数据处理能力显著提升[29],耗时主要在时间域到频率域变换过程。就单纯的单炮记录分类模型而言,多因素确定性评价模型耗时主要在一些定量化分析上[30];多元属性判别分析模型主要耗时在区域划分和标准记录的选取,生产炮分类时仅仅是指定属性门槛值的比对。上述两类模型耗时几乎都在毫秒数量级。而智能评价模型耗时主要在分类建模阶段,由于需要反复建模与验证,一般可在采集试验后完成,但评价模型一旦建立,实际生产炮的分类可在秒内完成。 总之,在时效性方面,单炮传输时间在数秒到十数秒,甚至数十秒,解编和属性提取一般2s内可完成,而分类过程不到1s。 多因素确定性评价模型与各种变形的基于多元属性判别分析的单炮评价模型,已在地震采集工程现场质量监控中发挥了重要作用。不过,多元属性判别分析模型所基于的标准记录与阈值定义主观性太强,三级判别更加困难。人工智能单炮评价方法汇集以往的勘探成果,利用试验炮和废炮扩充样本,既保持了各炮的独立性,又增加了样本的多样性,提高了样本集的整体性能,弥补了不平衡样本集可能带来的较大分类误差;基于RF的单炮记录分类建模利用两个随机性引入,避免了人工智能最易出现的过拟合问题,增强了算法的稳定性,且该模型计算过程易于高度并行化处理,评价结果客观,适用于海量地震采集现场质量监控。 地震采集是复杂的系统工程,利用人工智能对地震资料品质评价需要综合考虑各方面的因素,原始样本库建设、模型分类效果评价[31]及其物理解释等是下一步研究方向。 特别感谢中石化石油工程地球物理有限公司胜利分公司石翠翠女士,为本文研究提供了RF单炮分类实验结果。3.5 模型在ZH6J工区应用及效果
4 模型关系及其适应性与时效性
5 结论及认识