范晓易 王夫运 鄢兆伦 李婷婷 周康雅 王 丽
1 江苏省地震局,南京市卫岗3号,210014
2 中国地震局地球物理勘探中心,郑州市文化路75号,450002
地震信号识别是判定地震类型的首要工作。近年来,地震信号自动识别问题多集中在天然地震与人工爆破的识别上,主要从信号时频分析、震相和波形特征等角度展开研究[1-3],基于大量数据的经验总结,可以实现较好的地震信号分类效果。然而我国东部经济发达地区不仅地震偏少、震级偏小,而且存在人工爆破、塌陷等干扰,在样本量较小的情况下,需要进一步研究有效的地震识别方法,力求解决其他方法存在的样本库过大和局部地区样本不足的问题,提高地震监测、震后应急与地震科学研究的效率。本文给出支持向量机方法应用于小样本识别领域的原理,并通过实验进一步验证其在不同样本量下对地震信号分类识别的效果。
支持向量机在解决非线性、小样本、高维模式识别问题上有极大的优势[4]。其分类思想是提取样本特征并以向量形式表达,把样本的识别问题转化为向量空间中点的分类问题。如图1所示,以二分类为例,在高维空间里建立起两个相互平行的最大间隔超平面,把两类点区分开。
本文所研究的地震信号包括人工爆破、天然地震与塌陷3 类,同二分类相类似,当扩展到多分类的情形时,对由训练样本建立的相应特征向量,划定分类超平面,为测试样本的分类判断提供依据。分类超平面间的距离或差距越大,分类器的总误差越小[5]。
为便于理解,对每个地震信号样本取3个特征组成特征向量,即在三维特征空间中,每一个点代表一个样本。如图2(a)所示,选择合适的训练样本能够呈现较好的聚类效果。图2(b)训练样本量过少,容易造成类间距离小于类别内部距离进而得到错误结果。图2(c)在图2(a)的基础上继续增加样本量,特征典型的训练样本增多,逐渐充满类别内部空间;同时特征不典型的训练样本也增多,造成类间距离缩短,分类器的总误差变大。图2(d)训练样本量过多,积累了一定的特征不典型训练样本后,类间距离缩短甚至消失,聚类失败,无法获得分类器。
由上文分析可知,支持向量机方法的分类效果与分类超平面间的距离直接相关,也就是取决于类别边缘点和类别内部点的距离关系,并不依赖于大量训练样本的加入。加入过多的样本仅增加了类别内部的数据冗余,甚至会造成类间界限不清晰甚至消失。因此理论上支持向量机方法能够在小样本条件下实现分类。
由上文可知,支持向量机分类方法本质上是提取特征向量,在高维空间对向量进行分类。当识别地震信号时,可使用小波分解产生的小波系数作为特征向量。如表1所示,同一类型信号的香农熵特征值接近,容易使用数学手段在向量空间中区分。
本文使用山东和江苏地区2006~2017年地震事件的近台波形记录数据,两地整体地震活动水平不高,就波形质量而言,山东地区略优。数据的选取充分考虑了地区环境、监测能力、数据记录质量等因素的影响,为更好地验证本文方法对小样本的支持程度,并未严格限制事件的震级和信噪比,以期真实全面地反映台网的常见记录。最终选取450个数据,每类事件数据各150个,随机选取其中50个数据作为测试样本。
表1 部分样本的香农熵特征值
根据文献[6]可知,影响最终分类效果的因素主要有信号窗长度、小波分解方式、小波基类型、向量机算法类型、向量机核函数类型等。取识别率最高的3种最佳参数组合,设计3组实验,训练样本数120个(每种地震事件各40个),测试样本数150个(每种地震事件各50个),结果如表2所示。
为验证训练样本数量对识别率的影响,使用识别率最高的参数组合1继续设计样本数量实验。测试样本均保持150个不变,以组1的训练样本数120个为基准,增加或减少训练样本数量,实验设计及结果如表3所示。
从表3可以看出,随着样本量的增加,3类地震信号的识别率同步出现先升高再降低的现象,与理论分类效果一致。总训练样本为90个时,实验组8实现了最好的分类效果。样本量过少造成未能有效获取分类超平面,因此识别率也降低(组9、组10);随着样本量的继续增多,识别率略有下降,反映出一定的数据冗余和分类超平面间距的减小(组1、组4、组5);而过多的样本量则使得对样本过度学习,无法建立准确的分类超平面,导致识别率陡降(组6、组7)。由于本次研究侧重于支持向量机方法对小样本的支持程度,数据选取真实全面地反映了台网的常见事件记录,因此本文最终识别效果相较于前期研究中使用高信噪比数据的结果有所降低[6]。
表2 不同参数组合的分类识别结果
表3 不同训练样本量的实验结果
本文研究支持向量机分类算法识别小样本地震信号的可行性。使用山东和江苏地区的实际数据开展实验,在未筛选震级和信噪比的情况下,仅需每类事件(地震、爆破、塌陷)30个训练样本即可达到85%左右的正确识别率,充分证明了支持向量机方法在小样本识别领域的可靠性。
本方法的识别率不依赖于对大量训练样本的学习,在保证一定的训练样本建立分类超平面的基础上,过多的训练样本反而会降低识别率。此外,支持向量机分类算法通过引入核函数解决复杂的非线性化问题,可避免非线性化导致算法出现局部极值以及其他机器学习方法中的局部极小化问题,训练结果具有稳定性和可靠性。因此,本方法适用于在地震数据样本量少的地区进行地震信号识别,对于地震数据充足的地区,也可以精简样本库、提高识别效率、降低运行成本。相较于普遍需要大量数据经验的其他机器学习方法,本方法在小样本识别领域表现出了一定的优越性。