吴泽勇 袁静
摘 要:中国地震台网中心地震观测台站数量不断增加,由其记录的地震数据快速增加,有效压制数据中的干扰噪声成为非常重要的工作。观测数据中干扰噪声位置不固定,传统的干扰噪声识别方法耗时长、精度低,难以满足日益增长的数据处理需求。为实现快速识别,精准处理观测数据中的干扰信号,文章提出一种决策树联合YOLOv5的噪声识别检测方法,实验数据表明,该方法对于干扰噪声识别具有很好的检测效果,干扰噪声识别精确率达到94.6%。
关键词:决策树;神经网络;计算机视觉;噪声检测
中图分类号:TP311 文献标识码:A 文章编号:2096-4706(2023)14-0080-05
Automatic Identification Algorithm for Interference Noise in Seismic Signals
WU Zeyong, YUAN Jing
(Institute of Disaster Prevention, Langfang 065201, China)
Abstract: The number of seismic observation stations in the China Seismic Network Center is increasing, and the seismic data recorded by them is rapidly increasing, so it becomes very important to effectively suppress the interference noise in the data. The location of interference noise in observation data is not fixed, and the traditional interference noise identification method is time-consuming and low precision, which is difficult to meet the increasing demand of data processing. In order to achieve fast identification and accurate processing of interference signals in observation data, this paper proposes a noise identification detection method for decision tree joint YOLOv5, and the experimental data show that the method has good detection effect for interference noise identification, and the accuracy of interference noise identification reaches 94.6%.
Keywords: decision tree; neural network; computer vision; noise detection
0 引 言
近年來,中国地震台网中心地震观测台站建设力度不断加大,地震观测台数量迅速增加,随之而来地震台观测到的地震数据总量快速增加。与此同时,地震观测台仪器质量的提高以及电气化设备的广泛使用导致地震观测台观测到的数据中充斥着各类干扰噪声,地震观测台观测数据质量严重下降。为提高观测数据质量,尽可能还原地震波形的初始状态,学术界提出了一系列噪声识别与压制方法。各类方法都有各自特色,但从数据处理角度来看这些方案主要可分为两类,第一个是传统噪声处理方法,传统噪声处理方法主要使用数学理论和信号处理方法来实现干扰信号的识别与压制;第二类方法则是神经网络算法,神经网络算法基于GPU的强大计算能力,对实验数据进行特征提取,建立强大的特征库,对实验数据进行特征匹配,以达到识别干扰噪声的效果。在传统的噪声处理方法中,陈可洋[1]在2011年基于拉普拉斯算子数学理论提出了仅依赖于数学计算的噪声压制方法,此方法适用范围广,不用对实验数据进行其他处理,但噪声识别率低,噪声压制效果差,难以满足地震噪声压制要求;王辉、程久龙[2]等人在2016年针对矿场近场干扰提出了大地电磁测深数据干扰压制方法,此方法局限性大,实验条件难以实现;孙哲、王建锋[3]等人在2016年基于传统的信号处理方法结合时域和空间域提出中值滤波噪声压制方法,此方法只适用于去除观测信号中的随机干扰噪声,难以实现对强噪声干扰的识别和压制;李晋、彭冲[4]等人在2017年利用局域均值分解和小波阈值相结合方法,实现大地电磁噪声的成功压制;汪金菊、李青[5]等人在2018年基于分数阶小波域人工标记数据并使用标记数据搭建GSM模型,实现地震信号中随机噪声的压制,此实验中GSM模型只适用于特定数据,不适用于本实验数据;陈毅军、程浩[6]等人在2021年基于CEEMDAN的时频峰值滤波实现微地震随机噪声压制;胡瑞卿、何俊杰[7]等人在2021年根据信号处理理念提出时频域变分模态分解实现地震信号中噪声处理。在基于神经网络的方法中,罗仁泽和李阳阳[8]在2020年对RUnet卷积神经网络进行适当修改,使其满足地震噪声的检测和压制;张岩、李新月[9]等人在2021年基于联合深度学习理论,通过将多个深度学习网络相结合,实现地震数据中出现的随机噪声压制,本实验模型复杂度高,模型训练时间按长,难以满足快速检测干扰噪声需求;张浩、冯兴强[10]等人在2021年基于卷积神经网络利用倾角域弹性波逆时偏移实现噪声压制;武国宁、于萌萌[11]等人在2022年将平稳小波变换和深度残差网络相结合,达到压制地震信号中随机噪声的效果;唐杰、韩盛元[12]等人在2022年基于去噪卷积神经网络实现对面波噪声的压制,该算法取得良好效果;徐彦凯、刘曾梅[13]等人在2022年将双通道卷积神经网络运用在地震随机噪声压制中,实验取得较好结果。
在地震噪声压制算法中,干扰噪声的快速、精准识别是压制算法能否取得良好效果的关键。随着GPU处理能力不断增强,目标识别检测框架不断涌现。本文提出决策树联合YOLOv5的干扰噪声检测算法,显著提升噪声信号检测准确率,为压制地震信号中的干扰信号打下坚实基础。
1 地震观测台观测数据
地震观测台观测数据中含有强烈的电磁干扰信号,噪声信号与无噪声信号相比,其蕴含能量强、波形振幅变化大。含有噪声信号的观测数据波形图如图1所示(矩形框内为干扰噪声信号波形图)。
由图1易知干扰信号波形振幅值远远超出正常波动范围,噪声信号段波形与无噪声信号相比,噪声信号段波形振幅变化剧烈,信号能量极强,特征显著,很容易与正常信号相区分。因此本文选取信号强度和波形平滑程度作为特征值,用于划分观测信号中是否包含噪声信号。
2 关键技术
2.1 决策树
由于地震观测台观测数据的多样性、复杂性,导致传统的噪声检测方法准确率较低,难以满足实际需要。为提高检测准确率、降低模型检测工作量,本文采用决策树方法,选取合适参数对实验数据进行分类,有效降低处理数据量,极大提升检测效率。决策树算法是一种简单、高效、准确的分类方法。首先对实验数据进行特征筛选,选取合适的属性,利用归纳算法生成一系列数据分类规则;再使用决策树对实验数据进行合理分类。本文依据信号强度和波形平滑程度对观测数据进行划分,观测数据可分为非干扰噪声信号和干扰噪声信号两大类。如图2所示,在决策树中,本文以ID3算法为基础,采取信息增益作为信号纯度的度量。其公式如下:
(1)
式中D表示实验数据样本集合,Ent(D)表示信息熵,k表示集合样本D中第几类样本,y表示集合样本D中实验数据样本集合中类别总数,pk表示k类样本对应出现的概率,通过计算信息熵值可快速对地震台观测数据进行分类。
本文选取信号强度和波形平滑程度用于判断观测信号是否含有干扰噪声,决策树判断方法操作简单,效率高,数据处理耗费时间与传统识别方式相比缩短40%。
2.2 YOLOv5目标检测算法
YOLOv5是一种高效的目标检测算法,该算法基于“体缩检测”的概念,其主要实现是将单个图像内的所有物体分别归纳为更小的类别,并对图像内各个物体进行检测和定位。YOLOv5使用网络单元格来检测和识别图像种的物体,每个单元格的边界上都存在一个检测窗口,并通过神经网络对图像中的各个目标进行分类。YOLOv5不仅能对图像中各个物体进行分类,同时还能检测出物体的大小、位置等信息。与传统的目标检测算法相比,YOLOv5检测算法准确度更高、数据处理速度更快,能够更加准确的定位目标,并且可以提供目标在图像中的准确位置,能有效识别观测信号中的干扰噪声。YOLOv5结构图如图3所示。
在模型输入端包含三个模块:Mosaic数据增强模块,针对小目标实现随机缩放、实现对检测图像随机裁剪;自适应锚框计算模块,将预测锚框与实际输出预测框框进行对比,再进行反向更新,不断迭代模型参数,针对实验数据生成最佳参数;自适应图片缩放,对检测图像进行合理缩放,显著提高模型检测精确率。Backbone模块包含两个结构:Focus结构和csp结构。Neck结构中采用CSP2结构,加强网络特征融合能力。输出端采用CIOU_Loss作为Bounding box的损失函数,有效提升模型准确率。
3 实验设计
为测试YOLOv5对观测噪声识别结果,本文选取13 000个地震台观测数据样本。通过决策树筛选出10 000个含有噪声干扰的观测数据样本。本文使用labelme标注工具对观测数据样本中的干扰噪声进行人工标注,确定每个观测数据样本中干扰噪声的位置和形状。
本实验将13 000个地震台观测数据样本按比例平均分为训练集、验证集、测试集三个部分。本实验中训练集主要用来训练模型的识别能力,模型在訓练中不断地对参数进行优化。验证集在模型训练过程中不断对超参数进行优化,在提高模型识别精确率的同时避免模型出现过拟合。测试集则是用来评估模型的泛化能力,即模型在面对全新的数据时正确识别干扰噪声的能力。
考虑到本次实验样本数量较少,为增大实验数据量、有效评估模型质量、提高实验可信度,本文采用优化后的K折交叉验证方式对地震台观测数据进行数据增强处理。在增大实验样本的数量的同时交叉验证实验方法可以有效避免实验过程中出现过拟合和欠拟合现象,极大提高实验可信度。优化后的K折交叉验证方式如下:
1)随机将地震台观测数据样本集合D按比例平均划分为k个互不相交的子集,本实验中k取值为10;
2)将k + 2个子集作为训练集,余下的一个子集Di作为验证集在模型训练过程中不断地对模型进行优化,最终的剩余子集Dj作为测试集对训练好的模型进行泛化能力测试;
3)对所有的k - 1种方式进行实验;
4)经过以上3个步骤,本实验最终得到k - 1个训练好的模型,每个模型都在其对应的测试集上计算测试结果,得到了k - 1个测试结果,对k - 1次的实验结果取平均值就得到一个交叉验证结果。
优化后的K折交叉验证结构图如图4所示:
图4 优化后的K折验证结构图
在本实验中,地震台观测数据集D被平均划分为D1到D1010个子数据集,每个子集样本数为1 300个,每个子集中含有噪声干扰的观测数据样本为910个,不含噪声干扰的观测数据样本为390个。实验模型对优化后的K折验证数据进行训练、测试,得到9个实验结果,对这9个实验结果取平均值,就能得到最终实验结果。
4 实验结果
4.1 评价指标
精准率(precision)代表对正样本结果中预测准确程度,本文中表示的是所有被预测为含有干扰噪声的样本中真正含有干扰噪声样本的概率:
(2)
式(2)中TP表示实验中正确预测的正例数即观测数据中成功识别出干扰噪声的样本,FP表示实验过程中观测数据中干扰噪声段被错误判定为非干扰噪声的样本。
召回率(recall)表示的是在所有含有干扰噪声的样本中被预测为含有干扰噪声的样本的概率,公式如下:
(3)
式(3)中TP表示实验中正确预测的正例数即观测数据中成功识别出干扰噪声的样本,FN表示实验过程中观测数据中非干扰噪声段被错误判定为干扰噪声的样本。
在神经网络识别框架中,精准率和召回率两个评价指标相互制约,追求高精确率时,模型的召回率往往较低;追求召回率高时,模型识别的精确率会有所下降。F1评价指标兼顾精准率和召回率,能使实验得到最优解。
(4)
式(4)中TP表示实验中正确预测的正例数即观测数据中成功识别出干扰噪声的样本,FP表示实验过程中观测数据中干扰噪声段被错误判定为非干扰噪声的样本,FN表示实验过程中观测数据中非干扰噪声段被错误判定为干扰噪声的样本。
4.2 实验结果
为评估决策树联合YOLOv5识别模型效果,本文采用RUnet卷积神经网络、平稳小波变换与深度残差网络、去噪卷积神经网络、双通道卷积神经网络等方法在同一观测数据样本中分别进行实验,实验结果如图5所示。
由实验结果可知,RUnet卷积神经网络识别效果一般,将整个噪声信号识别为两个单独的噪声信号;平稳小波变换与深度残差网络将整个噪声信号识别为五个单独的噪声信号,同时错将正常信号识别为噪声信号;去噪卷积神经网络出现噪声识别不完整;双通道卷积神经网络识别噪声效果较佳,但出现将正常信号识别为噪声信号的情况;决策树联合YOLOv5识别算法成功识别噪声,未出现错误识别情形。为科学评价实验结果,本文将实验结果进行量化,量化结果如表1所示。
5 结 论
地震信号中干扰噪声识别是地震信号去噪处理的关键,为解决传统检测方式效率低、误报率高等主要难题,本文提出以决策树联合YOLOv5算法,实现快速、精准识别地震信号中的干扰噪声信号。该方法基于中国地震台网中心观测数据,使用决策树对观测数据进行筛选,将数据分类为:含有噪声干扰的观测数据样本、不含噪声干扰的观测数据样本两类实验样本,之后人工对两类数据进行标记处理。再将标记后的数据平均划分为10个互不相交的子集,最后使用YOLOv5神经网络算法对实验数据进行K折交叉验证。对K折交叉验证的9个实验结果取平均值,得到最终的实验结果。实验结果表明,该方法能有效识别观测数据中的干扰噪声信号,相比于其他识别方法,本算法识别率高达94.6%,召回率与F1值均高于其他算法。
参考文献
[1] 陈可洋.基于拉普拉斯算子的叠前逆时噪声压制方法 [J].岩性油气藏,2011,23(5):87-95.
[2] 王辉,程久龙,腾星智,等.矿区近场源噪声对大地电磁测深数据的影响及其压制方法 [J].地球物理学进展,2016,31(3):1358-1366.
[3] 孙哲,王建锋,王静,等.基于时空变中值滤波的随机噪声压制方法 [J].石油地球物理勘探,2016,51(6):1094-1102+1048.
[4] 李晋,彭冲,汤井田,等.局域均值分解和小波阈值在大地电磁噪声压制中的应用 [J].振动与冲击,2017,36(5):134-141+156.
[5] 汪金菊,李青,徐小红,等.基于分数阶小波域GSM模型的地震信号随机噪声压制方法 [J].地球物理学报,2018,61(7):2989-2997.
[6] 陳毅军,程浩,巩恩普,等.基于CEEMDAN的时频峰值滤波微地震随机噪声压制方法 [J].石油地球物理勘探,2021,56(2):234-241+210.
[7] 胡瑞卿,何俊杰,李华飞,等.时频域变分模态分解地震资料去噪方法 [J].石油地球物理勘探,2021,56(2):257-264+210.
[8] 罗仁泽,李阳阳.一种基于RUnet卷积神经网络的地震资料随机噪声压制方法 [J].石油物探,2020,59(1):51-59.
[9] 张岩,李新月,王斌,等.基于联合深度学习的地震数据随机噪声压制 [J].石油地球物理勘探,2021,56(1):9-25+56+4.
[10] 张浩,冯兴强,付昌,等.基于卷积神经网络的倾角域弹性波逆时偏移噪声压制方法 [J].石油物探,2021,60(3):376-384.
[11] 武国宁,于萌萌,王君仙,等.应用平稳小波变换与深度残差网络压制地震随机噪声 [J].石油地球物理勘探,2022,57(1):43-51+5.
[12] 唐杰,韩盛元,刘英昌,等.基于去噪卷积神经网络的面波噪声压制方法 [J].石油物探,2022,61(2):245-252.
[13] 徐彦凯,刘曾梅,薛亚茹,等.应用双通道卷积神经网络的地震随机噪声压制方法 [J].石油地球物理勘探,2022,57(4):747-756+735.
作者简介:吴泽勇(1996—),男,汉族,江西抚州人,硕士研究生在读,研究方向:图像处理、机器学习;袁静(1981—),女,汉族,河北石家庄人,教师,研究方向:计算机视觉。