基于DBSCAN聚类算法的卫星数据分区异常检测

2024-04-09 10:58尚星宇
科技创新与应用 2024年10期
关键词:电子密度电离层邻域

尚星宇

摘  要:随着我国第一颗电磁监测卫星的发射,卫星探测的海量数据不断涌现,探究空间载荷数据变化特征已成为当前研究热点。为了对张衡一号卫星LAP载荷数据进行异常检测,该文将处理后的数据按地理纬度划分为南纬50°到南纬20°,南纬20°到北纬20°,北纬20°到北纬50°三个区域,依次采用DBSCAN密度聚类算法进行聚类异常检测。结果表明,该方法可用于对LAP数据的异常检测。DBSCAN密度聚类算法可用于检测卫星异常数据,为检测卫星探测数据异常、研究空间数据变化特征提供思路参考。

关键词:ZH-1卫星;原位电子密度观测数据;异常检测;DBSCAN;聚类算法

中图分类号:P352.7      文献标志码:A          文章编号:2095-2945(2024)10-0138-05

Abstract: With the launch of China's first electromagnetic monitoring satellite and the continuous emergence of massive data detected by the satellite, exploring the changing characteristics of space load data has become a current research hotspot. In order to detect the anomaly of ZH-1 satellite LAP load data, the processed data are divided into three regions: from 50° south latitude to 20° south latitude, from 20° south latitude to 20° north latitude, and from 20° north latitude to 50° north latitude. The clustering anomaly detection is carried out by using DBSCAN density clustering algorithm in turn. The results show that this method can be used for anomaly detection of LAP data. DBSCAN density clustering algorithm can be used to detect satellite abnormal data, which provides a reference for detecting abnormal satellite data and studying the changing characteristics of spatial data.

Keywords: ZH-1 satellite; in situ electron density observation data; anomaly detection; DBSCAN; clustering algorithm

張衡一号卫星(以下简称“ZH-1卫星”)是我国自主研发的第一颗近地轨道电磁场环境监测科学试验卫星,可观测全球电磁场、电离层等离子体、高能粒子等观测数据,实现对电离层空间环境多角度的探测分析,其主要科学目标之一是:对中国及周边区域开展电离层动态实时监测和地震前兆跟踪监测,探索地震电离层扰动机制[1-2]。卫星上搭载了3类8种科学载荷,第一类是用于电离层电磁场探测的载荷,包括高精度磁强计、感应式磁力仪和电场探测仪;第二类是用于原位等离子体参数探测的载荷,包括朗缪尔探针、等离子体分析仪和高能粒子探测器;第三类是用于电离层结构探测的载荷,包括GNSS掩星接收机和三频信标发射机[3-4]。

为研究空间电磁场和电离层的变化,起初需要人工统计分析相关数据特征,而异常数据常常淹没隐藏在海量数据中,使用传统人工方法虽然能够满足相关研究需要,但费时耗力且效率低下,严重制约了后续各种数据的分析和研究工作。依据卫星跨度范围广,卫星探测数据复杂的特点,常用到的方法,如王秀英等[5]采用滑动窗口求标准差,通过设置阈值的方式检测出顶部电离层不规则结构并进行研究;张学民等[6]采用四分位距法对张衡一号卫星探测等离子体参量数据异常提取,并对2020年新疆于田6.4级地震前电离层异常现象进行分析。

数据挖掘中常用聚类算法可以对数据进行异常检测和处理。通过对处理后的数据进行聚类分析,将相似数据点归为一个聚类簇,将出现的单个数据为一类或者极少数数据为一类的数据判定为异常数据[7]。常用的一种用于异常检测的DBSCAN密度聚类算法有很多研究成果,阮嘉琨等[8]利用DBSCAN算法对高速公路交通流进行异常数据检测;潘渊洋等[9]针对环境监测应用,利用DBSCAN算法对训练时段内的数据进行训练并提取环境特征集,节点根据特征集对新采集的数据进行异常数据检测。因此,本文尝试使用DBSCAN聚类密度算法,根据卫星轨道数据特点设计按地理纬度划分3个区域依次进行聚类,设置邻域参数检测异常数据。

1  数据及预处理

本文选用ZH-1卫星朗缪尔探针(Langmuir probe,LAP)载荷探测的电子密度(electronic density,Ne)原位数据。该数据探测范围为5×102~107 cm-3。为了避免极地干扰,本文仅选用中低纬度即南北纬50°之间的电子密度数据,图1为2022年9月30日得到的同一轨道(编号:25863)升轨(卫星从南向北飞)和降轨(卫星从南向北飞)电子密度观测数据随纬度变化的连续曲线。由图1可知,2个数据曲线都伴随南北地理纬度显示出较大尺度的趋势性变化,而这种趋势性变化随季节、太阳活动等影响有所变化。图1中轨道为升轨的电子密度观测数据总体上比较平稳,而轨道为降轨的观测数据在赤道附近急剧上升,有较大幅度变化。

图1  升降轨电子密度连续观测数据随纬度的变化曲线

由于ZH-1卫星探测范围跨越南北纬度90°距离较大、记录的科学数据种类较多、数据存储量巨大,且卫星在轨工作状态下,每隔一段时间工作模式会进行调整与切换,在调整和切换工作模式时数据记录有时会出现数据缺失、信号突跳较大的情况,这些离群值数据对后续聚类会造成较大影响,所以需要对原始数据设计专门的数据预处理方法。本文根据轨道LAP电子密度数据的特点,将离群值数据置为空值,采用均值填充的方法,用数据附近的前后数据进行填充,并对缺失数据进行拟合预处理。经过离群值和缺失值处理,数据的质量将大大提高,有助于提高后续研究的精确度。后续数据处理均是在去除离群值和补齐缺失数据操作后进行的。另外,对于轨道有多个缺失数据的情况,该轨道数据不参加计算。

2  方法介绍与研究

聚类分析属于无监督学习,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种典型的基于密度的聚类算法,这类聚类算法一般假定类别可以通过样本分布的精密程度决定,同一类别的样本,在该类别任意样本周围不远处一定有同类别样本存在[10]。DBSCAN对象需要设置以下2个主要参数:半径eps和最小样品点数min_samples,通过设置一组邻域(eps, min_samples)来描述样本集的紧密程度。半径eps是指从一个观察值到另一个观察值的最远距离,超过这个距离将不再认为二者是邻居。最小样品点数min_samples是指最小限度的邻居数量,如果一个观察值在其周围小于半径eps距离的范围内有超过这个数量的邻居,就被认为是核心观察值。DBSCAN算法从数据集中随机选择一个核心点作为“种子”,由该“种子”出发确定相应的聚类簇,当遍历完所有核心点时,算法结束。

在DBSCAN聚类技术中,所有数据点都被定义为核心点(Core Points)、边界点(Border Points)或噪声点(Noise Points)。若样本xi的半径eps邻域内至少包含了min_samples个样本,则称样本xi为核心点;若样本xi的半径eps邻域内包含的样本数目小于min_samples,但是它在其他核心点的邻域内,则称样本点xi为边界点;对于非核心点的样本xi,若xi不在任意核心点半径eps的邻域里都是噪声点,也被标识为异常值。DBSCAN算法的流程图如图2所示。

DBSCAN算法步骤为:①首先在样本集D={x1,x2,...,x■■}中任意选取一点xi,判断xi是否可以作为核心点,如果xi不能满足核心点的定义,那么从D中继续取点。如果xi满足核心点定义,那么能够以xi为核心点形成新的簇Cm。②从xi的半径eps邻域内选取其他点xj,判断xj是否可以作为该簇新的核心点继续扩张该簇。如果xj不满足核心点定义,那么xj为边界点,不再进一步处理。如果xj满足核心点定义,那么将xj的半径eps邻域内的点加入xi所形成的簇Cm,同时再从Cm继续选点进行核心点的判断和簇的扩张,直至簇Cm中的核心点已经全部遍历完成,无法继续扩张为止。③将簇Cm中的所有點从样本集D去除,此时完成簇Cm的聚类。接着继续从样本集D中取出新的点进行新簇的聚类,直至样本集D中所有点全部经过判断与聚类,剩下的点既不满足核心点条件,也未被某一簇包含,定义其为噪声点,也就是异常值。

图2  DBSCAN算法流程图

简单来说,根据给定的邻域参数半径eps和最小样品点数min_samples确定所有的核心点,对每一个核心点,选择一个未处理过的核心点,找到满足邻域参数eps和min_samples的样本生成聚类“簇”,重复以上过程。当完成这些所有步骤时,会得到一个关于簇划分的集C={C1,C2,...,Cm},凡是在聚类周围但又不是核心点的观察值将被认为属于这个聚类,而那些离聚类很远的观察值将被标记为异常值。

ZH-1卫星探测区域纬度覆盖了从赤道到中高纬度区,由于电离层电子密度随纬度变化较大,为了尽可能减少指标之间的量级和取值范围差异的影响,避免太大的数引发数值问题,采用分区的DBSCAN算法更为合适。同时考虑到在数据赤道附近的变化幅度剧烈,为方便计算将轨道数据划分为3个区域,分别是南纬50°到南纬20°,南纬20°到北纬20°,北纬20°到北纬50°。通过按地理纬度划分区域的方式,使异常检测结果更加可靠准确,不会受到整个轨道数据背景的影响。为了消除趋势性影响,首先对数据进行一阶差分计算,为了更直观展示本文检测方法,这里以具体轨道(6886号降轨轨道)观测数据为例,如图3(a)表示轨道号6886原始数据随地理纬度的变化曲线,图3(b)表示进行差分计算后的数据随地理纬度的变化曲线。差分计算后的数据可以消除趋势变化,原始电子密度数据中变化剧烈的地方,差分计算后的数据同样变化剧烈。

这里对检测过程中某些参数的设置稍加说明,半径eps、最小样品数目min_samples可以根据研究目的设定,半径eps越小可以检测更大空间尺度的异常数据,min_samples越小代表对异常区域的判断更细致。使用Python语言编写DBSCAN算法,对算法进行初步调试后,经过进一步分析后发现,在处理LAP电子密度数据时,半径eps=0.01,最小样品点数min_samples=5时,异常提取结果较为理想,与人工筛选结果吻合度更高。选用6886号轨道采用纬度分区的DBSCAN聚类密度算法对LAP电子密度处理后的数据进行异常检测,再将检测结果随地理纬度展开,异常检测结果如图4所示,其中图例标注为异常值,不同颜色的数据点代表属于不同的簇,颜色越深的数据点说明聚类更集中。图4中从左至右依次检测得到的噪声比和分簇数目为:图4(a)的噪声比为3.12%,分簇的数目为1;图4(b)的噪声比为24.23%,分簇的数目为7;图4(c)的噪声比为7.23%,分簇的数目为5,整个轨道数据的加权平均噪声比为12.79%(保留小数点后2位有效数字)。由异常检测结果可知,异常数据出现在纬度-20°到纬度20°之间的概率更高,符合原始数据在赤道附近波动的情况,与人工对比结果相吻合。

为了与不分区域的DBSCAN密度聚类算法异常检测结果作对比,同样采用同一轨道降轨的电子密度数据,使用整个轨道数据不进行纬度分区,用同样的邻域参数进行异常检测得到的检测结果如图5所示,整个轨道的噪声比为7.52%,分簇的数目为8。图4和图5展示了DBSCAN密度聚类算法对异常数据的检测结果,根据对差分计算数据进行聚类分析,算法可成功标记正常数据和异常数据,但是对整个轨道数据采用DBSCAN算法会使部分数据,如纬度-50°和纬度50°附近的数据,埋没在整个数据的背景场中,从而导致这些异常数据判断为正常值,因此采用分区域划分的DBSCAN密度聚类算法效果更佳。综上,通过本文提出的基于DBSCAN密度聚类算法的卫星轨道数据分区异常检测方法,可以对数据进行判断分析,标记正常数据和异常数据,且按地理纬度划分区域的DBSCAN密度聚类算法检测效果更好。

3  结束语

本文基于张衡一号卫星朗缪尔探针载荷探测原位电子密度观测数据,对卫星轨道地理纬度南北50°之间观测数据按纬度划分3个区域,分别是南纬50°到南纬20°、南纬20°到北纬20°、北纬20°到北纬50°,利用DBSCAN密度聚类算法对电离层电子密度数据进行异常结构检测和分析,结果表明本文提出的異常数据检测方法可行有效,能够对ZH-1卫星LAP探测数据进行异常检测,可以作为卫星数据处理的方案之一,且按纬度分区域划分得到的异常结果效果更好。

但是空间电离层变化是复杂多变的,且异常的判定也是人为标注的,参数阈值的设定仍需具体估计,不同阈值下的异常提取结果没有进行对比,所以有关异常的判定和DBSCAN密度聚类算法的异常检测方法的优异仍需进一步讨论与研究。

参考文献:

[1] 袁仕耿,朱兴鸿,黄建平.电磁监测试验卫星(张衡一号)系统设计与关键技术[J].遥感学报,2018,22(S1):32-38.

[2] 泽仁志玛,刘大鹏,孙晓英,等.张衡一号电磁卫星在轨情况及主要的科学成果[J].地球与行星物理论评(中英文),2023,54(4):455-465.

[3] 申旭辉,张学民,崔静,等.中国地震遥感应用研究与地球物理场探测卫星计划[J].遥感学报,2018,22(S1):1-16.

[4] 申旭辉.发展电磁监测卫星 推进天基地震观测系统建设[J].防灾博览,2017(2):62-65.

[5] 王秀英,杨德贺,张学庆,等.基于ZH-1卫星探测的太阳活动低年顶部电离层不规则结构的时空特征[J].地球物理学报,

2022,65(3):862-881.

[6] 张学民,刘静,熊攀,等.2020年新疆于田6.4级地震前电离层扰动现象分析[J].地震,2021,41(2):145-157.

[7] 黄静,官易楠.基于改进DBSCAN算法的异常数据处理[J].软件导刊,2020,19(4):219-223.

[8] 阮嘉琨,蔡延光,乐冰.基于DBSCAN密度聚类算法的高速公路交通流异常数据检测[J].工业控制计算机,2019,32(7):92-94.

[9] 潘渊洋,李光辉,徐勇军.基于DBSCAN的环境传感器网络异常数据检测方法[J].计算机应用与软件,2012,29(11):69-

72,111.

[10] 徐书扬,俞鸿烽,潘华铮,等.DBSCAN聚类处理的改进蚁群算法在车辆路径问题中的应用[J].电脑知识与技术,2020,16(19):182-186.

猜你喜欢
电子密度电离层邻域
一种电离层TEC格点预测模型
Kalman滤波估算电离层延迟的一种优化方法
顾及地磁影响的GNSS电离层层析不等像素间距算法*
稀疏图平方图的染色数上界
不同GPS掩星电离层剖面产品相关性分析
等离子体电子密度分布信息提取方法研究
基于邻域竞赛的多目标优化算法
一种适用于电离层电子密度重构的AMART算法
电离层对中高轨SAR影响机理研究
关于-型邻域空间