鄢青青,肖 锋,柳振民
基于差分和局部离群因子的遥测数据野值检测方法
鄢青青,肖 锋,柳振民
(西昌卫星发射中心,西昌,615000)
为提高火箭飞行遥测数据孤立型野值检测的准确性和检测效率,针对遥测数据变化范围大、分布参数未知、数据量大等特点,提出一种基于差分和局部离群因子的野值检测算法,通过一阶差分使遥测数据中快速变化段的突变点与正常幅值点区分开,然后去除差分值中的重复值以降低计算复杂度,并将数据点的重叠度引入局部离群因子的计算中以快速筛选出局部离群程度较大的突变点,最后利用突变点的差分值符号特征来辨识野值点。通过实例应用分析,验证了该算法的高效性和准确性。
遥测数据;野值;差分;局部离群因子
野值是指偏离被测信号变化规律[1]或被测目标真值[2]的数据点,通常是由数据采集、处理、传输中的误差或干扰引起的,与被测系统的正常或异常行为均无关,在文献中又称为异常点、粗大误差、离群(点)值、孤立(点)值、跳点[7]等[3~7]。野值的检测与清除是运载火箭飞行遥测数据预处理中的重要环节,关系到后续数据分析挖掘、故障排查与处置的效率和成功率。遥测数据中,连续的多个偏离正常变化规律的值(成片野值或斑点野值)[6,8],通常表明被测系统、数据处理、传输通道或被测环境存在异常,而这些都是遥测数据分析的重要方面,故该类值一般不能作为无关数据直接剔除,下文中的野值仅指单个、相对邻近点孤立的偏离点。
遥测数据反映着火箭飞行中自身与内外环境、传输通道的状态。随着近年来中国航天发射量的大幅增长,传统的人工分析模式已不能满足大量遥测数据的深度挖掘利用在效率、覆盖率、准确率等方面的需求。自动化甚至智能化的数据分析对数据预处理提出了更高的要求,尤其是对野值检测效率和准确度的要求,关系更高效的现代化数据处理手段能否真正应用于实际工作。
遥测数据是被测对象状态的反映,因此根据不同时段被测对象的状态不同而可能变化范围较大。如果被测对象状态变化频繁,则可能会导致遥测数据出现频繁起伏。同时由于被测对象工作状态转换,使遥测数据中常包含几类幅值瞬时变化较快、与相邻点差异较大的突变点:极值点、阶跃点、单调区间分界点、野值点等。这类突变点的变化特征为在数个单位时间内数据的幅值呈现大幅度变化,与相邻点(包括快速变化中的其他点)的差值绝对值相对其他时段的相邻点差值绝对值较大,在差分后易被误识别为野值点。
综上所述,遥测数据的变化幅度大、数据量也大,使得在野值检测过程中区分正常值与野值和提高检测效率的难度较大。
遥测数据的野值特性如图1所示。
图1 遥测数据的野值特性
遥测数据的野值是指幅值和变化规律均偏离两侧相邻点较大的孤立数据点,其幅值大小不确定(甚至可能与数据序列中某些正常值相当),幅值偏离两侧相邻点的方向也不确定(大于或小于两侧相邻点),不连续出现但出现的次数不确定,见图1a。
遥测数据中的野值大小、数量、方向不确定,也容易与其他类型的突变点混淆,在检测过程中还要排除分层值的干扰。
由于遥测数据的采样频率较高,在其缓变时段,单位采样时间间隔的数据,幅值变化程度很小。因此遥测数据进行一阶前向差分后,差分值除瞬时变化较快的突变点附近外,其他缓变区间的幅值相对大幅缩小。如此可将包括野值在内的少量突变点与数据序列中大部分正常缓变值区分开来。
e)局部可达密度。
f)局部离群因子。
基于差分和局部离群因子的野值检测方法(简称DIFF-LOF)对遥测数据进行一阶差分后,首先通过局部离群因子识别数据中的突变点,然后利用野值点与其他突变点的差分值符号特性差别辨识突变点集合中的野值点,具体步骤如下:
e)排除被标记为野值点中的差分值为分层值的点,剩下的均为野值。
图2 遥测数据序列及其差分序列
表1 算法性能对比分析
Tab.1 Comparative Analysis of Algorithm Performance
算法配置漏判率误判数平均用时ms LOF参数设置(=23)k——16.76 >163042.86%0 1~163028.57%0 <1300>273 1≥3000 120~3014.285%0 1≤2028.57%0 不去重(截取80s)002485.6 不符号辨识02310.82 不差分0458.45 单纯3σ法>2.5σ100%01.51 1.1σ<|X|Δ<2.5σ50%0 |X|Δ<1.1σ50%>2×104 差分与符号辨识3σ法28.57%和004.19
采用DIFF-LOF方法且不进行突变点的符号特征辨识,其结果表明符号特征辨识是在幅值判别(LOF阈值)为疑似野值的数据点中进一步区分野值与其他类型突变点的有效方法。
随机选择1000个历史数据序列进行上述多种方法的检测结果对比,并统计野值检测的漏判率、误判数(将非野值点误判为野值的总数量)、平均用时。漏判率的计算方法为
表2 基于历史数据的野值检测对比分析
Tab.2 Comparative Analysis of Outlier Detection based on Historical Data
检测方法平均漏判率误判数平均用时/ms DIFF-LOF11.95%1716.76 基于差分的3σ法9.65%>6×1041.26 不差分LOF24.39%>3×104303.72 不符号辨识LOF11.63%541016.11 单纯3σ法41.93%>2×1050.57
图3 DIFF-LOF方法野值检测结果示例
不进行差分的LOF法漏判率和误判数均较大,因为遥测数据的幅值变化范围较大,使部分正常值与野值混合在一起,局部邻域点密度不能准确反映野值点或突变点与正常数据的差别。另外,不进行差分的LOF方法计算复杂度也极大,部分幅值极大的数据在计算时甚至发生内存不足问题。
不进行符号辨识的LOF法的误判数较高,而漏判率则较小,这是因为在不进行符号辨识时,会将大量局部密度较小的突变点误判为野值点;而漏判率比DIFF-LOF稍小的原因是有1个较小的疑似野值在符号辨识中被辨识为极值点。
图4 基于差分的法野值检测结果示例
图5为采用DIFF-LOF法对历史数据进行野值检测的结果,部分同时包含具明显特征的突变点和野值点检测结果。可见DIFF-LOF法可准确区分普通突变点与野值点。
图5 DIFF-LOF方法对多个遥测数据序列的野值检测结果
DIFF-LOF算法包含改进的LOF和多个针对遥测数据特征的功能设计,以确保算法的野值检测效果和计算复杂度。
综合分析表明,DIFF-LOF算法具有明显的优异性和工程实践应用价值。
针对遥测数据的变化范围大、分布参数未知、单次数据量大等特点,提出一种基于差分和LOF的野值检测算法(DIFF-LOF),通过实例分析表明:a)对遥测数据进行差分可将突变点与普通幅值区分开来,提高了野值检测的准确性;
b)差分后去重并将数据点的重叠度引入LOF计算,可大幅提高野值检测的效率,降低计算复杂度;
c)对经过LOF阈值筛选的疑似野值数据点进行符号特征辨识可区分不同类型突变点,降低误识别率。
同时通过基于历史数据的对比分析,进一步验证了DIFF-LOF方法的检测准确性和检测效率。而遥测数据中不同参数的数据在分层值、局部变化频率和速率等方面存在区别,应该针对不同类型遥测参数设置不同的LOF参数,以进一步提高野值检测的准确性。
[1] 张再弟, 等. GJB 2238A -2004, 遥测数据处理[S]. 北京: 总装司令部, 2004.
Zhang Zaidi, et al. GJB 2238A -2004, telemetry data processing[S]. Beijing: General Equipment Command, 2004.
[2] 胡绍林, 孙国基. 靶场外测数据野值点的统计诊断技术[J]. 宇航学报, 1999, 20(2): 68-74.
[J]1999, 20(2): 68-74.
[3] 叶茂. 大规模聚类算法及在异常检测中的应用研究[D]. 郑州: 解放军信息工程大学, 2017.
[4] 耿素军, 余剑. 智能测量系统中粗大误差的处理[J]. 电气电子教学学报, 2005, 27(3): 37-39.
[5] 辛丽玲. 基于密度差异的离群点检测研究[D]. 北京: 北京交通大学, 2015.
Xin Liling. Research on outlier detection based on density difference[D]. Beijing: Beijing Jiaotong University, 2015.
[6] 谷阳阳, 赵圣占. 遥测数据野值剔除方法的对比与分析[J]. 战术导弹技术, 2012(2): 60-63.
[J]2012(2): 60-63.
[7] 赵圣占, 等. 遥测数据处理的野值剔除方法研究[J]. 强度与环境, 2005, 32(1): 59-63.
[J]2005, 32(1): 59-63.
[8] 祝转民, 等. 动态测量数据野值的辨识与剔除[J]. 系统工程与电子技术, 2004, 26(2): 147-149,190.
[J]2004, 26(2): 147-149, 190.
[9] 李安梁, 郭才发, 蔡洪. 地磁测量数据野值的辨识与剔除[J]. 飞行器测控学报, 2001, 30(2): 89-94.
[J].2001, 30(2): 89-94.
[10] 任玉川, 邵会兵. 传递对准野值加权矩阵修正方法应用研究[J]. 现代防御技术, 2009, 37(4): 47-49, 103.
[J]., 2009, 37(4): 47-49, 103.
[11] 朱学锋. 基于聚类模糊系统的动态数据野值剔除方法[J]. 飞行器测控学报, 2011, 30(5): 81-84.
[J]., 2011, 30(5): 81-84.
[12] Subutai Ahmad, Scott Purdy. Real-time anomaly detection for streaming analytics[OL] //https://www.researchgate.net/publication/205119405Real- Time_Anomaly_Detection_for_Streaming_Analytics. 2019.07.05.
[13] Breunig M M, et al. LOF: Identifying Density-Based Local Outliers[C]. New York: the 2000 ACM SIGMOD International Conference on Management of Data, 2000.
[14] Mei Bai, et al. An efficient algorithm for distributed density- based outlier detection on big data[J]. Neurocomputing, 2016(181): 19-28.
[15] Meiling Liu. A novel approach to mining local outliers[J]. Energy Procedia, 2011(13): 6332-6339.
[16] Meiling Liu. A hybrid algorithm for mining local outliers incategorical data[J]. Wireless and Mobile Computing, 2017, 13(1): 78-85.
[17] Zhiping Xie, Xiaoyu Li, Wenyi Wu. An improved outlier detection algorithmto medical insurance[C]. Yangzhou: the 17th International Conference on Intelligent Data Engineering and Automated Learning, 2016.
[18] 徐全智, 吕恕. 概率论与数理统计(第三版)[M]. 北京: 高等教育出版社, 2017.
Xu Quanzhi,Shu. Probability theory and mathematical statistics (Third Edition) [M]. Beijing: Higher Education Press, 2017.
[19] 段超. 基于多属性的空间离群点检测算法研究[D]. 上海: 华东理工大学, 2013.
Duan Chao. Research based on multiple attributes spatial outlier detection[D]. Shanghai: East China University of Science and Technology, 2013.
Outlier Detection Method for Telemetry Data based on Difference and Local Outlier Factor
Yan Qing-qing, Xiao Feng, Liu Zhen-min
(Xichang Satellite Launch Center, Xichang, 615000)
In order to improve the accuracy and efficiency of isolated outlier detection for rocket flight telemetry data, an outlier detection algorithm based on difference and local outlier factor (DIFF-LOF) is proposed, aiming at the characteristics of large variation range, unknown distribution parameters and large amount of data of telemetry data. Through the first-order difference, DIFF-LOF distinguishes the mutation point of the fast change section from the normal amplitude point in the telemetry data, and then removes the duplicate value in the difference value to reduce the computational complexity. DIFF-LOF introduces the overlap degree of data points into the calculation of local outlier factor to quickly screen out the mutation points with larger local outlier degree, and uses the difference symbolic features of mutation points to identify outliers. The efficiency and accuracy of the algorithm are verified by an example.
telemetry data; outliers; differences; local outlier factor
2097-1974(2023)01-0093-08
10.7654/j.issn.2097-1974.20230119
V557+.3
A
2020-04-01;
2020-12-25
鄢青青(1986-),男,博士,工程师,主要研究方向为航天器测试发射。
肖 锋(1978-),男,高级工程师,主要研究方向为航天器测试发射。
柳振民(1980-),男,高级工程师,主要研究方向为航天器测试发射。