基于LV-DBSCAN算法的大坝安全监测数据异常检测

2024-03-09 07:48:45戴领李少林刘光彪纪传波段国学
人民长江 2024年1期
关键词:监测数据大坝聚类

戴领 李少林 刘光彪 纪传波 段国学

摘要:大坝安全监测数据原始序列中常存在异常测值,极大影响了大坝安全监测资料分析的可靠性和准确性。为此,在分析异常值特性及传统异常检测方法优缺点的基础上,分别从局部与整体角度研究监测数据异常检测方法。首先针对多重局部异常系数法要求数据序列较长且数据等时间间距等缺陷,提出了局部变化异常系数法(LV)及局部方法与整体方法协同判别策略;进一步引入密度聚类算法(DBSCAN),提出了兼顾数据整体与局部特性的LV-DBSCAN异常检测方法。以某混凝土重力坝两垂线测点顺流向位移监测数据为实例,对比分析了不同方法在不同类型数据集上的检测精度。研究结果表明,所提LV-DBSCAN方法适用性更广,准确率更高,误判率更低。

摘要:大坝安全监测; 异常值; 局部变化异常系数法(LV); 密度聚类算法(DBSCAN); 置信度

中图法分类号: TV698

文献标志码: A

DOI:10.16232/j.cnki.1001-4179.2024.01.033

0 引 言

近年来,由于国家对大坝安全监测的重视程度逐渐提升,大坝安全监测自动化改造进程逐步加快,监测仪器数量日益庞大,监测数据量爆炸式增长,在如此庞杂的数据中,不可避免会夹杂着大量的异常测值,这些异常测值对于监测资料分析具有较强的干扰性,严重影响大坝安全分析评价结论[1]。

异常测值的判断、分析和处理,是监测资料分析的基础性工作,也是监测资料分析的主要难题之一[2]。常用的大坝安全监测数据异常检测方法主要有统计概率法、小波分析法、时空判别法和数学模型法等[3]。统计概率法以数理统计和概率论为基础,其基本流程是通过统计概率分析和判别准则来检测一组数据中是否存在异常值,常用的判别准则主要有拉依达(Parita)准则[4](又称3σ准则)、格拉布斯(Grubbs)准则[5]、狄克松(Dikon)准则[6]等。小波分析可以对原始监测数据序列进行多尺度分析,对于具有异常值的数据序列,其分解后的系数具有模极大值特征,可以此为依据检测大坝监测数据序列的异常值[7-9]。时空判别法主要是将观测物理量与历史的或相邻的观测数据相比较,找出其中具有突变特性或跳动性变化的测值,包括Hampel滤波法、平滑估计法、多重局部异常系数法等[3,10]。数学模型法是根据原型观测资料数据,通过各种不同方法建立监测效应量与各影响因子之间的回归模型,从而得到各实测值对应的预测值,利用两者之间的差值来判断测值是否为异常值[11-12],常用的模型除传统的非线性回归之外,还包括支持向量机、随机森林、神经网络等智能模型[13-14]。此外,還有局部异常因子算法[15-16]、K近邻算法[17-18]、聚类算法[19-20]等人工智能方法也在大坝安全监测数据异常检测领域内广泛应用。不同类型方法的侧重点和适用范围不一。一般而言,对于平稳数据序列,采用统计概率法基本能够有效识别整体上远离数据序列的异常值,而若监测效应量变化呈现递增趋势(见图1),则不满足数据序列独立同分布条件,无法使用统计概率法。对于类似图1中G点异常测值,数据阶跃后并未下降,而是维持原有趋势,这类测值可能是由于地震等突发情况导致,也可能由于仪器损坏,中间数据漏测导致,此类情况在大坝环境量和效应量上难有先兆信息,通常难以实时判断。采用时空判别法,窗口在滑动至阶跃点时,由于前后相差较大,容易对阶跃后前几个值造成误判,而采用统计概率法,阶跃后测值稳定,数据识别为正常。由此可见,仅靠单一方法难以保证异常值完全被识别出来,需根据数据整体和局部特性统筹考虑。

为此,本文分别从局部与整体角度研究大坝安全监测数据异常检测方法,局部以多重局部异常系数法为基础,提出局部变化异常系数法(Outlier Coefficient of Local Variation,LV);整体以聚类算法为基础,选择适用性更广、速度更快且噪声数据处理更佳的密度聚类算法(DBSCAN);进一步,提出局部方法与整体方法协同判别策略(将两种方法进行结合),建立融合局部变化异常系数法和密度聚类算法的大坝安全监测数据异常检测模型,以提高数据异常检测准确率,降低不同方法误判率。

1 基于LV-DBSCAN的数据异常检测方法

1.1 局部变化异常系数法

针对多重局部异常系数法[3]存在的数据序列长度要求高、数据序列等间距的问题,结合频率分析与小概率原理,提出局部变化异常系数法,具体原理如下:

假设有一组原始监测数据序列{x1,x2,…,xt-k,…,xt-1},待检测数据为xt。根据历史数据的变化规律,选取的阈值为{bU,bL}。

Step 1:选取待检测值xt最近的前m天监测数据,组成窗口数据序列Xt:{xt-m,…,xt-2,xt-1}。

Step 2:计算待检测值xt处变化率x′t:

x′t=(xt-xt-i)/Δt(1)

式中:Δt为间隔时间,一般以日作为最小间隔尺度。若数据序列中的xt-i-1判定为异常值,则取xt-i-1计算变化率x′t,直至i+1>m;若窗口内无数据或均为异常数据,直接判定待检测值xt为正常,该操作主要是为了消除窗口数据中异常值对检测结果的影响。

Step 3:计算变化率与相应上下阈值b的归一化系数P:

P=x′t-bLbU-bL(2)

若P在0~1之间,则判断待测值为正常值,将该正常值的异常系数设定为0,若P大于1或小于0,则判定待测值为异常值,将P作为xt的异常系数。

Step 4:将t+1时刻数据作为待检测数据,重复Step 1~3,即每当获取到实时数据(待检测值)时,即可重复Step 1~3,以实现对实时数据的异常检测。

窗口长度m建议取30 d;施工期观测频次高,可适当缩短,运行期测值相对稳定可适当延长。阈值b计算步骤如下:

Step 1:假设有一组原始监测数据序列x1,x2,…,xt,根据式(1)计算获取变化率序列x′2,x′3,…,x′t。

Step 2:对变化率序列进行频率分析,获取序列概率密度函数f(x′)及累积概率分布函数F(x′),其中概率分布拟合使用核密度估计法。

Step 3:根据小概率原理,设定置信度为α,以Fα/2(x′)与F1-α/2(x′)分布作为阈值b上下限bU,bL。

局部变化异常系数法来源于多重局部异常系数法,同属于时空判别法,主要优势体现在以下两点:

(1) 多重局部异常系数法直接采用xj-xj-i计算差分序列,默认前后间隔一致;而在实际工程应用中,由于存在加密观测、仪器损坏补测等特殊情况、数据序列通常不是等间距的。因此,研究将原有差分形式替换为变化率,即式(1)。

(2) 多重局部异常系数法对比分析了3σ准则和箱型图法计算结果,最终选用历史数据的极值来确定阈值bU,bL大小。该方法简便但对数据序列依赖性太强,若原始序列较短或未出现任何极端工况,极易造成数据误判。因此,研究通过对变化率序列进行频率分析,获取其概率分布,然后依据小概率原理,确定阈值b上下限,在一定程度上挖掘出变化率的潜在信息,可降低对原始数据序列的要求。

1.2 DBSCAN算法

DBSCAN是一种基于密度的聚类算法,根据密度可达关系导出的最大密度相连的样本集合即为一个簇。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合[21]。

DBSCAN算法核心在于任意选择一个没有类别的核心对象作为种子,然后找到所有这个核心对象能够密度可达的样本集合,即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合,这样就得到另一个聚类簇,一直运行到所有核心对象都有类别为止。具体步骤如下。

Step 1:从一个未被访问的任意数据点开始,这个点的邻域是用距离epsilon来定义(即该点ε距离范围内的所有点都是邻域点),如果在该邻域内有足够数量的点(即minPoints),则聚类过程开始,并且当前数据点成为新簇中的第一个点。否则,该点将被标记为噪声。在这两种情况下,该点都会被标记为“已访问”。

Step 2:对于新簇中的第一个点,它的ε距离邻域内的点也会成为同簇的一部分。这个过程使ε邻域内的所有点都属于同一个簇,然后对添加到簇中的所有新点重复上述过程。

Step 3:重復Step 1~2,直到所有点被标记为“已访问”停止。

DBSCAN算法的主要优点在于无需确定簇的数量且能够很好地找到任意大小和形状的簇。但当数据簇密度不均匀时,它的效果不如其他算法好。这是因为当密度变化时,用于识别邻近点的距离阈值ε和minPoints的设置将随着簇而变化;在处理高维数据时也会出现这种缺点,因为难以估计距离阈值ε。

采用DBSCAN算法进行异常监测时,将聚类结果中存在数据较少的簇和噪声点判定为异常数据,其余为正常数据。本文采用K-distance方法确定算法超参数距离阈值ε和邻域最小样本数minPoints[22]。

1.3 局部方法与整体方法协同判别策略

前两节所提局部方法与整体方法是从不同角度对数据异常值进行监测,因此最终检测出的异常数据极大程度上不完全一致。若两类方法均检测为异常数据,则基本可以判定该点为异常值,但还存在局部方法判断为异常数据而整体方法下为正常数据,或者整体方法判断为异常数据而局部方法下为正常数据的现象,此类点无法确定是否为异常点。1.1节所提局部变化异常系数法可以通过设置置信度改变异常值判断阈值,置信度越大,阈值越大,说明异常数据偏离程度越严重,其为异常值的可能性更高;置信度越小,阈值越小,说明异常数据偏离程度越轻微,其为异常值的可能性越低。因此,可以根据该方法特性,提出一种局部方法与整体方法协同判别的策略,具体如下:

针对局部方法判断为异常而整体方法判断为正常的数据,若此时提高局部方法置信度仍为异常,则表明此异常点偏离邻域严重,可以判断其为异常点。针对整体方法判断为异常而局部方法判断为正常的数据,若此时降低局部方法置信度仍为正常,则表明此异常点偏离邻域较轻,可以判断其为正常点。

1.4 LV-DBSCAN异常检测方法

局部变化异常系数法聚焦于数据邻域,缺乏对数据特性整体的考虑,且未能考虑环境量等因素,而DBSCAN方法能从整体上分析数据分布特性,且能够延伸至多维数据,即可以同时将环境量等因素考虑进来。因此,本文在局部变化异常系数法和DBSCAN算法基础上,结合局部方法与整体方法协同判别策略,提出一种融合局部变化异常系数法和密度聚类算法的大坝安全监测异常值协同判别方法(LV-DBSCAN),具体步骤如图2所示。

Step 1:输入监测数据,使用局部变化系数法提取异常点。

Step 2:输入监测数据,使用密度聚类算法提取异常点。

Step 3:将Step 1和Step 2中判别的异常点交集定义为准确异常点,异常点差集定义为局部可疑点,将Step 2与Step 1中判别的异常点差集定义为全局可疑点。

Step 4:针对局部可疑点,将Step 1中局部变化异常系数法的置信区间扩大为α+β,判断可疑点是否还是异常点,若是则将其列为异常数据,否则为正常点。

Step 5:针对全局可疑点,将Step 1中局部变化异常系数法的置信区间缩小为α-β,判断可疑点是否为异常点,若是则将其列为异常数据,否则为正常点。

Step 6:综合Step 3~6中所有异常点,至此实现异常检测。

2 实例研究

2.1 研究对象及数据

某混凝土重力坝在1号、5号、9号、14号坝段分别布设了正、倒垂线。选择其中1号坝段高程93.4 m和7号坝段高程109.2 m的两个垂线测点顺流向位移监测数据为研究对象,分别代表2种不同类型数据集,数据集1中数据无明显上升与下降趋势,数据集2中数据前期呈现波动上升趋势,后期趋于稳定。为验证所提方法的有效性及适用性,首先通过人工方式剔除数据集中异常值,然后在数据集后20%的范围内添加20个异常值(见图3~4),最后,分别采用多重局部异常系数法、局部变化异常系数法、DBSCAN算法及LV-DBSCAN方法进行异常值判别。

2.2 数据集1

根据数据序列自相关性,多重局部异常系数法窗口大小为5,局部变化异常系数法置信度α为0.9,DBSCAN算法邻域距离为0.1,邻域最小样本数为6,LV-DBSCAN方法额外参数β为0.05。图5与表1分别为各种方法异常值检测结果,由图表可知,局部变化异常系数法检测效果远高于多重局部异常系数法,证明所提方法改进之处有利于数据异常检测。LV方法识别出了所有异常值,但误判了较多正常值,DBSCAN方法识别了较少的异常值,但其误判数量较低,而本文所提LV-DBSCAN方法虽召回率较LV方法低,但大幅度改善了误判数量,同时提高了DBSCAN方法的异常数据识别数量,但误判数量较DBSCAN方法多。

2.3 数据集2

根据数据序列自相关性,多重局部异常系数法窗口大小为7,局部变化异常系数法置信度α为0.9,DBSCAN算法邻域距离为0.16,邻域最小样本数为8,LV-DBSCAN方法参数β为0.05。图6与表2分别为各种方法异常值检测结果,由图表可知,局部变化异常系数法检测效果依旧强于多重局部异常系数法,而LV-DBSCAN的检测效果虽强于LV方法,但却劣于DBSCAN,所提策略在提高LV方法检测效果的同时降低了DBSCAN方法的效果。其主要原因在于:所提局部方法和整体方法协同判别策略较为依赖于局部方法的异常检测效果,而数据集2中虽然LV方法召回率较高,但其准确率较低,误判了相当多数量的数据,且无论从精确度还是召回率来看,LV方法均劣DBSCAN算法,从而使得所提策略虽然改善了LV方法,但其检测效果不如DBSCAN算法。

综合上述数据集实例分析可知,多重局部异常系数法无论是针对平稳数据还是非平稳数据,整体上效果较好,但其适用范围有限,需长序列的正常测值用于确定阈值范围;所提局部变化异常系数法将多重局部异常系数法中的差分序列改进为微分序列,并将概率分布和置信度引入其中,一定程度上提高了方法的适用性和准确性;聚类算法在各数据集上表现最优,无论是在准确率还是适用范围上,都优于其他方法,且可以在异常检测过程中考虑环境量因素,但其存在算法参数难以确定的问题。LV-DBSCAN方法综合了LV方法和DBSCAN方法的优势,具有较好的异常检测效果,优于原有的LV方法,但不一定优于DBSCAN方法,主要原因在于DBSCAN方法的检测效果与数据质量关系密切,这也是数据挖掘方法的症结之一。

3 结 论

本文在分析异常值特性及传统异常检测方法优缺点的基础上,分别从局部与整体角度研究了大坝安全监测数据异常检测方法:着眼于局部,分析了多重局部异常系数法的优缺点,进一步提出了一种适用范围更广的局部变化异常系数法;着眼于整体,引入DBSCAN聚类算法,分离出了数据中的离群点。在此基础上,依据置信度理论,提出了局部方法与整体方法协同判别策略和基于局部变化异常系数法和聚类方法(LV-DBSCAN)的大坝安全监测异常值检测方法,最后,挑选某混凝土重力坝变形监测2种不同类型数据集,分析了所提方法的适用性,得到如下研究结论。

(1) 多重局部异常系数法和局部变化异常系数法无论是针对平稳数据还是非平稳数据系列,整体上效果较好,但其适用范围有限,需长序列的正常测值用于确定阈值范围;

(2) 所提局部变化异常系数法提高了多重局部异常系数法的适用性和准确性;

(3) LV-DBSCAN方法综合了LV方法和DBSCAN方法的优势,具有较好的异常检测效果,优于原有的LV方法,但不一定优于DBSCAN方法。

本文所提局部方法与整体方法协同判别策略主要通过局部变化异常系数法修改置信度实现了对数据异常判别严格程度的调控,并以此为桥梁,连接其他类型方法从而相互印证,提升数据异常检测精度并降低误判率。因此,所提策略在整体方法的选择上还可以使用统计概率法或是其他类型聚类算法等,后续可在此基础上进一步研究。此外,受笔者工程经验、理论水平和研究时间的限制,尚存在一些研究难点需要在今后的研究工作中进一步突破,特别是在監测异常效应值与环境量间的关系方面,后续也将研究使用数学模型法等分析异常效应值的产生与环境量的关系,并论证其产生原因。

参考文献:

[1] 李珍照.大坝安全监测[M].北京:中国电力出版社,1997.

[2] 何金平.大坝安全监测理论与应用[M].北京:中国水利水电出版社,2010.

[3] 李斌.重力坝变形监控的智能分析方法研究[D].西安:西安理工大学,2021.

[4] 赵海霞,周少娜,肖化.四种判别粗大误差准则的比较与讨论[J].大学物理实验,2017,30(5):105-108.

[5] 杨承志,魏博文,徐镇凯.基于SVM-MCD的大坝变形监测数据异常值判定[J].人民长江,2022,53(3):207-213.

[6] 王林,孙芳.利用狄克松判别法剔除观测数据粗差[J].江西测绘,2016(4):18-20.

[7] 朱斯杨,李艳玲,卢祥,等.基于隶属云的安全监测异常数据识别方法研究[J].人民长江,2021,52(2):197-200.

[8] 劉千驹,陈代明,陈少勇,等.小波理论在大坝安全监测数据粗差探测中的应用[J].西北水电,2020(增1):129-132.

[9] 徐洪钟,吴中如,李雪红,等.基于小波分析的大坝观测数据异常值检测[J].水电能源科学,2002,20(4):20-22.

[10] 周元春,甘孝清,李端有.大坝安全监测数据粗差识别技术研究[J].长江科学院院报,2011,28(2):16-20.

[11] 崔乐,吴迪,成丽波.基于逐步回归的稳健估计和异常值检测[J].沈阳师范大学学报(自然科学版),2018,36(6):527-532.

[12] 潘莹丽,刘展,宋广雨.基于SCAD惩罚回归的异常值检测方法[J].统计与决策,2022,38(4):38-42.

[13] 王丽蓉,郑东健.基于卷积神经网络的大坝安全监测数据异常识别[J].长江科学院院报,2021,38(1):72-77.

[14] 叶斌.基于LSTM模型的大坝安全监测数据异常值检测[D].武汉:长江科学院,2020.

[15] 郑付刚.基于局部异常系数的混凝土坝变形异常分析方法[J].水电能源科学,2016,34(6):103-105,31.

[16] HU J,MA F H,WU S H.Anomaly identification of foundation uplift pressures of gravity dams based on DTW and LOF[J].Structural Control and Health Monitoring,2018,25(5):1-17.

[17] 高鹏飞.数据清洗技术在尾矿库监测系统中的应用研究[D].西安:西安工业大学,2019.

[18] 谢方方,徐连诚,牛冰茹.一种基于反向 K 近邻的孤立点检测改进算法[J].计算机应用与软件,2014,31(6):267-270.

[19] 蒋华,武尧,王鑫,等.改进K均值聚类的海洋数据异常检测算法研究[J].计算机科学,2019,46(7):211-216.

[20] 蒋齐嘉,蒋中明,唐栋,等.基于SSA-DBSCAN的边坡安全监测数据粗差探测方法[J].长江科学院院报,2022,39(4):85-90,98.

[21] 申秋萍,张清华,高满,等.基于局部半径的三支DBSCAN算法[J].计算机科学,2023,50(6):100-108.

[22] 郭莉,吴晨,薛贵元.基于DBSCAN聚类的热能发电大数据异常检测模型[J].工业加热,2023,52(1):35-38,48.

(编辑:胡旭东)

Detection of abnormal values in dam safety monitoring data based on LV-DBSCAN algorithm

DAI Ling1,LI Shaolin2,LIU Guangbiao2,JI Chuanbo2,DUAN Guoxue2

(1.CISPDR Corporation,Wuhan 430010,China; 2.Changjiang Survey,Planning,Design and Research Co.,Ltd.,Wuhan 430010,China)

Abstract:

There are often abnormal measurements in the original observation sequence of dam safety monitoring,which greatly affects the reliability and accuracy of dam safety monitoring data analysis.Therefore,based on the analysis of the abnormal values characteristics and the advantages and disadvantages of traditional anomaly detection methods,this paper studied the detection methods of abnormal values in monitoring data from the local and overall perspectives.Firstly,aiming at the defects of multiple local anomaly coefficient methods requiring data with long sequence and equal time interval,a local change anomaly coefficient method(LV)and a collaborative discrimination strategy of local method and overall method were proposed.Furthermore,the density clustering algorithm(DBSCAN)was introduced,and a LV-DBSCAN anomaly detection method considering the overall and local characteristics of the data was proposed.Taking the downstream displacement monitoring data of two vertical measuring points of a concrete gravity dam as an example,the detection accuracy of different methods on different types of data sets was compared and analyzed.The results showed that the LV-DBSCAN method proposed in this paper has wider applicability,higher accuracy and lower misjudgment rate.

Key words:

dam safety monitoring;abnormal value;local change anomaly coefficient method;density clustering algorithm;confidence degree

猜你喜欢
监测数据大坝聚类
GSM-R接口监测数据精确地理化方法及应用
大坝:力与美的展现
百科知识(2018年6期)2018-04-03 15:43:54
基于DBSACN聚类算法的XML文档聚类
电子测试(2017年15期)2017-12-18 07:19:27
帮海狸建一座大坝
大坝
基于改进的遗传算法的模糊聚类算法
GPS异常监测数据的关联负选择分步识别算法
基于小波函数对GNSS监测数据降噪的应用研究
一种层次初始的聚类个数自适应的聚类方法研究
变电站监测数据采集系统
电测与仪表(2014年3期)2014-04-04 09:08:32