邓乙丁 李艳玲 徐颖 陈天赐
摘要:监测数据异常识别是大坝运行安全在线监测的前提和基础。单一识别方法难以实现高效准确识别,而RREW模型对规律不佳与单台阶数据序列容易漏判且计算效率低。为此,提出了基于卷积神经网络的一维VGG数据异常识别模型,建立了由统计回归、稳健回归、一维VGG识别模型等模型库和Pauta准则、MZ准则等判别准则库共同构成的大坝安全数据异常识别模型簇,并构建了不同数据类型与异常识别模型及预警准则的匹配机制。工程校验表明:一维VGG模型对不同序列长度、不同台阶占比的数据序列均具有较好的识别效果,能有效弥补传统回归模型和稳健回归模型的不足,由前述3种模型及两种准则共同构建的异常识别模型簇可实现海量数据异常的在线精准、快速识别,为大坝安全在线监测提供可靠的数据支持。
关键词:大坝安全监测; 数据异常识别; 一维卷积神经网络; 模型簇; 自匹配准则
中图法分类号: TV698.1
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2024.04.030
0引 言
监测数据异常识别是大坝运行安全在线监测的前提和基础。识别监测数据异常的常用方法是预测残差判别法,其基本思路是首先计算模型预测值与实测值之间的残差,再匹配相应预警准则实现测值异常评判。近年来,国内外学者在数据异常识别方法和准则方面开展了大量研究。如Cheng[1],Zhou[2]等分别基于潜变量、偏最小二乘法改进最小二乘支持向量机模型并优化置信区间,显著降低了误警率。Lin[3],Shi[4]等分别利用高斯回归(GPR)和遗传算法(GA)优化径向基函数网络(REFN),克服鲁棒性差引起的模型误差。Belmokre[5],Cheng[6]等采用机器学习方法改进统计回归模型,消除了传统统计回归模型多重共线性带来的预测误差。Cui等[7]通过引入样本分位数对整体参数进行稳健估计,结合样本分位数方法的特殊统计量设置阈值来检测异常值。Li等[8]提出了基于MZ准则的稳健回归模型(以下简称RREW模型),有效解决了台阶型、震荡型等数据序列采用传统统计回归时易出现的漏判问题。胡德秀[9]、杨承志[10]等分别将稳健估计与极限学习机、支持向量机相结合,建立大坝变形监控模型,提高了模型抗粗差能力。王丽荣等[11]构建了卷积神经网络图像识别模型,取得了较好的异常识别效果。陈冬英[12]、张硕[13]、党英[14]等将一维神经网络分别用于近红外光谱分类识别、钻机实时数据分析推断以及振动信号的特征提取,都取得了较好的应用效果。
随着大坝安全在线监测的不断发展[15],国家对安全监测数据异常在线识别模型的适用性、高效性和准确性提出了更高的要求,而不同识别方法对不同特征序列的适用性亦存在差异,基于单一方法的数据异常识别其可靠性和高效性难以保证。因此,本文针对传统统计回归模型和RREW模型在大坝安全在线监控系统应用中存在的异常值漏判问题,结合视觉几何组(Visual Geometry Group,VGG)中的卷积神经网络结构,提出了基于一维卷积神经网络的数据异常识别方法——一维VGG识别模型(以下简称“1D-VGG模型”),建立了大坝安全数据异常识别模型簇,并综合考虑识别精度和效率,构建了不同数据类型与异常识别模型及预警准则的匹配机制,即基于MZ准则的稳健回归模型匹配双台阶型和震荡型数据序列,基于Pauta准则的统计回归模型匹配模型拟合精度较高的正常型和离群型数据序列,而基于Pauta准则的1D-VGG模型匹配单台阶型以及模型拟合精度较低的正常型和离群型数据序列,这种“数据类型-模型识别方法-预警准则”的自匹配准则实现了海量数据的在线精准、快速识别。
1数据异常在线识别存在的问题分析
受测量误差、环境量响应等因素影响,大坝安全监测数据序列类型众多,既包括周期型、趋势型等正常数据序列,也包括离群型、台阶型、震荡型等异常数据序列。基于Pauta准则的传统统计回归模型对震荡型、台阶型等数据序列异常识别存在误判、漏判率较高的问题,为此Li等[8]提出了以稳健回归为基础的模型(即RREW模型),通过引入稳健M估计对测值进行权重分配以减小异常值对模型精度的影响,并提出以新增实测数据残差e0序列的位置估计Tn为中心,引入尺度估计ST和预测置信区间半径D构造的Tn±(3ST+D)为残差预警阈值上下限,以降低模型误差对控制阈值影响的判别准则和基于稳健M估计的MZ预警准则,此方法较好地解决了雙台阶、震荡型等数据序列存在的异常值漏判问题。但将该方法应用于大渡河流域大坝安全风险在线监控系统时,仍存在以下主要问题:
(1) 模型漏判现象依然存在,识别精度有待提升。
据分析统计,2019~2021年大渡河流域大坝安全风险在线监控系统采用RREW模型识别监测数据异常,误判漏判率由10%降低至2%,模型识别效果良好。进一步分析发现,2%的误判、漏判问题主要存在于正常型数据序列和单台阶型数据系列中。
RREW模型的本质仍然是残差预测法,数据异常识别精度受模型精度影响显著。对规律性较差的正常型数据序列,其模型精度一般不高,特别是不规则数据段的拟合残差较大,从而使标准差及预警阈值偏大,导致一些突变较小的测值漏判,如图1所示。
★代表图1(a)中监测数据过程线中的异常值,因图1(b)中LSR残差过程线配色为黑色,图1(b)中的★就表示LSR模型结合Pauta准则预警识别到的异常值。▲代表LSR模型结合Pauta准则预警漏判的异常值(★)在LSR残差过程线的对应位置。
▼代表图1(a)中的异常值(★)在图1(b)的RREW残差过程线的对应位置。
RREW模型与传统最小二乘回归(LSR)模型相比,优点在于通过对模型离群点赋予低权值可以降低离群点的干扰,但M估计抵抗离群测值的能力是有限的,一般可以抵抗25%的离群点,当离群比例接近或超过稳健估计量的崩溃界(50%)时同样会失效[16]。当单台阶型数据序列前后两段的数据比例相当时,其离群值的比例就接近50%,就会使得模型崩溃,精度极低,从而导致漏判,如图2所示。为进一步提升数据异常识别精度,降低人工复核工作量,有必要进一步研究对模型精度较差的正常型数据序列和单台阶型数据序列都适用的数据异常识别方法。
(2) 模型计算效率较低,识别效率有待提升。
RREW模型的计算效率明显低于传统统计回归模型,对海量数据,其异常在线识别的效率问题就较突出。以大渡河流域龚嘴、铜街子、深溪沟和瀑布沟电站2019年所有测点数据为例,两种方法的在线识别时间比较如图3所示。
龚嘴水电站有535个测点,铜街子水电站有589个测点,深溪沟水电站有529个测点,采用传统统计回归模型在线识别时,仅需10~11 min,而RREW模型需要20~30 min;瀑布沟水电站有3 029个测点,采用传统统计回归模型在线识别时,仅需1 h,而RREW模型需要2~3 h。RREW模型耗时明显长于传统统计回归模型,识别效率不能满足在线监控要求,因此有必要对其进行优化。
2一维VGG数据异常识别模型构建
2.1基本原理
卷积运算能从局部输入图块中提取特征并模块化,不仅在计算机视觉应用中表现出色,对时间序列处理的效果也可媲美专门用于时序处理的循环神经网络(RNN),且运算速度明显提升[17]。卷积神经网络(CNN)的典型结构由输入层、卷积层、池化层、全连接层及输出层组成,其经典网络结构主要有LeNet、AlexNet、VGGNet、GoogLeNet、ResNet和DenseNet等,其中VGG网络通过反复堆叠较小的3×3卷积核代替更大尺度的卷积核,不仅增加了网络中的非线性映射,同时全连接层所需训练的参数量不会爆炸增长,模型性能优且稳定[18],在实际应用中较为广泛[19]。大坝安全监测数据序列是时间、测值的集合,可以看作一个时刻与此时刻实测值的组合,VGG网络训练用的一张图片对应长、宽两个维度的二维卷积模式,因此本文参照经典的VGG网络结构建立1D-VGG模型提取数据特征,即把二维图片降维为一维“线性图片”,使一个时刻的数据对应一个时间点的数据,即对应CNN的一个输入数据,这样一组CNN的输入数据就是顺序时间点组的数据。
一维CNN的卷积运算将时间看作一个空间维度,原理与架构与二维CNN网络类似[20],与二维卷积的区别主要在卷积和池化操作上,原始离散数据序列f(n)与一维卷积核g(n)的一维卷积运算结果s(n)定义如下:
CNN用于图像识别时会对二维图像进行下采样来提取局部特征以减小计算量,比如平均池化和最大池化。一维CNN也能通过类似的池化运算以减小数据大小,即从输入的长序列中提取短序列,然后输出短序列的最大值或平均值,卷积核是根据步长移动,而池化核的移动要求输入部分在运算中不发生重叠,如图4所示。
2.2模型构建流程
对于任意一个测点i,已知其在过去n个时刻的历时测值序列Yi=[vit1,vit2,…,vitn]T和历史环境量因子(水位H、降雨P、温度T等)矩阵Xn×k。以此n个时刻的{历史环境量因子矩阵Xn×k,历时测值序列Yi}作为训练样本,其中将测点i的历史环境量因子矩阵Xn×k作为训练输入数据,历时测值序列Yi作为训练输出的比对数据,以构建它们之间的非线性关系式,从而训练卷积神经网络模型,具体步骤如下:
(1) 对输入Xn×k和训练值Yi作归一化处理。由于不同监测项目量纲差异较大,可能导致网络收敛慢、训练时间长,为提高模型训练速度,首先采用式(3)对输入与输出样本进行归一化处理。
(2) 将归一化后的数据作为卷积神经网络的输入和输出样本,输入样本形状设置为k×1,输出节点数设为1。训练过程中采用均方误差(MSE)作为损失函数衡量网络计算的预测值y^i和实测值yi之间的误差:
根据模型多次调参和训练结果来调整卷积层与池化层的层数及卷积核大小,最终选用8层一维卷积层来提取特征,每两层一维卷积层后添加一层最大池化层,卷积层采用ReLU激活函数,ReLU函数等价于max{x,0}。因训练输入样本的因子种类不多,采用大小为2的卷积核与池化核在训练过程中会使层内数据越来越少,为保证模型精度,本文采用大小为1的核。该模型在卷积和池化运算后展平为一维数据格式进入全连接层,以集成从卷积层和池化层获得的高度抽象特征,并对这些特征进行处理,最后输出相关识别结果。
(3) 训练卷积神经网络模型。过程为:初始化权重和阈值→利用初始权值和归一化后的样本计算各层的输出值→计算卷积神经网络的输出层误差→反向计算各层误差并采用Adam优化算法调整更新各层权值→判断模型误差是否满足阈值要求,然后重复上述步骤或结束训练。当训练样本的损失函数小于特定阈值时,训练结束,最终的权值和偏置值保存在模型中用于预测。
训练过程包括前向传播学习数据特征和后向传播误差更新网络参数两个阶段,前面对于卷积神经网络基本架构的描述遵循了前向传播的过程顺序,即输入数据经多层卷积和池化运算后,展平进入全连接层进行特征集成,最终形成输出结果。在训练过程中,当预测输出值y^i与实测值yi不一致时,进行反向传播计算预测输出值与实测值间的误差,即遍历神经网络的反向路径,并逐层将误差回传到各个节点,以逐层计算各层误差。反向传播过程中,根据Adam算法调整更新网络中的权值和偏置值,该算法具有动量法和自适应学习速率方法的双重优势[21-22],算法如下:
(4) 采用上述训练好的卷积神经网络模型,建立测点i的歷时测值序列Yi与环境量因子Xn×k的非线性关系:
已知测点i在n+t时刻的环境量因子值,按式(3)进行归一化处理后代入式(6)中,则可得式(7),将该式反归一化处理后,即可得出测点i在n+t时刻的预测值y^i,n+t。
(5) 模型预警准则。
通过实测值与预测值求得残差以及残差的标准差σ,当残差在[-3σ,3σ]外,则认为测值异常,即yi,n+t-y^i,n+t>3σ时认为该测值存在异常,触发异常数据预警。
2.3应用效果分析
2.3.1模型适用性分析
针对前述因模型精度不高、离群比例超过30%的单台阶型数据序列,采用RREW模型和1D-VGG模型进行数据异常识别,结果如图5~6及表1所示。
从图5~6和表1可以看出:1D-VGG模型能够根据环境量因子与实测值间的抽象关系学习到数据序列的整体趋势,且不受局部少量离群点影响,能高效率地学习到正常型序列不规则片段的特征,模型精度高;同时1D-VGG模型能较好地拟合出单台阶序列的前后两个部分,达到较高的拟合精度,可有效解决RREW模型在离群比例超过稳健估计量崩溃界时的模型失效问题。整体上,引入1D-VGG模型能较好地解决规律性较差正常型数据序列和单台阶型数据序列的异常识别漏判问题。
2.3.2模型稳定性分析
基于Pauta准则的1D-VGG模型对小幅异常突跳较为敏感,一旦模型预测精度不足,则会引起个别预测有偏差的正常值出现误判的现象。因此,本文重点分析不同建模序列长度和单台阶数据序列的离群点比例对模型精度的影响。
(1) 不同的建模序列长度。
针对RREW模型预测精度相对不高的P60测点,分别利用其2016~2018年的不同长度数据序列构建1D-VGG模型,其模型精度变化较小,应用于数据异常识别均取得较好效果,如图7所示,说明在不同序列长度下,1D-VGG模型稳定性好。
(2) 不同离群点比例的单台阶型序列。
以单台阶数据序列UP13-1测点为模板,模拟构建了2016~2019年间单台阶占比分别约为10%,20%,30%的序列,并以2016~2019年9月的数据来建模,识别2019年10~12月的监测数据,效果如图8所示,可见在不同台阶占比下,采用1D-VGG模型均能取得较好的识别效果,稳定性好。
2.3.3Pauta准则的适用性分析
1D-VGG模型的预警准则采用Pauta准则,前提是实测值与模型预测值的残差序列服从或近似符合正态分布[23]。为分析其适用性,剔除前述正常型测点P60、台阶占比40%的单台阶型测点CH2以及台阶占比分别为10%,30%的单台阶型测点异常值后,对预测段的残差序列进行正态性检验,结果如图9所示。由图9可知,除个别残差绝对值较大的散点略有偏离外,各测点在图中的绝大部分散点都分布在参照线y=x附近,说明利用1D-VGG模型得到的残差序列整体上近似服从正态分布,因此采用Pauta准则作为1D-VGG模型的预警准则是可行的。
3监测数据异常识别模型匹配准则构建
大坝安全监测数据异常识别一般应包括粗差识别、异常识别和异常原因辨识3个环节。粗差识别主要針对仪器故障、测量错误等造成的误差,一般多采用是否超仪器量程等进行清洗剔除;异常识别则主要通过适宜的模型实时识别监测数据的异常变化;大坝安全监测数据的异常变化可能是因为监测环境扰动或其他因素引起的监测误差,也可能是库水位、降雨、地震等运行环境变化引起的大坝结构真实响应,或结构性态恶化的异变表征;因此需要通过人工进一步辨识其异常原因,从而获取可靠的异常数据。本文主要针对数据异常识别环节,提出适宜的模型以提高其识别效率和精度。由于大坝监测涉及仪器众多,监测环境复杂,监测结果包括正常型、多点离群型、双台阶型、单台阶型、震荡型等多种数据类型,不同识别方法对不同特性序列的适用性存在差异,综合考虑数据分布形态、系列有效长度等因素,分析传统统计回归模型、RREW模型和1D-VGG模型及Pauta准则、MZ准则的应用效果和适用性如图10与表2所示。
从表2中可以看出,基于单一方法的数据异常识别可靠性和高效性难以保证,不能满足大坝安全监测数据异常在线识别需求。因此,本文提出了多模型多准则的数据异常识别方法,即构建包括统计回归、稳健回归、1D-VGG模型等模型库,以及Pauta准则、MZ准则等判别准则库共同构成的大坝安全数据异常识别模型簇,再根据测值数据类型选择最合适的模型算法和评判准则进行异常识别,从而实现大坝安全监测数据异常在线精准、高效识别。
统计回归模型+Pauta准则模型精度不高时,易漏判离群型数据异常值残差序列应服从正态分布,适用于拟合精度较高的正常型数据序列模型简单、计算效率高RREW模型+MZ准则离群点比例较高时,易出现模型崩溃的问题拟合精度较高的正常型序列、双台阶型序列、震荡型序列模型复杂,计算效率低1D-VGG模型+Pauta准则模型参数选择对模型精度影响大,控制限较严苛,易出现误判现象模型拟合精度较低的正常型序列和单台阶型序列网络结构简单,计算效率较高综合考虑异常识别效果和计算效率,建立“数据类型-模型算法-预警准则”匹配规则如下:对于精度较高正常型序列、单/多点离群型序列,采用基于最小二乘的统计回归模型和Pauta准则;对于模型拟合精度较低的正常型序列和单台阶型序列,匹配1D-VGG模型和Pauta准则;对于双台阶和震荡型序列,则匹配RREW模型和MZ准则。数据异常在线识别流程如图11所示。
4结 论
(1) RREW模型引入M估计和置信区间半径D,较好地解决了传统统计回归模型对双台阶、震荡型数据序
列的异常值漏判问题,但对规律性较差的正常型序列和离群点比例较高的单台阶数据序列,仍存在识别精度差、误判漏判率高的问题,且模型计算效率相对较低。
(2) 构建了1D-VGG识别模型,提出了模型构建流程。工程校验表明,该模型能自主学习环境量与实测效应量间的隐含规律,有效解决RREW模型数据异常在线识别尚存在的误判漏判问题,并对不同序列长度、不同台阶占比的数据序列均具有较好的识别效果,模型识别的精度、稳定性和可靠性均较理想。
(3) 构建了包括统计回归、稳健回归、1D-VGG识别等模型和Pauta、MZ等准则的模型库和准则库,综合考虑模型准确性、适用性和高效性,提出了“数据类型-识别方法-预警准则”自匹配准则。
参考文献:
[1]CHENG L,ZHENG D J.Two online dam safety monitoring models based on the process of extracting environmental effect[J].Advances in Engineering Software,2013,57(3):48-56.
[2]ZHOU L T,GU C S,LI B.Application of partial least-squares regression in earth-rock dam seepage monitoring model[C]∥Proceedings of The Second 2nd International Conference on Modelling and Simulation,2009:531-536.
[3]LIN C N,LI T C,CHEN S Y,et al.Gaussian process regression-based forecasting model of dam deformation[J].Neural Computing and Application,2019,31(12):8503-8518.
[4]SHI Z W,GU C S,ZHAO E F,et al.A novel seepage safety monitoring model of CFRD with slab cracks using monitoring data[J].Mathematical Problems in Engineering,2020(12):1-13.
[5]BELMOKRE A,MIHOUBI M K,SANTILLN D.Analysis of dam behavior by statistical models:application of the random forest approach[J].KSCE Journal of Civil Engineering,2019,23(11):4800-4811.
[6]CHENG X,LI Q,ZHOU Z,et al.Research on a seepage monitoring model of a high core rockfill dam based on machine learning[J].Sensors,2018,18(9):2749-2763.
[7]CUI L,CHENG L,JIANG X,et al.Robust estimation and outlier detection based on linear regression model[J].Journal of Intelligent & Fuzzy Systems,2019,37(4):4657-4664.
[8]LI X,LI Y L,LU X,et al.An online anomaly recognition and early warning model for dam safety monitoring data[J].Structural Health Monitoring,2019,19(3):796-809.
[9]胡德秀,屈旭东,杨杰,等.基于M-ELM的大坝变形安全监控模型[J].水利水电科技进展,2019,39(3):75-80.
[10]杨承志,魏博文,徐镇凯.基于SVM-MCD的大坝变形监测数据异常值判定[J].人民长江,2022,53(3):207-213,219.
[11]王丽蓉,郑东健.基于卷积神经网络的大坝安全监测数据异常识别[J].长江科学院院报,2021,38(1):72-77.
[12]陈冬英,张昊,张子龙,等.基于改进1D-VD-CNN与近红外光谱数据的金银花产地溯源研究[J].光谱学与光谱分析,2023,43(5):1471-1477.
[13]张硕,田慕琴,霍鹏飞,等.基于一维卷积神经网络的定向钻机故障诊断专家系统设计[J].煤炭技术,2023,42(6):221-224.
[14]黨英,吉卫喜,陆家辉,等.基于卷积神经网络的铣刀磨损状态识别技术研究[J].现代制造工程,2021(5):116-124.
[15]陈振飞,杜德进.对《水电站大坝运行安全监督管理规定》有关大坝安全信息化建设内容的解读[J].大坝与安全,2015,88(2):18-20.
[16]DAVID C H.探索性数据分析[M].陈忠琏,郭德媛,译.北京:中国统计出版社,1998.
[17]MUNIR M,SIDDIQUI S A,DENGEL A,et al.DeepAnT:a deep learning approach for unsupervised anomaly detection in time series[J].IEEE Access,2019,7(1):1991-2005.
[18]张驰,郭媛,黎明.人工神经网络模型发展及应用综述[J].计算机工程与应用,2021,57(11):57-69.
[19]陈超,齐峰.卷积神经网络的发展及其在计算机视觉领域中的应用综述[J].计算机科学,2019,46(3):63-73.
[20]GIRSHICK R.Fast R-CNN[C]∥ Proceedings of the IEEE International Conference on Computer Vision (ICCV),Chile,2015:1440-1448.
[21]张慧.深度学习中优化算法的研究与改进[D].北京:北京邮电大学,2018.
[22]袁群勇.深度神经网络的训练优化方法研究[D].广州:华南理工大学,2020.
[23]ZHANG F,LU X,LI Y L,et al.A self-matching model for online anomaly recognition of safety monitoring data in dams [J].Structure Health Monitoring,2023,22(1):746-773.
(编辑:胡旭东)