基于统计特征混合与随机森林重要性排序的桥梁异常监测数据识别方法*

2022-08-18 14:34张咪咪
传感技术学报 2022年6期
关键词:决策树分类器排序

邱 阳,李 盛,金 亮,张咪咪,王 杰

(1.武汉理工大学信息工程学院,湖北 武汉 430070;2.武汉理工大学光纤传感技术与网络国家工程研究中心,湖北 武汉 430070;3.小米科技有限责任公司,湖北 武汉 430070)

监测跟踪桥梁结构的演变趋势对于确保桥梁安全运营十分重要[1]。基于桥址现场传感器网络搭建而成的结构健康监测[2]系统,可以跟踪桥梁的受力、变形和振动等结构响应,是反馈桥梁结构运营状态的有效自动化监测手段。对于大型斜拉桥健康监测系统,振动监测是诊断和评价结构服役状态的重要方式。目前,实际工程中对结构振动的长期实时监测主要依靠加速度传感器[3]。跟踪加速度监测值及其趋势,并判别其是否在安全阈值范围内的方式,可用于评估和预测结构的安全性。然而,现场传感器长期运作带来的不稳定性,采集传输链路不畅通引入的噪声干扰,监控机房的供电或网络中断等影响,都会对振动监测结果引入异常干扰,且这种干扰的发生具有随机性和非均衡性。因此,为了准确地评价桥梁结构的振动状态,必须识别并剔除上述多种模式异常数据带来的影响[4]。

结构健康监测中关于传感信号异常诊断的研究方面,文献[5]指出了传感器校验对结构健康状况评估准确性和可靠性的重要意义,并综述了可减少测量值与真实值间偏差的传感器校验方法。在传感器较少情况下的异常数据诊断研究中,文献[6]指出基于统计过程控制技术可有效识别桥梁GPS载波相位监测中的微小持续性偏移。文献[7]提出基于主成分分析和超球面一类支持向量机的方法用于准确识别桥梁伸缩缝信息。针对规模较大的传感器网络故障诊断研究中,Huang[8]构建了一种基于动态或自回归特性多变量的统计模型,并在一个基准有限元结构上检验了该方法相较于传统主成分分析方法的优越性。Hernandez[9]针对桁架桥模型,探讨了三种基于统计监测模型的传感器故障和异常识别方法的适用性。以上围绕传感器故障诊断开展的研究中,考虑的异常数据类别数量和规模与实际工程相比还较为有限,均未考虑不同模式异常数据样本间的非均衡性影响。随着计算机硬件性能的提升,机器学习、深度学习技术开始被用于处理结构健康监测中的分类问题,如文献[10]综述性回顾了机器学习和深度学习技术在结构损伤识别领域中的发展。其中,已有基于计算机视觉通过深度学习来识别异常数据的相关研究报道[11-12]。但这种将时间序列信号转化为图像的特征抽取方法极其消耗计算资源。Li[13]利用缩尺桥梁模型模拟含有异常影响的时间序列信号,并通过建立深度学习模型实现了3种异常状态与基准态的高准确率分类。尽管上述相关研究通过数值模拟或针对样本量较少的监测数据,验证了人工智能方法识别健康监测系统传感信号异常性的可行性,但面对实际工程传感器网络的复杂信号模式时,样本的分类标签注解依旧缺乏自动化手段,难以为研究提供具有一定规模的样本库支持。因此,目前各种针对异常监测数据的诊断识别方法,还缺少对实际监测系统长期监测数据集的检验。

针对以上现状,本文以某座实际大跨度斜拉桥结构健康监测系统中38个振动传感器长达1个月的监测数据作为对象,开展面向具有多种模式的异常数据的识别与分类方法研究。对实际数据集中存在的不同模式样本间数据量的非均衡性,以及相同模式样本间个性化差异的现象,提出了基于统计特征混合与随机森林(RF)重要性排序识别异常数据的方法。面向实际工程监测数据集,检验用于识别不同模式异常数据方法的执行效果。分析讨论采用多种特征混合输入编排方式时几种典型机器学习分类算法对异常数据识别方法的适应性。

1 异常数据识别方法

图1为基于监督学习训练的异常数据识别与分类方法流程。监督学习分类训练前,依次开展样本数据增强[14]、统计特征计算、特征重要性排序与排序特征混合。

图1 异常数据识别方法流程

1.1 样本数据增强

对原始样本开展数据增强是提升监督学习训练效果的有效方式[15]。目前,数据增强的方法主要面向二维图像信号处理[16]。针对一维信号,增强手段主要是通过对原样本序列进一步切割来增加样本容量[17]。此外,也有将一维信号转换为图片格式后开展数据增强的相关研究[18]。与上述手段不同,提出通过对原始数据集进行前向差分求导来实现样本数据量的增强。将结构健康监测系统采集到的原始振动监测数据集记为X={s1,s2,…,sn},其中,si代表第i条原始数据样本。对X进行一阶求导并将求导后的数据集记为,其中定义为si经过前向差分后的结果。该处理方式通过翻倍增加原样本量来实现数据增强。

1.2 统计特征计算

为进一步加强监督学习训练对有效特征的提取能力,采用统计的策略降低X和Xτ中冗余信息对于训练效率的影响。图1所示的统计特征分别为最大值(Max)、最小值(Min)、平均数(Mean)、中位数(Median)、标准差(Std)、极差(Range)、有效值(Value)、众数(Mode)、峰度(Kurtosis)和偏度(Skewness),将si和的统计特征集分别定义为stai=。其中,sim和分别表示样本si和的第m种统计特征量。

1.3 特征重要性排序

为衡量样本中各种统计量与原始样本间的相关性强弱,对stai和中的m种统计特征分别按照式(1)计算基于RF的特征重要性指数(PIM)[19],并依据PIM值大小对统计特征重要性开展排序,具体流程如下:

①构造M棵决策树;

②当前决策树ktree=1时,得到对应袋外数据[20]OOBk;

③计算当前决策树对OOBk的预测误差errOOBk;

④将OOBk中第i种统计特征的随机扰动记为,计算当前决策树对的预测误差;

⑤对于每一颗决策树,ktree=2,…M,重复步骤②到④;

⑥根据式(1)计算统计特征的重要性。

式中:M为构造的决策树数量,和errOOBk分别表示对第i种统计参量添加扰动后的袋外数据和未添加扰动的袋外数据在第ktree棵决策树情况下的预测误差。

1.4 排序特征混合

依据统计特征PIM值大小,首先将stai和内的m种统计特征由大到小进行重排列。在此基础上分别从stai和中挑选出不同数量的统计特征进行组合,形成排序后stai和的子集staisub和,,其中,sik和分别代表stai和中PIM排名第k位的统计特征。然后,将staisub和进行组合,得到用于分类器训练的输入样本表达yn,定义。其中,n为k取不同值时特征混合方式的编号。

2 异常数据识别方法工程验证

2.1 工程背景

检验识别方法的数据集源自某实际大跨度斜拉桥一个月内38个加速度传感器数据[21]。如图2所示,38个传感器分别安装在桥梁的不同位置,包含了X,Y和Z三个关注方向。数据采样频率为20 Hz,每个传感器的每一条样本采样时长1 h,样本维度为1×72 000。上述数据集已按7种不同模式进行数据样本的标签化[11],由表1知,每一类模式的样本容量具有非均衡性。

图2 加速度传感器现场布置

表1 样本分类及大小

此外,图3随机选择了各类模式中2条样本,并绘制了加速度时域波形。其中,横轴表示采样时长,纵轴为加速度响应幅值。可以明显发现,对于相同的模式,样本的原始波形之间存在不同程度的差异。

图3 7类模式样本的原始数据特征

2.2 样本数据增强和统计特征计算

为了避免如表1所示样本分布不均衡对监督学习分类训练预测准确率的影响,以样本数量最少的模式4为基准,其他每类模式均随机抽样选出527条样本。均衡化处理后的样本集X={s1,s2,…,sn}按照前向差分求导策略实现数据增强,得到Xτ=。其中,从图3中可知Missing模式的数据存在局部或整体时段出现空值的现象。针对该现象,一阶求导处理前利用0替换整体时段内的空值,利用整体样本的均值替换局部时段内的空值。尽管前向差分在增强非空样本集时才具有实际物理意义,但经过该方式的统一处理后,38个传感器可用于训练的总样本量均实现了翻倍,累计样本达到了7 378条。按照图1所示的识别流程,分别计算si和的最大值、最小值、平均数、中位数、标准差、极差、有效值、众数、峰度和偏度。

2.3 统计特征重要性排序

为了保证特征重要性排序具有可靠性和稳定性,通过反复试算将RF的最大决策树参数设置为10 000,按照式(1)计算10类统计指标的PIM值。图4给出了统计特征重要性排序结果。

图4 统计特征PIM排序

根据PIM值大小,将原始样本和前向差分后样本的统计特征从高到低进行排列,得到,。从图4可知,对原始样本和前向差分后的样本,求得的统计特征中重要性靠前的6个统计特征均相同,都包含极差、方差、最小值、峰度、有效值和最大值。

2.4 监督分类训练

采用经过统计特征重要性排序后的6个统计特征替代表达stai和,并将其作为监督学习训练的最终样本输入。训练中,首先将均衡化处理后的X和Xτ分别按照机器学习中常用的划分比例[22-23]7∶3划分为训练集和测试集。此时,训练集包含2 582条样本,测试集包含1 107条样本。其次如表2,比较多种样本表达作为输入时的分类学习效果,并将原始样本的时间序列和采用切割方式增强数据后的时间序列作为比较基准。其中,每种标记代表一类样本输入方式。

表2 样本输入特征混合方式

评价本文提出识别正常数据和6类异常数据的方法时,依次使用K邻近法(KNN)、支持向量机(SVM)、决策树(DT)、和RF作为有监督学习的分类器。为使每种分类器达到最佳分类效果,利用网格搜索法[24]对分类器超参数进行寻优。实验中,监督学习基于Python下的scikit-learns[25]开展,硬件环境基于Intel Core i7-9750H CPU,8G RAM和NVIDIA GeForce GTX 1050显卡的配置开展。

2.5 结果分析与对比

图5为RF、SVM、KNN和DT四种分类器对应于表2在不同特征混合作为输入情况下,在测试集上的平均识别准确率结果。由该图可知,原始样本未经数据增强与特征提取时,识别效果仅能达到11%~15%的准确率。尝试常规方法对原始样本切割2~10份开展数据增强后,识别准确率有显著的提升,可以达到77%~85%。而基于提出的数据处理策略,样本增强的规模仅相当于常规方法中对原始样本切割2次,但在这种较小规模的数据增强代价下各种分类器下的识别准确率得到了进一步的提升,最佳效果可达到97.10%。其次,在不同特征混合方式下,4种监督学习分类器的总体平均分类准确率变化趋势基本相同。在特征组合相同的情况下,RF和DT相比SVM和KNN表现要更好,平均分类准确率要高出约6%。其中,y2作为输入时,RF和DT识别正常数据和异常数据的平均准确率均达到了96.11%,但图6中的混淆矩阵表明,这两种分类器对于Normal的识别仅能达到88.69%和89.88%的准确率,且该模式易被混淆为Outlier和Minor。

从图5知,y6作为特征输入时,4种分类器的平均分类准确率均优于其他输入表达,且RF的识别效果最佳,达到了97.10%。为进一步揭示y6作为输入时4种分类器对正常数据和6类异常数据的识别效果,图7给出了4种分类器在测试集上的混淆矩阵,可以发现SVM和KNN分类器对于正常数据和6类异常数据的识别准确率均衡度欠佳,而RF和DT的分类识别效果更加稳健,且RF的总体效果更好,对每一类模式的识别准确率均超过了95%。其中,对于Drift、Square和Missing类型的识别率已接近100%。此时,y6相比y2作为样本输入时,Normal的识别准确率已由图6(d)中的88.69%提升到图7(d)中的96.84%。

图5 4种分类器在不同特征混合下的分类准确率

图6 不同分类器在y2输入方式下测试集混淆矩阵

图7 不同分类器在y6输入方式下测试集混淆矩阵

3 结论

本文面向某座大跨度斜拉桥实测振动监测数据,针对正常和6类异常监测数据的样本非均衡性及同标签样本间的局部细节差异性,提出了基于前向差分求导开展样本数据增强,基于随机森林重要性排序选取参与表征原始样本统计特征,以及混合不同数量统计特征进行异常数据识别的方法。采用不同机器学习分类器的监督学习效果显示,提出的方法可以高准确率地识别正常数据和6类异常数据,且混合部分重要性排序后统计特征来表征原始样本训练输入的方式即可达到理想的识别效果。此外,针对具有样本不平衡特点的工程数据开展监督学习训练时,提出的方法可为增强一维时序特征数据样本量,减少同类样本间差异性对监督学习训练的影响等提供借鉴思路。

猜你喜欢
决策树分类器排序
基于决策树和神经网络的高血压病危险因素研究
作者简介
基于朴素Bayes组合的简易集成分类器①
恐怖排序
基于特征选择的SVM选择性集成学习方法
节日排序
决策树和随机森林方法在管理决策中的应用
基于差异性测度的遥感自适应分类器选择
决策树多元分类模型预测森林植被覆盖
基于决策树的出租车乘客出行目的识别