曹孟晓,孟晓亮,何越磊
(上海工程技术大学城市轨道交通学院,上海 201620)
CRTSII 型无砟轨道板是我国高铁应用广泛的无砟轨道板,其服役状态关乎高铁列车的行车安全。CRTSII型无砟轨道板在线监测系统,其主要功能是监测轨道板结构健康状态,在轨道板内部放置温度传感器,以收集轨道板不同深度的温度数据,实时连续地监控轨道板结构温度变化,及时发掘轨道板内部的病害状况,进而正确地向用户终端反馈轨道板实时结构状态以及预测服役寿命[1-3]。
在轨道板性能监测系统线上测试的过程中,数据采集模块收集到的板温数据往往混有各类异常数据,其中轨道板内部温度的数据异常将导致在线监测系统的后端处理系统的预警误判[4-5]。因此,亟待开发一种能够处理轨道板内部温度数据中数据异常的智能化清洗手段来提高在线监测数据的质量,进而提高整个系统的预警性能。
基于轨道板在线监测数据中的数据异常问题,将分析轨道板在线监测数据中的数据异常情况以及其特点;依据在线监测系统监测数据异常情况以及环境气象数据与轨道板内部温度数据之间的关联性,提出一种基于NARX 带外源输入的非线性自回归神经网络的智能化清洗方法以提高数据异常点的识别精度;最后对所提出的数据清洗方法进行验证。
CRTSII 型轨道板状态在线监测系统前端数据采集模块在轨道板不同深度布置温度传感器,温度传感器测点布置如图1所示。
图1 轨道板状态在线监测系统温度传感器布设
由图1 温度传感器测点布置情况可知,温度传感器在系统运行过程中必受到环境温度变化、轨道板荷载变化等外因的影响,因此所采集到的原始板温数据不可避免地混入各类异常数据,导致数据的可用性降低,影响整个数据分析的过程[6]。将对监测数据中的数据异常情况进行分析。
针对轨道板在线监测数据中板温数据的数据异常问题,对原始板温数据进行初步的数据质量分析。监测数据的质量问题是在线监测系统的核心问题,也是数据清洗研究的重要内容。对于在线监测数据的质量通常评估从完整性、有效性这两个方面进行分析[7-9]。
数据完整性是指数据是否有缺失的情况,是数据质量最基础的评估标准。对实测轨道板温度数据做初步的缺失数据检索,结果如表1所示。
表1 轨道板在线监测数据缺失情况
由表1可知,轨道板在线监测数据中板温数据有不同程度的数据缺失问题,原始的板温数据是不完整的。
数据的有效性是指数据是否真实可靠,即数据中是否存在错误。轨道板温度数据不可避免地混有一定数据量的数据错误,且最常见的错误包括明显偏离整体变化趋势的数据跳点和频率幅度明显不同于正常信号的随机噪音。
综上所述,原始轨道板在线监测数据是不完整且失真的,其中混有数据缺失、数据跳点和数据噪音等问题,故需根据各类数据异常的特征开发轨道板在线监测数据的智能化清洗方法以恢复在线监测数据的完整性和有效性。
针对那些存在于轨道板在线监测数据中各类数据异常,依据其中异常数据的特点以及监测数据的结构,本文提出一种基于NARX 神经网络的板温数据清洗方法,以提高在线监测系统中板温数据的数据质量。
基于上文的研究内容,本文提出一种基于NARX神经网络的数据清洗方法,其原理是先用干净的数据训练NARX 神经网络,计算待清洗板温数据的估计模型,再将所估计的数据模型与原始数据一一对比,标记残差较大的数据为错误数据,后参考估计模型替换数据错误并填补数据缺失。模型残差的计算为:
其中,δ为模型残差,y为实测值为模型估计值。对于板温数据的具体数据清洗步骤如下:
Step1筛选出原数据中的缺失数据,临时用中位数替换。
Step2以历史数据库中干净的气象数据为输入板温实测数据为输出训练NARX 网络,进而建立基于气象参数的板温数据模型。
Step3将待清洗的板温数据对应的气象数据输入板温数据模型输出板温数据预测值,计算预测值与原数据的残差。
Step4进行拉伊达原则分析,甄选板温数据中的异常值。
Step5利用预测值替换缺失值与异常值,得到干净的板温数据。
⑴轨道板在线监测数据关联性分析
数据之间的关联性是数据模型建立的重要依据之一。已有的研究表明[10-11],气象参数变化是轨道板内部温度变化的主要因素,由此可得,在轨道板状态在线监测系统的监测数据中,板温数据与环境气象数据有相关性。利用SPSS 软件计算实测数据变化之间的相关系数以验证各个监测量之间的关联性,结果如表2所示。
表2 气象数据与板温数据之间的相关性
由表2 所示,轨道板各个深度的板温数据变化趋势与当地的气象参数变化趋势高度相关,根据不同监测量之间的相关性,即可建立气象数据与板温数据的关系模型用于数据异常识别与缺失值估计。
⑵板温数据NARX神经网络模型的建立
NARX神经网络是一种用于描述非线性离散模型的动态神经网络。相较于普通的bp 神经网络,NARX神经网络通过设置外部反馈将神经网络的输出值和历史输出值以及历史输入值作为新的变量引进到输入中,可以记录时间跨度更长的历史状态和实时状态信息。
本文选取2019 年12 月到2020 年12 月的干净的气象数据和轨道板内部温度数据进行模型建立。基于气象参数的板温数据NARX 神经网络模型根据气象数据与板温数据间的相关性建立,以不包含数据异常的气象参数、历史气象参数和历史板温数据作为模型的输入,各深度的板温数据作为输出进行训练,对数据进行归一化处理,并按数据总数的70%、15%、15%将数据分为训练集、验证集和测试集,隐藏层神经元设置25 个神经元、传播算法选择Levenberg—Marquardt 算法。基于气象参数的板温数据NARX 模型结构如图2所示。
图2 板温数据NARX模型结构
针对数据异常的识别,本文通过利用拉伊达原则识别NARX 神经网络回归拟合的模型与实测数据之间残差突变值方式来实现对那些分布在正常范围内但偏离数据趋势的异常数据的鉴别。
在NARX 神经网络进行预测估计过程中,如果待清洗数据中出现数据跳点、数据噪音等异常时,NARX神经网络所估计的数据与原数据会出现残差值突变的情况,如图3所示。
图3 数据模型残差变化图例
可见,对于轨道板在线监测系统数据异常的甄选即可通过对数据模型残差中的突变数据的甄别来实现。拉伊达法则是一种甄选数据离群值的方法,其内容是对于一组数据,若有数据分布在范围外,则可以判定该数据为统计学意义上的离群值,式中为该组数据平均值,为该组数据的标准差。拉伊达法则对于正态分布的数据离群值识别效果较好,因此选用拉伊达法则来判定残差中的突变数据。对于缺失值与异常值的替换利用估计模型替换。
为验证基于NARX 神经网络的轨道板在线监测数据智能化清洗方法的有效性,本文选取2019 年12月1 日至2020 年12 月1 日实测数据中的一部分完整数据作为样本数据进行实验验证。为方便验证数据清洗的效果,本文选择向样本数据中预设异常数据再清洗最后将数据清洗的结果与原数据对比的方式进行验证。图4是样本数据的分布。
图4 样本数据分布
向其中预设一部分数据异常,标记在图上,如图5所示。
图5 预设数据异常的数据
后对所提出的数据清洗方法进行验证并标记数据中的异常值,如图6所示。
图6 所提出数据清洗方法异常甄别验证
由图6 可知,本文所提到的基于NARX 神经网络的数据清洗方法识别板温数据中已标注的53 个数据异常点中的47个数据异常点,准确率为88.68%。
将预测值加残差平均值替换识别出的异常值,图7是异常数据填补的结果与原样本数据分布对比。
图7 异常数据替换验证
通过计算清洗后的数据与原样本数据的误差均方差与相关系数反映数据清洗后数据恢复的效果。经测验,板温数据清洗后的数据与原样本数据误差均方误差为1.10℃,相关系数为94.50%。经清洗后所得数据基本还原样本数据的信息。
对于同一样本数据删去一部分数据以人工制造数据缺失的情况,并利用本文所提数据填补方法进行数据填补估计,缺失数据填补结果如图8所示。
图8 缺失数据填补验证
对比填补后的数据与原样本数据,板温数据均方误差为0.0063℃,相关系数为99.98%,基本与原数据吻合。
综上,本文轨道板在线监测数据清洗方法相较原有的数据预处理方法识别数据异常准确率更高,清洗后的数据基本还原数据的信息,对于缺失数据填补也能基本恢复原数据的变化趋势。经验证,该数据清洗方法能有效清洗轨道板在线监测数据中的数据缺失、数据错误等问题,进一步提高在线监测数据的数据质量。
本文依据轨道板状态在线系统中存在的数据异常清洗以及各个数据之间的相关性,提出一种基于NARX 神经网络回归模型的智能化板温数据清洗方法,并测试其数据清洗效果,可以得出以下结论:
⑴轨道板状态在线监测数据中板温数据的主要数据异常类型是缺失值、数据跳点和数据噪音,需开发相应的数据清洗方法以消除这类数据异常对监测数据质量的影响。
⑵本文建立基于NARX 神经网络模型的智能化清洗方法,建立不同数据之间的NARX 神经网络模型,基于估计模型残差识别数据异常,并用已建立的数据模型估计预测缺失值。
⑶经验证,本文数据清洗算法识别板温数据中的异常数据准确率达到88.68%,对缺失数据的填补也能够恢复板温数据99.98%的信息,能有效提高数据质量,进而提高在线监测系统的工作性能。