吴星辰
(中车长春轨道客车股份有限公司国家轨道客车工程技术研究中心,吉林长春 130000)
对城市轨道车辆运行状态的实时监测,并对监测结果进行处理、分析,实现数据驱动、模型驱动的城市轨道车辆故障的分析、预测,为城市轨道车辆延长检修周期、优化检修内容、优化修程和修制、提升检修效率、促进动车组检修服务方式的转变和安全运营提供了重要保证,国内外对城市轨道车辆运行状态数据的异常检测进行了大量研究。城市轨道车辆关键系统和部件种类繁杂,车辆运营时间长,传统基于阈值和机理的异常检测、分析方法已无法适用于海量、实时的城市轨道车辆时序数据分析要求。随着人工智能、大数据和云计算等新兴技术的产生和发展,机器学习算法逐渐被应用于解决工业设备的时序数据异常检测领域。
异常检测就是将数据集中偏离数据簇的数据检测出来,而时序数据的异常检测在上个世纪末就在各个领域得到了广泛应用。
Knorr和Ng通过计算数据点和目标之间的欧氏距离实现异常点的检测,实现最初基于空间距离的异常检测算法[1-2]。Breuin等[3]根据数据集中、数据密度分布不均的特点,提出了基于密度的异常检测算法,此算法处理大数据集时复杂度过高,无法取得时间复杂度与检测精度间的平衡。Eamoon等[4]通过将时间序列符号化,通过符号检索出时间序列中的异常子序列,实现了对时间序列中异常子序列的检测。高嘉伟等[5]提出了一种基于密度和网格的聚类算法,引入动态划分网格的方法,通过当前数据块内数据的特征,动态设置网格划分、网格密度阈值等参数并自适应生成网格,适用于处理轨迹信息等时序数据流的异常检测问题。丁建立等[6]提出了一种基于时间序列的多维特征聚类异常检测方法,提高广播式自动相关监视(ADS-B)数据异常检测技术的精确性,通过提取ADS-B数据中经度、纬度、速度、航向信息,利用Hausdorff距离计算轨迹数据的多特征相似度,结合层次聚类方法检测轨迹中的异常行为。
针对本文研究的城市轨道车辆关键系统、部件监测时序数据具有周期性上下波动,相邻数据具有关联性,相同类型数据具有关联性的特点。本文提出使用简单、易于理解、易于实现,无须参数估计的、基于改进的余弦相似度的KNN算法城市轨道车辆时序数据异常检测方法。
由Cover和Hart提出的K近邻算法(KNN),是一个基本的分类和回归监督学习算法,具有思想简单直观、无须估计参数和训练的特点。KNN算法可以应用于分类算法中,也可以应用于回归算法中。KNN进行回归和分类的主要区别在于最后预测的决策不同。分类预测时,一般采用多数表决法和加权多数表决法;回归预测时,一般使用平均值法和加权平均值法。KNN善于处理分类问题,同时可以处理多分类问题,适合对稀有事件进行分类。KNN算法通过采用少数服从多数的决策方法实现对异常点的检测,该算法的多数指某个特征空间中距离样本最近的K个值,这K个值中个数最多的类别能够代表该样本点的类别[7]。
K值、距离度量和决策规则是KNN算法中最重要的三个因素。多数表决法是目前主要采用的分类决策规则,将K个点多数属于的类别作为待测点的最后分类属性。K值的选取对分类结果影响较大,K越小,使用较小的领域中的样本进行预测,训练误差小,但模型复杂度高,导致过拟合;K越大,使用较大的领域中的样本进行预测,训练误差增大,模型简单,容易导致欠拟合的问题。上述问题可以通过设定不同的K值交叉验证对比训练分类效果,降低误差,得到合适的K值。对于距离的度量方法较多,如欧几里得距离、曼哈顿距离、余弦相似度和字符串相似度等方法,在实际使用中需要根据不同的数据特性以及计算特点,选择合适的距离公式[8]。本文根据转向架轴承温度数据特点,提出一种改进的空间距离度量方法。
(1)对轴箱轴承温度数据进行预处理。
(2)输入轴箱轴承温度训练数据集:
式中:xi——轴箱轴承温度数据;yi——轴承温度数据对应的属性,即轴承运行时的正常或异常状态。
(3)输出轴承温度数据所属类别,即正常或异常温度。
(4)元组数据集测试完毕后计算误差率,继续设定不同的K值重新进行训练,取误差率最小的K值。
使用的改进的距离度量公式:
式中:xj——特征向量,xi和xj共有d维;xik、xjk——维向量对应第k维。
为了验证提出的基于改进余弦相似度的KNN城市轨道车辆时序数据异常检测方法的有效性,本文截取了某城市轨道车辆在一段时间内,转向架轴箱轴承部分电机驱动侧与非驱动侧的轴承温度数据,数据中包含车辆正常运行时的轴箱轴承温度数据和异常时的温度数据。
轴箱轴承电机驱动侧与非驱动侧温度检测如图1所示。
图1 轴箱轴承电机驱动测与非驱动侧温度监测数据
本文使用KNN算法实现城市轨道车辆时序数据异常检测的目的是能够自动识别图中21:50时轴承温度的异常升高情况,同时能够对正常的轴承温度数据进行自动分类[9]。
本文根据轨道车辆转向架轴箱轴承温度数据特点,使用KNN算法建立的城市轨道车辆转向架轴箱轴承温度二维时序数据异常检测程序如图2所示。
图2 城市轨道车辆二维时序数据异常检测程序
本文在PyCharm集成开发环境中使用python编程语言对程序进行了开发和测试[10]。
本文提取正常的轴承温度数据和异常轴承温度数据对KNN算法进行了训练,并随机抽取正常轴承温度时间点的电机驱动侧温度与非驱动侧轴温数据以及异常轴承温度时间点的电机驱动侧温度与非驱动侧轴温对算法进行了测试。
测试结果如图3所示。
图3 试验测试结果
由图3可知,计算得到的正常轴承温度数据与监测得到正常温度数据值相一致,提示的异常温度数据值与监测得到的异常温度数据值相一致。试验结果表明,本文提出的基于KNN算法的城市轨道车辆时序数据异常检测方法,能够有效检测出车辆转向架轴箱轴承的异常温度数据和正常温度数据,证明了方法的有效性[11-12]。
本文针对城市轨道车辆关键系统部件时序监测数据特点,提出基于KNN算法的异常数据检测方法,能够克服传统基于阈值和机理的异常检测方法在应对周期性往复波动、各数据间强关联性数据时的弊端。通过对转向架轴箱轴承温度数据的检测试验,证明了观点。该方法的研究有助于实现城市轨道车辆转向架系统的维修由计划性维修到状态性维修的过渡,同时对提升城市轨道车辆运行的安全性具有重要的意义。