地铁车辆车轮轮缘异常磨耗检测中的箱线图算法和改进孤立森林算法

2022-12-10 06:34习佳星许承焯
城市轨道交通研究 2022年12期
关键词:轮缘线图区段

习佳星 沈 钢 许承焯

(同济大学铁道与城市轨道交通研究院,201804,上海∥第一作者,硕士研究生)

轮缘是影响列车轮对导向和防止脱轨的关键部位。轮缘是否存在异常磨耗对线路运营安全至关重要。当前对轮缘异常磨耗的研究较少:文献[1]对深圳轨道交通9号线轮缘严重磨耗问题进行研究,通过比较左右侧车轮轮缘磨耗量,发现轮对明显磨耗不均匀;文献[2]对上海轨道交通4号线列车运营期内的轮缘万km磨耗量进行计算,发现其显著高于与其部分共线的3号线列车车轮轮缘磨耗量;文献[3]对广州轨道交通3号线频繁镟轮的现象进行分析,发现一段范围内轮缘厚度磨耗速率远超出正常值。而轮缘异常磨耗研究尚缺少对轮缘磨耗监控数据挖掘分析的有效方法。

轮缘磨耗异常值检测常采用统计学方法、基于距离的方法和基于树的方法等。箱线图法是一种统计学方法,对数据分布类型没有限制,抗干扰性好,其计算结果相对客观[4]。孤立森林法是一种基于树的方法,没有利用距离或密度测量,具有简单、高效的优点[5]。本文基于某地铁自动化采集设备采集的整列列车48个车轮的实测廓形数据,分别采用箱线图算法和孤立森林算法进行轮缘磨耗异常检测。

1 轮缘磨耗检测指标的选择

1.1 实测廓形数据分析

基于某地铁列车的实测廓形数据,对轮缘厚度Sw按左右、轴位及动拖车分别进行计算分析,得到镟修后列车运行里程L为1.2万km至14.5万km时,Sw在各维度下的磨耗情况,如图1—图3所示。

由图1—图3可知,该列车轮缘存在偏磨,但不同轴位、不同车辆的磨耗差异不明显。可见,仅依靠轮缘厚度难以判断轮缘是否存在异常磨耗。

图1 左、右侧的车轮Sw平均值变化

图2 不同轴位的车轮Sw平均值变化

图3 动车及拖车的车轮Sw平均值变化

1.2 基于轮缘磨耗规律选择指标

轮缘根部是轮对自导向能力的关键部位,其磨损是导致轮缘磨耗的起因。如果轮缘根部发生磨耗,其轮径差减小会导致轮对自导向能力减弱,当车辆通过曲线时为防止脱轨,轮缘会与钢轨内轨面接触并产生轮缘侧磨。由此,本研究基于轮缘根部和侧面磨耗规律选择指标。

轮缘根部发生磨耗后,在相同的横移量下轮对所能产生的轮径差减小,自导向能力减弱,车轮轮缘区段会与钢轨产生磨耗。因此,本文拟定以轮缘根部的轮径差变动量来衡量轮缘根部的磨耗。

现阶段,相关单位将Sw作为轮缘侧磨衡量指标。Sw测量以名义滚动圆接触点作为基准。当踏面名义滚动圆处存在磨耗时,可能出现图4所示情况,即磨耗廓形Sw2与新廓形Sw1相等。此外,当名义滚动圆处磨耗速率大于轮缘侧磨速率时,可能表现出轮缘“假增厚”。因此,本文选用磨耗面积Aw来衡量轮缘侧磨(图4阴影)。将磨耗廓形与参考廓形作对比,Aw能直接表示轮缘的侧磨量。

注:Sh1表示新廓形的轮缘高度,Sh2表示磨耗廓形的轮缘高度。

由上述轮缘磨耗规律,本研究以轮缘根部轮径差之半(横移量为12 mm)变化速率Rf和轮缘磨耗面积(法向磨耗面积,且距轮背横向距离为20~30 mm区段)变化速率Ra为指标,对轮缘磨耗进行检测辨识。

2 基于箱线图算法的磨耗检测

2.1 箱线图相关概念

文献[6]于1977年提出经典的箱线图理论。箱线图主要由最小值、下四分位数Q1、中位数Q2、上四分位数Q3和最大值5个数值点组成,Q1与Q3的差值为四分位距IQR。本研究将样本数据中大于Q3+1.5IQR或小于Q1-1.5IQR的值定义为异常值。

2.2 算法流程及结果分析

针对本研究中的监控数据分别计算在连续里程区段内各车轮轮缘磨耗速率的变化情况,识别出存在异常磨耗的车轮及其里程区段。以Ra为例,假设整列车各车轮轮缘侧磨面积为Aw1,Aw2,Aw3,…,Awn,n为列车车轮样本总数。用Awi,1,Awi,2,Awi,3,…,Awi,t,表示第i个车轮轮缘磨耗面积Awi下的t个有序趋势值,设l为时间序列观察窗口长度(l

1)计算得到各车轮在观察窗口长度l内的轮缘磨耗面积变化值ΔAwi,t和t时刻磨耗速率RAwi,t:

ΔAwi,t=Awi,t-Awi,t-1,i=1,2,3,…,n

(1)

RAwi,t=ΔAwi,t/ΔL,i=1,2,3,…,n

(2)

2)计算得到t时刻样本数据内各分位数所处位置Lp,t及数值Qp,t:

3)计算得到t时刻样本数据内的Ra最大值Qu,t:

4)判断Awi,t≤Qu,t是否成立,若不成立则标记为异常值。

5)更改时刻值t=t+l,并重复1)—4),完成对各个时刻测量值的异常状态辨识。

图5为箱线图检测识别算法的流程图。

图5 箱线图检测识别算法

根据箱线图算法,将Ra换成Rf,同样可以计算并观察连续里程区段内Rf的波动大小及异常状况。

本文分别计算L为0~10.7万km的车轮Ra和Rf的监控数据分析结果。

选取典型的存在异常磨耗和正常磨耗车轮的监控结果,如图6及图7所示。从图6 a)中可知,当L为1.7万~5.7万km及6.2万~8.2万km时,该车轮Ra超出最大值,识别出该车轮存在异常磨耗。同理,由图7 a)可识别,当L为8.7万~10.2万km时,该车轮存在异常磨耗。对比图6 b)及图7 b)中的正常磨耗车轮可见,各车轮轮缘磨耗速率基本在其磨耗速率均值曲线附近小幅度波动。

a)1轴左轮

由图6及图7可知,基于箱线图的轮缘磨耗检测识别方法能辨识出车轮存在异常磨耗的状况,客观地得到了各指标的检测识别结果。

a)23轴左轮

L为1.7万~10.7万km时,箱线图算法有效辨识出的轮缘异常磨耗情况统计结果见表1。

L=10.5万km时,整列车的轮缘法向磨耗面积均值、轮缘根部的轮径差之半均值分别为8.18 mm2、0.95 mm;表1中1号、2号、28号、34号、41号、42号、46号和47号车轮的轮缘法向磨耗面积分别为19.71 mm2、14.43 mm2、8.94 mm2、13.77 mm2、9.57 mm2、9.58 mm2、8.64 mm2和8.30 mm2,3号、23号、34号、38号、41号、42号、43号、47号和48号车轮的轮缘根部轮径差之半值分别为2.41 mm、2.64 mm、2.58 mm、1.72 mm、2.46 mm、1.34 mm、1.68 mm、1.37 mm和1.31 mm,都明显高于平均水平,表现出磨耗异常。这与实际磨耗情况基本一致。

表1 箱线图算法的磨耗异常检测计算结果

3 基于孤立森林算法的磨耗检测

3.1 孤立森林相关概念

周志华教授等于2008年在第八届IEEE数据挖掘国际会议上提出孤立森林理论[7],提出异常数据可基于路径长度被检测出来。二叉搜索树的平均路径长度c(n)为:

c(n)=2h(n-1)-2(n-1)/n

(3)

其中n为样本个数;h(i)为调和数,该值可被估计为h(i)=ln(i)+0.577 215 664 9(Euler常数)。c(n)用来标准化样本x的路径长度h(x)。

异常分值s(x,n)用来判断数据异常的程度,定义如下:

s(x,n)=2-E(h(x))/c(n)

(4)

其中E(h(x))为样本x在一群孤立树中的路径长度的期望。

3.2 孤立森林算法的改进

孤立森林算法在构建孤立树的过程中,存在分割数据随机性较强的问题。对此,本文改进了孤立森林算法:先分析采样数据,判断此样本集是否适合构造孤立树,以避免随机选择的根节点中包含较多没有离群点的样本集;随后,在构造孤立树时,用特定的切割点将孤立树分成左右子树。

对于数据集m,随机选择j个样本点作为孤立树根节点样本,再随机选择其中一维作为切割属性。由数据的分布特性可知,样本点中超过上界值的概率很低。因此,若有数据点落在此区域外,则所选根节点样本中包含异常点的可能性很大。如果样本集中的最大值max(j)大于这个上界值,则将j样本放入树的根节点,否则构建为1棵空树。

在第一次选择切割点时,取根节点样本数据中相应切割属性下的上界值作为切割点。在下一个子空间选择切割点时,则以该子样本数据最大值zmax与最小值zmin之间的黄金分割点作为切割点。递归上述过程直到当前子树只包含1个数据点或达到最大限制的树高。此树定义为孤立树。

孤立森林算法的改进去除了可能含有干扰属性的孤立树,加快了迭代,提高了运行效率及稳定性。

3.3 改进算法流程及结果分析

结合Ra和Rf综合计算各车轮轮缘磨耗速率的异常得分s(j,m)。具体流程如下:

步骤1:初始化孤立森林。设置孤立树分叉的最大限制高度。

步骤2:初始化生成孤立树算法参数。输入数据集m,该数据集存入的是镟修后10.7万km里程范围内48个车轮的轮缘磨耗速率值,具有Ra和Rf2个指标维度。生成孤立树的总数即是数据集的采样次数为T,采样大小为j。样本中的2个指标维度即代表孤立树分叉过程中的2种切割属性。

步骤3:判断当前磨耗速率样本数据中的最大值max(j)>上界值(由样本数据的分布特性确定)是否成立。若不成立,则舍弃该样本集,重新选取1个样本集。

步骤4:随机选择1个指标维度作为切割属性,选择相应上界值作为初次切割点p,在选取的指标维度下对磨耗速率样本集中的数据进行比较,磨耗速率≥p的放在右子树,磨耗速率

步骤5:判断样本集的分割是否达到最大限制高度或者当前子样本中是否只有1个磨耗速率数据点。若是,则完成对样本集的1次计算,并且开始构建下一个样本集。

步骤6:递归构造孤立子树,即不断分叉。左子树(即磨耗速率数据的子样本集)选择数据最大值与最小值之间的0.618比例处(即zmin+0.618×(zmax-zmin))为切割点;右子树相应选择0.382比例处(zmin+0.382×(zmax-zmin))作为切割点。选择黄金分割点可减小切割随机性,能让孤立树在生成子空间时每次都切割为与样本父节点均等比例大小的左右子树[5];并且2个分割点比例之和为1,可使得构造子树时迭代速度加快,且具有一定稳定性[7]。

步骤7:重复步骤6,完成每棵孤立树的构建。

步骤8:重复步骤3—步骤7,遍历所有孤立树。设定检测阈值Sm,计算得到s(j,m),将磨耗速率得分超过阈值的数据点确定为异常点。

图8为改进后的孤立森林算法流程图。采用改进后的孤立森林算法对L<10.7万km的列车车轮轮缘磨耗情况进行计算。

图8 改进后的孤立森林检测识别算法

表2为L<10.7万km,选用不同Sm时,改进后的孤立森林算法对存在异常磨耗的车轮及其里程区段的辨识结果。和表1对照的误报情况见表3。其中误报车轮数是将正常磨耗车轮监测为异常磨耗车轮的个数,总误报次数为误报车轮数与非连续区段对应误报次数乘积的总和。

由表3可知,改进后的孤立森林算法所得异常检测结论与箱线图算法所得结论较一致,两种算法检测出来的存在异常磨耗的车轮及其里程区段结果基本一致,验证了两种算法应用于地铁车轮轮缘磨耗异常检测的可行性。

由表2及表3还可看出:当Sm为0.820~0.831时,能辨识出存在异常磨耗的车轮及其里程区段,存在1~3个车轮误报的情况;当Sm减小至0.800时,总误报次数相对增加;当Sm为0.832~0.930时,出现不能辨识出车轮存在异常磨耗的状况。可见,过高的阈值降低了算法辨识的准确性。

表2 不同Sm下的异常辨识结果

表3 不同Sm下的异常辨识误报情况统计结果

当Sm=0.831时,L分别为1.97万km、4.01万km和9.35万km时的轮缘磨耗检测识别结果如图9所示。由图9 a)可知,Sm=0.831,L=1.97万km时,1号、42号轮被辨识为异常点,且明显与同列车其余位置的车轮区分开来;图9 b)中的孤立分数结果显示,1号、42号轮的s(j,m)值高于Sm。分析图9 c)—图9 f),同样可得类似结论。这说明改进后的孤立森林算法能够较好地辨识出存在异常磨耗的车轮及其里程区段,得到相应的综合检测识别结果。

a)磨耗速率异常辨识(L=1.97万km)

4 结语

本文基于某地铁列车48个车轮的实测廓形数据,结合轮缘磨耗面积变化速率和轮缘根部轮径差变化速率,对大量实测数据进行了有效分析和处理,提出了两种能检测和辨识出存在异常磨耗的车轮及对应里程区段的数据挖掘的方法。

箱线图法具有好的抗干扰能力,对数据类型没有限制。本文通过箱线图算法完成了对指标的单独检测,得到客观的统计结果,能很好地辨识出异常磨耗的车轮及其对应里程。

本文对孤立森林算法中生成孤立树及分割成左右子树的过程进行了优化改进,提高了计算效率。通过改进后的孤立森林算法完成了对指标的综合检测。经比较,改进后的孤立森林算法与箱线图法可以得到较一致的磨耗异常检测结论,验证了两种方法的可行性。此外,在改进后的孤立森林算法中,阈值设为0.820~0.831时的检测可靠性最好。

猜你喜欢
轮缘线图区段
固体轮缘润滑块的国产化开发
浅谈液态和固态轮缘润滑装置的差异性
中老铁路双线区段送电成功
地铁车辆轮缘厚度偏磨问题研究
预测瘢痕子宫阴道试产失败的风险列线图模型建立
站内特殊区段电码化设计
站内轨道区段最小长度的探讨
关于优化四方平台动车组轮对踏面旋修的研究
东山头遗址采集石器线图
浅析分路不良区段解锁的特殊操作