摘要:随着铁路运输系统的高速发展,车载非接触式钢轨磨耗自动化检测任务日益增加,然而,线路上丰富多样的钢轨轨形轮廓和多样离群点干扰,导致磨耗值在线计算错误频发,且运营列车日趋海量的检测数据对于实时性的要求越来越高。因此,提出一种基于随机森林(RF)的钢轨轮廓在线识别方法,分类模型1利用主分量分析(PCA)提取钢轨轮廓的全局特征,分类模型2采用相对高度二叉树提取钢轨轮廓的局部特征,随后采用RF算法模型对转化后的低维特征向量进行分类识别。与支持向量机(SVM)分类识别算法进行对比,结果表明,所提出的基于RF算法的分类模型1对于普通钢轨轮廓和非普通钢轨轮廓的整体分类识别准确率为98.7%,单帧识别耗时8.57 ms;分类模型2对于鱼尾板、道岔尖轨和其他轮廓的整体分类识别准确率为96.7%,单帧识别耗时11.95 ms,满足运营列车75 km/h的实时在线检测钢轨轮廓需求,具有工程应用价值。
关键词:钢轨轮廓;在线计算;特征提取;随机森林;轮廓识别
中图分类号:U216 文献标志码:A doi:10.3969/j.issn.1006-0316.2024.10.007
文章编号:1006-0316 (2024) 10-0052-07
Online Recognition Method of Steel Rail Profile Based on Random Forest Algorithm
LIU Zhenfeng,CHEN Jianzheng,ZHAO Chunyun,WANG Jiayue
( State Key Laboratory of Rail Transit Vehicle System, Southwest Jiaotong University,
Chengdu 610031, China )
Abstract:With the rapid development of railway transportation systems, the tasks of automated detection of non-contact steel rail wear have increased dramatically. However, the rich and diverse rail profiles and various outliers on the track lead to frequent errors in online wear calculation, and the massive amount of detection data from operating trains increase requirement for real-time detection. This paper proposes an online rail profile recognition method based on Random Forest algorithm (RF). Classification model one utilizes Principal Component Analysis (PCA) to extract the global features of the rail profile, while classification model two uses a relative height binary tree to extract the local features of the rail profile. Subsequently, the RF algorithm is used to classify and recognize the transformed low-dimensional feature vectors. Compared with the Support Vector Machine (SVM) classification recognition algorithm, the results show that the proposed classification model one based on RF algorithm achieves an overall recognition accuracy of 98.7% for common and non-common rail profiles, with a single-frame recognition time of 8.57 ms. Classification model two achieves an overall recognition accuracy of 96.7% for fishplate, switch point rail, and other profiles, with a single-frame recognition time of 11.95 ms. The proposed recognition method meets the real-time online detection requirements of rail profiles for operating trains at 75 km/h and thus it has certain engineering application value.
Key words:rail profile;online calculation;feature extraction;random forest;profile recognition
随着我国铁路运输系统的高速发展和行车密度的增加,为便于及时打磨养护钢轨、延长钢轨使用寿命,钢轨轮廓磨耗检测任务日益繁重[1]。传统的接触式手工测量方法磨耗检测效率十分低下,随着检测技术的大力发展,车载非接触式钢轨磨耗检测已得到广泛应用,可对钢轨表面磨耗情况进行实时在线检测[2]。然而,在列车行驶过程中,钢轨轮廓在不同轨形区域会呈现不同的几何形态,如道岔尖轨、鱼尾板、护轨等轮廓,且会受到线路上零件或异物的干扰。这些异常的钢轨轮廓若不进行分类处理,会导致磨耗值在线计算效率降低和错误频发等问题。另外,鱼尾板和道岔尖轨作为钢轨中的关键性部件,通常沿轨道线路有规律地均匀分布,如果能实时在线分类识别出鱼尾板和道岔尖轨,可以辅助列车的绝对定位工作,定位精度可达到钢轨轮廓采样间隔距离。与使用查询应答器来定位列车的方法相比[3],这种定位方式成本很低,且更易维护。因此,针对海量的日常检测数据和多样化异常廓形及离群点的干扰,如何快速且准确地在线识别有效钢轨轮廓是轨道自动化检测领域急需解决的现实问题。
目前针对钢轨轮廓分类识别的方法主要可以分为两大类,分别为基于深度学习的图像检测算法以及基于钢轨几何特征的配准算法。Liu等[4]提出采用点集映射方法计算实测钢轨轮廓和标准钢轨轮廓的曲线相似度,满足轨检车12.86 km/h的在线识别速率。赵鑫欣等[5]提出一种基于时空上下文信息的钢轨图像轮廓快速追踪算法,可以更新轮廓追踪区域的置信图,在处理不同钢轨几何形态和阳光干扰时具有良好的泛化性。Wang等[6]提出采用图像深度神经网络和模板配准的钢轨轮廓分类识别追踪算法,可以识别出不同区域的钢轨轮廓轨头区域。Li等[7]提出利用标准钢轨轮廓作为模板的异常轮廓识别方法,通过对实测钢轨廓形与标准钢轨廓形配准对正常轮廓和异常轮廓进行区分。
目前基于钢轨轮廓配准的算法适用于对钢轨轮廓进行二分类,利用全局特征识别普通钢轨轮廓和非普通钢轨轮廓,识别速率较快。然而,异常轮廓种类较多且受离群点噪声干扰,局部特征差异太大,导致容易误检。基于神经网络的深度学习算法虽然具有较好的识别效果,但计算时间复杂度较高。考虑到机器学习中的随机森林算法抵抗噪声能力较强,可以保证钢轨轮廓识别的准确率,再与特征提取算法结合,即可降低轮廓的输入维度、保证检测的速率。
因此,本文提出一种基于随机森林的钢轨轮廓在线分类识别算法。该算法能对车载非接触式设备采集的钢轨轮廓进行在线分类识别,有效识别出正常轮廓和不同区域的异常廓形,在保证泛化性的同时,拥有快速且准确的钢轨轮廓分类识别能力。
1 钢轨轮廓磨耗检测原理
如图1所示,车载钢轨轮廓磨耗在线检测系统由多个组件模块构成。其中,微处理器负责接收光电轮轴编码器的旋转脉冲信号,根据已知的列车轮对直径将信号转换为等距离的触发信号传递给2D激光位移传感器,采样距离间隔设置为0.25 m。数据采集模块可以实时获取钢轨左右两侧2D激光位移传感器采集的轮廓二维几何坐标数据,通过相关配准算法与标准钢轨轮廓模板进行对齐配准,根据钢轨磨耗参数定义即可测量钢轨轮廓磨耗几何参数[8]。但如果采集到异常钢轨轮廓,时常会导致磨耗值在线计算错误,降低轨检系统自身的有效性。
在车载非接触式轨道检测中,列车通过线路上不同区域时,会产生丰富多样的钢轨轮廓几何形态。由于车辆振动的影响,输出的每一帧钢轨轮廓曲线二维坐标均不同。线路上不同区域的钢轨轮廓,一般可以分为普通钢轨轮廓、鱼尾板、道岔尖轨和其他区域特殊轮廓等,如图2所示。
2 基于随机森林的钢轨轮廓识别方法
2.1 特征提取方法
非接触式车载检测系统实测钢轨轮廓输出的二维坐标点在传感器的测量坐标系中构成了一条轮廓曲线。由于列车的振动,轮廓二维坐标会受不同程度旋转或平移变换的影响。因此,钢轨轮廓数据特征提取方法要能最大限度表征原始轮廓数据,又不能因为轮廓的旋转或平移变换而受较大影响。
PCA(Principal Component Analysis,主分量分析)是一种基于无监督学习的特征提取方法。该方法除可以较好地对原始输入高维数据集进行降维处理,降低系统运算的时间复杂度,还可最大限度提取原始数据中对投影方差起决定性作用的特征向量[9-10]。此外,周志杰[11]证明了PCA能抵抗钢轨轮廓的旋转和平移变换。
本文选取地铁线路实测的250帧钢轨轮廓(含普通钢轨轮廓无干扰、普通钢轨轮廓有干扰、鱼尾板、道岔和其他特殊轮廓各50帧),采用PCA方法进行处理,得到不同类型钢轨轮廓的特征值分布图,如图3所示。可以看出,普通钢轨轮廓的主分量特征分布聚成两堆,一部分是普通钢轨轮廓无干扰的堆,第一特征值主要分布在[4450, 4500],第二特征值主要分布在[360, 390],还有一部分是普通钢轨轮廓有干扰的堆,主要是因为线路上零件或异物遮挡带来的离群点干扰,导致轮廓曲线的轨腰段和轨底段出现异常凸起,造成投影方差增大,增大两个特征值,使得普通钢轨轮廓的特征分布在图中向右上方区域移动。
对比特征值分布情况可知,使用PCA方法可以较好地提取钢轨轮廓全局特征,适合区分普通钢轨轮廓和非普通钢轨轮廓。然而,非普通钢轨轮廓的鱼尾板、道岔尖轨和其他特殊轮廓的主分量特征比较散乱,应采用可提取曲线细节特征的方法。陈孝春等[12]证明了相对高度二叉树特征提取具有曲线旋转和平移不变性。
曲线相对高度特征提取如图4所示。首先把曲线段AB的两个端点相连。然后遍历曲线上两端点之间的所有点,寻找一点N,使其到线段AB的欧式距离最大,将其垂足记作M,此时垂线长度MN记作H1,则曲线段AB的相对高度为H1/AB,并且最远点N将曲线段AB划分成了两个新的曲线段AN和BN。以此类推,对于曲线段AN和BN,其垂足分别假设为E和F,垂线长度CE记为H2,垂线长度DF记为H3,则曲线段AN和BN的相对高度分别可表示为H2/AN和H3/BN。轮廓曲线的曲率信息可以在一定程度上由曲线的相对高度信息来反映,将相对高度信息存储在二叉树中,浅层次的节点代表曲线全局特征,深层次的节点反映了曲线局部特征。
对于地铁线路实测的钢轨轮廓数据,两种特征提取方法各有优点与缺点。基于PCA的特征提取方法,优点是计算时间复杂度较低。对于实测的钢轨轮廓点集,先计算出它的协方差矩阵,更进一步计算出该协方差阵的第一和第二特征值即可。该方法不仅可以较好地降低原始输入钢轨轮廓点集的维度,且处理之后的轮廓只有两个维度。然而,该方法的主要缺点在于,难以捕捉钢轨轮廓曲线的局部特征,比如曲线上的凹陷、凸起、缺失、拐点等,其主要反应的是轮廓曲线的全局特征。基于相对高度二叉树的特征提取方法,优点是可以提取曲线更深层次的细节信息。存储二叉树的深度可以通过控制递归函数分割阈值的大小来进行动态调整,则钢轨轮廓曲线在不同尺度上的特征都可以进行表征。该方法的主要缺点是,在计算处理过程中,需要一直寻找最远的端点,然后根据设定的阈值进行递归分割,随着存储轮廓相对高度信息二叉树深度的不断增加,其计算的时间复杂度较高。因此,本文采用PCA提取钢轨轮廓的全局特征,采用相对高度二叉树提取钢轨轮廓的局部特征。
2.2 随机森林算法原理
随机森林(Random Forest,RF)集成学习算法是在决策树的分类与回归树(Classification And Regression Tree,CART)、随机子空间算法和Bagging算法的基础上发展形成的,将CART作为基分类器,通过自助采样法有放回抽样生成训练集,然后采用随机子空间算法,加入随机特征选定,完成决策树的建造[13-14]。RF模型中的每个决策树都会对输入样本进行处理,最后综合多个相互独立的决策树的结果来进行判断。决策树是一种经典的分类模型,通过递归地从顶部到底部构建树形结构,具有强大的泛化能力和易于理解的特点,在分类识别、数据挖掘等领域应用广泛[15],其中CART算法采用基尼值(Gini)最小指标来确定分裂属性,可表示为:
(1)
式中:N为任意样本数据集; 为从N中抽取出两个样本但属于不同类别的概率;S为种类; 为属于s类的样本数量。
取值越大,则N纯度越低。
RF在处理复杂、高维度的数据集以及具有噪声和非线性关系的问题时表现出色。地铁线路实测钢轨轮廓数据中,轮廓曲线包含了多样性的离群点噪声和复杂轨道轮廓干扰,RF算法模型通过多颗决策树分类并投票的机制可以较好地提高模型的泛化性能,使模型能够抵抗更多来自钢轨轮廓数据本身的噪声干扰,适合作为钢轨轮廓数据的分类识别模型。
2.3 钢轨轮廓分类识别流程
如图5所示,根据地铁线路实测的钢轨轮廓数据主分量分布特征,分类识别可以转变为两个过程。第一步,对实测轮廓数据运用PCA转化为二维全局特征向量,随后采用RF分类模型1进行二分类,如果判定为普通钢轨轮廓,则完成识别。否则,进行第二步,采用相对高度二叉树方法提取钢轨轮廓15维局部特征向量,利用RF分类模型2进行三分类。如果是鱼尾板和道岔尖轨轮廓,则保存其信息用于辅助列车绝对定位,如果是其他轮廓则无需处理,分类识别方法结束。
3 实验验证
3.1 数据选取
本文选取GJ-6高速轨检车在某地铁线路实测钢轨轮廓数据进行实验验证。分类模型1的总样本数为1000帧(其中,900帧为普通钢轨轮廓数据,100帧为非普通钢轨轮廓数据)。
分类模型2的总样本数为500帧(其中200帧鱼尾板、200帧道岔尖轨和100帧其他特殊轮廓)。两个模型中训练集和测试集的数据划分比例都为7:3。
3.2 结果分析
模型1中测试集样本的混淆矩阵如图6所示,300帧轮廓数据中仅有4组数据分类错误。因此,模型1对于测试集的分类识别整体准确率达到了98.7%。更进一步评价模型1的精确性能指标:普通钢轨轮廓的查准率、召回率和F1测度都为99%;非普通钢轨轮廓的查准率、召回率和F1测度都为94%。基本满足模型1分类识别的要求。
模型2中测试集样本的混淆矩阵如图7所示,150帧数据共有5组数据分类错误。
因此,模型2对于测试集的分类识别整体准确率达到96.7%。更进一步评估模型2的精确性能指标:鱼尾板的查准率98%、召回率95%、F1测度97%;道岔尖轨的查准率97%、召回率98%、F1测度97%;其他特殊轮廓的查准率94%、召回率97%、F1测度95%。基本满足模型2分类识别要求。
3.3 算法对比
为证明所提出采用算法的有效性,在相同特征提取算法的前提下,选用SVM(Support Vector Machine,支持向量机)算法进行对比验证,结果如表1所示。可以看出,针对本文的两种分类场景任务,基于RF算法的分类识别效果整体表现明显优于SVM算法的识别结果。
4 结论
提出一种基于RF算法的钢轨轮廓在线识别方法,具有较高的识别准确率和较高的识别速率。通过地铁线路实测数据验证,分类模型1对普通钢轨轮廓和非普通钢轨轮廓的整体识别准确率为98.7%,单帧轮廓识别耗时8.57 ms;分类模型2对鱼尾板、道岔尖轨和其他特殊轮廓整体识别准确率为96.7%,单帧轮廓识别耗时11.95 ms。如果按照0.25 m的采样距离间隔,可满足运营列车75 km/h的钢轨轮廓在线识别需求,具有工程应用价值。
参考文献:
[1]赵宇晨,罗旦,李从祥,等. 钢轨打磨综合试验台的设计及应用[J]. 机械,2022,49(5):68-74.
[2]占栋,于龙,肖建,等. 钢轨轮廓全断面检测中轨廓动态匹配方法研究[J]. 铁道学报,2015,37(5):71-77.
[3]张振兴. 城市轨道交通中的列车定位方法研究[D]. 北京:北京交通大学,2008.
[4]LIU H,LI Y,MA Z,et al. Recognition and calibration of rail profile under affine-distortion-based point set mapping[J]. IEEE Transactions on Instrumentation and Measurement,2016,66(1):131-140.
[5]赵鑫欣,王胜春,王昊,等. 车载动态条件下钢轨廓形快速追踪算法[J]. 中国铁道科学,2020,41(6):145-155.
[6]WANG S,WANG H,ZHOU Y,et al. Automatic laser profile recognition and fast tracking for structured light measurement using deep learning and template matching[J]. Measurement,2021(169):108362.
[7]LI Y,ZHONG X,MA Z,et al. The outlier and integrity detection of rail profile based on profile registration[J]. IEEE Transactions on Intelligent Transportation Systems,2019,21(3):1074-1085.
[8]杨强,林建辉,丁建明,等. 基于二维激光位移传感器和遗传算法的钢轨磨耗动态检测系统[J]. 中国铁路,2012(6):85-88.
[9]BRO R,SMILDE A K. Principal component analysis[J]. Analytical Methods,2014,6(9):2812-2831.
[10]陈丹,李京华,黄根全,等. 基于主分量分析的声信号特征提取及识别研究[J]. 声学技术,2005,24(1):39-41,45.
[11]周志杰. 钢轨轨形轮廓分类识别与磨耗检测技术研究[D]. 成都:西南交通大学,2018.
[12]陈孝春,叶懋冬,倪臣敏. 基于二叉树的曲线描述方法[J]. 中国图象图形学报,2007,12(1):116-120.
[13]STROBL C,MALLEY J,TUTZ G. An introduction to recursive partitioning: rationale, application, and characteristics of classification and regression trees, bagging, and random forests[J]. Psychological Methods,2009,14(4):323-348.
[14]李晟,周超. 基于随机森林的钛加工表面质量评定研究[J]. 机械制造与自动化,2020,49(6):36-38,60.
[15]TAN J,XIE X,ZUO J,et al. Coupling random forest and inverse distance weighting to generate climate surfaces of precipitation and temperature with multiple-covariates[J]. Journal of Hydrology,2021(598):126270.