(西南交通大学牵引动力国家重点实验室,四川成都,610031)
由于地铁载重容量大、运行密度高,线路条件复杂(如曲线半径小、轨道结构多样化),车辆启动与制动频繁,使轮轨相互作用加剧,钢轨波浪形磨损(简称钢轨波磨)严重[1]。钢轨波磨会带来一系列问题,如引起车辆轨道的异常振动与噪声污染,降低车辆和轨道部件的疲劳可靠性。据文献报道,存在钢轨波磨的地铁线路在打磨前、后司机室车内噪声差异可达到近10 dB[2],而存在显著钢轨波磨的地铁钢轨扣件的振动加速度甚至能达到195g[3]。此外,一些车辆轨道零部件的疲劳断裂失效与钢轨波磨有直接关系,如车辆轴箱吊耳断裂[4]、一系钢弹簧疲劳断裂[5]、钢轨扣件弹条断裂[3]等。钢轨波磨严重影响车辆的安全营运并极大地增加了养护费用。目前,钢轨打磨是控制钢轨波磨最主要的手段之一,在制定打磨策略时(如打磨周期与打磨量),提前获悉钢轨波磨状态是十分必要的,因此,对钢轨波磨进行状态监测和故障识别具有重要意义。目前,钢轨波磨的测量方法可归纳为弦测法[6]、惯性基准法[7]与机器视觉法[8]3类。弦测法使用钢轨本身作为移动参考系,使测量参考的基准随钢轨高低不平顺变化而处于变化状态,造成传递函数比(测量值与实际值之比)不恒为1,导致弦测法往往不能真实可靠地测试钢轨波磨[7,9]。惯性基准法常通过轴箱加速度的二次积分来表征波磨值,其缺点是易受车轮磨耗的干扰,并且由于高通滤波器的影响,在低速工况下测量误差较大,一般仅用于大型轨检车[10-11]。机器视觉法往往需要精密的光电摄像设备以及复杂的图像处理手段,运用庞杂的模式识别技术以进行特定的后端处理,实际应用难度较大且代价昂贵[8,12]。由于轮轨界面直接接触,列车零部件振动行为可科学直观地反映钢轨表面状态,因此,诸多专家学者基于车辆振动响应对钢轨状态进行健康监测研究[13-17]。BOCCIOLONE 等[18]针对钢轨维护策略,研究了轴箱加速度与钢轨波磨等级之间的相关性。MOLODOVA等[19]利用轴箱加速度信号的幅值与功率谱密度特征,对钢轨短波缺陷进行检测。SALVADOR 等[20]开展系列现场测试以获悉钢轨波磨状态,详细分析了加速度传感器的安装位置、最佳采样及滤波频率对试验的影响。WEI等[21]提出利用构架与车体加速度信号对城市轨道交通线路的钢轨波磨进行监测,并通过上海地铁1号线的现场试验对此方法进行了验证。江航等[22-23]结合传统的机器学习技术与车辆振动响应对钢轨波磨的智能检测方法进行了研究,通过实验与仿真的手段获得振动信号,由经验模态分解后得到本征模态函数,分别利用BP神经网络与支持向量机对钢轨波磨进行回归与分类。周志青等[24]通过地铁实际运营车辆获取振动信号、冲击信号样本数据各1 600条,提取振动信号其各频率带的功率与冲击信号峭度,作为支持向量机的特征参数输入以识别钢轨波磨。近年来,深度学习[25]已经在图像识别、声音识别、自然语言处理、生物信息学等领域取得了突破性进展。卷积神经网络(convolutional neural network,CNN)作为深度学习的重要分支之一[26],在滚动轴承[27]、齿轮箱[28]、航空发动机[29]等机械故障诊断研究领域得到应用。鉴于此,本文作者使用深度学习在机械故障诊断领域研究的基础上[30],结合CNN与轴箱加速度对钢轨波磨进行智能检测,以期克服现有钢轨波磨在线监测方法中的不足。本文作者定义“空间域”的概念对实测轴箱振动信号进行分割,建立振动信号与钢轨波磨的非线性映射关系,制定可供钢轨波磨智能分类的数据集;同时为充分利用CNN 强大的自我学习能力,并且不破坏原始输入信号的生态信息,提出一种基于一维输入信号的钢轨波磨识别模型即一维卷积神经网络(1-dimensional convolutional neural network,1-DCNN)。
CNN 是由哺乳动物视觉皮层细胞感受野启发而建立的一种典型的前馈神经网络,其稀疏连接与权值共享等特性可以显著减少网络参数并避免算法过拟合,最终获得输入数据的平移、旋转及缩放不变的特征表示,具有较强的鲁棒性和泛化能力。传统的CNN 模型通常包含特征提取和识别分类2部分,其中特征提取阶段由卷积层和池化层交替进行。
卷积层由多个特征图组成,1 个特征图对应1个卷积核,卷积核与上一层传递的特征矢量局部区域相连,即稀疏连接。每个卷积核作用于局部感受野,通过预设的移动步长遍历全部感受野,以对各输入特征完成卷积操作,提取特征并输出至下一层。此外,各卷积核的参数在同一输入特征图与同一输出特征图之间共享。在卷积层中,每一层的输出对应多输入的卷积结果,其数学模型可以简述为
式中:i与j分别为输入和输出特征的位置变量;l为第l层网络;k为网络层数;运算符*表示对各层输入变量Xl-1j与权重变量进行卷积运算,对应得到第l个输出特征映射Xlj;Blj表示偏置项。在CNN 中,往往会在卷积层后施加非线性层,本文使用修正线性单元(rectified linear units,ReLU)作为激活函数,以提高网络稀疏性并抑制过拟合,进一步加速CNN收敛,其函数表达式为
式中:x为卷积层计算后的输出值,即送往非线性激活层的输入值。
池化层是上一层数据的缩放映射,将某处神经元感知域内的总体统计特征变量作为该神经元的输出变量。池化层的下采样属性可以加快网络计算速度,同时对过拟合有一定抑制作用。针对池化层,有N个神经元输入就有N个神经元输出,假设Hlj为第l层池化层的第j个神经元变量,其产生过程如下式所示(其中pooling()为某一规则下的池化函数):
实际应用中常采用最大池化算子,它给出输入特征相邻矩形区域内的最大值,数学表达式为
式中:qli(t)为第l层第i个特征矢量中第t个神经元的激活值;K为池化区域宽度;Pil+1(j)为第l层的qli(t)经最大池化后送往第l+1层进行下一步运算的神经元对应值。
CNN 的分类阶段由2 个全连接层组成。其中第一个全连接层实现“展平”操作,将所有卷积池化操作后的特征矢量首尾连接,整合为一维向量;第二个全连接层的神经元数量与故障类别数目保持一致。常见的二元分类问题多利用sigmoid函数实现目标输出类别,其表达式如下:
式中:θ(i)(1≤i≤K)是模型的参数,得到的f[θ(i)x]即为CNN模型输出为某一类标签的概率。
在图像识别领域,CNN 以二维平面为研究对象。将振动信号作为一维时间序列,设计合理的1-DCNN 结构显然更适于提取输入信号的特征信息。
基于1-DCNN对钢轨波磨进行状态识别时分为5个步骤:1)信号采集与“空间域”切割;2)振动-波磨信号非线性映射;3)样本集建立;4)1-DCNN结构设计与训练;5)钢轨波磨状态识别,识别流程如图1所示。
2.1.1 选苗。在树木栽培过程中,相关人员需要科学合理地选择树苗,做好树苗运输过程中的管理工作,避免树苗遭受损害,以助于提升树苗的整体质量,确保树苗的成活率。此外,移植树木时,需合理修剪树木的根系,将根系长度控制在30~40 cm,确保树木的扎根质量。
通过在列车轴箱处安装加速度传感器以获得振动信号,图1(a)所示为采集到的轴箱垂向振动时域信号。不同于其他机械结构信号在一定工作时间段内往往具有固定旋转频率,即速度为定值,轨道车辆在实际运营时速度通常表现为非稳态的特征,大部分时刻速度处于震荡变化中。若仍以常见的固定时间窗口对振动信号进行切片划分,则在此时间窗口内列车经过钢轨的位移大小不一,这会对后续钢轨波磨准确定位带来更大的难度。因此,本文提出将振动时域信号转化到位移空间域再进行分割。
首先,对列车速度进行积分,得到图1(b)所示的位移随时间变化图,将振动时域信号引入位移空间域信号。
图1 基于1-DCNN的钢轨波磨状态识别流程Fig.1 Process of rail corrugation identification based on 1-DCNN
其次,设置“空间域”窗口。以长度X在位移空间域上滑动,以便定位时间,即找到长度为1*X,2*X,…,(M-1)*X和S时对应的时间T1,T2,…,TM-1,TM(其中S为总位移,M=[S/X],[]为向上取整运算符)。
再次,将由“空间域”得到的时间序列节点T1,T2,…,TM-1和TM作为切割点,对原始时域信号进行分割。图1(c)所示为经“空间域”节点切割后的样本时域信号。
最后,由于列车时速不断变化,切割后的每个时域信号长度参差不齐,甚至相差几个数量级,这会大大降低样本数据质量,不利于深度学习网络模型的训练。与此同时,机械振动时域信号具有的平移特性一直是特征提取与识别分类的难点之一,在声源识别、图像追踪等研究领域,信号具有的平移不变性会导致特征提取与识别分类困难,解决这类问题具有重要意义[31]。傅里叶变换将时域信号转化到频域后可减小平移带来的影响,是一种简单有效的方法。JING等[28]对比分析时域、频域与时频组合域3种不同数据类型下的卷积网络表现性能,可知当以频域数据为样本集时能大幅提高测试精度。因此,对分割后的时域信号进行傅里叶变换,统一关注某截止频率N以下的频域信号,得到图1(d)所示的频谱,大大降低了原始时域信号伸缩、平移及扭曲带来的变化,将其作为1-DCNN的样本输入进行训练。
综上可知,该方法自适应性地克服了列车时速不断变化导致样本长度不一致与CNN 要求的输入样本平移不变的问题,并且通过设置“空间域”窗口长度可任意调节钢轨波磨状态识别定位的分辨率。
有关轴承与齿轮箱等机械系统的故障诊断研究,学术界已制定了响应的标准参考数据集,如凯斯西储大学(CWRU)公开的轴承振动数据、PHM 2009 challenge提供的齿轮箱数据以及国内面向全球公开发布的滚动轴承加速寿命试验数据[32],目前世界上没有任何一种公认的钢轨波磨激励下的标准振动数据集。除此之外,由于钢轨波磨具有波浪形磨损特征,导致传统的通过电火花加工技术引入指定故障缺陷再获取对应振动信号的手段不再适用。因此,钢轨波磨与振动信号之间的映射关系需通过其他途径加以表征,并且1-DCNN作为有监督模型,输入样本必须配对相应的标签类型。探寻振动-波磨信号之间准确的映射关系对1-DCNN的训练至关重要。
对同一区间位置的钢轨使用CAT[33]采集钢轨波磨信号,利用加速度传感器采集相应位置处轴箱振动信号,通过数学换算便可得到两者之间的映射关系。图1(f)所示为时域内所得为波磨测试信号,图1(e)所示为波磨的1/3倍频程频谱。对2.1节经“空间域”切割后的振动时域信号进行均方根计算便得到图1(f)所示空间域所示波形,通过设置恰当的波磨阈值便可得到振动-波磨信号非线性映射关系,以区分钢轨波磨状态。
CNN 的样本输入数据本质上是计算机可识别的数字矩阵。针对本文所提出的1-DCNN,样本集为M*N的矩阵,即“空间域”划分后的所有样本频域数据。深度学习中,为验证模型的泛化能力,通常将样本集划分为训练集与测试集,若样本集中p为训练集,则剩余(1-p)为测试集。
本文提出的1-DCNN 框架如图1(h)所示。图1(h)中,输入层为样本集矩阵;前4 层网络结构相同,经小卷积核卷积后通过ReLU 激活函数变为1组特征图,送往最大池化层进行降采样;第五层为大卷积核卷积,旨在使上一层输入特征图自动学习面向诊断的局部特征;将最后一个池化层的所有特征图展平形成全连接层,经抑制过拟合技术Dropout处理后,传递到最后的sigmoid分类层。ZHANG 等[34]通过研究发现当作用于振动时域信号时,第一层大卷积核有益于过滤高频噪声污染从而俘获中低频带相关特征信息。与ZHANG等[34]研究中第一层大卷积核不同的是,本文1-DCNN模型输入样本为频域数据,若第一层卷积核较大,则会破坏频域中各频带相干关系。前4层小卷积核结构在较少参数下加深网络,同时抑制过拟合。第五层大卷积核增加了卷积核滤波提取的特征表达能力,这在一定程度上约束了网络内部协变量转移,提高了网络的识别精度与泛化能力。
在CNN 模型中,选择适宜的模型超参数能确保在较高识别精度前提下兼顾模型训练速度。针对本文构建的1-DCNN模型,使用随机搜索法寻找各超参数最佳设置,最终得到如表1所示的1-DCNN参数配置。图2所示为表1参数配置下1-DCNN 模型结构细节,其中,前4 层小卷积核大小为3*1,第五层大卷积核大小为64*1,步长均为1*1。5 层卷积池化结构中卷积核数目分别为2,2,4,4 和8,池化层卷积核大小与步长均为2*1。卷积层使用“same”零补命令,使卷积层输入与输出长度相等。采用“Adam”优化器训练网络,学习率设为0.001,损失函数为“binary_crossentropy”。为避免梯度弥散与梯度爆炸,利用批处理样本进行训练,批大小为128。Dropout 与Early Stopping 技术可有效地抑制训练过程中过拟合问题。本文Dropout 设为0.5,早停机制中patience 设为20,即当测试集精度在20 轮内不再提高时便停止训练。由于模型具有一维特性,输入层在3个方向上仅有长度分量,宽与深均为1。随着卷积池化的交替进行,特征图长度逐渐减小,深度加深,输入信号的拓扑结构特征被网络逐层挖掘并自我学习。
表1 1-DCNN参数配置Table 1 Default settings of 1-DCNN
图2 1-DCNN模型结构细节Fig.2 Architecture of proposed 1-DCNN model in details
此外,本文所提出的1-DCNN模型建立在基于Python语言的Keras深度学习库中。PC硬件配置为i7-8700处理器、16 GB内存、Windows 10系统。
针对钢轨波磨状态识别,定义正常钢轨标签为0,波磨钢轨标签为1。规定若sigmoid激活层输出小于0.5,则判断此样本标签为0,否则为1。通过上述操作,则可以对钢轨波磨状态进行准确识别与定位。
对国内某城市地铁线路进行现场试验,如图3所示。使用波磨测试仪CAT 测试该线路多个区间的钢轨不平顺,利用B&K3560D 多通道数据采集系统获取轴箱振动信号。需要说明的是:试验列车车轮呈初镟状态,使车轮不圆、磨耗及扁疤等引起车辆零部件异常振动的影响源恢复至良好,力求轴箱振动信号主要来自轨道的不平顺激励。
通过现场试验获得的振动数据经过适当划分便可直接用于1-DCNN的训练。如前文所述,将振动信号进行“空间域”分割,本文设置“空间域”窗口长度X为10 m,将列车经过钢轨每10 m 时的时域信号进行切割,再对其进行傅里叶变换,关注截止频率N为1 024 Hz以下的频谱,再将其转化为可供计算机识别的数字矩阵。对现场试验获取的大量振动信号与波磨信号进行统计分析,将波磨阈值设为35(单位为m/s2),即时域信号均方根值值小于35 m/s2时标签为0,否则为1。从而得到两者之间的非线性映射关系,对样本集数据编辑标签。总之,以“空间域”切割后的时域信号判断样本集的标签类型,其频域信号作为1-DCNN的样本输入。
图3 现场测试图Fig.3 Pictures of field tests
以上述方法处理现场试验数据,共得到13 460条样本及其对应的标签,其中90%作为训练集,10%作为测试集,表2所示为钢轨波磨样本集的具体描述。
表2 钢轨波磨样本集描述Table 2 Descriptions of rail corrugation datasets
为减少训练过程中的随机误差,在相同参数配置和PC硬件条件下观察1-DCNN模型10次试验的性能,如图4所示,以测试集的识别精度与每条样本测试耗时作为评判标准以验证模型识别精度与时效性。由图4可看出:10 次试验下诊断率(即精度)均不低于99%,单个测试样本耗时均少于0.2 ms,值得注意的是,此1-DCNN模型的样本数据均来源于现场实测,充分说明该1-DCNN模型在复杂现场运营条件和列车速度时变工况下能有效、快速且稳定地对钢轨波磨进行智能识别并分类。与此同时,预测钢轨波磨发生位置与现场实际状况较吻合,印证了2.1 小节所提“空间域”理论,即不仅可以对钢轨波磨进行智能识别与分类,还可以对线路上钢轨波磨的空间位置准确定位。
图4 试验结果Fig.4 Test results
统计10 次试验精度变化范围为99.03%~99.33%,平均精度为99.20%,标准差为0.1;耗时变化仅在1 ms 内轻微波动,满足钢轨波磨在线监测时效性需求,因此,本文不再对其进行更深入探究。为进一步了解1-DCNN网络性能,分别以精度最高与最低的第2次、第7次试验为例,分析模型训练过程中其测试精度与标准差曲线演变规律,分别如图5和图6所示。由图5和图6可知:2次试验的精度与标准差在数值上略有差异,并且精度较高的第2次试验标准差较小,但2次试验的曲线总体变化趋势相同;精度与标准差曲线在训练过程中均有所波动,这是1-DCNN模型引入的批处理技术所致。经迭代更新后精度与标准差分别达到本轮训练的最佳值,恰当地批处理样本大小能显著增大计算效率并避免训练误差时而收敛、时而陷入局部最优从而导致诊断精度剧烈波动现象;前5次训练轮数中精度与标准差变化幅度较大,这是由于初始卷积核参数随机设置,经网络的自适应学习后卷积核参数迅速自动调节至一合理区间,后续训练轮数不断缩小此参数区间,精度与标准差随之变化,但其变化速率减小;由于引入Early Sopping机制,在训练轮数达到44次后,精度达到最高不再提高,标准差均收敛到0.06 以下。以上现象均符合卷积神经网络训练过程中的自我学习与认知规律,通过分析10 次试验下精度最高与最低的试验的精度与标准差曲线变化,更加论证了本文所提1-DCNN方法的鲁棒特性。
图5 精度演变曲线Fig.5 Evolutional curves of accuracy
图6 标准差演变曲线Fig.6 Evolutional curves of standard deviation
江航等[22]在钢轨波磨回归诊断目标输出为(0,1,0)时得到了(0.042 7,0.945 3,0.021 3)的实际输出,朱崇巧[23]获得了98%的分类识别精度,周志青等[24]获得了94.67%的识别精度。由上述可知本文提出的基于轴箱振动信号的1-DCNN网络可“端到端”地直接作用于现场实测数据并输出识别结果,识别精度与鲁棒性较高,达到了99.20%,标准差仅为0.1,综合表现性能优于文献[22-24]中的综合性能。以本文数据来源的某城市地铁线路为例,使用波磨测试仪CAT 测试该线路每区间的钢轨波磨耗时达1月,而采用本文方法所需总时间不超过3 h,其中包含振动数据的采集与模型的预测,并且可安排正常营运的列车进行在线监测,不影响车辆的日常营运计划。针对亟待解决的钢轨波磨在线监测问题,本文所提出的技术手段能极大地提高生产效率,节省大量人力物力支出,为钢轨波磨在线监测提供新的解决方法。虽然本文提出的方法能准确地识别钢轨波磨在线路上出现的位置,但还不能识别钢轨波磨的波长和波磨的严重程度,这有待于下一步研究。
1)构建的前4层小卷积核、第五层大卷积核网络模型可不依赖于人工特征提取与专家经验,直接作用于原始振动频域信号,能“端到端”地对钢轨波磨进行状态识别。
2)该1-DCNN 具有较强的泛化能力和鲁棒特性,即使在复杂的现场运营条件和列车速度时变工况下,仍然保持较高的钢轨波磨识别精度,稳定在99.20%(标准差为0.1)。对每一条样本的识别时间均少于0.2 ms,满足钢轨波磨在线监测的时效性要求。