张恒志,蒋雨良
(1.中车青岛四方机车车辆股份有限公司,山东 青岛266109;2.西南交通大学机械工程学院,四川 成都610031)
时间序列是各领域内都十分常见的数据形式,考虑到趋势、状态预测的重要意义,针对时间序列的预测、异常检测已有不同程度的发展[1]。轴承是轨道车辆重要的旋转部件,随着列车在交路中运行,安装在车辆走行部上的各个轴承的温度传感器所采集温度呈现因各项激励而产生的不同变化[2]。异常的轴承温升表征轴承运行状态异常,监测分析轴承温度及相关数据能有效检测轴承异常,帮助找出温升相关因素,诊断轴承异常。基于轴承温度的时间序列变化趋势进行建模,尽可能地提前对轴承进行预警,提前诊断轴承是否故障,预防重大安全事故对列车运行安全具有重要意义[3]。
传统机器学习方法,如逐步线性回归[4]、支持向量机[5]等方法在列车履历数据上的应用具有良好的预测结果。深度学习由于其优秀的特征学习能力,在轴温预测领域引起了越来越多的关注。针对时间序列的预测模型也在逐步发展,从初始的循环神经网络[6-7](Recurrent Neural Networks,RNN)到使用双向、深度[8-9]的概念进一步增加网络的性能再到已在文本识别、时间序列预测方面普遍使用的长短时记忆[10](Long Short-Term Memory networks,LSTM)、门控循环单元[11](Gated Recurrent Unit networks,GRU)的提出,此类网络的实质上均是一个基于马尔科夫决策过程的递推框架。深度学习作为前沿的机器学习技术,如运用LSTM 建立短时机车轴温预测模型[12],能达到比传统机器学习方法更优的效果。
Google 所提出的Transformer 深度学习模型[13],抛弃了逐步递推的方式,使用注意力机制作为基础,在机器翻译领域能够达到更优效果。但单纯的注意力机制计算复杂程度很高,这使得长序列模型中的显存占用量和计算时间居高不下。
有鉴于此,本文提出基于稀疏注意力机制的城轨车辆轴温预测模型。运用稀疏的特性改进注意力机制,降低计算复杂度和显存占用量,将诊断流程分为线下训练、在线预测和故障诊断三个步骤。首先训练一个轴承的模型,将该轴承的模型迁移到其他轴承上,再将改进后的注意力网络模型运用在城轨车辆上对轴承温度进行预测,该模型能够在长时间序列输入上达到更优的精度,并能够预测轴承的温度变化。
稀疏是结合了空洞(Atrous)和局部(Local)的概念。空洞源于空洞卷积(Atrous Convolution),对数据的相关性进行了约束,要求在自注意力的相关性计算过程中,每个输入元素只能和它的相对距离为d(设定值)倍数的元素关联;局部则是放弃了全局的关联,只和输入元素前后距离为d的元素关联。稀疏结合了两者的概念,针对距离小于等于d的元素采用了局部注意力的方式,针对相对距离为不为1d,2d,…的元素,则将注意力置为0,因此,稀疏注意力能够结合空洞和局部两者的优势,既考虑了局部关联,又对全局关联做出了改进,三种方式注意力对比如图1 所示。
注意力的一般公式为:
图1 各类注意力对比
在轴温预测模型中,输入为时间序列,为了对未来时间进行遮挡,不让网络使用未来的信息作为输入预知未来,对注意力矩阵进行处理,公式为:
在式(2)中,M表示对矩阵进行Mask 掩码编译,将整个上三角阵元素置为-∞,轴温预测模型中稀疏注意力的矩阵形式如图2 所示,涂黑的方块表示未来的信息,对角一列表示输入数据,白色的方块表示注意力置为0。
图2 稀疏注意力矩阵
迁移学习是把已经训练好的模型的参数迁移到新的数据来帮助新模型训练的学习方式。考虑到大部分的数据或任务是存在相关性的,所以通过迁移学习可以将已经学习到的模型参数分享给新的模型,从而加快优化模型的学习效率而不用从零开始。
fine-tune 是进行迁移学习的一种手段。由于训练多个模型所消耗的时间太长、计算资源不足时,无法重头开始训练一个效果良好的模型。于是通过迁移学习,将一个网络的前几层参数保持不变,因为前几层为主要提取特征。
因此,我们也可以把这几层当作特征提取器,保持原有的权重不变,提取现有的特征。考虑到轴承均处于车辆的走行部,包括齿轮箱、轴箱、电机等多个测点,承受相似的工况与激励,将模型进行迁移,可大程度缩短训练所需时间,因此建立完第一个模型后,固定前几层权重,调小学习率和迭代次数,只训练最后一层,逐个训练模型,完成对城轨车辆的轴温预测。
预测流程的构建包括线下训练、在线预测和故障诊断三个部分,基于稀疏注意力机制的轴温预测模型能够保持对长时间序列的注意力,因此本文所构建的模型输入为一个多维时间序列,输出为未来一段时间内的轴承温度值,整个网络结构如图3 所示。
输入数据先经过隐层进行编码,再输入稀疏注意力进行注意力分配,最后结合注意力输出,再次编码得到结果。网络为回归任务,使用MAPE作为网络的损失函数,其公式为:
式(3)中:MAPE的取值为[0,+∞],如果值为0 表示模型为完美模型,值越大则表示精度越低;n为样本数量;为预测值;yi为实际值。
图4 为整个诊断流程,线下训练时,我们使用线下的数据,先对数据进行预处理,包括对缺失值进行中位数填充、对跳变值进行平滑处理以及将整个输入进行归一化到[0,1]进行无量纲处理三个部分。处理好的数据划分成训练集和验证集,按照网络结构要求输入网络进行模型训练,完成对首个轴承的网络训练后,降低学习率和迭代次数,逐个迁移到其他轴承上,完成对城轨车辆所有轴承温度测点的建模,并完成线下训练过程。
线下将网络全部训练完成后,在线预测时会逐个使用网络,在线数据经车载系统传回后,对数据同样进行预处理,并运用网络进行预测,所预测的未来温度结果会保存下来,并在未来的实际温度值传回后进行对比。对于正常结果,会再次等待车载系统传回数据进行下一次对比;而异常结果会先定位到故障位置,要求车辆停车检查,直至找到故障原因,排除故障才能继续运行。
图4 诊断流程
采用某型城轨车辆的运行数据作为数据集。为了模拟实际运行环境以及线上线下交互的运用模式,先将数据进行拆分,大部分数据作为线下训练的本地数据,进行训练和验证完成对网络的构建,一小部分数据模拟在线预测的情况,以测试网络模型的精度。车轴不同位置的温度取决于许多因素,例如城轨车辆的物理状态(包括行驶速度和牵引力水平)、路径特性(包括高度和坡度)、环境温度和其他环境参数以及来自各种来源的干扰。选择其中的一些主要参数,并从部署在机车不同位置的数据传感器收集时间序列数据。
本文所选择的数据特征包括城轨车辆的运行速度、环境温度、各个轴上轴承测点温度。如图5 所示为各个数据特征的走势。
图5 城轨车辆数据集
本文设置学习率为0.001,迁移学习率为0.000 1,使用Adam 优化器进行优化,迭代次数为1 000 次,迁移迭代次数为500 次,batch-size 为64,设置输入长度为300,输出长度为30,稀疏注意力设定值d为5,所有实验配置环境为Tensorflow 1.10.0、Keras 2.2.0 以及Python 3.6.2 进行实验,使用操作系统Windows10、CPU Intel 7-8550U@1.80GHz、GPU NVIDIA GeForce GTX 1050、内存16G DDR4 的计算平台进行建模。
为了验证稀疏注意力模型能够处理更长的时间序列,设置3 组对比组,分别输入输出长度为100、200、300,并将RNN、LSTM 与稀疏注意力一同进行对比,对比结果如图6所示。
图6 序列长度影响精度结果
对结果进行分析:RNN 作为最初始的循环神经网络,随着序列长度逐渐增加,MAPE也逐渐增加,精度降低,说明随着序列长度增加循环神经网络的记忆能力逐渐降低;LSTM 在RNN 网络的基础上引入了门机制,随着序列长度的增加,LSTM 的记忆能力仍然会降低,但整体精度会高于RNN;稀疏注意力机制随着序列长度的增加,能够运用稀疏的特性记忆更长的序列,验证结果表明,整个模型的精度在序列长度增加后得到进一步提升。
按照3.1 所设定的超参数,先对第一个轴承进行建模后迁移到其他轴承上,以轴箱轴承作为初始建模对象,逐个迁移到齿轮箱、电机的轴承。
迁移的效果如表1 所示。
表1 迁移前后精度
将轴箱轴承作为首先选用的轴承进行训练,训练后的模型先在未迁移的情况下对其他轴承进行了测试,通过MAPE的评价指标可以看到,每个轴承需对应不同的模型,单个轴承的模型应用到其他类型的轴承会使得精度降低。将模型按照设定的迭代次数和精度进行了迁移,迁移后各个轴承均有各自的模型,因此模型数量增加,同时精度均得到了提升。图7 展示的是稀疏注意力模型所预测的结果,本文所构建的稀疏注意力机制模型能够预测未来30 min 的温度变化情况,具有能够捕捉温度变化的能力。
图7 预测结果
温度预测可用于预测城轨车辆的轴承温度,本文基于稀疏注意力机制模型,开发了城轨车辆的轴承温度预测框架,预测结果表明该模型基于输入的多维时间序列能够捕获车轴温度,预测模型的有效性在城轨车辆的实际运行数据上得到验证。在RNN、LSTM 上进行序列长度的对比,验证了稀疏注意力机制能够运用稀疏的特性在长序列上捕捉到更多的信息并且不会出现记忆能力的降低。