陈国成,张 建,菅光雷
(山东里能鲁西矿业有限公司,山东 济宁272000)
轴承故障诊断是航空航天、工程机械和轨道交通等众多领域的研究热点之一。轴承故障往往会对机械设备的健康状态产生直接影响,如果故障不能被及时检测出来,很容易使整个机械系统崩溃并造成财产损失,甚至产生人员伤亡。由于当今高端装备机械各种工况干扰和结构的复杂性,对其进行有效的机器健康监测研究具有非常大的挑战性[1]。同时,在机械设备长时间运行后,会收集大量的实时监测数据,使机器健康监测领域进入了机械大数据时代[2]。
深度学习试图通过建立深度神经网络(Deep neural network,DNN)结构,经叠加多层信息处理模块,对大规模数据的高层表示进行建模,并预测模式[2]。近年来,深度学习受到了计算机视觉[3]、语音处理[4]、人脸识别[5]等各个领域研究人员的广泛关注。与浅层机器学习方法相比,深度学习从直观上看似乎是一种从输入数据到输出数据的转换。因此,下一层网络能学习上一层数据新的表示,多层网络叠加的框架能从输入数据中提取到更具鲁棒性的特征[6]。近年来,许多研究者成功地将DNN 应用于机械健康监测中。雷亚国等[7]构建了基于频域特征提取的5 层堆叠自动编码器(Stacked Autoencoders,SAE)DNN,用于旋转机械故障诊断。王金瑞等[8]提出了批量标准化的DNN,实现了机械信号特征的快速提取与精确诊断。罗金等[9]提出了通过集成经验模态分解对轴承信号进行处理,再输入SAE 实现故障诊断的方法。Lu等[10]研究了一种多层去噪自编码器的DNN方法,用于包含环境噪声和交叉工况信号的故障诊断。
通过文献综述可以看出,DNN作为一种深度学习算法在机械健康监测方面尤为有效。本文利用基于SAE和Softmax回归[11]的DNN方法实现轴承的智能故障诊断。采用机械信号的频谱数据为SAE 的输入,随后采用Softmax 回归作为DNN 的最后一层实现轴承故障类型的分类。使用频谱的主要原因是频谱能够反映出离散频率下信号的本构分量分布,并且更加清晰地反映旋转机械的状态信息[7]。此外,为防止模型在测试过程中产生过拟合现象,选用L1正则化来约束SAE的学习能力。
本文组织如下:第1 节简要介绍堆叠式自动编码器和Softmax 回归算法。第2 节详细介绍所提方法的内容。第3 节以轴承故障数据集开展实验,验证了提方法的准确性。并与其他方法比较,说明所提方法的优越性。最后,在第4节中得出结论。
SAE 网络是AE 的堆叠结构,AE 属于无监督学习的机器学习框架,由输入层、隐含层和输出层组成,结构如图1所示。Bengio 等[12]曾将其作为DNN的通用成分进行研究。AE 训练的过程包括两个部分:编码和解码。编码用于将输入数据映射为隐藏表示,解码用于根据隐藏表示重建输入数据。其中,xn为输入数据集,hm表示由其中计算出的隐层编码器向量,rn为输出层的解码器向量。W1和W2表示相邻层间的权重矩阵。编码过程如下:
图1 自动编码器
其中:fθ表示编码函数。b1表示编码的偏置向量。
解码过程如下:
其中:gθ表示解码函数,b2表示解码的偏置向量。
随后对自动编码器的参数集进行优化,使重构误差最小化:
其中:L表示损失函数,L(x,r)= ‖x-r‖2。
虽然自动编码器能够实现特征自动提取,但是其在测试过程中容易出现过拟合。为此,本文对自动编码器增加正则化策略,以此增强其的泛化能力,改善模型在测试集上的表现。
L1正则化[13]是指权值向量w中各个元素的绝对值之和,L1正则化可以利用其特征选择能力产生较稀疏的解而仅需求解一个凸优化问题,与拉普拉斯先验是一致的,可以产生稀疏权值矩阵,即产生一个稀疏模型用于特征选择。通过向目标函数增加额外项来对参数值进行软约束,即:
在此L1正则化除了可以约束数量级外,还能使提取的特征更加稀疏,稀疏化的结果使优化后的学习特征一部分为0,另一部分为非零实值。非零实值的那部分学习特征可起到选择重要参数或特征维度的作用,同时可起到去除噪声的效果。
DNN的预训练是用无监督分层学习算法将n个AE堆叠成n个神经网络层,然后用有监督的方法进行微调。把前一层网络提取的特征当成下一层网络的输入,然后再循环重复此过程到整个网络训练结束,如图2所示。因此,基于SAE 建立的DNN 方法可分为以下四个步骤:
图2 基于SAE的DNN
(1)通过输入数据集训练AE,得到学习的特征向量{h1,h2,…,hm};
(2)采用{}h1,h2,…,hm作为下一个AE 的输入,并通过分层训练的形式到最后一个隐藏层;
(3)采用Softmax 作为网络最后一层的分类器,对轴承的故障类型进行分类;
(4)在对所有隐层进行训练后,利用反向传播算法最小化代价函数并更新权值,实现DNN的参数微调。
Softmax回归是在Logistic回归的基础上对多分类[14]的延伸。模型的结构如图3所示。它是一种监督学习算法,不仅需要输入数据,还需要模型对应的标签集。
图3 Softmax回归
给出一个训练集{(x1,y1),…,(xm,ym)}包含m个样本,其中xi∈ℜN×1及其标签集yi∈{1,2,…,k}。p(yi=j|x)表示每个xi的概率。假设函数是对每个类别p(yi=j|x)的概率进行估计。最后得出输出hθ(xi)的k维向量:
其中:θ1,θ2,…,θk表示模型参数。将分布归一化,以确保p(yi=j|x)总和等于1。
为方便起见,1{⋅}表示指示函数。例如1{true}=1,1{false}=0。所以,Softmax的成本函数如下:
其中:m表示训练样本个数,k表示类别个数,λ为权重衰减项,用于惩罚值较大的参数,并经全局优化得到更高准确率。
在这节中详细描述机械信号的自动特征提取方法,提出方法的流程图如图4所示。
图4 所提方法框架
具体步骤如下所述:
(1)采用原始振动信号的频谱作为训练样本,并组成训练样本集{xi,li}M i=1,其中M是样本个数,xj∈ℜNin×1是第i个样本包含Nin个数据点,li是样本xi的标签。
(2)将样本集组成一个矩阵形式T∈Nin×M,然后将其输入到DNN模型中进行训练,通过最小化目标函数以获得权重矩阵W。
(3)学习特征f i∈ℜNout×1通过W由xi计算并经激活函数映射而得。
实验采用一个特殊设计的轴承故障植入试验台进行振动信号采集[15],试验台结构如图5所示。实验设备主要包括:电动机、联轴器、转盘、轴承座、齿轮箱和制动器等。电机转速为1 500 r/min,在轴承座表面安装三向振动加速度传感器,采样频率设置为12.8 kHz。共设计5种不同的轴承健康状况:正常状况、内圈故障、外圈故障、滚柱故障、外圈与滚柱复合故障,如图6所示。每个样本取2 400 个数据点,每种健康状况采集200 个样本,总共1 000 个样本数。然后采用快速傅里叶变换将时域信号转换为频谱,每个样本得到1 200 个傅里叶系数。轴承各类型故障信号细节如图7所示。可以看出无论从时域还是频域都很难区分出不同的故障类型。尤其是正常与内圈故障、滚柱与复合故障之间,几乎看不出较为明显的区别特征。另外大量的样本需要区分,导致手动特征提取的困难。
图5 轴承故障植入试验台
图6 轴承故障类型
图7 轴承故障信号特征
在本节中,使用提出方法来处理轴承故障植入试验台测得的5 种轴承健康状态数据。首先,随机选取每种健康状况下50%的样本来训练基于SAE建立的DNN 模型。参考文献[16]中的网络设置,模型第一层的输入维数即为频谱的傅里叶系数维数1 200,随后每个SAE隐层通过降维的原则设置神经元个数,依次为600、200、100。输出维度为Softmax分类器设定的类别数5。L1正则化参数为1×10-5,学习率为1×10-3,动量为0.05,激活函数选用Sigmoid函数,网络每层的迭代步数设为100。
为了显示所提方法的优越性,采用文献[16]中建立的DNN模型进行对比,该方法同样采用SAE建立DNN 模型,并且网络结构和参数保持一致,不同点为此方法未对SAE添加L1正则化,以此对比所提的网络正则化方法对模型测试的有效性。同时,为了消除随机性给实验结果带来的误差影响,对两种方法分别进行15次试验,得到每次试验的测试准确率如图8所示。
图8 测试准确率对比图
可以很清晰地看出,每次试验中所提方法的测试准确率均明显优于对比方法,并且所提方法的准确率波动情况也小于对比方法,故可得所提方法的稳定性也较高。通过计算得出两个方法的平均测试准确率为98.93%和92.64%,可以看出所提方法高于对比方法6个百分点。
图9为第15次试验中两种方法的训练误差迭代曲线。可以看出,对比方法在初始阶段误差就较大,在迭代过程中训练误差出现轻微波动,且未收敛到0值附近。而提出方法的误差曲线从初始位置就在较低的0.55开始很平稳的进行收敛,并且在80步左右便收敛到了0值附近。由此可以看出所提方法能够更快地训练到网络最优实现收敛。
图9 网络迭代对比图
为更直观地展示所提方法的有效性,采用t-SNE[17]对经两种方法学习的高维特征向量做降维处理进行可视化研究。在此,将通过SAE 隐层提取的所有轴承健康状况100 维的特征向量经t-SNE 降维成二维向量,并采用二维散点图的形式展示在同一平面内,以观察两个方法对轴承样本的分类效果。取第15次试验得到的降维结果如图10所示。
从图10(a)可以看出所提方法能够把不同轴承健康状况类型的样本完美地分开,相同轴承健康状况类型的样本都聚集在了一起。同时,各个轴承健康状况类型间的距离都足够大到可以区分不同的类型模式。相比之下,图10(b)展示的对比方法的降维结果相对较差,仅把正常和内圈故障轴承样本完好地区分开,而外圈、滚柱和复合故障的轴承样本均产生明显的混叠现象,且有多个样本没有聚集到相应的类型样本群中。
图10 降维结果对比图
通过以上对比分析可以看出,所提方法无论是在测试准确率和降维表现上均明显优于对比方法,由此显示出所提方法在处理轴承故障诊断问题上的有效性。
本文提出了一种基于叠加自动编码器的深度神经网络构建方法,并成功地应用在轴承的智能故障诊断研究中,得到如下结论:
(1)将多个自动编码器经逐层叠加能够建立深度神经网络,实现对轴承频谱信号的逐层特征提取和分类。
(2)采用L1正则化可以约束深度神经网络的学习能力,减少网络的过拟合问题,提高模型的测试准确率。
(3)通过一组轴承故障实验数据验证,所提方法在测试准确率、训练迭代和降维表现上均明显优于对比方法,说明了所提方法的有效性。