基于马尔可夫链的自适应性神经网络训练算法*

2014-12-10 05:38莫红枝

电子技术应用 2014年10期

莫红枝

（玉林师范学院教育技术中心，广西玉林 537000）

0 引言

神经网络算法是一种非线性计算模型，近年来成为模式识别中常用的工具之一。在多层神经网络中，系统的性能不仅受到隐含层数、隐含层神经元数量的影响，而且还与激励函数的选取和训练算法直接相关。

在目前的研究中，采用最为广泛的为S型激励函数[1-2]，S型函数容易减慢网络的收敛速度，甚至可能导致陷入局部最小值[3]。针对这一问题，近几年采用自适应激励函数对神经元输入的加权和进行计算已经成为一种趋势，并应用于股票预测[4]、文字识别[5]等方面。本文针对常见的S型函数,改进了自适应性激励函数神经网络系统框架，提出基于马尔可夫链的学习算法，并将其应用到故障诊断领域，取得了比较好的实验结果。

1 自适应性神经网络

1.1 多层神经网络

多层神经网络一般包括一个输入层、一个输出层、一个或者多个隐藏层。隐藏层每一层网络中都包含多个神经元，对每个神经元的输入都是由上一层输出的加权和，例如对于第n组样本数据，第k层上的第j个神经元的输入可以通过计算上一层的加权和来计算，计算公式为：

其中，wkji表示上一层网络中的第i个神经元对于第k层上的第j个神经元之间的权重值。yki(n)表示第 k层网络上第i个神经元的输出值。当k=1时，表示该层为输入层，其输出值就是对于整个神经网络的输入值，即y1i(n)=xi(n)，神经元的输出由输入经过激励函数计算得到，即：

其中，φkj表示第k层第j个神经元的激励函数。为了增加神经网络算法的非线性映射能力，隐含层的激励函数可以选取非线性函数，常见的包括双正切函数和S型函数。输出层上神经元的输出就是整个神经网络系统的输出。为了获得最优的权重值，需要对神经网络进行训练。在给定训练样本后，对神经网络进行训练过程的实质是不断调整权重值，使神经网络计算的输出值与理论上的输出值之间的误差最小，即：

其中，din和 yin分别为第i个神经元上真实情况下的输出值和实际计算结果的输出值，N为训练样本的个数。

1.2 激励函数

本文以传统的三层神经网络结构，设计出基于改进的S函数的自适应性神经网络。其特点在于隐含层的激励函数不再是固定的函数，而是包含了可变参数的激励函数，这种神经网络系统框架如图1所示。其中输入层的神经元数量由选取的特征的个数决定(1，2，…，N)，输出层神经元个数为 4 个（S1，S2，S3，S4），隐含层神经元的输入是输入层各个神经元输出的加权和，并采用了自适应性的激励函数对隐含层的输入进行计算(I1，I2…Ik)。计算结果通过加权求和作为输出层的输入。在输入层并未采用任何激励函数，输出层采用经典的S型激励函数，如：

式（4）由S型函数演化而来，是一种常用的自适应性激励函数，式中的α和β为可变参数。虽然该函数已经应用到神经网络算法中，却很少有文献将其应用在解决机械设备故障分类问题中。

图1 多层神经网络算法系统架构

2 基于马尔可夫链的训练算法

2.1 算法描述

样本训练即是在给定一定数量的样本时，利用式(3)对所有的权重进行最优化估计的过程[6-7]。当样本数据中含有噪声时，会造成程序鲁棒性很差，给传统的训练方法带来困难，本文假设式(3)中的误差服从于高斯分布，然后根据后验概率构造出马尔可夫链，完成对权重的训练，可以有效避免噪声对训练结果造成的影响，具有收敛速度快的优势。假设样本中含有噪声，因此实际输出与理想输出之间的关系为：

式(5)的含义是对权重和自适应性参数进行估计，首先建立出的最大似然估计为：

其中 θ={w，α，β}为要估计的参数向量，xi为第 i个含噪样本。根据Hammersley-Clifford理论，在给定样本X时，利用条件分布 pi(θi|θ{j≠i}，X，E)可以从联合分布 p(θ|X，E)中产生足够的点，趋近使得误差E最小的最小二乘估计值。因此本文通过条件分布不断调整权重和可变参数的值，使其得到训练：

假设样本数据中的噪声符合正态分布，则：

因此：

在得到θ的条件分布后，则各个权重及可变参数可以通过以下的算法进行更新。

算法一：

输入：样本 X，迭代次数 I，初始值 θ(0)={w0，α0，β0}

从上面算法可以看到，通过不断对各个参数进行更新，形成了马尔可夫链，最终可以得到最小二乘估计。

2.2 参数分析

下面以式（4）为例给出条件分布的计算公式：

（1）对于权重 wk

求取其分布时只需要将其他变量看作固定值，则可以得到其分布：

算法二：

第二步：u～U(0，1)

第三步：wk～(wk)

图2 正常轴承振动信号

（2）对于参数 α

通过简单的推导可以得出参数α的条件分布仍然服从于正态分布：

（3）对于参数 β

式（12）中的概率也是很难处理的，为简化程序，同样采用拒绝性采样算法对β进行更新。

3 实验结果仿真

3.1 数据准备

为对神经网络性能进行验证，利用本文设计的自适应性神经网络设计出了分类器，应用于轴承故障诊断当中。选取的样本数据来自于美国凯斯西储大学股东轴承数据中心。轴承型号为SKF公司的6205-2RS型的深沟球轴承。考虑了4种轴承故障，分别为内圈单点故障、外圈点蚀及滚动体点蚀和正常工作信号。4种信号的波形分别如图2～图5所示。

训练样本空间总共选取了1 136个个体，每个个体包含512个采样点。通过小波分解提取出了20个小波系数作为分类器的输入。

3.2 训练结果

图3 滚动体点蚀振动信号

图4 内圈单点故障振动信号

图5 外圈点蚀故障振动信号

由于每段数据提取的特征个数为20个，因此将分类器的输入层神经元个数设置为了20个。通过实验得到了最佳的隐含层神经元数量。输出层神经元个数对应于4种故障，最终的神经网络架构和参数设置如表1所示。

表1 测试的神经网络架构及其参数设置

其中S-MPL代表了S型函数作为隐含层激励函数的神经网络系统。F1-MPL代表以式（4）中的函数作为激励函数的神经网络系统。对F1-MPL的训练过程如图6和图7所示。图6显示的是利用本文算法的训练过程，其中σ=0.5，初始值在 0～1之间随机生成。图 7展示了利用共轭梯度法作为训练算法的收敛过程。共轭梯度法是介于最速下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点，学习率选为1.2。

图6 本文算法训练过程

图7 共轭梯度算法训练过程

从图6和图7中的对比可以看出，利用本文提出的算法在第5次更新时就基本可以达到稳定，具有稳定性高、收敛速度快的特点。

3.3 分类结果

通过训练后两种神经网络对4类信号最终的分类结果如表2所示。

表2 神经网络算法的比较结果

其中样本个数一栏分别表示了4种类型的信号的样本个数，S-MPL、F1-MPL分别指的是通过 S-MPL网络和F1-MPL网络分类正确的4种信号的数目。因此可以计算出两种神经网络算法的分类精度如表3所示。

表3 分类器的分类精度比较结果

从表1中看出，本文的训练算法比传统固定型的S型函数更加耗时，这是由于将可变参数引入到激励函数中后，系统在训练时往往需要更多的运算。然而训练样本的收敛精度也有所提高，这表明了本文算法训练精度也更高，因此可以推测，自适应性的神经网络应用到其他问题当中时，比传统的神经网络更加容易搜索到全局最优值。

表2和表3证明了将本文的训练算法应用在解决滚动轴承故障诊断问题方面的优越性，取得了更高的分类精度。对于正常信号、滚动体点蚀振动信号、内圈单点故障信号、外圈点蚀故障信号的分类精度分别可以达到99.69%、99.15%、98.90%、99.67%，平均分类精度可以达到99.38%。

4 结论

本文对传统的S型激励函数进行了改进，提出一种自适应性的神经网络分类器；基于马尔可夫链对神经网络进行训练，提高了网络训练速度；最后，将该分类器应用到滚动轴承故障诊断问题中。结果证明，使用该分类器可以比传统的S型神经网络分类器获得更高的分类精度。

[1]唐贵基，范德功，胡爱军，等.基于小波包能量特征向量神经网络的旋转机械故障诊断[J].汽轮机技术，2006(3)：215-217.

[2]张来斌，崔厚玺，王朝晖，等.基于信息熵神经网络的风力发电机故障诊断方法研究[J].机械强度，2009(1)：132-135.

[3]BURSE K，YADAV R N，SHRIVASTAVA S C.Channel equalization using neural networks：a review[J].IEEE Transactions on Systems，Man，and Cybernetics Part C-Applications and Reviews，2010，40(3)：352-357.

[4]BILDIRICI M，ALP E A，ERSIN O O.TAR-cointegration neural network model：An empirical analysis of exchange rates and stock returns[J].Expert Systems with Applications，2010，37(1)：2-11.

[5]KANG M，PALMER-BROWN D.A modal learning adaptive function neural network applied to handwritten digit recognition[J].Information Sciences，2008，178(20)：3802-3812.

[6]滕辉.一种改进的神经网络学习算法研究[J].科技通报，2012(4)：97-98.

[7]郑绪枝，夏薇，雷靖.一种改进的Jacobi正交多项式的BP神经网络算法[J].云南大学学报(自然科学版)，2011(S2)：188-191.