李伟贺 陈志军 郑建军
(新疆大学电气工程学院,乌鲁木齐 830047)
电梯属于特种设备,其结构复杂、可靠性要求高,国家对其质量和安全提出了严格的要求,电梯故障诊断技术成为了电梯行业技术改造的重心之一。电梯发生故障时轻则可能会造成财产损失,重则造成人员伤亡,所以电梯的安全问题变得尤为重要。统计表明,电梯事故占重大特种设备事故总数的21%,电梯运行的安全问题已经引起社会大众的广泛关注,据对运行了5~10年的电梯进行故障统计,一部电梯平均每年发生36.5次机械、电气等一般故障,以及33次冲顶、夹人等对设备和人身安全危害较大的事故[1],电梯的安全问题受到社会的广泛关注。
电梯是一种高维、强非线性和强耦合的特殊机电设备,其故障具有突发性、多样性、不确定性、并存性及渐进性等特点,难以使用物理和数学模型准确描述故障部位和原因,而且在实际中不可能采集各种电梯的所有特征信号,多年来国内外学者对其故障诊断进行了研究并提出了多种故障诊断算法。Niu G等为了实时、快速诊断电梯曳引机故障,使用了贝叶斯理论决策融合多个智能分类器的诊断结果,有效调高了故障诊断的准确率,在实践中取得了较好的效果[2]。针对电梯系统复杂、难以建模和具有离散时间动态系统的典型特征,宗群等采用了随机自动机的离散事件动态系统(DEDS)故障诊断方法、BP神经网络及神经网络模糊Petri(FFPTN)模型等方法,完成了对电梯门系统的故障诊断[3]。但神经网络属于传统统计学方法中的样本数目无穷大渐进理论,在实际中对复杂机械设备故障诊断时,需要大量的故障数据,这在实际应用中是很困难的,从而制约了神经网络在智能故障诊断中的进一步应用与发展[4]。因电梯制动器失效而引发电梯伤人事件,针对电梯制动器故障特点,Wang P等将小波包变换和支持向量机相结合应用于电梯制动器故障诊断,有效实现了电梯制动器的状态监测和故障诊断[5]。SVM(Support Vector Machine)采用结构风险最小化原则,具有很强的泛化能力,克服了神经网络学习方法中网络结构难以确定、收敛速度慢、过学习与欠学习以及训练时需要大量数据样本等缺点,但其模型参数的选择影响了模型学习能力和最终诊断准确率[6,7]。
针对上述问题,笔者利用核主元成分分析在高维空间具有较强的特征选取能力和随机森林优秀的故障辨识能力,通过核主元成分分析法将原始特征样本映射到高维特征空间提取主元,构造新的特征样本,再利用随机森林模型进行电梯急停故障诊断。
核主成分分析(KPCA)是线性主成分分析(PCA)的非线性扩展算法,采用非线性的方法抽取主成分,即KPCA是通过映射函数Φ:Rm→F把原始向量x映射到高维空间F,在F上进行PCA分析。KPCA不仅适合于解决非线性特征提取问题,而且它还能比PCA提供更多的特征数目和更高的特征质量。
对于给定的样本x1,x2,…,xN∈Rm,通过非线性映射函数Φ映射到高维特征空间F,Φ(xi)的协方差矩阵为:
(1)
其中C为协方差矩阵,对C进行特征值分解,得到:
λV=CV
(2)
式中λ、V——C的特征值矩阵和特征向量。
特征向量V∈span{Φ(x1),Φ(x2),…,Φ(xN)},存在a1,…,an,使得:
(3)
其中ai为常系数。定义核矩阵K和核函数为:
(4)
将式(3)、(4)代入式(1),将求特征向量V转化为求核矩阵K的特征值和特征向量:
Nλa=Ka
(5)
设ak表示λk对应的特征向量,样本Φ(x)在F中vk方向的投影为:
(6)
决策树分为分类树与回归树,顾名思义,一个用于分类,一个用于回归。此处从模式识别的角度阐述决策树的分类功能。决策树可以视为一个树状预测模型,它是由节点和有向边组成的层次结构,如图1所示。树中包含3个节点:根节点、内部节点、叶节点。决策树只有一个根节点,是全体训练集的集合。树中的每个内部节点都是一个分裂问题,它将到达该节点的样本按某个特定的属性进行分割,可以将数据集合分割成两块或若干块。每个叶节点是带有分裂标签的数据集合,从决策树的根节点到叶节点的每一条路径都形成一个类;决策树的算法很多,例如ID3算法及CART(Classification and Regression Tree)算法等。这些算法均采用自上而下的贪婪算法,每个内部节点选择分类效果最好的属性进行分裂节点,可以分为两个或若干个子节点,继续此过程,直到这棵决策树能够将全部训练样本准确分类,或所有属性都被用尽为止。
图1 决策树分类原理
随机森林是Leo Breiman于2001年提出来的,是结合Breimans 的“Bootstrap aggregating”和Ho的“random subspace method”思想建造多个决策树的分类器。建立随机森林的基本思想是:通过自助法(bootstrap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。因此随机森林具有很高的分类准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。
随机森林作为一种非线性建模工具,目前广泛运用于数据挖掘、生物信息学(医学诊断)及经济金融等领域。近年来,随机森林在故障诊断领域也开始崭露头角。Yang B S等将随机森林与遗传算法相结合应用于电机故障诊断,并将该方法分别与采用SVM、ART-KNN和CART的诊断结果进行对比,结果表明:随机森林诊断速度更快,精度更高[8]。胡青等将KPCA-RF模型成功运用于变压器故障诊断,诊断结果表明:随机森林诊断效果理想,而且抗干扰能力强[9]。
随机森林具有以下优点:
a. 只有3个参数,使用默认的参数即可得到很好的效果;
b. 能够对特征的的重要性定量判断,有利于进行特征选择操作;
c. 运行速度非常快,避免过拟合问题,分类精度高,稳定性好;
d. 能够处理部分数据丢失问题;
e. 随机森林保留了多值分类的特性,适合处理多值分类问题[10]。
随机森林算法实现步骤为:
a. 采用bootstrap重采样技术从原始数据集中抽取ntree个训练集,每个训练集的大小约为原始数据集的2/3。
b. 为每一个bootstrap训练集分别建立CART,共产生ntree棵决策树构成一片“森林”,这些决策树均不进行剪枝。在每棵树生长过程中,并不选择全部M个属性中的最优属性作为内部节点进行分裂,而是从随机选择的mtry≤M个属性中选择最优属性进行分裂。
c. 集合ntree棵决策树的预测结果,采用投票的方式决定新样本的类别。
随机森林在训练过程中的每次bootstrap抽样,将有约1/3的数据未被抽中,这部分数据被称为袋外(out-of-bag)数据。随机森林利用这部分数据进行内部的误差估计,产生OOB误差(out-of-bag error)。Breiman通过实验证明:OOB误差是无偏估计,近似于交叉验证得到的误差。
利用核主元成分分析方法对特征样本进行降维处理,消除特征之间的相关性,提取达到需要的累积贡献率主元特征,再利用随机森林对提取的主元进行电梯急停故障诊断。基于KPCA-RF模型的电梯急停故障诊断具体步骤为:
a. 对特征样本进行归一化处理,归一到[0,1]之间,以消除量纲影响,有助于加快诊断模型训练速度。归一化公式为:y=(ymax-ymin)·(x-xmin)/(xmax-xmin)+ymin。
b. 实际采样时可能引入一定的噪声,为了检验模型的抗干扰能力,对采样特征样本加入随机噪声。设D1为加入噪声前的试验特征样本矩阵,加入噪声后的试验特征样本矩阵D2(i,j)=D1(i,j)×[1+α×rands(1)],噪声控制系数α=0.0、0.2、0.5、0.8;rands(1)用于生成-1~1的随机函数。
c. 利用公式(1)~(6)进行核主元选取,并确定核主元数量,得到新的特征样本矩阵D3。
d. 选择适当的RF模型参数:树节点预选的变量个数mtry和随机森林中决策树的个数ntree,使用训练集训练RF模型,完成RF模型的建立。
e. 使用测试集检验训练好的RF模型,并适当调整相关参数。
f. 使用建立好的KPCA-RF模型进行故障诊断。
笔者采用加州大学的UCI机器学习数据库Wine数据集(该数据集包含3种不同品质葡萄酒,共178组样本,每个样本包含13个特征),来验证KPCA-RF模型的分类性能。其中特征样本的降维结果如图2所示。
图2 KPCA进行特征样本降维结果
由图2可知,使用KPCA能够有效对特征样本进行降维,其中降维后的前8个主元的累积贡献率就高达90%,所以取前8个主成分取代初始样本集,作为随机森林的输入。从图3分类正确率随KPCA主元个数变化曲线可明显看出,特征向量的主元个数为8时,达到最优的诊断准确率96%。在最优主元个数附近,当减小主元个数时,引起信息丢失,从而导致识别率下降;当增大主元个数时,识别率也会下降,因为提取的更多特征中包含冗余的信息,从而导致分类性能的恶化,因此,KPCA有助于消除特征样本的非线性,提取有效特征样本,提高分类器分类速度。
图3 分类正确率随KPCA主元个数变化曲线
由图4 KPCA-RF模型的预测分类结果可知,在90组测试样本中,只有两组未能正确识别,KPCA-RA模型识别准确率高达97.8%。
图4 基于KPCA-RF模型的预测分类结果
为了验证KPCA-RF诊断模型的鲁棒性、快速性和诊断准确率,将KPCA-RF与BPNN、SVM、LSSVM分别进行电梯急停故障诊断对比实验研究。
在以上理论基础之上,进行实验验证。以33个正常样本和7个故障样本作为训练样本,取另外任意8个作为测试样本(包括5个正常和3个故障)。其中,特征样本是以最优小波包技术和时域特征提取的9个特征参数,时域特征量为4个(即Z向的峭度、X和Y向的峰峰值,曳引机温度),频特征量为5个小波包能量谱,经归一化处理后作为KPCA-RF模型的输入量,输出量为电梯轿厢急停状态评估结果。
评估实验结果见表1,在运行速度上,KPCA-RF性能与BPNN相当,在评估准确率上,KPCA-RF性能与SVM相当。模型的评估准确率受到噪声控制系数α影响,当特征样本数据中不包含噪声(α=0)或噪声较小(α=0.2)时,4种模型均能达到很高的评估准确率。当特征样本数据噪声较大(α=0.5、0.8)时,4种模型的评估准确率均出现下降,但KPCA-RF模型评估准确率下降幅度不大,显示出KPCA-RF模型具有更好的鲁棒性和更高的稳定性。
表1 故障诊断结果对比
采用基于核主元成分分析和随机森林算法相结合的电梯急停故障诊断的新方法,具有较高的评估准确率。仿真结果表明,在有噪声干扰的情况下,采用KPCA-RF模型进行电梯急停故障诊断,在抗干扰能力及故障诊断准确率等方面有明显的优势,在实际工程应用中有很高的应用和参考价值。