往复压缩机相空间LDA模型在异常检测中的应用

2018-05-26 02:03波,张颖,于
机械设计与制造 2018年5期

马 波,张 颖,于 雷

1 引言

往复压缩机是流程工业重要设备之一,应用广泛,尤其在炼油、化工行业中起着至关重要的作用[1]。由于其结构复杂,振动激励源多,导致异常检测困难,重大事故频发。一旦发生故障,轻则影响生产,重则机毁人亡,因此对往复压缩机进行实时智能异常检测,保障机组健康运行,具有重大意义[2]。

传统检测方式主要采集往复压缩机振动信号,提取数据的一个或少数几个特征,设置特征报警门限,超过门限值认为发生异常[3]。而在实际生产过程中由于受到外界或自身偶然因素的影响,即使在正常工况下,振动波形的特征值也可能超过报警门限,导致错误报警等类似状况发生。因此,如何依据特征值变化,对设备运行状态做出更加全面可靠的评估,减少异常检测不及时、漏报、误报的问题,成为当前研究的难点。

相空间广泛应用于多个领域的状态监测和故障诊断。在数学与物理学中,相空间是一个用来表示系统所有可能状态的空间,系统每个可能的状态都有对应的相空间的点[4]。文献[5]中运用神经网络模型构建相空间实现大坝安全监控。针对不同的系统,运用不同的方法将数据映射入相空间,根据相空间中点的变化,可有效判断系统当前状态。基于相空间的往复压缩机预警方法一般采用 PCA(Principal Component Analysis)和 KPCA(Kernel Principal Component Analysis)将振动波形数据高维特征映射入相空间,根据相空间中点的变化,判断往复压缩机系统当前状态[6-7]。虽然这些方法取得了一定的效果,但是也存在一定的局限性:首先,往复压缩机振动数据具有非线性特征,用线性方法构造相空间分析非线性数据,会弱化方法的性能。其次,核方法在一定程度上能缓解非线性带来的影响,但是基于核的方法高度依赖于所选的核函数。因此用这些方法构造相空间进行往复压缩机异常检测,会使准确率下降。

随着机器学习发展,LDA(Latent Dirichlet Allocation)模型在多个领域得到越来越多的应用。文献[8]用主题模型实现了软件缺陷的分类。文献[9]提出一种基于传统LDA概率主题模型的文档聚类方法,实现了普通文本语料库和数字图书语料库的有效聚类。文献[10]用主题模型挖掘三峡工程中的学术相关问题。LDA广泛应用于非线性系统高维数据建模,只需要简单的数据表示形式就可以建立性能良好的模型,利用LDA模型将数据映射入相空间,根据相空间中点的变化判断机组运行状态,更适用于往复机系统异常检测。

本研究提出一种基于多特征融合的相空间LDA模型的异常检测方法。为全面涵盖波形特征信息,首先提取了振动波形的多个特征值,并对特征值进行预处理。然后,用LDA方法计算特征分量,构造相空间。最后,用JS(JensenShannondivergence)距离计算相空间的差异度。机组运行状态发生变化后,相空间也会发生相应的改变,根据相空间变化的差异度,判定机组是否发生异常。

2 基于多特征融合的LDA模型往复压缩机异常检测方法的研究

2.1 基于LDA模型的往复压缩机异常检测方法

基于LDA模型的往复压缩机异常智能诊断方法联合数据多种特征值,建立正常数据相空间,并预测当前运行数据相空间,计算二者差异度,依据差异度实现往复压缩机异常检测,流程,如图1所示。

图1 基于LDA模型的异常检测流程图Fig.1 Flow Chart of Anomaly Detection Based on LDA Model

具体步骤如下:

(1)特征提取及特征集预处理:提取多种特征值,对特征值进行归一化和离散化,得到离散化后的特征集。

(2)设定特征分量个数T:特征分量个数可依据经验进行设定,确定最优T的最简单的方法是用不同的T重复实验,当评价指标如困惑度、预料似然值、分类正确率等最优时认为此时的T是模型的最佳选择[11、13]。

(3)构造数据集:选择适当组数的离散化后的特征集作为一个数据集,一般至少8组。

(4)计算相空间:用机组24h的正常运行振动数据的数据集计算特征分量及对应的相空间Q1。

(5)预测实时运行数据集相空间:根据第五步计算得到的特征分量参数预测实时运行数据集的相空间Q2。

(6)用JS距离计算实时运行数据集和正常数据集相空间的差异度,并设定机组的报警线,使异常检测准确率最高。

(7)当机组JS距离超过报警线时,则报警,否则继续采样,持续监测。

2.2 特征提取及特征集预处理

当往复压缩机组发生异常时,振动数据会发生同步变化。振动波形数据量较大,为了实现往复压缩机异常检测,需从中提取具有代表性的特征。相较于传统异常检测特征提取方法,本研究提取信号的大量特征,保留了更多的故障征兆信息。提取特征,如图2所示。

图2特征值种类Fig.2 Characteristic Value Category

图2 中的特征构成一个特征集,对特征集预处理。特征集预处理主要包括特征值归一化和离散化。依据故障早期和晚期数据特征对数据进行离散化,每个特征可离散化为3个特征。将每个特征离散化的结果进行联合,得到一个离散化后的特征集。对部分离散化后的特征进行说明,如表1所示。

表1 特征说明Tab.1 Feature Description

2.3 基于LDA的相空间的构建

LDA(Latent Dirichelet Allociation)模型于 2003 年提出[11],该模型通过对隐形语义索引进行拓展得到三层贝叶斯概率模型,包含词项、主题和文档三层结构,是文档生成模型。其基本思想是把文档看成隐含主题的混合,而每个主题则表现为与该主题相关的词项的概率分布。基于同样的思想,将该模型引入往复压缩机异常检测,可认为,往复压缩机在不同的运行状态下,特征联合概率分布在相空间上的映射是不同的。

狄利克雷分布是多项分布,可以对离散集特征分布进行评价。假设随机变量X有k个可能状态(x1,x2,…,xk),对X多重采样服从狄利克雷分布。用X表示k个离散随机元素的评价结果。则 Xi表示第 i个特征值,其中集合为 D={X1=x1,X2=x2,…,Xk=xk}。设离散随机向量 γ={γ1,γ2,…,γk}表示 x的概率密度分布(1≤i≤k,Σki=1γi=1)。p(γ|ξ)表示给定知识背景下 γ 的概率密度函数。设离散随机变量 α={α1,α2,…,αk}表示 x 的观察值,这里称 α={α1,α2,…,αk}为x的超参数。γ的先验概率密度为:

式中:ξ—背景知识;α1,α2,…,αk都>0;记 γ|ξ~Dir(γ|α1,α2,…,αk)。

设定特征分量个数T,对T个特征分量计算先验概率密度后,得到当前状态在相空间中的点θ→=(p1,p2,…,pT)。

2.4 JS距离

由于数据集的相空间是数据集向相空间的简单映射,因此在数据集的相空间表示情况下,计算两个数据集的差异度可以通过计算与之对应的相空间的差异度实现,KL(Kullback-Leibler)距离可作为差异度量标准[12],KL距离如下所示:

当pj=qj时,DKL(p,q)=0,但是KL距离并不是对称的,因此常常使用其对称版本:

当λ=1/2时,上述公式转变为JS距离:

式中:P和q—机组实时运行数据映射到相空间中的点和正常工况数据映射到相空间中的点;T—设定的特征分量数。

以JS距离公式为标准来度量相空间之间的差异度,JS值越大则认为差异度越大。

3 基于LDA模型的往复压缩机异常智能诊断方法应用

以某石化往复压缩机活塞杆断裂故障为例对该方法进行验证。该机组十字头传感器布置方案,如图3所示。在往复压缩机每个缸体的十字头上方安装压电加速度传感器,通过采集的振动信号,监测阀片启闭过程或零部件断裂瞬间产生的冲击。该机组现场故障图片,如图4所示。该机组为4缸卧式往复压缩机,额定转速为333r/min。取该机组104组十字头正常振动波形数据作为学习样本,其中一组数据波形,如图5所示。计算数据特征集,对特征集归一化和离散化后,得到306个特征。依据数据处理结果,特征分量数为T=8时异常检测准确率和计算效率都较高,因此将特征分量种类设定为8,用正常数据训练得到的特征分量,如表2所示。用上述特征分量对正常和故障数据相空间分布进行计算和预测,正常数据和部分故障数据计算和预测得到的结果,如表3所示。

图3 往复压缩机十字头振动传感器测点布局图Fig.3 The Layout of Measuring Points of the Cross Vibration Sensor of Reciprocating Compressor

图4 活塞杆断裂故障Fig.4 Fracture Fault of Piston Rod

图5 正常数据波形Fig.5 Normal Data Waveform

表2 相空间模型特征分布计算结果Tab.2 Calculation Results of Phase Space Model Feature Distribution

表3 相空间分布预测结果Tab.3 Results of Phase Space Distribution

分别计算正常数据和异常数据相空间分布JS距离,运用机组正常数据自学习报警线,当报警线设定为正常数据JS距离2.7倍时,可将正常和故障数据区分,计算结果,如图6所示。

图6 活塞杆断裂JS距离Fig.6 JS of Fracture Fault

从图5中可以看出,当振动数据采集到第107h时,JS距离超过设定阈值发生报警,比故障发生时刻提前了37h,若此时现场设备管理人员采取有效措施,可有效避免事故的发生。

图7 拉缸故障Fig.7 Scuffing Fault

以某石化拉缸数据进行验证,该机组现场故障图片,如图7所示。该机组为4缸卧式往复压缩机,额定转速为370r/min。最后计算得到的JS距离结果,如图8所示。

从图8中可以看出,当振动数据采集到第40h时,JS距离超过设定阈值发生报警,比故障发生时刻提前了24h,有效对机组异常进行了预测。

图8 拉缸JS距离Fig.8 JS of Scuffing Fault

4 结论

(1)对往复压缩机正常和故障振动波形提取多种特征值,构造特征集,该特征集能更加全面的反映波形特征,用于异常检测可有效避免单一特征值的片面性,有效避免误诊和漏诊的情况,提高异常检测准确率。(2)用LDA模型计算正常和异常数据集相空间分布,将二者带入JS距离计算公式,得到JS距离,当机组正常运行时,JS距离无明显变化;发生异常后,JS距离明显升高,该方法可有效实现往复压缩机异常检测。且相较于传统的异常检测方法,该方法可大幅提前往复压缩机异常预警时间点。(3)运用LDA模型构造相空间进行异常检测,只需往复压缩机正常运行数据,有效避免因数据样本少而不能进行异常检测的问题。(4)往复压缩机在设计与制造精度不够高时,更容易发生异常,因此实现往复压缩机异常检测十分必要,本方法有效实现了往复压缩机智能预警和异常检测。

参考文献

[1]余良俭.往复压缩机故障诊断技术现状与发展趋势[J].流体机械,2014,42(1):36-39.

(Yu Liang-jian.The present situation and development trend of fault diagnosis technology of reciprocating compressor[J].Fluid Machinery,2014,42(1):36-39.)

[2]Shen L,Tay F E H,Qu L.Fault diagnosis using rough sets theory[J].Computers in Industry,2000,43(1):61-72.

[3]彭琦,马波.概率神经网络在往复压缩机多故障诊断技术研究中的应用[J].机械设计与制造,2014(4).

(Peng Qi,Ma Bo.Application of probabilistic neural network in fault diagnosis of reciprocating compressor[J].Mechanical Design and Manufacturing,2014(4).)

[4]张志强,赵怀慈,赵大威.基于SVD算法的红外热波无损检测方法研究[J].机械设计与制造,2012(4):53-55.

(Zhang Zhi-qiang,Zhao Huai-ci,Zhao Da-wei.Study on infrared thermal wave nondestructive testing method based on SVD algorithm[J].Mechanical Design and Manufacturing,2012(4):53-55.)

[5]徐洪钟,吴中如.相空间神经网络模型在大坝安全监控中的应用[J].水利学报,2001(6):67-71.

(Xu Hong-zhong,Wu Zhong-ru.Application of phase space neural network model in dam safety monitoring[J].Journal of Hydraulic Engineering,2001(6):67-71.)

[6]Yanwei H.Data reconstruction based on robust kernel principal component analysis[J].Information and Control,2010(3):022.

[7]Liu Y,Yuan W,Wang S G.A Method of fault diagnosis for reciprocating compressor based on phase space reconstruction(PSR)and empirical mode decomposition[J].Applied Mechincs&Materials,2012,151(1p1):83-86.

[8]黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48.

(Huang Xiao-liang,Yu Yu-si,Guan Zhe-hong.Software defect allocation method based on LDA subject model[J].Computer Engineering,2011,37(21):46-48.)

[9]王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报,2012,40(11):2346-2350.

(Wang Li-dong,Wei Bao-gang,Yuan Jie.Document clustering based on probabilistic topic model[J].Electronic Journal,2012,40(11):2346-2350.)

[10]Jiang H C,Qiang M S,Lin P.Finding academic concerns of the Three Gorges Project based on a topic modeling approach[J].Ecological Indicators,2016(60):693-701.

[11]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003(3):993-1022.

[12]Eissa T,Razak S A,Ngadi M D.Towards providing a new lightweight authentication and encryption scheme for MANET[J].Wireless Networks,2011,17(4):833-842.

[13]Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Academy of Sciences,2004,101(suppl 1):5228-5235.