基于LPP-GNMF算法的化工过程故障监测方法

2016-10-13 18:53朱红林王帆侍洪波谭帅
化工学报 2016年12期
关键词:原始数据负性化工

朱红林,王帆,侍洪波,谭帅



基于LPP-GNMF算法的化工过程故障监测方法

朱红林,王帆,侍洪波,谭帅

(华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海 200237)

提出了基于LPP-GNMF算法的化工过程故障监测方法。非负矩阵分解(NMF)是一种新兴的降维算法,由于它在机理上具有潜变量的正向纯加性的特点,所以在对数据进行压缩时,可以基于数据内部的局部特征有效描述数据信息,相比于传统的多元统计过程监控方法如主元分析(PCA)等有更好的解释能力。然而NMF要求原始数据满足非负性的要求,实际的化工过程有时并不能保证,为放宽对原始数据的非负要求,引入了广义非负矩阵分解(GNMF)算法。其次,GNMF在分解的过程中没有考虑到样本间的局部结构和几何性质,可能存在不能准确处理数据的问题。针对这一问题,提出了将GNMF与LPP(局部投影保留)相结合的算法。将提出的LPP-GNMF算法应用于TE过程来评估其监测性能,并与PCA算法、NMF算法、SNMF算法进行比较,仿真模拟结果表明所提算法的可行性。

算法;故障监测;主元分析;广义非负矩阵分解;局部投影保留;模拟

引 言

随着化工过程的日趋复杂,为了确保生产设备的安全运行,提高生产的效率,改善产品的质量,避免因系统故障而产生灾难性的事故,对过程的生产状态进行故障监测变得十分重要。同时,随着计算机集散系统的广泛应用,化工过程中产生的大量数据被记录下来。如何有效利用这些高维、相互关联或冗余的海量数据[1],挖掘出系统运行状态的特征信息,变得尤为关键。在这种情况下,多元统计过程监控方法(MSPM)应运而生。

MSPM方法通过将高维空间的原始数据投影到相对独立的低维子空间,可有效解决复杂化工过程数据量大、数据间耦合性强的问题,降低数据分析的难度。传统的MSPM算法主要包括主元分析法(PCA)、规范变量分析法(CVA)、偏最小二乘法(PLS)、独立主元分析法(ICA)、Fisher判别分析法(FDA)等[2-6]。这些算法目前都已被成功应用于化工过程的故障监测中。

PCA算法是化工过程监测研究中应用最为广泛的一种算法,它通过对原始数据进行最优线性降维处理,有效解决了变量间的相关性问题,提取出的特征能够反映原始数据全局信息[7]。PCA算法需要原始数据满足高斯分布,然而现实的化工过程中数据分布往往不能满足这一要求。针对此问题,相关学者提出了ICA算法[8-10]。ICA算法通过将原始数据分解为统计意义上相互独立的主元的线性组合,能够有效处理非高斯分布的数据,但它对高斯分布数据的处理效果并不理想。

非负矩阵分解算法(NMF)是由Lee等[11]在1999年首次提出的。作为一种新兴的多元统计分析算法,NMF算法与传统多元统计分析算法相比,对原始数据除了非负性要求外没有其他要求,因此其应用范围更加广泛。NMF算法能够在大量数据中学习到数据内部的局部特征,分解得到具有非负性与较强稀疏性的因子。其中稀疏性刻画了数据的局部特征,非负性在运算上表示为正向纯加性。所以NMF算法与传统统计分析算法相比,具有更强的解释性,即局部组成整体的特性。在最近几年,NMF算法得到了越来越多的关注和研究。Wild等[12]利用球面均值聚类作为NMF的初始化步骤,在提高了算法效率的同时,也可能使算法收敛到相对不好的局部解。Cichocki等[13]提出了利用欧氏距离平方的局部特性,先在不要求非负的条件下得到解析解,最后通过非线性投影使其满足非负性的要求,虽然这种改进的算法收敛速度较快,但很可能会发生振荡。Hoyer[14]针对NMF算法天然具备的稀疏性不充分的问题,提出通过非线性投影实现对稀疏性的精确控制。Cai等[15]将NMF与流形学习中的图谱理论相结合,在NMF的目标函数中增加了流形正则的约束项,提出了图谱正则NMF算法,吸收了流形学习描述数据几何结构的能力。Lee等[16]通过利用有标签数据和无标签数据提取数据的类别信息,提出了一种半监督的NMF算法。

目前,在化工过程的故障监测领域,NMF算法的应用还相对较少。Li等[17]提出了利用NMF算法对非高斯过程进行故障监测,并通过仿真实验验证了NMF算法应用于化工过程故障监测的可行性,而且比传统的多元统计故障监测方法有更加广泛的应用能力。王帆等[18]提出了稀疏性非负矩阵分解(SNMF)算法,通过在NMF算法的基础上引入稀疏编码(sparse coding)方法得到对数据集更加稀疏的表示,通过TE过程的仿真验证说明该方法相比于基本NMF算法具有明显的优越性。

然而,目前NMF算法在化工过程的故障监测领域的应用中,往往没有考虑到样本间的局部结构和几何性质,这就可能造成数据处理不够准确的问题。针对这一问题,通过将NMF算法与LPP算法相融合,提出一种既能保持NMF算法挖掘数据内部局部信息能力,又具有LPP算法保留样本间的几何信息和局部结构能力的新算法。同时,在化工过程中并不能保证所有数据具有非负特性,因此引用了一种GNMF算法的思想,放宽了NMF的非负性限制,提出了LPP-GNMF算法。最后通过对TE过程的仿真实验以验证算法的有效性和优越性。

1 基本算法介绍

1.1 非负矩阵分解

矩阵分解是对大规模数据进行处理和分析的有效工具,NMF算法作为一种新兴的算法,为矩阵分解提供了一种新的思路。与其他矩阵分解算法不同,NMF算法要求分解前后矩阵中的元素都是非负的。因为对分解后的矩阵元素只做加法运算,且分解后的基矩阵具有稀疏性,所以NMF算法具有部分构成整体的特性,较其他算法具有更好的解释性。

NMF算法可以这样描述:对于一个给定的非负矩阵∈×n,其中为样本数,为测量变量数。NMF算法是要找到两个非负矩阵∈×k和∈×n,使得式(1)成立。

其中,下角标“+”表示非负性约束,为降维阶次。一般地,降维阶次的取值应该满足(+)<。NMF算法得到的两个非负矩阵:称为基矩阵,其中每一列构成一个基向量,称为系数矩阵,其中每一列代表了趋近于的每一列所需的非负系数。因此这个分解过程可以形象地描述为:对于个维非负数据组成的矩阵,在维空间中存在一组非负向量,使得矩阵中每一列向量都可以描述为该组非负向量的非负线性组合。NMF算法由此实现了原始数据的低维近似描述。

NMF算法的求解可以归结为一个非线性最优化的过程,首先通过定义一个目标函数来刻画式(1)前后的逼近程度,然后寻找一套合适的迭代规则求解该最优化问题。Lee等[11]给出了两种目标函数来解决该优化问题,并给出了迭代规则,本文选用其给出的第1种目标函数。

采用欧氏距离来度量原始矩阵与基矩阵和系数矩阵之积(即原始数据的低维近似)之间的误差,NMF的解就是在非负条件下使它们之间误差最小的稳定点。其目标函数如式(2)所示。

对于这个最优化问题,它的下限为0,当且仅当=时,式(2)取最小值0。当式(2)值越接近于0,则说明所得解越精确。上述目标函数对于分别以和为变量的最优化问题是凸的,但同时对于和却是非凸的,因此该优化问题无全局最优解。Lee等[11]给出并证明了该目标函数的局部最优解的乘性迭代规则如下。

在该迭代规则下,当且仅当和固定时,目标函数值保持不变。其中基矩阵保留了原始矩阵的空间关系和数据结构,系数矩阵为原始矩阵的低阶近似矩阵。

1.2 局部保留投影(LPP)

LPP算法是一种低维子空间表示高维数据的降维方法,它利用构建邻近图的方法来建立关系映射,具有流形分析和学习的能力。该算法主要考虑了保持数据的邻近点之间的结构,能够保留原始数据的局部信息和几何结构。

假设原始数据矩阵∈×n中有个样本,(=1, 2,…,),每个样本的维度为。降维的目标是寻找一个投影方向矩阵,使得高维样本数据经过线性变化T得到其在低维空间(维)中能最大限度代表高维样本数据的低维数据向量表示(=1, 2,…,),并且保证在原样本空间中的相邻点经过线性变换后在低维空间仍然尽可能接近。在一定的约束条件下通过最小化式(5)的目标函数,求得投影方向矩阵

其中的值为

为对称矩阵,它表示样本量的邻近关系。利用关系式=T,目标函数可以简化为式(7)

该算法的具体步骤如下。

(1)构建邻域图。以历史数据库中的个样本点构造邻域图。邻域数目为。

(2)计算权重矩阵。若相邻,则权重值=1;若不相邻,则权重值=0。

(3)计算投影方向矩阵。计算式(8)广义特征方程的个最小特征值对应的特征向量,构成投影方向矩阵。

(4)新训练样本∈的低维表示:=T∈

2 针对非负矩阵分解算法的改进

2.1 广义非负矩阵分解

由于NMF算法要求原始数据矩阵满足非负性,然而化工过程中产生的数据在一些情况下并不能满足非负性要求,为此对原始数据矩阵的非负性限制进行放宽,引入了一种广义非负矩阵分解(GNMF)算法的思想[19]。其分解的数学形式变为

GNMF算法的目标函数为

其迭代规则为

其中,[]+=(||+)/2,[]−=(||−)/2,±=+−−。

2.2 LPP-GNMF算法

GNMF算法能够挖掘出数据点内部的局部信息,却忽略了数据点之间的几何关系,这可能会造成数据处理不够准确的问题。LPP算法是一种流形学习算法,它的基本思想是在降维的过程中保持数据的邻近点之间的结构关系,保留原始数据的几何结构和局部信息。因此希望通过在GNMF算法的基础上增加一个LPP算法的新的约束项,即在式(10)的基础上添加式(8)作为约束条件,得到的目标函数如式(12)所示

其中,=1, 2,…,,∈×k是基矩阵,表示其列向量(基向量);是接近于零的极小值,它对等式(8)做一定的松弛;∈×m为一个对角矩阵,其对角线上的前个元素可能为非零值,其他所有元素均为零。其思想是:找到合适的基矩阵,使得原始数据矩阵与T尽可能接近的同时使得T与T尽可能接近。为了方便计算,将目标函数式(12)转化为式(13)。

其中LPP-GNMF算法是在GNMF算法的基础上增加一个LPP算法作为一个约束项,参数为一个系数,通过它调整LPP算法的影响程度。

LPP-GNMF算法的迭代公式为

其中,=T−T,为对角矩阵,,=1, 2,…,。

3 基于LPP-GNMF算法的化工过程故障监测方法

基于2.2节提出的LPP-GNMF算法,这里提出一种新的化工过程故障监测方法。

3.1 初始化

LPP-GNMF算法是一种迭代算法,其基矩阵的初始化对算法的结果有很大的影响。选择一个好的初始化值,能使LPP-GNMF算法快速收敛到一个更好的局部最优解。目前,奇异值分解(SVD)和正随机数初始化是两种常见的初始化方法。

这里选用奇异值分解方法对LPP-GNMF算法的基矩阵进行初始化,通过对分解结果的负值强置为零保证的非负性。降维阶次的选取根据对原始数据矩阵的协方差阵做奇异值分解,按方差贡献度85%选取。

3.2 LPP-GNMF算法的监测指标及控制限

当LPP-GNMF算法用于过程监控时,其过程监测模型如式(15)所示

为了对过程故障进行监测,构造两个监测指标如式(16)、式(17)所示

3.3 过程故障监测流程

基于LPP-GNMF算法的过程故障监测流程如下。

(1)离线建模

① 数据预处理。对训练样本矩阵进行归一化处理。

② 给定邻域数目,构建领域图,参照1.2节LPP算法,计算权重矩阵以及矩阵、。

③ 首先对基矩阵进行初始化,用LPP-GNMF算法的迭代公式计算得到基矩阵的值。

④ 根据式(16)、式(17)分别计算监测指标2和SPE。

⑤使用KDE方法计算监测指标2和SPE的控制限。

(2)在线监测

① 对于新的测试样本new,根据式(16)、式(17)计算监测指标2new和SPEnew的值。

② 通过比较监测指标2new和SPEnew的值与相应控制限之间的关系,判断过程是否发生故障。

4 仿真验证

4.1 TE过程

TE过程作为基于实际化工过程而搭建的仿真平台,能够模拟化工生产的过程,产生大量的正常数据,并通过设置多种故障场景,得到多种故障数据。目前,TE测试平台在基于数据驱动的故障监测领域被大量使用,已成为评价监测算法性能和优越性的有效工具。本文选用TE过程对LPP-GNMF的监测性能进行验证,下面对TE过程进行简要介绍。

TE过程是一个复杂的化工生产过程,包含5个主要的操作单元:反应器、汽提塔、冷凝器、气液分离器、循环压缩机[20]。它包含有4种反应物、2种产品、1种副产品以及1种惰性气体。该过程中总共包含12个控制变量以及41个测量变量,其中第12个控制变量为反应器的搅拌速度,它属于机械领域,即使发生故障也不会对产品质量造成太大影响,所以不用于监控建模。

TE过程中总共可以设定21种故障场景[20]。训练集和测试集样本的采样时间均为3 min,每个样本数据包含52个变量。选用960正常样本数据作为训练集用于建立监测模型。在每一种故障情况下,进行960次采样,故障在第160个样本点后加入,得到测试集。

这里分别将PCA算法、NMF算法、SNMF算法、LPP-GNMF算法应用于TE过程仿真实验中。在PCA算法的仿真实验中,方差贡献度选为85%,此时降维阶次选为27。为了满足NMF算法、SNMF算法要求原始矩阵具有非负性的要求,对每个测量变量,首先减去该变量可变化范围的最小值,再除以可变化范围的最大值与最小值之差。对于LPP-GNMF算法由于对原始矩阵的非负要求进行了放宽,只需与PCA一样,对变量进行归一化处理。降维阶次的值,根据SVD分解结果,按方差贡献度为85%选取为27。对于邻域数目与参数,根据最终监测结果的好坏,经过多次试凑,分别取为12和0.4。

4.2 结果讨论

故障监测率是指故障引入系统后,被算法检测出来的样本数与总故障样本数之间的百分比。故障监测率是评价监测效果的重要标准。4种算法的监测结果见表1[18]。

对于故障3、9、15、19,因为其测试集数据在均值、方差以及高阶矩上都没有明显的变化,所以使用多元统计过程监控方法的监测效果很差,在本文中不进行研究[21]。在其余故障情况下,NMF算法与LPP-GNMF算法的误报率始终保持在5%之内。对于故障21,基于PCA算法的SPE监测指标的误报率过高,这里也不进行研究。对于故障8、12、17、18、19,基于PCA算法的SPE监测指标的误报率略高于5%。

对于故障1、2、6、7、8,从表1中可以看出,4种算法的故障监测率基本相同,这是因为当这些故障发生时,它们的数据结构发生较明显变化,故4种算法均能获得很好的监测效果。对于故障5、10、11、16、18、20,基于LPP-GNMF算法的监测效果要好于基于PCA算法。但在有些情况下,LPP-GNMF算法的监测效果却不如PCA,这是因为NMF算法具有稀疏性的特点,它会将信息集中在相对较少的投影方向上,这可能使得一些与这些投影方向相关性较差的信息的丢失,而PCA算法却能包含这些信息。但同时从表1可以看到,对于这类故障,LPP-GNMF算法的监测效果与PCA相差不大,LPP-GNMF能用较少的投影方向获取到相关信息。

表1 PCA、NMF、SNMF、LPP-GNMF算法对TE过程的故障监测率

Table 2 Fault detection rates of PCA, NMF, SNMF and LPP-GNMF in TE process

对于故障4、5、10、11、12、13、14、16、17、18和20,基于LPP-GNMF算法的监测效果都好于基于NMF与SNMF的算法。从表1中可以看出,故障4、5、14、16和17的2监测指标,LPP-GNMF算法较NMF算法有超过10%的提升;故障10、11、14、17、20的SPE监测指标,LPP-GNMF算法较NMF算法也有较明显提高。同时LPP-GNMF算法与SNMF算法相比,故障5、16的2监测指标、故障11、17、20的SPE监测指标均有很大的提升。

值得注意的是,在故障4的监测上,基于PCA算法的2监测指标与基于NMF算法的2监测指标故障监测率很低,而LPP-GNMF算法与SNMF算法的2指标却能较为有效地对故障进行监控。4种算法对故障4的监测效果如图1所示[18]。此外,对于故障5,4种算法的SPE指标的监测效果都很差,而LPP-GNMF的2指标相较于PCA、NMF和SNMF却有很大的提高,其故障监测率能达到99.125%。它们的监测效果如图2所示[18]。

总体而言,基于NMF与LPP-GNMF算法的故障监测效果优于基于PCA算法。由于在对数据进行非负矩阵分解的过程中,考虑到了保持样本点间几何拓扑结构的问题,从而对数据实现了更加准确的处理,故LPP-GNMF算法的监测效果明显优于基本NMF算法与SNMF算法。

5 结 论

相比于传统的多元统计过程监控算法,NMF算法对数据具有更好的解释能力。在NMF算法的基础上,为了在降维的过程中保持样本间的几何信息与局部结构,将LPP算法引入NMF的目标函数中,实现了对样本数据更加准确的处理。同时由于化工过程中往往不能保证数据的非负性,因此应用了GNMF的思想,放宽了NMF算法的应用范围。将提出的LPP-GNMF算法用于TE过程的监控中,仿真过程证明所提出的LPP-GNMF算法的监控效果明显优于基本的NMF算法。

[1] 李晗, 萧德云. 基于数据驱动的故障诊断方法综述[J]. 控制与决策, 2011, 26(1): 1-9. LI H, XIAO D Y. Survey on data driven fault diagnosis methods[J]. Control and Decision, 2011, 26(1): 1-9.

[2] HE X B, YU P Y. Variable MWPCA for adaptive process monitoring[J]. Industrial and Engineering Chemistry Research, 2008, 47(2): 419-427.

[3] ODIOWEI P P, CAO Y. Nonlinear dynamic process monitoring using canonical variate analysis and kernel density estimations[J]. IEEE Transactions on Industrial Informatics, 2009, 27(1): 1557-1562.

[4] LI G, QIN S J, ZHOU D. Geometric properties of partial least squares for process monitoring[J]. Automatica, 2010, 46(1): 204-210.

[5] KANO M, TANAKA S, HASEBE S,. Monitoring independent components for fault detection[J]. AIChE Journal, 2003, 49(4): 969-976.

[6] HE X B, WANG W, YANG Y H. Variable-weighted fisher discriminant analysis for process fault diagnosis[J]. Journal of Process Control, 2009, 19(6): 923-931.

[7] 夏陆岳, 潘海天, 周猛飞, 等. 基于改进多尺度主元分析的丙烯聚合过程监测与故障诊断[J]. 化工学报, 2011, 62(8): 2312-2317. XIA L Y, PAN H T, ZHOU M F,. Process monitoring and fault diagnosis of propylene polymerization based on improved multiscale principle component analysis[J]. CIESC Journal, 2011, 62(8): 2312-2317.

[8] LEE J M, YOO C K, LEE I B. Statistical process monitoring with independent component analysis[J]. Journal of Process Control, 2004, 14(5): 467-485.

[9] ZHANG Y W, QIN S J. Fault detection of nonlinear process using multiway kernel independent analysis[J]. Industrial and Engineering Chemistry Research, 2007, 46(23): 7780-7787.

[10] GE Z Q, SONG Z H. Process monitoring based on independent component analysis-principal component analysis (ICA-PCA) and similarity factors[J]. Industrial and Engineering Chemistry Research, 2007, 46(7): 2054-2063.

[11] LEE D D, SEUNG H S. Learning the parts of objects by nonnegative matrix factorization[J]. Nature, 1999, 401: 788-791.

[12] WILD S, CURRY J, DOUGHERTY A. Improving non-negative matrix factorizations through structured initialization[J]. Pattern Recognition, 2004, 37(11): 2217-2232.

[13] CICHOCKI A, AMARI S I, ZDUNEK R,. Extended SMART algorithms for non-negative matrix factorization[J]. Lecture Notes in Computer Science, 2006, 4029: 548-562.

[14] HOYER P O. Non-negative matrix factorization with sparseness constraints[J]. Journal of Machine Learning Research, 2004, 5(1): 1457-1469.

[15] CAI D, HE X, HAN J,. Graph regularized non-negative matrix factorization for data representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1548-1560.

[16] LEE H, YOO J, CHOI S. Semi-supervised nonnegative matrix factorization[J]. IEEE Signal Processing Letters, 2010, 17(1): 4-7.

[17] LI X B, YANG Y P, ZHANG W D. Fault detection method for non-Gaussian processes based on non-negative matrix factorization[J]. Asia-Pacific Journal Chemical Engineering, 2013, 8(3): 362-370.

[18] 王帆, 杨雅伟, 谭帅, 等. 基于稀疏性非负矩阵分解的故障监测方法[J]. 化工学报, 2015, 66(5): 1798-1805. WANG F, YANG Y W, TAN S,. Fault detection method based on sparse non-negative matrix factorization[J]. CIESC Journal, 2015, 66(5): 1798-1805.

[19] LI X B, YANG Y P, ZHANG W D. Statistical process monitoringgeneralized non-negative matrix projection[J]. Chemometrics and Intelligent Laboratory System, 2013, 121(7): 15-25.

[20] DOWNS J J, VOGEL E F. A plant-wide industrial process control problem[J]. Computers & Chemical Engineering, 1993, 17(3): 245-255.

[21] YU J B. Local and global principal component analysis for process monitoring[J]. Journal of Process Control, 2012, 22(7): 1358-1373.

Fault detection method for chemical process based on LPP-GNMF algorithm

ZHU Honglin, WANG Fan, SHI Hongbo, TAN Shuai

(Key Laboratory of Advanced Control and Optimization for Chemical Processes of Ministry of Education, East China University of Science and Technology, Shanghai 200237, China)

A fault detection method for chemical process based on LPP-GNMF algorithm is proposed. NMF (non-negative matrix factorization) is a novel dimensionality reduction algorithm, with characteristics of positive pure additivity of latent variables in the mechanism, thus, when compressing the data, the information can be described based on the local characteristics inner the data. Compared to the traditional multivariate statistical process monitoring methods such as principal component analysis (PCA), NMF offers a better ability for data explanation. However, firstly, NMF requires the original data to meet the requirements of non-negative, which can not be guaranteed in the actual chemical process, in order to relax the non-negative requirements of the original data, a generalized non-negative matrix factorization (GNMF) algorithm is quoted. Secondly, GNMF does not take the local structure and geometric properties into account during the process of decomposition, which may not be accurate to deal with the problem of data. Aiming at this problem, the algorithm of combining GNMF with LPP (locality preserving projection) is proposed. The proposed LPP-GNMF algorithm is applied to the Tennessee Eastman process to evaluate the monitoring performance. The simulation results show the feasibility of the proposed algorithm compared with the PCA algorithm, the NMF algorithm and the SNMF algorithm.

algorithm; fault detection; principal component analysis; generalized non-negative matrix factorization; locality preserving projection; simulation

date: 2016-08-30.

Prof. SHI Hongbo, hbshi@ecust.edu.cn

10.11949/j.issn.0438-1157.20161199

TP 277

A

0438—1157(2016)12—5155—08

国家自然科学基金项目(61374140);国家自然科学基金青年科学基金项目(61403072)。

supported by the National Natural Science Foundation of China (61374140) and the Young Scientists Fund of the National Natural Science Foundation of China (61403072).

2016-08-30收到初稿,2016-09-11收到修改稿。

联系人:侍洪波。第一作者:朱红林(1991—),男,硕士研究生。

猜你喜欢
原始数据负性化工
《化工管理》征稿简则
《化工管理》征稿简则
《化工管理》征稿简则
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
共患难, 更同盟:共同经历相同负性情绪事件促进合作行为*
受特定变化趋势限制的传感器数据处理方法研究
非负性在中考中的巧用
个性化护理干预对子宫全切患者负性情绪的影响
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
希望疗法对康复期精神分裂症患者负性情绪的影响