张瑞垚 周 平
污水处理工业在中国水资源可持续发展中占据 重要一环.目前,应用最广泛的污水处理工艺是活性污泥法[1].如图1 所示,活性污泥法污水处理工艺流程通常按照处理程度分为一级处理(预处理)、二级处理(生化处理)和三级处理(深度处理)[2].原污水首先经过格栅拦截较大悬浮物或漂浮杂质后进入沉砂池,沉砂池将密度较大无机悬浮物从污水中分离,然后进入初沉池.完成一级处理的污水经初沉池出水,并与回流的二沉池沉淀污泥按一定比例混合进入曝气池.曝气池分为缺氧区和好氧区.在缺氧区中,内循环回流的硝态氮在异养菌无氧呼吸作用下被还原为氮气;在好氧区中,氨氮在自养菌有氧呼吸作用下发生硝化反应,有机物被进一步降解.随后污水经曝气池出水进入二沉池,将澄清水与活性污泥进行固液分离.分离后,澄清水排入受纳水体或经过物理、化学等技术进一步去除污染物后实现中水回用.二沉池除回流污泥外的沉淀污泥与初沉池的污泥混合,经过浓缩、消化、脱水等工艺后做最终处置及回收利用[2-4].
图1 污水处理工艺流程示意图Fig.1 Schematic diagram of sewage treatment process
污水处理的根本目的是将城市生活、工业生产等产生的污水经过上述污水处理的各道工序后达到国家规定的出水指标.目前,污水处理出水质量指标主要包括生化需氧量、化学需氧量、总悬浮物、总磷、氨氮等.在污水处理过程中,由于进水流量、进水组分、污染物种类、天气变化等都是被动接受,微生物种群、溶解氧浓度、污水pH 值等多种因素对微生物的生命活动都会产生巨大的影响,因此保持污水处理厂的长期稳定运行十分困难[4-5].由于污水处理时常处于非平稳状态运行,因此容易引发异常工况的发生.如果不能及时监测到污水处理过程异常工况,导致不能正确判断且没有采取有效措施加以调整纠正,会导致出水水质不达标、污水处理能力降低,甚至会引发污水处理过程的崩溃,导致不可逆的事故发生,使得运行成本大大增加并且造成环境污染.所以,通过建立有效监测方法来监测污水处理过程,对异常工况做出准确判断,并及时准确地采取有效措施,对保证污水处理过程安全稳定顺行以及出水水质的达标尤其重要.
由于污水处理过程是一个多变量、强耦合、大时滞、高度非线性的复杂动态非平稳生化反应过程[5],机理模型很难完全考虑污水处理全流程的运行状态.大部分机理模型都是基于局部过程建立的,因此在描述污水处理过程特性时具有很大的局限性[6-7],这就促进了数据驱动尤其是基于机器学习与多元统计分析的过程监测与故障诊断方法在污水处理过程中的应用[5].文献[8]提出了一种基于在线估计技术和反向传播神经网络的故障检测和诊断方法,不仅具有鲁棒性,而且能够避免阈值问题,显示出较好的应用可靠性.文献[9]提出的粗集支持向量机分类方法降低了样本属性并保留一定的冗余性,对污水处理过程运行状态的监测实验验证了该方法的有效性.文献[10]针对主元分析对于噪声和不确定信息描述能力不足的问题,提出了因子分析故障诊断方法,在污水仿真基准模型的验证表明该方法能够降低传统主元分析方法的故障误报率,对不确定信息具有较好的描述能力.近年来,由于污水处理数据缺少分类标识,且先验知识匮乏,因此模糊聚类技术在污水处理过程监测中得到了越来越多的应用.模糊聚类是一种无监督分类技术,本身具有捕获数据非线性结构的能力,可以充分挖掘污水处理过程的数据信息,通过建立模糊相似关系对过程进行监测和诊断[11].文献[12]针对采样数据维度过高的问题,采用了主元分析和可能性模糊c均值(Possibilistic fuzzyc-means,PFCM)聚类相结合的方法,在田纳西-伊斯曼过程仿真实验中取得较好效果.但是主元分析是一种线性降维技术,对于污水处理这样的高维非线性系统,其实际应用效果会有很大局限性.文献[13]提出了偏最小二乘、可能性聚类(Possibilisticc-means,PCM)与模糊c均值(Fuzzyc-means,FCM)的组合方法,并给出了一种递归原型更新算法.偏最小二乘算法的使用抑制了与输出数据无关的噪声和变化,促进了PCM 和FCM 的应用,使其更容易找到簇和相应的原型,但聚类算法FCM 对离群点敏感,因此其监测效果易受离群点影响,鲁棒性差.当监测到异常工况发生时,需要及时识别出导致异常工况发生的异常变量.目前,贡献图方法是最为普遍的故障识别方法[14].Zhou 等[15]提出了基于主元分析的贡献图方法,用于辨识与故障相关的关键变量.Dunia 等[16]提出了基于重构和平方预测误差方法,即利用重构平方预测误差与实际平方预测误差的比值进行故障辨识.文献[17]提出了一种基于核主成分分析的方法,特别是在鲁棒重构误差的基础上,提出了一种新的故障识别方法.其基本思路是当重构的变量是故障变量时,此变量的故障指标会比非故障变量的指标值偏小.如今,基于模糊聚类的故障识别方法的研究也得到越来越多专家学者的研究.文献[18]提出了一种基于自回归滑动平均模型双谱分布特征与模糊c均值聚类分析的故障识别方法,该方法通过FCM聚类构造类模板和最小距离模板的分类器,实现了滚动轴承的故障识别.文献[19]将模糊c均值算法和Gustafson-Kessel 聚类算法用于燃气轮机故障的故障检测和识别,仿真结果表明模糊聚类方法具有可接受的故障识别性能.
综上,本文针对非平稳污水处理工业过程的非线性强、先验故障知识少、异常工况识别难等问题,提出了一种基于鲁棒加权模糊c均值(Robust weighted fuzzyc-means,RoW-FCM)与核偏最小二乘(Kernel partial least squares,KPLS)算法的新型过程监测方法.首先,采用KPLS 对污水处理过程的高维输入过程变量进行降维,同时解决了污水处理数据的非线性问题;其次,采用RoW-FCM 聚类算法对通过KPLS 算法降维得到的得分矩阵聚类,通过聚类得到的隶属度矩阵进行污水处理过程异常工况检测分析;再次,建立隶属度矩阵与样本数据变量之间的回归模型,通过解得的变量贡献矩阵进行异常工况识别;最后,对本文RoW-FCM 算法进行数值仿真验证,并基于污水处理过程数据进行实验验证和对比分析.
提出的基于RoW-FCM 聚类与KPLS 的污水处理过程监测方法如图2 所示,主要包括高维数据降维、异常工况检测和异常工况识别3 个部分.
图2 本文监测算法建模策略Fig.2 The monitoring algorithm modeling strategy in this paper
1)高维数据降维: 污水处理过程相应过程运行性能与出水水质的变量较多,具有高维特性,而且变量之间存在着很强的关联耦合特性.如果把全部变量都用于模型的建立,不仅会加大计算复杂度,而且会由于冗余信息干扰影响建模与监测的性能,因此需要对输入变量数据进行降维.为此,采用非线性的KPLS 方法对高维数据进行降维.首先将标准化后的过程变量投影到高维特征空间,然后在高维特征空间建立过程变量与质量变量的偏最小二乘模型,并采用交叉验证法确定主元数,得到得分矩阵,也即原始高维变量经过降维处理后的低维变量.
2)异常工况检测: 针对常规FCM 算法对于离群点敏感,建立RoW-FCM 聚类算法,通过引入了权值参数对不同质量的样本数据的区分加权,改善了聚类对离群点的鲁棒性,同时引入聚类大小控制参数解决了不平衡簇问题.由于传统基于欧氏距离的FCM算法是根据最近邻分配,即对于球形数据集以外的如椭圆形类数据集不能有效聚类,因此采用马氏距离,可以充分考虑样本之间的相互关系.将本文改进聚类算法对得分矩阵聚类,得到隶属度矩阵,通过所得隶属度矩阵对污水处理过程进行异常工况检测.
3)异常工况识别: 为了识别导致异常工况的主导变量,考虑变量对过程异常工况的解释程度.基于此,通过建立隶属度矩阵与过程变量的回归模型,得到变量隶属度矩阵,利用变量贡献矩阵描述变量对各个簇的解释程度,即变量对各类工况的解释程度,从而达到对异常工况识别的目的.
2.2.1 FCM 与PCM 算法简介
聚类算法中,比较有影响的重要工作就是Dunn将常规硬聚类目标函数推广到了模糊情形,而Bezdek等[20]又将Dunn 的目标函数做了推广,给出了如下基于目标函数的模糊聚类分析更一般的描述:
Krishnapuram 等[21]在FCM 算法的基础上放松了对隶属度的概率约束,提出了可能性聚类(PCM)算法,该算法的目标函数及约束条件如下:
2.2.2 本文RoW-FCM 算法及异常工况检测
聚类的鲁棒性是指所实现分区的稳定性和可再现性,以及对噪声和离群点的不敏感性[22-23].FCM算法由于对隶属度的约束,使得聚类结果对离群点特别敏感.为了解决这个问题,已有学者提出了多种解决方案.Barni 等[24]提出的PCM算法放松了对隶属度的概率约束,使其对离群点具有较强的鲁棒性,但容易导致重合聚类.Timm 等[25]在所有的PCM集群原型之间建立一个排斥力,其强度随着距离的增加而降低.该方法有效避免了重合聚类,但在两个聚类之间非常接近的情况下却不能准确处理.针对FCM 和PCM 存在的上述问题,Pal 等[26]提出了PFCM 聚类算法,PFCM具有FCM 与PCM 的优点,具有较好的鲁棒性,但对参数设置有很大的依赖性.基于此,针对现有方法存在的上述问题,提出鲁棒加权模糊c均值(RoW-FCM)聚类算法.首先引入可能性划分矩阵作为权值参数,同时考虑到欧几里德距离在聚类时的局限[27],因此采用马氏距离.FCM 等算法的另一个主要缺点是它们倾向于使集群的大小相等.也就是说,如果一个大集群的数量不平衡,那么它的一部分就会被错误地分类为另一个小集群,考虑到这个问题,本文进一步利用变量控制簇大小的方法来解决[28].综上,本文RoW-FCM算法的聚类目标函数如下:
注1.本文聚类算法对于隶属度矩阵和聚类中心的初始化并不敏感,因此在迭代开始前,即在算法1 中的输入数据过程,隶属度矩阵以及聚类中心的初始值采用随机初始化给出.
实际污水处理运行过程中,当异常工况发生时,及时识别造成异常工况发生的异常变量对指导操作人员做出有效操作决策具有重要意义.聚类算法中,隶属度矩阵描述了样本属于聚类中心的程度.为了识别与异常工况相关的变量,本文进一步提出一种新的基于变量贡献矩阵的识别方法.该方法的基本思想就是: 每个变量对各种工况都有一个贡献值,并且限定每个变量对所有工况的贡献值之和为1.如果某个变量对某个工况的贡献值最大,即表明此变量是与此工况相关联的变量,也就认为该变量是造成该工况的关键变量.变量贡献矩阵通过建立隶属度矩阵与过程变量的线性回归模型得到,其描述了样本变量对各个簇的解释程度,回归模型如下:
从ηai的实际意义考虑,类比隶属度,对上述损失函数引入约束如下:
采用拉格朗日乘子法求解变量贡献矩阵N,引入拉格朗日乘子ζ,构造目标函数如下:
首先,采用图3(a)所示数据测试基于欧氏距离与马氏距离的聚类方法的性能.实验数据集分为两组: 数据类1 在一个半径为5 的圆中随机生成50个样本点,数据类2 在一个长轴为15、短轴为1 的椭圆中随机生成100 个样本点,两组数据聚类中心之间的距离为9.本实验在目标函数式(13)的基础上分别采用马氏距离与欧氏距离作为对比.为便于区分,将采用马氏距离的方法记作RoW-FCM-1,将采用欧氏距离的算法记作RoW-FCM-2.两种方法聚类效果分别如图3(b)和图3(c)所示.可以看出,采用马氏距离可以将椭圆数据集与圆形数据集很好地分开,而基于欧氏距离的算法则不能将其有效分开.
图3 仿真实验数据及聚类效果图Fig.3 Simulation experiment data and clustering effect diagrams
然后,采用图4(a)所示数据集来测试本文方法对于不平衡集群的聚类性能.图4(a)中的数据集分为两类数据: 数据类1 在一个半径为4 的圆中随机生成150 个样本点,数据类2 在一个半径为2 的圆中随机生成40 个样本点,两类数据聚类中心之间的距离为7.图5 为分别采用FCM、PCM、PFCM和本文RoW-FCM 对图4(a)数据集A 进行聚类的结果.由图5 可知,FCM、PCM、PFCM 三种方法都将大集群的部分数据错误的分类为较小集群的部分,其中PCM 的聚类效果最差,产生了重合聚类,即聚类中心重合,而本文RoW-FCM 算法对两类集群有很好的划分.为了测试本文RoW-FCM 算法在聚类时对离群点的鲁棒性,进一步采用图4(b)所示包含离群点的数据集B 进行鲁棒性的测试.在数据集中共有12 个样本点,其中,数据类1:{X1,X2,X3,X4,X5}和数据类2:{X6,X7,X8,X9,X10}分别为y轴对称的聚类,聚类中心分别为=(-4,0)和=(4,0),X11和X12为2 个离群点,它们距离2 个聚类中心的距离相等.在图4(b)所示数据集上将FCM、PCM、PFCM 和本文RoW-FCM 进行数据对比实验.不同方法的聚类结果参数及聚类效果分别见表1 与图6.表1 中U代表隶属度矩阵,和分别表示矩阵U的第1 行和第2 行;W代表可能性划分矩阵,和分别表示矩阵W的第1 行和第2 行.由聚类结果可知,PCM 算法产生重合聚类,4 种算法中,PFCM 算法得到的聚类中心的偏移有所减小.但是,对比4 种算法的聚类效果,本文RoW-FCM 算法聚类中心偏移距离最小,受离群点影响最小,具有最好的鲁棒性.
表1 FCM、PCM、PFCM、RoW-FCM 聚类参数Table 1 FCM,PCM,PFCM,RoW-FCM clustering parameters
图4 测试数据集Fig.4 Test data sets
图5 不平衡簇实验聚类效果图Fig.5 Experimental clustering effect of unbalanced clusters
图6 离群点实验聚类效果图Fig.6 Experimental clustering effect of outlier points
由本节3 个数值实验可以看出,在对不平衡数据集聚类时: 本文RoW-FCM 算法通过引入控制距离尺寸的参数,很好地解决了不平衡簇问题,相比于FCM、PCM、PFCM 算法有良好聚类性能.在离群点数据实验中,RoW-FCM 算法比FCM 和PFCM算法的鲁棒性更好.而且相比于PFCM,本文RoWFCM 算法聚类性能对参数设置并不敏感.最后,相比于基于欧氏距离的聚类算法,RoW-FCM 算法采用马氏距离能够充分考虑样本间关系,对于非球形数据集也有较好的聚类效果.
本文基于污水处理过程的基准模型BSM1 进行数据仿真实验.BSM1 是由欧盟科学技术合作组织与国际水协共同合作开发的一个独立仿真平台,它能够较为合理地反应污水处理过程的反应机理,其设备布局由一个生化反应池和一个二次沉淀池组成[29],具体如图1 二级处理工艺设备布局图所示.选取二沉池出水中的生化需氧量、化学需氧量、悬浮物、氨氮作为出水质量指标.同时,根据工艺机理,确定影响出水水质指标的28 个关键过程变量如表2 所示.根据 5m1原则,KPLS 的高斯核函数宽度选为140,同时通过交叉验证确定KPLS 主元个数为3 个.所用测试数据包含进水流量异常和毒性冲击2 种异常工况.其中,毒性冲击故障是由于来自工业、农业或医院等的有毒物质造成的.毒性冲击会使活性污泥中的微生物出现 “中毒”现象,破坏活性污泥系统,导致污水处理效率下降,造成生化需氧量、化学需氧量、总氮和总磷等出水指标异常.本文通过降低异养菌最大比生长速率µH,增大异养菌衰减系数bH来模拟毒性冲击[30].因此,本文主要就进水流量异常和毒性冲击两种异常工况的检测和识别问题进行分析.
表2 影响污水处理过程出水水质的主要过程变量Table 2 The main process variables that affect the effluent quality of the sewage treatment process
首先对测试数据集进行故障检测实验.分别采用FCM、PCM、PFCM 以及本文RoW-FCM 四种算法在测试集上进行对比分析,并将所有方法均仿真30 次的平均结果作为最终结果,如表3 所示,相关结果如图7~ 10 所示.可以看出,PCM 算法由于产生重合聚类,其聚类效果差,结合如图8 的PCM隶属度矩阵值,可知PCM 算法不能监测到两种异常工况.同时,可以看到FCM、PFCM 和本文RoWFCM 三种方法均能够监测到异常工况.但是常规FCM 和PFCM 两种算法的隶属度矩阵值波动较大,尤其在0.5 附近区分度不明显,导致聚类错误率升高.而本文RoW-FCM 算法的隶属度矩阵值平稳,在0.5 处区分度大,能够将2 类异常工况很好地进行聚类,能够分别在200、800 时刻附近监测到异常工况的发生.从仿真的平均迭代次数来看,PCM算法迭代次数最少,但该算法由于产生重合聚类,故不在考虑范围内.另外,在其余3 种方法中,本文算法具有最少的迭代次数.综上,本文RoW-FCM算法对2 种异常工况的监测准确率最高,迭代次数也最少,所以RoW-FCM 算法在实际污水处理过程监测中具有良好的异常工况检测性能.
图7 FCM 隶属度矩阵Fig.7 FCM membership matrix
图8 PCM 可能性矩阵Fig.8 PCM possibility matrix
表3 不同算法的聚类准确度与迭代次数Table 3 Clustering accuracies and numbers of iterations of different algorithms
图9 PFCM 隶属度矩阵Fig.9 PFCM membership matrix
图10 RoW-FCM 隶属度矩阵Fig.10 RoW-FCM membership matrix
进一步采用第3.3 节异常工况识别方法进行识别,识别结果如表4 和图11 所示,其中表4 中的编号与表2 中的变量编号相对应,加粗数值表示与异常工况关联变量的贡献值.可以看出,与异常工况1 关联最大变量分别为: 3-XBH,1、5-SS,1、7-XBH,2、9-SS,2、11-XBH,3、12-XBA,3、14-SNH,3、15-SS,3、17-XBH,4、18-XBA,4、21-SS,4,23-XBH,5、24-XBA,5和27-SS,5.这意味着异常工况1 与活性异养菌生物量、活性自养菌生物量、易生物降解有机底物量有关,据此可以判断异常工况1 为毒性冲击,即毒性冲击导致活性异养菌与活性自养菌数量减少,从而导致易生物降解有机底物量等过程变量出现异常.图11 也显示与异常工况2 关联最大的变量分别为: 1-Qin、2-SNH,in、6-SALK,1、8-SNO,2、13-SO,3、16-SALK,3、19-SO,4、20-SNH,4、22-SALK,4、25-SO,5、26-SNH,5和28-SALK,5.这意味着进水流量和进水氨浓度与异常工况2 的发生有关,这些变量的异常也同时导致反应池中碱度、硝氮浓度、氨氮浓度的变化,故此判断异常工况2为进水量异常.根据上述分析可知,本文异常工况识别方法所得到的变量贡献矩阵对异常工况的解释符合实际情况,能够识别出与异常工况相关的关键变量,从而验证了本文方法在异常工况识别的有效性和实用性.
图11 异常工况识别结果Fig.11 Recognition results of abnormal conditions
表4 异常工况识别结果表Table 4 Abnormal condition recognition result table
注2.本文异常工况识别算法思想源于FCM算法.在FCM 算法中,每个样本对于所有聚类中心的隶属度之和为1,隶属度值最大表明这个样本属于其对应的某个聚类中心.本文异常工况识别算法的思想是每个变量对各个工况都有一个贡献值,并且限定每个变量对所有工况的贡献值之和为1.如果某个变量对某个工况的贡献值最大,即表明此变量是与此工况相关联的变量,也就认为该变量是造成该工况的关键变量.也就是说前文提到的 “最大”指的是某个变量对某个工况的 “最大”贡献值,即本文异常工况关联最大变量的选取标准是对工况贡献值最大的变量.
针对先验故障知识少的非平稳污水处理过程异常工况监测与识别的难题,引入并改进了基于模糊c均值的聚类方法,提出了一种基于RoW-FCM 与KPLS 的过程监测新方法.该方法首先建立了质量变量与高维非线性污水处理过程变量的KPLS 模型,然后采用本文基于RoW-FCM 的算法对污水处理过程进行监测.数值仿真实验表明,相比于FCM、PCM、PFCM 算法,本文RoW-FCM 聚类算法对离群点具有更好的鲁棒性,并解决了不平衡簇数据集聚类问题.此外,数值实验也表明本文算法采用马氏距离能够适应更多聚类数据结构,明显优于基于欧氏距离的聚类算法.基于污水处理过程的异常工况检测与识别数据实验表明,本文方法在监测过程中准确率更高,迭代次数少,能够有效监测到污水处理过程中异常工况的发生,并能够正确识别出异常工况相关的关键变量,因此在污水处理过程监测和异常工况识别上具有较好的测试效果和应用前景.