林 安 阮 琥
(台州市环境科学设计研究院浙江台州318000)
探究污水处理中数据挖掘技术的运用
林安阮琥
(台州市环境科学设计研究院浙江台州318000)
目前,科学技术水平的进步与提升,人类的生活以及工业用水也随之增加,所排放的污水量也在不断增大,为了能让人人都有干净的水喝,污水处理技术在人们的生存需求下迅速发展;污水处理过程并不是单一的污水过滤,其工艺过程相当复杂,而当前,对于污水处理的整个过程中,数据处理、发掘数据技能和故障诊断等都与其有很大的关联;因此本文就污水处理中数据挖掘技术的运用进行了阐述,并通过对污水处理数据的特点,进一步探究了数据挖掘在污水处理异常检测中应用的方法。
污水处理;数据挖掘;运用
污水处理属于处理工艺非常繁复的生化过程,无法一直保持稳定的状态。操作人员以及管理者们一直以来都是按照多年积累的经验,对污水处理的整个过程加以管理,这就需要操作人员及管理者们具备广泛的知识以及较长时间的实践操作经验。处理污水故障的专家在诊断系统知识库时,也需要依赖于污水处理专家的经验进行建立。当污水处理在工作过程当中,会由监控设备获取大量的污水状态数据。而数据挖掘过程,就是从这些获取的历史数据中挖掘出可用的知识模式,运用数据挖掘技术来对历史数据进行分析,这也是极其实用的获取知识的途径。数据挖掘技术中涵盖了无监督的分类技术,可优先对所收集的历史数据对数据挖掘中的数据加以分析,再运用专家的知识分析污水处理挖掘的有效数据知识,进而获取污水处理厂设备的相关监控进行分析,例如污水处理设备故障检测以及活性泥成分分析等。
污水处理是一个不简单的过程,因其高维且有较强的耦合性,加之数据量较大,储存在数据库中的数据经过几年以后,数据积累量非常大。此外,在污水处理的过程中,很多行为状态是根据变量因素共同决定的,它们间有较强的非线性或者耦合关系存在,例如温度的高低会给水的溶氧度值带来影响,在污水处理自动化中,其监控设备所搜集到的数据有以下特点,如图1所示。
图1 污水处理装置
1.1工业噪声以及处理过程中的不确定性
工业处理过程中,系统工作环境非常复杂,噪声、磁以及电的干扰较强,此外,系统内有不确定性存在,以至于数据容易受到污染,导致监控数据失效或者丢失。
1.2动态性与数据类型的多样性
污水处理,是属于动态变化的过程,每个处理步骤或者处理设备都会对进入流程内的污水加以处理,中和、加入以及将某些物质过滤后,污水的每个属性参数所占的比例都会无时无刻发生变化,在监控中将数据获取,对数据挖掘进行深入分析,能够获取预测系统状态以及系统状态变化趋势的有利知识。此外,监控设备所采集污水处理过程当中,其所取得的数据类型也是不统一的:例如逻辑型、数据型以及非数据型等。
1.3不统一性与多时标性
在储存污水处理数据的数据库当中,经常会有数据丢失的情况存在,通常对不相同的数据属性使用信号所采集的频率也不一样,存储时间无法同步存储,以至于数据出现不完整性的情况。
1.4多模态性
污水处理过程无法长期处于正常的运行状态,会有不同程度的异常设备故障出现。系统状态变化的反应可通过数据分析,由污水处理数据进行数据挖掘,能够挖掘出异常的工作状态。除此之外,在污水处理中,数据挖掘一般要对部分质量指标如能耗、出水水质以及环境影响等加以评价,加大了数据挖掘的整体难度。
因污水处理过程数据具有多种特点,所以,数据挖掘应用会有很大的限制,从数据缘由分析,目前,取得污水处理过程的知识要依赖于运用直接运行过程所得出的数据加以辨识;利用实验室对系统的动态性能和静态性能进行了详细的探究;这两种方式都均为从现有的数据中寻找可利用的知识。同时,这也是数据挖掘以后要进一步探讨的内容。而今,污水处理过程获取知识的方式应用主要分为预测模型以及异常诊断两大类。如图2所示。
图2 城市污水处理率
2.1污水处理过程中的异常检测
污水处理这个过程非常的复杂,污水处理厂长期稳定运行不仅较为困难,还受很多环境因素的影响,加之水量波动以及进水水质的随机干扰也较大。活性污泥在处理过程当中,有污泥上浮、污泥膨胀以及泡沫等现象等,这些故障不仅导致污水处理工艺的故障,还加大了污水处理的整体能耗,影响了污水处理的出水水质。所以,怎样对污水处理工艺过程的故障进行诊断,是目前需进一步探究的问题。污水处理,一般处于正常状态,而故障状态对于个别性能来说,正常状态下的数据点会大于数据点的故障状态,因此利用异常检测的思想来识别异常值,根据异常检测技术来收集异常数据信息,对异常检测数据加以解释,确定好工艺处理的故障,及时的纠正并维护设备故障,进而确保污水处理中出水的质量,进一步降低能耗。
2.2污水处理过程中的建模
模型结构分为3种类别,灰盒、白盒以及黑盒,从获取污水处理过程知识的角度看,用到的主要是黑盒模型和灰盒模型,这是由于一旦对整个过程的各个细节和机理都了解的非常透彻,就无需再利用观测数据学习。在创设黑盒及灰盒过程当中,都需有模型参数的估量工作,待定的参数多则几个,少则一个,其数目确定模型的整体结构;待定参数的确定通常有统计回归法、时间序列模型法以及人工智能法等。不管利用哪种方式估计参数,都确立在实验的最终结果以及数据观测的基础上。
数据的挖掘在污水处理异常检测当中,其应用的时间很长,而这些都是以专家系统为基础的,专家系统要求一定要具备丰富的污水处理实践经验,近几年,有部分研究人员开始运用异常数据点以及正常数据点独有的特性,或是通过异常模型的建立,挖掘污水处理数据,目前,污水处理异常检测的几种方法和模型。
3.1采用基于统计方法的异常检测
以统计方法为基础的异常检测方法,该方法优先将数据的每个属性集做一个假设,研究其是否与正态分布相符合,接着确定好每个聚类簇的中心,这也是检测异常数据的中心问题,最后是通过分布特性检测异常数据。因污水处理数据集的各个属性维并不都是完全满足正态分布,所以,在实际应用中假设符合分布还是有局限性存在。
3.2对异常数据进行检测
异常检测过程采用聚类-检测两个阶段对异常数据进行检测。该算法的重点是将数据聚类所获取的簇集合分成两种,即“Small和Large”两种类型。Large簇指的是数据项比较多的某些簇,这些簇涵盖了超过整个数据集中某个百分比的数据项,剩余的部分簇就是Small簇。对于不同的簇使用不同的局部异常因子计算公式。数据项所对应的LCF愈来愈大就说明有可能是异常的数据,所以,该方式能够根据用户所规定的参数进行调节,但是需要挑选出合适的对属性进行离散化处理。系统运用正反向混合推理方式,并利用推理树的形式把知识库中的知识组织形式向用户公开,进而方便用户使用以及维护系统。
而今,科学技术的进一步发展,乡镇及城市的污水总量在逐步增加,使污水在进行实时监控处理时的难度进一步增加,此外,在污水总量逐渐增加的情况下,带来的污水处理数据的监控属性也不断增加,同时,提高了污水数据的维度,让运用以往的挖掘技术算法面临着非常严峻的考验。而在今后,希望可以通过数据的不同特点而利用不同的数据挖掘方法;此外在污水处理的过程中,像污水量的预测模型等方面具有数据挖掘技术存在很大的发展空间,同时也可以将污水处理做的更好。
[1]陶若.数据挖掘在银行卡业务中的研究与应用[D].南开大学硕士学位论文,2006:8-20.
[2]李晓东.城市污水处理厂数据挖掘及相关技术研究[D].湖南大学博士学位论文,2007:17-18.
[3]夏姜虹.数据挖掘技术的常用方法分析[J].云南大学学报, 2011,33(S2):173-175.