基于GAGRNN数据挖掘的SCR脱硝系统建模优化研究

2020-05-10 12:08钱玉良彭道刚
上海电力大学学报 2020年2期
关键词:适应度数据挖掘种群

温 鑫, 钱玉良, 彭道刚, 马 浩, 石 宪

(1.上海电力大学, 上海 200090; 2.华能上海石洞口第一电厂, 上海 200942)

近年来,随着我国经济的发展,能源消费中所带来的环境污染也越来越严重。氮氧化物(NOx)是主要的大气污染物之一,伴随着耗电量的增加,燃煤电厂的烟气浓度排放成为重点关注对象[1-4]。我国对氮氧化物排放控制标准的要求越来越严格,为了控制火电厂尾气中氮氧化物的排放,燃煤电厂广泛使用选择性催化还原法(Selective Catalytic Reduction,SCR)烟气脱硝系统,因此各电厂对 SCR 系统优化控制技术的需求十分迫切[5]。准确的模型是系统优化控制的基础,选择合适的输入变量是建立模型的重要前提。

随着人工智能技术的迅速发展,数据建模方法得到了广泛研究[6]。周洪煜等人[7]采用径向基函数神经网络建立了SCR脱硝系统模型并优化出口烟气NH3/NOx比值;MEHMOOD T等人[8]对常用的变量选择方法进行了详细论述;徐富强等人[9]建立了最优径向基函数模型,通过平均影响值算法来进行变量处理。刘吉臻等人[10]采用点互信息进行了变量选择并建立了脱硝系统模型。

本文采用遗传算法(Genetic Algorithm,GA)对SCR系统运行数据进行优化计算,经过主元分析选出重要的独立变量;然后将变量选择结果作为广义回归神经网络(Generalized Regression Neural Network,GRNN)模型输入变量,通过交叉验证的方法训练GRNN,利用数据挖掘技术建立SCR系统的GRNN优化控制数据模型;最后基于上海华能某电厂机组SCR系统运行数据进行了验证。

结果表明,该方法建立的模型具有拟合度高、复杂度低、泛化能力强等优点,能准确反映SCR系统的变化过程,在电厂SCR系统升级建设中具有较高的实用价值。

1 SCR烟气脱硝系统介绍

图1为上海华能某电厂燃煤机组采用的SCR烟气脱硝系统。

图1 SCR烟气脱硝系统示意

SCR脱硝装置布局在锅炉省煤器和空气预热器的中间,设计为高灰型,安装上SCR反应器,烟气挡板分别装在反应器两侧进口烟道以及省煤器旁路。SCR脱硝系统采用TiO2作为催化剂,用尿素制备脱硝还原剂。热解炉中的氨气还原剂由热解喷枪喷出尿素溶液蒸发而来,空气/氨气混合物通过热解炉出口的母管分散进入各分支管,混合气体通过分支管的喷氨栅格进入烟道,静态混合器将烟气与氨气进行充分混合后送入催化反应器。催化氧化还原反应在氨气与NOx达到相应温度时开始发生,这样NOx就被还原为N2和H2O,以实现烟气脱硝[11]。其脱硝效率受氨氮比、烟气含氧量、锅炉温度、进风量、反应时间等一系列因素的影响[12]。

SCR脱硝过程发生的主要化学反应如下:

4NO+4NH3+O2→4N2+6H2O

(1)

NO+NO2+2NH3→2N2+3H2O

(2)

6NO2+8NH3→7N2+12H2O

(3)

4NH3+3O2→2N2+6H2O

(4)

4NH3+5O2→4NO+6H2O

(5)

2 基于GAGRNN数据挖掘的SCR系统模型

2.1 SCR系统模型优化分析

在SCR系统数据建模时,既要考虑全工况,又要考虑各种影响因素。发电机组动态工况下各变量特性不稳定,模型的准确度与其息息相关。其中,关联度最大的有机组负荷、入口烟气NOx含量、入口烟气温度、入口烟气含氧量、喷氨量、SCR反应器1层压力差、SCR反应器2层压力差、SCR反应器3层压力差、进入反应器前总压力、总煤量、总风量、出口烟气含氧量共12个变量。系统输出为烟囱入口NOx含量。在建立系统数据模型时,加入过多关联性小的输入变量会加剧模型建立的复杂度,因此对变量影响因素进行主元分析,选择出重要的独立变量是提高模型精度的重要环节。12个输入变量及序号如表1所示。

表1 12个变量及序号

其中,机组负荷与烟囱入口烟气NOx含量变化关系如图2所示。

由图2可知,在机组负荷上升时,烟囱出口烟气NOx含量也随之升高,即喷氨调节的延迟会造成排放超标,喷氨量加大。为了达到排放标准,电厂会进行过量喷氨,导致氨逃逸的发生。因此,通过数据挖掘技术建立准确的SCR数据优化模型是电厂改造形势所需。

图2 机组负荷与入口烟气NOx含量变化关系

2.2 GA变量选择方法

GA最初由美国的HOLLAND J教授提出,它通过模拟种群自然选择和基因遗传中发生的复制、交叉和变异等现象,通过选择、交叉和变异进而得到最适应此环境的个体,从而能够求得变量选择最优解[13]。

所需的N个初始串结构数据系统随机产生,一个串结构数据对应一个种群个体,分为0/1两个值。适应度是GA用来度量群体中每个个体在优化计算中达到最优解的程度,X为相应个体,用适应度函数来度量每个个体适应度的大小。本文取测试数据误差平方和的倒数为适应度函数,即

(6)

T——测试集的真实值,T={t1,t2,t3,…,tn};

n——测试集的数目。

选择操作选用比例选择算子,代表被选中的个体能遗传到下一代种群的概率与该个体适应度大小成正比。

计算种群中所有个体的适应度值之和

(7)

式中:nr——个体特征总数;

k——个体特征;

Xk——种群中的各个个体。

计算每个个体的相对适应度,并将其作为该个体被选中然后能遗传到下一代种群的概率,即

(8)

式中:F——种群中所有个体的适应度之和。

用模拟轮盘赌操作,产生0~1之间的随机数,确定个体被选中的次数。个体的适应度越大,被选中的概率也就越大,其基因也就会在种群中逐渐扩大。

交叉操作采用单点交叉算子。先进行种群中个体的两两随机配对,然后选出配对个体的基因交叉点,再交换两个个体的部分染色体,产生两个新个体,其原理如图3所示。

图3 单点交叉算子操作示意

变异操作采用单点交叉算子。先随机产生变异点,然后改变对应基因座上的基因值,其原理如图4所示。

图4 单点变异算子示意

经过不断的迭代操作后,当达到迭代截止条件时,得到的末代种群即为筛选出的重要输入变量。

2.3 GRNN算法

GRNN是美国学者SPECHT D F提出的一种径向基神经网络。其优点是非线性映射能力强、柔性网络结构以及超高的容错性和鲁棒性,多用于解决非线性问题。

GRNN网络结构由输入层、模式层、求和层和输出层4层构成,如图5所示[14]。

GRNN的理论基础是非线性回归分析,通过计算含有最大概率值的y来进行非独立变量Y于独立变量x的回归分析。设f(x,y)表示随机变量x和y的联合概率密度函数,已知x的观测值为X,y是相对于X的回归,条件均值为

(9)

图5 GRNN网络结构

(10)

式中:p——随机变量x的维数;

σ——Gaussian函数的密度系数;

Xi,Yi——随机变量x和y的观测值。

(11)

(12)

数,所有Yi的权重因子是其样本Xi与X两者Euclid距离平方的指数。当σ取合适值时,便能考虑所有训练数据的因变量,加大与预测点最近的样本点所对应因变量的权值。

2.4 基于GAGRNN数据挖掘的SCR系统模型

数据挖掘技术是一种数据库知识的发现,是从采集的海量数据中通过算法搜索隐藏其中的信息和规律的过程,主要包括三大流程:数据预处理、数据挖掘算法以及知识表示和评估。

首先,GA变量选择是利用GA进行优化计算,编码长度设计为N,种群大小为M,最大进化代数设为X,染色体每一位对应一个输入变量。每一位基因只能取“0”和“1”两种情况:如果某一位是“1”,其对应的输入变量参与最后的建模;若为“0”,则不参与最后建模。取测试样本集和方差的倒数为遗传算法适应度函数,选择运算采用比例选择算子,交叉运算采用单点交叉算子,变异运算采用单点变异算子,经过大量数据的不断迭代进化。当满足迭代终止条件(最大进化代数)时,筛选出最优变量作为建模的输入变量{w1,w2,w3,…,wi}。

因一般神经网络在函数逼近时存在收敛速度慢和局部极小等一系列缺点,而GRNN数据挖掘技术在逼近能力、分类能力和学习速度方面具有较强优势,网络最后收敛于样本量积累最多的优化回归面,并且可以处理不稳定的数据,因此将其用于基于数据的系统模型的建立。

以GA筛选出的{w1,w2,w3,…,wi}作为网络输入,构建GRNN模型,利用大量数据进行数据挖掘,采用交叉验证的方法训练GRNN。当SPREAD值(即径向基函数的扩展速度,默认值为1)较小时,网络对样本的逼近能力较强;当SPREAD值越大时,网络对样本的近似越平滑,误差也变大。

在建模过程中,为了得出最佳的SPREAD值,通常用循环训练法找出最佳值,并以此最佳方法建立GRNN,从而达到最好的预测效果。利用GA变量选择优化GRNN建模的流程如图6所示。

图6 利用GA变量选择优化GRNN建模的流程

3 算例分析

通过采集华能上海某火电厂1#机组SCR系统的实际运行数据,来验证本文提出的基于GA-GRNN数据挖掘技术的建模方法的有效性。选取正常运行下1#机组负荷变化较大的某一周,间隔1 min进行采样,处理掉异常数据,选取720组历史运行数据作为研究样本,其中600组数据作为训练数据,剩余120组作为测试数据。原始12个输入变量如表1所示。

先将所有数据样本进行平滑处理,归一化到[-1,1]范围内,利用GA进行变量选择,编码长度为12,种群大小为20个,最大进化代数设为60代,选取测试样本均方误差倒数为GA适应度函数,经过数据挖掘不断迭代筛选出最优输入变量[15]。

模型精度评价指标采用均方根误差(Root Mean Square Error,RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE),计算公式为

(13)

(14)

GA适应度函数进化曲线如图7所示。变量选择结果如图8所示。

筛选出的最优变量结果为“1”,由图8得原始变量序号为1,2,5,8,9,10,12,即为机组负荷、入口烟气NOx含量、喷氨量、SCR反应器3层压力差、进入反应器前总压力、总煤量、出口烟气含氧量。

图7 适应度函数进化曲线

图8 变量选择结果

通过基于GA变量选择得出的7个输入变量以及输出变量烟囱入口烟气NOx含量构建GRNN模型。采用交叉验证方法训练GRNN,并循环找出最佳SPREAD值,利用数据挖掘GRNN对SCR脱硝系统进行优化建模,结果如图9所示。

运行显示,最佳SPREAD值为0.1,GRNN模型计算值大致在实际测量值附近,说明模型能很好地反映SCR脱硝系统出口烟气NOx含量的动态变化,具有很好的精度以及较强的学习能力和泛化能力。

图9 GAGRNN模型计算结果

将本文提出的方法与其他方法进行对比。利用数据挖掘技术,首先通过原始12个输入变量进行BP神经网络建模,然后通过GA变量选择得出的7个输入变量进行BP神经网络建模以验证变量选择对模型精度的影响,并将7个输入变量用于Elman建模与GRNN模型进行比较。其中原变量BP模型计算结果如图10所示,GA-BP模型计算结果如图11所示,GA-Elman模型计算结果如图12所示。不同建模方法下各指标比较如表2所示。

图10 原变量BP模型计算结果

图11 GABP模型计算结果

图12 GAElman模型计算结果

表2 不同建模方法比较

通过图9~图12和表2可以发现,BP神经网络泛化能力最差;利用GA-BP,GA-GRNN,GA-Elman模型与BP模型进行对比发现,变量选择能提高模型精度,降低模型复杂度,证明GA变量选择算法在该系统中的适应性;通过对比GA-BP,GA-GRNN,GA-Elman 3种模型发现,GRNN的拟合效果最好,测试样本计算结果误差最小,MAPE只有4.568 7%,模型精度大幅提高,建模时间缩短,说明GRNN算法提高了模型的准确性和鲁棒性,能够满足工程优化需要。

4 结 语

本文采用数据挖掘技术,通过GA优化计算进行变量选择,在连续迭代演化后,筛选出最具代表性的输入自变量参与建模。然后将最优输入变量作为GRNN的输入,采用交叉验证方法训练GRNN,通过循环找到最佳SPREAD,最终建立SCR脱硝系统数据模型。实例分析表明,通过GA变量选择减少输入变量的数量可以有效地降低模型的难度和复杂性,建立的GRNN模型具有模型泛化能力强、精度高等优点,能够进一步实现SCR脱硝系统优化控制以及智能电厂的建设与改造。

猜你喜欢
适应度数据挖掘种群
改进的自适应复制、交叉和突变遗传算法
山西省发现刺五加种群分布
基于双种群CSO算法重构的含DG配网故障恢复
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
中华蜂种群急剧萎缩的生态人类学探讨
一种基于改进适应度的多机器人协作策略
基于空调导风板成型工艺的Kriging模型适应度研究
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议