带有特征选取电站锅炉燃烧效率建模

2020-07-16 03:43唐振浩吴笑妍曹生现
哈尔滨理工大学学报 2020年2期

唐振浩 吴笑妍 曹生现

摘要:针对电站锅炉效率难以准确测定问题,依据机器学习理论,采用数据驱动建模方法建立锅炉效率预测模型。分类回归树(CART)算法通过数据分析选取对锅炉效率影响显著的相关变量。然后,K最近邻(KNN)分类器对相关变量的样本进行分类,区分不同工况生产数据。根据不同工况数据,设计了一种基于差分进化算法(DE)的最小二乘支持向量機(LSSVM)建立数据驱动模型(DDMMF)。DE动态优化15SVM的参数以提高模型精度。最后,对预测模型进行动态修正进一步提高预测精度。基于实际生产数据的实验结果表明,该模型能够准确预测锅炉燃烧效率,满足锅炉燃烧过程控制和优化的需求。

关键词:特征选取;K最近邻分类器;数据驱动模型;模型修正;锅炉燃烧效率

DOI:10.15938/j.jhust.2020.02.001

中图分类号:TT274;TM621;TM31文献标志码:A文章编号:1007-2683(2020)02-0001-07

0 引言

燃煤锅炉在实际运行过程中的锅炉效率低于设计值,不仅降低生产效率,而且影响锅炉的安全运行。锅炉生产过程具有多参数、多工况、非线性等特点,难以准确建立锅炉效率预测模型。因此,本文对锅炉燃烧效率建模方法进行研究。

已有的锅炉燃烧效率建模方法可以简单概括为3类:机理、统计以及数据驱动方法。机理方法、统计方法在一定程度上不适合直接应用到锅炉效率的控制与优化过程中。因此,数学驱动方法被应用于锅炉效率预测中。LSSVM算法具有计算效率高、需要样本少等优点,其参数对其建模精度具有显著影响,因此,本文采用差分进化(DE)算法优化LSSVM的参数提高模型预测精度。为了进一步提高预测模型的精度,本文设计一种动态误差校正策略在线修正预测结果,取得良好效果。

在DE-LSSVM建模过程,由于输入参数多,导致建模过程的规模和复杂性较大。解决这一问题的主要方法是在建模之前对输入变量进行选取。由Breiman等提出的分类回归树(CART)方法可以获取影响锅炉效率重要因素,克服了其他特征选取方法的不足。另外,考虑到锅炉生产过程受电网负荷影响,存在多工况运行的情况,本文采用KNN方法,对生产数据进行聚类分析,区分不同工况下生产数据,分别进行建模,提高锅炉效率预测精度。

在本文中,采用CART算法通过数据分析选取影响锅炉燃烧效率的重要变量。并采用KNN分类器对样本数据进行分类,区分不同工况下的生产数据。在此基础上,设计了一种基于DE-LSSVM建立数据驱动模型。最后,本文对预测模型进行动态修正进一步提高预测精度。采用实际生产数据的实验结果表明,与多层感知机(MLP)、BP神经网络(BPNN)、差异进化算法优化的最小二乘支持向量机(DE-LSSVM)方法相比,本文提出的算法具有较好的泛化能力和预測精度。

1 基础算法

1.1最小二乘支持向量机

LSSVM是在标准SVM基础上,由Sukens等提出。相较于SVM,LSSVM求解问题的速度以及收敛精度有很大的提高。假设给定一个N个样本的训练集合{(xk,yk)|k=1,2,…,N},其中xk∈R表示第k个样本输入量;yk∈R表示第k个样本输出。由参考文可得到LSSVM非线性预测模型:

已有研究表明径向基核函数(RBF)具有较强的泛化能力,因此本文选取RBF作为LSSVM的内核函数,其表达为:

其中:x为新输入样本;xk为核函数中心;δ2是内核参数。

1.2 差分进化算法

差分进化(Differential Evolution,DE)是RStorn和K。Price在1995年所提出的。该算法基本原理是通过群体内个体间的合作与竞争产生的群体智能指导优化搜索。在典型的DE算法中,每一代的种群演化是由变异,交叉和选择3个主要步骤组成,如式(3-5)所示:

2 锅炉燃烧效率建模

在数据准备阶段中,本文首先采用CART从众多变量中选取对锅炉燃烧效率显著相关的特征(2.1节);然后KNN分类器将新的数据进行工况分类(2.2节),将分成两类的工况数据分别采用DE动态优化的LSSVM混合建模(2.3节);并且在此基础上进行模型修正(2.4节),提高预测精度。

2.1 特征选取

CART是基于基尼系数gini实现,采用gini系数衡量数据集的划分效果,将数据集依照评分标准进行分类。假设数据集T中的因变量存在n个类别,则数据集T的基尼系数如公式如(6)所示:

其中,T代表当前样本集;n为类别数;Pi为数据集样本不同类别的概率。

对于变量应在式(7)基础上,计算每个类别的加权和,如式(9)所示:

其中:N为训练样本集个数;N1为第一类别样本个数;N2为第二类别样本个数;T为数据集;T1是第一数据集;T2是第二数据集。

当数据集样本不同类别概率的平方p2很小时,说明按照gs(T)最小原则得到的分类条件和类别是独立,此时节点停止分裂。则变量重要性得分(Dr)与数据集样本不同类别概率Pj关系,如公式(8)所示:

其中:n为类别数;pj为数据集样本不同类别的概率。

2.2 工况分类

KNN分类器主要由k值选取、距离度量方式和分类决策规则三要素组成。首先,KNN通过交叉验证对固定的样本数据进行k值选取。其次针对不同工况进行距离测量函数,与文类似,本文采用欧式距离计算工况相似度。Sim(d1,d2)表示两组实际生产数据的相似度,如公式(9)所示。最后分类器依据工况分类将样本数据分成两类,并采用多数表决法将新数据进行归类,即KNN分类器通过训练集里的样本数据将新的样本数据进行归类,并使用相应的模型进行预测。

其中:W1i和W2i表示为2个n维向量的实际生产数据值;d1和d2为n维向量中相应特征项的权重。

2.3 数学驱动建模

本文采用DE来优化选取LSSVM中的核函数δ。以及惩罚因子C。在DE-LSSVM算法中,LS-SVM根据DE粒子信息和建模数据构建预测模型;DE算法根据LSSVM建立模型计算粒子适应度函数值,通过不断迭代获取最优参数组合。根据采用2.2方法进行分类之后的数据分别进行建模,建模过程如图1所示。

具体流程如下所示:

Step l:初始化DE参数,种群规模Np;最大迭代数Gm;缩放因子λ;并初始化代数G;将个体最优解pij设置为初始个体值;将全局最优解Pgi设置为第一代最优个体值;

Step 2:根据个体信息,采用归一化后的训练样本构建LSSVM模型,并计算各个个体的适应度值。其适应度值如(10)所示

其中:N表示测试样本的数量;Yi为预期锅炉燃烧效率;Yi是预测锅炉燃烧效率;

Step 3:判断是否达到最大迭代数,如果是,则停止算法,获取最优参数C,λ2,并输出预测模型;否则,继续执行步骤4;

Step 4:对个体变异、交叉、选择操作,产生新的个体,迭代数C=G+1;执行步骤2.

2.4 模型修正

模型在建模过程中会存在系统性偏差,使得预测值低于设计值。为了减少系统误差对预测精度的影响,本文对混合LSSVM模型采用了模型修正,使得预测精度更加准确,模型修正公式如(11)所示:其中:Yt是t时刻的模型校正值;Yt是t时刻的预测值;ω是0和1之間的常数;△t是上一时刻的预测值与实际值的误差值。Yt-1是t-1时刻的预测值;Yt-1是t-1时刻的实际值。

3 实验结果及分析

为了验证本文所提出算法的有效性,本节采用实际生产数据进行相关实验,验证本文提出的特征选取策略和工况分类策略的有效性;并且与MLP、BP神经网络等算法进行比较,最后,对实验结果进行分析。本实验仿真数据基于某电厂厂级监控信息系统(SIS),每隔1min提取一组数据,共收集35个变量(其中模型初始输入变量34个,输出变量1个),640组实验数据(其中440组用来训练模型,其余的200组作为模型测试样本)。样本数据全部采用极差归一化映射到[0,1],极差归一化公式为其中:yj为按照时间序列排列的元素绝对值;yR是极差归一化后的映射值。

本文全部实验在配备i5双核Core(2.50GHz)处理器、内存2.0GB以及Windows764位操作系统的PC上进行,采有MA7LAB 2014a编程实现。

3.1 特征选取实验结果

本文采用CART方法以主蒸汽压力、给水量以及总风量等变量判断输入特征。根据式(8)求解的锅炉燃烧效率相关重要性值得分,如图2所示。最终选取15个特征变量,具体选取的输入特征变量如表1所示。

3.2 评价指标

本文使用建模误差的统计量对建模结果进行比较和评价,如均方根误差(RMSE)、平均绝对误差(MAE)、平均相对误差(MRE)以及相关指数(R2)。RMSE是观测值与真值偏差的平方,能够很好地反映出测量的精密度,当RMSE值越小,测量数据偏离真实值的程度越小,精密度越高。MAE是所有单个观测值与算术平均值的偏差的平均绝对值,能够比较准确的反映预测误差的大小,当MAE越小,预测误差越小,预测精度越高。MRE是绝对误差与测量值或多次测量的平均值的比值的平均值,它能更好地反映测量的可信程度,当值越小,预测可信度越高。R2表示预测值和原始值之间的匹配程度。当R2越接近1,预测性能越准确。

性能评判准则的计算公式如式(13)-(16)所示:

3.3 工况分类实验结果

考虑到锅炉生产过程存在多工况运行的情况,导致单一模型难以准确预测锅炉燃烧效率,本文在CAR了算法筛选出相关变量后采用KNN方法,对生产数据进行工况分成2类,区分不同工况下生产数据,分别进行建模,提高锅炉效率预测精度,如图3所示。图3中(a)(b)分别为第一类的测试样本和第二类测试样本经DE-LSSVM建模后所得的预测与实际对比图。

从图3可以看出该模型测试样本中的实际值曲线与预测值曲线预测趋势在允许误差5%以内,这说明模型预测精度高。将新的样本数据采用欧式距离计算每一类质心的距离,判断新的样本数据归属后,采用其相应的模型进行预测,运行后的相关性能如表2所示。从表2可以得出,采用KNN分类器作为样本选取工具的相似系数较源模型提高了30%,运行后得到的MRE减少31%。实验结果表明KNN算法的应用提高了锅炉效率建模的精度和计算效率。

3.4 与其他常用算法性能比较

本文提出的DDMMF算法预测结果的相关指数为0.986,而没对模型修正KDLSSVM模型相关指数是O。946.采用MLP模型和BPNN模型,与DE-LSSVM模型与本文所提出的模型进行预测性能比较。各个模型的对比结果如表2和图4所示。从图4可以看出,本文所提出DDMMF算法在预测锅炉燃烧效率时,预测值曲线几乎与实际值重合,表明模型能够较好地预测锅炉燃烧效率,从表2可看出,MLP模型在对测试样本进行建模预测时,RMSE较DDMMF模型降低了5.979,但模型的相关指数仅为0.754.BPNN模型在预测锅炉燃烧效率时,MRE、MAE以及RMSE都较所提出的DDMMF的性能指标小,但该模型的相关指数较本文所提出的DDMMF降低了1.4%。增加工况分类KDLSSVM建模方法在对测试样本进行建模预测时,MRE、MAE、RMSE分别较未工况分类的DE-LSSVM建模方法降低了21%、29%、10%,但相关指数较DDMMF降低了4%,而本文所提出的DDMMF除BPNN模型,对测试样本的性能指标都较其他所提及的模型小,且模型的相关指数达到了0.986,因此该模型较其他建模模型有着更好的拟合与预测能力。

为了进一步对比各个模型的建模精度,绘制各个算法按预测误差绝对值的箱型图,如图5所示。从图5中明显地看出所提出的DDMMF预测误差较为集中在零点附近,较其他几个建模模型相比,具有更好的预测精度。

综上所述,本文对锅炉效率建模过程的参数选取、样本预处理、数据驱动建模和模型校正4个环节进行研究,设计了一个完整的锅炉效率建模算法框架,并且各个环节对提高算法的整体计算效率和计算精度都有帮助作用。这一设计思路和方法也可以推广到其他建模过程当中。

4 结论

本文提出一种带有特征选取的多工况数据驱动建模方法(DDMMF)建立锅炉效率预测模型。本算法以现场生产数据为基础,采用CART方法对输入变量进行特征选取,并通过KNN算法对实验数据进行工况分类,然后设计基于DE动态优化的LSSVM算法进行建模,最后构造自适应模型修正算法进行提高模型精度。与常用建模算法相比具有泛化性能强、预测精度高、计算效率快等优点。此外,基于实际生产数据的实验结果表明,该算法更好的满足实际生产过程的需要。下一步的研究将从算法在其他预测问题上的推广和算法改进两个方面开展。