葛凌峰,潘广强,高宪宾,闫超,王佃昌
(华电国际电力股份有限公司十里泉发电厂,山东 枣庄 277103)
关键字:脱硫系统;工况划分;高斯混合聚类
SO2是火电厂的主要排放物,对于燃煤电厂来说,降低发电产生的SO2等对环境的污染是电厂重要工作之一。针对SO2带来的环境问题,火电厂大多数都采用各种脱硫技术,严格控制SO2等污染物的排放[5]。目前火电机组脱硫系统主要采用湿法烟气脱硫技术[4],但是脱硫技术虽然可以降低电厂生产产生的SO2等污染物,却也显著提高了相关的能耗[6]。因此,研究脱硫系统的优化降耗对电厂节能降耗、节能环保具有重要的理论和现实意义。
本文通过大数据分析技术,基于脱硫系统的历史数据,通过高斯混合聚类算法对历史数据进行工况划分,并根据优化目标,标记最优工况;然后在系统实际运行时对比历史工况,预测工况类型以及最优工况,并根据最优工况提出优化操作指导方案,从而实现脱硫系统的运行优化。
本文以大数据数据模型为基础,通过使用GMM聚类算法对脱硫系统的运行数据进行聚类分析,实现脱硫系统数据的工况划分。
高斯混合模型(Gaussian Mixture Model,GMM)聚类算法,采用统计混合模型进行聚类分析。其基本思想是:假设数据集符合高斯混合分布,根据概率得到样本所属的类别,从而进一步实现数据集的聚类。
GMM聚类方法不是将样本简单地分配到某一类中,而是给出样本属于某类的概率,为“软聚类”算法,文献[1-3]指出它优于硬分配聚类,应用场景广泛,适用于更多数据簇情况。并且文献[8]中将GMM聚类算法与常见的聚类算法进行了比较,得出GMM聚类算法比层次聚类、SOM等聚类算法更优的实验结论。
在文献[1]中作者指出大部分数据符合高斯分布,或接近高斯分布。由此可见高斯混合聚类算法适合于大部分应用场景,因此本文选取高斯混合聚类算法对脱硫运行数据进行分析。
高斯混合模型由多个高斯分布模型组合形成[2],通常用于同一数据集包含不同分布的情况,因此常常被用来进行聚类分析[3]。
对于某样本集合X来说,假设该样本服从混合高斯分布,并假设共计有n个高斯分布模型,则整个高斯混合模型可表示为:
其中λi表示第i个成分模型的系数,表示第i个成分模型的概率密度函数,μi为第i个成分模型的均值向量,为第i个成分模型的协方差矩阵。
由此可以明显看出,样本X是由n个模型线性组合而成的,λ实际上代表了各个模型的权重。
采用最大似然法对模型参数进行估计。高斯混合聚类算法需要对3种参数:λ,μ,即权重、均值以及协方差参进行参数估计,则公式(1)可以由以下公式(2)表示:
高斯混合模型聚类的主要步骤如下:
步骤1:参数初始化
对n个混合成分模型的参数分别初始化,则对第i个混合成分模型来说,初始化λi,μi,参数值。
步骤2:进行参数估计及后验概率计算
对模型参数进行估计,根据估计的模型参数值,计算各个混合成分模型下对样本生成的后验概率。
步骤3:参数更新
更新各个成分模型的参数,对第i个混合成分模型来说,更新其对应的参数:系数λi,均值μi,协方差。
步骤4:重复步骤2以及步骤3
使用步骤3更新后的模型参数,重复进行步骤2以及步骤3的操作及计算,直到算法满足一定的条件、算法收敛,结束算法模型的学习,输出最终训练得到的各个成分模型的参数值。
步骤5:得到聚类结果
根据最终的参数,计算每个样本在每个成分模型下的概率值,然后将每个样本按照概率值划入对应的各个模型,对聚类来说,则是将样本划分到各个簇中。
对某个样本来说哪个模型下的概率值大就将样本归到哪个模型下,最终对所有样本X计算并归类,实现将样本X划分到多个簇中。
综合分析影响脱硫系统运行的关键指标,并收集运行数据,然后对运行数据采用GMM聚类算法,将运行数据划分为多个运行工况,并保存好工况划分的模型结果。
通常,在对运行数据进行聚类时,需要首先设定聚类的数目。
本文采用AIC准则及BIC准则综合衡量聚类结果,并选取最佳的聚类数目。赤池信息准则AIC以及贝叶斯信息准则BIC,是两种常用于衡量模型好坏的准则[7]。一般选取最小的AIC值或最小的BIC值对应的聚类数目,则为最佳的聚类数目。
建立标准库:设定节能优化目标,并根据节能优化目标,寻找不同工况的最佳工况、标记最佳工况,并以此建立标准库,在脱硫系统实际运行时,运行优化调整皆参照标准库进行。
系统运行时,对比当前运行状态以及标准库数据,预测实时运行状态可调节的最优工况,并提出优化方案,辅助指导脱硫运行,降低能耗值。
使用保存的工况划分模型,输入脱硫关键指标实时数据,预测脱硫系统实时状态的工况类别,比对标准库,提出优化方案,辅助指导调节脱硫系统的实际运行。
(1)数据说明。实验数据为山东某电厂的脱硫系统实际运行数据。从历史数据库中,以5分钟为间隔,获取脱硫系统2017年6月1日至2017年7月31日为期2个月的真实历史数据,数据共有17568条。
(2)数据质量检测。检测数据质量,并将不符合实验要求的数据删除。
空数据检测:对实验数据进行空数据检测,对含有空数据的样本,无法进行常规实验及测试,因此将此类样本删除;
超限数据检测,筛选测点数值超限的数据,并认为此类数据质量低,不符合实验要求,将此类样本删除。
(3)数据归一化。对实验数据进行归一化处理,所有指标都转换到同一数值范围。后续实验操作皆采用归一化后的实验数据。
(4)数据分割。为了验证算法的有效性,对样本数据进行数据分割,80%作为训练样本数据,剩余的20%样本作为测试样本数据,其中样本选取方式为随机选取。
(5)工况数寻优及模型训练。对训练样本,采用GMM聚类算法进行聚类,训练过程:对实验数据的关键指标例机组负荷、入口二氧化硫折算浓度、浆液密度以及吸收塔液位等对应的数据进行聚类,实现对实验数据的工况划分并记录、输出各个样本数据的工况类别。
设置聚类数目为2-10,计算不同聚类数目下对应的AIC值以及BIC值,选取最小AIC或BIC值对应的聚类数目作为最佳聚类数目,即最佳的划分工况数。
图1展示了实验数据在不同聚类数目下的AIC以及BIC值。本实验中最小的AIC值对应的聚类数目为10,最小的BIC值对应的聚类数目亦为10,因此选定聚类数10,对实验数据进行工况划分,并保存工况划分模型的训练结果。
图1 不同聚类数下对应的AIC 以及BIC 值
一般研究脱硫系统的电耗或物耗最低作为优化目标。本实验中设置的优化目标为脱硫系统浆液循环泵的电耗最低,取各个泵的电流之和作为节能指标,来衡量其电耗情况。
在对实验数据进行工况划分后,寻找各个工况下的最低节能指标数据作为最优工况,并建立标准库。
表1展示经过训练后划分各个工况的情况。为了了解各个工况的总体情况,表1展示10个工况部分指标的均值以及各个工况的工况数目,具体如下:
表1 工况展示
(6)模型测试。使用训练好的聚类模型,预测测试样本所属的工况类别。比对建立好的标准库,查询最优工况及最低节能值。对比原始节能值及预测的节能值,图2展示测试样本的原始节能指标值以及通过本实验建议预测的节能指标值。
图2 原始节能指标及预测节能指标
其中蓝色线代表测试样本的原始节能指标值,红色线代表本实验预测的节能指标值,有图可以明显看到红色线值比蓝色线值有明显的降低。
使用公式(4)计算测试样本的平均节能能力。通过计算得到测试样本的平均节能值为10.67%,由此可见,如果根据本实验方法进行调整优化,比原来大概可以节约10.67%的能耗。由此可见本方法对脱硫优化调整具有一定的辅助及参照作用。
本文通过大数据分析方法研究脱硫系统的优化,采用GMM算法对脱硫系统数据进行工况划分,然后在实际运行时,预测最优工况,实验结果显示根据该方法进行调整,可以取得较好的经济效益,对脱硫系统优化指导具有重要的参照意义。