基于CEEMDAN-LOF的企业能耗异常辨识研究

2022-12-26 10:57付茂盛张仰飞

机械与电子 2022年12期

付茂盛，耿建，张仰飞

(1.南京工程学院电力工程学院，江苏南京 211167；2.国网山东省电力公司泰安供电公司，山东泰安 271000)

0 引言

伴随当今社会经济飞速发展，能源短缺问题逐渐成为国家关注的焦点。工业企业是能源消费的重点，约占全国能源消费的70%[1-3]，但大多数工业企业缺乏有效的监控手段，导致企业用能粗放。因此，企业能耗异常精准辨识研究已成为目前高耗能企业节能工作亟待解决的关键问题[4]。

以往已有部分学者对能耗异常问题展开研究，并取得了不少成果。文献[5]考虑采用基础统计算法来获取能耗阈值，解决了能耗异常问题，实现了用户能耗异常的精准判断；文献[6]从统计学方面入手，通过对用户能耗数据的深度挖掘，建立了较为精确的能耗预测模型，实现了能耗异常预警。以上文献均对能耗异常问题进行了探讨，但未考虑季节和时间等场景对能耗异常诊断的影响，可能会影响能耗异常诊断的准确性。

因此，现阶段能耗异常检测主要分为2个步骤：能耗模式的识别和离群数据的检测。现有的研究大部分是对这2个步骤进行改进，文献[7]针对玻璃窑炉能耗异常检测问题，提出一种基于人工蜂群算法的密度峰值聚类方法，自适应选择密度峰值聚类参数，实现窑炉能耗异常的检测。文献[8]提出一种SA-DBSCAN算法自适应识别建筑能耗模式，有效解决高校建筑能耗容易误判的问题。文献[9]根据熔锅炉生产过程建立不同能耗模式，并基于萤火虫算法对数据能耗模式进行识别；然后基于改进决策树算法对熔锅炉能耗进行异常诊断。文献[10]针对建筑能耗实时检测不足问题，提出一种基于数据挖掘和能耗模式匹配的能耗实时监测方法。以上文献均考虑到能耗模式对异常检测的影响，并取得了较好的效果，但未考虑时序能耗数据运行趋势，且部分方法在针对实时能耗异常数据时效率偏低。

综上所述，为了提高企业能耗异常检测的准确率，本文采用模态分解算法与LOF算法进行企业能耗异常辨识。首先，基于传统能耗标准区间进行企业能耗异常的定性分析；然后，引入完全自适应噪声集合经验模态分解方法(complete EEMD with adaptive noise，CEEMDAN)去除能耗数据中的运行趋势，提高局部异常因子法(local outlier factor，LOF)对企业能耗异常检测的准确度。实验结果表明，本文所提异常辨识方法在检测企业能耗异常数据方面具有较高准确率。

1 基于HDBSCAN算法的能耗模式匹配

1.1 HDBSCAN算法简介

DBSCAN算法[11]存在2个重要参数：扫描半径E和密度阈值M。即以数据集中任意点为中心，以E为半径画圆，判断圆内数据点个数与密度阈值M的大小关系，并按大小关系将所有数据点分为核心点、边缘点和噪声点。但传统的DBSCAN算法存在参数E和M确定困难的问题。为了解决这一问题，采用HDBSCAN算法对企业能耗模式进行分析。

HDBSCAN算法[12]的具体步骤如下:

a.重新定义数据点之间的距离dK来降低噪声点对聚类结果的影响，即

dK(a,b)=maxcK(a),cK(b),d(a,b)

(1)

dK(a,b)为a、b点相互可达距离；cK(x)为K近邻下点的核心距离；d(a,b)为a、b点的欧氏距离。

b.通过Prim算法构建最小生成树，并按距离对树的边缘进行排序并迭代,为每个树的边缘创建一个新的合并集群。

c.设置最小集群大小为5，压缩数据集层结构，采用λ=1/d计算各簇类的稳定性，并从数据集中提取稳定性更好的集群作为最终聚类结果。

∑p∈cluster(λp-λb)

(2)

λp为p点脱离所在集群的λ值；λb为集群分裂为自身的λ值。

1.2 基于HDBSCAN算法的企业能耗模式匹配

由于企业用能模式可能随用能环境的变化而变化，因此，首先需要构建企业能耗模式判别树，并对企业能耗实时数据进行模式匹配，具体步骤如下:

a.采用HDBSCAN对企业历史能耗数据进行聚类分析，划分出不同簇类，各簇类代表企业的不同能耗模式，并在数据中进行标记。

b.对经数据标记后的历史数据采用随机森林算法[13]进行分类，确定企业能耗模式判别树。

c.分析不同能耗模式下的数据分布，建立不同能耗模式下的企业标准库，分别选取能耗最小值xmin作为该模式下的标准区间的下限，最大值xmax作为标准区间的上限，进而实现各能耗模式下的标准区间的划分。

d.实时判断当前数据的能耗模式。

2 基于CEEMDAN-LOF的企业能耗异常辨识

2.1 CEEMDAN算法描述

EMD算法是经典模态分解方法，常用于处理非线性、非平稳的时间序列数据[14]；EEMD和CEEMD算法在经典模态分解方法基础上加入高斯白噪声来减轻EMD算法的模态混叠问题[15]，因此不可避免地会在本征模态分量中残留一定的白噪声，从而影响后续数据的处理。因此，引入完全自适应噪声集合经验模态分解方法解决上述序列分解所存在的问题。

CEEMDAN具体步骤如下[16]：

(3)

b.计算一阶余量r(t)=e(t)-I1，与原始序列处理步骤相同，计算出序列的二阶模态分量I2。

c.重复步骤b直到余量不能再分解，终止运算，输出所有模态分量。

2.2 LOF方法描述

局部异常因子算法基于数据点的密度判断数据是否异常，并同时量化出数据点的异常程度，具有识别速度快、精度高等特点[17]。相关概念如下:

a.定义以点a为圆心，以点a的第k距离为半径区域内点的集合为Rk(a)。

b.计算数据点间的可达距离dk(a,b),定义点a的局部可达密度ρk(a)为

(4)

c.局部异常值Lk(a)表示数据a与Rk(a)中其他点的局部可达密度差异程度，计算式为

(5)

由式(5)可知，局部异常值Lk(a)值表现点a的局部密度，Lk(a)越大于1说明该点密度与整体数据密度越不一致，越有可能为离群点。

2.3 基于CEEMDAN-LOF的企业能耗异常辨识

综上所述，基于CEEMDAN-LOF的企业能耗异常辨识过程如图1所示。

图1 基于CEEMDAN-LOF的企业能耗异常辨识流程

具体步骤为：

a.依据1.2节所提企业能耗模式判别树实时判断当前能耗数据的能耗模式。

b.基于各能耗模式下的标准库区间对能耗异常进行定性判断。

c.采用CEEMDAN算法对企业能耗时序数据进行分解，得到尺度各不相同的N个分量，选取合并后的低频分量作为时间序列的运行趋势。

d.去除时序能耗数据趋势性对异常辨识的影响，并基于LOF法对能耗数据进行离群点分析，实现企业能耗异常的精准辨识。

3 算例分析

以某省水泥企业能耗历史数据为研究样本，对本文提出的企业能耗数据异常辨识方法进行研究。选取该企业2020年1月1日—12月31日内的日级能耗数据作为检测数据，共计366个数据。

图2给出了数据归一化后企业能耗数据，从图2中可以看出，数据中存在异常值和连续零值。

由于数据统计期间存在停产整修，企业总能耗、煤耗和电耗都为0的数据；为获取企业正常生产时能耗模式，应去除该类0数据后进行聚类分析。

图2 原始数据展示

3.1 基于HDBSCAN的能耗模式匹配

采用HDBSCAN算法对去零能耗数据进行聚类分析，聚类结果如图3所示。从图3中可得，能耗数据被分为A、B和C这3个簇类。

图3 去零数据后的企业能耗模式划分结果

在获取企业存在的用能模式之后，构造2个特征:停产检修和用能模式标签。判断能耗数据是否为零数据并将结果填入停产检修特征中，若是停产检修，则该数据用能模式为模式D；将非零数据聚类得到的数据簇类结果A、B和C填入用能模式标签特征中，分别为用能模式A、用能模式B和用能模式C，添加数据特征后的部分能耗数据如表1所示。

表1 构造特征后的部分能耗数据

对能耗数据采用随机森林算法进行分类，按照3∶1的比例划分训练集和检验集，分类误差为2.51%。得到能耗模式判定树如图4所示。

图4 企业能耗模式判别决策树

经HDBSCAN聚类后，各簇类详细信息如表2所示。取各簇类能耗最大值xmax和最小值xmin作为该标准区间的上下限，即归一化前簇类A的标准区间为[5.01 tce,10.54 tce]，簇类B的标准区间为[11.90 tce,16.60 tce]，簇类C标准区间为[4.56 tce，9.04 tce]。对企业能耗实时数据进行模式匹配后，判断数据是否在相应标准区间内，若不在，则判定为能耗异常。

表2 每个簇类中的个案数目和能耗标准区间

3.2 基于CEEMDAN-LOF的企业能耗异常辨识

上节给出企业能耗用能模式的识别结果，并根据相应模式标准区间对企业能耗异常进行定性判断，但针对短时间内企业用能局部突变导致的能耗异常问题，标准区间的检测精度不足；以用能模式C为例，选取该企业7月—11月的时序能耗数据进行企业能耗异常精辨识。

3.2.1 基于CEEMDAN获取能耗序列运行趋势

分别采用CEEMDAN和EMD对所选能耗时间序列进行模态分解，获得从高频到低频共5个分量。从图5可知，经EMD分解后的分量I2、I3存在较明显的模态混叠现象，而序列采用CEEMDAN分解后模态混叠现象有明显改善；经CEEMDAN后的分量I3、I4和I5可以大致刻画出序列趋势；而分量I1和I2局部变化幅度和频率较大；所以将低频分量重组用于表示时序曲线的运行趋势。

如图6所示，相比于采用EMD方法，采用CEEMDAN方法获取的能耗运行趋势相对平缓，且受到异常点的影响更小，可以更好地表现企业能耗时序曲线运行趋势。

图5 CEEMDAN和EMD模态分解对比

图6 企业能耗数据与运行趋势对比

3.2.2 基于LOF的时序能耗数据离群点分析

图7为原始时序能耗数据在k=30时的LOF检测结果。从图7中可得，0～20 d的全部数据被识别为离群数据，这是因为检测结果受到该时间段内企业有规律能源使用变化的影响，导致判别结果存在偏差，从而无法准确识别离群数据。

图7 采用LOF离群数据检测方法

图8为采用CEEMDAN去除数据运行趋势后在k=30时的LOF检测结果。从图8中可得，异常能耗数据与正常数据的局部异常值较容易分辨，并能准确地辨识0～20 d中的能耗异常数据。

图8 采用CEEMDAN-LOF离群数据检测方法

针对2种算法的详细检测结果如表3所示，当k=10、20、30、40时，采用原始序列检测离群数据时均存在较多误判值和漏检值，而采用CEEMDAN消除序列运行趋势后进行离群数据检测并无误判和漏检值数据，进一步验证本文方法检测异常数据的有效性。

表3 采用传统LOF和CEEMDAN-LOF算法的检测结果

4 结束语

企业能耗异常检测已成为企业节能的重要措施，也是后续企业能效标杆建立、故障成因检测和能效评价的基础，具有十分重要的作用。本文提出了一种基于CEEMDAN-LOF的企业能耗异常辨识方法，通过引入CEEMDAN去除时序能耗数据的运行趋势，并基于LOF算法对能耗数据进行离群点分析，实现了企业能耗异常的精准辨识。实验表明，与传统的LOF算法相比，CEEMDAN-LOF算法去除了数据趋势性对异常辨识的影响，使得企业能耗异常检测的准确性得到较高提升。