基于随机森林算法的电力工程数据预测分析建模与仿真

2024-02-27 04:43周云浩杨宝杰刘丹李海峰杨鹏飞

电子设计工程 2024年4期

周云浩，杨宝杰，刘丹，李海峰，杨鹏飞

（国网北京市电力公司电力建设工程咨询分公司，北京 100021）

随着智能电网的快速发展，电力工程建设逐步变得复杂且庞大，这也对工程数据的分析及应用提出了更高的要求[1-2]。现阶段，传统数据分析模型已在电力设备故障检测、用能管理等方面得到了广泛应用[3-5]。但工程建设过程中所涉及到的项目众多，使得相关数据规模陡增，导致传统模型已无法满足实际工程的需求。此外，近年来计算机与人工智能技术的快速兴起，也为电力工程数据的分析及研究提供了新思路[6-7]。

基于上述分析，该文在随机森林(Random Forest，RF)算法的基础上进行了电力工程数据预测分析方法的建模与仿真。同时设计了数据分析系统，并利用灰狼优化(Grey Wolf Optimizer，GWO)算法对RF 中的树和叶节点数量进行寻优。最终通过改进后的RF 算法完成数据的预测分析，从而为电力工程的安全管控提供理论支撑。

1 电力工程数据分析系统设计

电力工程主要可分为发电、输电、变电与配电四个项目，其所产生的数据量庞大且结构复杂[8-9]。为了更好地发挥数据价值，该文设计了一个电力工程数据分析系统，其整体架构如图1 所示。

所设计系统共包含四层结构，分别为：

1）数据采集层

通过各传感器、监测装置等采集系统内的所有工程数据，并支持信息访问、通信等业务。

2）数据存储层

将获取的工程数据进行集中处理，再存储于分布式数据库内[10]。

3）数据分析层

利用聚类分析(Cluster Analysis)、深度学习(Deep Learning，DL)与数据挖掘(Data Mining，DM)等技术对预处理后的电力工程数据实现建模分析，进而深入挖掘海量数据所存在的内在联系。

4）数据应用层

将数据分析的结果用于满足各种业务功能的应用需求，如工程成本分析、安全预警、数据预测及工程进度管理等。

2 数据预测模型构建

电力工程数据的覆盖面广且类型多样，深入挖掘其潜在价值能够为工程监管、系统安全运行提供重要支撑。针对此，文中提出了一种可靠的数据预测算法。由于RF 算法的随机性恰好与多变的电力数据相匹配，故可利用GWO 算法来优化RF 模型，进而完成高质量预测。

2.1 随机森林算法

RF 算法[11-13]由多个个体决策树(Decision Tree)构成，并利用投票机制进行决策分类及回归预测。其中每棵决策树[14]的分割节点数目均是根据样本特征数随机确定的，这种随机性也使得集合决策树可具备更优的预测性能。一个包含K棵决策树的RF 算法模型如图2 所示。

图2 RF算法决策树的构建过程

首先对原始样本集进行Bootstrap 抽样以获得K个样本，并将其建模成决策树，即弱分类器；接着每个弱分类器均会产生相应的决策结果，再选择相应的变量建模成决策树，以此获得具有K棵决策树的随机森林；最后利用投票机制寻得最高分的树，且将其作为最终结果输出。因此，RF算法模型RF可表示为：

式中，Si是第i个样本集；Ck是第k棵决策树；η(Ck,Si)是Ck对Si的决策值；是投票机制的函数式。

2.2 基于GWO优化RF算法

采用RF 算法对电力工程数据进行预测时，随机森林树与叶节点的数量对预测结果的影响较大。其中树数量过大将造成过拟合，过小则会导致预测模型不稳定。而叶节点则是从所有特征集中随机选择的特征数，并作为分割变量的个数。为了提高RF 算法的预测性能，利用GWO[15-16]进行寻优，以获得最佳的树和叶节点数量。

GWO 通过模仿灰狼种群在自然界的领导层级与群体狩猎方式，以达到接近目标的目的。按适应度值可将个体划分为四个层级：α、β、δ、τ。其中，α为最优解，β、δ分别是第二、第三最优解，候选解则为τ。GWO 算法的数学表达式为：

式中，D为灰狼个体与猎物间的距离；t为当前迭代次数；Lp(t)为猎物的位置；L(t)为灰狼个体位置；收敛因子φ1=2∙r2，φ2=2γ∙r1-γ，其中r1、r2是[0,1]范围内的随机量，γ为控制参数。

灰狼种群有能力识别猎物的位置并对其进行包围，因此在搜索空间中，可通过计算α、β、δ的位置来更新τ的位置，则τ狼更新后的最终位置L(t+1) 为：

式中，Lα、Lβ、Lδ分别为α、β、δ的位置；而Dα、Dβ、Dδ则分别是α、β、δ与当前灰狼个体的距离。

2.3 基于改进RF算法的数据预测模型

将利用GWO 算法优化后的RF 模型用于电力工程数据的预测，其流程如图3 所示。

图3 电力工程数据的预测分析流程

基于改进RF 算法的电力工程数据预测分析步骤如下：

1)对电力工程数据进行预处理，以消除数据量纲对数据分析结果的影响，并对其进行归一化处理；然后，再将数据集按照5∶1 的比例划分为训练集和测试集。

2）将训练集数据输入至改进RF 算法中，并利用GWO 优化其相关参数。同时通过平均绝对误差值来判定是否完成迭代，进而输出最优树数量与叶节点，且实现对改进RF 模型的优化。

3）将测试集输入训练完成的改进RF 模型中，以得到最终的电力工程数据预测结果[17-18]。

3 实验结果与分析

实验使用Matlab 2018a 仿真平台对所提模型进行验证，并选择某市供电公司2021 年电力工程的造价数据作为实验样本集。同时将模型参数设置为：GWO 算法中灰狼数为30，待优化变量数为2，迭代次数的最大值则为100。

此外，预测模型的评价指标选择平均绝对百分比误差EMAPE、均方根误差ERMSE，两者计算如下：

式中，yn和分别为第n个样本的真实值与预测值。

3.1 预测模型的性能分析

将50 组电力工程造价数据输入改进RF 算法的预测模型中进行分析，部分结果如表1 所示。

表1 数据分析预测结果

从表中可看出，所提模型利用GWO 优化后的RF 算法来进行数据预测。其预测结果误差率为0.17%～10.69%，最大误差绝对值不超过11%。由此表明，该模型取得的预测效果较为理想。

3.2 不同模型的性能对比

为论证所提模型的预测性能，将其与文献[3]、文献[5]、文献[7]中的模型进行对比。四种模型对2021年内5-9 月的工程造价数据预测结果，如图4 所示。

图4 不同模型的数据预测结果

由图可知，相较于其他模型，该文模型的大部分预测值与真实值更为接近。且由于改进的RF 算法可根据不同的系统状态调整其相关参数，故在不同月份的预测波动较小。

进一步根据海量样本数据的预测结果，得到四种模型的预测评价指标值，具体如表2 所示。

表2 不同模型的评价指标值

由表2 可看出，所提模型的EMAPE仅为4.15%，而ERMSE则为34.19 万元，远低于其他模型的ERMSE值。原因在于该模型采用GWO 算法来优化RF 预测模型，其经过电力工程数据分析系统的综合处理，可使预测性能得到大幅提升。文献[7]利用RF 算法进行预测，由于缺乏对算法本身的优化，故其EMAPE增加了1.92%。而文献[5]基于贝叶斯网络(Bayesian Network)、文献[3]则采用多变量灰色模型(Multi Variable Grey Model)进行数据预测，所得结果均不理想。这是由于二者均未结合海量电力数据的特性对预测模型进行相应改进，从而导致预测偏差较大。

4 结束语

电力系统具有多变量、非线性及非平衡性的特征，故难以通过传统经验方法进行预测分析管控。为此，文中基于随机森林算法构建了一种电力工程数据预测分析模型，并在Matlab 平台上进行了仿真实验。其中，系统的数据分析层利用经GWO 算法改进的RF 模型来分析采集层所获取的数据，进而实现数据的准确预测。实验结果表明，该文模型的预测效果理想，且其EMAPE和ERMSE分别为4.15%、34.19 万元。在接下来的研究中，将采集更多的电力工程数据，例如项目进度数据等用于所提模型性能的验证。