邹斌斌,李贞贞
(恒诚信国际工程咨询有限公司,山东 济宁 272000)
新能源发电功率的波动性和不确定性给电力系统的稳定运行带来了新的挑战[1]。其中,异常值检测是确保电力系统安全、经济运行的关键环节。传统的异常值检测方法多基于统计学原理,如3σ 原则、Box-Jenkins 模型等,这些方法在处理大规模、高维度的数据时,往往面临着计算复杂度高、对异常值敏感等问题。近年来,机器学习与数据挖掘技术为异常值检测提供了新的思路[2-3]。决策树作为一种简单且有效的分类与回归方法,已被广泛应用于各种异常检测场景。然而,传统的决策树算法在处理新能源发电功率数据时,对于非线性、高维度以及连续变化数据时的应用性能较差。因此,文章提出了一种基于改进决策树的新能源发电功率异常值检测方法。
由于单一的检测方法可能无法全面识别各类特征的异常值。因此,需要采用多种方法进行综合分析和检测,以提高异常值识别的准确性和可靠性[4]。利用聚类算法将数据划分为不同的簇,针对每个簇的特点采用相应的异常值检测方法。新能源发电机组的发电功率特性可以表示为
式中:ρ为空气密度,是影响新能源发电效率的重要因素之一;CP为功率系数,决定了新能源转换为电能的效率;v为风速,是新能源风力发电的直接动力来源,其大小和稳定性对发电效率有着显著影响;R为新能源项目覆盖半径,是风力发电设备的覆盖范围和影响区域;η为发电效率,是衡量新能源发电系统性能的重要指标。
从式(1)可以看出,发电功率的特征会受不同环境和地理条件的影响。为更准确地模拟分析异常值的分布特征,使用甘肃酒泉风电基地作为模拟分析的实际数据来源[5]。数据采样间隔为1 min,风速和机组的额定容量分别为6.5 m/s、800 kW。一般情况下,新能源发电机组的运行数据主要分布在直线和离散数据点上。通常,分布带中的数据是由风速值和容量值共同构成的,反映了不同风速和容量条件下发电功率的特性。其周围有2 种类型的数据,一种是发电功率离群孤立点数据,另一种是偏差簇数据。
因此,根据新能源发电机组的运行数据在不同条件下的分布特性,可以更精细地区分数据,结果如表1 所示。
表1 数据精细化区分
不同类型发电功率异常值具有不同的形成原因和分布特性,导致风速也各不相同。第一,正常数据,风速与发电功率之间的关系表现出明显的集中趋势,这些数据紧密地分布在正常的电特性范围内。第二,弃风限电数据,这些数据点在风速轴的平行线上集结,风速值大于风速阈值,容量值小于正常容量值的一半,且基本保持恒定。第三,离群孤立点数据,该数据点与正常数据相距较远,通常是由于发电功率异常或误差导致的测量数据误差过大,超出了正常的测量误差范围。离群孤立点数据在异常值分布中只占很小一部分,通过统计方法可以很容易地识别出来。第四,偏差簇数据,这类数据主要分布在风速的低尺度范围内,具有高密度特性,主要是由于在数据传输、计算机信息处理及存储过程中长期受电磁干扰所导致的,数据局部密度较高,大部分位置都接近正常数据的特征。
传统的异常值检测方法多基于统计学原理,但在处理高维度、非线性及连续变化的新能源发电功率数据时,往往存在局限性和不足。为解决这一问题,设计基于改进决策树的新能源发电功率异常值检测模型。该模型结合了特征工程、模型优化及后处理等多个环节,旨在提高异常值检测的准确性和实时性。
在发电功率数据精细化区分的基础上进行数据预处理,清洗和转换原始新能源发电功率数据,同时选择特征,提取与功率异常相关的特征。相关公式为
式中:Pmax和Pmin分别为功率的最大值和最小值。
采用集成学习的方法改进传统决策树,通过引入随机森林技术,提高决策树的泛化能力和对非线性数据的处理能力。计算每个特征的重要性,以便在构建决策树时进行特征选择和剪枝,公式为
式中:f(x)为特征的重要性得分;wi为样本权重;yi为样本标签;n为样本总数;G(xi,x)为高斯核函数,用于计算样本xi和x之间的相似度。通过计算每个特征在决策树中的信息增益或基尼指数等指标,可以确定哪些特征对于异常值检测更为重要。
基于改进决策树的新能源发电功率异常值检测模型为
式中:Y为新能源发电功率异常值检测结果;x1,x2,…,xn为输入的特征值,包括功率波动率、功率变化率等特征;f(·)为一个非线性映射函数,通过改进决策树模型实现特征的映射和分类。通过训练和优化改进决策树模型,可以得到最佳的映射函数和异常值检测效果。
识别异常值就是在众多样本数据中辨识出与其他样本行为或形式不同的少数样本。文章设计的新能源发电功率异常值检测流程如图1 所示。
图1 新能源发电功率异常值检测流程
新能源发电功率异常值的检测流程具体如下。第一,将收集到的新能源发电功率数据作为输入,包括时间序列数据、气象数据及设备状态数据等,用于构建新能源发电功率异常值检测模型。第二,并使用改进决策树算法来构建新能源发电功率异常值检测模型。改进决策树算法能够更好地处理高维度、非线性及连续变化的数据,提高异常值检测的准确性和实时性。在构建模型的过程中,对输入的新能源发电功率数据进行特征提取,提取与功率异常相关的特征,使用这些特征来训练和优化改进决策树模型。第三,在构建好新能源发电功率异常值检测模型后,计算实际功率值与预测功率值之间的残差。第四,分解残差。将根据不同因素对残差的影响程度进行分析。第五,在计算出残差并进行分解后,利用隐马尔可夫模型(Hidden Markov Model,HMM)算法检测发电功率异常值。HMM 算法是一种常用的时间序列分析方法,可以用于检测时间序列数据的异常值。利用HMM 算法分析残差数据,通过计算状态转移概率参数,判断是否存在异常值。第六,根据HMM 算法的输出结果来判断数据是否为异常值。如果输出结果大于1,则表示该数据点为正常数据;如果输出结果小于等于1,则表示该数据点为异常值。根据输出的异常值,提供相关的分析报告和建议措施,以便及时采取相应的措施进行异常处置。
为验证基于改进决策树的新能源发电功率异常值检测方法的检测效果,设计所需的实验平台,将其与其他两种传统的新能源发电功率异常值检测方法进行实验对比,并分析实验结果。
文中使用的数据来自2021 年中国风力发电行业专题调研与深度分析报告。
为模拟数据中的异常值,随机选择h%的风电数据并对其加入干扰,使其值变为原本的(1+h%)。其中,|h|>10,h服从高斯分布,均值μ=0,方差σ=30,加入的数据干扰表达式为
式中:yt*为加入干扰后的数据;yt为原始数据。
为减小实验误差,分别应用本文方法、基于3σ原则的异常检测方法(传统方法1)以及基于Box-Jenkins 模型的检测方法(传统方法2)对其发电功率异常值进行3 次检测实验,对比3 种方法的异常值检测效果,检测结果如表2 所示。
表2 3 种方法的实验结果
由表2 可知,文章研究方法在发电功率异常值检测方面精确率较高,而传统方法检测精确率均低于文章研究方法,证明该研究方法的检测效果较好,具有实用性。
文章深入探讨了基于改进决策树的新能源发电功率异常值检测方法,详细介绍了所提的改进决策树方法,以及如何将其应用于新能源发电功率数据的异常值检测。实验部分,将文章研究方法与传统方法对比,充分证明了该方法在准确性方面具有显著优势。