陈世炳, 潘晶晶, 王 斌, 林金山, 罗 雁
(海南电网有限责任公司,海南 海口570203)
随着网络、通信、传感器、物联网等技术飞速发展,电网领域也迎来了黄金发展时代。然而随着电网应用领域不断拓宽,绿色及可持续发展理念不断深入人心,10 kV 及以下低压配电网中“线损”问题越发突出[1-2]。然而,目前10 kV 及以下低压配电网存在数据量大,可用特征少,且数据质量参差不齐等问题[3-4]。
为此,众多学者对10 kV及以下低压配电网线损率计算方法进行了研究。文献[5]基于专家系统设计了一套台区线损异常智能诊断系统。文献[6]基于用电信息采集系统建立了台区线损分析平台。上述计算方法较传统计算方法结果更加精确,但收集大量的操作数据和结构数据需要时间和人力。文献[7]基于数据驱动提出了一种台区线损评估方法。然而,该方法需要建立复杂的计算模型,因此会牺牲部分计算精度。
近年来,人工智能算法在电力系统中得到了广泛的应用,如SVM[8]、BP神经网络[9]、深度学习[10]等为预测线损率提供了新的途径。然而,这些方法很大程度上依赖于大量的数据。当数据质量不高或数据维数较大时,将严重影响线损率预测结果。为此,本文提出了一种基于梯度提升决策树[11](Gradient boosting decision tree,GBDT)的10 kV 及以下低压配电网线损率计算方法,以解决数据存在异常值的情况下线损率预测不高的问题。
考虑到10 kV 及以下低压配电网中有大量与线损率相关的特征,一旦特征选取标准不合理,将严重影响线损率计算结果。GBDT 是一种经典的计算智能算法,该算法可为10 kV 及以下低压配电网众多特征选取提供参考依据。
令特征为j,则其重要性程度可根据j在GBDT 的平均重要性计算,故
式(1)中,为特征j的全局重要性程度,M为树的数量,为特征j在第m个树中相对重要性程度。
计算公式如下所示:
式(2)中,J为树中叶子节点个数。J- 1为非叶子节点个数。vt为与节点t有关的任意特征。为划分节点t后的均方损失。B(⋅)为布尔函数,当其参数为真,则B(⋅) = 1;否则B(⋅)= 0。需注意
为实现特征选择的一致性,本文使用Spearman 相关系数过滤无关变量。Spearman系数可评估2个变量之间的关系是否可以用单调函数来描述。因此,有
式(3)中,di表示每个观测值之间的差异,n为样本数。
本研究采用基于密度的带噪空间聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)对数据进行聚类,实现数据异常检测。DBSCAN 是一种典型的可处理带有噪声数据的聚类算法。
令C={(X1,Y1),…,(Xn,Yn)}为数据点集,其中Xi={x1,x2,…,xm}。聚类数据点集C的过程可描述为
步骤1:初始化ε和MinPts,其中ε为扫描半径,MinPts为最小样本个数。
步骤2:确定任意数据点之间的欧几里德距离Dhi,即
式(4)中,Sk为标准距离。
步骤3:∀Xi,搜索在其扫描半径内的任意数据点构建核心簇。
步骤4:确定数据集中孤立的数据点,并将这些数据点组成新群。
步骤5:重复上述过程,直至执行完任意数据点划分为核心簇的过程。
步骤6:划分过程结束,如果存在任意数据点不属于任意核心簇,则将这些数据点标记为异常点或噪声数据。
传统GBDT 是一种典型的串行计算模型,存在计算效率低、易过拟合等缺陷。为此,本文提出了一种改进的GBDT模型实现并行计算,以提高模型预测性能,同时加速模型训练效率,避免过拟合。
改进的GBDT 模型中,预测值为所有树模型预测值的加权和,因此有
式(5)中,Xi={(x1,x2,…,xm)}为由特征构成的向量。m为模型中所有树的个数。fi(X)为树i模型的预测值。
令M表示最大迭代次数,L[]y,f(x) 为模型计算时的损失,c为任意无穷小常数。因此,第m个决策树构建过程如下。
步骤1:确定当前模型损失,并计算其负梯度,即
步骤2:计算fm-1(X),同时以最小损失线性估计每个叶子节点的梯度rms(s= 1,2,…,S,s是第m个树的叶子节点个数),则在下次评估时更新权重以减少损失。因此,该计算过程如下所示:
步骤3:模型更新,其更新公式如下所示:
式(8)中,v为学习率。I(x∈rms)为指标函数,当X∈rms时,该值取1;否则取0。
步骤4:循环至最大迭代次数M,至此可得到预测的线损率。
为了验证本研究所提方法的有效性,本章以10 kV 及以下低压配电网的数据为例,选取1446 个实例样本进行仿真与分析。需注意,每个样本应包含功率因数、电表数量、线路总长度、平均负荷率、主线横截面积和供电功率6个电气特征。
首先,对1446 个实例样本进行数据预处理操作,初筛部分不合格数据。其次,结合GBDT 相对重要性和Spearman 相关系数对所有电气特征进行评估,选取均方误差最小的特征构建特征向量,最终统计结果如图1所示。由图1可以看出,供电功率和主线横截面积始终是重要的特征,功率因数和电表数量2 个特征贡献程度相对较低。因此,本研究将功率因数及电表数量2 个特征略去,最终选取线路总长度、平均负荷率、主线横截面积和供电功率建立特征库。
图1 不同方法特征贡献对比统计结果Fig.1 Comparative statistical results of feature contributions of different methods
表1 所示为不同特征聚类中心统计结果。其中聚类1 表示4 个指标占比最大;聚类2 次之;接下来是聚类3;聚类4中各指标占比最小。
表1 特征聚类中心统计结果Fig.Statistical results of feature clustering centers
图2 所示为支持向量回归(Support vector regression,SVR)、随机森林回归(Random forest regression,RFR)与本研究所提模型的预测误差对比结果。可以看出,SVR 的预测曲线误差最大,其次是RFR,而本研究所提方法误差最小。与SVR 和RFR 相比较,本研究所提方法的均方误差分别降低了2.24%和0.86%。
图2 不同模型预测误差对比结果Fig. 2 Comparison of prediction errors of different models
本研究对10 kV 及以下低压配电网线损预测方案进行了研究与分析,提出了一种基于改进GBDT 的10 kV 及以下低压配电网线损预测模型。该模型结合GBDT相对重要性和Spearman相关系数对所有电气特征进行评估,选取均方误差最小的特征构建特征向量。进一步利用基于密度的带噪空间聚类算法对10 kV 及以下低压配电网数据进行分类,解决数据集中数值离散性造成的评估精度低问题。本研究所提方法对10 kV及以下低压配电网线损预测具有一定的借鉴作用。