翁国庆 龚阳光 舒俊鹏 黄飞腾
(浙江工业大学信息工程学院 杭州 310023)
随着分布式电源(DG)渗透率的不断提升、智能计量和信息通信技术的快速发展,配电网由被动控制过渡到主动控制成为趋势,主动配电网(active distribution network, ADN)已成为未来智能配电网最重要的发展模式之一[1,2]。但是,由于DG的广泛接入以及ADN运行特性灵活多变,ADN必将面对更加严峻的电能质量(power quality,PQ)问题[3]。结合ADN自身“主动”特征,高水平的主动控制成为其电能质量解决方案的最重要内容[4]。而实现高性能的电能质量态势预测、评估和预警,是能够有效进行电能质量主动控制的前提。
目前,针对电能质量预测问题国内外专家已开展了积极的探索,但系统深入的研究和取得的共识性成果尚少。文献[5]提出了基于线性回归法(LR)、随机时间序列法(RTA)和灰色模型(GM)的组合预测模型,改善了单一方法的预测精度,但提高了权重确定及建模的难度。文献[6]结合自回归移动平均(ARIMA)模型与反向传播(back propagation,BP)神经网络进行电能质量指标项预测,利用2者各自在非平稳序列和高维非线性问题处理上的良好性能,但其对时序数据时间相关性的忽略使其在中长期预测时准确性明显降低。文献[7]利用离散傅里叶分解与时间序列自回归法(AR)相结合进行预测,因其去除了一部分频域分量,因此存在预测结果整体性缺失的缺陷。文献[8]提出了一种基于动态时间规整(DTW)及Monte Carlo算法的预测法,该方法引入聚类思路有效提高了预测性能,但Monte Carlo算法引入的随机性将导致电能质量预测结果具有一定的不确定性。文献[9]通过量化电能质量指标与温度、储能电池状态等因素的关系,提出一种预测效果较好的随机森林模型(RF)预测法,但由于其需考虑具体线路、设备参数及运行信息,仅适用于某些特定场合。上述文献所提方法各具特点,但在未来具有DG高渗透率的主动配电网背景下,面对系统电能质量多重影响因素和电能质量各指标项数据之间的高维、非线性关联特性,如何更好地实现较长时间区段内的电能质量指标项预测性能仍具有非常大的挑战性。
近年来,随着人工智能和机器学习的兴起,包括卷积神经网络(CNN)、循环神经网络(RNN)以及深度置信网络(DBN)等深度学习模型在预测领域的各个方面得到了蓬勃发展和应用[10],特别是长短时记忆网络(long short-term memory, LSTM)模型在负荷预测等时间序列预测方向开始扮演越来越重要的角色。文献[11]提出了一种基于LSTM神经网络的智能电网电力负荷预测方法,利用LSTM提取负荷数据在较长时间跨度上的依赖性,实现了不错的预测效果。文献[12,13]提出了一种基于模态分解及长短时记忆网络的负荷预测方法,首先对历史负荷数据进行模态分解,接着对每个模态分量建立LSTM模型,最后结合模型输出重构预测结果。文献[14]提出了基于CNN-LSTM混合神经网络模型的负荷预测方法,首先使用卷积神经网络对由负荷影响因素构造的连续特征图进行特征向量提取,接着利用提取的特征向量建立LSTM模型,最后进行负荷预测。LSTM深度学习独特的网络特性及其强大的记忆功能,使其可以很好地记忆并充分考虑较长时间跨度内海量多维时序数据的时间相关性,具有良好的时间序列预测功能。
本文提出了基于改进K-means聚类和LSTM网络深度学习模型的主动配电网电能质量稳态指标预测方法。首先,提出基于聚类LSTM模型预测的系统框架;接着,对该框架中关键的功能模块实现原理进行详细分析,包括基于轮廓系数法的最优类别确定、基于K-means聚类方法的电能质量关联数据类别划分、基于随时间反向传播(BPTT)算法和适应性动量估计(Adam)梯度优化算法的LSTM深度学习网络模型构建;然后,以伪代码形式设计展示了所提基于聚类LSTM电能质量预测模型的训练学习和性能评估实施算法;最后,通过IEEE-13节点含分布式电源的主动配电网仿真算例,分析验证了所提主动配电网电能质量稳态指标预测方法的有效性和先进性。
如图1所示,基于K-means聚类及LSTM深度学习网络模型的含DG主动配电网电能质量预测模型的系统框架,主要包括PQ数据获取、PQ数据聚类、LSTM模型训练与测试、PQ数据预测4个功能模块。
图1 基于聚类LSTM模型的PQ预测系统框架
各个功能模块主要任务如下。
PQ数据获取模块。在含DG的主动配电网中合适位置,布置环境变量监测装置、负荷监测仪、电能质量监测仪等智能仪表,获取较长时间跨度内系统光照强度、温度等环境因素数据、负荷数据,以及对应的电能质量常用稳态指标项数据,并以相同时间标记为依据进行关联保存,作为预测模型的训练和性能评估数据源。
PQ数据聚类。对于已经获得的PQ关联历史数据,在进行归一化预处理后,首先使用轮廓系数法确定其最优分类数,然后使用K-means聚类方法进行PQ关联数据的分类。
LSTM模型训练与测试。将聚类得到的每一类PQ关联数据转换为监督学习序列,并将其按比例进行训练集与测试集的划分;构建LSTM深度学习网络模型,首先利用训练集中包含的输入和输出数据完成LSTM网络训练,然后利用测试集中包含的输入和输出数据完成LSTM网络模型的预测性能评估,直至确定各类LSTM预测模型。
PQ数据预测。获取未来某时段目标电网的环境因素预测数据和负荷预测数据,并实施聚类确定其所属类别;以其作为输入数据,并调用已完成训练的相应类别的LSTM网络模型进行预测,模型输出即为待求的目标电网电能质量稳态指标项的预测数据。
由于电能质量各项指标数据在不同时间段的欧式空间内普遍呈现出相互靠近或相互远离的现象,而数据挖掘中的K-means硬聚类算法是以距离作为相似度的评价指标,因此,在实施电能质量预测前对其历史数据集进行K-means聚类使其中特性相互接近的数据归聚为一类[15],有利于提高系统电能质量的预测精度。
常规K-means聚类法中对于聚类数K值是根据观察进行确定,具有一定的不确定性。针对这一缺陷,本文采用轮廓系数法进行最佳聚类数Kopt值的选取确定。
对于数据集中的某个样本点Pi,定义其轮廓系数:
(1)
其中,a为凝聚度,表征Pi与同簇其他样本的平均距离;c为分离度,表征Pi与最近簇中所有样本的平均距离。
最近簇的定义为
(2)
其中,q是簇Dk中的某个样本,n为Dk中的样本个数。
LSTM神经网络是一种基于改进时间循环神经网络(RNN)的深度学习算法。由于记忆时间序列的长短期依赖信息是LSTM网络的默认行为,因此其特别适用于处理和预测时间序列中的间隔和延迟事件[16,17]。
LSTM神经网络由一个个内部结构相同的LSTM细胞单元链接而成,如图2所示。在整个LSTM网络结构中, LSTM单元细胞状态{…,Ct-1,Ct,Ct+1,…}最为关键。图2中上方从左贯穿到右的水平线像传送带一样,将信息从上一个细胞单元传送至下一个细胞单元,且和细胞单元中其他部分仅有很少的线性关联。LSTM细胞单元内部结构中,网络依靠一些“门”结构让信息有选择性地影响循环神经网络中每个时刻的状态[18]。“门”是一种能够使信息选择性通过的结构,由一个输出值在[0,1]区间Sigmoid函数和点乘操作符组成,每个LSTM细胞单元均包含遗忘门、输入门、输出门,其各自的核心构造、作用可由式(3)~(8)表征[19]。
图2 LSTM细胞单元内部结构
遗忘门(forget gate)本质是以上一个单元输出ht-1和本单元输入xt为输入的Sigmoid函数,其为Ct-1中的每一项产生一个在[0,1]内的值,用以控制上一单元状态被遗忘的程度。 图2中,ft为Sigmoid函数的输出序列:
ft=σ(Wf·[ht-1,xt]+bf)
(3)
式中,σ为Sigmoid激活函数,Wf为权重系数矩阵,bf为偏置项。
it=σ(Wi·[ht-1,xt]+bi)
(4)
(5)
(6)
输出门(output gate)用来控制当前的单元状态有多少被过滤掉。先将单元状态激活,并为其中每一项产生一个在[0,1]内的值,控制单元状态被过滤的程度:
ot=σ(Wo·[ht-1,xt]+bo)
(7)
ht=ot·tanh(Ct)
(8)
图3 Sigmoid与tanh函数曲线
LSTM深度学习网络模型训练过程采用随时间反向传播(BPTT)算法[20],其主要步骤如下。
步骤1前向计算。按照前向计算方法计算式(3)~(8)中LSTM细胞的输出值。
步骤2误差反向传播。反向计算每个LSTM细胞的误差项,其值不仅与输出层有关,而且与前后时间序列点的隐藏层有关。
步骤3梯度计算。根据相应的误差项,计算每个权重的梯度。
步骤4权值更新。根据相应误差项以及每个权重的梯度,应用基于梯度的优化算法更新权值。
在步骤4中,采用适应性动量估计(Adam)梯度优化算法,其优势在于适合解决含大规模数据和参数以及包含很高噪声或稀疏度的问题。
3.1.1 数据归一化
使用多变量时间序列数据集进行含DG主动配电网的电能质量预测时,需要考虑到影响电能质量的各个变量具有不同的量纲,并且各个变量在各自的量纲内数值差别较大,另外,还需考虑LSTM深度学习模型中非线性激活函数的输入输出范围。因此,为避免LSTM模型中神经元陷入饱和状态,同时为保证各项变量能够平等地作用于电能质量的变化预测,需要将各项变量以及电能质量指标项均进行归一化处理。
对温度、光照、用电负荷变量项以及电能质量指标项均进行归一化处理,利用式(9)将其归算至[0,1]之间。与之对应,经LSTM模型得到的电能质量指标项预测数据也为归一化数据,为获得具有实际物理意义的电能质量数据,需利用式(10) 对其进行反归一化处理。
(9)
x=x′×(xmax-xmin)+xmin
(10)
式中,x、x′分别表示归一化前后的指标项数值,xmax、xmin选取各指标项在历史数据集内的最大与最小限值。
3.1.2 电能质量数据聚类
图4 聚类数与轮廓系数关系
3.1.3 数据分割
对于聚类处理后各类别的历史数据(包含各影响因素数据以及电能质量指标项数据),为获得可实现电能质量预测功能的LSTM深度学习模型,首先需要基于大量具体的输入变量历史数据和输出电能质量指标历史数据进行学习训练以获得LSTM网络模型的内部参数确定。其后,为评价所获得LSTM模型的电能质量预测性能,同样需要数量可观的具体历史数据进行测试、评估。因此,在选定用于确定电能质量LSTM预测模型的历史数据集后,需要对其进行数据分割。基于一般性原则,本文将采用的电能质量历史数据集按照时间顺序划分为训练集与测试集,其量值分别约占历史数据总集的70%与30%。这样,既可保证LSTM预测模型可以充分学习历史数据集中各输入变量和输出指标项的关联性和规律性,又能充分保障所获得预测模型性能评估的有效性。
根据系统电能质量训练集中已完成归一化及聚类处理的输入变量和电能质量指标历史数据,可进行目标主动配电网电能质量预测的LSTM深度学习模型的网络训练。聚类LSTM预测网络模型的整体结构如图5所示,包含输入层、隐藏层和输出层。其中LSTM隐藏层中,每一个细胞单元的内部详细结构如图2所示。
图5 LSTM网络PQ预测模型整体结构
与此对应,如表1中所示算法伪代码,展示了使用聚类LSTM深度学习模型进行含DG主动配电网的电能质量预测的整体实施过程。
表1 基于聚类LSTM模型的ADN电能质量预测实施算法
表1实施算法伪代码中,series_to_supervised()是监督学习中包装好的一个集成函数,作用在于处理时间序列数据,可将原来的单一时间步长序列转换为可调整预测步长的时间序列;Sequential()是深度学习Keras框架中的一个类,实质为一个序贯模型,其中Keras框架是一个开源的高度模块化的深度学习神经网络库; LSTM() 模块是一个包含若干个LSTM细胞单元的预测基础模型,其优点在于可以将算法计算过程整合到一个模块中,便于调参,其次,直接调用该模型,能大程度上避免程序的复杂性;Dense()模块代表LSTM网络中的全连接隐藏层,可以根据输出维度要求直接调节括号内参数;compile()模块用于编译模型,可以将源程序解释为指令来交由CPU执行,其参数‘mae’用于确定损失函数值;参数‘adam’代表所选用的优化算法,用于实现梯度优化,可使梯度朝着期望的方向下降;fit()为拟合函数,其作用在于寻求训练集中影响因素与目标之间的表征关系。
为合理评估经训练所确定聚类LSTM模型的预测性能,一方面需要进一步借助相同类别中经数据分割后另存的测试集数据进行模型预测性能评估,其实施过程如表2中伪代码所示;另一方面需要考虑模型算法的复杂度,其从预测结果分析以外反映了算法的性能。对于复杂度分析,可以从模型算法的时间复杂度和空间复杂度入手,时间复杂度可由算法的执行时间反映,空间复杂度可由算法占用计算机内存方面反映。
表2 聚类LSTM模型的预测性能评估实施算法
与表1所示的聚类LSTM预测模型训练过程相对应,对于经聚类划分的第i类别PQ历史数据子集,读其测试集中环境、负荷等影响因素数据作为LSTM预测模型的输入信息,然后通过调用predict()函数进行基于已完成网络训练的LSTM深度学习模型的电能质量指标项数值预测;对于LSTM模型输出的任意j项电能质量指标数据,均可将其与测试集中按时间标记对应的电能质量指标历史数据进行比对,通过调用rmse()函数和mae()函数计算其均方根误差和平均绝对误差,与此同时,进一步通过对模型算法的复杂度分析,以实现聚类LSTM预测模型的性能评估。
性能评估算法实现中,为综合表征所得聚类LSTM预测模型的预测结果绝对误差性能以及预测值误差的实际情况,选用适用于评价回归算法的均方根误差(RMSE)和均方误差(MSE)指标项,其计算公式分别为
(11)
(12)
为更好地体现所提LSTM预测模型在系统输入变量及电能质量指标值具有较大波动特性下的各种网络运行场景中的有效性,本文以IEEE 13节点配电网拓扑结构为系统基本网络架构,基于Matlab/Simulink软件搭建分析算例的系统仿真模型,系统额定电压等级和额定容量分别设定为10.5 kV和500 kVA,如图6所示。系统中,为模拟含DG主动配电网网络特征,在模型13节点处并网连接一个10%系统额定容量的光伏DG模型,在节点2处布置系统电能质量在线监测点,实时监测网络各项电能质量数据。
图6 含DG主动配电网结构
为获得有效、丰富的多场景下的系统输入变量和输出电能质量指标项历史数据,如图7所示,算例仿真模型中的光伏阵列模块可以通过设置接入的温度和光照参数的变化曲线,模拟外部环境因素变化以调整光伏DG的实时输出功率。仿真时,为更好体现数据真实性,以作者所在单位搭建的微电网实验平台环境监测装置所采集记录的2018年7、8、9三个月的现场光照强度和温度数据作为模型中光伏阵列的输入参数值。其中,8月份前3星期(共21天)的光照强度和温度参数的变化曲线如图8所示。同时,将模型中的LD1~LD6设置为不同类型、
(a) 光照强度 (b) 温度
不同特性的负载,并且所有负载单元均可根据设置的负荷曲线进行定时投切变换以体现网络结构和运行场景的多变性。
据此,共得3个月92组不同环境因素和系统负荷条件下的仿真数据。运行仿真模型,并获取每一组内一天24 h内的24组稳态电能质量各指标项数据。按照3.1小节中的数据分割准则,选取7、8两个月份的环境、负荷输入变量及对应电能质量稳态指标项数据作为LSTM预测模型的训练集,9月份的数据作为测试集。
为验证所提基于聚类LSTM电能质量预测模型的优越性,选取差分自回归移动平均(ARIMA)、BP神经网络、无聚类LSTM等预测模型进行对比分析。上述各个模型的基本特性和关键设置如下。
(1)ARIMA:统计模型中最常见的一种用以进行时间序列预测的模型,模型整定涉及3个参数(p代表采用时序数据本身的滞后数,d代表时序数据需要进行几阶差分化后才能稳定,q代表采用的预测误差滞后数)。本文采用的优化对比模型为ARIMA(5,1,0)。
(2)BP神经网络:作为典型的前馈型神经网络,由输入层、隐含层和输出层构成,其主要特点是信号前向传输、误差反方向传播,若误差未达预期即通过误差反馈机制不断调整网络权重和阈值,使得网络平均误差和最小。本文采用的优化对比模型其动量因子设置为0.9,输入层、隐藏层及输出层神经元个数分别设置为4、18、1。另外,考虑到学习率过大虽然可在开始阶段加快收敛速度,但临近最佳点时易产生动荡致使无法收敛,故学习率选为较小值0.01。
(3)无聚类LSTM:即单独采用LSTM深度学习模型,但数据预处理阶段,不进行按照欧式距离原则进行的聚类划分,仅以完整的数据集统一进行电能质量预测。
聚类LSTM预测模型输出可包括各类电能质量稳态指标项,算例仅选取其中最常用的“电压偏差”项作为所提预测算法性能的展示和对比项。基于2018年9月连续30 d的环境、负荷输入变量数据集,依据表2所示的性能评估实施算法,可进行该时段电压偏差指标项的预测,并根据预测结果计算分析其均方根误差及平均绝对误差(MAE)。同时,可与4.2节所提经参数调优的ARIMA模型、BP神经网络模型以及无聚类LSTM网络模型的预测结果进行性能对比。
基于同样训练数据和评估数据条件下,ARIMA、BP神经网络、无聚类LSTM和聚类LSTM这4种不同预测模型各自预测结果的RMSE、MAE对比结果如表3所示。其中,根据图4所示K-means聚类优化结果,可将本算例中电能质量历史数据集按最优类别数Kopt取值划分3类,表3中第i(i=1,2,3)类LSTM预测模型采用“类i+LSTM”表示。此外,各种预测模型在其每一次训练中均存在随机因素,由此将导致其预测输出结果的不稳定性。为尽可能减少该现象对各模型性能评估的影响,表3中对每种预测模型均进行了3次测试并采用其平均值的应对措施。
表3 各模型预测结果的RMSE、MAE对比
从表3可看出,对于含多输入变量的主动配电网电能质量预测,上述各模型的预测性能对比可简要描述为:(1)BP神经网络的预测性能最差,其主要原因是在模型训练过程中,一方面因其本身缺乏记忆单元难以捕捉较长时间跨度上的信息,另一方面由于多影响因素输入使得模型确立变得复杂;(2)ARIMA模型仅用时间作为变量因素,避免了多影响因素变化导致的复杂性,其预测表现稍好于BP网络,但是如若参数选取不当,该模型的训练复杂度和时间将会明显增大;(3)标准LSTM网络模型,由于其可以综合考虑多变量影响因素以及PQ数据在时间跨度上的相关性,其预测性能明显优于BP网络模型和ARIMA模型;(4)聚类LSTM网络模型,由于其是在标准LSTM模型基础上进一步考虑了不同类别数据之间的差异性,实现按最优聚类结果的分类网络训练,其预测结果自然呈现出最佳的性能评估结果。
在30 d预测数据集中,随机选取其中2天共48 h的预测结果数据进行对比,其实际值(即模型仿真数据值)与各种预测模型的预测输出值对比以及预测结果相对误差对比分别如图9、图10所示。由图可见,上述4种预测模型对于未来目标时段内的电压偏差指标项呈现出性能差异的预测功能:BP模型和ARIMA模型的预测值曲线与实际值曲线大体上满足趋势走向的一致性,但其拟合曲线波动性较严重,整体偏离值相对较大,在部分时间节点偏差显著;标准LSTM模型一定程度上改善了BP模型和ARIMA模型的上述缺陷,但对于变化趋势线中的峰值点跟随性仍然欠佳,在部分时段内预测误差相对较大;基于K-means聚类及LSTM网络的预测模型,其对于电压偏差指标项的趋势预测最贴近实际值,预测时段内全域无显著偏差点,且对于变化趋势线中的峰值点跟随性良好。
图9 各个模型预测曲线与实际曲线对比
图10 各模型预测结果相对误差对比
对上述预测结果进一步分析对比,各种预测模型的预测结果在不同相对误差范围内的百分占比分布对比如表4所示。对比分析可以看出,在这随机抽取的2天共48 h内,本文所提聚类LSTM方法的预测相对误差波动最小,其值全落于15%以内,且近70%预测结果的相对误差处于5%以内,显示其对于电压波动指标项预测效果最佳。对比分析其他3种预测模型,其预测结果相对误差波动峰值均超过25%,并且其相对误差分布在5%以内的相占比均不足50%概率,显示其预测效果与聚类LSTM预测模型均具有较大差距。
表4 各模型预测结果相对误差分布对比
经测试分析,表4中各模型的执行复杂度情况如表5所示。
表5 各模型的复杂度对比
表5中,Tc代表模型执行的时间复杂度,Sc代表模型执行的空间复杂度。可以看到,聚类LSTM模型的Tc值最小,其Sc值与BP模型和LSTM模型相近;与之对应,ARIMA模型的Tc值最大,Sc值最小。经分析可知,在当前计算机存储能力越来越强、高速化以及并行化已成为其主要特征的背景下,对于测试模型对应的内存占用,计算机处理较难具有显著的区别度。因此,可主要通过时间复杂度对比,验证参与对比的4种不同预测模型中,所提聚类LSTM模型的效率最高、性能最佳。
本文针对未来含DG主动配电网中对于电能质量态势感知能力日益提高的需求,提出了基于K-means聚类及LSTM深度学习模型的电能质量预测方法。通过改进型K-means方法对系统电能质量历史数据进行基于欧式距离的聚类划分,然后针对各类别数据分别建立并训练其对应的LSTM深度学习网络预测模型。算例分析选择其中“电压波动”指标项的预测结果表明,所提聚类LSTM预测模型优势显著。
LSTM深度学习网络特性及其独特的“门”结构,可以记忆并充分考虑较长时间跨度内海量多维时序数据的时间相关性,面对含DG主动配电网中复杂的电能质量影响因素信息和变化特性,具有比传统预测模型更出色的态势感知和预测性能。
LSTM深度学习网络具有可从多维信息中深度挖掘并拟合其复杂非线性关系的特性,非常适用于含多类型DG主动配电网电能质量预测这种典型多输入(各种环境变量、负荷变量等)、多输出(多电能质量指标项)预测应用场景,有效保障预测性能。
采用改进K-means聚类法可将系统中海量、多维的电能质量时序关联数据按照欧式距离原则进行最优聚类划分,使得特性相近数据归为同一类并按不同类别分别进行LSTM网络模型的训练和预测,可实现比标准LSTM模型更佳的电能质量预测性能。
后继工作中,为提高所提预测模型的普适性和预测精度,需进一步考虑高维复杂输入对于K-means聚类以及LSTM建模的影响。一方面,考虑到未来主动配电网中接入的DG类型多样性,可增加预测模型的输入变量类型,包括风速、风向、气压等环境变量以及DG控制方式等;另一方面,可考虑按季节、节假日、天气类型等不同场景进行更加合理的聚类划分。充分结合K-means聚类和LSTM网络模型两者优势,通过研究构建更加针对性、轻量化的预测模型,提高含DG主动配电网在各种场景下电能质量预测的实时性及准确性。