王宇驰, 赵延阳, 张树军
(1.辽宁工程技术大学电气与控制工程学院, 辽宁 葫芦岛 125105;2.葫芦岛八家矿业股份有限公司, 辽宁 葫芦岛 125105)
目前,太阳能已成为发展速度最快的新型清洁能源之一,光伏功率预测显得尤为重要,但由于光伏电站中存在多种复合场对其影响,并且发电过程突出的随机性,给电力系统的平稳运行带来隐患。更换一种贴合目前电力系统的新型预测模型,如使用人工鱼群算法以及长短期记忆(long short term memory,LSTM)神经网络模型对电力负荷预测进行智能寻优[1-2],能够有效遏制存在的多种问题。有学者已经开展了有关光伏功率预测模型的系统性研究,但是,基于LSTM的光伏发电功率预测领域的研究论文相对于其他核心算法论文较少。
因此,本文将以LSTM 算法为核心,辅以EMD、KPCA 算法进行混合,该方法相较其他算法具有明显的优势,可以提高预测的准度和精密度。
本文采用EMD 及KPCA 的算法来利用环境序列信息,主成分分析法在不失去具体数据的情况下既能降低特征维度,又能提升神经网络的精确程度和计算能力,采用LSTM来处理时间序列数据中的长期依赖关系,以上三种算法可以更为精密地进行光伏功率预测的实验。
经验模态分解(EmpiricalModeDecomposition,EMD)是依据数据自身的时间尺度特征来进行信号分解,进而获得数量不同的本征模函数。EMD 在处理非线性数据上具有明显的优势,具有较高的信噪比。
EMD 算法的基本步骤如下:
1)初始化[3]:确定一个原始数据序列y(t),找到它所有极大值点作为其上包络线,所有极小值点作为其下包络线。
2)计算上包络线和下包络线的均值s(t),将原始数据序列y(t)与上包络线和下包络线均值s(t)做差,得到第1 个分量h1(t)=y(t)-s(t)。
3)第二次筛选:h1(t)作为原始数据序列,s1(t)是h1(t)上下包络线的均值,与步骤(2)类似求出第二个分量h2(t)。以此类推,得到:hk+1=hk-sk。
4)判断是否不大于给定的门限,门限在0.2~0.3 之间取值。若n 不大于门限,则令ci=hk(t)。否则,令k=k+1 后,重复步骤(1),判断余量是否为单调函数。若是,则终止分解。否则,继续执行。第一个特征的EMD 分解如图1 所示。
图1 第一个特征的EMD 分解
经验模态分解后得到的数据往往是高维度的,本文采用主成分分析(PrincipalComponentsAnalysis,PCA)将原有的数据转换到新的特征空间内,进一步参与核函数运算,从而得到具体的测试集。
PCA 算法的基本步骤如下:
1)利用线性函数归一化来标准化连续初始变量的范围,得到标准化矩阵样本集X,低维空间维数为m。
3)计算样本集中样本的协方差矩阵,记作XXT。
4)进行协方差矩阵XXT的特征值分解。
5)得到m个最大的单位特征向量ω1,ω2,ω3,…,ωm。
6)最后得到投影矩阵,获得降维后的数据W=(ω1,ω2,ω3,…,ωm)。
KPCA 算法在此基础上进一步与核函数进行拟合,设
利用矩阵K 得出相关参数,如图2 所示。
图2 KPCA 后各特征贡献率
长短期记忆神经网络是在基于RNN 的基础上,将RNN 的内部复杂化,引入了更多的结构单元,如:输入门i、遗忘门f、输出门o和内部记忆单元c等,其结构如图3 所示,包含了四个交互层。
图3 LSTM 隐藏层细胞结构
LSTM的具体算法如下:
1)根据遗忘门f的公式,得到遗忘门的值ft=σ(Wfxt+Ufht-1+bf)。其中:Wf为权重矩阵;σ 为sigmoid 函数;ht-1为上一时刻的隐藏状态;xt为当前输入;bf为偏置项。
2)通过输入门i与双曲正切函数tanh来决定哪些信息存储到记忆细胞中。
3)通过对it和的汇总,可以得出内部记忆单元表达式Ct=ft·Ct-1+it·。其中:ft为遗忘门输出;为当前输入的单元状态;Ct为此刻单元状态。
本文通过三种算法互惠的关系,完成准确的预测。经过EMD 分解后,得到多个IMF,利用KPCA 对其进行降维处理,将KPCA 提取出的特征输入进LSTM中,进行数据建模。
1)输入:a为辐射度、b为气温、c为气压、d为湿度和e为光伏功率。输出:误差指标RMSE、MAE、MAPE和R2。数据清理:北半球光伏功率数据e和其余环境数据a、b、c和d进行数据清理[4]。
2)EMD 算法处理数据:将收集到的环境数据序列进行EMD 分解,得到不同频率的本征模态函数IMF和剩余分量r,把需要的数据整理为特征波动序列[5]。
3)得到特征波动序列后,利用KPCA 降维得到所需要的训练集和测试集。
4)选取合适的LSTM 函数,把训练集数据输入,进一步筛选后得到目标准确率。
5)步骤4)结束后,其结果输入进测试集数据,得到数据结果,输出误差指标。
本文以均方根误差(RMSE)、平均绝对误差(MAE)、绝对百分比误差中位数(MAPE)和拟合优度(R2)作为评估误差指标,得到基于EMD-KPCA-LSTM的光伏功率预测模型,如图4 所示。
图4 基于EMD-KPCA-LSTM 的光伏功率预测模型
式中:yi为光伏功率真实值;为光伏功率预测值;nsamples为测试样本集的数量。
为验证本文构建的EMD-KPCA-LSTM光伏输出功率预测模型具有更稳定且明显的优势,可以提高预测的准度和精密度,本文分别采用EMD 算法、EMD-LSTM 算法和EMD-KPCA-LSTM 联合算法对光伏功率进行预测。对比三种模型的预测结果及误差后可知,EMD-LSTM-LSTM具有较明显的优势,能很好地减弱环境因素的消极影响,EMD-KPCA-LSTM预测模型的RMSE、MAE 和MAPE 相对更小,R2的结果更接近于1。三种算法的训练集、测试集误差指标对比如表1 所示,三种模型预测结果、误差对比图如图5 所示。
表1 三种算法的训练集、测试集误差指标对比
图5 三种模型预测结果及误差对比
本文提出的光伏功率预测模型与传统的单一LSTM模型和EMD-LSTM算法进行了多元对比实验,实验结果表明:基于EMD-KPCA-LSTM的光伏功率预测模型的波动性和标准差均小于其他算法,泛化能力更强。EMD 与KPCA 联合使用,可以对经验模态分解后得到的难以分析的高维数据通过主成分分析法进行降维处理,更好地消除实验数据的复杂性,LSTM成功让该复合模型的RMSE、MAE 和MAPE 相对更小,R2的结果更接近于1。本文在可实现的范畴内,提出的新型算法可以为探究光伏功率预测提供一种全新视角,其相关研究还在进一步开展。