蒋 锋,杨嘉伟
(中南财经政法大学 统计与数学学院,湖北 武汉430073)
随着化石燃料的消费和能源环境问题的增加,发展可再生的清洁能源已成为国际社会的共识.近年来太阳能作为最理想的清洁能源在各国得到了广泛应用.随着太阳辐射应用发展,对预测精度提出了更高的要求.预报技术已经逐渐成长为光伏发电领域的关键性基础科学.
目前,国内外学者提出了许多方法以预测太阳辐射强度,这些方法大致分为3类:物理计算方法、时间序列方法和机器学习方法.在传统的物理计算方法中有晴天太阳模型[1]、Collares-Pereira和Rabl模型[2-3]等.时间序列方法[4]也被广泛应用于太阳辐射预测,比如自回归差分移动平均(Autore-Rressive Integrated Moving Average,ARIMA)[5]模型、线性回归[6-7]、幂指数移动平均法[8]、动态谐波回归模型[9]等.机器学习由于其优异的非线性拟合能力被大量学者研究,其中人工神经网络[10-13]、支持向量机[14]等机器学习方法在工业、农业、金融、医疗等领域得到了广泛的应用.陈杰等[15]建立了基于优化的神经网络的太阳辐射预测模型,模型预测效果极佳.顾万龙等[16]运用支持向量机方法来预测太阳辐射,其精度远高于传统线性模型.
由于太阳辐射数据具有很强的波动性和非线性特征,并且对预测精度的要求也在不断提高,一些学者通过集成学习的范式及单目标优化的方法来提升预测的准确率和泛化能力.比如Jiang等[17]使用鸽子算法优化的极限学习机对小波包分解的分量预测,加权集成方法得到结果,提升了预测的准确率.Sun等[18]利用集合经验模态分解将太阳辐射分解为若干分量,运用鲸鱼算法优化的最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)预测分量结果,并运用分类集成的思想将分量结果整合,得到了较好的预测精度.Wang等[19]利用多响应稀疏回归、留一交叉验证和布谷鸟优化的极限学习机建立网络结构来预测2015年的太阳每小时辐射量. 预测结果表明,该组合模型比ARIMA、BP(Back Propagation)神经网络和最优剪枝极限学习机更强.
同时多目标算法在调度、医疗、集成策略预测领域得到了广泛研究.He等[20]利用多目标粒子群
(Multi-Objective Particle Swarm Optimization,MOPSO)算法对风速数据预测结果的精确度和稳定性进行优化.Jiang等[21]运用多目标差分算法、模糊时间序列和经验模态分解技术对风速数据进行预测,预测结果表明,其混合框架具有良好的性能.Priyanka等[22]运用多目标领袖算法(Multi-Objective Follow The Leader,MOFTL)算法与人工神经网络结合,对两个地区电力数据集进行预测,结果表明MOFTL算法性能优于多目标狼群算法(Multi-Objective Wolf Colony Algorithm,MOWCA)、MOPSO和非支配排序遗传算法(Non-dominated Sorting Genetic Algorithm, NSGAII). Abdolrahman
等[23]比较了NSGAII、MOPSO及改进型强Pareto进化算法(improved Strength Pareto Evolutionary Algorithm,SPEA-II)等3种算法对集成效果的差异性.Lam等[24]运用多目标差分进化算法优化的BP神经网络进行汇率预测,对比NSGAII等其他多目标优化算法具有更好的性能.
上述多目标优化集成框架的目标函数均设计为预测精度与模型稳定性,并未考虑方向精度.本文同时考虑水平精度和方向精度,提出了一种新的多目标优化的集成学习框架来预测太阳辐射强度.本文主要贡献在于:①在进行奇异谱分析(Singular Spectrum Analysis,SSA)分解降噪后,利用多目标优化能够很好兼顾水平精度和方向精度,相比较于单目标优化更有效;②将不同特征的样本进行聚类;③摒弃了线性加总的集成思想,提出了新的集成方法,能够最大限度使用数据信息.
1.1 奇异谱分析(SSA)分解与重构是SSA的两个主要阶段[25],设x=[x1,x2,···,xN]T为长度N>2的时间序列,长度限定为2≤L≤N-1,K=N-L+1.通过滑动长度为L的窗口对原序列进行截取,可得到轨迹矩阵,如下所示:
对轨迹矩阵X进行奇异值分解(Singular Value Decomposion,SVD):
其中,S是X的奇异值,U和V分别是X的左奇异向量和右奇异向量.
其中,E kj为XXT的特征向量,E为时间经验正交函数,a ij,k为时间主成分分量,n、m为不同重构组的时间窗口,N、M为其时间窗口的最大值.
1.2 NSGAII算法
1.2.1 快速非支配排序策略 假设NSGAII算法[24]的初始种群为N,每个个体i都有两个参数:个体数目ni和 被i支配的个体数目集合Si.首先,找到种群中的非支配个体存入当前集合Fi;然后,遍历被支配集合Si,对集合个体l进 行nl=nl-1操作,若nl=0,将l存入集合H中[26];最后,当Fi中个体为第一非支配层个体,对H进行分级且赋予非支配序,直至所有个体均被分级.
1.2.2 多样性保持策略NSGAII算法通过拥挤距离和非支配排序使个体充满Pareto面.每个个体i有两个基本属性:非支配排序(irank)和拥挤距离(idistance) .如果个体i和j满足irank≤jrank,且idistance>jdistance成立,则i<jn.
1.2.3 选择交叉变异步骤NSGAII算法选择策略采用竞标赛规则:①计算个体适应度函数得分;②随机选取两个个体进行比较,淘汰低分个体,保留高分个体进入下一次迭代;③重复执行操作②,直至得到N个个体.
本文采用模拟二进制交叉进行基因交叉操作,两个个体转为二进制序列进行交叉,转译后进入下一代.而算法的基因变异操作采用多项式变异方法,保证算子多样性,防止陷入局部最优.
1.2.4 NSGAII步骤 算法的具体步骤如下:
步骤1初始化种群P0,设个体数目为N,当前迭代次数为t,最大迭代次数为T;
步骤2从Pt中随机选取个体进行基因的交叉、变异操作,产生新N个个体,构成集合Qt,将Pt和Qt进行合并,形成种群Rt;
步骤3Rt的种群剪枝,生成规模为N的下一代种群Pt+1;
步骤4当t<T时,重复步骤2~3,否则输出当前种群中的非支配个体.
为了提高非线性数据预测的水平精度和方向精度,本文提出了一种新的多目标优化集成学习框架.该框架体系主要包括4个步骤:首先,引入SSA方法将原始时间序列分解成一系列分量序列;然后,运用带精英策略的NSGAII优化的LSSVM对每个分量信号进行预测;接着,运用K-means聚类方法将各分量数据进行聚类,得到n个样本集合;最后,对不同聚类样本以各分量数据作为输入数据,分别运用不同的NSGAII-LSSVM模型进行集成训练,最终得到预测结果.在没有考虑决策者偏好[27-30]的情况下,对NSGAII-LSSVM生成的非劣解集[31-32]采用随机选取Pareto解的方法进入下一步.多目标优化集成学习框架流程如图1所示.
为使整个框架的预测结果兼顾水平精度和方向精度,令NSGAII的目标函数如下:
本文运用多目标优化集成学习框架对意大利2017年太阳辐射数据进行预测,并通过误差分析、模型对比、稳健性分析,显示了新方法的优越性.3.1 数据来源及评价准则本文使用意大利2017
年1月1日至12月31日的8 760个观测值作为仿真数据. 意大利大部分地区属亚热带地中海型气候,冬温夏热、四季分明、降水丰沛,各季度太阳辐射量具有明显差别,如图2所示.从图2可以看出,第一季度和第四季度的太阳辐射每天峰值差距极大,第二季度和第三季度峰值差距较小,各季度差异性较大.我们将每个季度前75%的数据作为训练集,后25%的数据作为测试集.
为了从水平精度和方向精度来比较不同模型的预测性能,我们选择均方误差(Mean-Square Error,MSE)、标准均方根误差(Normalized Root Mean Square Error, NRMSE)、平均绝对误差(Mean Absolute Error,MAE)和方向统计量(Directional symmetry,Ds)等4个评价指标.Ds统计量能够用来判断模型的预测结果是否与真实值的变动方向相同,常用在波动性较大的非线性数据中[33].为了检验不同模型之间效果的差异性,本文采用了Diebold-Mariano(DM)[34]检验来比较不同模型的预测能力是否显著相同,其原假设为测试模型的预测精度与基准模型无显著差异.评价指标NRMSE(ENRMS),MSE(EMS)及MAE(EMA)的计算公式如下:
图1 多目标优化集成学习框架流程图Fig.1 Flow chart of integrated learning framework for multi-objectiveoptimization
3.2 实证结果本节对多目标优化集成学习框架的结果进行对比分析,选取了ARIMA[4]、BP神经网络[15]、LSSVM[14]、单目标加总模型(Singleobjective-ADD,SO-ADD)、单目标集成模型(Singleobjective-Ensemble,SO-E)、单目标聚类集成模型(Singleobjective-Kmeans-Ensemble,SO-K-E)[18]、多目标加总模型(Multiobjective-ADD,MO-ADD)和多目标集成模型(Multiobjective-Ensemble,MO-E)等8个对比模型.同时,从水平精度和方向精度两个方面进行误差分析;利用DM检验[34]对各模型预测效果进行对比;最后对各个模型稳健性进行讨论.通过各模型分析对比,验证了该框架的优越性和稳定性.
3.2.1 模型参数设置 选取ARIMA模型[4]、BP神经网络模型[15]和LSSVM[16]及鲸鱼优化算法(WOA)[32]的单目标学习框架作为单一基准模型,并用鲸鱼优化算法替代NSGAII作为优化LSSVM的组件进行对比分析.在集成上,与线性加总做对比.同时,分析聚类对集成的影响,选取ARIMA、BP神经网络、LSSVM、SO-ADD、SO-E、SO-K-E、MO-ADD和MO-E与多目标优化集成学习框架(Multiobjective-Kmeans-Ensemble,MO-K-E)进行对比.
图2 2017年意大利太阳辐射数据Fig.2 Solar radiation data of Italy in 2017
ARIMA(p-d-q)模型的参数由AIC准则确定.BP神经网络的输入神经元为3个,隐含层为1层,隐含层神经元个数为8,输出层为1个神经元.学习率设置为0.000 1,迭代次数为1 000次,停止误差为0.000 01.为保证LSSVM的可比性,作为单一基准模型预测的LSSVM的参数经过NSGAII优化. NSGAII的种群设置为20个,迭代次数为100次,交叉概率为0.8,变异概率为0.02,交叉参数和变异参数均设为20.鲸鱼优化算法的螺旋形状参数设置为0.01,迭代次数为100次.LSSVM需要优化的参数分别为高斯核宽度参数σ2和正则化参数 γ, σ2为[1,1 000],γ为[0.01,3].
3.2.2 模型对比分析 多目标优化集成学习框架得出的最终预测结果与8个基准模型进行对比,分析不同评价指标下的模型性能.
表1和表2分别展示了不同模型各类误差值和评价指标季度均值.图3~6为8个模型误差对比柱形图(因ARIMA指标远劣于其他模型,在此未展示).为突出各指标的表现,采用对数方法压缩坐标轴来增强对比效果.从表1和图3~6可以看出:①LSSVM是最优的基准模型,LSSVM各类评价指标均优于ARIMA,而BP神经网络虽在第二季度上整体指标优于LSSVM,在其他三个季度上的表现仍略次于LSSVM.从模型的适应性和稳定性来看,LSSVM具有很好的适应性.②传统的线性模型ARIMA无法捕捉数据的复杂性和非线性,人工智能方法对复杂的非线性数据具有更好的表现力,更适合于探索非线性数据.③ LSSVM和BP神经网络对于该数据来说,预测效果差距不大,但LSSVM在4个季度上的预测表现更稳定.④混合模型在各个季度的表现优于单一模型.混合模型通过特征分解和优化集成步骤使数据拟合更加稳定,更适合于不同时期的太阳辐射预测.
表1 不同模型评价指标对比结果Tab.1 Thecomparison resultsof evaluation indexesfor different models
表2 不同模型评价指标均值对比结果Tab.2 The mean comparison resultsof evaluation indexesfor different models
图3 模型MAE对比图Fig.3 Comparison of MAE for models
图4 模型MSE对比图Fig.4 Comparison of MSEfor models
图5 模型NRMSE对比图Fig.5 Comparison of NRMSEfor models
图6 模型Ds对比图Fig.6 Comparison of Dsfor models
通过表1~2可以得出:①混合模型的各评价指标远优于单一模型.在方向精度上,除了SOADD的Ds指标为87.86%外,其它单目标集成框架和多目标集成框架的Ds指标均在90%以上,同时所有集成框架的Ds均值都在93%以上,而单一模型的Ds均值都在89%以下;在水平精度上,无论是单目标还是多目标优化的模型,评价指标均优于单一模型,这充分说明混合模型预测的优良性能,能够很好地捕捉数据信息,提高了整体的预测性能.②聚类能够很好地提升集成效果,MO-K-E和SO-K-E分别是多目标和单目标中最优的模型,其误差均低于MO-E和SO-E.③加总并不是一个好的集成策略.SO-ADD和MO-ADD模型的精度远低于相应的集成模型.由表2可知在水平精度上,SO-K-E的NRMSE均值为7.529 0%,SO-ADD的NRMSE均值为14.860 6%,MO-ADD的NRMSE均值虽已经在较低水平为4.427 3%,但MO-K-E的NRMSE均值更低,达到了0.032 8%.其主要原因是加总很难识别分量预测结果的特征,无法识别各个分量预测结果所包含的不同属性.④多目标能够很好地权衡方向和水平上的误差,在第一季度上,MO-ADD在与SO-ADD方向精度相同的情况下(0.978 0),找到了水平精度更高的解,在其他模型对比中多目标方法在水平和方向上其各类指标均优于单目标方法,说明多目标优化算法能够更好地找到最优解集.
在SO-K-E和MO-K-E框架中,聚类将不同特征的样本区分的重要组件.表3和表4分别展示了SO-K-E和MO-K-E的聚类中心.从表4简单计算可知全年的低辐射观测数为1 056个,与中高辐射观测数1 139个基本相当;每季度的高辐射观测量数占各季度的30%以下;第三、四季度的高辐射观测数为253个少于第一、二季度观测数317个,其占比不高.第四季度的高辐射中心远小于其它三个季度,这与意大利2017年冬季阴天较多,云密度较大相匹配,单日内可利用的高强度光辐射仅有几个小时.表3和表4显示各季度高辐射数据中心点位置差距不大,但第二、三季度的高辐射数据数量差距较大.低辐射数据中心点位置差距巨大,各聚类数目差距较小.从结果上看,MO-K-E的精度要远高于SO-K-E模型的精度.这说明区分不同属性数据有利于提取数据特征和集成处理.因此,聚类是至关重要的.
表3 SO-K-E聚类中心Tab.3 Cluster center of SO-K-E model
表4 MO-K-E聚类中心Tab.4 Cluster center of MO-K-E model
通过DM检验分析模型性能差异可以得出:①本文提出的多目标优化集成学习框架明显优于其他8个模型,DM检验的结论与上述统计评价指标的结论相同;②MO-E模型稳定性不足,这说明区分不同属性数据有利于提取数据特征,有利于集成处理;③单目标优化的学习框架稳定性不足.单目标学习框架因仅在单一目标上寻找最优解,而多目标能够在平衡不同目标的前提下,找到当前解空间下的最优Pareto解集,能够给决策者提供不同的方案进行选择,其辅助决策的能力更具有现实意义,从数据预测精度来看,多目标优化的集成学习框架明显优于单目标模型,能够很好地诠释数据信息,在预测非线性高波动数据上具有更强的性能.
3.2.3 稳健性分析 不同的初始条件可能会产生不同的结果.因此,我们将各个模型分别运行20次,计算他们的NRMSE和Ds的标准差.分析表5中各个模型的标准差可以看出:①多目标优化集成学习框架是最稳健的混合学习模型,其NRMSE的标准差均小于0.05,Ds的标准差均小于0.0 1. ② SO-ADD的方向稳健性不如单一的LSSVM.其加总集成方法不能够有效提取特征导致每次结果差距较大,又由于单目标优化无法寻找到解空间最优方案导致其稳健性较差.③在单一模型中,LSSVM是最稳健的.从稳健性来看,远优于普通线性模型ARIMA,而NRMSE的标准差与BP差距不大,但方向标准差要比BP神经网络小.④聚类能够提升集成的稳定性,使框架的具有更强的稳健性.分类集成能够提升数据拟合效果,使多次试验的结果趋于稳定.⑤集成框架的稳健性优于加总框架的稳健性.加总方法的弊端导致了其预测精度和稳健性都较差,因此集成的选择是十分重要的.
表5 模型的NRMSE和DS稳健性分析Tab.5 NRMSEand DS robustnessanalysis of models
本文提出了一种多目标优化的集成学习框架,并对太阳辐射进行预测.该模型首先运用SSA技术将太阳辐射数据分解为了一系列信号组;然后使用NSGAII-LSSVM分别对分量信号进行预测;接着K-means聚类方法将各预测结果分为高、中、低辐射数据;最后使用NSGAII-LSSVM分别进行集成,得到预测结果.通过各类模型对比,我们发现本文提出的多目标优化集成学习框架预测效果明显优于基准模型.通过各类指标分析和稳健性分析,该学习框架无论在水平精度还是方向精度上均能对太阳辐射进行有效预测. 本文得出几点结论:①聚类的思想来源于各时间段包含有不同的特征,将各类特征进行分类集成,能够很好地诠释时间带来的影响,如在夜间和中午时刻数据在量级和波动性上差异巨大;②集成学习对最终的预测结果是至关重要的,集成学习能够充分反映数据信息,提升预测效果,仅仅是简单线性加总的方式无法捕获子序列的不同特征;③多目标的预测模型能够很好地兼顾水平精度和方向精度,能够更好地找到当前解空间下的最优解集.
本文提出的多目标优化的集成学习框架能够很好地预测非线性高波动数据.因此,可以推广至风速预测、电力负荷预测和能源数据预测等方面.在今后的研究中,还可以将云密度、天气、大气污染等影响太阳辐射的因素纳入输入变量.