基于样条估计分位数回归的光伏功率回归模型

2017-11-20 11:48路志英任一墨葛路琨
湖南大学学报·自然科学版 2017年10期
关键词:分位数回归曲线拟合

路志英+任一墨+葛路琨

摘 要:光伏发电功率预测的准确与否是太阳能光伏发电是否能够有效地并入当前电网从而大大地提高太阳能利用率的关键.分位数回归是一种能够给出输出量的详细完整分布,从而便于分析与研究的回归模型.样条就是仅在节点处平滑连接的多项式函数,样条估计具有简单易行和计算速度快的优点.本文通过建立基于样条估计的分位数回归模型,在光伏面板发电功率数据的基础上,拟合光伏功率曲线,通过计算残差平方和和确定系数进行对拟合效果的评估.结果表明,该模型利用已有的光伏面板发电功率数据,可以在给出功率预测值的完整分布的同时,准确有效地分析相关因素对光伏发电功率的影响,展现不同分位点的回归拟合效果,從而有效地提高光伏系统对太阳能的利用率,避免光伏发电在接入电网时所产生的不利影响.

关键词:光伏功率预测;分位数回归;样条估计法;概率预测;曲线拟合

中图分类号:TM721 文献标志码:A

Photovoltaic Power Regression Model Based on Spline Estimationand Quantile Regression

LU Zhiying,REN Yimo,GE Lukun

(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)

Abstract:A quantile regression model was established based on spline estimation. Based on the output data of photovoltaic panel,the curve of power was fitted,which was compared with ordinary least squares regression model and simple quantile regression model. The results show that the quantile regression model can give much more accurate and effective analysis on the influence of relative factors on the output power of photovoltaic panels,improve the efficiency of solar energy,provide the complete distribution of output power,and reduce the negative impact of photovoltaic panel when connected to the grid.

Key words:photovoltaic power prediction;quantile regression;spline estimation;probability prediction;curve fitting

当代社会已经公认太阳能是一种具有强大竞争力的绿色能源.利用太阳能的有效方式之一是光伏发电,目前我国的光伏发电系统正在由独立系统发展到大规模并网[1].由于受各种因素的影响,光伏系统进行发电的功率是不稳定的,在接入电网时会造成一些不利影响[2-3],因此人们在使用光伏发电时常持有谨慎的态度,从而影响太阳能以及光伏发电的应用范围.

在短期光伏功率预测的领域,国内外学者对光伏出力的相关影响因素和新方法新理论进行了一定的分析和研究.文献[4]利用天气类型指数的方法来进行光伏短期出力预测;文献[5]利用了机器学习的方法之一局部支持向量回归来进行微网光伏发电的预测;文献[6]总结了目前大多数已有的短期太阳能光伏发电预测方法的思路,建立预测公式或模型,对光伏电站发电量进行预测.

分位数回归(Quantile Regression,QR)是一种利用自变量的多个分位数(例如四分位、中位、百分位等)来得到因变量完整的条件分布的方法,可以得到更详细的描述变量的统计分布.

样条是指一种采用分段定义的简单方便的多项式参数曲线,样条估计在许多曲线估计的领域中都得到了大量的应用.

通过建立基于样条估计的分位数回归模型,在光伏面板出力功率数据的基础上,可以准确地拟合光伏出力曲线,并与OLS模型以及简单分位数回归模型的拟合效果进行比较与分析.结果表明,基于样条估计的分位数回归模型能够更加准确地拟合光伏出力曲线,得到光伏出力数据的条件分布的完整分布,在详细地描述光伏出力的分布的指导下可以有效地提高光伏系统对太阳能的利用率.

1 数据资料

1.1 原始数据

本文数据来源于The Global Energy Forecasting Competition 2014 (GEFCom2014),是对三块光伏面板的相关影响因素进行逐小时采集得到的.数据包括12个相关因素,包括风速、气温、气压、辐照、降水等,以及相对应的光伏出力数据(标幺值),相关因素的具体描述如表1所示.

1.2 数据集的划分

影响光伏发电系统的短期发电量预测结果的因素很多,关系也相当复杂.文献[7]和文献[8]列举出如太阳光照强度、太阳入射角度、光伏电站的位置、转换效率、大气压、温度、安装角度、时间、季节等等的影响因素.文献[9]和文献[10]指出了光伏发电系统,其发电量时间序列本身具有高度自相关性的特点.

本文对原始数据集进行划分.首先除去夜晚光伏出力明显为0的情况(世界时9~20时),然后利用某天的前30天共计360组小时发电量数据作为训练集,该天12组小时发电量数据作为测试集,划分原始数据集.endprint

2 分位数回归

2.1 分位数回归的基本概念

经典回归的目的在于估计因变量的均值.当回归假设成立时,这一方法是有效的,也就是说经典回归的随机项需要来自均值为0且同方差的正态分布,即正态性假设和方差齐性假设[11-12].

实际中上述两个假设往往是难以成立的,因此文献[13]和文献[14]首先提出了分位数回归的概念,放松了两个回归假设,对于随机项不需要假设的具体分布,从而使分位数回归广泛地应用于经济、医学、生物等领域.分位数回归为研究者提供了一个无法从经典回归中获得的新视角,有助于分析因变量条件分布的完整特征,可以在更加宽松的条件下挖掘到更加丰富的信息[15-16].

2.2简单分位数回归的模型

设X为实值随机变量,分布函数为F(x)=P(X≤x),则对任意0<τ<1,有

F-1(τ)=inf{x:F(x)≥τ}(1)

式中:F-1(τ)即为X的τ分位数;inf(x)表示集合x的下确界.

常用Q(τ)表示X的τ分位数,则Q(0.5)表示中位数.在实际问题研究中,中位数可以和均值共同来反映数据所包含的位置等信息.

对于Y的一组随机样本Y1,Y2,…,Yn,样本均值是β=arg min∑ni=1(yi-β)2的最优解;样本中位数则是Q(0.5)=arg minβ∈R∑ni=1|yi-β|的最优解.

当模型为线性模型Y=XTβ+ξ时,假设ξ的分布为F,那么回归分位数β(τ)的值,等价于如下函数的解:

minβ∑(i|Y≥XTiβ)τ|Yi-XTiβ|+

∑(i|Y≥XTiβ)(1-τ)|Yi-XTiβ|(2)

在样本觀测值(xi1,xi2,…,xip,yi),i=1,2,…,n上,可以求得参数β=(β0+F-1(τ),β1,…,βp)T在第τ分位处的估计为:

(τ)=arg minβ∈Rp+1∑ni=1ρτ(yi-xTiβ)(3)

那么对应的样本Y的条件τ(0<τ<1)的分位数估计为:

τ(Y|X)=XT(τ)(4)

显然分位数回归方法并不需要预先对分布作假设,并且对离群点的干扰较不敏感,因而比普通最小二乘回归更稳健.通过选取不同的τ值 ,分位数回归可以得到Y不同的分布,而不仅仅像经典回归只得到Y的条件期望[17-19].

3 基于样条估计的分位数回归

3.1 样条估计

简单的分位数回归模型是建立在线性模型的假设上的,属于参数模型,模型仅用一些参数表示,但是限制较多,需要预先假定回归函数和样本的分布形式,从而造成了模型的泛化能力弱,稳健性较差的后果.在这种情况下可以采用比较自由,受约束少的非参数模型,对于数据的分布不作太大要求,从而使得模型的泛化能力强,稳健性高[20].因此本文通过采用样条函数进行样条估计,拟合非参数回归模型,放松参数模型的限制[21-22].

样条函数估计是一种全局逼近估计从而近似逼近非参数模型的方法,估计效果取决于样条节点个数和位置的选择[23].样条光滑法具有简单易行和计算速度快的优点[24].为此,本文构建了基于样条估计的分位数回归模型,即分别采用B样条和自然B样条进行样条估计,建立分位数回归模型,从而达到更好的分位数回归效果[25].

3.2 B样条估计和自然B样条估计

B样条函数是由B样条基函数的线性组合构成,有许多的定义方法.可以采用deBoor-Cox递推公式定义三次B样条基函数,其具体形式为:

B4i(x)=

(ξi+4-ξi)(x-ξi)3S4i(ξi),x∈[ξi,ξi+1];

(ξi+4-ξi)(x-ξi)3S4i(ξi)+(x-ξi+1)3S4i(ξi+1),x∈[ξi+1,ξi+2];

(ξi+4-ξi)(ξi+3-x)3S4i(ξi+3)+(ξi+4-x)3S4i(ξi+4),x∈[ξi+2,ξi+3];

(ξi+4-ξi)(ξi+4-x)3S4i(ξi+4),x∈[ξi+3,ξi+4];

0,x∈[ξi,ξi+4];

(5)

式中:

S4i(x)=(x-ξi)(x-ξi+1)(x-ξi+2)(x-

ξi+3)(x-ξi+4),ξi:i=1,…,m(6)

是样本区间上的节点序列.

B样条估计方法对结点(knots)之间的估计是比较准确,但对边界的拟合效果较差.此时可以引入在自变量最小值和最大值处各增加一个结点,用线性模型拟合边界位置的样本点的思想,从而改善B样条估计方法对边界的拟合效果,此时称为自然B样条.

3.3 基于B样条估计的分位数回归

对于式(7)这样一个非参数模型:

yi=g(xi)+εi,i=1,2,…,n(7)

Y=(y1,y2,…,yn)′是因变量;X=(x1,x2,…,xn)′是自变量;误差ε=(ε1,ε2,…,εn)′的分布未知.

为了一般化,假设ε的密度函数处处不为0.那么在三次B样条估计下,非参数模型可以近似为:

g(xi)=∑mj=-3θjB4j(xj)(8)

基于B样条下的分位数回归估计方程:

(*τ,QRτ)=arg minb*τ,Θ∑ni=1ρτ(yi-b*τ-

∑mj=-3θjB4j(xi))(9)

这里*τ是ε的100τ%分位数估计.

那么分位数模型的Y|X的分位数回归的100τ%条件分位数估计是:endprint

X′+*τ,=(-3,…,m)′,

X′=B4-3(x1)…B4m(x1)

B4-3(xn)…B4m(xn)(10)

4 实验结果与分析

本文基于GEFCom2014所给出的光伏出力的相关数据,在1.2节构建的训练集与测试集的基础上,针对2012年5月份该块光伏面板出力数据,分别构造两种基于样本的分位数回归模型和简单分位数回归模型以及普通最小二乘回归模型,利用残差和确定系数为指标,对结果进行比较与分析.

4.1 模型评价指标

4.1.1 残差与残差平方和

1)残差.数据集合中第i个样本的残差ei计算公式为:

ei=yi-i(11)

式中:yi是第i个样本的观测值(实际值),i是对应的预测值.

残差反映了用回归方程预测引起的误差.

2)残差平方和.残差平方和(residual sum of squares,RSS)就是把每个残差平方之后加起来所得到的值,表示随机误差的效应.一组数据的残差平方和越小,其拟合的程度越好.

4.1.2 确定系数

度量回归直线的拟合程度统计量是确定系数R2,R2的计算公式如下:

R2(y,)=1-∑nsamplesi=1(yi-i)2∑nsamplesi=1(yi-)2(12)

式中:yi是第i个样本的观测值,i是对应的预测值,nsamples是样本的个数,=1nsamples∑nsamplesi=1yi是真实值的均值.

R2的值越接近于1表示其回归拟合的效果越好,自变量对因变量的解释程度越高,自变量的变动占总变动的百分比高,真实值在回归线附近越密集.

4.2 实验结果

4.2.1 回归结果示意图

对于2012年5月1日00:00~23:00的光伏面板出力数据,各模型的回归结果如图1所示,其中分位数为从0.05~0.95每隔0.05选择一次.

从图1可以看出,中位数回归模型的回归效果要优于普通最小二乘回归模型;在中位数回归模型中,样条估计的效果要优于简单模型的效果,自然B样条模型又较B样条模型更加光滑.

为了进一步比较两种样条模型,在图2中作出了一日内模型在不同分位数上的回归结果.

4.2.2 残差平方和与拟合优度

对于2012年5月份某日的光伏发电功率值,为了度量回归模型的拟合能力,计算回归模型的预测值与实际值之间的残差平方和以及确定系数的值,计算结果如图3所示.

图3显示了中位数回归模型以及均值回归模型均不能达到令人满意的曲线拟合效果;在4种回归模型中,自然B样条中位数回归模型的拟合效果略优.因此下一步选择计算该模型在一日中各个时刻上各个分位数点的残差大小,从而比较不同分位数点的模型拟合效果.计算结果如图4和图5所示.

4.3 结果分析

从图1不难看出:相对于均值回归模型,中位数回归模型对于该日的光伏发电功率有着较好拟合效果.这是由于分位数回归方法不需要对分布作假设,并且对异常点不敏感,从而比均值回归模型更稳健,泛化能力更强.图2显示了分位数回归模型选取不同的分位数的值,得到光伏发电功率的完整条件分布的能力,不像最小二乘回归那样只得到其条件期望,使得预测的信息更加丰富.

从图1和图2同样还可以比较得出,样条估计能够更好地增强分位数回归效果,并且自然B样条估计在增加节点的同时,使样条在边界更加的光滑,改善B样条估计方法对边界的拟合效果.

从图3中可以看出,对于日光伏发电功率,单纯的中位数回归模型以及普通最小二乘回归模型均不能达到很好的曲线拟合效果.这是由于已有的特征(即相关影响因素)对于一日各个时刻的光伏發电功率的影响机制在不同时刻是不同的,因此会造成各个时刻的回归结果的好坏差距,从而影响日光伏发电功率曲线拟合的效果.

从图4和图5中可以看出,一日中各个时刻上各个分位数点的回归拟合效果是不同的.因此可以在该实验的基础上继续进行研究,寻找影响各个时刻各个分位数点回归效果的因素,找出不同时刻回归拟合效果较好的分位数点,从而便于模型在实际中对光伏发电功率进行预测.简单地看来,在一天的01:00~03:00时刻,0.8及0.9分位数上的回归模型对光伏出力功率曲线的拟合效果较好;在07:00~09:00时刻,0.5及0.4分位数上的回归模型拟合效果较好;在09:00时刻之后,0.6及0.7分位数上的回归模型拟合效果较好.

5 结 论

本文通过建立基于样条估计的分位数回归模型,对GEFCom2014所提供的光伏发电数据进行拟合,由此得到以下结论:

1)基于样条估计的分位数回归模型相对于普通二乘回归模型以及简单分位数回归模型对日光伏发电功率的拟合效果更好.

2)分位数回归模型能够得到光伏发电功率预测值的完整分布,可以有效地增加光伏系统对太阳能的利用率,尽力减少接入电网的光伏系统对电网的不利影响.

3)分位数回归模型在呈现厚尾、非对称的情况的光伏发电功率数据,可以有效地实现与分析光伏出力与相关影响因素的关系.在本文进行的实验中,不难看出,不同分位数下对光伏出力的回归效果是不同的,因此实际上,在不同时刻内选取不同分位数上的回归,可以实现光伏发电功率的有效回归与预测.

4)分位数回归模型在给出光伏发电功率预测值完整分布的同时,可以更加准确有效地分析相关因素对光伏出力功率的影响.

参考文献

[1] 刘伟,彭冬,卜广全,等.光伏发电接入智能配电网后的系统问题综述[J].电网技术,2009,33(19):1-6.endprint

LIU Wei,PENG Dong,BU Guangquan,et al.A survey on system problems in smart distribution network with grid-connected photovoltaic generation[J].Power System Technology,2009,33(19):1-6.(In Chinese)

[2] 陈炜,艾欣,吴涛,等.光伏并网发电系统对电网的影响研究综述[J].电力自动化设备,2013,33(2):26-32.

CHEN Wei,AI Xin,WU Tao,et al.Influence of grid-connected photovoltaic system on power network[J].Electric Power Automation Equipment,2013,33(2):26-32.(In Chinese)

[3] ALQUTHAMI T,RAVINDRA H,FARUQUE M O,et al.Study of photovoltaic integration impact on system stability using custom model of PV arrays integrated with PSS/E[C]// North American Power Symposium. IEEE Xplore,2010:1-8.

[4] 袁晓玲,施俊华,徐杰彦.计及天气类型指数的光伏发电短期出力预测[J].中国电机工程学报,2013,33(34):57-64.

YUAN Xiaoling,SHI Junhua,XU Jieyan.Short-term power forecasting for photovoltaic generation considering weather type index[J].Proceedings of the CSEE,2013,33(34):57-64.(In Chinese)

[5] 黄磊,舒杰,姜桂秀,等.基于多维时间序列局部支持向量回归的微网光伏发电预测[J].电力系统自动化,2014,38(5):19-24.

HUANG Lei,SHU Jie,JIANG Guixiu,et al.Photovoltaic generation forecast based on multidimensional time-series and local support vector regression in micro grids[J].Automation of Electric Power Systems,2014,38(5):19-24.(In Chinese)

[6] 崔洋,孫银川,常俾林.短期太阳能光伏发电预测方法研究进展[J].资源科学,2013,35(7):1474-1481.

CUI Yang,SUN Yinchuan,CHANG Zhuolin.A review of short-term solar photovoltaic power generation prediction methods[J].Resources Science,2013,35(7):1474-1481.(In Chinese)

[7] 陈维,沈辉,刘勇.光伏阵列倾角对性能影响实验研究[J].太阳能学报,2009,30(11):1519-1522.

CHEN Wei,SHEN Hui,LIU Yong.The effect of tilt angle on performance of photovoltaic systems [J].Acta Energiae Solaris Sinica,2009,30(11):1519-1522.(In Chinese)

[8] 刘晓艳,祁新梅,郑寿森,等.局部阴影条件下光伏阵列的建模与分析[J].电网技术,2010,34(11):192-197.

LIU Xiaoyan,QI Xinmei,ZHENG Shousen,et al. Model and analysis of photovoltaic array under partial shading[J].Power System Technology,2010,34(11):192-197.(In Chinese)

[9] 杨德全.基于神经网络的光伏发电系统发电功率预测[D].北京:华北电力大学,2014.

YANG Dequan.Generation forecasting for photovoltaic system based on artificial neural networks[D].Beijing: North China Electric Power University,2014.(In Chinese)

[10]赵杰.光伏发电并网系统的相关技术研究[D].天津:天津大学,2012.

ZHAO Jie.Study on related technologies of grid-connected photovoltaic power system[D].Tianjin: Tianjin Unversity,2012.(In Chinese)

[11]GREENE W H. Econometric analysis[M]. 7th ed.Beijing:Chinese People's Publishing House,2013:5.endprint

[12]BHATTI H A, RIENTJES T, HAILE A T, et al. Evaluation of bias correction method for satellite-based rainfall data[J]. Sensors, 2016, 16(6):884-886.

[13]KOENKER R,BASSETT G. Regression quantiles[J].Econometrica,1978,46(1):33-50.

[14]郝令昕,丹尼尔.分位数回归模型[M].上海:格致出版社,2012:30-45.

HAO L X, DANNIEL Q. Quantile regression model[M].Shanghai: Truth & Wisdom Press,2012:30-45.(In Chinese)

[15]陈建宝,丁军军.分位数回归技术综述[J].统计与信息论坛,2008,23(3):89-96.

CHEN Jianbao,DING Junjun.A review of technologies on quantile regression[J].Statistics & Information Forum,2008,23(3):89-96.(In Chinese)

[16]李育安.分位数回归及应用简介[J].统计与信息论坛,2006,21(3):35-38.

LI Yuan.An introduction to quantile regression and its application[J].Statistics & Information Forum,2006,21(3):35-38.(In Chinese)

[17]张利.线性分位数回归模型及其应用[D].天津:天津大学,2009.

ZHANG Li.Linear quantile regression model and its application[J].Tianjin: Tianjin Uinversity,2009.(In Chinese)

[18]HALLOCK K F,KOENKER R W.Quantile regression[J].Journal of Economic Perspectives,2001,15(4):143-156.

[19]乔舰, 李再兴. 分位数回归的理论再说明及实例分析[J]. 统计与决策, 2012(19):104-107.

QIAO Jian, LI Zaixing. Reanalysis of the theory of quantile regression and case analysis[J].Statistics and Decision, 2012(19):104-107.(In Chinese)

[20]约翰·福克斯, 王骁. 非参数回归:平滑散点图[M]. 上海人民出版社, 2015: 15-30.

FOX J, WANG Xiao. Non parametric regression: smoothing scatter plots[M]. Shanghai: Shanghai People's Publishing House, 2015: 15-30.(In Chinese)

[21]KOOPERBERG C.Flexible smoothing with B-splines and penalties: comment[J].Statistical Science,1996,11(2):110-112.

[22]BALAIN B,JAISWAL A,TRIVEDI J M,et al.The Oswestry risk index: an aid in the treatment of metastatic disease of the spine [J].2013,Bone joint,95-B(2):210-216.

[23]刘昕明.两类非参数分位数回归模型的研究[D].北京:北京化工大学,2013.

LIU Xinming.The research of two kinds of nonparametric quantile regression model[D].Beijing: Beijing University of Chemical Technology,2013.(In Chinese)

[24]楊玉娇.基于样条函数的两类回归模型的研究[D].上海:华东师范大学,2013.

YANG Yujiao.Spline analysis for two regression models[D].Shanghai: East China Normal University,2013. (In Chinese)

[25]BüHLMANN P,MCNEIL A J.An algorithm for nonparametric GARCH modelling[J].Computational Statistics & Data Analysis,2002,40(4):665-683.endprint

猜你喜欢
分位数回归曲线拟合
面料性能对A字裙动态造型的影响
曲线拟合的方法
新常态下我国城乡居民代际收入流动性分析
县域产业园区经济发展对城镇化的影响
中国农村居民消费函数的实证研究
基于车道投影特征的弯道识别算法研究
应用曲线拟合法优化油井合理沉没度
家庭债务变动对婚姻不稳定性的影响
税收政策影响居民消费水平的区域效应研究基于省级面板数据的分位数回归分析