杨明智,杨昭,夏乾洋
(中国矿业大学经济管理学院,江苏徐州,221116)
电力负荷预测按照预测时间长短可以分为短期,中期和长期[1]。短期预测周期为一小时至几周,对于电网运营和优化有重要意义。预测方法主要分为经典统计方法和基于人工智能的方法[2],前者包括时间序列分析,回归分析,指数平滑等,此类方法的优点是简单、速度快、可解释性好,其缺点是对于非线性特征、大数据处理能力不足,模型缺乏鲁棒性和适应性;后者包括神经网络、灰色预测模型和支持向量机and therefore precise load forecasting plays an important role in reducing the generation cost and the spinning reserve capacity. Short-term electricity demand forecasting (i.e., the prediction of hourly loads (demand等,此类方法能够更好的处理非线性特征[3],但仍然无法达到电力系统精细调控的需求。近年来,深度学习方法在语音识别、计算机视觉和自然语言处理等领域取得了突破,有研究表明深度神经网络解决负荷预测问题的能力明显超过ARIMA、支持向量回归等经典回归方法,特别是处理大量历史数据时表现出良好的特征提取能力[4]。
seq2seq是一种端到端的深度神经网络模型,通过编码器(encoder)-解码器(decoder)结构将输入序列映射到输出序列,该模型解决了传统神经网络无法将序列映射到序列的问题。文献[5]最早提出了一个seq2seq模型,用于解决文本翻译问题,取得了显著效果。文献[6]研究了LSTM模型和基于LSTM的seq2seq模型在居民短期负荷预测问题上的表现,发现标准LSTM在一分钟分辨率的数据下无效,而在一小时分辨率的数据下表现出色,而seq2seq模型在两种分辨率的数据上均表现良好,说明其能够更好适应不同的时间粒度。seq2seq模型的局限在于当输入序列较长时,模型无法记忆距离太远的状态信息,会使得预测准确率下降。
图1 注意力模型工作原理
Seq2seq根据输入序列和输出序列长度不同可以分为many-to-many、many-to-one和one-to-many三种形式[5]。本文是根据历史负荷预测下一个小时的负荷,符合many-toone的形式。本文将注意力机制加入seq2seq模型中,将其改造为一个注意力模型称为attention,具体结构如图2所示。一维卷积层能够更好提取输入序列的特征,双向GRU网络作为编码器,注意力层计算上下文向量,全连接层代替循环神经网络作为解码器,这是因为模型最终预测的是一个点而非一个序列,循环神经网络并不能发挥功能。预测模型输入向量包含三类特征:第一类是与总耗电量相关的历史变量,包括当前小时,前1个、前2个、前23和前24小时的耗电量共5个特征;第二类是日期特征,包括hour,day,dow(day of week),doy(day of year)共4个,此类特征暗示居民用电行存在与日期时间相关的规律性,第三类是天气特征,包括当天的最高气温、最低气温和天气情况。
图2 基于注意力机制的seq2seq模型结构
为了验证本文提出模型的有效性,使用梯度提升回归树(Gradient Boosting Regression Tree,GBRT)和 LSTM模型与本文提出的attention模型进行对比。GBRT模型是一种基于树的回归算法,通过多棵树的迭代训练,每颗树学习的是前面所有树的结论和残差,逐步提升预测效果,该方法广泛应用于各种线性和非线性回归问题[9]。LSTM模型是时间序列预测具代表性的神经网络模型,在电力负荷预测中有大量应用[10]。
为了验证模型的效果,实验收集了某大学一栋宿舍楼2015年2月-2017年8月间的每小时用电数据。该宿舍楼约有2000名学生,学生群体的用电行为有明显的时间规律,比如:周末用电量比平时高,寒暑假用电量处于低谷,期末复习考试阶段为用电高峰。天气通常被认为是影响用电的因素之一,实验从气象网站收集了该地区相应时间段的气象数据,包括日最高气温、最低气温、天气状况,其中天气状况按照晴天、阴天、雨雪分为三类进行编码。模型输入使用滑动窗口技术将输入序列按固定窗口长度划分成相互重叠的窗口,而模型输出为输入窗口的下一时刻。最终模型输入张量为[训练批量,窗口长度,特征数量],输出张量为[训练批量,1]。训练深度神经网络需要对数据进行标准化处理,否则会影响梯度下降的效率,导致训练时间过长,甚至无法求解。本文采用z-score标准化方法,将t时刻电表或电器的功率xt减去其均值再除以标准差σ,标准化后的数据被缩放到相同的量级。
为了比较模型效果,使用python实现了三个模型,分别命名为GBRT、LSTM和attention。实验将前24个月的用电数据作为训练集,后5个月的数据作为测试集。GBRT模型训练使用scikit-learn库的GridSearchCV方法进行超参数调优。按照前文介绍的三类输入特征,GBRT模型使用全部三类特征共12个,LSTM和attention模型由于输入窗口已经包含前12个小时的用电量,因此不需使用第一类特征中的前三个,所以输入特征数为9。LSTM和attention模型训练过程中均采用Relu为激活函数,MSE为损失函数,并使用Adam算法优化学习过程。为了缩短训练时间、避免过拟合,深度学习模型的训练采用early-stop策略,如果超过5轮训练评估指标没有改进则终止训练,梯度下降学习率设置为0.001,使用MAE和RMSE作为评估指标。
模型在测试集上的评估结果如表1所示,深度学习模型LSTM和attention的效果明显好于基于树的GBRT模型,评估指标有超过50%的提升。本文提出的attention模型相较于LSTM模型仍有20%的提升。图3展示了三个模型在测试集上48小时的实际用电量和预测情况,反映出了评估指标的差距。GBRT模型的预测效果明显不佳,部分原因可能是调参不够充分,但与其它两个模型效果的较大差距说明该模型拟合能力不足。LSTM模型预测效果较好,无论RMSE还是MAE指标均比GBRT模型有很大提升。attention模型相较于LSTM模型仍有明显提升,尤其是用电量变化较大的时间段attention模型表现更好。实验结果证明attention机制在时间序列预测中是有效的,能够更好的完成建筑物能耗预测任务。
图3 模型预测结果对比
表1 模型评估指标
由于建筑内居住者用电行为很难单独分析,因此基于数据驱动的方法比传统分析法在建筑物能耗预测方面更具实用性。该项技术可以提升智能电网的需求侧管理水平、优化电力供给与需求、提升电网系统效率。本文将应用于机器翻译领域的注意力机制与seq2seq深度神经网络结合解决居民建筑物电力负荷预测问题。在一栋大学宿舍楼两年半实际用电数据集上的实验结果显示本文提出的attention模型相较于决策树类模型GBDT和简单神经网络模型LSTM有显著的性能提升。本文没有测试更多简单预测模型,因为前人已有研究指出复杂深度学习模型通常比简单模型更加有效[11]。本文仅使用了一栋宿舍楼的数据进行实验,然而不同居民建筑物的能源消费行为差异巨大,尤其是电动汽车的普及使得许多建筑都新增了充电桩等公共充电设施,将会成为重要的电力消费来源,如何采集和分析居住者用电行为数据是建筑物能耗预测面临的挑战。