彭 飞,贲 驰,马 煜,吴 奕,安丰强,陈志奎
(1. 国家电网公司 东北分部,沈阳 110180;2. 大连理工大学 软件学院,大连 116620)
全球化石燃料短缺日益严重,带来严重的环境污染和温室效应问题,世界各国都愈发重视新能源和可再生能源的开发与利用。中国“绿水青山就是金山银山”的重要发展理念,也要求使用更多清洁能源,注重保护环境的同时进行可持续发展。风能是被广泛使用的清洁能源之一,其蕴量巨大,开发潜力高。风力发电作为风能的主要利用形式之一,以风电为首的可再生能源产业已经成为“一带一路”的发展中坚力量[1]。大规模利用风能转化为电能时,需要对风电功率进行预测,保证电网的可靠性和稳定性。风电功率预测是风电场大规模并网所必不可少的关键环节,能为发电、调度、检修等提供有效依据,准确的预测结果将大大减轻风电并网给电网带来的调峰压力,减小对电网的冲击,保证电网安全运行。同时,根据预测结果将风机的维护和检修安排在无效风时段,有利于降低风机损坏概率,减少维修费用,确保在有效风来临时风电机组能正常发电,使风能得到充分利用,提高风电场的经济效益[2]。因此,研究改进风电功率的预测方法和技术,提高风功率的预测精度,对风能的大规模利用和风电企业利润的提高,具有重要意义。
随着计算机技术的发展,基于大数据技术的深度学习将为风电企业带来更大的利润增长空间。根据历史风电功率数据等变量,用深度神经网络建模,利用大数据预测风功率,充分考虑各种影响因素的情况,借助深度神经网络的数据处理能力,使风电功率的预测更加精准。通过大数据技术手段给予合理的数据挖掘与分析,有利于风电场的经营管理者充分了解、掌握风场的风机运行状况,及时对风机进行维护,减少风场运营成本,改善风电性能,为风电调度安排提供更科学的依据,降低后备电站的建设成本,间接降低对环境的污染。
现有方法往往停留在直接应用现有数据建模预测,欠缺对历史数据间隐含特征和逻辑关系的考虑。单纯从一台风机、一处电网,或一个地区的角度出发,将历史数据独立作为风功率预测的判断依据,忽略彼此之间的联系,导致数据割裂,模型不能最恰当的利用数据价值。深度迁移学习可以用于迁移现有的经验和知识,将具有相似特征的数据联结起来,共同建立更准确的模型。显然,相同电网内的风机在同一天受风力影响转换成的风功率应该是接近的,甚至相同风场内的地区数据间也应该存在联系。使用深度迁移方法,从具有相近地理位置等共性的风场中获取重要信息,可有效迁移具有相近特征历史数据中的重要知识,同时克服采集中数据缺失和噪声引起的数据异常,训练更可靠的模型。因此,基于历史数据的深度迁移风功率预测,有助于进一步促进风电机组日常运维管理的标准化和专业化,促使风场运维流程发生根本性变化,实现智慧风能的美好愿景。
综上所述,使用大数据深度学习方法对风功率预测任务进行建模,根据对风电场中每台风机进行运维监控获得的实时运行数据和历史数据,对风功率进行短期预测。针对传统方法单纯使用一地历史数据导致结果片面的问题,采用深度迁移学习,从具有相似特征和相近地理位置的数据中学习重要信息,从而获得准确率更高的可靠模型。
风电场功率预测是指对未来一段时间内风电场所能输出的功率大小进行预测,其预测结果可以作为电网安排调度计划的主要依据之一。两种典型的预测方式根据是否使用数值气象预报(NWP, numerical weather prediction)进行分类,因NWP经常不可用或不足,常使用数据驱动建模,即基于历史数据的功率预测[3]。风电功率预测方法还能分为物理方法,统计方法和组合方法[4],物理方法不需要大量历史数据,但要结合风电场地理环境才能完成。统计方法与物理方法的主要区别是不建立物理模型,仅根据风电场历史运营数据,建立历史数据中的参数和风电场功率输出之间的映射关系,通过寻找海量历史数据中的变化规律建立统计模型。已知的统计模型有两大类,一种是持续性算法、ARIMA(autoregressive integrated moving average)算法、卡尔曼滤波法等传统模型[5-6],另一种是神经网络、支持向量机等深度模型[7-8],随着大数据技术的发展,越来越多的研究者将深度方法应用于工作中。基于深度模型的统计方法对历史数据的数量和质量要求都比较高,一旦数据缺失或数据不准确,建立的模型精度会受到很大的影响。
国内风电场在运营过程中积累了大量宝贵的历史数据,这为深度学习在风电场功率预测中的应用提供了基础。在风电场功率预测的应用中,BP神经网络(BPNN)因其较强的非线性拟合能力受到研究者的青睐。文献[9]将改进BP神经网络应用于风电场功率预测,针对不同的风资源情况分别建立低频和高频模型进行预测,取得了较好表现。文献[10]基于小波变换和BPNN,在时序风电功率预测中对风电场历史功率进行了小波分解,在各分量上分别建立BP神经网络模型,但该方法对数值气象预报的空间分辨率要求高,仅适用于规模较小的风电场。文献[11]结合卷积神经网络和门控循环单元(GRU, gatedrecurrent unit)对多变量时间序列进行动态时间建模,进行超短期风电预测。文献[12-13]将卡尔曼滤波法与神经网络预测模型结合,建立人工神经网络进行滚动预测,有效提高预测的精度。文献[14]使用改进的差分算法优化神经网络,对小波包分解后的子序列进行预测叠加,得到预测结果。然而,以上方法都单纯使用来自某个单独模态的历史数据,没有考虑具有相似潜在特征的数据间联系,导致结果相对片面,模型对数据的利用不够充分。
深度迁移学习用于将知识和经验从源域迁移到目标域。众所周知,深度迁移学习可以提取原始数据的高级表示,复用共享知识,根据目标任务更新学习模型[15-16]。由数据丰富的域训练的深度神经网络来提取风速模式,再用目标域数据精细地调整映射,可以通过训练有素的模型将信息从电场间传递,显著提高预测的准确性。对于一些新建的风电场,没有足够的历史数据来训练一个准确的模型,而一些较老的风电场可能有长期的风速记录。一个问题是,由来自旧的电场的数据训练的模型是否也适用于新建电场,已有研究针对该问题,使用深度迁移学习优化风功率预测模型[17]。当前研究和使用的模型依然存在的问题包括:1)仅使用单模态的数据建模,没有考虑从相关的历史数据中获得知识;2)训练数据经常存在缺失和异常值,难以训练性能优秀的有效模型。使用深度迁移学习,有助于全面考虑具有相似特征的数据,克服异常数据的影响,从而获得可靠性和精度更高的模型。因此,研究使用深度迁移学习进行建模,研究基于历史数据深度迁移的风功率预测模型。
笔者使用东北电场的历史风功率数据进行建模,并且使用深度迁移学习方法,建立风场彼此间的隐含联系,实现不同电场历史数据间的信息互补,进而排除缺失数据和异常数据的影响,训练更加可靠的模型。电力系统中,96点数据具有代表性,一般作为记录标准和风功率预测的依据。一天中每15 min记录一次数据,每日记录一条数据,形成历史风功率数据的时序表格。
使用东北电场的历史风功率数据来自三省一区:即辽宁省、吉林省、黑龙江省和蒙东地区;数据来源是国家电网公司东北分部采集的真实历史风功率数据,包括从2016至2018年,以及2019年上半年的完整数据。记录的风功率内容按地区分为东北、辽宁、吉林、黑龙江、蒙东,以及东北直调。其中,东北地区的值等于辽宁、吉林、黑龙江和蒙东的总功率之和,这可以用来排除异常数据和缺失数据,同时用东北地区的整体趋势训练的模型趋势应该与其组成部分一致或相似,便于使用深度迁移方法。东北直调的理论值是蒙东地区除去呼伦贝尔的220 kV以上的风电场的功率,在同一天内,其趋势应该和蒙东地区类似,同样可以起到辅助域的作用。
深度学习解决了深度网络非凸目标函数的局部最优问题,网络内大量的隐藏单元、更好的学习算法和参数初始化技术,促成了深度学习方法的成功。而深层架构在高层的抽象表示,为知识在深度模型间迁移提供了理论上的基础。源域和目标域之间隐含的相似特征和联系使得在域与域之间进行深度迁移传递知识成为可能。在基于历史数据的风功率短期预测中,将使用东北地区总功率训练的模型作为源域,以此为基准,将整体历史趋势中的信息分别迁移到4个目标域;后者分别对应辽宁、吉林、黑龙江和蒙东的历史数据趋势情况,通过相互之间的对照进一步保证模型精度,抑制数据采集中的缺失和异常值。另外,依照其包含关系,将东北直调的数据作为源域,蒙东数据作为目标域,用于辅助蒙东区域风功率预测模型的建立。
模型的整体架构如图1所示。在这个架构中,输入层和隐藏层在所有的风电场中共享,经过相同的特征转换从而提取最具有代表性的特征。与此同时,各个地区历史数据的输出层不是共享的,而是彼此独立的。每个风场的数据都有自己的输出层,因为它们的数据分布情况和功率历史趋势显然会与其他风场不同。这是一种将通用特征转移到每个数据集的知识转移。该模型的结构使其可以使用并行的训练策略,这比传统的顺序训练模式更加优越。
图1 深度迁移模型整体架构Fig. 1 The architecture of the deep transfer learning model
基于深度网络的学习和训练过程通过迭代地调整权值完成。网络模型由输入数据信息的正向传递以及误差分析信息的逆向传递2部分构成,在训练过程中,以上2个过程将会反复循环进行,直至达到约定的最大迭代次数或者数据的误差评估降低到可以接受的范围后,即完成训练。训练完成之后,深度神经网络模型便具备了自我学习能力。再输入未曾参与训练的真实历史数据时,神经网络已经具备了适应环境和学习新知识的能力,所以也能够给出预期的合理输出值。经过一定程度的数据集训练,神经网络能够具有自我学习和对相同数据模型的适应能力。由于使用了深度迁移学习的思想合理地从源域中获取知识,可以使得到的网络具有更加强大的性能。
在模型构造方面,使用带降噪处理的自动编码机。深度自动编码机是一种特殊类型的深度神经网络,其输出具有与输入相同尺寸。传统的自动编码机是一种无监督学习算法,它通过一种确定性的变换将输入的χ∈[0,1]d转换为γ的隐含表示y∈[0,1]d′,该变换定义为
γ=fα(χ)=S(Wχ+b),
(1)
式中:S代表非线性变换,一般使用sigmoid函数;参数集α={W,b},W是d×d维的矩阵;b是矩阵的偏置向量。通过类似的变换,γ的隐含表示被重新解码为与χ形状相同的重构Z∈[0,1]d。Z可以被看成对χ的预测。为了获得精度尽可能高的模型,需要最小化Z和χ之间的差距。
(2)
图2 基于深度迁移的预测过程Fig. 2 Process of deep neural network transfer prediction
对提出的模型的有效性进行验证。实验配置如下:实验全部在Dell R740服务器上运行,使用显卡进行GPU运算,配置为2.1 GHz-8cores-16threads NVIDIA Tesla M60 128 G。
实验中使用的数据全部来自东北电网收集的真实数据,包括2016~2018年的全年数据以及2019年上半年的数据。一天中每15 min记录一次数据,共96点数据具有代表性;每日记录一条数据,由此形成历史风功率数据的时序表格,全年共365条数据。在对原始数据进行清洗和预处理,对缺失值和异常值进行对应处理后,可以得到每日风功率的整体趋势图如图3所示。
图3 每日风功率整体趋势Fig. 3 The overall trend of daily wind power
通过对真实历史数据趋势的分析,发现并证实了风场历史数据与地理位置间存在的隐含联系,为使用深度迁移学习方法跨域学习历史数据中的重要知识提供了重要理论基础:1)原始数据中东北地区的总功率等于辽宁、吉林、黑龙江和蒙东之和,且风场地理位置接近,存在包含关系,因此,将东北地区整体历史趋势中的信息分别迁移到4个目标域,分别对应辽宁、吉林、黑龙江和蒙东的数据趋势情况,通过迁移源域内隐含的不同地区所需的特征信息,提高目标域模型的预测精确度。2)由于受相同季风气候影响,地理位置接近的风场之间具有一定的相似程度。实验中尝试使用这一特点,使用地理位置接近的黑龙江和吉林的历史数据进行源域到目标域的知识迁移,并观察其对结果的影响。具体的,使用吉林的数据辅助东北数据共同作为源域,训练黑龙江的预测模型。3)东北直调的理论值是蒙东地区除去呼伦贝尔的220 kV以上的风电场的功率,在同一天内,其趋势应该和蒙东地区类似,可以使用数据量较多的东北直调风场作为源域,辅助目标蒙东地区历史数据模型的建立。具体的迁移设计如表1所示。
与此同时,还根据历史数据分析了一年中功率的整体趋势,用于提供辅助信息,对模型的准确性进行优化,有效地排除异常值。如图4所示,在同一年中,各地子电场的功率情况应当符合整体的变化趋势。结合全年历史数据作为辅助,使得训练的模型能够更好地拟合数据趋势,排除离群点和异常数据的影响,有效地对短期功率进行模拟。
图4 一年中风功率的整体趋势Fig. 4 The overall trend of annual wind power
根据可能存在的潜在联系分别选择源域和目标域设置多组实验,分别对模型进行训练。并且选择现有的真实数据进行仿真实验,比较预测值和真实值之间的差异。通常采用均方根误差对风功率预测误差进行评估。均方根误差(RMSE,root mean squared error)由偏差和误差的方差组成,后者又包括幅度误差和相位误差,其定义为
(3)
式中:e代表预测误差;由预测值xp和实际值xm的差值求得;n是预测点的总数量。
深度迁移方法使用来自选定源域的历史数据辅助模型训练,相应的,对比方法只使用属于自己电场的历史数据进行训练。在建模预测中,随机选择质量较高的数据,选择某风电场内1~2个月内的数据进行短期预测,与真实值和直接训练的模型对比,分析最终结果。实验结果如下表1所示。
表1 迁移设计及实验结果
实验表明设计的模型可以有效地实现基于历史数据的短期风功率预测,平均误差率在10%以下,可以满足实际应用中的要求,并且优于传统非迁移方法。
针对短期风功率预测中现有方法往往仅使用自己域内的历史数据,导致结果片面,局限性大,未能有效抑制原始数据缺失或异常值引起的模型性能下降等挑战,设计了一种基于历史数据深度迁移的短期风功率预测方法,使用带降噪处理的自动编码机构建深度神经网络模型,应用深度迁移方法共享隐藏层,从具有相似特征和地理位置的风场数据中迁移重要知识,提高模型的准确率和可靠性。实验结果表明,研究方法更能充分利用现有的历史数据,预测的准确率显著提高。