李晶晶,张永敏,田桂林,崔胜胜,严洁
(国网青海省电力公司营销服务中心,青海西宁 810000)
数据驱动是实现数据监测、分析、研究的重要手段,目前网络用户的数据量大幅度上升,数据驱动空间的负荷预测对于保证数据的安全可靠分析、降低数据分析成本、提高数据分析效率、合理规划数据使用领域具有关键性作用。针对数据的数量大、种类多、随机性强等特性,传统的基于CNN 神经网络的数据驱动空间负荷预测方法采用误差传播算法确定数据训练层次,不断调整数据权值,预测数据内部空间负荷。但由于缺少对采集数据的处理步骤,且计算流程复杂,导致该模型的预测精度低、速度慢,不能满足当前社会的应用需求[1-3]。
基于以上模型的应用弊端,该文提出了基于LSTM 神经网络的数据驱动空间负荷预测方法,在构建LSTM 神经网络预测模型的基础上分析处理数据,确定模型内部的输出量,确定LSTM 神经网络结构,从而对数据驱动空间负荷进行精准预测。经过对比实验验证,该方法可以提高预测能力,减小预测误差。
神经网络的本质是通过模拟人脑的神经元在相应的网络架构中设置算法节点,从而利用计算机模拟人脑进行数据学习,采用不同的算法解决不同的问题。LSTM 神经网络是以循环神经网络为基础进行优化改进的算法,能够更完善地解决数据训练中的梯度消失问题[4-5]。
利用LSTM 神经网络建立数据驱动空间负荷预测模型的优势在于能够在短时间内处理序列,通过预测模型确定隐藏单元,通过多个神经元的合力分析隐藏单元之间的关系,从而确定训练数据间隐含的映射关系,且输入特殊的时序促使该模型具有较高的训练速度的同时,对长周期依赖型数据也具有较好的学习能力。
针对长周期的数据驱动空间负荷数据,基于LSTM 神经网络的预测模型采用循环机理,前一层神经元输出的时间点保持与下一层神经元输入的时间点相同,在预测历史数据的同时,也能避免发生随着时间延迟导致忘记历史数据规律的问题[6]。各层次的神经元以链式结构相连接,使各神经元的分析数据能够在网络结构中相互传递,且为解决梯度下划问题,采用特定的“门结构”保证各神经元数据传递的稳定性和完整性。即采用输入门和输出门控制数据的输入和输出,利用遗忘门记录数据训练规律,保证模型训练的可持续性,基于LSTM 神经网络的预测模型结构示意图如图1 所示。
对基于LSTM 神经网络的数据驱动空间负荷预测方法而言,数据预处理和分析是保障数据真实性和可靠性的关键步骤。在数据采集过程中,由于采集设备参数错误或人为操作误差,可能导致采集数据残缺、重复等情况,一旦需要处理数据与实际数据存在一定的偏差,最终的预测结果则不具有代表性[7-8]。该文为了保证数据驱动空间负荷预测的准确性,在数据训练前,通过数据预处理,确定内部的残缺数据,去除重复数据。
数据驱动空间数据具有周期性特征,根据数据的此项特征,该文的数据预处理操作不仅更新了数据处理的流程,而且也扩展了数据采集的范围。在数据采集前,需要获取数据驱动空间负荷数据100 s 前和100 s 后两个不同时刻的神经网络数据。考虑到LSTM 神经网络模型对于尺度数据具有敏感性,因此该文会将初次采集到的数据进行归一化处理,保证采集数据的完整性,降低数据输入输出量选择的难度,以提高数据驱动空间负荷预测的准确性。具体的归一化处理公式如式(1)所示:
式(1)中,X表示初次采集到的数据驱动空间负荷数据;Xmin表示采集到网络数据的最小值;Xmax表示原始单个数据的最大值;Xnorm表示归一化处理后单个数据的中间值;h表示归一化处理的尺度大小。
为了保证数据预处理操作的公平性和科学性,使数据计算的收敛速度保持稳定,该文设计的数据预处理操作频率为10分钟处理一个数据,并且将48个数据作为一个单位矩阵[9-10]。数据预处理操作的准备工作完成后,具体的数据预处理流程如下所示:
步骤一:将采集到的数据进行有效性检验,检验公式如式(2)所示:
式(2)中,p表示检验阈值;Xn,j表示采集数据时数据的修正数据;j表示数据关联的两个横向负荷点;ε表示与数据相关联的两个日负荷点;Xˉ表示数据整体的规范平均值。
步骤二:若数据元素的计算结果不满足式(2),则此数据不具有计算意义,抛出并重新训练,直至全部输出满足式(2)的计算结果,进行步骤三。
姐姐先把消息截屏下来,再把消息删除,然后把消息截屏发到她的手机上并删除消息,最后再把妈手机上的截屏给删掉,整件事看不出一点破绽。
步骤三:将完成所有检验的有效数据,以数据量为单位随机分成若干组,然后进行数据量的排序。
步骤四:排序后,按照序列将所有数据变换处理为矩阵的形式,为神经网络结构的确定奠定计算基础[11]。
数据输入输出量选择的目的是提供数据神经网络训练的对象,达到确定神经网络结构的目的。数据输入输出量的选择与数据的负荷值和时间曲线有关,时间曲线表现出数据的可变化性,数据的负荷值表现出数据的可用性[12-13]。
对于LSTM 数据输入输出量的确定,首先两个数据必须要满足一定的时间间隔,对于网络数据的训练才具有意义。输入输出量的选择要经过两个阶段的选择训练,第一次数据的选择通过时间序列模型进行计算,主要目的是选择出具有时间间隔的输入输出变量;第二次数据的选择通过自相关模型,借用单一维度理论思想,即仅从一个角度选择自相关模型,以选择出满足负荷相关性的输入输出变量,LSTM 的单元结构如图2 所示。
传统的神经网络结构确定方法的原理是在基础上嵌套多个网络完成计算,为了打破此计算模型,该文设计的两种神经网络结构都是在一个网络的层次上完成计算,在保证结果准确度的基础上,确定神经网络结构。因为数据的格式不同,为了保证LSTM 神经网络结构的精密度,该文根据神经网络结构的规范,对应不同的输入输出变量分别采用多模型单变量预测方法和单模型多变量预测方法完成。
主要操作流程如图3 所示。
2)确定数据输入输出节点的数量,根据数据节点的数据量,确定执行哪一种LSTM 神经网络结构预测方法,提高预测的效率和准确性。
3)按照需求调用多模型单变量预测方法或者单模型多变量预测方法,经过计算确定出最终的LSTM神经网络结构,输出即可。其中,多模型单变量预测方法的原理是不断地重新拟合每个数据变量的网络,将所有数据遍历完成后,输出LSTM 神经网络结构结果[14-16]。多模型单变量预测方法可以面向所有类型的数据,此方法的优点是所构建的计算网络较小,对于参数计算的收敛速度较小,反应速度较快。单模型多变量预测方法的原理是将数据每个时刻的值作为关联因素,确定神经网络结构,所面向的对象是具有鲜明时刻特征的网络数据。此方法的优点是确定过程简单,容易分析。
为验证该文研究的基于LSTM 神经网络的数据驱动空间负荷预测方法的实际预测效果,选取2019年EUNIT 负荷数据竞赛中竞赛数据为训练数据样本,共计8 784(24×366)个数据样本,根据模型运行需求设置实验参数和实验环境,同时采用该文研究的预测方法和传统基于CNN 神经网络的数据驱动空间负荷预测方法进行数据训练,对比两种预测方法的预测精度和预测效率。
实际数据训练过程中,采用损失值表示两种预测方法的预测精度。在某种程度上,数据训练损失值等价于训练误差,在数值上表示预测值与真实值之间的预测均方差,实验中,将设置的训练数据样本输入两种预测模型中进行3 000 次数据迭代训练,随着数据迭代训练次数的增加,分析模型预测过程损失的数据,实验结果如图4 和图5 所示。
从对两种预测模型的损失值分析结果中可以看出,在前500 次数据迭代训练中,两种模型的损失值处于快速下降状态,当数据迭代训练达到1 000 次后,两种模型的损失值趋于稳定状态。对比两种模型的损失值差异可知,传统基于CNN 神经网络的数据驱动空间负荷预测方法的损失值的稳定值为0.4,而该文提出的基于LSTM 神经网络的数据驱动空间负荷预测方法的损失值的稳定值为0.2,且在预测过程中,该文提出的预测方法的预测结果与训练数据的吻合度较高,由此可以得出结论,该文提出的预测方法的预测精度更高。原因在于,该文提出的预测方法针对采集数据进行了一系列的数据预处理,除去重复数据,保证训练数据的完整性,控制神经元的输入输出量,结合相应的LSTM 神经网络结构选择合适的预测方法,提升预测精度。
经过预测精度对比后,对比两种预测方法的训练速度,得到的预测速度对比结果如图6 所示。
从图6 可以看出,针对该次实验设置的8 000(20×400)个数据样本,该文提出的基于LSTM 神经网络的数据驱动空间负荷预测方法完成8 000 个数据迭代训练的时间为1.23 s,而传统基于CNN 神经网络的数据驱动空间负荷预测方法完成8 000 个数据迭代训练的时间为3.56 s,由此可以看出,该文提出的预测方法预测效率更高。区别在于该文提出的方法引入神经网络,对数据模型能够很好地进行关联分析,具有较高的时间序列控制,且支持多种算法的融合计算,提升了数据处理能力,加快了预测速度。
为了解决现有方法针对长周期的数据驱动空间数据,在计算过程中,由于时间间隔较长,易遗忘上一步骤的预测结果,往往需要进行多次计算,导致预测时间较长的问题,该文基于LSTM 神经网络提出了一种用于长周期数据驱动空间负荷预测方法,经过对比实验分析,利用LSTM 神经网络,分析内部驱动数据,提高处理性能,有效降低训练数据的空间维度,深入挖掘数据价值,相较于对比方法,具有更好的预测性能。