王薪凯 于忠清
摘要:为优化泵站的工作方式,降低能耗,建立一种基于长短期记忆网络(Long Short-Term Memory,LSTM)的神经网络模型来对泵站的能耗进预测,优化学习率、时间步长、批处理、隐含层层数、训练次数等参数。将LSTM网络模型的预测结果与BP模型、RNN模型进行对比,研究结果表明,基于LSTM神经网络模型的预测具有较高的精度和泛化能力。
关键词:LSTM网络模型;能耗;预测;优化
中图分类号:TV675 文献标志码:A
随着中国工业化和城市化进程的不断推进,对水资源的需求量日益增长,由于污水量的增加,使污水处理面临着巨大的挑战[1]。一方面,中国水资源利用率低,基础设施不完善,相比于发达国家,污水处理工艺相对落后,另一方面,污水处理属于高能耗行业,包括电能消耗、化学药剂的使用及燃料的消耗,其中电耗占污水处理综合能耗的比重较高,在降低污水处理能耗中有着举足轻重的作用[2]。过多的电能消耗造成运营成本的增加和资源的浪费,不利于企业的发展和中国工业化进程的推进,也不利于中国所倡导的可持续发展[3]。由于能耗数据具有时间序列的特性,目前BP(Back Propagation)神经网络[4]、支持向量机(SVM)[5]、多元线性回归模型[6]等传统的人工智能算法在进行预测时没有考虑到延迟和滞后效应,无法解决长期依赖问题,具有局限性。随着深度学习的不断发展,LSTM模型凭借其优势逐渐兴起,该模型能更加充分提取数据中的重要信息,发现数据之间的关系和规律,能有效地处理非线性和非平稳序列数据,具有良好的泛化能力,LSTM模型在建筑能耗预测[7],空调系统能耗预测[8],航空公司能耗预测[9]中应用广泛。相比于其他模型,在处理具有时间序列属性的数据方面,LSTM模型表现出较高的预测精度和性能,但LSTM模型在泵站能耗领域的应用并不多见。本文针对污水处理中泵站的能耗预测问题,提出一种基于LSTM神经网络模型的预测方法,对学习率、时间步长、批处理、隐含层层数、训练次数这些参数进行优化,通过与BP神经网络模型、RNN网络模型的预测结果进行对比,利用均方误差(MSE)、平均绝对误差(MAE)和均方根誤差(RMSE)这三种评价指标进行评估。
1 研究方法
1.1 RNN算法
循环神经网络(Recurrent Neural Network,RNN)是一种特殊的神经网络。传统的神经网络模型是从输入层到隐含层再到输出层,层与层之间是全连接,每层的节点之间是无连接的,而RNN之所以称为循环神经网络是因为一个序列的输出与前一时刻的输出有关[10],该网络会把前面的信息进行记忆并应用到当前输出的计算中,即隐含层的节点是相互连接的。
RNN模型结构展开图见图1,其中x表示输入样本,y表示训练后的输出样本,t-1,t,t+1分别表示时间序列,U、W、V是在每一刻都共享的网络权重,U为某一时刻输入样本的权重、W为隐含层的权重、V表示输出的样本权重。st表示当前t时刻的隐藏状态,由当前时刻的输入样本xt和t-1时刻的隐藏状态共同决定,表述为
st=f(Uxt+Wst-1)(1)
yt=g(Vst)(2)
其中,f、g表示激活函数。
1.2 LSTM算法
传统的循环神经网络能够处理一定的短期依赖问题,但无法处理长期依赖问题。长短期记忆网络是一种改进的循环神经网络,使用LSTM算法可以解决RNN无法处理长距离的依赖问题,可以处理非线性、非平稳的时间序列数据[11]。LSTM模型广泛应用在众多领域,如预测旅游流量[12],预测股价[13]等。
原始RNN的隐藏层只有一个单元状态,对短期的输入非常敏感,在隐藏层增加一个单元状态,构建LSTM模型使其保存长期的状态,在模型实现的过程中用三个控制开关来控制长期状态,开关的控制功能由“门”来实现。
(1)遗忘门:决定从单元状态中丢弃哪些消息
nt=σ(Wn·ht-1,xt+bn)(3)
(2)输入门:决定需要在单元状态中保存哪些新信息
lt=σ(Wl·ht-1,xt+bl)(4)
rt=tanh(Wr·ht-1,xt+br)(5)
ct=nt*ct-1+lt*rt(6)
(3)输出门:决定单元状态中的哪些信息作为输出
mt=σ(Wm·ht-1,xt+bm)(7)
ht=mt*tanh (ct)(8)
其中,σ表示为sigmoid激活函数,该函数把值映射到0到1之间,以此来控制传递多少信息,0代表遗忘所有信息,1代表保留全部信息;tanh是双曲正切激活函数,xt表示当前时刻的样本输入,其中,Wn、Wl、Wr、Wm为权值矩阵,bn、bl、br、bm表示为参数矩阵,nt表示遗忘门输出,lt为输入门输入,mt为输出门输出,rt表示当前时刻保存的信息。
2 数据描述和性能评估
2.1 数据采集
本文数据采用的是中国某污水处理厂的泵站能耗数据,泵站共有5台水泵,数据在2020年11月18日到2020年12月1日之间采集,其中在一天时间内,每隔5 min获取一次数据,数据包括每台泵的能耗值、出水流量、以及当前的液位。用0或1来描述泵的开关状态,0代表当前泵处于关闭状态,1代表当前泵处于工作状态,单个样本输入的变量包括:5台泵的总能耗E(kW·h)、每台泵的开关状态(0或1)、出水流量F(m3)、当前的液位L(m),共3 000条数据样本。
2.2 数据预处理
2.2.1 数据整理 泵能耗监测平台在数据采集、传输、存储等过程中容易受到噪声干扰,通信中断和传感器故障等原因,产生一些空值、不合理值、重复值,删除这些异常值,泵站的总能耗、当前的液位精确到小数点后两位。由于样本的各个指标的量纲和量纲单位不同,对数据归一化使各指标处于同一数量级,本文采用min-max标准化对个别指标归一化处理,将数据映射到[0,1]范围内
x=x-TminTmax-Tmin(9)
其中,x是该属性的原始值,x是归一化后的值,Tmin和Tmax分别为在全部样本中属性的最小值和最大值,本文把输入样本的出水流量、当前液位、泵站总能耗这三个属性归一化处理。
2.2.2 划分训练集和测试集 数据样本归一化后共3 000条,将其中的80%作为训练集用于训练模型,20%作为测试集用于评估模型的性能,Xi=(x1,x2,…,x8)(i=1,2,3,…,3 000),X=[Xi,Xi+1,Xi+2,…,Xi+s-1]。其中,Xi表示第i个数据样本,x1为泵站总能耗,x2到x6对应每台泵的开关状态,x7表示出水流量,x8为当前液位。泵站能耗数据具有时间序列的特性,若LSTM模型的时间步长(time steps)设为s,时间窗口每次用前s个数据样本组成的矩阵作为输入特征,第s+1个样本Xi+s-1的总能耗E作为输出,时间窗口每次移动的步数为s,假设训练集和测试集样本长度分别为n和m,实际上将n-s个样本数据在训练模型上训练,将m-s个样本用作测试数据。时间窗口移动方式如图3所示,s个数据样本组成的矩阵X作为输入,用Y中数据样本的泵站总能耗作为输出。
2.3 模型性能评价
选取MSE、MAE、RMSE作为预测结果评价指标,范围[0,+∞),数值越低说明预测值和真实值之间的误差越小,模型的精确度越高,i为第i个样本的能耗预测值,ei为真实值,n是样本数量。
(1)均方误差(Mean Square Error,MSE)
MSE=1n∑ni=1(i-ei)2(10)
(2)平均绝对误差(Mean Absolute Error,MAE)
MAE=1n∑ni=1|i-ei|(11)
(3)均方根误差(Root Mean Square Error,RMSE)
RMSE= 1n∑ni=1(i-ei)2(12)
3 建立LSTM能耗模型
3.1 模型构建及实验流程
本文對比了LSTM模型、BP神经网络模型、RNN模型,三者均在PyCharm开发环境下运行。LSTM模型用Keras框架搭建,模型结构由输入层、隐含层和输出层组成,LSTM模型的参数包括学习率、批处理、时间步长、隐含层层数、训练次数等。本文采用试错法寻找适合的参数,在模型训练和测试完成后,将数据进行逆归一化处理,然后进行性能评估,实验的具体流程如图4所示。
采用Adam优化算法(Adaptive Moment Estimation,自适应矩估计),损失函数采用平均绝对误差(MAE)。Adam优化算法是梯度下降优化算法的扩展,能基于训练数据迭代更新神经网络权重随机梯度下降保持单一的学习率更新所有的权重,学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率,相比于其他自适应学习率算法,Adam算法收敛速度较快,学习效果更好,可以解决学习率消失、收敛速度较慢所导致的损失函数波动较大等问题。
3.2 模型参数寻优
LSTM网络模型参数包括隐含层学习率、时间步长、批处理、隐含层层数、训练次数,设置各参数的取值范围,其中隐含层层数取值范围为[1,3],时间步长取值范围为[2,4],批处理取值范围为[20,60],训练次数取值范围为[25,300]。
3.2.1 学习率和训练次数 学习率(lr)用来表示通过损失函数来调整网络权重的程度,影响模型收敛到局部极小值的速度,学习率过小,函数收敛速度较慢,耗费的时间更长,会产生过拟合现象;学习率过大,可能错过局部极小值,损失函数容易发生振荡。在实验过程中lr的取值从0.01到0.000 01,以10倍的速度间隔逐渐降低,选取MAE作为误差评估标准,观察误差曲线变化的状态,在曲线趋于稳定并收敛到一定值时,确定学习率的数量级,再采用微调方法确定最佳的学习率,图5所示为不同的学习率对应误差曲线变化。
由图5可知,当lr取值0.01向0.001降低时,学习率过大,损失函数曲线发生振荡,无法收敛到最优值,当lr取值从0.000 1向0.000 01降低时,学习率过小,在训练次数内表现出欠拟合,无法完成收敛,但在lr取值为0.000 1时,误差曲线逐渐平滑下降,且收敛到最优值,在确定数量级的情况下,经过微调方法确定最佳学习率为0.000 7。
训练次数(epochs)是将训练样本中所有数据训练的次数,过少的训练次数会导致预测值和实际值之间的偏差较大,不同的训练次数会使损失函数收敛到不同的值,选取合适的训练次数使得误差收敛到最优。在训练过程中选取MSE作为误差评估标准,如图6所示,epochs值在25到300之间时,误差曲线快速下降,epochs的值在150开始逐渐趋于稳定,200个epochs之后变化不明显,为了防止训练次数过大导致的过拟合现象,200个epochs就可以满足训练精度,因此LSTM网络模型选取epochs的值为200。
3.2.2 时间步长 在LSTM网络模型中,由于其具有长时间记忆的特性,下一时刻的样本可能会用到之前的历史样本数据,时间步长(time steps)表示每个训练样本中包含的历史状态数目,通常根据数据的时间特性来确定,若时间步长为n,表示用前n条样本预测第n+1个样本的总能耗,本实验设置时间步长的范围从2到4,通过平均绝对误差(MAE)来衡量在不同时间步长下训练样本误差变化曲线。
如图7所示,在训练次数的不断增加下,相比于其他时间步长,time steps为2时,误差变化曲线快速下降,收敛速度较快,降低了模型的训练难度,节省了时间成本,所以选择时间步长为2来构建LSTM神经网络模型。
3.2.3 批处理和隐含层层数 Adam是基于梯度下降的,批处理用于定义在更新内部模型参数之前要处理的样本数,代表着每次进行训练样本的数量,将批处理视为循环迭代一个或多个样本并进行预测,比较预测值和真实值,并计算误差,从而动态更新内部模型参数。批处理过小会导致误差震荡严重,在一定的训练次数内无法收敛,批处理增大会使训练的收敛更加平滑稳定,训练一个迭代的时间会变短,但过大也会降低模型的泛化能力,达到相同精度的速度会变慢,所以选择合适的批处理来提升模型的预测精度。
多隐层的网络结构对数据有更好的表示能力,通过逐层的特征提取将数据表示的更加抽象,从而降低误差,提高预测精度,但是隐含层层数过大可能会带来过拟合问题,同时也会增加模型的训练时间,造成无法收敛。
本文LSTM网络模型隐含层层数的范围是1层到3层,批处理从20到60,每次间隔10个,在不同的隐含层层数和批处理大小结合时进行实验,相应的评价指标如表1所示。
不同的隐含层层数和批处理会影响预测精度和训练的时间,从表1可以看出,模型隐含层层数为3,批处理为30时,各个评价指标相对较优,LSTM模型的性能显著,模型的精度较高,因此最終选定的LSTM模型的隐含层层数为3,批处理为30。
3.3 构建LSTM能耗预测模型
如表2所示,LSTM能耗预测模型中,学习率为0.000 7,时间步长为2,训练次数为200,隐含层层数为3,第一个隐含层的神经元数量为32,第二个隐含层神经元数量为16,第三层隐含层神经元数量为8,批处理大小为30,隐含层的激活函数为tanh函数,在优化选择方面,采用Adam优化算法进行优化。
4 与其他模型对比评估
为了验证LSTM模型预测能耗的优越性,对比LSTM模型、BPNN模型、RNN模型,利用训练集训练模型,并用来对测试集来进行预测,使用评价指标MAE、MSE、RMSE对模型评估和对比,数据均由逆归一化数据计算得到。为了更加直观的体现LSTM模型的优越性,图8、图9、图10显示了BPNN、RNN、LSTM三种模型对泵能耗预测结果,可知,LSTM网络模型的预测值和真实值的拟合程度较高,相比于其他模型,LSTM对泵的能耗预测更接近于真实值。
表3显示的3种模型对比的评估指标,由于BPNN和RNN模型在预测时没有考虑到延迟和滞后效应,无法解决长期依赖问题,预测值和真实值差距较大,LSTM网络模型的误差指标均小于其他模型,在数据的拟合度上表现出较好的性能,这也表明,LSTM模型在泵站能耗预测方面具有较大的优势。
5 结论
本文提出了基于LSTM神经网络模型对泵站能耗的预测方法,通过实验对参数进行优化,选取了合适的学习率、训练次数、隐含层层数及时间步长等参数,构建了一个多层的LSTM模型,用来预测泵站能耗,并与BP模型、RNN模型的预测结果进行对比。在性能评估方面,多层的LSTM网络模型具有较好的性能,相比于BP模型和RNN模型,多层LSTM网络模型最优拟合结果预测出的泵站能耗,在MAE、MSE、RMSE评估指标上误差较低,预测精度较BP模型和RNN模型有所提高,因此LSTM模型能更准确的对泵站能耗进行预测。LSTM能耗模型相比于传统的能耗模型,能更好的处理长期依赖问题,保持信息的持久性,能够发现数据之间的关系和规律,在预测时考虑到延迟和滞后效应,在处理序列数据和非线性问题中具有优势,对泵站的能耗预测精度更为准确,在泵站的节能领域具有广阔的应用前景。但是当前方法还存在局限性,参数优化过程中设置的范围区间过小,参数组合优化的种类过于单一,所以在以后的研究中可以从参数的取值范围和选择参数组合两个方面深入研究。
参考文献
[1]李旭.城市污水处理能耗能效研究进展[J].科技创新与应用,2020(5):67-68.
[2]周亚梁,黄东月.城市污水处理厂能耗分析及节能降耗措施研究[J].环境与发展,2019,31(5):30+34.
[3]龙丽萍.城镇污水处理厂能耗分析及节能措施研究[J].工程技术研究,2019,4(14):239-240.
[4]杜冠洲,韦古强,高正平.基于BP神经网络的公用建筑电力能耗预测研究[J].工程经济,2017,27(6):76-80.
[5]侯博文,谭泽汉,陈焕新,等.基于支持向量机的建筑能耗预测研究[J].制冷技术,2019,39(2):1-6.
[6]莫甘茗.基于多元线性回归模型的建筑能耗预测与建筑节能分析[J].建材与装饰,2016(43):89-90.
[7]章挺飞,罗恒,刘杭.基于LSTM网络的建筑能耗预测方法[J].苏州科技大学学报(自然科学版),2020,37(4):78-84.
[8]廖文强,王江宇,陈焕新,等.基于短期记忆神经网络的暖通空调系统能耗预测[J].制冷技术,2019,39(1):45-50+54.
[9]刘家学,沈贵宾.基于LSTM的航空公司能耗序列预测[J].计算机应用与软件,2019,36(10):60-65.
[10]杨钦榕,陈万培,高绅,等.宽窄带融合下基于RNN-LSTM网络的温度预测[J].无线电工程,2021,51(4):283-287.
[11]黄超斌,程希明.基于LSTM神经网络的股票价格预测研究[J].北京信息科技大学学报(自然科学版),2021,36(1):79-83.
[12]LI Y F, CAO H. Prediction for tourism flow based on LSTM neural network[C]// 6th International Conference on Identification, Information and Knowledge in the Internet of Things (IIKI), Qufu, 2017: 277-283.
[13]DING G Y, QIN L X. Study on the prediction of stock price based on the associated network model of LSTM[J]. International Journal of Machine Learning and Cybernetics, 2020, 11: 1307-1317.
Energy Consumption Prediction of Pumping Station Based
on LSTM Neural Network Model
WANG Xin-kai, YU Zhong-qing
(College of Computer Science & Technology, Qingdao University, Qingdao 266071, China)
Abstract:
A neural network model based on Long Short-Term Memory (LSTM) is established to predict the energy consumption of pumping stations, which optimizes the working methods and reduces energy consumption, and the learning rate, time step, batch size, the number of layers, training times are optimized. The prediction results of the LSTM network model are compared with the BP model and the RNN model, and the research results show that the prediction based on the LSTM neural network model has high accuracy and generalization ability.
Keywords:
LSTM network model; energy consumption; prediction; optimization
收稿日期:2021-09-01
基金項目:
山东省重点研发计划(批准号:2019JZZY020101)资助。
通信作者:
于忠清,男,博士,教授,主要研究方向为工业大数据。E-mail: yuzq@qdu.edu.cn