基于SSE 倒数法的LSTM- AR 对洱海湿地气温预测研究

2021-05-25 10:04罗桂兰俞忠俊罗静宇陈响育
科学技术创新 2021年11期
关键词:平方和洱海气温

王 熙 罗桂兰* 俞忠俊 罗静宇 陈响育

(大理大学,云南 大理671000)

云南洱海湿地是云南省大理白族自治州最重要的湿地之一,当地政府响应国家绿色发展,保护生态等政策,加大了对湿地保护的投入。随着政府的投入,洱海湿地生物多样性变得越来越丰富,而气温是影响湿地生物多样性的主要因素之一。

时间序列是指将观测到的某个指标按时间顺序进行编制的序列。通过对时间序列的周期性及趋势性分析可以对未来做出预测[1]。在时间序列预测模型方面,传统的经典模型包括多元线性回归法[2]、移动平均模型、自回归模型、自回归移动平均模型、自回归模型和灰色预测法[3-4]。而传统的机器学习预测模型包括支持向量机(SVM、)、贝叶斯网络、矩阵分解和人工神经网络[5]。而在深度学习方面的时间序列预测包括卷积神经网络(CNN)和循环神经网络(RNN)[6-8]。目前,对于数据的时间序列预测算法有很多,也是当前人工智能所研究的一个热门领域。朱晶晶[9]等构建了SVM模型对气温进行回归预测。牛志娟[10]等提出采用主成分分析的反向传播神经网络(back propagation neural network,BP)和径向基数神经网络(radial basis function neural network,RBF),分别建立气温预测模型,虽然取得了良好的预测效果,但是没有充分考虑时间序列数据的相关性,导致了预测精度不高。陶晔等提出一种基于随机森林的长短期记忆神经网络(LSTM)气温预测模型,在采集的多要素气象数据上进行实验[11],结果显示具有较高的预测精度和较强的泛化能力。从凌博等人建立ARMA 模型,利用自相关函数对模型的残差进行检验[12],修正预测方法求得预测值,提高了预测精度。马志瑾等人通过采用LSTM模型对蒙河段封河时间序列进行了研究。研究结果表明,在非极端天气条件下,模型的预报精度满足水情预报的要求[13]。彭道刚等人针对电网优化调度问题,利用CNN-LSTM神经网络对电网调度火电厂短期存煤进行了预测,利用CNN 良好的特征提取能力及LSTM 特殊的记忆功能对未来电厂存煤量进行了精准预测,用CNN 对煤炭量进行特征提取,将提取后的数据输入到LSTM,通过全连接层输出,达到较好的效果[14]。LSTM神经网络是一种循环神经网络,随着距离的增加会使得RNN 无法有效地利用历史信息,而LSTM能处理长期依赖问题。在线性时间序列模型中,有自回归与移动平均模型。雄皓等人提出了一种基于神经网络和自回归模型的网络流量预测模型,将CNN、LSTM 与AR 进行了结合,得到的模型预测更准确[15]。李彦杰等人利用LSTM模型对不同时段的海水进行了建模与分析,并对比了SVR,得到了更好的效果[16]。对于不同模型确定最优权系数方面,党升等人提出了一种基于局部最优的权系数确定的预测模型,利用最小二乘法将残差平方和最小作为目标,得到权重系数,能提高组合模型的预测精度[17]。本文以总体的误差平方和最小为目标函数,以此确定组合预测模型的最优权重,从而从误差平方和指标上提高模型的预测精度。

1 预测模型

1.1 LSTM神经网络模型

LSTM(Long Short-Term Memory)是针对RNN 存在的梯度消失或爆炸,无法长期依赖历史信息而改进的一种循环神经网络,对RNN 存在的长期依赖问题进行了改进,一般比CNN 及隐马尔科夫模型更好,LSTM可用于更复杂的大型深度神经网络。LSTM 有三种单元结构,分别是遗忘门(ft)、输入门(it)、输出门(ot)。遗忘门是控制记忆单元,对上一时刻的单元状态C(t-1)的信息选择性地保留到当前t 时刻C(t)状态,其通过sigmoid 函数进行信息的筛选。式(1)为遗忘门。Wf是遗忘门的权重矩阵,bf为其偏置。σ 为sigmoid 激活函数,ht-1为上一时刻的输出,xt为当前时刻的输入。

输入门的作用是决定当前时刻网络的输入x(t)有多少保存到单元状态c(t)。输入门一共分为两步,第一步是对当前信息进行记忆,第二步将当前状态与旧状态进行合并,Ct为当前单元状态。公式如下:

图1 LSTM 模型的单元结构

1.2 自回归模型(Autoregressive Model)

自回归模型是一种用于处理时间序列的方法,是以要研究的预测变量作为自变量,通过往期数据来预测本期数据,并假定这些数据之间为线性关系,其优点是所需要的信息不多,通过自身序列进行预测。设y1,y2,…,yn为一个时间序列,自回归模型的阶数为P,即前P 项与yt是一个线性组合。数学模型为式(7):

在上式(7)中φ0为常数项,φ1…φp为自回归模型的参数,et为均值为0,方差为σ 的随机误差值。

2 SSE(Sum of Squared Error)倒数法

加权组合预测模型是多个模型的融合,如式(8)所示,M 为组合模型,M1为模型1,M2为模型2。当w1与w2取值合适时,组合预测模型预测的精准度将变得更加精确,总体的残差平方和变得比单一模型更小。SSE 倒数法通过对个模型进行加权,使得组合预测模型的误差平方和最小,以此达到提高组合预测模型的预测精度,其基本原理是计算各个模型预测的残差平方和,然后通过整体残差平方和最小对权重进行赋值。

3 实验

3.1 实验数据

实验数据为洱海东湖湿地近2 年的气温值,通过洱海湿地监测设备得到,监测的数据包括光照强度、紫外线强度、环境湿度等12 个基本特征数据。原始数据为监测设备每分钟采集一次的数据,通过对原始数据进行聚合处理,将数据处理成日平均气温,选取70%为训练数据样本,30%为测试数据样本,图2 为洱海湿地东湖环境温度曲线图,曲线数据为2018 年4 月1 日-2020 年3 月30 日的日平均气温数据,除去未监测到的异常数据,气温数据总共有716 条。

图2 洱海东湖湿地日平均气温

3.2 实验数据处理

为提高LSTM模型的训练速度及预测的准确度,使模型效果更佳,对数据进行归一化处理,将数据的值区间变为(0,1),公式如式(13):

上式中min 为气温数据集的气温最小值,max 为气温数据集的最大值。X*为归一化后的气温数据集。归一化后,数据变为如图3 所示。

图3 归一化后的温度时间序列数据曲线图

3.3 LSTM模型预测结果

采用基于keras 的LSTM对归一化后的气温进行预测,选取预测的时间步长为1。本文实验采用一个LSTM层和一个全连接层(Dense)来构造LSTM预测模型,第一层为LSTM层,输入数据维度为1,神经元个数为4,总参数个数为4*((4+1)*4+4))=96,第二层为全连接层(Dense),输入数据维度是4,有一个神经元,总参数为(4+1)*1=5。使用通用的适应性动量估计算法(Adaptive Moment Estimation,Adam)作为模型的优化算法。Adam算法是目前深度学习中常用的优化算法。对每一参数进行计算自适应学习率。表1 为采用不同时间步对气温的预测结果评价指标。

表1 不同时间步对气温的预测结果评价指标

根据表1 得到当LSTM模型的时间步为1 步时,模型预测结果的评价指标更好。如图4 所示为LSMT 采用时间步为1 的预测结果。

图4 LSTM 预测

3.4 AR 模型预测结果

通过使用自回归模型(AR)对气温进行预测,选择阶数分别为3、4、5,通过最小二乘法进行线性回归。得到的评价参数如表2 所示。观察表1 知,当阶数为3 时,模型的MAPE 值最低,MSE较阶数为5 时低,R2较阶数为5 时高,模型较优。选择阶数为3的AR 模型,利用最小二乘法求得AR 模型的各系数分别为0.77,-0.04,0.23,常数项为0.87。所以得到的自回归模型为下式(14):

AR 模型的测试集预测结果如图5 所示。

表2 不同阶数下的AR 模型评价指标

图5 AR 模型的测试集预测

3.5 LSTM-AR 组合预测模型预测结果

采用SSE 倒数法,分别计算LSTM模型与AR 模型的预测值与实际值得误差平方和,分别为759.1、778.2。采用误差平方和倒数法,计算LSTM 与AR 可得两个组合预测模型的权重,LSTM模型权重系数为0.499,AR 模型权重系数为0.501。故最终得组合预测模型为式(15)所示,在式(14)中,y1为LSTM的模型权重,y2为AR 模型的系数权重。(图6)

图6 LSTM-AR 预测

3.6 评价方法

对于模型的准确度,采用均方误差(MSE)、平均绝对误差(MAE)、决定系数(R2)、平均绝对百分误差(MAPE)、Pearson 相关系数及残差平方和对模型进行了评估。计算公式如下:

在上式中,yi为真实值,y赞为预测值,y 为真实值得平均值,N为测试集样本个数。一般来说,MSE、MAE、MAPE、SSE 越小,R2越大越好,模型效果越好。通过上述预测结果,得到气温预测模型的预测评价指标如表3 所示。

表3 预测评价指标

4 结论

本文通过以LSTM及AR 模型为基础,分别对洱海湿地日平均气温进行预测。通过方差倒数法,将二者进行结合,确定组合预测模型的LSTM权重为0.499,AR 的权重为0.501。通过方差倒数法得到的组合预测模型在拟合优度及均方误差方面有一定提高,预测效果更佳。

4.1 采用LSTM对洱海湿地环境气温进行了预测,对样本数据进行了100 轮训练。预测的平方误差为759.1,拟合优度R2为0.813,模型效果较好。

4.2 通过采用阶数为3 的AR 模型预测的结果相比较LSTM而言,SSE 值比LSTM大。通过使得组合预测模型的误差平方和最小的思路,分别对两者进行加权,在MAE 基本不变的情况下,SSE 有了较大提高,整体预测值变得更加平稳。

4.3 通过模型的拟合优度及MAPE 的值可以知道模型可用于气温的预测,效果比较好,与观测值吻合度较高。通过图2 可以得到气温数据呈现周期波动性,并且曲线走势类似三角函数。可以考虑构造正弦曲线进行非线性回归的建模。

本文通过对云南洱海湿地气温进行预测,提出了一种基于SSE 方差倒数法的LSTM-AR 组合预测模型,通过权重系数加权组合的方式,使得组合预测模型的误差平方和最小。通过实验验证分析,进一步提高了模型的预测性能,极大地利用自回归模型的自相关性与LSTM的深度学习及序列的依赖性,运用两种不同预测模型的优势,提高了洱海湿地气温预测准确率。本文通过两个模型的组合虽然得到较好的效果,但在未来可以引入新的预测模型进一步组合,集合更多模型的优势,从而提高模型的预测精度。

猜你喜欢
平方和洱海气温
基于FY-3D和FY-4A的气温时空融合
深冬气温多变 蔬菜管理要随机应变
洱海月下
利用平方和方法证明不等式赛题
洱海太湖石
爱上洱海,只需要这十个瞬间
关于四平方和恒等式及四平方和定理的趣味话题
四平方和恒等式与四平方和定理
关于四奇数平方和问题
与气温成反比的东西