李伟,匡昌武,胡欣欣
(1.海南省气象探测中心,海口 570203;2.海南省南海气象防灾减灾重点实验室,海口 570203)
水是一切生命赖以生存的重要自然资源之一,对土壤-植物-大气连续系统起到纽带作用。土壤水分是地球表层不同圈层互相影响的关键因素,为地表物质循环和能量转换提供载体和驱动力。土壤水分含量会影响到植物或土壤中微生物的生长,是陆地生态系统的重要控制因子,还与生活环境和经济发展相关[1-3]。土壤水分含量和变化受土壤特性、地形、气象因子等环境因素的影响[4]。目前,监测土壤水分数据主要依靠地面专用仪器和卫星遥感反演2 种方法。地面专用仪器监测法主要采用时域反射型仪器(TDR)、电阻仪器、中子水分仪等仪器设备来检测土壤中水分含量。该方法具有精度高、性能稳定、环境影响较小的优点,但是费用较高,难以满足观测数据高时空分辨率的要求。卫星遥感反演法有基于土壤热惯量、基于温度和植被、基于微波遥感等检测方法,具有监测范围广、强动态、高时效等优点,但该方法仅能监测到地表范围内,同时,遥感反演方法前期需要大量准确、可靠的地面观测数据建立模型。然而,国内现有土壤水分实测数据的时间序列较短,大多以农业旬报为主,存在一定的数据缺测率[5,6]。因此,提升土壤水分数据的完整性和延长时序是当前重点研究工作。土壤水分预测方法主要分为数值模型预测和机器学习法两类。数值模型预测可分为基于物理机制的模型和基于土壤水分平衡方程的模型等2 类方法,该方法输入量多、模型结构复杂、计算量冗余,预测的结果差异性大[7]。以气象、土壤要素为输入量的机器学习方法具有操作简单、自适应性学习和拟合能力强的特点,目前广泛应用于土壤水分数据监测和预报研究中。由于受到多种自然环境因素的影响,土壤水分数据变化规律复杂,受到干旱、暴雨、寒冷等天气过程的影响呈季节性变化趋势,也会受到土壤微生物等环境影响呈随机变化趋势。基于神经网络的土壤水分预测方法,具有较高的准确率,能实现精准把握土壤墒情,科学灌溉农作物,对最终实现农业高产具有重要意义[8,9]。
1.1.1 RF 特征选择 随机森林(Random forest)是利用多棵树对样本进行训练并预测的一种分类器[10]。随机森林是一种灵活且易于使用的机器学习算法,即使没有超参数调优,也可以在大多数情况下得到很好的结果,既可用于分类,也能用于回归任务。本研究在随机森林算法的基础上,利用RF 特征选择中的平均不纯度减少方法(Mean decrease impurity)对影响土壤水分的各种因素进行关联性分析[11]。
RF 算法生成决策树步骤如下[12]:
1)对所有影响因素进行遍历并计算均方误差,统计可能出现的分类情况。选择均方误差最小的分割点s和最优切分变量j。均方差和目标函数可以表示为:
式中,c1、c2表示2 样本集合R1、R2的平均输出值,yi为第i个样本的输出值。
2)用选定的(j,s)划分样本集合,并求得相应的输出值。根据分割点s分割形成的样本集合R1和R2为:
样本集合Rm的输出值cm的计算公式为:
式中,Nm为样本集合Rm的总样本数。
3)重复步骤1 和步骤2,将输入空间划分为m个区域,R1,R2,…,Rm,直至样本集合满足终止条件。
4)生成决策树:
式中,I(x)为指示函数。
1.1.2 长短期记忆神经网络 循环神经网络(Recurrent neutral network,RNN)能挖掘并分析数据中的时序信息[13]。RNN 的神经单元仅由权重矩阵w、偏置b和激活函数组成,且每个时间片都共享相同的参数,图1 为循环神经网络结构。随着循环神经网络训练时长和网络层数的增多,很容易出现长期依赖、梯度消失和梯度爆炸等问题,从而无法有效地处理较长序列数据信息。
图1 循环神经网络结构
长短期记忆神经网络(Long short-term memory network,LSTM)是具有长期记忆能力的一种时间递归神经网络,引入门机制用于控制信息的流通与丢失,有效解决长期依赖、梯度消失和爆炸问题[14]。LSTM 广泛应用在机器翻译、语音识别等领域[15]。LSTM 核心思想是记忆块,主要包含1 个记忆单元和3 个门(遗忘门、输入门、输出门),图2 为LSTM 模型结构。
1.1.3 双向LSTM 神经网络 双向长短期记忆神经网络(Bidirectional long short-term memory network,BiLSTM)是传统LSTM 的扩展,其思想是将同一个输入序列分别接入向前和先后的2 个LSTM中,然后将2 个网络的隐含层连在一起,共同接入到输出层进行预测,BiLSTM 神经网络结构见图3[16]。在训练过程中,通过对输出神经元的正向和反向传播来更新LSTM 网络的权值。前一时刻状态的输入和隐含层输出分别用xt-1和ht-1表示,当前状态的输入和隐含层的输出分别用xt和ht表示,后一时刻状态的输入和隐含层的输出分别用xt-1和ht-1表示(图3)。
图3 BiLSTM 神经网络结构
1.2.1 随机森林选择特征 为避免输入过多变量导致数据冗余,本研究通过随机森林方法对样本数据进行特征的重要性度量,挑选出在土壤水分预测过程中关联性较强的影响因素,具体步骤如下[17]:
1)随机森林算法在每次建立决策树时,对训练集采取随机且有放回地抽取操作,这类数据称为袋外数据(OOB),利用袋外数据计算模型的预测错误率,称为袋外数据误差,记为errOOB1;
2)随机对袋外数据所有样本特征X加入噪声干扰,再次计算袋外数据误差,记为errOOB2;
3)假设随机森林中有N棵树,则计算影响因素X的重要性度量公式为:
4)计算每个影响因素X的重要性W,按照降序进行排序,确定前m个影响因素为神经网络输入数据集的特征。
图4 表示使用随机森林在土壤水分预测过程中进行特征变量重要性度量的结果。由图4 可知,在土壤水分预测度量特征重要性的过程中,气温、地面温度、10 cm 地温、相对湿度、降水量、日照时数、蒸发量7 种气象因子与土壤水分的关联性在所有特征中相对更重要,所以输入变量由上述7 种气象因子组成,输入样本数据集由输入变量的特征集组成。
图4 随机森林选择特征结果
1.2.2 模型构建流程 基于随机森林的双向长短期记忆神经网络(RF-BiLSTM)土壤水分预测模型结构如图5 所示[18-20]。首先,对样本数据进行归一化和补充缺失数据等预处理工作;其次,使用RF 算法对土壤水分和土壤水分气象影响因素进行关联度分析,选出与土壤水分关联度较高的特征,从而提升模型的训练速度和准确性;再次,搭建双向LSTM 神经网络,在特征数据集上训练预测模型;最后,再根据设置的评估指标选取最佳预测模型,得到更精确的土壤水分预测值。
图5 RF-BiLSTM 土壤水分预测模型结构
本研究选取三亚国家气候观象台近6 年(2016—2021 年)小时观测数据作为样本数据集,气象站观测变量包括气温、地面温度、5 cm 地温、10 cm 地温、15 cm 地温、20 cm 地温、蒸发量、降水量、日照时数、相对湿度等15 种指标,土壤水分站观测变量为10 cm 深度的土壤体积含水量数据。数据来源于全国综合气象信息共享平台(CIMISS),部分观测数据如表1 所示。
表1 部分观测数据
数据集中存在369 条缺测数据,占比0.70%,通过计算前后均值对缺测数据进行填充处理。每种气象数据都有着对映的数量级和数量级单位,采用大量的无序化数量规则数据进行模型训练有可能会出现梯度爆炸,预测结果也会有很大的偏差,为解决上述问题,训练模型前首先对样本数据进行归一化处理[21,22]:
式中,Xmax表示对映影响因素数据的最大值,Xmin为对映影响因素数据的最小值。
采用均方根误差RMSE、平均绝对误差MAE、决定系数(R2)作为评价指标[23,24]。
1)均方根误差(RMSE):
2)平均绝对误差(MAE):
3)决定系数(R2)
式中,yi为土壤体积含水量观测值(%)为模型预测值(%)为平均值(%),n为观测次数。均方根误差(RMSE)能衡量观测值与预测值间的偏差,其值越小,表明模型的准确度更高;平均绝对误差(MAE)反映误差的真实情况;决定系数(R2)衡量数值间的离散程度[25,26]。
为验证基于RF-BiLSTM 神经网络的土壤水分预测模型的优越性,本研究采用三亚国家气候观象台2016—2020 年的气象和土壤水分观测数据作为训练集,为防止连续时间序列对训练模型造成影响,每一轮训练,从训练集中随机抽取600组,每组128个数据集[27],每个数据集包括前120 h 的气象观测数据和土壤体积含水量数据,预测对象则为后6、12、24、48 h 的土壤体积含水量数据。测试集为2021 年整年的气象和土壤水分观测数据,并分别在RF-BiLSTM 模型、LSTM 模型、BP 模型对比试验。
图6 显示在训练和测试过程中,RF-BiLSTM 模型经过50 次迭代的损失函数变化曲线图[28,29]。由图6 可知,在训练集和测试集上,当迭代次数达到25次时,损失函数基本收敛;迭代次数达到40 次后,损失值已降至0.01 以下,并基本无变化,说明RFBiLSTM 模型在训练集和测试集上均具有较好的效果和超强的泛化能力。
图6 RF-BiLSTM 模型损失函数曲线
为验证RF-BiLSTM 模型的预测精度,分别使用RF-BiLSTM 模型、LSTM 模型、BP 模型在测试集上预测每个时次6、12、24、48 h 后的土壤体积含水量值,利用MAE、RMSE、R23 种评估参数对比3 种模型的预测效果,评估结果如表2 所示。随着预测步长的增加,3 种模型的预测性能均不同程度下降。在4 个预测步长下,RF-BiLSTM 模型的R2值均比LSTM 模型、BP 模型的R2大,RF-BiLSTM 模型的预测精度更高,4 种步长的预测值与观测值之间具有最小的误差。
表2 Bi-LSTM、LSTM、BP 模型预测效果
在4 种步长下,3 种模型的预测值均能够反映该地土壤水分的变化趋势,RF-BiLSTM 模型的预测曲线最贴近真实值(图7)。图8、图9 和图10 分别为6、12、24、48 h 下RF-BiLSTM 模型、LSTM 模型、BP 模型预测值与观测值的比较结果,在较短的预测步长下,RF-BiLSTM 模型预测值与真实值误差极小;随着预测步长的增加,3 种模型的预测值均不同程度地偏离真实值,表明预测误差逐渐变大,但是RF-BiLSTM 模型的R2值仍保持在0.9 以上,表现出较高的相关性,预测效果最好。
图8 RF-BiLSTM 模型预测值与观测值对比
图9 LSTM 模型预测值与观测值对比
图10 BP 模型预测值与观测值对比
范嘉智等[30]利用长短期记忆神经网络同样对6、12、24、48 h 后的土壤体积含水量进行预测,RMSE分别为1.171%、1.430%、1.930%、2.371%,其准确率远低于本研究结果。韦琦等[31]基于非线性回归与BP 神经网络模型对土壤水分蒸发量进行预测,平均绝对误差可达到1.453%,远高于本研究的0.462%。侍永乐等[32]基于优化的自适应遗传神经网络算法对24 h 后的土壤湿度进行预测,一步预测RMSE为3.679%,高于本研究的1.430%。
在土壤水分多时次动态预测的应用中,RFBiLSTM 模型处理长时间序列数据具有强大的拟合能力,比常用的BP 模型和LSTM 模型预测准确度更高,性能更加优越。
神经网络模型可以通过反复学习,实现输入和输出之间的映射。因此,输入变量必须精简,训练数据要充足,否则预测效果不佳。本研究通过RF特征选择中的平均不纯度减少方法[33]对土壤水分的所有影响因素进行关联性分析,选择高度相关的8种气象因子作为输入变量,从而大大提高模型训练的速度,降低模型的冗余程度;采用2016—2021 年的气象和土壤水分观测数据,保证训练模型的数据充足,再通过BiLSTM 神经网络的学习过程对各项输入进行权重设置,最终形成高效的RF-BiLSTM模型。
本研究提出的RF-BiLSTM 模型为土壤墒情预报预测提供了技术指导,为实现农业灌溉智慧化提供数据支撑,为多变量时间序列的预测和建模提供了指导方向。